Professional Documents
Culture Documents
PARIS 6
THESE
DE DOCTORAT DE LUNIVERSITE
Specialite :
Acoustique
Sujet de la th`ese :
Presentee par
Guillaume VANDERNOOT
pour obtenir le grade de docteur de luniversite Paris 6
Directeur de th`ese
Rapporteur
Examinateur
Rapporteur
Examinateur
Examinateur
((
Remerciements
Jexprime ma profonde reconnaissance a` M. Rene Causse pour mavoir fait decouvrir lacoustique
musicale, et mavoir accueilli a` lIRCAM comme stagiaire en 1993.
Jadresse mes remerciements a` M. Jean-Dominique Polack pour avoir accepte de participer a` mon
jury de th`ese, et plus particuli`erement a` MM. Jacques Jouhaneau et Xavier Meynial qui ont accepte
dexaminer mon travail et den e tre les rapporteurs.
Je remercie le laboratoire dacoustique des salles de lIRCAM pour mavoir permis de beneficier de
ses moyens et de son environnement scientifique, et tout specialement Jean-Marc Jot, initiateur du projet.
Je remercie la Direction de la Recherche de RENAULT pour la confiance quelle ma temoigne en
me confiant ce projet, ainsi que lAssociation Nationale pour la Recherche Technique, pour le soutien
quelle lui a apporte a` travers une convention CIFRE. Jai ainsi pu mener, dans des conditions materielles
satisfaisantes, une activite de recherche scientifique dans un contexte industriel, au sein duquel jai pu
mepanouir. Jai eu grand plaisir a` collaborer avec Olivier Dumeaux, Alain Claes, Bernard Andre, JeanXavier Dubois, Mathieu Pauchet, et Alexandre Heidet.
Le Chevalier, pour nos
Je souhaite temoigner mon amitie et une reconnaissance particuli`ere a` Eric
discussions chaleureuses, et pour notre e troite collaboration au sein du departement e lectronique de la
Direction de la Recherche.
Mes pensees vont e galement vers Mme Catherine Oudin, qui a favorise lach`evement de cette th`ese.
Mes remerciements vont aussi a` Olivier Lartillot, qui ma aide dans le travail de metrologie dans le
cadre dun stage ; et jexprime ma reconnaissance a` M. Angelo Farina pour laide quil a pu nous apporter a` cette occasion.
Je souhaite remercier tout specialement Mme Suzanne Winsberg pour son aide precieuse en statistique.
Je ne saurais oublier Philippe Derogis, chercheur en acoustique, pour ses genereux conseils en informatique, ainsi que lequipe informatique de lIRCAM qui assure le fonctionnement optimal de nos
outils de travail... et qui supporte jour apr`es jour nos remarques nerveuses et parfois desobligeantes.
Jexprime ma sympathie a` Gerard Bertrand pour nos nombreuses discussions a` propos de Fenetre9x,
et pour laide technique quil a pu mapporter dans la preparation des seances de mesure.
Je remercie e galement les autres thesards et stagiaires de lIRCAM, et plus particuli`erement Laurent
Cerveau pour sa serenite, Federico Cruz pour son dynamisme, Alban Bassuet pour sa fougue... sans oublier Veronique Larcher pour sa spontaneite, son joli sourire, et nos e changes marachers.
Je me tourne enfin vers Olivier Warusfel, qui, a` la suite de Jean-Marc Jot, a pris la responsabilite
de guider mes travaux ; davoir tente de meduquer, dans la bonne humeur, a` une demarche scientifique
rigoureuse, je lui serai toujours reconnaissant.
Et je termine par un grand merci a` toutes les personnes qui, par leur impatience, mont pousse a`
terminer la redaction de ce document.
Resume
Cette th`ese est dediee a` lanalyse et a` loptimisation de la reproduction dun signal audio a` linterieur des habitacles de voiture. Le nombre de transducteurs e lectroacoustiques a` linterieur dun
habitacle de vehicule automobile sest considerablement accru ces derni`eres annees avec le developpement de nouveaux produits tels que les telephones mains libres ou les dispositifs a` commande
vocale. Mais la principale fonction audio reste sans nul doute la diffusion du signal provenant de
lautoradio. Comme la perception du bruit de roulement est de plus en plus reduite a` linterieur des
vehicules modernes, la qualite de la reproduction sonore est devenue un enjeu important pour les
concepteurs de vehicules. Ce travail aborde le probl`eme sur laspect de la metrologie, de la caracterisation objective, de levaluation perceptive et du traitement du signal applique a` la correction de
limage spectrale et spatiale du signal sonore.
Concernant laspect metrologique, une nouvelle procedure de mesure de reponses impulsionnelles acoustiques est presentee. En particulier, on e tudie et demontre la possibilite de realiser une
mesure asynchrone, cest-`a-dire avec un dispositif denregistrement decouple du dispositif de lecture ; un protocole de mesure enti`erement automatique est developpe.
Le travail de caracterisation objective des conditions decoute est mene a` partir dune base de
donnees enregistrees dans un grand nombre de vehicules et avec plusieurs dispositifs microphoniques. Les reponses impulsionnelles sont ensuite analysees sous langle de leur distribution tempsfrequence en e nergie. Differents indices objectifs sont e tudies afin de rendre compte de la qualite de
la restitution audio dans le domaine temporel, frequentiel et spatial.
La conduite de tests perceptifs dedies a` la comparaison des vehicules ou levaluation de traitements audio requiert le developpement prealable dune plate-forme de restitution en laboratoire. Afin
de reproduire aussi fid`element que possible les conditions decoute en vehicule, cette plate-forme est
basee sur le mode de restitution binaural. Cependant, les mecanismes rentrant en jeu dans ce principe dependent fortement de lauditeur ; nous recherchons la meilleure strategie pour assurer une
reproduction au casque aussi proche que possible de lecoute individuelle en vehicule. Differentes
corrections des reponses impulsionnelles binaurales effectuees sur un mannequin acoustique sont
e tudiees et comparees pour determiner celle qui permet la meilleure approximation des conditions
decoute reelles. Cette solution est validee par un test decoute perceptif realise a` linterieur dun
vehicule.
A la suite des observations effectuees lors de lanalyse objective, nous e tudions differents traitements visant a` optimiser la qualite de lecoute. Notamment, lanalyse temps-frequence des reponses
impulsionnelles, laisse supposer quil est necessaire de mener une e galisation spectrale separee pour
le son direct et pour leffet dhabitacle ; cette hypoth`ese est confirmee par un test decoute perceptif
realise en laboratoire. Pour la correction de limage spatiale, nous e tudions la possibilite de restaurer
les conditions decoute ideales de la stereophonie classique, en nous basant sur le principe de creation
de haut-parleurs virtuels. A cette occasion, nous developpons une technique dinversion de reponse
impulsionnelle mettant en uvre un principe de regularisation. Enfin, nous proposons plusieurs solutions permettant daugmenter la largeur apparente de la source et la sensation denveloppement
sonore.
Tous les traitements proposes ont e te implantes dans un environnement logiciel fonctionnant en
temps reel et permettant de tester la pertinence de la modification envisagee. Un syst`eme modulable a
e te developpe, dont letage de traitements peut e tre connecte soit au dispositif e lectroacoustique reel
dun vehicule, soit a` un environnement de simulation de la restitution audio embarquee. Ce syst`eme
permet une comparaison instantanee entre le dispositif e lectroacoustique dorigine et celui modifie.
`
TABLE DES MATIERES
Introduction
Caracterisation objective
I.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
I.2 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
I.3 Mesure de reponses impulsionnelles . . . . . . . . . . . . . . . . . . . . . . . . .
I.3.1 Presentation des differentes techniques . . . . . . . . . . . . . . . . . . .
I.3.1.1
Principe general . . . . . . . . . . . . . . . . . . . . . . . . . .
I.3.1.2
Les sequences de longueur maximale . . . . . . . . . . . . . . .
I.3.1.3
Balayage frequentiel . . . . . . . . . . . . . . . . . . . . . . . .
I.3.1.4
Comparaison des methodes . . . . . . . . . . . . . . . . . . . .
I.3.1.5
Utilisation dans le contexte automobile . . . . . . . . . . . . . .
I.3.2 Dispositifs decouples . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
I.3.2.1
Premi`ere approche . . . . . . . . . . . . . . . . . . . . . . . . .
I.3.2.2
Estimation du decalage des frequences dechantillonnage . . . .
I.3.2.3
Modification de la frequence dechantillonnage . . . . . . . . .
I.3.2.4
Prise en compte des retards relatifs de propagation . . . . . . . .
I.3.2.5
Validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
I.4 Description de la reponse impulsionnelle . . . . . . . . . . . . . . . . . . . . . . .
I.4.1 Considerations generales . . . . . . . . . . . . . . . . . . . . . . . . . . .
I.4.1.1
Premi`eres reflexions . . . . . . . . . . . . . . . . . . . . . . . .
I.4.1.2
Reverberation tardive . . . . . . . . . . . . . . . . . . . . . . .
I.4.2 Description temps-frequence de la reverberation . . . . . . . . . . . . . .
I.4.2.1
Analyses temps-frequence . . . . . . . . . . . . . . . . . . . . .
I.4.2.2
Analyses statistiques . . . . . . . . . . . . . . . . . . . . . . . .
I.4.2.3
Mod`ele stochastique temps-frequence de la reverberation tardive
I.4.3 Comportement en basses frequences . . . . . . . . . . . . . . . . . . . . .
I.5 Analyse temps-frequence de reponses impulsionnelles dhabitacle . . . . . . . . .
I.5.1 Protocole de mesure . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
I.5.2 Temps de reverberation . . . . . . . . . . . . . . . . . . . . . . . . . . . .
I.5.3 Densite spectrale de puissance initiale . . . . . . . . . . . . . . . . . . . .
I.5.4 Decroissance temporelle de lenergie . . . . . . . . . . . . . . . . . . . .
I.5.5 Repartition spatiale de lenergie . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
7
7
9
9
9
10
17
24
26
26
26
28
34
36
40
42
42
42
42
45
45
49
52
55
57
58
59
62
63
65
I.6
68
71
II Restitution binaurale
II.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
II.2 Simulation binaurale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
II.2.1 Cadre de letude . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
II.2.2 Formulation generale . . . . . . . . . . . . . . . . . . . . . . . . . . .
II.2.3 Differentes corrections possibles . . . . . . . . . . . . . . . . . . . . .
` partir des BIR mesurees sur nos propres oreilles . . . . . .
II.2.3.1 A
` partir des BIR mesurees sur un autre individu . . . . . . .
II.2.3.2 A
II.2.4 Materiel disponible . . . . . . . . . . . . . . . . . . . . . . . . . . . .
II.3 Realisation, traitements et exploitation des mesures . . . . . . . . . . . . . . .
II.3.1 Realisation des mesures . . . . . . . . . . . . . . . . . . . . . . . . .
II.3.2 Traitements sur les mesures . . . . . . . . . . . . . . . . . . . . . . .
II.3.2.1 Decomposition des filtres . . . . . . . . . . . . . . . . . . .
II.3.2.2 Compensation de leffet de lenceinte de mesure . . . . . . .
II.3.2.3 Inversion de la reponse impulsionnelle dun casque decoute
II.3.2.4 Calcul et inversion de la HRTF en champ diffus ou pondere .
II.4 Optimisation du mode de reproduction . . . . . . . . . . . . . . . . . . . . . .
II.4.1 Methodologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
II.4.2 Test preliminaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
II.4.3 Choix des methodes degalisation . . . . . . . . . . . . . . . . . . . .
II.4.4 Comparaison objective . . . . . . . . . . . . . . . . . . . . . . . . . .
II.4.4.1 Dans une chambre anechoque . . . . . . . . . . . . . . . .
II.4.4.2 Dans lhabitacle . . . . . . . . . . . . . . . . . . . . . . . .
II.4.5 Modalites du test decoute . . . . . . . . . . . . . . . . . . . . . . . .
II.4.6 Protocole experimental . . . . . . . . . . . . . . . . . . . . . . . . . .
II.4.7 Analyse statistique classique . . . . . . . . . . . . . . . . . . . . . . .
II.4.7.1 Impressions generales . . . . . . . . . . . . . . . . . . . . .
II.4.7.2 Analyse des distributions des jugements de dissemblance . .
II.4.7.3 Analyse de variance . . . . . . . . . . . . . . . . . . . . . .
II.4.7.4 Ordonnancement des stimuli . . . . . . . . . . . . . . . . .
II.4.7.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . .
II.4.8 Analyse multidimensionnelle . . . . . . . . . . . . . . . . . . . . . .
II.4.8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . .
II.4.8.2 Analyse sur la moyenne des sujets . . . . . . . . . . . . . .
II.4.8.3 Analyse prenant en compte chaque sujet . . . . . . . . . . .
II.4.8.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . .
II.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
73
73
74
74
74
75
75
76
78
78
79
79
80
80
82
84
84
84
85
86
87
88
91
95
98
101
101
101
106
106
108
109
109
110
115
119
119
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
121
121
122
122
122
124
125
126
126
127
.
.
.
.
.
.
.
.
.
ii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
III.3
III.4
III.5
III.6
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Conclusion
130
130
131
137
143
144
145
148
148
148
150
151
152
154
157
160
162
163
170
173
176
176
181
184
188
188
188
191
195
195
195
195
196
200
200
203
203
206
207
209
A Materiel de mesure
213
A.1 Le microphone a` directivite variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
B Methodes danalyse statistique
B.1 Analyse statistique classique . . . . . . . . . . . . . . . . . . . . . . . . . . .
B.1.1 La methode des comparaisons par paires et le mod`ele de Bradley-Terry
B.1.2 Lanalyse de variance . . . . . . . . . . . . . . . . . . . . . . . . . . .
B.1.3 La technique du bootstrap . . . . . . . . . . . . . . . . . . . . . . . .
B.2 Methodes multidimensionnelles . . . . . . . . . . . . . . . . . . . . . . . . .
iii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
217
217
217
219
220
223
B.2.1
B.2.2
B.2.3
B.2.4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
223
225
226
230
C Filtrage numerique
C.1 Filtrage lineaire des signaux a` temps discret . . . . . . . . . . .
C.1.1 Definitions . . . . . . . . . . . . . . . . . . . . . . . .
C.1.2 Equation
lineaire aux differences a` coefficients constants
C.1.3 Proprietes . . . . . . . . . . . . . . . . . . . . . . . . .
C.1.4 La cellule dordre deux . . . . . . . . . . . . . . . . . .
C.1.5 Structures des filtres . . . . . . . . . . . . . . . . . . .
C.1.6 Synth`ese dun filtre non recursif . . . . . . . . . . . . .
C.1.7 Synth`ese dun filtre recursif . . . . . . . . . . . . . . .
C.1.8 Lissage frequentiel . . . . . . . . . . . . . . . . . . . .
C.1.9 La technique du warping . . . . . . . . . . . . . . . . .
C.2 Transformee de Fourier a` court terme . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
233
233
233
234
234
237
238
239
240
243
245
249
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
acoustiques
. . . . . . .
. . . . . . .
. . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
251
251
251
251
257
258
264
264
273
279
.
.
.
.
283
283
284
287
288
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
291
iv
Introduction
ACOUSTIQUE
A QUALIT E
Introduction
reduit. Bien que la reponse acoustique de lhabitacle montre un phenom`ene de decroissance de lenergie,
les hypoth`eses communement admises pour lanalyse du champ reverbere ne sont ici plus respectees,
en tous cas sur une grande plage de frequences. Par ailleurs, les sources sont integrees a` des parois qui
ont une masse et une rigidite faible, et par conduction solidienne, celles-ci entrent en vibration ; on ne
peut donc pas les considerer comme des parois a` reaction locale. De plus, lensemble des sources et
des parois se trouvent au voisinage immediat de lauditeur. Aussi, les theories classiquement utilisees
pour modeliser les proprietes dune salle ne sont plus adaptees. Sans chercher a` modeliser le comportement acoustique de lhabitacle, nous nous attacherons cependant a` la caracterisation de la qualite du
point decoute, premi`ere e tape necessaire pour envisager des methodes doptimisation. Cette caracterisation objective sera menee avec des outils classiques comme lacquisition de reponses impulsionnelles,
et lanalyse de la distribution temps-frequence ou de la distribution spatiale de lenergie. Dans un second
temps, en nous fondant sur lhypoth`ese de linearite des phenom`enes observes, et sans chercher loptimisation de lhabitacle lui-meme, nous e tudierons les possibilites de correction de la qualite decoute en
traitant le signal diffuse par le syst`eme e lectroacoustique.
La caracterisation objective ne peut se suffire a` elle-meme et lauditeur reste le maillon final de la
chane. La pertinence des mesures doit donc e tre validee par des tests decoute subjectifs. La necessite
de comparer de facon immediate differents habitacles de vehicule ou differents traitements correctifs
impose le developpement prealable dune plate-forme de restitution en laboratoire. Celle-ci doit permettre de restituer aussi fid`element que possible la qualite acoustique dun habitacle. La methode la
plus appropriee est basee sur la captation et la synth`ese de reponses binaurales de vehicules integrant,
le cas e cheant, les traitements correctifs. Du point de vue de lanalyse perceptive, leffet dhabitacle
que lon peut observer seloigne de lacoustique des salles par les ordres de grandeur de certains phenom`enes, principalement la distribution modale et le taux de decroissance de lenergie. Cependant, on
peut supposer que les indices perceptifs qui vont e tre juges par lauditeur restent identiques (precision
de localisation, sensation denveloppement, balance spectrale, etc.), meme si, compte tenu du contexte
particulier, ses attentes subjectives peuvent e tre differentes (necessite accrue de la sensation denveloppement pour (( effacer )) subjectivement les limites de lhabitacle). Sans consacrer une e tude specifique
a` la caracterisation perceptive dans le contexte dun habitacle, nous nous attacherons a` la perception
de certaines caracteristiques de la distribution temps-frequence et aux principaux facteurs lies a` limage
spatiale, tels que la precision de localisation de la source et la sensation denveloppement. Les facteurs
cognitifs qui determinent la qualite dun syst`eme audio embarque sont sans doute plus importants que
ceux existant pour une installation domestique ; la qualite reelle et la qualite presupposee dun e quipement audio doivent e tre couplees avec lapparence visuelle et le prestige du vehicule. Dans notre e tude
cependant, nous adopterons une demarche exclusivement basee sur la perception auditive, sans traiter les
eventuelles interactions avec les aspects visuels et cognitifs.
La premi`ere partie de cette e tude est consacree a` la caracterisation objective de la chane audio
et de la qualite acoustique de lhabitacle. La propagation dun signal sonore dans une salle est decrite
comme une transmission a` travers un syst`eme lineaire et invariant dans le temps, enti`erement caracterise
par sa reponse impulsionnelle causale. Nous rappellerons quil existe plusieurs techniques permettant
dobtenir cette reponse impulsionnelle. La plus connue est lutilisation de sequences de longueur maximale [25], qui sont des signaux deterministes dont lautocorrelation est celle dun signal aleatoire. Une
autre technique, voisine de la spectrometrie a` filtrage decale, consiste a` utiliser une sinusode de frequence glissante [258] ; une nouvelle methode a recemment fait son apparition [80], basee e galement
sur lutilisation dun balayage frequentiel, mais permettant dobtenir la reponse impulsionnelle a` laide
dune seule operation.
Ces techniques ont en commun quil est necessaire deffectuer une lecture et un enregistrement synchrones, c.-`a-d. avec le meme dispositif. Or cette contrainte est genante dans le contexte automobile,
puisquil est necessaire dacceder aux connexions e lectriques des haut-parleurs. Une solution plus pratique serait de stocker le signal de mesure sur un disque compact, et dutiliser le lecteur de lautoradio ;
Introduction
lenregistrement du signal capte par le microphone de mesure serait alors directement effectue sur le
disque dur dun ordinateur. En outre, il devient possible dinclure dans la mesure la fonction de transfert
de lamplificateur de lautoradio. Malheureusement, le dispositif de lecture et le dispositif denregistrement ont une frequence dechantillonnage differente. Il est donc necessaire, dune part, destimer la
difference de frequence dechantillonnage entre les deux dispositifs, dautre part, de resynchroniser le
signal enregistre par rapport au signal e mis, avant deffectuer les traitements adequats. Une procedure
automatique sera developpee a` cette occasion, et nous verrons quil est possible de recuperer les retards
de propagation relatifs lorsque plusieurs haut-parleurs sont mesures de mani`ere sequentielle.
Une campagne de mesures dans differents vehicules sera effectuee afin de constituer une base de
donnees destinee simultanement a` dresser un paysage de lexistant et a` verifier ladequation des procedures danalyse. Cette base de donnees comportera des vehicules de marque RENAULT , mais aussi de
marque concurrentes. Pour chaque vehicule, les mesures seront effectuees aux quatre places principales,
pour chaque haut-parleur et avec trois syst`emes de prise de son differents : microphone omnidirectionnel
& KJR , tete artificielle HEAD ACOUSTICS et microphone S OUNDFIELD .
BR UEL
Nous nous interesserons ensuite a` lanalyse de ces reponses impulsionnelles acoustiques. Etant
donne les differences dordre de grandeur de letalement temporel des reponses impulsionnelles mesurees dans un habitacle de vehicule par rapport a` celles mesurees dans des salles de concert, les indices
classiques de lacoustique des salles sont inapplicables. Nous nous concentrerons donc sur lanalyse
temps-frequence de ces reponses impulsionnelles [139, 310]. Outre le temps de reverberation et le spectre
initial de puissance, il est possible de caracteriser frequentiellement le son direct, le champ reverbere, et
le rapport entre les deux. De plus, nous presenterons plusieurs indices permettant de rendre compte de la
qualite de la restitution sonore dans le domaine temporel et dans le domaine spatial.
Ces travaux de caracterisation doivent permettre de degager des pistes concernant les traitements a`
mettre en uvre pour ameliorer lecoute dun signal audio dans les habitacles de voiture.
Une seconde partie de letude sera consacree a` la validation dune procedure dauralisation de la
qualite acoustique de lhabitacle permettant de mener des tests subjectifs sur la base de stimuli auditifs
reconstruits a` partir de la mesure de reponses impulsionnelles binaurales dans le vehicule.
Pour des raisons pratiques, le choix du dispositif de restitution sest porte sur un casque decoute :
on parle de simulation binaurale [205]. Sous certaines conditions restrictives, le rendu acoustique peut
e tre exact : le signal de pression arrivant aux tympans de lindividu et e mis par le casque est identique a`
celui qui lui serait parvenu sil setait trouve dans le champ acoustique reel. Malheureusement, les conditions necessaires a` cette exactitude sont tr`es reductrices, puisquelles supposent de mesurer les reponses
impulsionnelles binaurales de chaque individu. A partir de mesures realisees avec un dispositif permettant dobtenir des mesures reproductibles, en loccurence un mannequin acoustique, nous chercherons a`
optimiser le syst`eme de prise de son et de restitution en mode binaural, afin quil reste valide pour le plus
grand nombre dindividus [178].
Afin de determiner la methode de reproduction respectant le plus fid`element possible, et de mani`ere
individuelle, les conditions decoute naturelle en vehicule, nous m`enerons une e valuation objective et
perceptive des differentes solutions envisagees. Nous realiserons un test decoute in situ qui nous permettra de comparer, dune part, lecoute du champ sonore reel de lhabitacle, et dautre part, le champ
sonore reconstruit a` partir de mesures de reponses impulsionnelles binaurales et diffuse par un casque
decoute ; differents traitements seront appliques sur ces reponses impulsionnelles binaurales, dans le but
dobtenir une restitution la plus fid`ele possible. Grace a` une analyse statistique multidimensionnelle des
resultats du test decoute, nous verrons quil est possible de determiner avec precision le traitement le
plus adequat.
La troisi`eme partie de cette th`ese est consacree a` la mise en place de traitements e lectroniques
visant a` ameliorer la qualite de lecoute dans un habitacle de voiture. Plusieurs aspects seront abordes :
Introduction
Nous nous interesserons, dans un second temps, a` la correction de limage sonore. Etant
donnee
la position de lauditeur par rapport au syst`eme e lectroacoustique, il est difficile davoir une perception correcte de lespace sonore, en tout cas celui qua voulu creer lingenieur du son ou le technicien
metteur en ondes. Il sagit donc ici de recreer des conditions decoute qui permettent de percevoir fid`element limage sonore (aussi bien dans son ensemble que pour chacune de ses composantes), en restaurant
les conditions ideales decoute de la stereophonie. Pour cela, nous utiliserons la technique du PanPot
binaural-transaural, et nous simulerons deux sources virtuelles a` 30o . Plus generalement, nous ouvrons
la voie a` la possibilite de diffuser des messages autrement que de mani`ere frontale, en donnant la possibilite dacceder a` lensemble de la sph`ere auditive ; cette demande est recurrente dans les interfaces
homme-machine. La synth`ese binaurale (c.-`a-d. la simulation de la localisation de sources sonores en
trois dimensions un utilisant les proprietes frequentielles du codage directionnel de loreille humaine)
permet une reproduction sonore tridimensionnelle sur deux haut-parleurs a` condition que le signal binaural soit decode au travers dune matrice de filtrage inverse ; cette technique, dite transaurale, a pour effet
dannuler londe acoustique transmise de chaque haut-parleurs vers loreille opposee [46]. La principale
difficulte provient du fait que cette technique est theoriquement e tudiee pour e tre e coutee en chambre
anechoque. Meme si la reverberation naturelle dun habitacle automobile peut e tre consideree comme
faible, elle nest pas compl`etement absente, et la presence de reflexions prononcees nuit considerablement a` la qualite de la reproduction. Il faut donc inverser lacoustique de lhabitacle, ce qui a pour effet
de detruire virtuellement les chemins acoustiques entre les haut-parleurs physiques et les oreilles de lauditeur ; il devient alors possible de creer dautres sources sonores virtuelles. Letape inversion consiste
a` calculer un filtre qui, convolue avec la reponse impulsionnelle de depart, fournira un signal le plus
proche possible dune impulsion-unite. Malheureusement, nous verrons quil nexiste pas de solution
mathematique exacte, car celle-ci exhibe des filtres non causaux a` reponse impulsionnelle infinie [224] ;
il faut donc avoir recours a` une approximation. Une difficulte supplementaire provient du fait que la position de lauditeur nest pas symetrique par rapport au syst`eme e lectroacoustique a` inverser ; les schemas
classiques et simplificateurs ne peuvent donc plus sappliquer.
Enfin, nous chercherons a` augmenter la sensation despace, pour le moins reduite dans un aussi
faible volume. Nous ferons la distinction entre la sensation despace associee a` la source sonore, encore
appelee largeur apparente de la source, et la sensation despace associee a` la salle, encore appelee enveloppement sonore [215]. Comme il est demontre dans la litterature, la largeur apparente de la source est
liee a` la presence de reflexions precoces laterales ; alors que lenveloppement sonore est lie au rapport
e nergetique entre lavant et larri`ere, au rapport e nergetique entre le son direct et le champ reverbere et au
temps de reverberation. Plusieurs solutions seront testees pour augmenter aussi bien la largeur apparente
de la source que lenveloppement sonore.
Introduction
Tous les traitements presentes sont implantes de mani`ere logicielle dans un environnement temps
reel dedie a` laudio ; comme lauditeur demeure le seul juge, il nous a semble important de ne pas
negliger cet aspect. La pertinence perceptive des differents traitements peut e tre evaluee directement a`
linterieur dun vehicule, par le biais de comparaisons avec le syst`eme dorigine ; mais le dispositif peut
e galement e tre connecte a` une plate-forme de simulation en laboratoire, ce qui permet deffectuer des
comparaisons auditives detachees de toute influence visuelle.
Page blanche
CHAPITRE I
Caracterisation objective
I.1 Introduction
La premi`ere e tape de cette th`ese est orientee vers la caracterisation objective de la chane audio et de
la qualite acoustique de lhabitacle. Cette phase sera loccasion de faire un bilan des techniques de mesure de reponse impulsionnelle au regard de certaines contraintes pratiques liees au contexte de mesure.
En particulier, nous e tudierons et demontrerons la possibilite de realiser une mesure asynchrone, cest-`adire avec un dispositif denregistrement decouple du dispositif de lecture. Ce travail sest poursuivi chez
Renault par un stage qui a permis lecriture dune procedure de mesure automatique (detection de derive
dhorloge dechantillonnage, conversion de frequence dechantillonnage, et recuperation des temps de
propagation relatifs entre plusieurs sources mesurees de mani`ere sequentielle).
Un ensemble dindices objectifs sera ensuite calcule a` partir des reponses impulsionnelles mesurees dans un grand nombre de vehicules avec trois capteurs differents : microphone omnidirectionnel,
mannequin acoustique et microphone a` directivite variable. Les mesures effectuees avec un microphone
omnidirectionnel seront analysees a` laide dune procedure permettant de calculer une distribution tempsfrequence. La recherche dinformations sur la distribution directionnelle de lenergie a` linterieur de
lhabitacle a recours soit aux mesures effectuees avec la tete artificielle soit aux mesures directionnelles
accessibles avec le microphone a` directivite variable.
Si lon tente de caracteriser leffet dhabitacle par un temps de reverberation associe, on observe des
valeurs extremement faibles (de 150 a` 50 ms variant peu avec la frequence) et differant peu entre vehicules. Il faut cependant souligner que, en dessous dune certaine frequence, lanalyse temps-frequence
est delicate, car on ne rentre plus dans le cadre du formalisme sous-entendu : la densite frequentielle de
modes est faible (`a cause du volume reduit) et, par consequent, les isofrequences du relief de decroissance
sont parfois peu assimilables a` des exponentielles decroissantes.
Outre le temps de reverberation et le spectre initial de puissance, il est possible de caracteriser
frequentiellement le son direct, le champ reverbere et le rapport entre les deux. En dautres termes, on
peut separer linformation de timbre entre la puissance rayonnee par la source, et la caracteristique propre
de lhabitacle. Nous verrons que les spectres de lenergie du son direct et du champ reverbere peuvent
presenter de fortes variations.
I.2 Definitions
Lensemble des transformations subies par un signal sonore depuis son e mission jusqu`a sa reception
peut e tre vu comme une transmission dondes sonores dans un canal acoustique [96]. On suppose que
dB
son direct
effet de salle
premieres reflexions
reverberation tardive
temps
celui-ci se comporte comme un syst`eme lineaire invariant dans le temps. Lequation de convolution entre
le signal e mis x t , la reponse impulsionnelle de ce syst`eme h t et le signal recu y t secrit
()
()
+1
y(t) = x(t) h(t) =
h(u)x(t
Z
()
u)du .
(I.1)
Le comportement du canal acoustique est donc compl`etement determine par sa reponse impulsionnelle
causale h t . Si le syst`eme nest pas lineaire, c.-`a-d. si lon desire prendre en compte les e ventuelles
distorsions harmoniques, on ne peut plus appliquer tel quel le principe de la convolution [76].
Dans un lieu clos, la presence de parois et dobstacles entrane lexistence de trajets multiples de
durees differentes entre la source et le recepteur : cest le phenom`ene de reverberation. Il se traduit par
la superposition du son direct et des contributions des autres trajets : le son direct nayant subi aucune
reflexion, les contributions des autres trajets formant leffet de salle. La reponse impulsionnelle rassemble
lensemble de ces contributions ; elle varie avec les positions de la source et du recepteur, a` linterieur du
meme espace : la qualite acoustique du canal acoustique nest pas la meme en tout point de lespace. Le
canal acoustique est ainsi defini par un ensemble de param`etres que lon regroupe en trois categories :
la salle, definie par la geometrie et les materiaux des murs et des obstacles ;
la source, definie par sa position, son diagramme de rayonnement, son orientation et son e tendue ;
le recepteur (microphone ou oreille), defini par sa position, son diagramme de directivite et son
orientation.
La figure I.1 presente lechogramme type h2 t dune reponse impulsionnelle enregistree dans une
salle. On distingue les contributions du son direct et de leffet de salle. Dans leffet de salle, on distingue encore les reflexions precoces, separees dans le temps, et un (( continuum )) percu comme une
tranee sonore, que lon appelle reverberation tardive. Elle peut e tre consideree comme perceptivement
caracteristique de la salle et de la puissance rayonnee par la source, independamment des positions et
orientations de la source et du recepteur. On remarquera que lenergie de la reverberation tardive decrot
lineairement en decibels.
Prenons le cas dune salle de concert, comme par exemple la Philarmonie de Berlin, et considerons
la reponse impulsionnelle entre un haut-parleur situe sur la sc`ene face au chef dorchestre, et un micro
place dans la salle, face au haut-parleur, a` une distance de 16 m`etres (fig. I.2(a)) ; les premi`eres reflexions
sont facilement identifiables sur lechogramme, et on peut considerer que la reverberation debute environ 100 ms apr`es le son direct ; le temps de reverberation moyen est superieur a` 2 secondes. Les ordres
de grandeur de ces quantites sont radicalement modifies dans un habitacle automobile ; ainsi, dans une
berline de moyenne gamme comme la Laguna, entre le haut-parleur avant-gauche et un micro omnidirectionnel place approximativement au centre de la tete dun conducteur (fig. I.2(b)), il est impossible
didentifier les premi`eres reflexions, et on peut considerer que la reverberation debute entre 5 et 10 ms
apr`es le son direct (temps a` partir duquel debute la decroissance exponentielle de lenergie) ; le temps de
reverberation moyen est de 50 ms environ.
()
()
Philarmonie de Berlin
x 10
Laguna
1500
Amplitude en linaire
Amplitude en linaire
6
4
2
0
2
4
6
0.2
0.4
0.6
0.8
1.2
1.4
1.6
1.8
1000
500
0
500
1000
1500
20
0.04
0.06
0.08
0.1
0.02
0.04
0.06
0.08
0.1
Temps en seconde
0.12
0.14
0.16
0.18
0.12
0.14
0.16
0.18
0
Energie en dB
Energie en dB
0.02
20
0
20
40
60
80
20
40
60
0.2
0.4
0.6
0.8
1
1.2
Temps en seconde
1.4
1.6
1.8
80
Principe general
La methode la plus intuitive pour mesurer la reponse impulsionnelle est lenvoi dune impulsion
a` travers le canal acoustique (on suppose celui-ci lineaire). Mais on se heurte a` plusieurs difficultes
techniques.
Une onde de pression strictement impulsionnelle reste impossible a` generer. Quand bien meme on
arrive a` e mettre une onde de pression quasi-impulsionnelle (`a laide dun e clateur a` gaz ou dun pistolet),
il se pose des probl`emes de reproductibilite a` lidentique, et surtout de distribution uniforme de lenergie
sur une large bande de frequence. Et si on e met un signal impulsif a` laide dun haut-parleur, limpulsion
doit necessairement avoir une amplitude e levee, afin de garantir un rapport signal/bruit suffisant ; se pose
alors le probl`eme des non-linearites dans les haut-parleurs, probl`eme exacerbe par la distribution non
uniforme de lenergie, puisque la limitation de la linearite est imposee par la bande de frequence o`u il y
a le plus denergie.
Une autre approche consiste a` exciter le syst`eme avec du bruit. Comme lexcitation est appliquee
durant une longue duree, lenergie delivree au syst`eme pour une amplitude donnee est bien superieure ; le
probl`eme de dynamique est donc resolu. De plus, il est facile dassurer une uniformite de la distribution
e nergetique. La reponse impulsionnelle est alors deduite par intercorrelation entre le bruit dentree et le
signal de sortie [285]. Si le signal dexcitation x n est un bruit blanc, la reponse impulsionnelle h n
est fournie par la fonction dintercorrelation Cxy n entre le signal dentree x n et le signal de sortie
y n du syst`eme mesure : en effet, en regime stationnaire, on peut e crire
()
()
()
()
()
(I.2)
()
o`u represente loperation de convolution. En pratique, lintercorrelation Cxy n peut e tre estimee soit
par la methode du periodogramme moyenne, soit par celle du correlogramme [195, 261] ; dans les deux
cas, un temps dobservation relativement long est necessaire pour que la fonction dintercorrelation estimee se rapproche de la reponse impulsionnelle reelle.
Une methode astucieuse peut e tre mise en uvre grace aux sequences de longueur maximales, ou
MLS (Maximum Length Sequences), dont lautocorrelation poss`ede une propriete specifique [309].
Mais la deconvolution fonctionne avec nimporte quel signal, car il suffit de connatre les signaux
dentree et de sortie. Pour faire une mesure correcte, il suffit que le signal dentree ait de lenergie a` toutes
z 1
z 1
XOR
F IGURE I.3 Registre a` decalage binaire reboucle de longueur k = 3 capable de generer une sequence de
longueur maximale L = 7
les frequences. Il est donc e galement possible dutiliser comme signal dexcitation un sinus glissant. Un
avantage de cette approche est que lon peut choisir combien de temps passer a` chaque frequence, ce
qui permet denvoyer plus denergie aux frequences o`u il y a un bruit de fond important. Cette approche
sapparente a` la spectrometrie a` filtrage decale, ou TDS (Time Delay Spectrometry) [55, 259, 308].
I.3.1.2
La solution la plus courante est lutilisation dun signal dexcitation compose de sequences pseudoaleatoires [25, 146]. Les sequences pseudo-aleatoires sont des sequences de longueur maximale ; il sagit
k
de sequences periodiques de longueur L
, avec k entier positif : leur longueur nest donc pas une
puissance de deux. Ces signaux sont aisement produits a` laide dun registre a` decalage binaire reboucle
comportant k memoires, tel que celui presente figure I.3 [323]. Avec k memoires, on peut generer k
e tats differents, do`u lappellation (( sequences de longueur maximale )) (on ne compte pas letat o`u toutes
les memoires sont nulles, puisque le syst`eme reste fige). La sequence produite varie en fonction de la
position du rebouclage (mais pas en fonction de linitialisation des cellules memoires, puisquon effectue
une periodisation) ; il est possible de generer des sequences a` laide de plusieurs rebouclages. La position
du ou des rebouclages influence le comportement de la sequence, particuli`erement lorsque le syst`eme
nest pas parfaitement lineaire ; Vanderkooy [309] sugg`ere que certaines sequences sont meilleures que
dautres, et propose des positions preferentielles de rebouclages.
Letat 1 du registre a` decalage est mis au niveau logique -1, et letat 0 est mis au niveau +1 (la sequence est maintenant symetrique par rapport au niveau 0). Lavantage le plus important de ces sequences
est que leur fonction dautocorrelation circulaire est presque exactement une impulsion (mis a` part une
leg`ere erreur continue). En dautres termes, leur densite spectrale de puissance est uniforme (sauf pour
le continu) : bien quune sequence de longueur maximale soit un signal deterministe, elle partage les
proprietes dun bruit blanc, do`u lappellation (( pseudo-aleatoire )).
On a lhabitude dutiliser des sequences symetriques, c.-`a-d. comportant L
= termes e gaux a`
et L
= termes e gaux a` ; la sommme des L e chantillons de la sequence vaut alors .
Bien que la periode L des signaux ne soit pas une puissance de deux (ce qui interdit lutilisation de
lalgorithme de FFT), la correlation circulaire peut e tre calculee grace a` un algorithme rapide utilisant la
transformee de Hadamard sur des matrices de Sylvester [5, 6, 24, 25, 37]. Loperation dautocorrelation
est alors extremement simple, et ne requiert que des additions et des soustractions. Le cout de calcul est
environ de : L 2 L, avec L la longueur de la sequence.
=2 1
2 1
1 (
1) 2
( + 1) 2
+1
2 5 log
()
()
L (n) =
Cxy
L m=0
(I.3)
1 LX1 x(m
L m=0
10
(I.4)
Salle
amplificateur
gnrateur de squnces
pseudo alatoires
convertisseur N/A
intercorrlation
convertisseur A/N
h(n)
F IGURE I.4 Principe de la mesure dune reponse impulsionnelle avec des sequences pseudo-aleatoires
1 LX1 x(m
L m=0
n)x(m) =
L+1
(n)
L L
L
On verifie alors que la fonction dintercorrelation circulaire, definie par Cxy
L (n) =
Cxy
1 LX1 x(m
L m=0
1
o`u L1 L
m=0 h
montrer que
P
n)y(m) =
1.
(I.5)
= CxxL h, secrit
1 LX1 h(m) ;
L+1
h(n)
L
L m=0
(I.6)
L (m) =
Cxy
1 LX1 h(m) ,
(I.7)
L m=0
()
h(n) =
"
L+1
L
Cxy
(n) +
LX1
m=0
L
Cxy
(m)
(I.8)
Ainsi, a` la composante continue pr`es, la fonction de correlation entree-sortie est la reponse impulsionnelle cherchee, periodisee tous les L e chantillons (cf. fig. I.4). La reponse impulsionnelle peut donc
e tre calculee exactement sur une duree finie dune periode. Comme une MLS est en fait un signal deterministe, la reproductibilite de loperation est ainsi garantie au bruit ambiant pr`es [25].
Mais on peut montrer que ce calcul est inutile [270]. En effet, en definissant lintercorrelation circuL n non pas sous la forme donnee a` lequation (I.3), c.-`a-d. avec une division par L, mais plutot
laire Cxy
avec une division par L
, on obtient
()
+1
L (n) = h(n)
Cxy
= h(n)
PL
(m)
1 PL 1
1 PL 1
L m=0 h(m) + L(L+1) m=0 h(m)
L+1
m=0 h
(I.9)
Le deuxi`eme terme de la derni`ere e quation represente la composante continue de la reponse impulsionnelle. De meme pour le troisi`eme terme, mais elle est attenuee dune valeur L
. Le deuxi`eme terme
+1
11
retire donc la composante continue du premier terme, et le troisi`eme ajoute une tr`es faible valeur (ceci
dautant plus que la plupart des syst`emes audio ont une reponse sans composante continue). Il nest donc
pas necessaire de proceder au calcul de lequation (I.8). De plus, la composante continue peut e tre decalee par de la distorsion dordre paire [309].
Une autre facon de proceder peut e tre de considerer une MLS ainsi decalee [270]
x0 (n) = x(n)
1,
y(n)
= x0(n) ~ h(n)
= x(n) ~ h(n)
(I.10)
(n), c.-`a-d.
1
m=0 h(n m)
PL
(0)
( )
(I.11)
PL
(m) =
m=0 h
L (n)
Cxy
Longueur de la sequence et temps de mesure Pratiquement, lorsquon injecte une MLS dans un
syst`eme lineaire, le signal de sortie resulte dune convolution avec le signal dentree. Or la propriete
desirable de lautocorrelation des MLS ne voit le jour que sous couvert dune operation de convolution
circulaire. Le principe consiste donc a` e mettre au moins deux periodes de la MLS dans le syst`eme a`
mesurer, et a` ne pas enregistrer la premi`ere. Dautre part, il faut que la longueur de la MLS soit toujours
superieure a` la longueur de la reponse impulsionnelle a` mesurer ; dans le cas contraire les termes supplementaires se superposent aux premiers puisque la MLS est periodique. Si la reponse impulsionnelle est
de longueur infinie, il faut alors sassurer que ses e chantillons au-del`a de la longueur de la MLS soient
de faible amplitude.
Placons-nous dans le cas de la mesure dune reponse impulsionnelle de salle. Il est necessaire que
la sequence enti`ere, supposee de longueur suffisante, ait totalement excite la salle, et quun e tat stable
soit atteint ; quand on ne prend pas cette precaution, on effectue le calcul de lintercorrelation sur un
enregistrement qui ne contient pas toute linformation, do`u la presence dun bruit de fond nettement
superieur (cf. fig. I.5 1 ). Et comme la longueur de la sequence doit e tre superieure au temps de reverbera1. Ces mesures ont e te effectuees en introduisant une MLS (stockee sous forme de fichier informatique) dans le
Spatialisateur, et en enregistrant la sortie (egalement sous forme de fichier informatique) sur le meme ordinateur ; lintercorrelation circulaire entre les deux fichiers a e te calculee en temps differe sous Matlab. La dynamique maximale escomptee
est donc bien superieure a` celle obtenue avec une chane de mesure traditionnelle.
12
F IGURE I.5 Illustration de la necessite dattendre que letat stable du syst`eme a` mesurer soit atteint avant de
calculer lintercorrelation
tion, linformation contenue dans le debut de la sequence a disparu. Il ny a donc dautre possibilite que
demettre au moins deux fois la sequence, et de ne pas enregistrer la premi`ere.
Amelioration de la dynamique Pour ameliorer le rapport signal sur bruit de la mesure, il est conseille
demettre un grand nombre de fois la sequence, et de les moyenner avant de calculer lintercorrelation
[25, 270] (`a condition que le syst`eme a` mesurer et la frequence dhorloge soient stables dans le temps).
Lidee est que la reponse desiree sadditione de mani`ere coherente, alors que
p le bruit sadditione de
mani`ere incoherente : lamelioration du rapport signal/bruit est de lordre de N , o`u N est le nombre
` lorigine, ce principe e tait utilise pour la mesure de haut-parleurs a` laide
de periodes moyennees. A
de veritables impulsions [19]. Linconvenient de ce principe est que le temps necessaire pour realiser la
mesure est plus long.
Immunite au bruit Par la loi des grands nombres, on peut montrer que la densite de probabilite
du signal recu y n , c.-`a-d. une MLS filtree par le canal acoustique, est une gaussienne de moyenne
nulle [270].
()
B RUIT
STATIONNAIRE
La salle dont on mesure le canal acoustique nest pas en general totalement silencieuse ; elle presente
en general un bruit de frequence faible correspondant aux bruits exterieurs filtres par les parois de la
salle. Ceci est encore plus vrai dans le cas dun vehicule au repos, puisquil nest pas toujours possible
de realiser les mesures en placant le vehicule dans une chambre anechoque. Pour faire face a` cette
imperfection, on peut preaccentuer les frequences basses des MLS e mises, puis e galiser de nouveau le
signal a` la sortie [211, 270].
On peut ainsi filtrer les MLS e mises par un filtre de bruit rose. Non seulement limmunite aux
bruits est amelioree en basses frequences, mais en plus le signal dexcitation presente une densite de
probabilite quasi gaussienne dont le spectre en tiers doctave est ideal pour levaluation subjective dun
syst`eme audio.
Il est e galement bon dattenuer les frequences e levees du signal dexcitation e mis par les hautparleurs afin deviter une surchauffe (parfois fatale) des tweeters [210]. La preaccentuation peut e tre
13
Signal temporel
0
Energie en dB
20
40
60
80
100
3
Echantillons
6
4
x 10
Energie en dB
0
10
20
30
40
20
50
100
200
400
800
1500
Frquence en Hz
3000
5000
10000
20000
F IGURE I.6 Immunite au bruit ambiant lors de la mesure de reponses impulsionnelles par MLS
effectuee a` laide de la transformee de Hadamard inverse. Cette technique peut aussi e tre utilisee comme
methode de compensation des attenuations frequentielles dues aux distorsions de certains composants du
canal acoustique.
Mais lavantage de la technique de mesure de reponses impulsionnelles a` laide de sequences de
longueur maximale est quelle est relativement insensible au bruit ambiant, pourvu que celui-ci soit stationnaire et non correle (cf. fig. I.6). La dynamique maximale de la reponse impulsionnelle calculee avec
cette technique est theoriquement de 90 dB (c.-`a-d. la dynamique dun signal numerique stocke sur 16
bits avec un bit de signe). Pratiquement, la dynamique utile nexc`ede pas 70 dB au mieux. En effet, le
bruit ambiant nest jamais negligeable, et le niveau sonore demission des MLS ne peut jamais e tre au
moins 90 dB superieur au niveau de bruit ; de plus, la mesure par MLS est assez sensible aux variations
locales du champ sonore dans la salle, qui nest jamais veritablement stable, et les variations thermiques
jouent aussi un role perturbateur.
B RUIT
TRANSITOIRE
Les bruits transitoires sont bien matrises par cette methode de mesure [270]. Supposons un bruit
transitoire xt n en entree, on obtient en sortie, dapr`es lequation (I.4),
()
r(n) = xt (n) ~ x( n)
(I.14)
()
que lon peut considerer comme la sortie du filtre de reponse impulsionnelle xt n attaque par
Si le bruit transitoire en question est une impulsion xt n
n , alors on obtient en sortie
( )= ( )
r(n) =
1 x( n) ;
L+1
x( n).
(I.15)
tout bruit transitoire (clic) sera donc dissemine en sortie sur toute la reponse impulsionnelle calculee.
Non-linearites Leffet de faibles non-linearites dans une mesure MLS peut e tre modelise par un signal a` phase aleatoire, representant la somme de tous les ordres des produits dintermodulation presents
14
F IGURE I.7 Influence dun niveau demission trop e leve : saturation de la chane de mesure et diminution
drastique de la dynamique de la reponse impulsionnelle
a` la sortie du canal [270, 309]. On obtient de ce fait un signal aleatoire stationnaire. Son e nergie est
donc distribuee uniformement sur toute la periode de la reponse impulsionnelle calculee. Comme le
canal acoustique est un syst`eme transitoire, une partie tr`es importante de lenergie de sa reponse impulsionnelle est concentree au debut de la reponse calculee. On peut ainsi separer la reponse du canal des
non-linearites en ne considerant que les premiers e chantillons de la reponse.
G E N E RALIT E S
En analysant la presence de non-linearites dans le canal acoustique [65, 151, 268, 309], on peut
montrer que les distorsions dordre faible sont a` lorigine de la presence de petites impulsions irreguli`eres
observables surtout dans la partie stabilisee de la reponse impulsionnelle, c.-`a-d. dans le bruit de fond.
Ces irregularites ne ressemblent donc pas a` du bruit. Pour une MLS et un canal acoustique donnes,
la disposition de ces impulsions est fixe. Ce motif peut donc e tre considere comme une (( empreinte
digitale )) de la MLS attaquant ce canal. On peut attenuer ces irregularites a` laide dune moyenne de
differentes reponses impulsionnelles obtenues par des MLS differentes.
Des non-linearites peuvent e tre apportees par des saturations au niveau des transducteurs, ou par la
conversion numerique ! analogique lors de la generation du signal. Linfluence sur la dynamique de la
reponse calculee peut meme e tre catastrophique (cf. fig. I.7).
Pour e liminer linfluence de ces impulsions, il suffit de considerer une reponse impulsionnelle la
plus longue possible, par lutilisation dune MLS de grande periode. La reponse impulsionnelle se stabilisant rapidement, on peut tronquer cette reponse et ne garder que les premiers e chantillons, l`a o`u la
reponse na pas atteint le niveau de bruit de fond. Mais on peut e galement montrer quil faut trouver un
niveau optimal du signal dexcitation. Si lamplitude est trop grande, on observe ces distorsions ; et si
lamplitude est trop faible, le bruit de fond entache la mesure de la reponse impulsionnelle. Il ne faut
donc pas hesiter a` augmenter le nombre de periodes de MLS e mises, la mesure moyenne ayant tendance
a` diminuer le niveau de ce bruit centre.
L ES SE QUENCES
PE T E ES
INVERSEMENT R E
Une amelioration de la methode de mesure par MLS est lutilisation de sequence inversement repetees, ou IRS (Inverse Repeated Sequences) [65], definies par
x(n) =
x(n)
x(n)
pour n pair
pour n impair
15
; avec 0 n < L ,
(I.16)
F IGURE I.8 Reponse impulsionnelle calculee avec un appareil numerique pour la lecture, et un autre pour
lenregistrement, par la methode des MLS ; lecart relatif entre les deux frequences dhorloge
nest pourtant que de 2
(n) est une MLS de periode L. Lautocorrelation de ce signal est donnee par
( 1)n (n L) ; avec 0 n < L .
Cxx (n) = (n)
L+1
o`u le signal x
(I.17)
En calculant la reponse impulsionnelle par la meme methode que pour les MLS, on obtient en fait deux
fois la reponse impulsionnelle : une positive et une negative. Linteret de cette methode est quelle presente une tr`es importante immunite face a` la distorsion. En effet, elle e limine totalement les non-linearites
dordre pair. En revanche, elle est plus complexe a` mettre en uvre, et son defaut majeur est que lon ne
peut plus utiliser la transformee rapide de Hadamard.
Synchronisation des dispositifs demission et de reception Il est absolument necessaire que les signaux demission et de sortie soient parfaitement synchronises, c.-`a-d. alignes sur le meme signal dhorloge. En dautres termes, cela veut dire que lemission et lenregistrement doivent e tre effectues par
la meme carte e lectronique. Un decalage dhorloge extremement faible suffit a` diminuer le rapport signal/bruit de la reponse calculee dans des proportions tr`es importantes, voire a` rendre la mesure totalement inexploitable (cf. fig. I.8) ! Ce defaut a e te e tudie par Vanderkooy [309] qui montre quune variation
temporelle du canal acoustique ou une gigue de lechantillonnage va effectivement induire un bruit uniformement reparti sur la reponse impulsionnelle. Plus precisement, Svensson [303] met en evidence, par
modelisation, par simulation et par mesures reelles, les effets dun ralentissement, dune acceleration,
voire dune oscillation de lechelle temporelle de la reponse du canal acoustique. Concr`etement, on peut
discerner deux type de variations temporelles.
Les variations temporelles a` long terme sont les variations observables dune periode a` lautre de la
MLS, voire a` une plus grande e chelle ; cest donc une evolution lente de lechelle temporelle. Dans le
cas qui nous interesse, c.-`a-d. la non-synchronisation des horloges des deux convertisseurs, on peut ainsi
prevoir une variation lente du rapport entre les deux frequences dechantillonnage.
Les variations temporelles a` court terme sont les variations a` lechelle dune seule periode de
MLS. Cela peut donc inclure la gigue de lechantillonnage, c.-`a-d. une regularite non parfaite des instants dechantillonnage ou dinterpolation. Ce phenom`ene peut e galement se presenter en cas de nonsynchronisation des deux dispositifs.
Dans les deux cas, on observe un bruit particulier qui crot de 6 dB par octave, lorsque lon consid`ere
la difference entre le spectre ideal et le spectre reel. Ce bruit peut e tre attenue en moyennant plusieurs
mesures. Est e galement presente une composante de bruit a` 12 dB par octave entre le spectre des syst`emes
16
variant et non variant ; cette deuxi`eme composante ne peut pas e tre attenuee en moyennant plusieurs
mesures.
Conclusion La mesure de reponses impulsionnelles acoustiques a` laide de sequences de longueur
maximale est une technique efficace qui permet datteindre un rapport signal/bruit confortable, et ce de
mani`ere rapide et reproductible.
De nombreuses realisations commerciales ont vu le jour, utilisant soit une carte e lectronique specialement dediee (par exemple le logiciel MLSSA [269, 270]), soit une carte e lectronique devolue au
multimedia (par exemple le logiciel A URORA [77, 80]).
I.3.1.3
Balayage frequentiel
Cette approche plus ancienne [123] propose denvisager non pas la simple reponse impulsionnelle
du syst`eme, mais levolution temporelle de la reponse frequentielle. On dispose ainsi dune mesure des
differentes reflexions et de leurs caracteristiques spectrales. Dans la spectrometrie a` filtrage decale, un
haut-parleur irradie le canal acoustique dune sinusode dont la frequence varie lineairement par rapport
au temps. Le signal capte par le microphone attaque un filtre variable passe-bande de bande passante tr`es
e troite. La bande passante e volue e galement lineairement au cours du temps, a` la meme vitesse que le
signal dexcitation. Ainsi, le filtre ne selectionnera que les signaux dun retard fixe, en fonction du retard
entre le signal dexcitation et le filtre.
Le filtrage de selection seffectue simplement en multipliant le signal recu par un signal similaire a`
celui e mis, mais retarde dun delai correspondant au delai a` mesurer pour la partie reelle de la reponse
frequentielle, et du meme delai en quadrature de phase pour la partie imaginaire. Le resultat est alors
filtre par un filtre passe-bas pour ne garder que la composante continue [308].
Cette methode presente quelques difficultes a` mettre en uvre. Le calcul precis de la bande passante
la plus e troite du canal acoustique necessite une connaissance parfaite de la fonction de transfert. Inversement, la fonction de transfert ne peut e tre connue exactement que si la bande passante la plus e troite du
canal acoustique est mesuree de mani`ere precise. De plus, cette bande passante peut en fait correspondre
a` un sous-syst`eme de reponse en amplitude tr`es faible.
Distribution de Wigner Pour plus de clarte dans la comprehension des phenom`enes, introduisons la
transformee de Wigner [3941, 44, 86, 87, 126, 193]. Toute fonction du temps x t qui poss`ede une
transformee de Fourier X f peut aussi e tre decrite comme une fonction a` la fois du temps et de la
frequence, definie par
()
()
Wx(t;f ) =
WX (t;f ) =
+1
1
+1
1
x t+
x t
X f+
X f
2jf
e
d ,
2jf
e d .
(I.18a)
(I.18b)
La reponse impulsionnelle dun syst`eme lineaire et invariant dans le temps est la description fondamentale dun syst`eme dans le domaine temporel. La transformee de Fourier de la reponse impulsionnelle,
connue sous le nom de fonction de transfert, contient la reponse en module et en phase du syst`eme pour
une entree purement sinuodale. La distribution de Wigner de la reponse impulsionnelle est une description fondamentale du syst`eme a` la fois en temps et en frequence.
La distribution de Wigner du signal impulsion-unite
W (t;f ) = (t t0 ) ,
17
(I.19)
elle est representee dans le plan temps-frequence par une droite parall`ele a` laxe frequentiel passant par
le point t t0 .
We (t;f ) = (f
(I.20)
elle est representee dans le plan temps frequence par une droite parall`ele a` laxe temporel passant par le
point f f0 .
Le signal module lineairement en frequence, et utilise pour la mesure de la reponse dun syst`eme,
est une fonction dont la frequence instantanee varie lineairement avec le temps, c.-`a-d.
c(t) = e jat
avec fi
(I.21)
Wc (t;f ) = (f
at) ,
(I.22)
elle est representee dans le plan temps-frequence par une droite faisant un angle
temporel.
Transformation des coordonnees Puisquun signal dont la frequence varie lineairement avec le temps
poss`ede une distribution de Wigner qui relie lineairement le temps et la frequence, ce signal peut e tre utilise pour realiser une transformation lineaire des coordonnees de la distribution de Wigner. La theorie de
la transformation des coordonnees de la distribution de Wigner est identique a` celle de la transformation
des coordonnees de la fonction dambigute [249].
Par exemple, la distribution de Wigner du signal p t
x t jat2 est, grace a` la propriete de la
multiplication de la distribution de Wigner,
( ) = ( )e
Wp (t;f ) = Wx (t;f ) (f
at) = Wx(t;f
at) ,
(I.23)
f
o`u represente loperation de convolution par rapport a` la frequence, et Wx t;f la distribution de Wigner de x t . Cela conduit a` une transformation du plan qui peut e tre representee sous forme matricielle
par
( )
()
1
0
P (a) = a 1 .
Wq (t;f ) = Wx (t;f ) (f
(I.24)
(I.25)
la transformation correspondante du plan peut e tre representee sous forme matricielle par
1
b
Q(b) = 0 1 .
(I.26)
Donc en multipliant ou en convoluant une fonction avec un signal a` modulation de frequence lineaire, il est possible de realiser une transformation des coordonnees de sa distribution de Wigner.
18
Mesure dun syst`eme par balayage frequentiel La mesure dun syst`eme lineaire a` laide dun signal
a` balayage de frequence lineaire permet de determiner sa reponse en frequence et en phase. En pratique,
le signal introduit dans le syst`eme est reel et de duree finie. Le module et la phase du signal de sortie
decrivent la reponse en module et en phase du syst`eme e tudie, relativement au signal dentree : la reponse
en module et en phase sont generes comme une fonction lineaire du temps. On peut considerer que cette
technique a effectue une transformee de Fourier de la reponse impulsionnelle du syst`eme, et a donc inverse les roles du temps et de la frequence.
( )
()
()
()
( )=
L=
0 1 ,
1 0
(I.28)
elle correspond a` une rotation des coordonnees de la distribution de Wigner de x t de 90o (dans le sens
horaire). Et on peut montrer que si f correspond a` la reponse impulsionnelle h dun syst`eme, alors la
transformee de Fourier de h t secrit
()
()
H (t) = B
h
h(t) e jt
2
jt2
e jt2 ,
(I.29)
avec B une constante complexe arbitraire. La premi`ere operation est une convolution, elle decrit la sortie
dun syst`eme dont le signal dentree est ici un signal module en frequence ; le signal de sortie doit e tre
multiplie puis convolue par deux autres signaux modules en frequence afin de reproduire la fonction de
transfert exacte H t . La mesure par balayage frequentiel lineaire peut donc e tre decrite par une rotation
de 90o de la distribution de Wigner de la reponse impulsionnelle du syst`eme.
()
En general, la pente de la modulation de frequence lineaire du signal dentree vaut une valeur fixee k
exprimee en Hz par seconde, donc homog`ene a` des sec-2 ou Hz2 . De ce fait, les deux autres operateurs de
modulation de frequence lineaire doivent avoir la meme valeur de la pente de la modulation de mani`ere
a` maintenir la rotation de 90o . La distribution de Wigner Wh t;f de la reponse impulsionnelle subit
alors une rotation de 90o ainsi que deux facteurs dechelle, respectivement =k et k dans les nouvelles
coordonnees t et f , soit
( )
WhL (t;f ) = Wh
f
; kt
k
(I.30)
L=
(I.31)
H (kt) = ke
j=4
h
2
h(t) e jkt
i
jkt2 jkt2 ;
il faut bien sur appliquer la transformee de Fourier inverse pour obtenir la reponse impulsionnelle.
19
(I.32)
= ()
On peut verifier que la procedure de mesure par balayage frequentiel lineaire permet de separer
les differentes composantes de la reponse impulsionnelle dun syst`eme. Pour cela, le deuxi`eme et le
troisi`eme operateur de modulation de frequence doivent e tre retardes respectivement par et , c.-`a-d.
hL (t)
=
=
h
e jk(t+ )2
(I.33)
Pour
ti , la -i`eme reponse du sous-syst`eme est ramenee autour de 0 Hz. Donc si la fonction est
filtree par un filtre passe-bas, les autres sous-syst`emes qui ne sont pas autour de 0 Hz sont attenues, et la
-i`eme fonction de transfert est selectionnee. La procedure compl`ete est donnee par
H (kt)e2jkt w(t)
()
=
C [(h(t) e jkt2 )e
H (kt)
jk(t )2
] e jk(t+ )2 w(t)
(I.34)
20
+fb
td
t
fb
fb
td
td
+td
td
+td
fb
fb
F IGURE I.9 Representation graphique des operations effectuees lors de la mesure dun syst`eme a` laide dun
balayage frequentiel lineaire
la reponse impulsionnelle, on peut representer lensemble des operations dans le plan temps-frequence.
Cette description montre comment les operateurs retardes produisent une modulation de la fonction de
transfert.
()
Considerons une reponse impulsionnelle h t dun syst`eme presentant des reflexions multiples. La
duree totale td de la reponse est definie comme le temps apr`es lequel lenergie de la reponse nest plus
significative. De meme, la largeur de bande totale fb est definie comme la bande hors de laquelle lenergie nest plus significative. Ces limites sont arbitraires, et de plus elles sont mutuellement exclusives,
puisquun signal a` temps limite ne peut e tre a` bande limite, et vice versa. Cependant, on definit les limites approximatives du syst`eme en temps et en frequence, c.-`a-d. t 2
td et f 2 fb fb : comme
represente sur la figure I.9(a), cela definit dans le plan temps-frequence un rectangle contenant la majeure
partie de lenergie du syst`eme.
Supposons aussi que le syst`eme complet contienne un sous-syst`eme qui debute a` t .
[0; ]
[ ; ]
=
La premi`ere operation est linjection dans le syst`eme du signal module en frequence (de frequence
instantanee kt), ce qui correspond a` une operation de convolution temporelle entre les distributions de
Wigner de la reponse impulsionnelle du syst`eme et du signal module en frequence (cf. e q. (I.20) et
(I.25)). Pour chaque frequence f , la distribution de Wigner est convoluee avec un signal impulsion unite
situe au temps t f=k . Donc, la distribution de Wigner de la reponse impulsionnelle est decalee dans le
temps de f=k comme le montre la figure I.9(b), et devient
W1 (t;f ) = Wh (t
21
f
;f ) .
k
(I.35)
(I.36)
W3 (t;f ) = W2 (t
f
;f ) ;
k
(I.37)
on obtient la distribution de Wigner schematisee figure I.9(d). Cette operation est necessaire afin de
deformer la distribution dans le sens des temps negatifs ; elle permet de retrouver la forme correcte de la
distribution de Wigner de la reponse impulsionnelle du syst`eme, mais avec une rotation de 90o et deux
facteurs dechelle, soit W3 t;f
Wh fk ;kt .
` ce stade, on obtient, a` une constante pr`es, la transformee de Fourier H kt , quil faut inverser si
A
on veut retrouver un signal temporel.
( )=
( )
Mise en uvre pratique Grace a` la troisi`eme operation, il est possible dutiliser un signal dexcitation
module en frequence dont la vitesse de balayage est illimitee. Mais comme on veut mesurer une reponse
impulsionnelle de duree td et occupant un spectre limite a` fb , le plus simple est de choisir une vitesse
de balayage k
fb =td . La sortie du canal acoustique setendra alors sur la zone temporelle td td
(cf. fig. I.9(b)). Le signal dexcitation, theoriquement de duree infinie, peut donc e tre tronque a` lintervalle
td td [258]. Le deuxi`eme signal module en frequence, utilise pour le produit temporel, peut
se limiter a` lintervalle td td (cf. fig. I.9(b)). Par convolution avec le troisi`eme signal module en
frequence, la sortie du syst`eme occupera un intervalle temporel td td ; le troisi`eme signal doit theoriquement occuper lintervalle
td td . Il est cependant preferable de mener cette derni`ere operation
dans le domaine frequentiel en manipulant des transformees de Fourier ; le signal module en frequence
peut alors occuper un intervalle frequentiel fb
et un intervalle temporel td .
=
[ 2 ;2 ]
[ ;2 ]
[ ;2 ]
[ 3 ;2 ]
[ ; ]
[ ;0]
[ ;0]
22
+fb
fb
td
td
t
f
+fb
td
2td
fb
23
+fb
fb
td
t
f
+fb
td
2td
fb
seule operation (convolution ou intercorrelation) qui peut, en outre, e tre effectuee par un algorithme
rapide.
En outre, il propose e galement deffectuer un balayage frequentiel non lineaire. Generalement, on
accepte de passer plus de temps dans les basses frequences pour obtenir un meilleur rapport signal/bruit.
Dans le plan temps-frequence, le signal enregistre poss`ede alors une e nergie dilatee en basses frequences
(cf. fig. I.11(b)). Pour compenser cette difference denergie, il faut moduler en amplitude le signal de
demodulation, la modulation damplitude e tant e gale a` linverse de la modulation en frequence.
` linverse de la mesure par MLS, il
Synchronisation des dispositifs demission et de reception A
nest pas absolument necessaire que les signaux demission et de sortie soient parfaitement synchronises. En labsence de synchronisation parfaite, la vitesse de glissement de frequence du signal e mis et
du signal avec lequel on multiplie le signal recu ne seront pas exactement les memes. Formellement,
lequation (I.32) est multipliee par une exponentielle complexe (c.-`a-d. la reponse en frequence dun
filtre passe-tout) dont la phase est lineaire. Cela se traduit dans le plan temps-frequence par une rotation globale de la figure (cf. fig. I.12) ; mais en tout e tat de cause, le rapport signal/bruit est conserve
(cf. fig. I.13), ainsi que les principaux indices acoustiques.
I.3.1.4
En ce qui concerne les non-linearites, la mesure par balayage frequentiel permet dobtenir un meilleur
rapport signal/bruit que la mesure par MLS non preaccentuees si la fonction de transfert est bien plate.
Par contre, dans le cas de la presence de resonances marquees, la mesure par MLS se revelera plus avan-
24
+fb
td
td
t
fb
td
td
+td
+td
fb
fb
F IGURE I.12 Representation graphique des operations effectuees lors de la mesure dun syst`eme par balayage frequentiel, avec defaut de synchronisation des horloges dechantillonnage entre le dispositif demission et le dispositif de reception
Signal temporel
Energie en dB
20
40
60
80
3
Echantillons
6
4
x 10
Energie en dB
0
10
20
30
40
20
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
F IGURE I.13 Reponse impulsionnelle calculee avec un appareil numerique pour la lecture, et un autre pour
lenregistrement, par la methode du balayage frequentiel ; lecart relatif entre les deux frequences dhorloge est de 2
25
tageuse en terme de rapport signal/bruit [258]. En tout e tat de cause, la mesure par MLS preaccentuees
se rev`ele plus efficace quune mesure par balayage frequentiel.
Dautre part, pour une meme resolution frequentielle, une mesure par balayage frequentiel necessitera un temps de calcul beaucoup plus long quune mesure par MLS, et est tr`es complexe a` implanter,
que ce soit au niveau e lectronique quau niveau informatique.
Le syst`eme simplifie de mesure par balayage frequentiel propose par Farina [80] est par contre tr`es
perspicace, car il ne necessite quune seule operation apr`es reception du signal, operation pouvant e tre effectuee grace a` un algorithme rapide. Ce syst`eme conjugue les avantages de la mesure par MLS (rapidite)
et par balayage frequentiel (rapport signal/bruit, immunite aux non-linearites et a` la non-synchronisation
des dispositifs demission et de reception).
La mesure par MLS necessite lemission dune sequence (( a` blanc )) precedant la premi`ere sequence
utile a` la mesure ; alors que tout syst`eme par balayage frequentiel necessite au contraire lenregistrement
dune tranche supplementaire et consecutive de signal, liee au temps de reverberation.
I.3.1.5
Un dispositif necessitant une lecture et un enregistrement synchrones nest pas souple dutilisation
dans un contexte automobile, puisquil est necessaire de demonter lautoradio pour acceder aux connections e lectriques vers les haut-parleurs ; or quand bien meme cette operation est techniquement faisable
(ce qui nest pas toujours le cas), il faut encore reperer le fil exact relie au haut-parleur que lon desire mesurer, et y connecter la sortie du dispositif de lecture. Dautre part, il est impossible dinclure
lamplificateur de lautoradio dans le chane de mesure, puisque celui-ci ne poss`ede pas dentree/sortie
externe.
Nous desirons e laborer un nouveau dispositif qui permettra deffectuer une mesure de reponse impulsionnelle acoustique dans un contexte automobile, de mani`ere souple et asynchrone, c.-`a-d. avec le
lecteur de disque compact comme dispositif de lecture, et un ordinateur muni dune bonne carte son
comme dispositif denregistrement. Il est tout a` fait envisageable de stocker les MLS sur cederom, de
diriger le signal lu vers le haut-parleur choisi, et denregistrer directement le signal en numerique sur
lordinateur.
Cependant on se heure a` une difficulte majeure : le dispositif de lecture et le dispositif denregistrement poss`edent des frequences dhorloge differentes. Nous verrons comment il est possible de contourner
ce probl`eme ; et nous verrons quil est meme possible de retrouver les retards de propagation relatifs entre
les differents haut-parleurs mesures dans une meme session.
Premi`ere approche
La conservation de la duree de la periode (mesuree en nombre de points) entre lemission et la reception est un facteur determinant pour la reussite de la mesure. Une approche originale est developpee
par Jot [138]. Il sugg`ere dutiliser deux magnetophones numeriques (un pour lemission, un pour la reception), et de transferer a` nouveau le signal enregistre du recepteur vers lemetteur (cf. fig. I.14(a)). Le
fait de transferer y t du recepteur vers lemetteur permet de saffranchir de lecart entre les frequences
des deux horloges dechantillonnage independantes. La reponse impulsionnelle est calculee par intercorrelation dune periode des deux signaux du dispositif e metteur (la sequence lue et le signal enregistre).
Le succ`es de la mesure ne depend que de la stabilite des horloges, en supposant que cette stabilite est superieure a` lincertitude sur leur frequence. Mais la reference temporelle, permettant de mesurer la duree
entre le haut-parleur et le microphone, est perdue.
()
26
Salle
x(t)
y(t)
magntophone
DAT metteur
magntophone
DAT rcepteur
y(t)
x(n)
y(n)
Calculateur
numrique
(a) Transfert du signal enregistre vers le dispositif e metteur
Salle
x(t)
y(t)
magntophone
DAT metteur
x(n)
y (n)
x(n)
magntophone
DAT rcepteur
x(t)
y(t)
Calculateur
numrique
(b) Transfert du signal e mis et du signal enregistre vers le
dispositif e metteur
F IGURE I.14 Dispositifs imagine par Jot [138] pour saffranchir de lecart des frequences dechantillonnage
entre les deux dispositifs
Jot propose alors une amelioration de ce syst`eme, consistant a` enregistrer le signal source sur le magnetophone recepteur, et a` transferer les deux signaux vers le magnetophone e metteur (cf. fig. I.14(b)).
La precision de la reponse impulsionnelle est amelioree par une e tape de deconvolution supplementaire.
En effet, la reponse impulsionnelle h t est calculee en deconvoluant la reponse impulsionnelle Cxy (incluant le canal acoustique) par la reponse impulsionnelle Cxx0 (trajet direct). Cette deconvolution peut
meme e tre effectuee au moyen de lalgorithme de FFT, car les deux reponses Cxx et Cxy ayant un support
plus court que la periode L, on peut les prolonger par un e chantillon nul. Un avantage supplementaire
de cette deconvolution est quelle restitute linstant initial dans la reponse impulsionnelle comme instant
demission de limpulsion par le haut-parleur, ce qui permet de mesurer la duree du trajet entre le hautparleur et le microphone. Mais linconvenient de cette procedure est que, pour la mesure dune reponse
impulsionnelle stereophonique, elle necessite trois canaux denregistrements.
()
Ces deux dispositifs ne sont pas applicables dans un contexte automobile, puisque nous desirons
utiliser le lecteur de disque compact de lautoradio comme dispositif de lecture ; or celui-ci nest pas en
mesure denregistrer un signal.
27
Rebouclage
et
stockage sur CD
Convertisseur N/A
Stockage sur
PC ou DAT
Convertisseur A/N
Autoradio
Vhicule
R-chantillonnage
Intercorrlation
Dcalage des
chantillons
Rponse
impulsionnelle
F IGURE I.15 Proposition dune nouvelle installation destinee a` rendre la lecture des MLS independante de
leur enregistrement
Si on veut utiliser le lecteur de disque compact de lautoradio comme dispositif demission des
MLS, il faut stocker sur cederom un signal audio compose dun grand nombre de MLS mises bout a`
bout, puis plancer la lecture du disque. Pour une mesure des deux haut-parleurs avant ou arri`ere, la selection du haut-parleur diffusant le signal peut e tre effectuee sequentiellement a` laide des deux canaux
gauche et droite, en ayant au prealable regle de mani`ere adequate le dispositif de balance avant/arri`ere
sur lautoradio ; si lon veut mesurer les quatre reponses impulsionnelles, il faut proceder en trois temps :
enregistrer les deux haut-parleurs avant, puis modifier le reglage de la balance avant/arri`ere, et enregistrer les deux haut-parleurs arri`ere. Lenregistrement du signal diffuse par le haut-parleur sera effectue sur
le disque dur dun ordinateur via une carte de numerisation de bonne qualite comportant deux canaux
parfaitement synchronises. Cet enregistrement doit e tre ree chantillonne ; puis il faut extraire kL e chantillons, et les moyenner pour obtenir L e chantillons, avant de calculer lintercorrelation circulaire a` laide
dun algorithme rapide utilisant la transformee de Hadamard. Ces kL e chantillons peuvent e tre choisis
a` nimporte quel endroit du signal enregistre. Comme on a perdu la synchronisation avec la lecture, on
a e galement perdu le retard absolu de propagation entre la source et le recepteur. Suivant lendroit o`u
ont e te extraits les e chantillons, on verra apparatre un retard de propagation different, mais en aucun cas
significatif de la realite physique. En sortie du calcul de lintercorrelation circulaire, le signal est bien
entendu reboucle sur lui-meme, mais il suffit de decaler les e chantillons pour le rendre causal. Le schema
de principe de ce dispositif est presente figure I.15.
Pour mener a` bien ce processus, il faut effectuer deux operations :
1. Quantifier tr`es precisement la difference de frequence dechantillonnage entre les deux dispositifs.
2. Ree chantillonner le signal enregistre pour que sa nouvelle frequence dechantillonnage soit strictement identique a` celle du dispositif de lecture.
Lestimation de la difference de frequence dechantillonnage doit e tre effectue a` chaque fois que
lon change de dispositif de lecture ou denregistrement, selon le schema de la figure I.16. Mais si lon
fait lhypoth`ese quune derive dhorloge est possible sur le meme appareil au cours du temps, il peut e tre
judicieux de lestimer avant chaque mesure. Nous avons rencontre un tel phenom`ene sur les lecteurs de
cederom de certains ordinateurs !
I.3.2.2
Nous presentons ici deux methodes qui permettent destimer le decalage de frequence dechantillonnage entre deux dispositifs e lectroniques. Pour un panorama plus complet, le lecteur se reportera
a` [180, 219].
Lidee consiste a` faire e mettre par le premier dispositif un signal connu (en loccurence une sinusode
28
Signal test
Stockage sur CD
Convertisseur N/A
Stockage sur
PC ou DAT
Convertisseur A/N
Autoradio
Vhicule
Estimation de la
diffrence d'horloge
F IGURE I.16 Schema synoptique de linstallation destinee a` estimer la difference de frequence dechantillonnage entre le dispositif de lecture et le dispositif denregistrement
de frequence connue), a` enregistrer ce signal par le deuxi`eme dispositif, et a` le comparer avec le signal
e mis.
Passages par zero Cette methode est decrite dans [36, 48, 312]. Le principe consiste a` mesurer les
instants o`u le signal recu passe par lorigine des ordonnees. Cette mesure peut e tre precise grace a` lutilisation dinterpolations. En e valuant la distance entre ces instants de passage par zero et les instants theoriques determines par la frequence de la sinusode dentree, on peut mesurer la distorsion de lechelle
frequentielle.
Si t est le temps theorique, et le temps mesure, appelons f la fonction exprimant lun par rapport
a` lautre, c.-`a-d. t f .
= ()
Si on appelle flec la frequence dechantillonnage du dispositif de lecture, fenr la frequence dechantillonnage du dispositif denregistrement, et fsinus la frequence de la sinusode injectee, on peut e crire
fenr
flec
= k k 0 ffsinus ,
(I.38)
lec
f
k = 0 + k enr ,
fsinus
soit finalement
fenr =
k
0
(I.39)
fsinus .
(I.40)
+
i = i+1 i
(I.41)
est e gale au rapport de lincrement de temps theorique sur lincrement mesure, soit
d f (i ) = T=4
d
avec
= i+1
i ,
(I.42)
o`u T est la periode de la sinusode. Les autres valeurs de ddf peuvent e tre determinees par interpolation
lineaire ; cette interpolation netant pas tr`es fiable, on peut moyenner la fonction ddf ainsi obtenue pour
e liminer le bruit introduit. Les instants effectifs dechantillonnage sont donc :
tk = tk 1 + f (k ) .
29
(I.43)
f0 ;1
fech
f0 ;2
fech
F IGURE I.17 Transformee de Fourier a` temps continu de deux tranches successives dune sinusode : frequence fondamentale continue et phase associee
00 ;'1
00 ;'2
0.5
0.5
F IGURE I.18 Transformee de Fourier discr`ete de deux tranches successives dune sinusode e chantillonnee :
frequence fondamentale discr`ete et phase associee
Evaluons la sensibilite au bruit de cette mesure [312]. Soit n lecart type dun bruit additif ; lecart
type des e carts dinstants dechantillonnage, note , est alors e gal a` lecart type du bruit divise par la
valeur absolue de la derivee du signal e chantillonne aux points de passage par zero, c.-`a-d.
= A!n
sinus
(I.44)
Supposons que lon proc`ede a` deux transformees de Fourier continues sur deux tranches successives
de taille T secondes dune sinusode continue de frequence f0 . Chaque transformee presente ici un pic a`
la frequence f0 , convolue par la transformee de Fourier de la fenetre de troncature. Soit 1 et 2 la phase
associee au pic de la premi`ere et de la deuxi`eme transformee de Fourier (cf. fig. I.17).
Procedons maintenant a` la TFD de ces deux meme tranches de la sinusode e chantillonnee a` la
frequence fech . On suppose que ces tranches sont de longueur N
T fech , o`u N est une puissance
de 2. Les deux TFD presentent alors un pic a` la frequence reduite 0 , o`u N0 est lentier le plus proche
du rationnel Nf=fech ; ce pic represente en fait lechantillon de la transformee de Fourier analogique a`
la frequence f00
00 fech . Soit '1 et '2 la phase du pic associee respectivement a` la premi`ere et a` la
deuxi`eme TFD (cf. fig. I.18). La phase de ce pic est e gale a` la phase du pic de la transformee de Fourier
continue a` la frequence f0 , ajoutee dun biais correspondant a` la transformee de Fourier de la fenetre
de troncature. Si lon suppose que la sinusode est damplitude constante, ce biais est le meme entre les
30
deux tranches, puisque la TFD de la fenetre de troncature est constante. La difference entre les phases
'2 '1 sera donc e gale a` la difference entre les phases de chaque pic des deux transformees de Fourier
continues 2 1 . Cette deviation de la phase provient en fait de la difference entre la frequence exacte
de la sinusode f0 et la frequence f00 0 fech correspondant a` un e chantillon frequentiel de la TFD.
Supposons que la frequence de la sinusode corresponde a` une frequence reduite de la TFD, donc en
fait f0 f00 fech n
=N , avec n entier tel que n N= . Supposons e galement que lespacement
entre le debut de ces deux tranches soit de N e chantillons ; cet espacement est proportionnel a` la periode
de la sinusode. Sa phase est donc exactement la meme dans les deux tranches.
Dans le cas qui nous interesse, la frequence de la sinusode est differente de la frequence f 0 du
pic de la TFD. La difference de phase 2 1 correspond alors a` la difference des frequences, c.-`a-d.
2 1 T f0 f00 . Connaissant la frequence reduite 0 du pic de la TFD, ainsi que cette difference
de phase, on en deduit la frequence precise de la sinusode
= =
=2 (
( 1)
2+1
'
f0 = 00 fech + 2
'1
2T ,
ou sa frequence reduite
0 = 00 +
1 '2
2
'1
(I.45)
(I.46)
Il est bien entendu souhaitable que la taille de la TFD soit la plus grande possible, afin de garantir
une precision importante de lestimation de la frequence du pic 00 et de sa phase associee ; dautre part,
il est e galement souhaitable que lespacement entre les deux trames ne soit pas trop grand afin que 1
et 2 ne diff`erent pas de plus de . Il sagit donc dun compromis entre le type de defaut de frequence
auquel on sattend, la frequence de la sinusode de reference, la longueur et lespacement entre les trames.
Pour plus de clarte, considerons un exemple dans lequel la frequence de la sinusode de reference
est de 1000 Hz, et la frequence dechantillonnage de 48 kHz. Si on calcule la TFD dune tranche de 512
e chantillons, on observera une raie principale sur le 11e` me point de la TFD. Cependant, la resolution frequentielle de 93,75 Hz est nettement insuffisante pour detecter des tr`es faibles differences de frequence.
En revanche, si on proc`ede a` une TFD glissante tous les 48 points, et si la phase associee a` la raie varie,
ce sera le signe dune frequence differente.
A PPLICATION A`
TUDE
NOTRE E
Le signal numerique de reference consiste en une sinusode de frequence reduite lec . Cette sinusode passe au travers dun convertisseur numerique/analogique de frequence dechantillonnage flec : la
sinusode analogique est donc de frequence f
lec flec . Celle-ci est numerisee par le convertisseur
analogique/numerique a` la frequence dechantillonnage fenr : le signal obtenu est donc de frequence
reduite
f
enr = lec lec ,
fenr
(I.47)
flec
fenr
= enr ;
lec
(I.48)
lec est parfaitement connu car cest la frequence reduite de la sinusode de reference, et enr est calcule
avec precision grace a` la formule (I.46).
31
Comparaison entre ces deux methodes En pratique, le signal enregistre lors de lemission de la sinusode de reference comporte non seulement une composante frequentielle a` la frequence theorique de la
sinusode, mais e galement diverses harmoniques dues a` des phenom`enes de distorsion et dinterferences.
La methode des passages par zero nest pas robuste a` cette degradation du signal. En effet, les composantes frequentielles supplementaires ne garantissent plus un passage par zero du signal aux instants
prevus. La mesure du rapport de frequences dechantillonnage nest precise quau dixi`eme de Hz pr`es,
ce qui nest pas satisfaisant. On peut contourner cette difficulte en filtrant le signal enregistre par un
filtre passe-bande tr`es e troit et centre sur la frequence de la sinusode ; le signal obtenu est alors quasiment sinusodal, et on obtient une precision de lordre du milli`eme de Hz, ce qui est tout a` fait satisfaisant.
La methode par examen de la rotation de phase nest pas sensible a` ces composantes frequentielles
parasites. En effet, a` partir du moment o`u la sinusode recue est damplitude superieure a` celle des autres
composantes frequentielles (ce qui est heureusement vrai en pratique), ces composantes ninfluent pas
sur le calcul. Il nest donc pas necessaire de proceder a` un filtrage du signal enregistre. On obtient une
precision de lordre du milli`eme de Hz.
Cette deuxi`eme methode est donc plus simple a` implanter que la premi`ere. Cependant, elle necessite
le calcul de deux TFD de taille tr`es grande, ce qui est couteux en temps de calcul.
Implantation logicielle et mise en uvre Ces deux methodes ont e te implantees sous forme de modules externes pour le logiciel CoolEdit Pro 2 [135, 136] fonctionnant sous Windows [179]. Ce choix
a e te motive par le fait que les outils de mesure et danalyse proposes par Farina [80] sont e galement implantes sous la meme forme. Nous avons donc rajoute nos propres algorithmes au sein dune plate-forme
dej`a utilisee chez Renault.
La mise en uvre est tr`es simple. Nous avons grave sur un disque compact plusieurs pistes audio
comportant des sinusodes de differentes frequences. La procedure consiste a` lire ce disque par lintermediaire de lautoradio, et a` enregistrer directement sur lordinateur de mesure le signal diffuse a` linterieur
de lhabitacle. Lenregistrement est controle par le logiciel CoolEdit Pro. Une fois le signal acquis
sur plusieurs secondes, il suffit de faire appel a` la fonction correspondante pour calculer la difference de
frequence dechantillonnage entre les deux dispositifs.
Nous procedons a` un filtrage passe-bande tr`es e troit avant de faire appel a` la premi`ere methode (passages par zero), comme presente sur la figure I.19(a) ; puis nous introduisons la frequence dechantillonnage supposee, la frequence de la sinusode de reference, et le nombre de termes sur lequel sera calcule
la moyenne. Une fois le calcul lance, le resultat est affiche sous forme de frequence dechantillonnage
apparente. De plus, un graphique presente levolution de lestimation de la frequence dechantillonnage
moyennee en fonction du nombre de passages par zero observes ; la variation est inferieure au milli`eme
de Hz.
La deuxi`eme methode peut e tre executee directement sur le signal enregistre (cf. fig. I.19(b)) ; il est
juste necessaire dindiquer au programme la frequence dechantillonnage supposee et la frequence de la
sinusode de reference. Le calcul dure quelques secondes, et la comparaison avec le resultat fourni par la
premi`ere methode montre que les deux estimations concordent a` un milli`eme de Hz pr`es.
Pour les deux methodes, le resultat affiche dans la fenetre correspond a` la frequence dechantillonnage apparente du dispositif denregistrement, en supposant que la frequence dechantillonnage du dispositif de lecture est de 44100 Hz. Pour lexemple donne figure I.19, la frequence dechantillonnage
calculee est de 44066,90954 Hz ; cela veut dire quil faut augmenter la frequence dechantillonnage de
tout signal lu par le lecteur de disque compact de lautoradio et enregistre par lordinateur : la nouvelle
frequence dechantillonnage doit e tre de 44133,11531 Hz.
2. http://www.syntrillium.com/cep/index.html
32
(a) Calcul de la frequence de la sinusode enregistree a` laide de la methode des passages par zero
33
I.3.2.3
Une fois estimee le decalage de frequence entre le dispositif de lecture et le dispositif denregistrement, il faut proceder a` la modification de la frequence dechantillonnage du signal enregistre.
Principe Le changement de frequence dechantillonnage trouve une solution simple lorsque les deux
frequences sont dans un rapport P=Q, o`u P et Q sont des entiers. Pour passer dune frequence F1 a` une
frequence F2 F1 P=Q, on surechantillonne dun facteur P , puis on sous-echantillonne dun facteur
Q [243]. Il est necessaire de commencer par surechantillonner pour ne pas perdre de contenu spectral.
Pour un changement de frequence en rapport non rationnel , on peut chercher la fraction rationnelle la plus proche, et proceder comme ci-dessus. Pour cela, on a interet a` utiliser le developpement en
fractions rationnelles [62] o`u
= a0 +
,
a1 + a2 +1 :::
(I.49)
car les fractions rationnelles obtenues en tronquant le developpement realisent en general de meilleures
approximations que les fractions decimales.
Si cette approximation nest pas suffisante, on peut realiser le changement de frequence par implantation dune approximation du filtre passe-bas ideal (sinus cardinal). Cela consiste a` reconstruire le signal
analogique, puis a` lechantillonner a` la nouvelle frequence. En effet, si x n represente le signal original
e chantillonne a` la frequence F1 et y n le signal apr`es conversion, on remarque que cette conversion
resulte de deux e tapes (on suppose que lon passe dune frequence basse a` une frequence plus e levee) :
()
()
(n), c.-`a-d.
sinc ( )
+1
X
i=
x(i)
sin F1 (t
F1 (t
i=F1 )
,
i=F1 )
(I.50)
o`u
F1 t represente la reponse impulsionnelle du filtre passe-bas ideal (non causal et non
stable) de frequence de coupure F1 = .
2. Echantillonnage
de z t a` la frequence F2 , c.-`a-d.
()
y(n) = z (n=F2 ) =
+1
X
i=
x(i)
i=F1 )
,
i=F1 )
(I.51)
()
o`u on a e limine le filtrage passe-bas puisque par hypoth`ese F2 > F1 . Ainsi, pour calculer y n , on
a besoin de la reponse impulsionnelle du filtre de reconstruction aux instants t
n=F2 j=F1 .
Lidee consiste alors a` effectuer une approximation des valeurs continues de la reponse impulsionnelle par interpolation lineaire des valeurs stockees dans une table. Une fois que la reponse
impulsionnelle du filtre dinterpolation a e te calculee (par exemple par la methode de la fenetre
(cf. C.1.6)), on lechantillonne a` une frequence Ff et on la stocke dans une table ; on choisit la
frequence Ff suffisamment grande pour que lerreur generee par linterpolation lineaire soit inferieure au pas dechantillonnage [296]. Les e chantillons y n sont ensuite directement obtenus
par la formule (I.51) dans laquelle la sommation est limitee par la taille de la table, et les valeurs
continues de la reponse impulsionnelle sont interpolees a` partir des valeurs fournies par la table.
()
Dans le cas de signaux de duree finie (ou dans le cas dun e chantillonnage non uniforme [42]), on
peut effectuer des interpolations de Lagrange [265], c.-`a-d.
zkL
(t) =
N2
Y
i= N1
i6=k
34
t ti
,
tk ti
(I.52)
F IGURE I.20 Bote de dialogue concernant la modification de la frequence dechantillonnage dun signal,
realisee sous forme de module externe pour le programme CoolEdit Pro
o`u ti i=F1 sont les instants dechantillonnage. Bien sur, ces fonctions nassurent pas une reconstitution
parfaite, mais on peut remarquer que, pour un e chantillonnage uniforme avec N1 ! 1 et N2 ! 1, on
retrouve la formule (I.50).
On peut cependant montrer quil nest pas necessaire de reconstruire integralement le signal analogique. Ecrivons le temps continu a` partir de la periode dechantillonnage initiale T1 , soit
t = nT1 + t1 ,
(I.53)
o`u n et t1 sont le quotient et le reste de la division euclidienne de t par T1 . Mettons-nous dans le cas non
ideal, c.-`a-d. avec un filtre de reconstruction g t different dun sinus cardinal. Lequation (I.50) devient
()
z^(t) =
+1
X
i=
x(i)g(t iT1 ) ,
(I.54)
ou encore
z^(nT1 + t1 ) =
1
X
m=
avec
(I.55)
Cette e quation peut simplanter a` laide dun filtre transverse a` coefficients variables mais periodiques
[265]. Si maintenant on e chantillonne ce signal analogique avec une periode T2 , on obtient
z^(kT2 ) = z^(lT2 + t2 ) =
+1
X
m=
(I.56)
avec l et t2 le quotient et le reste de la division euclidienne de kT2 par T1 . Il nest pas necessaire de
reconstruire le signal analogique ; il faut juste calculer en temps reel les coefficients fgm t2 g pour
chaque e chantillon de sortie.
( )
Implantation et mise en uvre Cette methode a e galement e te implantee sous forme de module externe pour le logiciel CoolEdit Pro [179]. Il faut indiquer au programme la frequence dechantillonnage
du signal (en general celle determinee a` laide dune des deux methodes destimation de la frequence
dechantillonnage decrites dans le paragraphe precedent), et la frequence dechantilonnage desiree du
signal (en general 44100 Hz) ; en outre, il est necessaire dindiquer lhorizon dobservation, c.-`a-d. la
longueur du filtre de reconstruction (cf. fig. I.20).
On se doit detablir un compromis entre le temps de calcul et la precision du resultat. Ce compromis est represente par lhorizon dobservation. Si on choisit un horizon petit, le calcul sera rapide, mais
35
Signal temporel
0
20
20
Energie en dB
Energie en dB
Signal temporel
0
40
60
80
40
60
2000
4000
6000
8000
10000
Echantillons
12000
14000
80
16000
2000
4000
20
30
16000
10
20
30
40
20
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
40
20
20k
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
Signal temporel
Signal temporel
20
20
Energie en dB
Energie en dB
14000
0
Energie en dB
40
60
40
60
2000
4000
6000
8000
10000
Echantillons
12000
14000
80
16000
2000
4000
8000
10000
Echantillons
12000
14000
16000
10
0
Energie en dB
0
10
20
30
40
20
6000
10
Energie en dB
12000
10
10
80
8000
10000
Echantillons
10
Energie en dB
6000
10
20
30
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
40
20
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
F IGURE I.21 Influence de la precision du ree chantillonnage sur le calcul de la reponse impulsionnelle
quelque peu inexact ; si au contraire on choisit un horizon grand, lattente du resultat sera recompensee
par un ree chantillonnage proche de lideal. Dapr`es les observations que nous avons realisees, un horizon
dobservation dune dizaine dechantillons est suffisant pour obtenir une precision du ree chantillonnage
de lordre du milli`eme de Hz ; le temps de calcul est fonction de la rapidite du processeur et de la longueur du signal a` traiter.
Nous avons observe linfluence de la precision du ree chantillonnage sur le rapport signal/bruit de la
reponse impulsionnelle (cf. fig. I.21). Il est clair que plus la precision du ree chantillonnage est importante,
meilleur est le rapport signal/bruit.
I.3.2.4
Pour chaque haut-parleur du vehicule, on desire connatre non seulement la fonction de transfert du
syst`eme total considere (chane audio et habitacle), mais e galement linformation temporelle, et en particulier le temps de propagation de londe acoustique depuis le haut-parleur jusquau capteur de mesure.
Toute methode synchrone est capable dobtenir les differentes informations temporelles absolues,
puisque le signal acquis contient linformation temporelle de synchronisation : son e chelle temporelle
36
droite
gauche
droite
gauche
F IGURE I.22 Descriptif schematique du protocole de mesure sequentielle des quatre haut-parleurs de lhabitacle
est definie en fonction de linstant o`u est e mise limpulsion par lemetteur. Les delais de propagation
peuvent donc e tre aisement calcules.
Difficultes souleves par la methode asynchrone Lors dune mesure par une methode asynchrone, il
nest pas possible dobtenir ces informations temporelles absolues. En effet, le dispositif recepteur ne
communiquant pas avec le dispositif e metteur, il ne peut pas situer dans le signal quil recoit linstant
zero demission de limpulsion.
Lors dune mesure par MLS, la reponse impulsionnelle est rebouclee sur elle-meme, et il se peut
quelle ne soit pas causale ; comme une MLS est un signal periodique, il suffit deffectuer un decalage
circulaire pour rendre causale la reponse impulsionnelle. Lors dune mesure par balayage frequentiel, il
ny a pas de rebouclage, et la reponse impulsionnelle calculee est toujours causale. Mais dans les deux
cas, aucune indication ne peut e tre donnee quant a` un quelconque (( instant zero )).
Malgre tout, on peut envisager de recuperer les informations temporelles relatives entre differentes
mesures effectuees sequentiellement : en effet, si le syst`eme recepteur est asynchrone avec le syst`eme
e metteur, il lest aussi avec lui-meme dune mesure a` lautre. Donc si on veut conserver le meme referentiel pour differentes mesures, il est necessaire que celles-ci soient effectuees au sein dune seule
acquisition. On peut alors considerer la reponse impulsionnelle dun des haut-parleurs comme e tant le
referentiel temporel, puis comparer les autres reponses impulsionnelles comparativement a` cette reponse.
On obtient ainsi les retards relatifs entre les differents haut-parleurs ; cette information est necessaire et
suffisante pour notre e tude, que ce soit pour lanalyse objective ce ces reponses impulsionnelles, ou pour
lauralisation du syst`eme audio du vehicule.
Mais nous faisons face a` une nouvelle difficulte : lautoradio nest pas capable dalimenter independamment les quatre haut-parleurs, puisque le signal de mesure inscrit sur le disque compact est un signal
stereophonique. Il est donc necessaire dutiliser la balance manuelle avant/arri`ere de la voiture, et de la
faire fonctionner durant lacquisition. La solution proposee est demettre dabord les signaux de mesure
sur lun puis lautre des haut-parleurs avant, puis de laisser un temps defini au manipulateur pour regler la
balance vers larri`ere, puis denvoyer les signaux de mesure sur lun puis lautre des haut-parleurs arri`ere.
Dans un souci de verification du bon fonctionnement du processus, on peut continuer lenregistrement en
laissant dabord un nouveau temps de manipulation pour le changement de balance vers lavant, puis en
e mettant de nouveau le signal de mesure par le premier haut-parleur mesure (cf. fig. I.22). On devra alors
verifier que la premi`ere et la derni`ere sequence sont identiques et nont aucun retard lun par rapport
a` lautre. Lensemble de ces signaux e mis doit donc occuper une seule piste audio du disque compact,
et doit e tre enregistre en une seule operation. Il est ensuite necessaire de decouper, dans le signal ainsi
acquis, les seules parties qui nous interessent et ceci de mani`ere totalement automatique.
La caract`ere asynchrone de la mesure soul`eve un autre probl`eme. Dans le signal enregistre, il nest
pas aise de determiner a` partir de quel e chantillon commence veritablement la sequence qui nous interesse. Ce probl`eme diff`ere suivant la methode de mesure consideree.
M E THODE
DES
MLS
ASYNCHRONES
37
L chantillons
Slection de la
source n1
L chantillons
k L chantillons
temps =
Slection de la
source n2
temps = + (k L)
F IGURE I.23 Principe de decoupage du signal recu en vue de la recuperation des delais relatifs entre plusieurs sources sonores mesurees de mani`ere sequentielle a` laide de MLS
Emission
Calage
Balayage Rsonance
Calage
Balayage
Rsonance
Calage
Enregistrement
Aprs convolution
RI1
Rsonance
Calage
RI2
Rsonance
Calage
F IGURE I.24 Principe de decoupage du signal recu lors de la mesure a` laide dun balayage frequentiel
+1
M E THODE
= +(
QUENTIEL ASYNCHRONE
DU BALAYAGE FR E
Les sinusodes de frequence glissante ne presentent pas le caract`ere cyclique des MLS et il nest pas
necessaire demettre un balayage dexcitation avant le balayage de mesure ; par contre, lenregistrement
presente deux parties : une partie correspondant a` lemission du balayage frequentiel, et une partie correspondant a` la resonance de lhabitacle. Entre chaque balayage e mis, il doit donc y avoir un moins ce
silence de resonance.
Pour faire face au caract`ere asynchrone, il est possible dajouter un autre silence correspondant a` une
duree de calage (ou plutot une tolerance temporelle) en debut dacquisition. Si on laisse un silence fixe
avant chaque balayage e mis, il suffira au manipulateur de selectionner le signal debutant un peu avant le
premier balayage enregistre. Pour chaque balayage e mis, il faut faire lacquisition dune longueur e gale
a` la duree du balayage, augmentee de la duree de la resonance et de la duree de calage ; cette derni`ere
est repartie au debut et a` la fin du signal enregistre. Apr`es la convolution avec le balayage inverse,
on obtiendra la reponse impulsionnelle augmentee dun silence precedant et succedant cette reponse
impulsionnelle. Une partie du silence precedant la reponse impulsionnelle, de longueur e gale a` la duree
38
F IGURE I.25 Bote de dialogue permettant la mesure automatique de huit reponses impulsionnelles binaurales grace a` une mesure asynchrone a` laide de MLS, realisee sous forme de module externe
pour le programme CoolEdit Pro
F IGURE I.26 Bote de dialogue permettant la mesure automatique de huit reponses impulsionnelles binaurales grace a` une mesure asynchrone a` laide dun balayage frequentiel, realisee sous forme de
module externe pour le programme CoolEdit Pro
du balayage, est due a` la convolution avec le balayage inverse, et peut donc e tre supprimee (cf. fin du
I.3.1.3). On obtient donc finalement la reponse impulsionnelle, augmentee de la duree de la resonance
et du temps de calage (cf. fig. I.24).
Implantation et mise en uvre Les deux procedures de mesure ont e te implantees dans le logiciel CoolEdit Pro [179]. Lune et lautre des deux techniques suppose que le decalage de frequence dechantillonnage ait e te prealablement estime. La bote de dialogue concernant la mesure a` laide de MLS est
presentee figure I.25, et celle concernant la mesure a` laide dun balayage frequentiel est presentee figure I.26. Pour une question de temps, il na pas e te possible de mener a` terme la procedure de mesure
par balayage frequentiel ; le processus sarrete une fois que les sequences pertinentes ont e te extraites
du signal enregistre, puis ree chantillonne ; il manque letape de convolution par le balayage frequentiel
` la fin de la procedure, huit fichiers sont stockes sur disque ; leur nom est determine suivant
inverse. A
les informations fournies dans la bote de dialogue, en accord avec une norme en vigueur chez Renault.
Comme les fichiers sont codes suivant le format WAV, ils sont composes dechantillons entiers et normes.
39
TABLEAU I.1 Retards darrivee de londe directe en e chantillons, entre les quatre haut-parleurs et les deux
oreilles dun mannequin, compares entre quatre methodes de mesure
Haut-parleur/oreille
WG
WD
XG
XD
YG
YD
ZG
ZD
MLSSA
128
138
109
128
212
184
217
177
125
135
127
147
209
182
255
215
128
137
98
126
209
188
209
170
128
134
109
129
209
180
214
177
A URORA MLS
synchrone
A URORA balayage
synchrone
A URORA MLS
asynchrone
Il faut donc determiner lamplitude maximale de lensemble des reponses impulsionnelles calculees, puis
diviser toutes ces reponses par cette amplitude ; il en resulte un coefficient multiplicatif appele facteur de
cadrage : nous avons e crit ce facteur de cadrage a` linterieur du fichier, apr`es les donnees.
I.3.2.5
Validation
Pour valider notre protocole de mesure, nous avons effectue une serie de mesures avec plusieurs
dispositifs, et nous avons compare les temps darrivee de londe directe entre les quatre haut-parleurs
(WXYZ) du vehicule et les deux oreilles (GD) dun mannequin place en position conducteur dans un
vehicule de type Safrane. Les dispositifs utilises e taient les suivants :
le logiciel MLSSA ;
le logiciel A URORA avec la mesure par MLS ;
le logiciel A URORA avec la mesure par balayage frequentiel ;
notre dispositif de mesure asynchrone par MLS.
Le syst`eme MLSSA necessite une carte e lectronique proprietaire, alors que le syst`eme A URORA et notre
dispositif ne necessitent quune carte e lectronique standard dediee au multimedia, mais fonctionnant en
full duplex de mani`ere parfaitement synchronisee : nous utilisons une carte de marque T URTLEBEACH ,
mod`ele F IJI .
Les resultats sont rassembles dans le tableau I.1. Le syst`eme MLSSA faisant office detalon, on
remarque que lerreur commise par notre protocole sur le temps darrivee de londe directe est inferieure
a` 5 e chantillons, soit un dixi`eme de milliseconde environ. On peut conclure que notre protocole de mesure
de reponses impulsionnelles par methode MLS asynchrone est fiable.
Dautre part, les resultats obtenus avec A URORA presentent des differences notoires par rapport aux
resultats obtenus avec MLSSA . Cela peut e tre du au mauvais fonctionnement du full duplex ou a` une
mauvaise synchronisation du logiciel CoolEdit Pro: en effet, lors dune mesure en boucle (c.-`a-d. en
injectant le signal de sortie de la carte dans lentree de celle-ci), nous avons constate un retard de plusieurs e chantillons.
Nous avons e galement compare les reponses impulsionnelles obtenues avec les quatre syst`emes.
Comme la mesure asynchrone contient la reponse de lamplificateur de lautoradio, il faut la deconvoluer avant deffectuer la comparaison. La figure I.27(a) presente les premiers e chantillons des reponses
obtenues avec ces quatre syst`emes ; on constate que les premi`eres reflexions sont correctement restituees. Dautre part, comme le montre la figure I.27(b), le rapport signal/bruit de la mesure effectuee par
la methode asynchrone est presque identique a` la mesure de reference effectuee avec le syst`eme MLSSA .
Enfin, nous avons compare les reponses en frequences globales ; elles sav`erent identiques (cf. fig. I.28).
40
MLSSA
MLSSA
10
dB
10
10
20
20
30
30
150
200
250
300
350
400
dB
40
100
40
10
50
dB
0
10
60
20
70
30
40
100
150
200
250
300
350
2000
4000
6000
8000
10000
12000
10000
12000
400
10
dB
10
10
20
30
20
150
200
250
300
350
400
10
30
dB
40
100
40
dB
0
50
10
20
60
30
40
100
150
200
250
Echantillons
300
350
400
70
2000
4000
6000
Echantillons
8000
F IGURE I.27 Comparaison du contenu temporel dune reponse impulsionnelle obtenue avec plusieurs syst`emes de mesure
130
120
Energie en dB
110
100
90
MLSSA
Aurora MLS
80
70
60
20
50
100
200
400
800
Frquence en Hz
1500
3000
5000
10000
20000
F IGURE I.28 Comparaison des reponses en frequence dune reponse impulsionnelle obtenue avec plusieurs
syst`emes de mesure
41
Grace a` cette e tude, nous disposons dune methode de mesure aynchrone des reponses impulsionnelles acoustiques de lhabitacle a` laide de sequences de longueur maximale. La procedure est relativement simple a` mettre en uvre, puisquil suffit dinserer un disque compact dans le lecteur de lautoradio,
de lancer la lecture et denregistrer le signal audio directement sur le disque dur dun ordinateur. La seule
contrainte prealable est de connatre avec precision la difference des frequences dechantillonnage des
dispositifs de lecture et denregistrement. Tous les algorithmes ont e te implantes sous forme de modules
externes pour le logiciel CoolEdit Pro; cette e tape a` fait lobjet dun stage del`eve ingenieur [179].
Une fois le signal enregistre, le programme se charge du ree chantillonnage, du decoupage des tranches
de signal interessantes, et du calcul de lintercorrelation avec le signal e mis (correspondant a` une copie
informatique du signal present sur le disque compact).
Nous avons pu comparer un ensemble des reponses calculees grace a` notre syst`eme avec le meme
ensemble de reponses mesurees avec le logiciel MLSSA . Tant au niveau du contenu temporel que du
contenu spectral, les resultats concordent parfaitement.
Nous avons enfin pu montrer quil e tait possible denvisager une mesure asynchrone a` laide dun
balayage frequentiel tout en recuperant les retards relatifs de chacun des haut-parleurs. Dans le cas dune
mesure synchrone, cette methode se rev`ele meme superieure a` la methode des MLS (en terme de rapport
signal/bruit et dimmunite aux non-linearites) ; elle est meme peu sensible a` la difference des frequences
dechantillonnage entre plusieurs dispositifs, a` condition que cette difference ne soit pas trop importante,
de sorte que le ree chantillonnage nest pas necessaire (mais la reponse en phase est degradee).
Premi`eres reflexions
Les premi`eres reflexions sont isolees les unes des autres et ne dependent que des positions de la
source et du recepteur. Leur influence sur notre perception de lespace sonore peut e tre reliee objectivement a` la forme de la salle et aux positions de la source et du recepteur dans salle. Limpression de clarte
est evaluee par limportance du rapport de lenergie des reflexions precoces a` lenergie de la reverberation tardive. Dautre part, la distribution temporelle des reflexions precoces et du son direct, observee
dans le domaine frequentiel, traduit une certaine (( coloration )) apportee par la salle [85, 137, 181]. Enfin
le retard de la premi`ere reflexion par rapport au son direct peut e tre relie a` la dimension subjective de la
salle [85].
Elles jouent donc un role important sur le plan perceptif, et sont facilement decrites par la theorie
geometrique. Leur date darrivee, leur amplitude et leur direction de provenance peuvent e tre calculees
par des mod`eles geometriques tels que la methode des rayons, des cones, ou des images [138, 172].
I.4.1.2
Reverberation tardive
Les reflexions finissent par se melanger dune mani`ere telle quil devient impossible de les differencier : on parle de reverberation. Le signal temporel correspondant peut e tre modelise par un processus
aleatoire gaussien dans le domaine temporel et spatial, et il est lie a` la notion de champ diffus.
Champ diffus Lors de la decroissance du champ reverbere, on consid`ere que le champ est diffus a` un
endroit donne si la distribution directionnelle de lenergie incidente est uniforme sur tout intervalle de
42
temps de duree courte par rapport au temps de reverberation [172] ; le champ sonore est alors isotrope.
Cela necessite une densite temporelle dechos suffisante, et restreint donc lapplication de la notion de
champ diffus a` la reverberation tardive. Une discussion interessante sur la notion de perte dindividualite
des particules sonores est effectuee par Kuttruff [172, p. 123].
La validite de lhypoth`ese de champ diffus depend de la geometrie de la salle et des caracteristiques
acoustiques des parois. De mani`ere generale, on peut montrer quun champ diffus est realise au bout
dun certain temps dans une salle aux parois parfaitement reflechissantes et diffusantes (c.-`a-d. renvoyant
lenergie incidente dans toutes les directions) [172, 257]. Pratiquement, dans la reponse impulsionnelle
dun canal acoustique, le champ diffus nest atteint quapproximativement, mais dautant plus rapidement
que les parois de la salle sont diffusantes.
Neanmoins, meme si les fronti`eres dun espace clos ne produisent des reflexions que partiellement
diffuses, leur contribution a` letablissement dun champ sonore diffus peut e tre considerable, puisque
pour chaque reflexion, lenergie sonore speculaire est convertie en e nergie non speculaire. Le rapport
de lenergie non speculaire sur lenergie totale est dautant plus e leve que labsorption des parois est
faible [172, p. 120].
La notion de champ diffus permet de calculer simplement a` chaque frequence le temps de reverberation et le niveau de lenergie reverberee. La partie tardive dune reponse impulsionnelle utilisable
dans une operation dauralisation peut donc e tre fournie par un processus aleatoire gaussien non stationnaire possedant les bonnes proprietes de decroissance exponentielle de lenergie en fonction de la
frequence [72, 138, 212]. Le caract`ere gaussien provient de lapplication du theor`eme de la limite centrale [277], puisque la densite temporelle dechos est tr`es importante (la superposition de nombreux
phenom`enes aleatoires independants et de meme nature tend vers une loi normale lorsque le nombre de
processus tend vers linfini).
Temps de reverberation et courbe de decroissance Le temps de reverberation dune salle est le temps
necessaire pour que lenergie recue decroisse de 60 dB par rapport a` son niveau en regime e tabli [131].
Sa definition stricte suppose que le signal e mis est un bruit blanc, et on appelle courbe de decroissance
la variation de lenergie recue en fonction du temps e coule apr`es arret de lemission du bruit ; il sagit
en fait du carre de la reponse impulsionnelle h2 t , appele e chogramme, ou ETC (Energy Time Curve).
Representee sur une e chelle logarithmique (cf. fig. I.29(a)), cette courbe a une allure exponentielle decroissante. La pente de la droite, sur laquelle on peut aisement mesurer un temps de reverberation, est
independante de la position de la source et du recepteur : elle est uniquement representative de la salle.
Cependant, cette courbe de decroissance est perturbee par le caract`ere doublement aleatoire de la reverberation, a` la fois dans le domaine temporel et dans le domaine spatial. La solution naturelle est
deffectuer une moyenne dun grand nombre de courbes de decroissance. Mais Schroeder a montre quil
existait un moyen de calculer directement la moyenne dune infinite de realisations [282] : la courbe de
decroissance theorique, obtenue en moyennant une infinite de realisations, sobtient par integration retrograde de lechogramme h2 t . Elle se deduit dune seule mesure de la reponse impulsionnelle h t
par la relation
()
()
()
EDCh(t) =
EDC ( )
+1
h2 (t)dt ,
(I.57)
avec
h t la courbe de decroissance e nergetique integree, ou EDC (Energy Decay Curve). Cette
courbe de decroissance est donc lenergie residuelle apr`es linstant t dans la reponse impulsionnelle
ht.
On peut ainsi calculer une moyenne statistique au moyen dune seule realisation, au lieu de multiplier les mesures de la meme experience pour obtenir une moyenne plausible ; lintegration permet de
minimiser le caract`ere aleatoire de la reponse impulsionnelle en champ diffus.
()
43
10 log10 EDC(t)
en dB
Energie totale
Energie reverberee
E80
60 dB
Tr
t en sec
pente apr`es 80 ms
0 80
t en ms
(b) Mod`ele simplifie du cumul retrograde e nergetique propose par Jullien [145]
De plus, il est possible deffectuer une moyenne spatiale de lechogramme correspondant a` differentes positions du recepteur avant deffectuer le cumul retrograde (il est e galement possible deffectuer
une moyenne spatiale de plusieurs cumuls retrogrades) [155] ; cette operation accentue encore le lissage.
Dans le cas ideal o`u on effectue un calcul sur une version non bruitee de la reponse impulsionnelle,
Jullien [145] propose un mod`ele simplifie de la courbe de decroissance integree. Sur la figure I.29(b), on
peut constater que certains param`etres importants peuvent e tre deduits, comme lenergie totale, lenergie
reverberee, lenergie restante apr`es ms, et le temps de reverberation tardif apr`es ms. La decroissance
exponentielle debute souvent bien avant la limite de 80 ms, proposee par Jullien [145], qui est une simple
convention.
Si le son direct et les toutes premi`eres reflexions ont une amplitude importante, lEDC chute brutalement. Cela se produit lorsque lon se situe pr`es de la source, et/ou que celle-ci est dirigee vers le recepteur
et quelle est directive. Cette chute samplifie en hautes frequences car la directivite de la source est en
general plus grande en hautes frequences quen basses frequences ; de plus le son direct parvient de face
au recepteur, par definition, tandis que la reverberation tardive, sous lhypoth`ese de champ diffus, peut
e tre assimilee a` une infinite dondes planes provenant de toutes les directions possibles [314].
Comme on peut le voir sur la figure I.30, le cumul e nergetique lisse considerablement la courbe
representant lechogramme.
Mais en pratique, la courbe de decroissance integree est fortement affectee par le niveau de bruit
de fond non negligeable present sur toute mesure de la reponse impulsionnelle, comme le montre la
figure I.30(b) ; la perte de dynamique est tr`es importante. Il peut e tre mal aise de determiner un temps
de reverberation par regression lineaire sur cette courbe, alors quon ne connat meme pas la dynamique
maximale utilisable. De plus, la presence du bruit de fond perturbe profondement la convolution avec
un signal ; dapr`es Xiang [330], le resultat fait apparatre un surplus subjectif de reverberation (il y
a convolution du bruit de fond avec le signal). Pour remedier a` ce probl`eme, il faudrait connatre la
(( dur
ee utile )) de la reponse impulsionnelle ; or celle-ci varie avec la frequence, puisque les frequences
e levees decroissent plus vite que les frequences basses a` cause des proprietes visco-thermiques de lair
[30]. Une procedure de restauration des reponses impulsionnelles mesurees a e te propose dans ce sens
[113, 139, 310].
44
Echogramme ou ETC
20
Rponse brute
Rponse dbruite
20
40
20
dB
dB
Rponse brute
Rponse dbruite
60
40
80
60
100
80
120
0.05
0.1
0.15
Temps en seconde
0.2
0.25
0.3
100
(a) Energie
0.05
0.1
0.15
Temps en seconde
0.2
0.25
0.3
F IGURE I.30 Echogramme et courbe de decroissance integree calcules a` partir dune reponse impulsionnelle
mesuree dans un vehicule
Analyses temps-frequence
( )
( )
Spectrogramme Un choix possible pour h t;f est le spectre de Fourier a` court terme (ou spectrogramme), defini comme le carre du module de la transformee de Fourier a` court terme, (cf. C.2) c.-`a-d.
Z
(i+1) t
w
i t
(t
i t)h(t)e
2
2jft t ,
(I.58)
o`u t represente la longueur de chaque trame i, et w la fenetre de ponderation (ou fenetre danalyse) [119, 239]. Ainsi, pour chaque frequence, on peut calculer lensemble des indices choisis. La figure
I.31 presente un exemple de representation a` trois dimensions du spectrogramme dune reponse impulsionnelle non bruitee. Il sagit dune sorte de (( deploiement frequentiel )) de lechogramme. Pour des
commodites daffichage, les resolutions temporelles et frequentielles ont e te considerablement reduites
grace a` un lissage avec fenetres de Hann.
La lisibilite de cette representation est cependant troublee par des fluctuations erratiques, telles que
celles constatees sur lechogramme (ou ETC) h2 t au I.4.1.2. La meme solution est donc employee
pour lisser la representation : conservant lapproche de Schroeder [282], on va effectuer une sommation
retrograde de lenergie a` chaque frequence [138].
()
45
100
Energie en dB
50
50
0
0.05
100
0
0.1
5
10
0.15
15
20
0.2
Temps en sec
Frquence en kHz
F IGURE I.31 Spectrogramme dune reponse impulsionnelle non bruitee analysee avec fenetres de BlackmanHarris dordre 4 de duree 11,6 ms, et un pas davancement de 2,9 ms
Relief de decroissance Lidee intuitive est de disposer dune representation temps-frequence telle que
chaque e volution temporelle dun canal frequentiel puisse e tre consideree comme une courbe de decroissance e nergetique (ou EDC, explicitee a` lequation I.57) evaluee localement au voisinage de la frequence
centrale du canal. On parle bien de voisinage, car une representation temps-frequence ne permet jamais
disoler une frequence particuli`ere a` cause du fenetrage temporel qui se traduit par une convolution frequentielle et un lissage de lechantillonnage de la transformee de Fourier a` temps discret.
Ainsi, si on remplace une reponse impulsionnelle h t par une distribution temps-frequence en e nergie h t;f , on peut definir le relief de decroissance e nergetique, ou EDR (Energy Decay Relief), par la
quantite
Z
()
( )
+1
EDRh;(t;f ) =
( )d
h ;f .
(I.59)
t
Dans le cas o`u la distribution temps-frequence est la transformee de Fourier a` court terme, on est
tout naturellement conduit a` une representation obtenue par le calcul de spectres cumulatifs, en partant
de la fin de la reponse impulsionnelle. Le relief de decroissance sexprime donc par
EDR(i;f ) =
kX
max
k=i
SFCT(k;f ) ,
(I.60)
avec la definition du spectre de Fourier a` court terme donne a` lequation (I.58). La figure I.32 montre
le resultat dun cumul retrograde sur le spectrogramme de la figure I.31. On voit nettement a` quel point
le cumul ameliore la lisibilite de la representation. Toujours pour des commodites de visualisation, les
resolutions temporelles et frequentielles ont e te reduites dans les memes proportions et dans les memes
conditions que pour la figure I.31.
Linterpretation dune representation telle que celle de la figure I.32 est facilitee par le mod`ele simplifie de courbe de decroissance propose par Jullien (cf. fig. I.29(b)). Le relief de decroissance fournit
donc, dans chaque bande de frequences, lenergie totale et lenergie de la reverberation tardive. On peut
en particulier en deduire, toujours dans chaque bande de frequences, le temps de reverberation, et remonter au spectre de puissance initial tel que defini au I.4.2.2.
De mani`ere plus generale, le choix de la distribution h influe tout naturellement sur le relief de
decroissance. Rien ne garantit que le spectrogramme fournisse un resultat correct. Polack [257] pref`ere
46
100
Energie en dB
50
50
0
0.05
100
0
0.1
5
10
0.15
15
20
0.2
Temps en sec
Frquence en kHz
F IGURE I.32 Relief de decroissance obtenu par cumul retrograde sur le spectrogramme de la figure I.31
( )
()
EDR ( )
()
EDR ( )
EDRh(t;f ) =
+1
=t
h( )e
2
2jf d ;
(I.61)
=0
47
80
dB
70
60
50
40
30
20
10
12
Frquence en kHz
14
16
18
20
En pratique, cette methode de calcul du relief de decroissance peut e tre recommandee pour des signaux courts, mais devient beaucoup trop couteuse pour des signaux longs (`a cause des transformees de
Fourier calculees sur une longueur e gale a` celle de la reponse impulsionnelle, soit plusieurs dizaines de
milliers de points). Cependant, on peut reussir a` exploiter les redondances dans le calcul, en cherchant
a` exprimer le relief a` linstant 2 en fonction de celui a` linstant 1 . Dapr`es Jot [138], la recurrence
exprimee rend lalgorithme sous-optimal si on ne cherche pas a` atteindre des resolutions temporelles et
frequentielles maximales. Cette methode est de toute facon inutilisable sur des signaux longs.
Le spectrogramme cumule est bien plus avantageux en cout de calcul, mais il ne verifie quapproximativement les proprietes necessaires e voquees au paragraphe precedent. Notamment, la non-conservation
de la localite temporelle (anticausalite et support) entrane une erreur sur les coupes a` frequence constante.
Cependant, la non-conservation de la loi marginale en frequence parat plus acceptable [138] : la densite
spectrale denergie totale calculee par cette methode (c.-`a-d. le premier temps du relief de decroissance) a
la meme allure que celle calculee avec une transformee de Fourier sur lensemble de la reponse, ramenee
a` la meme resolution frequentielle (cf. fig. I.33).
Le choix du spectre de Fourier a` court terme en tant que distribution temps-frequence est acceptable
si on le calcule avec la (( bonne )) fenetre de ponderation (cf. C.2). Comme on le remarque a` la figure
I.33, la fenetre de Blackman-Harris dordre 4 [119, 239] semble bien adaptee. Linterpretation du relief
de decroissance restera pertinente si on tient compte des resolutions temporelles et frequentielles de la
distribution choisie.
Une analyse approfondie de la qualite des differents estimateurs de la distribution temps-frequence
en e nergie h t;f est effectuee par Baskind [12].
On y apprend que lecart type du relief de decroissance (tel que defini par le spectre courant futur)
est de lordre de sa moyenne. Ceci explique les variations importantes observees lors de lapplication
directe de lequation (I.61), et rend necessaire lutilisation dun procede de lissage, soit en utilisant une
definition approchee comme celle du spectre cumule, soit en effectuant une estimation de la moyenne
plus robuste que lobservation dune seule observation.
En effet, Baskind montre quen effectuant une moyenne des reliefs associes a` des positions variables
(mais suffisamment e loignees entre elles) du recepteur, pour une position fixe de la source, il est possible
de reduire la variance de lestimation dun facteur e gal a` la racine carree du nombre destimations ; ceci
suppose bien entendu que le signal aleatoire associe a` la reverberation tardive soit ergodique dans le
domaine spatial, c.-`a-d. que le signal capte a` chaque position du recepteur puisse e tre vu comme une
( )
48
nouvelle realisation statistique du signal a` une position donnee. Cette observation corrobore les e tudes
menees par Kawakami sur la courbe de decroissance e nergetique globale [155].
Dautre part, si lon suppose que lenergie et le temps de reverberation sont a` variation lente, il est
legitime deffectuer une moyenne de plusieurs isofrequences adjacentes ; en pratique, il faut augmenter
la largeur de chaque bande au fur et a` mesure que la frequence augmente pour garder une precision
constante de lestimateur.
Il est meme possible de cumuler les deux effets.
I.4.2.2
Analyses statistiques
Comme nous lavons e crit au I.4.1.2, on peut modeliser la reverberation dun canal acoustique par
un signal aleatoire gaussien non stationnaire dont lenergie decrot exponentiellement en fonction du
temps. Il convient cependant de valider cette approximation par letude des proprietes statistiques de
cette reponse impulsionnelle. Il y a deux approches possibles : lune dans le domaine frequentiel, et
lautre dans le domaine temporel. Historiquement, cest lapproche frequentielle qui a dabord vu le jour,
sous limpulsion de Schroeder dans les annees cinquante [287]. Puis Polack a complete cette approche
dans le domaine temporel en proposant un mod`ele stochastique de la reponse impulsionnelle [257].
Statistique dans le domaine frequentiel Dapr`es Schroeder [287], les proprietes des fonctions de
transfert de salle sont decrites statistiquement par la densite frequentielle des modes propres de la salle.
Kuttruff [172, p. 70] donne le nombre approximatif de modes propres inferieurs a` une frequence f dans
une salle rectangulaire, ainsi que la densite de modes par Hertz, respectivement
4 V f 3
3 c3
Nm (f )
et
Dm (f ) =
@Nf
@f
4V fc3 ,
(I.62)
o`u V est le volume de la salle. Ces expressions approchees ne sont pas valables aux tr`es basses frequences. Un calcul rapide montre que le nombre de frequences propres inferieures a` 20 kHz dans une
salle de 1000 m3 est denviron 109 . Une consequence de lequation (I.62) est que lecart moyen entre
frequences propres voisines est petit devant lencombrement frequentiel dun mode. Celui-ci est mesure
par la largeur de bande dun mode f , lui-meme relie au coefficient damortissement du mode par la
relation
f = .
(I.63)
=
Il est donc impossible de trouver un signal qui excite un mode en particulier. Mieux meme, le signal
capte par un micro, en regime sinusodal stationnaire, est la somme des contributions dun grand nombre
de modes propres. Dans ce cas, et en vertu du theor`eme de la limite centrale [35], la fonction de transfert
complexe, recueillie lorsque la frequence dexcitation varie, peut e tre assimilee a` un processus aleatoire
gaussien centre [172, 286, 287]. La partie reelle et la partie imaginaire sont alors des variables aleatoires
gaussiennes centrees, non correlees et de meme variance. Le module de cette fonction de transfert suit
une loi de Rayleigh [35], et la phase est uniformement repartie entre et . Lecart moyen entre les
maxima et les minima de la reponse en frequence vaut environ 10 dB. Cette propriete est independante
de la position de la source dans la salle, et aussi de la salle elle-meme.
Le nombre moyen de pics par Hertz se rev`ele proportionnel au temps de reverberation [290], a` savoir
Df
p
3= T r=4 ,
(I.64)
o`u est le coefficient dabsorption moyen de plusieurs modes de resonances ayant des frequences voisines. Dautre part, on peut relier le temps de reverberation a` ce coefficient dabsorption moyen par la
relation
T r
) Tr
= .
(I.65)
20log10(e
) = 60dB
49
= 3ln10
Il demeure cependant capital de remarquer que cette theorie statistique ne se verifie que lorsque le
recouvrement modal est suffisant. Ceci nest pas le cas en basses frequences. Il existe une frequence
limite au-dessus de laquelle on doit se situer : cest la frequence de Schroeder. La premi`ere estimation de
cette frequence a e te donnee en 1954 par Schroeder ; elle correspondait a` la necessite que lespacement
entre les modes soit inferieur au dixi`eme de leur largeur de bande. Plus tard, de nombreuses mesures
ont montre quau lieu de dix, un recouvrement (dans la limite de la largeur a` -3 dB) de trois modes
e tait suffisant pour que le mod`ele statistique puisse sappliquer [67, 281] ; dans ce cas, la frequence de
Schroeder se calcule approximativement par
p
en Hz ,
(I.66)
o`u T r est le temps de reverberation en seconde et V le volume de la salle en m3 . Pour une salle de
400 m3 au temps de reverberation de 1 sec, la frequence de Schroeder vaut environ 100 Hz. Elle est
toujours tr`es basse, sauf dans les petites salles relativement reverberantes (salles de bains carrelees).
Statistique dans le domaine temporel De meme que lon peut calculer la densite de modes par Hertz,
il est possible de calculer la densite de reflexions par unite de temps [172, p. 98] ; elle est donnee par
Dr (t) =
@Nr
@t
32
4 cVt
(I.67)
` linverse de lequation (I.62), cette formule est valide pour une salle de forme quelconque.
A
La similitude auditive entre la reverberation tardive dune salle et un bruit blanc exponentiellement
decroissant est dabord remarquee par Moorer [212]. Puis Polack decrit la reponse impulsionnelle comme
une realisation dun processus aleatoire non stationnaire [257], c.-`a-d.
h(t) = b(t)e
()
pour t ,
(I.68)
o`u b t est un bruit gaussien stationnaire centre, et est lie au temps de reverberation par la relation
(I.65). Si on mesure plusieurs reponses impulsionnelles h t a` plusieurs endroits dune meme salle, on
obtient plusieurs realisations de ce meme processus aleatoire. Il faut remarquer que le bruit b t nest
pas necessairement blanc ; on le caracterise par sa densite spectrale de puissance, definie comme la
transformee de Fourier de sa fonction dautocorrelation Rbb t [35], c.-`a-d.
()
P (f ) = Pbb (f ) =
+1
1
()
()
(I.69)
Il se trouve que les variables t et f sont separables pour le calcul des principales grandeurs caracteristiques [257]. Les grandeurs remarquables sont lenveloppe e nergetique de la reponse dans le domaine
frequentiel,
Z +1
2
2t t P f ,
E f E jH f j P f
(I.70)
( )= [ ( ) ]
()
d = 2( )
+1
1
P (f )df .
(I.71)
` ce stade, il faut remarquer que le temps de reverberation est toujours independant de la frequence,
A
ce qui nest pas tr`es realiste.
M OD E` LE
AVEC
T R D E PENDANT
QUENCE
DE LA FR E
50
Afin dameliorer ce mod`ele, Polack fait appel au spectre moyen de Wigner-Ville, defini comme
lesperance de la distribution de Wigner-Ville appliquee a` la reponse impulsionnelle h t . La distribution
de Wigner-Ville, qui est une methode de representation temps-frequence e nergetique des signaux non
stationnaires [3941, 44, 86, 87, 126, 193], est definie par
()
Wh (t;f ) =
+1
1
(I.72)
Cest une fonction reelle repartissant lenergie dun signal dans le plan temps-frequence, c.-`a-d.
Z
+1 Z +1
1
Wh(t;f )dt df =
+1
1
jh(t)j2 dt .
(I.73)
Une propriete remarquable de cette representation temps-frequence est la conservation des distributions
marginales, a` savoir
h2 (t) =
+1
1
Wh(t;f )df
jH (f )j2 =
et
+1
1
Wh(t;f )dt
(I.74)
()
Polack generalise le mod`ele decrit par lequation (I.68) en imposant que h t soit, pour tout instant
t, une variable aleatoire gaussienne telle que le spectre moyen de Wigner-Ville de h verifie
(I.75)
Cette expression definit une enveloppe temps-frequence e nergetique de h dont on suppose quelle varie
lentement avec t et f [257]. Elle permet de generaliser, dapr`es (I.74), lexpression (I.70) de lenveloppe
e nergetique de la reponse en frequence E jH f j2 , meme si devient une fonction de f . Mais il est impossible de generaliser celle de lenveloppe e nergetique de la reponse dans le domaine temporel (I.71),
sauf a` linstant initial [138]. La densite spectrale de puissance du bruit stationnaire b t , notee P f ,
peut e tre appelee spectre de puissance initial [138] : cest la densite spectrale de puissance de la reponse
impulsionnelle en labsence dune decroissance exponentielle. Cette quantite jouera un role important
dans la suite de letude.
[ () ]
()
D OMAINE
()
DE VALIDIT E
Le mod`ele statistique developpe ci-dessus implique, par linearite de la transformee de Fourier, que
la reponse en frequence de la salle est aussi un processus aleatoire gaussien complexe. Il ne sapplique
donc que pour des frequences superieures a` la frequence de Schroeder definie par lequation (I.66).
De plus, elle ne peut e tre consideree comme aleatoire quau bout dun certain temps, appele temps de
melange. Dapr`es Cremer et Muller, loreille ne peut distinguer de differences entre deux signaux aleatoires comportant plus de 2000 impulsions par seconde en dessous de 2 kHz [49,
p p. 485 et 422] ; dapr`es
lequation (I.67), ils en deduisent une valeur du temps de melange tmelange
V . Mais Polack [257] en
donne une definition plus subtile : il consid`ere que la reponse impulsionnelle peut e tre consideree comme
aleatoire au bout du temps a` partir duquel au moins dix e chos aleatoires se superposent a` tout instant ;
ceci permet dapprocher une distribution gaussienne en vertu du theor`eme de la limite centrale [277].
Dapr`es lequation (I.67), ce temps est donne par
=2
tmelange =
10V .
4c3
(I.76)
Ce temps de melange depend de la largeur de bande de limpulsion e mise, ou de son e talement temporel,
et de la duree dintegration de lobservation. Une idee intuitive serait de considerer la duree dintegration de loreille ; mais lestimation de cette duree pose probl`eme, car sa valeur depend du protocole
51
experimental, de la bande de frequence et du niveau sonore [255, 319, 329]. Generalement, il est admis
que le temps de melange est approxime par
tmelange V
en ms ,
(I.77)
o`u V est le volume de la salle en m3 . Ce temps de melange vaut environ 20 ms dans une salle de 400 m3 .
Il peut e tre considere comme le temps necessaire a` letablissement dun champ (( perceptivement diffus ))
dans la salle, cest-`a-dire au-del`a duquel aucune direction preponderante ne peut e tre percue. En pratique,
lexpression (I.77) correspond a` une leg`ere surestimation, si les parois de la salle ont des proprietes
diffusantes [138].
I.4.2.3
Nous avons decrit au I.4.2.2 un mod`ele stochastique de la reverberation tardive o`u lon consid`ere
que h t est une realisation dun processus aleatoire non stationnaire. Pour Polack [257], ce processus est
caracterise par son enveloppe temps-frequence E Wh t;f , comme indique a` lequation (I.75), de sorte
que la distribution choisie h t;f soit une realisation de la representation temps-frequence Wh t;f . Le
relief de decroissance est alors donne par lequation (I.59) avec h Wh .
Si on prend maintenant pour h t;f la moyenne des representations temps-frequence E Wh t;f ,
on obtient comme expression du relief, dapr`es lequation (I.75),
()
[ ( )]
( )
( )
EDRh;(t;f ) =
( )
[ ( )]
()
+1
h(;f )d
= 2P((ff)) e
2 ( f ) t ,
(I.78)
avec P f le spectre de puissance initial (equation (I.69)). Cest donc lesperance du relief de decroissance (on a effectue une moyenne). On peut dire quune realisation particuli`ere lapproche. Et lenveloppe
temps-frequence
h t;f qui caracterise le phenom`ene de reverberation tardive est obtenue (`a une
constante pres) par normalisation du relief par le temps de reverberation a` toute frequence, c.-`a-d.
Env ( )
Envh(t;f ) = P (f )e
(I.79)
avec lexpression du Tr defini a` lequation (I.65). Pour representer lallure de cette enveloppe tempsfrequence, on a donc besoin :
1. Du spectre de puissance initial P f
2. De la variation frequentielle du temps de reverberation T r f qui fournit la pente f par la
relation f
=T r f (cf. e q. (I.65)).
()
( ) = 3ln10
()
()
()
La figure I.34 a e te tracee uniquement avec ces deux param`etres ; les lissages temporels et frequentiels sont toujours identiques aux figures I.31 et I.32.
Dapr`es lequation precedente, le spectre de puissance initial est defini par
P (f ) = 6ln10
EDRh;(0;f ) ,
T r(f )
(I.80)
ce qui se verifie aisement en reprenant la definition du temps de reverberation (independant de la frequence), pour lequel on fait lhypoth`ese que la decroissance e nergetique est exponentielle, a` savoir
10log10 PP(t)
0
60 Ttr
et
EDR(0) =
EDR (0 )
+1
h2 (t)dt =
+1
P (t)dt .
(I.81)
La valeur de
h ;f a prendre en compte dans lequation (I.80) est lordonnee a` lorigine de la
droite de regression calculee sur une frequence particuli`ere du relief de decroissance de la figure I.35. La
52
Enveloppe
100
Energie en dB
50
50
0
0.05
100
0
0.1
5
10
0.15
15
20
0.2
Temps en sec
Frquence en kHz
F IGURE I.34 Enveloppe temps-frequence caracterisant la reverberation tardive. Au temps 0 (instant demission de limpulsion) on lit le spectre de puissance initial P (f )
60
40
dB
20
20
40
60
80
100
0.02
0.04
0.06
0.08
0.1
0.12
Temps en sec
0.14
0.16
0.18
0.2
53
temps
pT r=V
frequence
de Schroeder
(en kHz)
domaine de validite
du mod`ele statistique
frequence
F IGURE I.36 Domaine de validite du mod`ele statistique dans le plan temps-frequence : il faut se situer audel`a du temps de melange et de la frequence de Schroeder. V represente le volume de la salle,
et T r le temps de reverberation
()
valeur de P f donnee par lequation (I.80) est donc le spectre de puissance initial de la reverberation
tardive, a` linstant initial, cest-`a-dire au moment de lemission de limpulsion. Il sagit du produit de
deux fonctions de la frequence : la directivite de la source moyennee suivant les directions demission, et
celle du recepteur moyennee suivant les directions dincidence.
Lenveloppe temps-frequence peut donc e tre consideree comme un lissage dune representation
temps-frequence dune reponse impulsionnelle. On peut e galement la considerer comme le gabarit dun
filtre variant dans le temps a` utiliser pour generer une reverberation tardive. Il reste seulement a` determiner linstant a` partir duquel on appliquera ce gabarit, cest-`a-dire le debut de la reverberation tardive.
Celui-ci peut e tre aisement approxime dans le cas dune modelisation geometrique de la salle, mais
beaucoup moins dans le cas dune reponse impulsionnelle mesuree. Cependant, on a dit que la reverberation tardive pouvait e tre assimilee a` une realisation dun processus aleatoire gaussien non stationnaire
( I.4.2.2) ; et on sait que le facteur de crete dun tel processus vaut environ 10 dB. Il est defini par [35]
fc(t) =
h2max (t)
.
E[h2 (t)]
(I.82)
Dapr`es [138], la puissance crete h2max t decrot plus rapidement que la puissance moyenne E h2 t
au tout debut de la reponse impulsionnelle, puis decrot de mani`ere identique lorsque le facteur de crete
atteint la valeur 10 dB correspondant a` un signal gaussien. On sait que lon a alors atteint la reverberation
tardive.
()
[ ( )]
C ONCLUSION
Pour resumer, il existe deux quantites a` connatre pour decrire statistiquement une salle : la frequence
de Schroeder et le temps de melange. Dans une certaine region du plan temps-frequence, delimitee par ces
deux grandeurs, la reponse impulsionnelle dun canal acoustique admet une representation stochastique
independante des positions de la source et du recepteur (voir figure I.36). Dune part, la densite dechos
doit e tre suffisante, ce qui explique la distinction entre reflexions precoces et reverberation tardive, et
justifie la notion de temps de melange. Dautre part, la densite de modes doit aussi e tre suffisante, ce qui
54
explique labsence de reference a` une frequence propre en particulier, et justifie la notion de frequence
de Schroeder ; remarquons que, dans les salles de concert, cette frequence peut e tre consideree comme
suffisamment basse pour que lon declare valide lapproximation stochastique de la reverberation tardive
sur tout le domaine des frequences audibles.
Enfin, la reverberation tardive dune salle est compl`etement definie par deux quantites qui varient
lentement en fonction de la frequence : le temps de reverberation et le spectre de puissance initial. Le
temps de reverberation T r f caracterise la salle en elle-meme ; il est relie a` la forme et au volume de la
salle, a` labsorption des parois et a` celle de lair. Le spectre de puissance initial P f est communique
aux modes propres de la salle ; il depend de la directivite de la source et du recepteur, mais pas de leur
position dans la salle.
()
()
Lextraction de ces param`etres nest pas detaille dans le present document ; le lecteur se reportera
a` [139, 310]. Lestimateur choisi de la distribution temps-frequence en e nergie est le spectrogramme cumule ; chaque isofrequence tracee en dB fait apparatre une decroissance lineaire suivie dun palier correspondant au bruit de mesure. Le principe consiste a` detecter, pour chaque frequence, linstant darrivee
du bruit de fond, puis a` effectuer une regression lineaire sur la partie valide. On en deduit directement
le temps de reverberation, et, par prolongement de la regression a` linstant demission de limpulsion, le
spectre de puissance initial.
m;n;p(x;y;z;f;t) = cos
mx
lx
cos
ny
ly
cos
pz
lz
e2jft
m;n;p 2 N ,
(I.83)
fm;n;p =
La fonction de Green
G(~r;~r0 ) =
2 2
m 2
n
p
+
+
.
lx
ly
lz
m;n;p(~r0 )
2
2 m;n;p (~r) ,
m;n;p km;n;p k
X
(I.84)
(I.85)
avec ~r0 la position de la source, ~r la position courante et k le nombre donde, fournit donc une expression
analytique qui, lorsque les fonctions propres sont connues, permet de calculer le champ sonore a` tout
instant et en tout point de lespace.
En realite, lespace clos nest jamais de forme simple, et les proprietes acoustiques des materiaux
tapissant la surface interieure ne sont pas uniformes et parfois meme inconnues. Le calcul des fonctions
propres devient impossible. Tout au plus, peut-on les exprimer sur une base de fonctions propres connues
correspondant a` une geometrie voisine mais plus simple : il sagit du phenom`ene de couplage modal [30].
Le probl`eme est rendu encore plus complexe dans le cas dun habitacle de vehicule, puisquil existe
des phenom`enes de couplages acoustiques entre differents volumes [49, 172], principalement avec le
55
coffre et linterieur des porti`eres ; en posant la main sur la paroi externe des porti`eres tout en diffusant a`
linterieur du vehicule un signal comportant des basses frequences, on ressent des vibrations.
Dans les petites salles, le domaine de frequences inferieur a` la frequence de Schroeder est beaucoup
plus e tendu. Dans cette region, le champ sonore est gouverne par les modes propres ; meme si il existe un
recouvrement plus ou moins important, les modes sont bien separes les uns des autres, et les proprietes
specifiques dun habitacle transparaissent beaucoup plus facilement. La reponse de la salle depend precisement des positions de la source et du recepteur, ainsi que du mode excite. La direction de propagation
est fixee par ce mode, et les concepts de reflexions non speculaires ou de diffraction nont pas de sens.
Lorsque la frequence varie, la distribution de probabilite de la reponse en frequence varie fortement :
cest la difference fondamentale avec le comportement en hautes frequences.
La distribution des frequences propres est renseignee par lindice despacement frequentiel : Kuttruff
[171] definit cet indice par
1 P f2
i ,
N
(I.86)
fi 2
N
o`u fi est la i-`eme frequence propre. Lorsque les frequences propres sont reguli`erement espacees, alors
; si elles sont distribuees de mani`ere aleatoire suivant une loi de Poisson, alors
. Dans ce
domaine de frequences, on pourra voir apparatre de fortes variations dans la reponse en frequence ; ces
variations peuvent e tre mesurees par lecart type en fonction de la frequence. Comme le taux damortissement de chaque mode est different, la decroissance sonore peut presenter de fortes variations frequentielles dans les basses frequences, puisque le recouvrement modal est faible et que la largeur frequentielle
dun mode est proportionnelle a` son amortissement. Seuls quelques modes peuvent e tre excites par un
signal a` bande e troite. Si ces modes ont tous a` peu pr`es le meme taux damortissement, la decroissance
logarithmique de lenergie sera presque uniforme ; par contre, si certains modes ont un facteur damortissement faible et continuent a` decrotre alors que dautres ont un facteur damortissement e leve et sont
dej`a e teints, la decroissance logarithmique de lenergie presentera plusieurs pentes. Dans ce cas, on ne
peut pas parleur dun unique temps de reverberation. Ce param`etre est donc peut pertinent dans le cas
des petites salles en dessous de la frequence de Schroeder.
=1
=2
Dapr`es lequation (I.84), on peut remarquer que le nombre de modes propres augmente rapidement
avec la frequence. Ceci a e te confirme par Kuttruff [172] dans un espace clos de volume quelconque.
Or les modes propres sont a` support frequentiel fini : du aux proprietes absorbantes des parois, leur
largeur de bande est non nulle. Lorsque la frequence augmente et que lon sapproche de la frequence de
Schroeder, le recouvrement modal augmente. Mais il nest pas encore suffisant pour que le champ sonore
nobeisse uniquement qu`a des considerations geometriques. La reponse en frequence converge vers la
reponse mesuree en hautes frequences, mais il peut subsister des endroits o`u la densite de probabilite
de la pression est tr`es disparate ; dans cette region, la caracteristique la plus importante est davoir une
distribution modale reguli`ere afin doptimiser le recouvrement modal.
` partir dune certaine frequence, il devient impossible de discerner les modes les uns des autres.
A
La reponse en frequence resulte alors dune superposition inextricable de modes, independante de la
` ce stade, lanalyse modale ne
position decoute (sauf au voisinage des parois o`u le son est amplifie). A
permet plus dextraire des informations sur la repartition du son dans la salle. Il faut avoir recours au
mod`ele probabiliste precedemment decrit.
Lorsque lon peut distinguer les differents modes, c.-`a-d. en dessous de la frequence de Schroeder,
le caract`ere ondulatoire du champ sonore doit prevaloir. Linfluence de limpedance interne dune source
sonore sur sa diffusion dans lespace doit e tre prise en compte, de meme que linfluence de la charge
acoustique apportee par lenvironnement sur la puissance rayonnee par la source. Ces deux quantites
(impedance de transfert acoustique et impedance de charge) sont utilisees par Salava [275] pour decrire
le comportement des sources sonores en basses frequences.
56
De mani`ere generale, deux methodes sont utilisees en basses frequences : lanalyse par e lements
finis, et lanalyse modale. On peut montrer que les valeurs des frequences propres sont plus influencees
par la forme de la cavite que par le revetement acoustique des surfaces ; donc lanalyse modale permet
de calculer la reponse acoustique de la cavite. Dautre part, on peut montrer quil est possible de calculer
la reponse acoustique de la cavite sans calculer explicitement les modes de cavites, ce qui est du ressort
de la modelisation par e lements finis. Les deux methodes sont donc concurrentes [302]. Dans une berline de classe moyenne, le premier mode est aux alentours de 80 Hz, et le second aux environs de 150 Hz.
Des solutions passives ou actives ont e te proposees pour attenuer linfluence de ces modes [122]. Il
nest pas necessaire de connatre leur forme exacte, mais seulement leur frequence de resonance et une
estimation de leur facteur de qualite. Le controle passif est realise par le biais dattenuateurs accordes
et places de mani`ere appropriee ; ces attenuateurs sont en general de grandes membranes ou des resonateurs de Helmholtz comportant un orifice a` perte. Il est necessaire dutiliser plusieurs resonateurs pour
e viter un couplage avec les modes dordre superieurs, ce qui produirait une repartition non homog`ene de
la pression. Leur position doit e tre proche des maxima des modes a` attenuer. Une autre methode pour
controler le champ acoustique en basses frequences est lutilisation dun dispositif actif, dans lequel les
haut-parleurs sont alimentes par des signaux mesures par des microphones et prealablement filtres ; le
but recherche est davoir une distribution du champ sonore uniforme, c.-`a-d. de limiter les differences
relatives entre les modes. Le dispositif doit agir uniquement autour des resonances des modes a` attenuer,
et modifier aussi peu que possible les autres frequences ; le but netant pas de minimiser lamplitude
des modes, mais de leur donner un taux amortissement identique en reduisant leur amplitude. Ces deux
approches ont e te testees sur des mod`eles reduits parallelepipedique, et ont permis datteindre une attenuation de 10 dB pour le premier mode.
Une e galisation en frequence peut e galement e tre menee specifiquement en basses frequences [8, 69,
246], pour une position precise de lauditeur. La principale difficulte provient des regions frequentielles
o`u la pression generee par les modes est faible : dans ce cas, il faut augmenter fortement le niveau du
signal injecte dans les haut-parleurs. Dune part, leffet produit peut e tre perceptivement nefaste, dautre
part des phenom`enes de distorsion non lineaire peuvent apparatre au niveau des transducteurs.
Notons enfin que la prise en compte des phenom`enes particuliers en basses frequences est necessaire
pour realiser une simulation de la propagation acoustique dans lhabitacle en vue dune auralisation [81,
102]. Des mod`eles a` e lements finis ou a` e lements de fronti`eres doivent e tre utilises en basses frequences
en conjonction avec les mod`eles geometriques classiques en hautes frequences (methodes des rayons ou
des cones) [52].
57
12
58
1 2
3 4
59
Temps de rverbration
(divers)
0.5
0.5
Temps en sec
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
100
200
400
800
1.5k
3k
5k
10k
0.5
20k
0
100
W Y
X 0.5Z
200
400
800
1.5k
3k
5k
10k
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
100
200
400
800
1.5k
3k
5k
10k
20k
20k
0
100
200
400
800
1.5k
3k
5k
10k
20k
Frquence en Hz
F IGURE I.38 Temps de reverberation calcule a` partir de reponses impulsionnelles mesurees avec un microphone omnidirectionnel place en position conducteur dans dix vehicules (un graphique par
haut-parleur)
Temps de rverbration
(Safrane)
0.5
0.5
Temps en sec
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
50
100 200
400
800 1.5k 3k
5k
0.5
10k 20k
0
50
W Y
X 0.5Z
100 200
400
800 1.5k 3k
5k
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
50
100 200
400
800 1.5k 3k
5k
10k 20k
10k 20k
0
50
100 200
400
800 1.5k 3k
5k
10k 20k
Frquence en Hz
F IGURE I.39 Temps de reverberation calcule a` partir de reponses impulsionnelles mesurees avec un microphone omnidirectionnel place a` quatre positions differentes dans un vehicule de type Safrane
(un graphique par haut-parleur)
60
0.45
0.4
Temps en sec
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
F IGURE I.40 Temps de reverberation calcule a` partir de mesures realisees avec le microphone omnidirectionnel, le mannequin acoustique et le microphone S OUNDF IELD places en position conducteur ;
pour chaque capteur, nous avons effectue une moyenne des resultats obtenus avec les quatre
haut-parleurs
au point que lon puisse se demander si la reverberation poss`ede une influence perceptive. Nous y reviendrons dans la premi`ere partie du chapitre 3, lorsque nous nous interrogerons sur la correction spectrale.
Nous verifions que, a` partir de 400 Hz environ, le temps de reverberation est independant de la position du recepteur dans lhabitacle. Nous decidons alors deffectuer une moyenne spatiale du temps de
reverberation, pour un haut-parleur donne et pour une position variable du microphone. Cette moyenne
est licite car la reverberation tardive peut e tre decrite par un processus statistique ergodique dans le domaine temporel et spatial. De plus, nous constatons que le temps de reverberation est independant de
la position du haut-parleur, toujours a` partir de 400 Hz environ ; en-dessous, les variations peuvent e tre
liees aux conditions differentes de montage des haut-parleurs, et a` lexcitation des differentes parois de
la porti`ere. Nous effectuons e galement une moyenne spatiale entre les temps de reverberation calcules
` laide de ce temps de reverberation
a` partir des mesures effectuees avec les differents haut-parleurs. A
moyen, nous effectuons une nouvelle analyse temps-frequence, avec un temps de reverberation impose
pour chaque reponse impulsionnelle correspondante ; en effet, le calcul du temps de reverberation et de
la densite spectrale de puissance initiale sont interdependants (cf. e q. I.80). La pente de lenveloppe de
decroissance est donc imposee, il ne reste plus qu`a la caler sur la decroissance e nergetique de chaque
isofrequence du spectrogramme, et a` calculer lordonnee a` lorigine pour trouver la densite spectrale de
puissance initiale. Le but de cette technique est de reduire les variations sur la densite spectrale de puissance initiale (principalement celles qui sont dues a` un probl`eme destimation).
On peut sattendre a` ce que le temps de reverberation soit identique quel que soit le microphone de
mesure, a` condition que celui-ci ne soit pas trop directif. Ceci est verifie sur la figure I.40, qui represente
le temps de reverberation calcule a` partir de mesures effectuees avec les trois capteurs dont nous disposons (microphone omnidirectionnel, mannequin avec deux oreilles, et microphone SOUNDFIELD avec
quatre directivites) ; les capteurs ont e te positionnes de mani`ere aussi proche que possible. Au-dessus de
400 Hz, on peut considerer que la concordance entre les courbes est satisfaisante. Le temps de reverberation calcule a` laide des mesures realisees avec les directivites dipolaires du microphone SOUNDFIELD
nest dailleurs pas si different de celui calcule a` laide de la mesure realisee avec la directivite monopolaire, alors que leur diagramme de directivite est plutot reduit.
En dessous de 400 Hz, les valeurs diff`erent ; on peut expliquer ceci par le fait que les capteurs ne
sont pas tous strictement a` la meme position, et il est probable que nous subissions linfluence de deux
61
(Safrane)
65
(Safrane)
65
65
65
55
55
55
45
45
45
45
35
35
35
35
25
25
25
25
15
50
100 200
400
800 1.5k 3k
5k
65
15
10k 20k
50
W Y
X 65Z
100 200
400
800 1.5k 3k
5k
O
55
45
35
25
100 200
400
800 1.5k 3k
5k
10k 20k
55
15
50
10k 20k
15
50
100 200
400
800 1.5k 3k
5k
15
50
W Y
X 65Z
45
45
45
35
35
35
25
25
100 200
400
800 1.5k 3k
5k
15
50
10k 20k
400
800 1.5k 3k
5k
10k 20k
15
50
12
12
12
0
50
0
50
100 200
400
800 1.5k 3k
5k
8
4
100 200
400
800 1.5k 3k
5k
10k 20k
10k 20k
12
0
50
Energie en dB
12
16
0
50
100 200
400
800 1.5k 3k
5k
20
10k 20k
0
50
W Y
X 20Z
12
12
12
400
800 1.5k 3k
5k
0
50
10k 20k
Frquence en Hz
400
800 1.5k 3k
5k
10k 20k
O
16
100 200
100 200
O
16
0
50
10k 20k
O
16
16
5k
20
16
20
800 1.5k 3k
16
W Y
X 20Z
400
(Safrane)
20
16
10k 20k
100 200
Variance
20
5k
10k 20k
800 1.5k 3k
5k
Frquence en Hz
(Safrane)
400
800 1.5k 3k
25
100 200
Variance
100 200
400
O
55
15
50
100 200
O
55
20
10k 20k
65
Frquence en Hz
Energie en dB
55
Energie en dB
Energie en dB
100 200
400
800 1.5k 3k
5k
10k 20k
0
50
100 200
400
800 1.5k 3k
5k
10k 20k
Frquence en Hz
F IGURE I.41 Densite spectrale de puissance initiale, et variance pour differentes positions du microphone,
calculees a` partir de reponses impulsionnelles mesurees avec le microphone omnidirectionnel
dans un vehicule de type Safrane (un graphique par haut-parleur)
62
65
65
Energie en dB
55
55
45
45
35
35
25
25
15
100
200
400
800
1.5k
3k
5k
10k
20k
15
100
W Y
X 65Z
65
200
400
800
1.5k
3k
5k
10k
55
55
45
45
35
35
25
25
15
100
200
400
800
1.5k
3k
5k
10k
20k
20k
15
100
200
400
800
1.5k
3k
5k
10k
20k
Frquence en Hz
F IGURE I.42 Densite spectrale de puissance initiale calculee (avec temps de reverberation impoe) a` partir de
reponses impulsionnelles mesurees entre le haut-parleur W et le microphone omnidirectionnel
place en position conducteur, dans dix vehicules (un graphique par haut-parleur)
63
55
50
Energie en dB
45
40
35
30
Micro omni
Mannequin oreille gauche
Mannequin oreille droite
SoundField canal w
SoundField canal x
SoundField canal y
SoundField canal z
25
20
15
10
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
F IGURE I.43 Densite spectrale de puissance initiale calculee (avec temps de reverbration impose) a` partir
de mesures realisees entre le haut-parleur W et le microphone omnidirectionnel, le mannequin
acoustique et le microphone S OUNDF IELD places en position conducteur
Energie totale
Energie totale
(Safrane)
90
(Clio)
90
80
80
80
80
70
70
70
70
60
60
60
60
50
50
50
50
40
40
40
50
40
50
100
200
400
800
1.5k
3k
5k
10k
20k
100
200
400
800
1.5k
3k
5k
10k
Energie en dB
Energie en dB
20k
W Y
X 90
Z
90
80
80
70
60
50
40
50
100
200
400
800
1.5k
3k
5k
10k
20k
30
50
100
200
400
800
1.5k
3k
5k
10k
20k
30
50
80
70
60
60
60
50
50
50
40
200
400
800
1.5k
3k
5k
10k
30
50
20k
Frquence en Hz
400
800
1.5k
3k
5k
10k
40
100
200
400
800
1.5k
3k
5k
10k
20k
30
50
100
200
400
800
1.5k
3k
5k
10k
Frquence en Hz
(a) Safrane
(b) Clio
64
20k
O
70
100
200
O
70
40
50
100
W Y
X 80
Z
20k
Energie en dB
80
70
60
50
40
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
samplifie avec la frequence, puis se stabilise (insignifiante a` 100 Hz, elle est de 6 dB environ a` partir de
800 Hz) ; ceci corrobore les observations effectuees sur le temps de reverberation, qui diminue avec la
frequence jusqu`a une valeur constante de 50 ms a` partir de 800 Hz environ. Apr`es 5 ms (soit 10 ms apr`es
larrivee du son direct), la chute est de 5 dB supplementaire, et elle saccentue encore 10 ms plus tard (soit
20 ms apr`es larrivee du son direct). Cependant, lallure generale de la courbe tend a` se stabiliser (jusque
8 kHz environ) ; ceci confirme que nous soyons rentre dans le mode de decroissance exponentielle de
lenergie reverberee.
La decroissance e nergetique e tant aussi rapide, le contenu frequentiel de lenergie du son direct
e quivalent (c.-`a-d. entre 0 et 5 ms) diff`ere assez peu du contenu frequentiel de lenergie totale. Cette
observation est importante, et il serait interessant de savoir si nous sommes perceptivement en mesure
de distinguer independamment le contenu frequentiel du son direct et celui de la reverberation, ou en
dautres termes la difference entre le contenu frequentiel du son direct et celui de lenergie totale. Pour
effectuer une e galisation de la reponse en frequence du syst`eme e lectroacoustique de lhabitacle, il est
legitime de se demander si lon doit e galiser independamment le son direct et la reverberation. Nous
repondrons a` cette question dans la premi`ere partie du chapitre 3.
65
Energie dans [0 ; 5] ms
(Safrane)
100
(Safrane)
100
100
100
84
84
84
68
68
68
68
52
52
52
52
36
36
36
20
Energie en dB
84
20
125
250
500
1k
2k
4k
8k
125
250
500
1k
2k
4k
8k
W Y
X 100
Z
100
84
84
68
52
36
20
20
125
250
500
1k
2k
4k
8k
125
100
68
68
52
52
52
36
36
36
36
20
20
20
500
1k
2k
4k
8k
125
250
500
1k
2k
4k
1k
2k
4k
8k
68
250
500
O
84
125
250
W Y
X 100
Z
84
20
8k
125
250
500
1k
2k
4k
Frquence en Hz
8k
125
250
500
1k
2k
4k
8k
Frquence en Hz
100
84
84
68
68
52
52
36
Energie en dB
Energie en dB
36
20
20
125
250
500
1k
2k
4k
8k
125
250
500
1k
2k
4k
8k
W Y
X 100
Z
100
84
84
68
68
52
52
36
36
20
20
125
250
500
1k
2k
4k
8k
125
250
500
1k
2k
4k
8k
Frquence en Hz
restante apr`es 10 ms
(c) Energie
66
80
80
18
60
40
60
16
40
40
42
44
14
Site
0
12
20
Energie en dB
20
Energie en dB
Site
20
20
46
40
40
10
60
48
60
8
80
80
180
150
120
90
60
30
0
30
Azimut
60
50
180
150
120
90
60
30
0
30
Azimut
60
(b) Dans un vehicule de type Safrane, pour un signal monophonique diffuse par les deux hautparleurs avant, et capte par le microphone place
en position conducteur
F IGURE I.47 Repartition spatiale de lenergie calculee a` partir de mesures effectuees avec le microphone
S OUNDF IELD
du microphone S OUNDFIELD , nous pouvons construire une autre figure de directivite. Par exemple, en
sommant le canal w avec un des autres canaux, on obtient une cardiode dirigee selon laxe correspondant ; de plus, en ponderant les trois canaux directifs a` laide de lois en sinus et cosinus, on peut orienter
la figure en huit dans nimporte quelle direction de lespace, selon la formule
(I.87)
avec langle dazimut et langle de site. Il est donc possible dorienter la cardiode, et dexplorer
lenergie dans toutes les directions de lespace. On peut alors tracer une carte representant la distribution
spatiale de lenergie. La figure I.47 montre une telle distribution, calculee avec la totalite de linformation
temporelle presente dans chaque reponse impulsionnelle.
Cependant, nous devons remarquer que les figures de rayonnement de la combinaison des deux
premi`eres harmoniques spheriques diff`erent en champ proche et en champ lointain : alors que les figures
de rayonnement dun monopole et dun dipole sont identiques quelle que soit la distance, il nen est pas
de meme pour la figure de rayonnement dune cardiode, qui varie avec la frequence et la distance [64].
En particulier, la figure de rayonnement associee a` lequation (I.87) nest de forme cardiode quen
champ lointain ; en champ proche et en basses frequences, elle tend a` devenir omnidirectionnelle, ceci
e tant du aux proprietes reactives du champ sonore [280] (la pression nest plus en phase avec la vitesse
particulaire). Cest pourquoi nous avons effectue un filtrage passe-haut sur les mesures effectuees avec
le microphone SOUNDFIELD en vehicule avant de tracer la figure I.47(b).
Lenergie maximale est situee a` lazimut 25o et au site -8o . Lecart en azimut est important, et necessite sans aucun doute lutilisation dun dispositif de correction de limage sonore ; lecart en site est
moins important, ceci e tant probablement du a` la position des tweeters en planche de bord.
Nous aimerions savoir si il est possible dutiliser cette technique pour valider des traitements permettant de modifier limage sonore. Nous avons donc refait le meme genre de calcul apr`es implantation
dune correction transaurale. Cette methode, decrite au III.3.3.1, permet de creer une ou plusieurs
sources virtuelles a` linterieur du vehicule tout en compensant leffet dhabitacle sur le debut de la reponse ; elle est optimale en dessous de 6 kHz. Nous avons donc injecte a` lentree du syst`eme un signal
binaural correspondant a` la HRIR a` 0o , qui, apr`es passage dans la matrice de transfert inverse et dans la
67
60
40
18
Site
20
0
22
Energie en dB
20
20
24
40
60
26
80
180
150
120
90
60
30
0
30
Azimut
60
28
F IGURE I.48 Repartition e nergetique dans un vehicule de type Safrane, pour un signal binaural constitue
de la HRIR a` 0o injecte a` lentree dun syst`eme transaural
matrice de transfert directe, se trouve capte par le microphone SOUNDFIELD place approximativement
au centre de la tete du mannequin ; la figure I.48 presente le resultat obtenu, en limitant les calculs a`
6 kHz. Lenergie maximale est situee lazimut 11o et au site -20o , alors quon sattendrait a` trouver 0o en
azimut et en site.
Ce resultat decevant ne doit pas faire oublier qu`a la difference de lholophonie, un syst`eme dannulation des trajets croises na pas pour ambition deffectuer une reconstruction exacte dun front donde,
mais uniquement de restituer une certaine information sur les deux oreilles dun individu situe a` une
position determinee.
De plus, ce microphone semble fortement influence par les effets de champ proche, qui ne sont
pas negligeables lors dune utilisation en vehicule, tant les distances entre les sources primaires (hautparleurs) mais aussi les sources secondaires (sources images) sont faibles. Dapr`es les investigations
effectuees par Farina, et relatees a` de nombreuses reprises sur une mailing liste dediee au son 3D 4 , ce
microphone est inutilisable comme capteur de prise de son dans les petits volumes, a` linterieur desquels
le champ sonore est tr`es reactif : les relations mises en uvre pour reconstituer les directivites dipolaires
a` partir des signaux des capsules ne sont valables quen champ lointain. Linformation de localisation est
donc difficilement exploitable ; de meme son utilisation en vue dune prise de son et dune restitution a`
partir du format B (cf. annexe A.1) est inadaptee dans ce cas.
Compte-tenu de ces remarques, nous proposons dabandonner ce microphone comme moyen de
caracterisation spatiale du champ acoustique regnant dans un habitacle de vehicule automobile.
()
( )=
( ) ( + )d
( )d
( )d
4. http://mail.music.vt.edu/mailman/listinfo/sursound
68
100
90
0.9
90
0.9
80
0.8
80
0.8
70
0.7
70
0.7
60
0.6
60
0.6
50
0.5
50
0.5
40
0.4
40
0.4
30
0.3
30
0.3
20
0.2
20
0.2
10
0.1
10
0.1
125
250
500
1k
2k
Bande de frquences en Hz
4k
Temps en msec
Temps en msec
100
8k
125
250
500
1k
2k
Bande de frquences en Hz
4k
8k
F IGURE I.49 IACC a` court terme calcule a` partir de mesures realisees en champ libre et en champ diffus
()
()
avec hg t et hd t les signaux de pression arrivant aux oreilles gauche et droite. La valeur de IACC
correspond au maximum de cette fonction de correlation, c.-`a-d.
IACC
= jmax
j ( )j ,
j1 ms gd
(I.89)
69
100
0.9
90
0.9
80
0.8
80
0.8
70
0.7
70
0.7
60
0.6
60
0.6
50
0.5
50
0.5
40
0.4
40
0.4
30
0.3
30
0.3
20
0.2
20
0.2
10
0.1
10
0.1
125
250
500
1k
2k
Bande de frquences en Hz
4k
Temps en msec
90
8k
125
250
500
1k
2k
Bande de frquences en Hz
4k
8k
F IGURE I.50 IACC a` court terme calcule a` partir de mesures realisees dans un vehicule de type Safrane
pour un signal monophonique, le mannequin e tant place a` la position du conducteur
Maximum de lintercorrlation
IACC
1
0.8
0.6
0.4
0.2
0
125
250
500
1k
2k
Bande de frquence en Hz
4k
8k
4k
8k
ITD
1
0.5
Temps en ms
Temps en msec
100
0.5
125
250
500
1k
2k
Bande de frquence en Hz
F IGURE I.51 Correlation interaurale et retard interaural calcules sur les 50 premi`eres ms a` partir de mesures
realisees dans un vehicule de type Safrane pour un signal monophonique diffuse sur les deux
haut-parleurs avant, le mannequin e tant place a` la position du conducteur
70
I.6 Conclusion
Lideal e tant de disposer dun champ sonore permettant une localisation precise de la source sonore
(comme en champ libre), et restituant une sensation importante despace (comme en champ diffus), il est
necessaire :
dune part, de stabiliser limage sonore provenant des deux haut-parleurs avant ;
dautre part, de diminuer la correlation provenant des haut-parleurs arri`eres.
I.6 Conclusion
La premi`ere partie de cette th`ese e tait consacree a` la caracterisation objective de la chane de reproduction audio dun vehicule.
Nous avons demontre la possibilite de realiser une mesure asynchrone de reponse impulsionnelle,
c.-`a-d. avec un dispositif de lecture decouple du dispositif denregistrement. Pour cela, il est necessaire
de detecter avec precision la difference de frequence dechantillonnage entre les deux dispositifs, et de
ree chantillonner le signal enregistre.
Ce syst`eme permet dutiliser le lecteur de disque compact de lautoradio. Il nest donc pas necessaire
de demonter celui-ci pour acceder aux connections e lectriques des haut-parleurs ; en outre, il devient
possible dinclure la fonction de transfert de lautoradio dans la chane de mesure.
Nous avons realise une procedure de mesure enti`erement automatique, qui permet de recuperer lensemble des reponses impulsionnelles de lhabitacle, ainsi que les retards de propagation relatifs entre les
differents haut-parleurs.
Nous avons ensuite calcule un ensemble dindices objectifs a` partir des reponses impulsionnelles
mesurees dans un grand nombre de vehicules avec trois capteurs differents : microphone omnidirectionnel, mannequin acoustique et microphone a` directivite variable.
Nous avons mis en e vidence une faible disparite du temps de reverberation entre les differents vehicules mesures (environ 50 ms a` partir de quelques centaines de Hz). En revanche, il nen est pas de
meme pour la densite spectrale de puissance initiale qui varie a` la fois avec le vehicule et la position du
recepteur dans le vehicule.
La decroissance e nergetique est tr`es rapide, et son contenu spectral varie rapidement avec le temps :
les differences de contenus spectraux entre son direct et le champ reverbere sont importantes (de lordre
de 6 a` 10 dB), et pourront induire des effets de coloration a` lecoute ; de plus, le resultat varie avec la
position du recepteur.
On peut e galement remarquer, grace a` lanalyse des reponses impulsionnelles effectuees avec le
microphone a` directivite variable, que la distribution directionnelle de lenergie varie avec le temps, et
devient rapidement homog`ene.
Dautre part, nous avons tente de definir un protocole devaluation fiable de la repartition spatiale
de lenergie. La synth`ese dune directivite de type cardiode a` orientation variable a` partir des differents
canaux du microphone SOUNDFIELD ne repond pas a` nos attentes, car ce microphone est fortement affecte par les effets de champ proche. Lutilisation du mannequin acoustique par contre est plus adaptee,
car lexamen de la correlation interaurale et du retard associe a` son maximum nous renseignent a` la fois
sur la precision de la localisation dune source sonore et sur la sensation despace. Lanalyse des mesures
brutes effectuees dans un vehicule montre, dune part, que nous ne sommes pas en mesure de definir
avec precision une direction de provenance dune source sonore, et dautre part, que le champ tardif ne
devient jamais veritablement diffus.
Ces travaux de caracterisation permettent e galement de degager des pistes concernant les traitements
a` mettre en place pour ameliorer lecoute dans les habitacles de voiture, a` savoir :
1. Une correction spectrale.
71
72
CHAPITRE II
Restitution binaurale
II.1 Introduction
Ce deuxi`eme chapitre decrit la recherche dune methode specifique de restitution sur e couteurs du
champ sonore regnant a` linterieur dun habitacle de vehicule automobile. Cette methode se doit detre
optimale au sens o`u elle doit e tre la plus fid`ele possible, et universelle au sens o`u elle doit pouvoir e tre
utilisee de mani`ere transparente par un grand nombre de sujets.
Elle repose sur le principe de la simulation binaurale, qui permet a` un auditeur e coutant au casque de
simmerger virtuellement dans un champ acoustique donne [20]. Sous certaines conditions restrictives,
le rendu acoustique peut e tre exact : le signal de pression arrivant aux tympans de lindividu et e mis par
le casque est identique a` celui qui lui serait parvenu sil setait trouve dans le champ acoustique reel.
Ce principe a connu une premi`ere application pour levaluation de la qualite perceptive des salles de
concert [288]. Dans le secteur automobile, il permettrait de comparer instantanement plusieurs installations audio a` laide dun syst`eme de convolution temps-reel, et de se soustraire a` la presence physique de
lhabitacle.
Malheureusement, les conditions necessaires a` son exactitude sont reductrices, et empechent toute
universalite, puisquil faut mesurer certaines quantites propres a` chaque sujet. Ceci nest pas acceptable,
car pour definir la qualite de la restitution HiFi a` linterieur dun grand nombre dhabitacles, il faut effectuer des tests decoute subjectifs en aveugle avec un grand nombre de sujets. Nous ne pouvons donc
envisager dutiliser tel quel le principe de la simulation binaurale pour effectuer ces tests. Il est important de generaliser ce principe, et de ladapter afin quil reste valide pour le plus grand nombre possible
dindividus.
Apr`es un retour sur le principe general de la simulation binaurale, nous nous demanderons comment
nous pourrons le generaliser. Pour cela, nous partirons de mesures realisees sur une une tete artificielle,
et nous essaierons dadapter ces mesures aux caracteristiques individuelles de chaque individu.
Comme nous voulons trouver le syst`eme decoute binaural qui soit e galement le plus proche possible
de la sensation decoute reelle en habitacle, nous avons realise un test decoute subjectif en double
aveugle qui nous a permis de comparer deux e coutes :
celle du champ sonore regnant dans un habitacle automobile, et diffuse par les haut-parleurs de la
voiture ;
celle du meme champ sonore, enregistre a` linterieur des conduits auditifs, traite de differentes
mani`eres, et diffuse par un casque decoute (restitution binaurale).
Les resultats de ce test ont e te analyses par des methodes statistiques classiques, mais e galement par des
methodes multidimensionnelles. Ces analyses ont permis de degager le meilleur traitement pour genera-
73
liser la restitution binaurale, tout en la gardant la plus proche possible de lecoute reelle en habitacle.
Ce choix a en outre e te confirme par une analyse objective des differents traitements.
Yg = BIRg X ,
avec
BIRg
X
74
(II.1)
RIB
COR
Yg
Yg
CORg
CASQUEg
(II.2)
BIR
Les BIR et les reponses du casque contiennent chacune linfluence de la chane de mesure : si les
mesures ont e te effectuees lors de la meme seance, la contribution de lamplificateur est identique dans
les deux cas ; il en est de meme pour la contribution des microphones, si toutefois on sest assure que
leur position na pas e te modifiee au cours de la seance. Afin deliminer globalement linfluence de la
chane de mesure et du casque decoute, on peut deconvoluer les BIR par les reponses du casque. La
simulation binaurale est donc exacte si lon a Yg
Zg , condition qui definit le filtre degalisation que
nous introduisons (cf. fig. II.2) :
CORg =
1 .
CASQUEg
(II.3)
Malheureusement, cette normalisation nest pas ideale dans le sens o`u elle lie irremediablement la banque
de BIR mesurees a` une serie particuli`ere de transducteurs e lectroacoustiques. Pour que la restitution soit
fid`ele, le casque a` utiliser lors de la restitution est donc impose.
Une autre procedure de normalisation permet deliminer la contribution de la chane de mesure.
Elle a lavantage de laisser ouvert le choix du casque decoute [175]. Lequation (II.2) devient, pour une
restitution ideale,
(II.4)
SIGNAL
DROIT
SIGNAL
GAUCHE
BIR
BIR
-1
CASQUE G
CASQUE
ECOUTEUR G
-1
D
ECOUTEUR D
F IGURE II.2 Schematisation des traitements a` effectuer sur les reponses impulsionnelles binaurales en vue
dune restitution exacte au casque
1
CORBIR = FLT
(II.5)
Une e galisation de meme type est requise pour les BIR et les casques decoute, soit
FLTg
CORCASQUE = CASQUE
(II.6)
Certains casques sont (( e galises )) par construction [141, 207, 305], de telle sorte que leur fonction
de transfert vaut
. Si lon suppose que ce filtre rassemble certaines caracteristiques individuelles
importantes, la compensation des microphones de mesure est effectuee a` laide du filtre
BIR . Aucun
filtre
CASQUE nest alors necessaire avec ces casques. Un post-traitement des BIR a` laide du filtre
BIR est meme superflu si lon effectue les mesures avec une tete artificielle egalisee, elle aussi, par
construction.
FLT
COR
COR
COR
II.2.3.2
Pour des raisons pratiques, il est difficilement envisageable de realiser un enregistrement par auditeur, notamment si on veut realiser un test decoute avec un grand nombre de sujets. Or, la reproduction binaurale nest fid`ele que si chaque auditeur utilise les BIR enregistrees sur ses propres oreilles
[209, 317]. Cest pourquoi nous cherchons a` effectuer une adaptation individuelle pour chaque auditeur.
Le but de cette adaptation est de corriger, a` laide dun filtre propre a` chaque individu, les BIR mesurees
sur un individu de reference. Ce filtre, note
individu , permet donc de faire e couter a` un individu les
BIR mesurees sur un autre individu (ici un mannequin acoustique) ; il est de la forme [175]
COR
FLTindividu
CORind = FLT
mannequin
(II.7)
On esp`ere faire en sorte que la reproduction soit la plus fid`ele possible, c.-`a-d. que le signal arrivant
a` lentree du conduit auditif de lindividu soit aussi proche que possible de celui quil aurait capte si il
avait lui-meme effectue la mesure, soit
FLTindividu
BIRindividu BIRmannequin FLT
mannequin
76
(II.8)
azimut=20
site=320
Y
20
50
azimut=310
site=320
45
15
X
Z
azimut=165
site=330
azimut=225
site=340
En remplacant lequation (II.8) dans lequation (II.2), pour une restitution ideale, on obtient
En general, on ne connat pas la distribution directionnelle du champ acoustique regnant dans lenceinte de mesure. On teste donc plusieurs hypoth`eses concernant les directions dincidences des ondes
planes arrivant aux oreilles de lauditeur. Le filtre F LT se trouve ainsi defini comme une combinaison
lineaire de HRTF mesurees pour un ensemble de directions dincidence. Nous decidons dexplorer trois
choix :
1. Une correction champ libre, obtenue pour une seule direction dincidence (on fait ici lhypoth`ese
tr`es restrictive que la direction dincidence directe est preponderante).
2. Une correction champ pondere, obtenue pour un ensemble reduit de directions dincidence (on
privilegie certaines directions, par exemple un cone autour de lincidence directe).
3. Une correction champ diffus, obtenue pour un grand nombre de directions dincidence (on fait
alors lhypoth`ese que le champ acoustique est une somme dondes planes non correlees provenant
dincidences uniformement reparties).
Dans lhabitacle automobile utilise, le son est diffuse par quatre haut-parleurs places dans les porti`eres avant et arri`ere, comme schematise figure II.3. La correction individuelle globale peut donc aussi
e tre obtenue en superposant les contributions de chacun des haut-parleurs vers chaque oreille, soit huit
corrections differentes [175],
avec
Yg
Yd
BIRWg BIRYg
BIRXg BIRZg
BIRWd BIRYd + BIRXd BIRZd
FLTindividu
BIR = BIRmannequin FLT
mannequin
C = CASQUEindividu
77
Cg
0
1
Cd
!
Xg
Xd
(II.11)
78
Yindividu =
BIRind CASQUE X .
ind
CASQUEind
MLSSA
La realisation des filtres de correction individuelle et le test de leur validite repose sur la mise en
uvre de lequation (II.9), pour le cote gauche et le cote droit, soit
Yindividu
Les filtres F LT e tant obtenus a` partir de mesures de HRIR effectuees en chambre anechoque, la mesure
du casque doit aussi e tre effectuee lors la meme seance de mesure. Nous devons donc mesurer dans une
chambre anechoque, pour chacun des memes individus, et pour le mannequin :
les HRIR ;
les reponses dun casque decoute.
Nous devons aussi disposer dune mesure de reference contenant, outre la reponse du haut-parleur de
mesure, celle de la chane dacquisition.
Les mesures sont realisees avec le logiciel AMS developpe par la societe APIA et lIRCAM , a` une
frequence dechantillonnage de 48 kHz.
La procedure de mesure des HRIR (ou des BIR) et des reponses impulsionnelles du casque est dune
importance capitale. Comme le preconise Mller [209], nous effectuons les mesures dans les conditions
(( blocked ear )), c.-`
a-d. avec le conduit auditif bouche. En effet, toute linformation sur le timbre et la
position de la source est presente a` lentree du conduit auditif [305]. Les microphones utilises pour les
individus (mod`ele KE4-211-2 a` e lectrets de marque SENNHEISER ) sont donc places a` lentree du conduit a`
laide de bouchons doreille perfores en leur centre. Les microphones utilises pour le mannequin HMS II
& KJR ). Le signal de mesure est
sont inseres dans les conduits auditifs (mod`ele 4166 de marque BR UEL
recupere en sortie du dispositif de mesure, filtre ou non par les filtres FF ou ID.
79
II.3.2.1
Tout filtre peut e tre vu comme la mise en serie dun filtre a` phase minimale et dun filtre passe-tout
(cf. C.1.3), de sorte que sa fonction de transfert peut secrire
= e
eph
H = Hmin Hexc ,
(II.12)
=e
, et
(II.13)
Mehrgardt et Mellert [196] ont montre experimentalement que les HRTF peuvent e tre considerees
comme des filtres a` phase minimale ayant un retard independant de la frequence jusque 10 kHz environ,
retard fonction de langle dindidence des sources sonores.
II.3.2.2
Les traitements sont identiques dans le cas du calcul des filtres de corrections individuelles par
rapport au champ libre, pondere ou diffus. Cependant, la correction par rapport au champ libre fait
intervenir a` la fois un traitement sur le module et sur la phase, alors que les corrections par rapport
au champ pondere et au champ diffus sont des corrections a` phase minimale, c.-`a-d. faisant intervenir
uniquement un traitement sur le module.
Nous decidons deffectuer la compensation de leffet de lenceinte de mesure a` la fois en module et
en phase, car outre les deformations spectrales de la chane de mesure, nous desirons rattraper le retard de
propagation entre le haut-parleur et le centre de la tete (ce deuxi`eme traitement est neanmoins facultatif).
Loperation a` realiser se resume donc sous la forme
hcompensee = Fourier
jHRTFj ; Arg
HRTF ArgHP .
jHPj
(II.14)
Egalisation en module Avant dinverser la reponse de lenceinte de mesure, il est necessaire deliminer linformation qui nen fait pas partie. Il est notamment important de saffranchir danti-resonances
e ventuellement trop prononcees, dont linversion provoquerait a` coup sur lamplification audible dune
plage de frequence. Cest pourquoi un traitement en trois e tapes a e te decide sur le module de la reponse
de lenceinte :
1. Un lissage est effectue avec une fenetre non symetrique dont la largeur est proportionnelle a` la
frequence. Cela revient a` faire une moyenne avec une fenetre symetrique de largeur constante sur
une e chelle logarithmique. Ce lissage desaccentue les anti-resonances profondes, qui apparaissent
en haute frequence, en alterant peu le module pour les plus basses frequences. La largeur de la
fenetre est prise e gale a` un demi-ton.
2. Une limitation de la dynamique e crete les anti-resonances au-del`a dun certain seuil. Elle a e te
choisie e gale a` 20 dB.
3. Une mise a` plat permet de conserver la meme bande passante. En effet, les frequences extremes
presentent une amplitude tr`es faibles, a` cause de la bande passante des appareils de mesure utilises ;
si lon inversait brutalement le module, lamplitude inverse serait tr`es e levee. On decide donc de
prolonger le module par une constante, en deca` de 140 Hz et au-del`a de 16 kHz.
Une fois ces traitements effectues, le module de la fonction de transfert de lenceinte est inverse (cf. fig. II.5(a)),
puis multiplie avec le module des HRTF. Les effets sur le module des HRTF maintenant e galisees sont
(cf. fig. II.6) :
une attenuation du pic entre 800 Hz et 1500 Hz ;
80
0
0
10
dB
Radians
20
30
50
100
40
50
50
100
200
400
800
1.5k
3k
5k
10k
20k
150
Module inverse
10
12
14
16
18
20
10
12
Frquence en kHz
14
16
18
20
Retard de groupe
50
40
2.5
2
dB
ms
30
1.5
20
1
10
0
50
0.5
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
F IGURE II.5 Decomposition de la fonction de transfert du haut-parleur utilise pour les mesures de HRIR en
chambre anechoque. A` gauche : module et module inverse ; le prolongement par une constante
apparat nettement dans les basses et hautes frequences. A` droite : exc`es de phase quasiment
lineaire et retard de groupe associe, correspondant au retard de propagation entre le hautparleur de mesure et le centre de la tete.
Egalisation en phase La principale compensation de la phase est en fait dej`a effectuee par le biais de
la correction du module, puisquon calcule la phase minimale a` partir du module (cf. II.3.2.1). Donc, il
ne reste plus a` effectuer quune correction de lexc`es de phase.
Les HRIR ont la propriete davoir un exc`es de phase quasiment lineaire sur une large bande de
frequences [141] ; il en est de meme pour les reponses impulsionnelles des bons haut-parleurs. Or un
exc`es de phase lineaire est assimilable a` un retard pur, donc on peut e crire
phase
La linearite de cet exc`es de phase est parfois mise a` mal dans les basses et hautes frequences : on observe
des sauts, dont la position sur laxe des frequences concide avec celle danti-resonances prononcees sur
le module. Ceci est du a` une mauvaise estimation de la phase minimale par la transformee de Hilbert.
Ce nest pas le cas ici, puisque lexc`es de phase de la reponse du haut-parleur est quasiment lineaire
(cf. fig. II.5(b)). La procedure degalisation consiste a` approximer cet exc`es de phase par une droite ;
pour cela, nous effectuons une regression lineaire sur la plus grande bande de frequence possible, denuee
de decrochement ; on en deduit un retard, correspondant au temps de propagation de londe sonore depuis
le haut-parleur jusquau micro de mesure omnidirectionnel, place a` la meme position que le centre de
la tete. Mais on ne retranche a` lexc`es de phase des HRTF quune fraction de ce retard. En effet, si
on le retranchait integralement, on pourrait avoir des reponses partiellement non causales : le delai de
propagation entre le haut-parleur et le micro omnidirectionnel serait superieur au retard entre le hautparleur et le micro insere dans loreille ipsilaterale, comme on peut le voir sur la figure II.7.
Comme on peut le constater sur la figure II.6, legalisation de lexc`es de phase na finalement quune
portee limitee, puisquon ne retranche quun retard pur.
81
10
10
20
20
dB
dB
30
40
30
40
50
50
100
200
400
800
1.5k
3k
5k
10k
50
50
20k
Excs de phase
50
100
150
800
1.5k
3k
5k
10k
20k
Excs de phase
50
100
10
12
14
16
18
200
20
Retard de groupe
2
1
10
12
14
16
18
20
14
16
18
20
Retard de groupe
ms
ms
400
150
0
200
0
Radians
Radians
0
50
200
100
50
2
1
8
10
12
Frquence en kHz
14
16
18
20
8
10
12
Frquence en kHz
F IGURE II.6 Compensation de linfluence du haut-parleur sur les HRTF. En bleu : les mesures de HRTF
brutes ; en rouge : les mesures de HRTF corrigees par celle du haut-parleur.
L>l
l
F IGURE II.7 Representation des chemins acoustiques lors de la mesure dune HRIR pour un azimut quelconque
II.3.2.3
hinverse = Fourier
1
jCASQUEj ; ArgCASQUE .
(II.15)
Nous remarquons sur la figure II.8 que lexc`es de phase du casque K1000 est quasiment lineaire,
et que le retard de groupe est constant jusque 10 kHz. De plus, la difference entre le retard gauche et
droit est toujours inferieure a` 0.04 ms, ce qui temoigne dune imprecision de localisation inferieure a` 4o
dans le plan horizontal, dapr`es Blauert [20]. En dautres termes, la difference de marche constatee entre
les chemins acoustiques oreillette!micro, a` gauche et a` droite, est toujours inferieure a` 1.3 cm. Nous
decidons donc de ne pas tenir compte de lexc`es de phase des casques decoute (nous lui imposons une
valeur nulle). Nous realisons donc uniquement une e galisation a` phase minimale, c.-`a.-d. une inversion
du module. La demarche est la meme que celle exposee au paragraphe precedent.
Si nous disposons de plusieurs mesures effectuees avec la meme position des microphones, nous en
effectuons la moyenne avant de commencer les traitements. Lecretage des resonances et anti-resonances
trop prononcees permet de minimiser les phenom`enes dus a` des artefacts de mesure (micro situe a` un
ventre ou a` un noeud de pression dondes stationnaires cree es par la mesure (( blocked ear ))), et la mise
a` plat en basse et haute frequence permet de saffranchir de la bande passante limitee du syst`eme de
mesure (cf. fig. II.9). Les param`etres sont regles a` loreille pour que linversion des hautes frequences ne
gen`ere pas de niveau beaucoup plus e leve que celui des basses frequences.
82
Module, ct gauche
Module, ct droit
20
20
dB
dB
0
20
20
40
50
100
200
400
1.5k
3k
5k
10k
40
50
20k
0
50
100
10
12
14
16
18
100
20
800
1.5k
3k
5k
10k
20k
Excs de phase
10
12
14
16
18
20
14
16
18
20
Retard de groupe
4
3
ms
ms
400
3
2
1
0
200
50
Retard de groupe
100
50
radians
radians
800
Excs de phase
50
1
0
8
10
12
Frquence en kHz
14
16
18
20
8
10
12
Frquence en kHz
F IGURE II.8 Module, exc`es de phase et retard de groupe dune mesure de la reponse impulsionnelle du
casque K1000 oreillettes ouvertes, mesure sur le mannequin en chambre anechoque, cote
gauche et cote droit
Module, ct gauche
Module, ct droit
10
10
20
20
dB
dB
30
30
40
40
50
50
100
200
400
800
1.5k
3k
5k
10k
50
50
20k
100
200
400
Module inverse
800
1.5k
3k
5k
10k
20k
3k
5k
10k
20k
Module inverse
40
40
30
30
dB
50
dB
50
20
20
10
10
0
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
0
50
20k
100
200
400
800
1.5k
Frquence en Hz
F IGURE II.9 Inversion du module de la fonction de transfert du casque K1000 oreillettes ouvertes, mesure sur
le mannequin en chambre anechoque, cote gauche et cote droit
83
10
10
20
20
dB
dB
30
30
40
40
50
50
100
200
400
800
1.5k
3k
5k
10k
50
50
20k
100
200
400
800
1.5k
3k
5k
10k
20k
5k
10k
20k
40
30
30
dB
50
40
dB
50
20
20
10
10
0
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
0
50
20k
100
200
400
800
1.5k
Frquence en Hz
3k
F IGURE II.10 Inversion de la HRTF en champ diffus mesure sur le mannequin en chambre anechoque, cote
gauche et cote droit
II.3.2.4
La fonction de transfert de la tete en champ diffus est obtenue par la racine carree de la puissance
moyenne de HRTF mesurees pour un grand nombre dincidences reguli`erement reparties [174]. Cette
methode permet dintroduire une ponderation directionnelle pour letablissement de la HRTF en champ
pondere : un poids est accorde aux HRTF suivant lincidence consideree, correspondant aux positions
geometriques des haut-parleurs references W, X, Y et Z dans lhabitacle [175].
Deux autres techniques existent pour le calcul strict de la HRTF en champ diffus [175] ; elles permettent de saffranchir de mesures longues et penibles en chambre anechoque. Il sagit de la mesure
en chambre reverberante, en regime stationnaire, et du calcul par analyse temps-frequence dune BIR
mesuree dans une salle courante.
Les HRTF en champ diffus ou pondere e tant deliberement definies uniquement par leur module,
il sagit de filtres a` phase minimale (cf. II.3.2.1). La procedure de calcul du filtre inverse est donc
identique a` celle mise en uvre pour le casque (cf. fig. II.10). Les filtres de corrections individuelles sont
obtenus en multipliant un filtre de reference (HRTF en champ diffus ou pondere) par linverse dun autre
filtre de reference.
84
BIRauditeur
= CASQUE
auditeur
Afin devaluer la qualite de ladaptation individuelle de mesures realisees sur une tete artificielle, le
stimulus de reference a e te compare aux stimuli suivants :
le signal traite par les filtres internes au dispositif HEAD ACOUSTICS (stimulus 1) : les BIR mesurees sur la tete artificielle sont filtres a` la restitution par le dispositif HEAD ACOUSTICS , pour un
casque decoute STAX ;
le stimulus de reference du mannequin :
stimulus 2
BIRmannequin ;
= CASQUE
mannequin
les signaux adaptes a` lauditeur par une correction individuelle diffuse (3), ponderee (4) ou libre (5) :
stimulus 3,4,5
BIRmannequin REFauditeur .
= CASQUE
auditeur REFmannequin
Les filtres normalisant (REF) e tant obtenus par combinaison des HRIR mesurees en chambre anechoque, la mesure de casque indiquee a e te effectuee lors de la meme seance.
Dautre part, les e tudes menees par Wenzel [317] et par Mller [208] montrent que le recepteur le
plus proche dun individu est un autre individu specifiquement choisi pour minimiser un ou plusieurs
crit`eres (comme par exemple le nombre derreurs de localisation dans le plan median, ou a` linterieur ou
encore a` lexterieur du cone de confusion). Si on choisit un individu typique, c.-`a-d. un mannequin e tudie pour que ses caracteristiques acoustiques correspondent a` celles dun auditeur moyen, Mller [206]
montre que les performances de localisation sont globalement identiques a` celles obtenues avec un individu quelconque (donc inferieures a` celles obtenues avec un individu specifiquement choisi). Ces observations sont confirmees par Minnaar [199], pour qui 60% des tetes humaines donnent de meilleurs resultats en localisation que la meilleure des tetes artificielles ! Lidee selon laquelle un mannequin contient
lessentiel de nos caracteristiques acoustiques serait donc fausse ; les BIR dun individu de reference
pourraient alors e tre utilisees par tous les autres, et les stimuli suivants ont e galement e te testes :
le signal de reference dun autre individu :
stimulus 6
BIRautre auditeur
= CASQUE
autre auditeur
1. http://www.lake.au
85
TABLEAU II.1 Resultats du test decoute preliminaire realise par Larcher [175]
Numero du stimulus
Description
reference
autre individu
reference
mannequin
correction
individuelle
diffuse
7
correction
non
individuelle
diffuse
correction
individuelle
libre
correction
individuelle
ponderee
1
filtrage HEAD
ACOUSTICS
BIRmannequin
= CASQUE
autre auditeur
autre auditeur .
DIFF
DIFF
mannequin
Resultats Les resultats de ce test decoute sont rassembles dans le tableau II.1. Il apparat que le stimulus 1 est juge e loigne de la reference (les filtres proposes par HEAD ACOUSTICS dans le dispositif
de mesure et dans celui de reproduction introduisent une forte coloration dans le grave). Le stimulus 5
est e galement juge e loigne de la reference, tout comme le stimulus 4 specialement pour la reproduction
spatiale. Les stimuli 2, 3 et 7 forment un groupe de reponses assez proches du stimulus de reference,
specialement pour la reproduction du timbre. Enfin le stimulus 6 est juge le plus proche de la reference.
Il ressort de ce test preliminaire que les filtres internes proposes par HEAD ACOUSTICS sont loin
detre optimaux, et que linversion numerique de la fonction de transfert du casque decoute, proposee
par Larcher, apporte une amelioration substantielle de la fidelite de reproduction au casque. En outre, les
corrections individuelles par rapport au champ libre ou pondere doivent e tre abandonnees. Neanmoins, la
validite du stimulus choisi comme reference na pas e te evaluee : il nest pas certain quil soit effectivement le plus proche de lecoute reelle en habitacle. Notons enfin que la correction appliquee sur certains
stimuli pour les rendre compatibles avec le dispositif decoute HEAD ACOUSTICS est delicate.
Ce test a e te reconduit par nos soins, avec trois individus. Cette fois, lecoute a e te enti`erement
realisee avec le casque K1000 . Ce casque, de part sa structure, nous parat mieux a` meme dassurer une
bonne exteriorisation des stimuli. Le dispositif decoute HEAD ACOUSTICS , que lon veut reproduire
avec le stimulus 1, a e te simplement simule par filtrage, sa fonction de transfert ayant e te prealablement
mesuree.
Nous sommes arrives sensiblement aux memes conclusions. Le stimulus le plus proche de la realite,
en ce qui concerne le timbre et la localisation, est lecoute de nos propres stimuli de reference. Concernant
lexteriorisation, les performances sont assez modestes, puisquil est assez difficile dimaginer que lon se
trouve assis au volant dune voiture. De bonnes performances en localisation existent pour le stimulus de
reference du mannequin, ainsi que pour la correction individuelle en champ diffus. Concernant le timbre,
tous les stimuli presentent des colorations plus ou moins violentes, le plus proche de notre stimulus de
reference e tant celui du mannequin, corrige ou non par le champ diffus de lauditeur.
86
TABLEAU II.2 Liste recapitulative des differents stimuli utilises pour le test de validation concernant la restitution binaurale
Type
Nom
No
Reference individu
Ref ind
Ref autre
Ref tete
Diff ind
Diff autre
ID tete
BIRmannequin ID
Casque
Voiture
Haut-parleurs
Reference autre
individu
Reference tete
artificielle
Correction
individuelle diffuse
Correction non
individuelle diffuse
Filtre ID propose
par
Fonction de transfert
BIRauditeur
CASQUE
auditeur
BIRautre auditeur
CASQUEautre auditeur
BIRmannequin
CASQUEmannequin
BIRmannequin
DIFFauditeur
CASQUEauditeur DIFFmannequin
BIRmannequin
DIFFautre auditeur
CASQUEautre auditeur DIFFmannequin
HEAD ACOUSTICS
Ecoute naturelle
Source
Casque
Casque
Casque
Casque
Casque
87
20
20
10
10
dB
dB
10
10
20
20
30
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
30
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
F IGURE II.11 Fonctions de transfert en champ diffus de plusieurs tetes. Nous representons la moyenne et
lecart-type ; la fonction de transfert en champ diffus du mannequin est tracee a` part.
normale, cet intervalle contient 68% des observations). Comme on desire se concentrer sur les variations
interindividuelles dans les hautes frequences, un facteur de cadrage a e te applique sur les fonctions de
transfert pour leur donner un niveau commun dans la bande [200-800] Hz.
II.4.4.1
Nous decidons deffectuer une (( simulation )) du test en chambre anechoque, avec une source unique
placee en face de lauditeur. Nous allons donc comparer, pour une dizaine individus :
leur HRTF en face ;
leur HRTF en champ diffus ;
leur HRTF en face normalisee par leur HRTF diffuse ;
leur fonction de transfert de casque ;
leur fonction de transfert de casque normalisee par leur HRTF diffuse ;
leur HRTF en face normalisee par deux fonctions de transfert de casque (stimuli de reference) ;
les differentes corrections individuelles de la HRTF en face du mannequin par rapport a` leur HRTF
en champ diffus, normalisees par les fonctions de transfert du casque lui-meme e galise par rapport
a` la HRTF en champ diffus (stimuli de corrections individuelles par rapport au champ diffus).
La figure II.11 represente les HRTF en champ diffus calculees a` partir dune distribution de mesures
en chambre anechoque. Les differences interindividuelles sont faibles sur toute la bande de frequences
audibles (`a peine quelques dB). En revanche, celle du mannequin sen detache nettement, surtout dans la
bande [800-3000] Hz.
La figure II.12 presente les mesures de fonctions de transfert de casques effectuees sur differents
individus. Deux casques ont e te utilises : le casque K1000 , oreillettes fermees et oreillettes ouvertes a` 40o,
et le casque HD414 . Sur les fonctions de transfert du K1000 oreillettes fermees, non e galisees par la HRTF
en champ diffus, un individu se detache nettement, surtout dans la bande [800-3000] Hz. Ce nest plus le
cas sur les fonctions de transfert e galisees par la HRTF en champ diffus. La normalisation par la HRTF en
champ diffus diminue donc les differences interindividuelles. Elle a e galement pour effet de reduire les
differences entre les fonctions de transfert mesurees sur les humains et la fonction de transfert mesuree
sur le mannequin.
88
Casque K1000 (oreillettes fermes) galis par la HRTF en champ diffus, ct gauche
30
20
20
10
10
dB
dB
10
10
20
20
30
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
30
50
20k
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
20
20
10
10
dB
dB
10
10
20
20
30
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
30
50
20k
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
10k
20k
20
20
10
10
dB
dB
10
10
20
20
30
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
30
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
89
Casque K1000 (oreillettes fermes) galis par la HRTF en champ diffus, ct gauche
30
20
20
10
10
dB
dB
10
10
20
20
30
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
30
50
20k
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
20
20
10
10
dB
dB
10
10
20
20
30
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
30
50
20k
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
10k
20k
20
20
10
10
dB
dB
10
10
20
20
30
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
30
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
90
COR
La figure II.15 montre les HRTF frontales (azimut nul, site nul). Ici encore les memes conclusions
simposent : la normalisation par la HRTF en champ diffus permet de reduire les differences interindividuelles, et de rapprocher la mesure effectuee sur le mannequin de celles effectuees sur les humains.
La figure II.16 montre les HRTF frontales e galisees par les fonctions de transfert de casque. Il sagit
des stimuli de reference, c.-`a-d. restituant au casque, le plus fid`element possible, un enregistrement effectue dans les oreilles des individus, soit
BIRauditeur
CASQUEauditeur , avec ici BIR = HRIR.
On constate que cette e galisation fait presque jeu e gal avec la normalisation par la HRTF en champ diffus
jusque 5 kHz, surtout dans le cas du K1000 utilise oreillettes ouvertes et dans le cas du HD414 . La HRTF
mesuree sur le mannequin devient tr`es proche de celles mesurees sur les humains. Tout se passe comme
si les fonctions de transfert du K1000 contenaient certaines informations propres a` chaque individu, et
que la normalisation des HRTF par ces fonctions de transfert les enlevait. Cependant des differences
importantes subsistent a` partir de 7 kHz.
La figure II.17 montre les stimuli integrant la correction individuelle par rapport a` la HRTF en champ
diffus, c.-`a-d. le produit
BIRmannequin
DIFFauditeur
DIFFmannequin CASQUEauditeur , toujours avec BIR = HRIR.
Aucun traitement nest applique sur les mesures avant inversion. Le trait fin represente le stimulus de
reference du mannequin, par simplification de lequation ci-dessus. Il est tr`es proche des corrections
individuelles diffuses des autres individus, sur toute la largeur de la bande audible. La comparaison des
figures II.16 et II.17 montre que, par rapport au stimulus de reference de chaque individu, et jusque 6 kHz
environ, le stimulus de reference de la tete est presque aussi proche que chaque correction individuelle
diffuse.
II.4.4.2
Dans lhabitacle
Nous choisissons dorenavant comme casque le K1000 oreillettes ouvertes. Bien que certaines differences persistent entre les individus meme apr`es legalisation par la HRTF en champ diffus, nous avons
privilegie ce mod`ele car il permet, de par sa structure, une bonne exteriorisation des sons.
91
Casque K1000 (oreillettes fermes) galis par la HRTF en champ diffus, ct droit / ct gauche
30
20
20
10
10
dB
dB
10
10
20
20
30
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
30
50
20k
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
20
20
10
10
dB
dB
10
10
20
20
30
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
30
50
20k
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
20
20
10
10
dB
dB
10
10
20
20
30
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
30
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
92
20
20
10
10
dB
dB
10
10
20
20
30
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
30
50
20k
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
F IGURE II.15 Fonctions de transfert de tetes HRTF(0,0), moyennees entre les deux oreilles
20
20
10
10
dB
dB
10
10
20
20
30
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
30
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
30
20
dB
10
10
20
30
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
93
20
20
10
10
dB
dB
10
10
20
20
30
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
30
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
20
dB
10
10
20
30
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
94
Nous voulons effectuer la comparaison objective des stimuli, tels quils apparatront au niveau des
tympans de lindividu effectuant le test decoute dans lhabitacle. Nous remplacons donc, dans les figures II.16 et II.17, les HRTF frontales en champ libre par quatre fonctions de transfert binaurales, correspondant aux quatre fonctions de transfert haut-parleur ! oreille. La figure II.18 presente les quatre
stimuli de reference (calcules avec la mesure du casque effectuee en habitacle), c.-`a-d.
BIRauditeur ,
CASQUEauditeur
et la figure II.19 presente les quatre stimuli integrant la correction individuelle diffuse (calcules avec la
mesure du casque effectuee en chambre anechoque), c.-`a-d.
BIRmannequin DIFFauditeur .
DIFFmannequin CASQUEauditeur
Le mode de representation est identique pour les deux series de figures. On notera la dissymetrie des
fonctions de transfert, liee au placement particulier du conducteur par rapport au syst`eme e lectroacoustique.
Jusque 5 kHz, le stimulus de reference du mannequin ne secarte pas fondamentalement de ceux
mesures sur les humains. Il reste compris dans la zone ayant une amplitude dune valeur de lecart
type, soit quelque dB. Cependant, les differences seront certainement audibles, car on peut constater
localement des resonances ou anti-resonances assez marquees.
Lexamen des corrections individuelles par rapport au champ diffus rev`ele que les differences entre le
mannequin et les individus sont inexistantes jusque 3 kHz, et restent comprises dans la zone de tolerance
jusque 10 kHz. Rappelons que le trait fin correspond toujours au stimulus de reference du mannequin.
Ces differences seront probablement difficiles a` mettre en evidence a` laide dun test decoute.
Il ressort de cette e tape que le stimulus de reference du mannequin est tr`es proche des differentes
corrections individuelles par rapport au champ diffus. Meme si celui-ci est parfois e loigne de notre propre
stimulus de reference, il ne semble pas justifie de mettre en uvre un processus complexe de corrections
individuelles. Nous allons tenter de confirmer ces observations par un test decoute subjectif.
95
20
20
10
10
dB
dB
10
10
20
20
30
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
30
50
20k
100
200
30
20
20
10
10
10
20
20
100
200
400
800
1.5k
Frquence en Hz
3k
3k
5k
10k
20k
5k
10k
20k
10
30
50
800
1.5k
Frquence en Hz
30
dB
dB
400
5k
10k
30
50
20k
100
200
400
800
1.5k
Frquence en Hz
3k
96
20
20
10
10
dB
dB
10
10
20
20
30
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
30
50
20k
100
30
20
20
10
10
10
20
20
100
200
400
800
1.5k
Frquence en Hz
3k
5k
800
1.5k
Frquence en Hz
3k
5k
10k
20k
10k
20k
10
30
50
400
30
dB
dB
200
10k
30
50
20k
100
200
400
800
1.5k
Frquence en Hz
3k
5k
F IGURE II.19 Stimuli integrant la correction individuelle diffuse, mesures dans lhabitacle dun vehicule
97
individus non-experts. Son seul inconvenient est la croissance du nombre de paires a` explorer, qui devient
vite important (n n
= paires avec n stimuli). En revanche, son deroulement peut e tre compl`etement
automatise : lordre de presentation des paires ainsi que lordre de presentation des stimuli a` linterieur
des paires peuvent e tre rendus totalement aleatoires, et inconnus a` la fois du sujet et de lexaminateur.
On parle alors de test en double aveugle.
Ce type de test permet dextraire des distances entre stimuli. Dans notre cas, nous en deduirons le
stimulus le plus proche de lecoute reelle par les haut-parleurs.
( 1) 2
98
Amplitude en dB
90
90
80
80
70
70
60
60
50
50
40
40
30
0.2
0.4
0.8
1.5
3.0 5.0
10.0
20.0
30
0.2
80
80
70
70
60
60
50
50
40
40
0.4
0.8
1.5
3.0 5.0
10.0
0.8
1.5
3.0 5.0
10.0
20.0
90
30
0.2
0.4
20.0
30
0.2
0.4
0.8
1.5
3.0 5.0
10.0
20.0
Frquence en kHz
F IGURE II.20 Influence de la presence du casque sur la tete du mannequin, pendant les mesures (trait plein :
mesures sans casque ; trait pointille : mesures avec casque, dans la meme position du mannequin)
Nous devons e galement faire en sorte que tous les stimuli arrivent aux oreilles de lauditeur avec
un niveau sonore identique. En effet, ce param`etre est crucial dans une comparaison psychoacoustique :
il peut generer des jugements de timbre differents. Une procedure degalisation en niveau des stimuli
convolues a donc e te appliquee : elle op`ere dans la bande [0-500] Hz, l`a o`u tous les stimuli convolues
sont globalement identiques, a` un gain pr`es (puisque loreille humaine est globalement omnidirectionnelle en basse frequence [20]).
Dix sujets ont passe le test. Ils ont e te choisis parmi le personnel de lIRCAM et de RENAULT , et ont
chacun une certaine culture musicale, sans e tre de veritables experts en tests decoute.
Les tests de comparaison nont pas e te effectues sous la forme A/B/X (choix de X entre A ou B),
car, dans ce type de test, la notion de dissemblance subjective est deduite de la statistique ; or celle-ci est
inefficace avec un nombre aussi restreint de sujets. Nous avons donc conduit les tests sous la forme A/B
(comparaison par paire), o`u la notion de dissemblance est explicitement demandee : les sujets e coutent
les stimuli A et B, et doivent juger de la difference du stimulus B par rapport au stimulus A. Il y a 7
stimuli a` comparer, ce qui fait 21 paires differentes (voir tableau II.3).
Comme nous voulons e galement savoir de quelle mani`ere les differences ont e te jugees, nous avons
choisi de simplifier lextraction de dimensions perceptives, en les fixant a` lavance. Nous decidons donc
dexplorer les axes suivants :
lexteriorisation, ou la sensation de percevoir le son plus ou moins a` linterieur de la tete ;
la localisation, ou la precision de discrimination spatiale de differentes sources ;
le timbre, ou la presence de colorations frequentielles.
La reponse a` plusieurs questions simultanees portant sur des axes perceptifs differents e tant delicate, et
a` la longue fatiguante, pour le sujet nous avons choisi dexplorer de mani`ere sequentielle les trois axes
perceptifs. Chaque sujet a procede a` lecoute de toutes les paires, a teste une composante perceptive, puis
a ree coute toutes les paires dans un ordre different pour tester la composante suivante.
Linterface du test est presentee figure II.21. Le positionnement du curseur est traduit par une note
entre 0 (tr`es similaire) et 10 (tr`es dissemblable). En ce qui concerne lexteriorisation, le traitement est un
99
TABLEAU II.3 Ensemble des 21 paires retenues pour le test de validation de la plate-forme de restitution en
laboratoire ; la description des noms est donnee dans le tableau II.2
Paire
1
Stimulus A
Ref autre
Stimulus B
Ref ind
2
3
Diff ind
Diff ind
Ref ind
Ref autre
4
5
6
Diff autre
Diff autre
Diff autre
Ref ind
Ref autre
Diff ind
7
8
9
10
Ref
Ref
Ref
Ref
Ref ind
Ref autre
Diff ind
Diff autre
11
12
13
14
15
ID
ID
ID
ID
ID
tete
tete
tete
tete
tete
Ref ind
Ref autre
Diff ind
Diff autre
Ref tete
16
17
18
19
20
21
Voiture
Voiture
Voiture
Voiture
Voiture
Voiture
Ref ind
Ref autre
Diff ind
Diff autre
Ref tete
ID tete
tete
tete
tete
tete
100
peu moins direct : lexcursion du curseur est traduite de la meme facon dans les deux sens, de sorte que
lon juge une difference dexteriorisation. Ce traitement nest pas effectue dans le cas de lanalyse avec
lalgorithme de Bradley-Terry (cf. II.4.7.4).
Pour chaque sujet, le programme informatique de test fournit trois matrices de dissemblance, une
par axe perceptif. On suppose quil ny a pas de difference entre le stimulus A et lui-meme, et que la
dissemblance entre les stimuli A et B est identique a` celle entre les stimuli B et A. Chaque matrice
de dissemblance poss`ede donc des 0 sur la diagonale, et sa forme est triangulaire (lautre moitie e tant
reconstruite si besoin).
Remarquons que le jugement des sujets fournit une information de dissemblance et non de distance,
puisque linegalite triangulaire ne sera pas forcement respectee ; nous sommes, pour linstant, dans un
espace non euclidien.
La duree moyenne du test a e te de 60 minutes environ. Certains sujets ont effectue une pause entre
les comparaisons concernant la deuxi`eme et la troisi`eme composante perceptive.
Impressions generales
Le test a e te juge difficile et delicat, notamment par le recouvrement des axes perceptifs. Tous les
sujets ont constate une difference globale dexteriorisation entre la diffusion par les haut-parleurs et la
diffusion par le casque, et ont declare reconnatre a` chaque fois la source de diffusion (haut-parleur ou
casque).
` lissue du test, il a e te propose a` chaque sujet de ree couter un a` un les differents stimuli, en aveugle,
A
et de les classer par ordre de proximite a` la diffusion par les haut-parleurs de la voiture. Tous ont place
leur reference individuelle en premier. Puis vient un groupe, mene par le stimulus de reference dun autre
individu, au sein du quel il est difficile de faire la difference entre la reference de la tete artificielle et les
corrections diffuses (individuelles ou non). La correction ID proposee par HEAD ACOUSTICS arrive en
derni`ere place.
Un deuxi`eme classement a e te effectue avec un signal de parole. Il ne diff`ere pas du precedent.
II.4.7.2
Les trois distributions de lensemble des dix sujets sur lensemble des vingt et une paires sont presentees figure II.22. Aucune des distributions nest gaussienne, ce qui montre que lensemble des sujets
na pas repondu au hasard. Pour chaque attribut perceptif, les notes comprises entre 0 et 1, refletant
une dissemblance quasi nulle, forment le plus grand ensemble, specialement pour la localisation ; ceci
confirme la difficulte du test.
Pour lexteriorisation, la distribution est a` peu pr`es reguli`ere, mis a` part une forte proportion de notes
entre 3 et 4. Pour la localisation, la distribution est e galement a` peu pr`es reguli`ere : les differences dexteriorisation et de localisation sont donc a` peu pr`es homog`enes. Il nen est pas de meme pour le timbre,
o`u le nombre de notes inferieures a` 5 est e leve et decrot reguli`erement, soulignant les faibles differences
de timbre pour un nombre important de paires.
Regardons ensuite les distributions des reponses de chaque individu. Elles ne sont pas uniformes,
traduisant le fait que les sujets ont bel et bien remarque des differences entre les paires, et nont pas
repondu au hasard. Les moyennes entre les paires varient assez fortement dun individu a` lautre, surtout
pour lexteriorisation et la localisation ; il en est de meme pour les e carts types. Le tableau II.4 rassemble
les resultats.
Nous mettons en evidence des differences importantes dans les comportements des differents sujets :
certains sont plus sensibles que dautres a` tel ou tel aspect, ce qui se traduit par une moyenne des notes
101
Plus exteriorise
Commentaire
Ecoute comparative
A
B
Commandes
Suivant
No
Nom
Jazz/Pop/Rock
Quitter
Localisation differente
Commentaire
Ecoute comparative
A
B
Commandes
Suivant
No
Nom
Jazz/Pop/Rock
Quitter
Timbre different
Commentaire
Ecoute comparative
A
B
Commandes
Suivant
Nom
No
Jazz/Pop/Rock
Quitter
102
Exteriorisation
60
40
20
0
Localisation
60
40
20
0
Timbre
60
40
20
0
10
F IGURE II.22 Distributions de lensemble complet des jugements de dissemblance, sur toutes les paires et
tous les sujets ; superposition dune gaussienne de meme moyenne et de meme e cart type.
TABLEAU II.4 Moyennes et e carts types de lensemble des individus sur toutes les paires
Exteriorisation
Localisation
Timbre
103
TABLEAU II.5 Moyennes et e carts types de lensemble des paires sur tous les individus
Exteriorisation
Localisation
Timbre
plus ou moins importante. Dautre part, lechelle nest pas utilisee de mani`ere homog`ene par tous. Il est
donc necessaire de normaliser les notes de chaque individu par leur variance, ce qui revient a donner
a` chaque individu la meme importance quelle que soit sa dispersion : on retablit lequilibre entre les
individus en leur donnant a` tous une variance unite.
Nous constatons e galement que les correlations entre individus sont faibles : les individus nont donc
pas tous traduit les differences de la meme mani`ere. Remarquons que nous travaillons dans un espace
perceptif non euclidien, et que le calcul des correlations entre individus ne nous permet pas de deduire
des strategies de jugement, mais seulement une mani`ere dutiliser la notation. De plus, le coefficient de
correlation est sensible aux valeurs extremes [18].
Lexamen des distributions de chaque paire sur tous les individus ne fait pas apparatre de forme
gaussienne. Cest un point important : le nombre de sujets est trop faible pour appliquer le theor`eme de
la limite centrale, et supposer la distribution gaussienne. Nous confirmons notre observation par un test de
comparaison avec une distribution gaussienne ideale, de meme moyenne et de meme e cart type ; ce test
fait intervenir une loi du 2 a` 9 degres de libertes. En choisissant comme hypoth`ese nulle lidentite entre
les deux lois, et un facteur de risque de 10 %, nous sommes obliges de considerer toutes les distributions
testees comme non gaussiennes.
Sans surprise, on constate que les moyennes interindividuelles des notes varient fortement entre les
paires ; il en est de meme pour les e carts types. Le tableau II.5 rassemble les resultats. Remarquons
que les e carts types sont importants, en regard de la moyenne, ce qui peut laisser presager une certaine
difficulte dans lextraction de resultats fiables.
Lexamen detaille des moyennes et e carts types interindividuels l`eve cependant un coin du voile
sur certains resultats. Les paires contenant le stimulus Voiture ou le stimulus ID tete ont toutes une
moyenne e levee, ce qui traduit de fortes differences entre les stimuli, et un e cart type e leve concernant
lexteriorisation, ce qui traduit de fortes variations. Par contre, les paires contenant le stimulus Ref tete
presentent une moyenne et un e cart type nettement moins importants ; plus particuli`erement, les paires
(Ref tete / Diff autre) et (Voiture / ID tete) poss`edent une moyenne et un e cart type tr`es faibles,
ce qui laisse presager une tr`es faible difference perceptive entre les stimuli correspondant.
Concernant lexteriorisation, les individus ont releve de faibles differences entre les stimuli Diff ind
et Diff autre. Pour la localisation, les differences sont faibles entre les stimuli Diff ind et Ref tete.
Enfin pour le timbre, il en est de meme pour les stimuli Diff ind et Ref tete, ainsi que Diff ind et
Diff autre.
Lexamen des notes attribuees aux paires constituees du stimulus Voiture et dun autre stimulus est
detaille figure II.23. On constate une mauvaise concordance des jugements entre les individus.
Terminons lanalyse des distributions par la recherche de lintervalle contenant les moyennes et
e carts types theoriques des distributions des notes des differentes paires, sur tous les individus. Ceci suppose que les distributions sont gaussiennes, mais on peut considerer les resultats fiables lorsque leffectif
de la population est au moins e gal a` une dizaine dindividus [18].
Soit m lestimation de la moyenne des n e chantillons consideres, la moyenne theorique inconnue,
104
Note
10
0
LOCALISATION
Note
10
0
TIMBRE
Note
10
0
Ref_ind
Ref_autre
Diff_ind
Diff_autre
Ref_tete
ID_tete
F IGURE II.23 Notes des paires contenant le stimulus Voiture et un autre stimulus, pour tous les individus
s lestimation de lecart type, et lecart type theorique inconnu. Soit Tn 1;=2 le fractile au risque
dune loi T de Student a` n 1 degres de libertes, et 2n 1;=2 celui dune loi du 2 a` n 1 degres de
libertes. Dapr`es [18], la veritable moyenne de la distribution est telle que
m
sTn 1;=2
p
n 1
sT
m + pnn 1;=12 ,
(II.16)
(n 1)s2 2 (n 1)s2
2
2
n
1;=2
1;1
=2
(II.17)
La figure II.24 presente les resultats concernant les moyennes et les e carts types des distributions
des notes. Les quantites estimees sont representees par des *, tandis que les intervalles contenant les
quantites theoriques sont representes par des barres verticales. Le risque est choisi e gal a` 5 %.
Compte tenu du faible nombre de sujets, et de la forte variabilite interindividuelle, les intervalles
contenant les moyennes theoriques sont grands. Pour la paire no 10 (Ref tete / Diff autre), concernant
lexteriorisation et la localisation, lintervalle contenant la moyenne theorique contient aussi la valeur
nulle ; dapr`es ce test, il se peut que ces deux stimuli soient percus de mani`ere identique. Il en est de
meme pour la paire no 9 (Ref tete / Diff ind) concernant la localisation. Les trois courbes representant
les moyennes presentent un saut a` partir de la paire no 11 jusqu`a la paire no 21, ce qui traduit une
dissemblance perceptive nettement plus importante pour les paires contenant le stimulus ID tete et le
stimulus Voiture. Le saut est tr`es nettement visible concernant le timbre.
Comme pour les moyennes theoriques, les intervalles contenant les e carts types theoriques sont
importants. Labsence de symetrie est consequence de la forme de la distribution du 2 utilisee pour
calculer les intervalles. Comme dej`a mentionne, de telles valeurs decarts types, en regard de celles des
moyennes, ne peuvent que compliquer lextraction de resultats fiables, surtout en ce qui concerne le
timbre.
105
10
2
0
2
1
10 11 12 13 14 15 16 17 18 19 20 21
Localisation
10
Ecart type
Moyenne
10 11 12 13 14 15 16 17 18 19 20 21
Localisation
6
4
2
1
6
4
2
0
10 11 12 13 14 15 16 17 18 19 20 21
Timbre
10
10 11 12 13 14 15 16 17 18 19 20 21
Timbre
10
10
Extriorisation
10
2
1
10 11 12 13 14 15 16 17 18 19 20 21
Numro de la paire
10 11 12 13 14 15 16 17 18 19 20 21
Numro de la paire
F IGURE II.24 Encadrement contenant la moyenne theorique (`a gauche) et lecart type theorique (`a droite)
des distributions des dissemblances entre les stimuli, pour lensemble des individus. En alscisse : le numero de la paire, en ordonnee : la valeur de la dissemblance
II.4.7.3
Analyse de variance
` ce stade, nous devons nous demander dans quelle mesure les resultats de notre test decoute sont
A
significatifs, c.-`a-d. si les valeurs de dissemblance ne refl`etent pas plus une variance entre les individus
quune reelle variance entre les stimuli. En dautres termes, nous devons regarder lensemble des valeurs
de dissemblance, pour chaque axe perceptif, et nous demander si la variance globale est pilotee par la
variance entre individus ou entre stimuli. Globalement :
si tous les individus ont repondu de la meme mani`ere (et ont reagi identiquement aux memes
caracteristiques), la variance globale sexplique par la variance inter stimuli : le test est hautement
significatif ;
si tous les individus ont repondu de mani`ere dispersee, la variance globale sexplique par la variance inter sujets : le test est tr`es peu significatif .
La methode est decrite dans lannexe B.1.2. Nous effectuons le test pour lensemble des stimuli (soit
21 paires), mais aussi en enlevant les deux stimuli pour lesquels les dissemblances avec tous les autres
apparaissent dej`a comme importantes, c.-`a-d. le stimulus ID tete et le stimulus Voiture. Comme nous
lavons preconise, les dissemblances sont normalisees par la variance des reponses de chaque individu.
Le tableau II.6 montre le pourcentage de chance pour que la variance globale soit e gale a` la variance
entre les stimuli. Pour lexteriorisation et la localisation, les valeurs de dissemblances restent hautement
significatives, meme si on enl`eve les deux stimuli presentant les plus fortes dissemblances avec tous
les autres. Il nen est pas de meme en ce qui concerne le jugement du timbre, puisque si on enl`eve le
stimulus ID tete (et a fortiori si on enl`eve aussi le stimulus Voiture), la variance entre les stimuli
restant nexplique que tr`es faiblement la variance globale. Cela veut dire quil est tr`es difficile de mettre
en evidence des differences de timbre significatives entre les stimuli suivant : Ref ind, Ref autre,
Diff ind, Diff autre, et Ref tete.
Notons que si on enl`eve le stimulus Voiture, le stimulus le plus proche Ref ind et le stimulus le
plus e loigne ID tete, la significativite du test tombe en dessous de la barre des 95 %.
II.4.7.4
Un premier classement des differents stimuli peut e tre effectue a` laide de la procedure de BradleyTerry (voir annexe B.1.1). Cette procedure est applicable uniquement si lon dispose dun attribut seman-
106
TABLEAU II.6 Analyse de variance : test de comparaison entre la variance globale et la variance entre les
stimuli
Tous
Sans Voiture
Sans ID tete
Sans Voiture
et
sans ID tete
100,0 %
100,0 %
100,0 %
99,9 %
98,0 %
100,0 %
99,9 %
100,0 %
60,3 %
98,2 %
96,0 %
39,0 %
Stimuli
Exteriorisation
Localisation
Timbre
Ref_autre
Voiture
ID_tete
Diff_autre
Diff_ind
Ref_ind
Ref_tete
0.5
0.5
1
Estimation des valeurs de mrite
1.5
F IGURE II.25 Ordonnancement des stimuli concernant lexteriorisation sur une e chelle continue et orientee
a` laide de lalgorithme de Bradley-Terry
tique non symetrique, c.-`a-d. mesurable sur une e chelle continue et orientee, ce qui est le cas avec le test
de lexteriorisation. En effet, les sujets doivent juger si le stimulus A est plus ou moins exteriorise que le
stimulus B, alors que pour la localisation et le timbre, on demande de quantifier la difference.
Nous transformons chaque matrice de dissemblance concernant lexteriorisation en une matrice de
preference de la facon suivante : une note comprise entre 0 et 5 signifie que le sujet a juge le stimulus
A plus exteriorise que le stimulus B, et nous attribuons la note 1 a` la paire (A/B) ; dans le cas contraire,
on attribue la note 0. Les matrices de preferences de chaque sujet sont alors sommees, pour obtenir une
matrice globale, prenant en compte linformation fournie par chaque sujet. Nous classons les stimuli sur
une e chelle dexteriorisation.
Le resultat est fourni figure II.25. Le test de performance se rev`ele e tre positif a` plus de 95 %. Le
stimulus le plus exteriorise est sans surprise Voiture, suivi par Ref ind. Vient ensuite Diff autre,
puis un groupe assez compact emmene par Ref tete. Par contre, il est e tonnant que Diff autre arrive
en troisi`eme position.
Cependant, il faut remarquer que le nombre de sujets ayant passe le test est faible. Bien que le test
de performance se soit revele positif, les resultats fournis par cette procedure ne sont pas stables, et
lordre de certains stimuli peut changer selon le poids accorde aux sujets (Voiture et Ref ind restent
neanmoins toujours en tete). Il se peut que lon ait du mal a` e tablir un ordre valide. Pour confirmer cette
hypoth`ese, nous appliquons une procedure de bootstrap [68] qui consiste a` tirer n fois au sort un individu,
parmi lensemble des n sujets (voir annexe B.1.3) ; en effectuant cette operation un tr`es grand nombre
de fois (quelques centaines), on construit autant dechantillons sur lesquels on applique lalgorithme de
Bradley-Terry. Cela simule un nombre de sujets plus e leve, a` partir desquels on obtient une solution bien
plus stable quavec une population restreinte. Cest donc un moyen de tester lidentite des pij .
La figure II.26 montre les resultats obtenus en construisant 250 e chantillons de bootstrap. Pour
chaque e chantillon, nous avons applique lalgorithme en question, et memorise les valeurs de merite
qui permettent de classer les stimuli ; nous representons ici les histogrammes de ces valeurs de merite.
Comme on le presumait, deux groupes apparaissent :
Voiture et Ref ind ;
Diff autre, Ref tete, Ref autre, Diff ind et ID tete.
107
Nombre doccurences
Voiture
Ref_ind
Diff_autre
Ref_tete
Ref_autre
Diff_ind
ID_tete
1.5
0.5
0
0.5
1
1.5
Estimation des valeurs de mrite
2.5
F IGURE II.26 Ordonnancement des stimuli concernant lexteriorisation a` laide de lalgorithme de BradleyTerry, effectue sur 250 e chantillons de bootstrap
Paire de stimuli
Voiture
Ref ind
Ref ind
Diff autre
Diff autre
Ref tete
Ref tete
Ref autre
Ref autre
Diff ind
Diff ind
ID tete
Probabilite de
distinction
27.1 %
72.6 %
17.7 %
8.4 %
7.5 %
0.1 %
La distinction au sein de ces deux groupes peut e tre impossible puisquil y a recouvrement entre les
distributions. En assimilant les distributions a` des gaussiennes, on peut effectuer un test dhypoth`ese,
et calculer une erreur de type II [18] : il suffit de calculer la probabilite de detecter la moyenne du
stimulus i lorsque la moyenne prise en compte est celle du stimulus i+1. Cette probabilite quantifie
la puissance du test (capacite a` discriminer deux stimuli dont les distributions se recouvrent). Nous
obtenons le tableau II.7.
La puissance du test est relativement e levee entre Ref ind et Diff autre, ce qui confirme la scission en deux groupes. Cependant, la discrimination au sein de ces deux groupes de stimuli semble tr`es
difficile, comme le laissait presager dailleurs lanalyse de variance.
En conclusion, lalgorithme dordonnancement de Bradley-Terry nous montre que le stimulus restituant le mieux le sentiment dexteriorisation est sans surprise la reference individuelle. Par contre, il ne
nous permet pas de choisir entre la reference brute du mannequin et une quelconque correction diffuse.
II.4.7.5
Conclusion
Lanalyse statistique classique nous permet de dresser des constatations locales. Nous constatons
que lechelle de notation est utilisee de mani`ere non homog`ene par les differents sujets, et nous decidons
de normaliser chaque matrice de dissemblance par sa variance. Nous constatons e galement que les notes
extraites de la matrice ne sont pas toujours en accord avec le classement demande ex nihilo, et que les
jugements ne sont pas toujours concordants entre les sujets.
Lexamen des distributions des notes ( II.4.7.2) permet de degager des dissemblances importantes
entre certains stimuli, et faibles entre dautres. En particulier, les paires contenant le stimulus Voiture et
celles contenant le stimulus ID tete presentent de grandes differences, alors que les paires contenant le
stimulus Ref tete presentent des differences plus faibles, notamment la paire (Ref tete / Diff autre).
Lanalyse de variance ( II.4.7.3) met en evidence la difficulte du test, puisque les differences de
timbre constatees entre tous les stimuli sans Voiture sont plus a` mettre sur le compte dune variance
108
entre les individus qu`a une variance entre stimuli. La significativite du test chute encore si on enl`eve le
stimulus ID tete.
Enfin, lalgorithme de Bradley-Terry ( II.4.7.4) applique sur les jugements concernant lexteriorisation, a e tabli un ordre de proximite au stimulus Voiture. Le stimulus le plus proche est sans conteste
notre propre reference individuelle, suivie dun groupe au sein duquel la distinction est delicate.
MDSCAL ,
prenant en compte les resultats dun seul sujet a` la fois, ou une moyenne des sujets ;
INDSCAL et EXSCAL , prenant en compte les resultats de chacun des sujets ayant passe le test, avec
differents degres de raffinement.
II.4.8.1
Introduction
Nous avons souhaite effectuer un test subjectif conduit sous la forme de comparaisons par paires,
ayant pour but de determiner un ordre sur une serie de stimuli. Par souci de simplicite quant a` lextraction
des resultats, nous avons dej`a separe les axes perceptifs (exteriorisation, localisation et timbre) ; ceux-ci
ont e te testes separement. Nous nous situons de fait dans un contexte bien precis, reclamant une analyse
adaptee.
Les methodes exposees precedemment constituent une phase indispensable dans le depouillement
des donnees, mais cependant insuffisante : en effet, letude separee de chaque individu, ou de chaque
dissemblance, laisse de cote les liaisons pouvant exister entre les individus, ou entre les dissemblances,
et qui sont souvent laspect le plus important. Il faut donc analyser les donnees en tenant compte de
leur caract`ere multidimensionnel. Il existe pour cela deux familles de methodes : lanalyse factorielle sur
des tableaux de variables ou AF, et lanalyse a` e chelle multidimensionnelle ou MDS (MultiDimensional
Scaling). Ces methodes ont le meme objectif : trouver une configuration de n individus dans un espace
de faible dimension. Cependant, les donnees de depart sont differentes :
lanalyse factorielle sexerce sur un ensemble de donnees multivariables : chaque sujet note une
serie dattributs semantiques ;
alors que lanalyse MDS suppose que lon connat, pour chaque individu, les t(t 1) dissemblances
Le mod`ele qui sous-tend lanalyse factorielle est base sur des angles entre vecteurs, alors que celui
concernant lanalyse MDS est base sur des distances entre points, ce qui est plus simple a` interpreter. Dautre part, lanalyse factorielle resulte en un plus grand nombre de dimensions, car elle suppose
lexistence de relations lineaires entre les variables ; cette hypoth`ese est assez sev`ere en regard de donnees
perceptives.
Un autre point important doit e tre souligne : la recolte de dissemblances entre objets est toujours peu
influencee par lexaminateur, alors que lattribution de notes sur une liste dattributs peut ne pas letre ;
de plus, celle-ci nest pas toujours significative, a` cause du choix des attributs.
Pour notre test, nous choisissons lanalyse MDS. Les dissemblances entre les t configurations e coutees permettent a` lanalyse de les placer dans un espace a` r dimensions (r t
) pour que les distances
entre ces configurations respectent les dissemblances donnees. De la meme mani`ere, elle placerait les
villes les unes par rapport aux autres, a` partir dun tableau de distances entre villes. Les configurations
qui ont e te estimees peu differentes (jk petit) seront proches dans cet espace, par contre celles estimees
tr`es differentes (jk grand) seront e loignees dans ce meme espace. Le nombre de dimensions est une
inconnue levee a` laide dune procedure iterative comportant un crit`ere de decision a posteriori.
109
0.5
1.5
LOCALISATION
2.5
0.5
1.5
TIMBRE
2.5
0.5
1.5
2.5
6
4
2
0
6
4
2
0
F IGURE II.27 Diagrammes de Shepard de la solution MDSCAL a` une dimension. En alscisse : les valeurs de
dissemblances initiales. En ordonnee : les valeurs de distances entre les points de la configuration finale
Si lon effectue lanalyse sur une seule matrice de dissemblance a` la fois, donc sur un seul individu
ou sur la moyenne des individus, on utilise lanalyse MDSCAL . Si lon prend en compte separement les
matrices de tous les individus, on utilise lanalyse INDSCAL (IN dividual Differences SCAL ing), ou mieux
lanalyse EXSCAL (EX tended INDSCAL ).
La premi`ere e tape indispensable, commune a` toutes ces methodes, consiste a` transformer en distances euclidiennes (d) les donnees collectees sous forme de dissemblances perceptives ( ). Il sagit
donc de leur faire respecter les trois proprietes suivantes :
1. d Ai ;Ai
;
2. d Ai ;Aj
d Aj ;Ai ;
3. d Ai ;Aj
d Aj ;Ak d Ai ;Ak .
Les deux premi`eres sont supposees vraies par construction du test, puisquavec t objets on ne soumet
au test que t(t 2 1) paires. La troisi`eme reclame une attention particuli`ere, car elle nest, en general, pas
verifiee ; dans ce cas, la methode de la constante additive permet den deduire une distance euclidienne.
Il existe en effet une constante c, telle que dij ij c avec dii
, soit euclidienne. On a coutume de
choisir c
jkl jl jk kl .
(
(
(
)=0
)= (
)+ (
= max (
II.4.8.2
= +
=0
Cette analyse consiste a` utiliser la methode MDSCAL avec la moyenne des matrices de dissemblances ; la methode est decrite en annexe B.2.2. Concernant notre experience, nous avons limite lanalyse a` deux dimensions a` cause du petit nombre de stimuli (il est en effet illusoire de chercher a` decrire
precisement un espace a` trois dimensions ou plus avec seulement sept stimuli) ; de plus, nous navons
pas cherche a` nommer les dimensions perceptives, car cela depasse le cadre de notre e tude.
Cette methode a e te utilisee avec le programme SYSTAT 3 fonctionnant sous Windows.
Les jugements des dix sujets, normalises par leur e cart type, ont e te moyennes sur chacune des
composantes perceptives testees, avant detre injectes dans le programme. Lanalyse en une dimension
rev`ele un stress de 0,24 pour lexteriorisation, de 0,19 pour la localisation et de 0,27 pour le timbre.
Les diagrammes de Shepard sont presentes figure II.27. Ils sont relativement reguliers, et attestent de la
bonne adequation du mod`ele aux donnees initiales.
Le resultat de lanalyse est presente a` la figure II.28. Concernant lexteriorisation, le stimulus le plus
proche de lecoute naturelle semble e tre Ref autre, puis vient un groupe de stimuli non discernable,
3. http://www.spss.com
110
ID_tete
Diff_autre
Ref_autre
Ref_tete
Diff_ind
LOCALISATION
Ref_autre
Voiture
ID_tete
Ref_tete
Ref_ind
Diff_ind
Diff_autre
TIMBRE
Diff_autre
ID_tete
Ref_autre
Voiture
Diff_ind
Ref_ind
Ref_tete
EXTERIORISATION
EXTERIORISATION
Ref_ind
Voiture
ID_tete
Diff_autre
Diff_autre
Ref_autre
Ref_ind
Ref_tete
Diff_ind
Diff_ind
0
0.5
1.5
2.5
Voiture
Ref_autre
ID_tete
Ref_tete
3
3.5
0.5
1.5
LOCALISATION
ID_tete
Voiture
Voiture
Ref_tete
Ref_ind
Ref_ind
0.5
Diff_ind
1.5
Ref_autre
2.5
3.5
0.5
Ref_ind
Diff_ind
3.5
Diff_ind
1.5
2.5
Ref_autre
ID_tete
Diff_autre
Voiture
Diff_ind
Ref_autre
0.5
3.5
TIMBRE
ID_tete
Diff_autre
Ref_ind
Diff_autre
TIMBRE
Ref_tete
Voiture
2.5
ID_tete
Ref_tete
Diff_autre
0
LOCALISATION
Ref_autre
Ref_tete
1.5
2.5
3.5
0.5
1.5
2.5
3.5
(b) Distances par rapport au stimulus considere comme le plus proche de lecoute
naturelle, diffuse au casque
F IGURE II.29 Distances calculees a` partir des points de la configuration finale fournie par MDSCAL a` une
dimension
puis a` lautre extremite la correction fournie par HEAD ACOUSTICS . Il est surprenant que le stimulus
de reference dun autre individu arrive en premi`ere place. Concernant la localisation, les positions des
stimuli refl`etent un ordre intuitif, le stimulus de reference du mannequin e tant au moins aussi bien place
que les corrections diffuses. Concernant le timbre, le stimulus le plus proche de lecoute naturelle est sans
surprise la reference individuelle, puis la reference du mannequin, avant la reference non individuelle et
les corrections diffuses ; la correction ID est tr`es e loigne de lensemble des autres stimuli. La representation a` une dimension de la figure II.28 ne faisant pas toujours apparatre le stimulus Voiture a` une
extremite de laxe (il sagit seulement de coordonnees), nous lui preferons celle de la figure II.29, o`u les
distances sont recalculees a` partir des coordonnees de la configuration finale. Le stimulus de reference
du mannequin est bien place, faisant jeu e gal avec les corrections diffuses.
Afin dameliorer lestimation de lespace des stimuli, nous effectuons maintenant lanalyse en deux
dimensions. Le stress est de 0,09 pour lexteriorisation, 0,08 pour la localisation et 0,12 pour le timbre ;
il a diminue avec laugmentation du nombre de dimensions, et indique une precision plus importante du
mod`ele. Les diagrammes de Shepard sont presentes figure II.30. Comme pour la solution a` une dimension, ils ne font pas apparatre de saut, et caracterisent un mod`ele assez precis.
La figure II.31 montre les resultats de lanalyse a` deux dimensions, presentes sous forme de carte ;
111
EXTERIORISATION
6
4
2
0
0.5
1.5
LOCALISATION
2.5
0.5
1.5
TIMBRE
2.5
0.5
1.5
2.5
6
4
2
0
6
4
2
0
EXTERIORISATION
LOCALISATION
ID_tete
Ref_ind
Voiture
Ref_ind
Voiture
Dimension 2
Diff_autre
Ref_tete
0
Diff_autre
Ref_tete
Diff_ind
ID_tete
Ref_autre
2
2
0
Dimension 1
2
2
0
Dimension 1
TIMBRE
2
Diff_ind
Ref_tete
Dimension 2
Dimension 2
Ref_autre Diff_ind
Diff_autre
0
Ref_autre
ID_tete
Ref_ind
Voiture
1
2
2
0
Dimension 1
112
EXTERIORISATION
EXTERIORISATION
Ref_autre
Voiture
ID_tete
Diff_autre
Diff_autre
Ref_ind
Voiture
Ref_ind
Diff_ind
ID_tete
Ref_tete
Ref_autre
Ref_tete
0
0.5
1.5
Diff_ind
2.5
3.5
0.5
1.5
LOCALISATION
Ref_autre
Diff_ind
Voiture
Ref_autre
Diff_autre
Ref_ind
Ref_ind
0.5
ID_tete
1.5
Voiture
2.5
3.5
0.5
1.5
Ref_ind
Diff_ind
1.5
3.5
3.5
TIMBRE
Ref_autre
0.5
2.5
ID_tete
Ref_autre
ID_tete
Diff_autre
Voiture
Ref_tete
0
3.5
Ref_tete
ID_tete
Ref_ind
Diff_ind
Voiture
TIMBRE
Diff_autre
2.5
Diff_autre
Ref_tete
0
LOCALISATION
Diff_ind
Ref_tete
2.5
3.5
0.5
1.5
2.5
(b) Distances par rapport au stimulus considere comme le plus proche de lecoute
naturelle, diffuse au casque
F IGURE II.32 Distances calculees a` partir des points de la configuration finale fournie par MDSCAL a` deux
dimensions
les distances entre points sont affichees sur la figure II.32. Concernant lexteriorisation, lanalyse en deux
dimensions rev`ele que lemergence du stimulus le plus proche de lecoute naturelle est difficile a` mettre
en evidence (mis a` part la reference individuelle) ; tous les stimuli diffuses au casque, a` lexception
de la correction ID, sont a` e gale distance du stimulus Voiture. Ce resultat est a` rapprocher de celui
obtenu avec lalgorithme de Bradley-Terry au II.4.7.4. Remarquons que le passage a` deux dimensions
a provoque un deplacement du stimulus Ref autre a` linterieur du groupe ; comme le stress a diminue,
cest cette situation que nous devons retenir.
Concernant la localisation, les deux stimuli les mieux places sont la reference individuelle et la reference non individuelle. Puis vient la reference du mannequin et les corrections diffuses ; il semble,
comme la montre lanalyse a` une dimension, que la reference du mannequin soit meilleure que la correction diffuse individuelle.
Concernant le timbre, la correction ID est assez e loignee de lensemble des autres stimuli, ce qui
corrobore limpression generale e voquee par les participants a` lissue du test (voir II.4.7.1). La reference du mannequin est un peu moins bien placee que la correction diffuse non individuelle, mais un peu
mieux que la reference dun autre individu.
Afin detablir les differentes strategies de jugement des individus, nous allons effectuer une analyse
en composantes principales ou ACP (cf. B.2.1)sur les resultats fournis par lanalyse MDSCAL a` deux
dimensions sur chaque individu [262]. Nous cherchons un espace commun a` tous les individus, dans
lequel nous pourrons placer les differents stimuli [26, 277].
` lissue de lanalyse MDSCAL , chaque stimulus se trouve decrit par un ensemble de vingt coordonA
nees (deux par individu). Grace a` lACP, nous pouvons reduire ce nombre ; on choisit de le limiter a` six.
Nous cherchons a` connatre le poids accorde par les individus a` chacun de ces axes. Il est representatif
dune mani`ere de juger, puisque les axes fournis par lACP sont communs a` tous les sujets. Pour cela,
nous e valuons la correlation entre chacun de ces six axes, et les deux axes servant a` placer le stimulus pour chaque individu. Cette mani`ere de proceder tient compte du fait que les resultats fournis par
MDSCAL sont invariants par rotation.
Dapr`es Saporta [277], la correlation multiple Rm entre une variable et p autres variables 1 ; 2 ; : : : p
est la valeur maximale prise par le coefficient de correlation lineaire entre et une combinaison lineaire
des j . Si designe la matrice dont les colonnes sont les p variables 1 ; 2 ; : : : p centrees, et si est
y
y
xx
113
xx x
y
0.8
0.8
0.6
0.6
Poids normalis
Poids normalis
EXTRIORISATION
1.0
0.4
0.2
0.4
0.2
3
4
Dimensions rsultantes
3
4
Dimensions rsultantes
TIMBRE
1.0
Poids normalis
0.8
0.6
0.4
0.2
3
4
Dimensions rsultantes
F IGURE II.33 Poids accorde par les individus a` six dimensions communes
centree, alors
yt[X(Xt X) Xt]y ,
(II.18)
yt y
avec (Xt X) une inverse generalisee quelconque de (Xt X). Le lecteur reconnatra X(Xt X) Xt comme
e tant la matrice de lendomorphisme associe a` la projection sur lespace defini par les p vecteurs xp .
2 =
Rm
La figure II.33 illustre ces correlations. Les poids accordes par les differents sujets aux axes principaux varient fortement, traduisant lexistence de divergences dans les strategies de jugement de la
dissemblance auditives. Cette analyse est beaucoup plus pertinente quun simple examen des correlations entre les reponses des individus, o`u la reduction dinformation est importante. Ces differences de
strategies nous sugg`erent queffectuer la moyenne des reponses des individus avant de faire lanalyse
MDSCAL revient a` e liminer une grande partie de linformation. En effet, si lon effectue la meme demarche pour (( lindividu moyen )), on remarque aisement sur la figure II.34 quil a effectue un jugement
simplifie puisquil a utilise un nombre moins important de dimensions. Cet individu moyen represente
donc linformation minimale.
En conclusion de cette analyse, nous pouvons dire que chaque individu apporte sa contribution a`
letablissement dun ordre de proximite des differents stimuli par rapport a` lecoute naturelle. Comme
nous lavions pressenti lors de lanalyse statistique classique, chaque individu a sa propre sensibilite,
et poss`ede donc des facultes dappreciation differentes. Effectuer la moyenne des reponses de chaque
individu avant de proceder a` une analyse MDSCAL reduit linformation, puisque nous ne prenons pas
en compte les particularites de chaque individu. Il convient de raffiner notre recherche, et dutiliser des
techniques plus complexes.
114
1.0
0.8
0.6
0.4
0.2
0
Poids normalis
LOCALISATION
1.0
0.8
0.6
0.4
0.2
0
TIMBRE
1.0
0.8
0.6
0.4
0.2
0
3
4
Dimensions rsultantes
F IGURE II.34 Poids accordes par (( lindividu moyen )) aux six dimensions communes a` tous les individus
II.4.8.3
Afin dameliorer notre analyse, nous cherchons a` introduire dans le mod`ele linfluence de chaque
sujet. Nous allons donc utiliser lanalyse EXSCAL , avec un programme developpe a` lIRCAM par le
chercheur Suzanne Winsberg ; le principe de cette methode est decrit en annexe B.2.4.
Comme nous effectuons lanalyse avec sept stimuli (definis dans le tableau II.2), nous limitons le
nombre de dimensions recherchees a` deux au plus. Les param`etres de mod`eles avec et sans ponderation,
avec et sans specificite, ont e te estimes pour chaque attribut perceptif. Les valeurs de la variance expliquee par le mod`ele, du logarithme de la vraisemblance, de AIC et de BIC sont donnees dans les tableaux
II.8, II.9 et II.10, en fonction du nombre de dimensions de lanalyse. Les poids attribues par les differents
sujets aux axes issus de lanalyse ne sont pas tous identiques, et confirme de mani`ere definitive que tous
les sujets nont pas juge de la meme mani`ere. Dans le choix du meilleur mod`ele, c.-`a-d. celui representant
au mieux les jugements des individus, nous devons donc privilegier les mod`eles prenant en compte les
ponderations individuelles. De plus, nous privilegions le mod`ele avec la plus petite valeur de BIC, voire
en plus la plus petite valeur de AIC en cas de doute. Nous choisissons alors pour :
lexteriorisation, un mod`ele pondere a` deux dimensions, sans specificite ;
la localisation, un mod`ele pondere a` deux dimensions, sans specificite ;
le timbre, un mod`ele pondere a` deux dimensions, avec specificites, car ce mod`ele attribue une forte
specificite au stimulus ID tete, ce que tous les sujets se sont accordes a` reconnatre.
Pour chaque attribut perceptif, nous avons represente lespace stimulus de groupe (cf. fig. II.35), et
lespace individuel (cf. fig. II.36). Les distances entre le stimulus Voiture et les autres stimuli sont presentees figure II.37 ; elles ont e te calculees en tenant compte des ponderations et specificites eventuelles
(cf. e q. (B.53)).
E XTE RIORISATION
Nous constatons que le stimulus Voiture se detache nettement des autres stimuli, tout comme le
stimulus ID tete. Remarquons que les stimuli de reference et les corrections individuelles sont globalement situes sur un axe parall`ele a` laxe 2. Lexamen des poids demontre lexistence de deux groupes
de sujets : un groupe est plus sensible a` laxe 1, tandis que lautre est plus sensible a` laxe 2. Le premier
groupe a donc percu des differences non negligeables entre les stimuli sus-cites, tandis que le deuxi`eme
sest concentre sur la scission avec le stimulus Voiture, les differences entre les autres stimuli e tant
assimilables a` du (( bruit )). Lexamen des distances au stimulus Voiture montre que le stimulus de reference de la tete se situe en troisi`eme place, devant la correction individuelle par rapport au champ diffus.
115
ndim
1
2
3
5;13
0;00
0;00
1
2
3
5;42
4;17
0;00
No du stimulus
2
3
4
5
Specificites sans ponderation
6;29 0;00 0;00 0;00
5;50 1;58 0;00 2;59
5;23 0;00 0;00 0;00
Specificites avec ponderation
6;24 2;54 0;00 2;93
0;00 2;27 1;00 4;49
3;28 1;71 0;00 0;00
15;89
12;87
12;95
26;10
0;00
0;00
14;43
0;00
9;95
0;00
0;00
0;00
ndim
1
2
3
0;00
0;00
0;00
1
2
3
0;00
6;72
5;68
No du stimulus
2
3
4
5
Specificites sans ponderation
8;82 3;47 1;80 0;00
7;82 0;00 0;00 0;47
0;00 0;00 0;00 0;00
Specificites avec ponderation
7;89 6;81 1;85 0;00
0;00 6;85 1;13 1;40
0;00 0;00 0;00 0;00
7;83
8;14
7;75
6;07
0;00
0;00
9;54
4;98
8;43
0;00
0;00
0;00
ndim
1
2
3
6;67
6;15
6;24
1
2
3
7;50
6;97
7;54
116
No du stimulus
2
3
4
5
Specificites sans ponderation
0;00 4;58 2;20 2;89
0;00 4;62 2;70 0;00
0;00 0;00 3;50 0;00
Specificites avec ponderation
3;13 3;03 3;17 4;23
0;00 3;78 1;85 4;76
0;00 5;78 1;33 4;32
24;35
22;79
0;00
9;05
0;00
0;00
28;75
29;26
10;42
4;95
0;00
0;00
LOCALISATION
ID_tete
Voiture
Ref_tete
0
Diff_autre
Diff_ind
Ref_autre
Ref_ind
Ref_ind
Dimension 2
Dimension 2
Voiture
1
0
Ref_tete
Diff_autre
Diff_ind
2
Ref_autre
ID_tete
6
6
1
0
1
Dimension 1
6
6
1
0
1
Dimension 1
TIMBRE
4
Voiture
Diff_autre
Dimension 2
Ref_ind
ID_tete
Ref_tete
Diff_ind
Ref_autre
3
4
4
0
Dimension 1
F IGURE II.35 Espaces stimuli fournis par lanalyse EXSCAL a` deux dimensions
L OCALISATION
On peut considerer, tout comme pour lexteriorisation, que le stimulus Voiture se detache des
autres, et que ceux-ci sont globalement situes sur un axe parall`ele a` laxe 2. Par contre, les poids attribues par les sujets sont, pour la plupart, groupes autour de la premi`ere diagonale : les individus nont
donc pas favorise un axe par rapport a` lautre, mais ils ont attribue un facteur de zoom different. Sans
nous laisser influencer par AIC , nous aurions pu choisir un mod`ele a` une seule dimension (les valeurs de
BIC sont proches). Rapporte au stimulus Voiture, le stimulus de reference de la tete arrive e galement en
troisi`eme place, en faisant jeu e gal avec la correction individuelle par rapport au champ diffus.
T IMBRE
En ce qui concerne le timbre, nous avons privilegie un mod`ele avec specificites 4 ; en effet, le stimulus no 6 (c.-`a-d. correspondant aux BIR mesurees sur le mannequin corrigees par le filtre ID propose par
HEAD ACOUSTICS ) rev`ele une forte specificite, ce qui corrobore limpression auditive. La representation
de lespace de groupe le fait apparatre comme e tant assez proche des autres stimuli, bien quil ne le soit
pas. Nous devons interpreter cette representation comme une projection dans un plan commun a` tous les
stimuli ; les stimuli ayant une forte specificite sen e cartent fortement. Le stimulus de reference de la tete
arrive ici en deuxi`eme place, largement devant la correction individuelle par rapport au champ diffus.
4. on rappelle quune specificite peut e tre vue comme un axe explique par un stimulus particulier
117
EXTERIORISATION
1
LOCALISATION
1
OD
0.8
0.8
VL
VL
Dimension 2
0.6
Dimension 2
0.6
PP
OW
GV
LC
0.4
GV
CF
LC
OD
EG
0.4
EG
CF
PP
0.2
0.2
GN
JJ
OW
JJ
0
0.2
0.4
0.6
0.8
GN
0
0.2
0.4
Dimension 1
0.6
0.8
Dimension 1
TIMBRE
1
0.8
CF
PP
Dimension 2
0.6
EG
0.4
0.2
JJ
0
LC
GVGN
OW
OD
0.2
VL
0.4
0.6
0.8
Dimension 1
F IGURE II.36 Espaces sujets fournis par lanalyse EXSCAL a` deux dimensions
EXTERIORISATION
EXTERIORISATION
Ref_ind
Voiture
ID_tete
Diff_autre
Ref_autre
Diff_autre
Diff_ind
Diff_ind
Ref_tete
Voiture
Ref_tete
0
Ref_autre
Ref_ind
ID_tete
10
LOCALISATION
ID_tete
Voiture
Ref_ind
Ref_autre
10
Ref_ind
Ref_tete
Ref_ind
10
10
Diff_ind
Diff_autre
7
ID_tete
Voiture
Diff_autre
Ref_autre
2
TIMBRE
ID_tete
Diff_ind
10
Diff_ind
TIMBRE
Ref_tete
Ref_tete
Voiture
Diff_autre
Diff_ind
ID_tete
Ref_tete
0
Voiture
Diff_autre
Ref_ind
LOCALISATION
Ref_autre
Ref_autre
4
10
(b) Distances par rapport au stimulus considere comme le plus proche de lecoute
naturelle, diffuse au casque
F IGURE II.37 Distances calculees a` partir des points de la configuration finale fournie par EXSCAL a` deux
dimensions, en tenant compte des ponderations (et des specificites pour le timbre)
118
II.5 Conclusion
II.4.8.4
Conclusion
Lanalyse multidimensionnelle des resultats de notre test decoute, conduit sous forme de comparaison par paires, nous permet de conclure que le calcul dune correction individuelle par rapport au
champ diffus ne simpose pas. Toutes les analyses effectuees confirment que le stimulus de reference du
mannequin est au moins aussi proche de lecoute naturelle des haut-parleurs de la voiture. De plus, le
calcul de cette correction comporte plusieurs e tapes delicates et couteuses. Enfin, a` la difference dune
application de transmission de BIR susceptibles detre e coutees avec nimporte quel casque, notre e tude
nous permet de conserver toujours le meme casque, et celui-ci poss`ede de bonnes proprietes de couplage
avec les oreilles. Nous decidons de rejeter, pour notre application, le calcul de la correction individuelle
par rapport au champ diffus.
Une simple mesure des BIR du mannequin, suivie dune inversion numerique du casque decoute
(mod`ele K1000 de marque AKG) toujours mesure sur le mannequin, permet de rendre compte de mani`ere
optimale de la qualite acoustique regnant dans lhabitacle du vehicule.
II.5 Conclusion
Ce second chapitre avait pour but de rechercher une methode universelle et optimale de restitution
sur e couteurs du champ sonore regnant a` linterieur dun habitacle de vehicule automobile.
Nous avons dabord rappele les principes de la simulation binaurale, et nous avons remarque que les
conditions necessaires a` lexactitude de sa restitution sont difficilement compatibles avec les exigences
de la conception audio des vehicules. Il est en effet imperatif de faire comparer differentes installations
audio a` un tr`es grand nombre de sujets, sans que ceux-ci soient obliges de se porter physiquement dans
les differents habitacles ; les tests decoute ont lieu en laboratoire, lecoute se faisant au casque. Nous
avons donc decide de proceder a` des enregistrements binauraux a` laide dun mannequin acoustique.
Malheureusement, les caracteristiques acoustiques dun mannequin sont assez e loignees de celles
des humains. Cest pourquoi, nous avons e labore une methode de correction individuelle de ces enregistrements, en essayant de nous rapprocher denregistrements effectues sur nos propres oreilles, a` laide
des HRTF en champ diffus du mannequin et des individus.
Cependant, il apparat que linversion du casque decoute mesure sur le mannequin, prealable a`
la restitution denregistrements effectues sur le mannequin, permet denlever certaines caracteristiques
propres a` celui-ci, surtout lorsque le casque choisi est le K1000 utilise oreillettes ouvertes. En effet, cette
fonction de transfert est tr`es proche de celles calculees a` laide dune correction individuelle des enregistrements du mannequin par rapport au champ diffus (suivie dune inversion du meme casque mesure sur
les individus).
Pour lever toute ambigute, nous avons realise un test decoute subjectif. Il avait pour but de determiner le meilleur traitement a` apporter aux mesures de reponses impulsionnelles binaurales effectuees
avec notre mannequin acoustique. Il permettait de comparer differents stimuli diffuses au casque avec
lecoute naturelle, c.-`a-d. par les haut-parleurs du vehicule.
Confirmant les impressions des sujets, notre analyse statistique a demontre que le stimulus le plus
proche de la situation naturelle est sans conteste lecoute de nos propres BIR, corrigees par le casque
decoute. Par contre, il est difficile de mettre en e vidence une reelle difference entre les BIR du mannequin corrigees par le casque decoute mesure sur le mannequin, et les memes BIR du mannequin
corrigees individuellement par rapport au champ diffus, et suivies dune inversion du meme casque mesure sur les individus. Nous confirmons les resultats objectifs.
119
Comme le principe de la correction individuelle par rapport au champ diffus necessite, pour chaque
personne, le calcul du rapport entre la HRTF en champ diffus de lindividu realisant lecoute et la HRTF
en champ diffus du mannequin, que cette quantite represente un surcout important de calcul et necessite
des ajustements delicats, nous decidons de labandonner.
La restitution binaurale de la qualite acoustique regnant a` linterieur dun vehicule automobile sera
donc realisee a` laide de mesures de BIR effectuees sur notre mannequin acoustique, suivies dune inversion numerique specifique de notre casque decoute K1000 utilise oreillettes ouvertes.
120
CHAPITRE III
Amelioration de lecoute embarquee
III.1 Introduction
Les travaux de caracterisation objective de la restitution audio en habitacle permettent de degager
des pistes concernant les traitements a` mettre en place pour ameliorer lecoute. Le premier traitement
envisage est une correction de la reponse en frequence de lhabitacle. Cette correction est rendue necessaire par la presence de resonances assez marquees, causant de profondes alterations de la reponse en
frequence, et percues subjectivement comme un effet (( tonneau )). Ces resonances sont dues en particulier au petit volume de lhabitacle ; elles sont tr`es importantes en basses frequences, c.-`a-d. en dessous
de la frequence de Schroeder qui est de lordre de plusieurs centaines de Hertz, zone dans laquelle le
recouvrement modal est faible.
Mais une correction frequentielle nest pas suffisante ; la presence de surfaces reflechissantes telles
que les vitres fait e merger de fortes reflexions, conduisant a` deteriorer encore un peu plus limage sonore. Outre une correction frequentielle, un second traitement envisage est une correction temporelle qui
permet, dune part, de modifier la direction apparente de provenance des sources sonores, et dautre part,
de substituer a` leffet dhabitacle une reverberation plus consequente.
Dans un mode tr`es simplifie, il est possible daligner les temps darrivee et les niveaux e nergetique
des ondes sonores provenant des differents haut-parleurs. Mais par le biais dune inversion a` phase totale
des reponses impulsionnelles de lhabitacle, il est possible de les rendre transparentes. Cela permet de recentrer limage sonore (en creant des haut-parleurs virtuels) et dannuler leffet des premi`eres reflexions.
Dautre part, si on desire substituer a` leffet dhabitacle une autre reverberation, il faut dabord
mettre en uvre une procedure de compensation ; celle-ci peut faire appel a` la deconvolution, mais ce
nest pas la seule methode (cf. la procedure de compensation de contexte du Spatialisateur [140, 238]).
Puis il faut faire appel a` une methode de synth`ese en temps reel du nouvel effet de salle. Remarquons
que si la reverberation desiree est consequente, il est plus facile de travailler directement par masquage.
Enfin, bien que les grandes salles soient capables de generer une sensation despace sonore, il nen
est pas de meme pour les petites, specialement les habitacles de voiture. Nous avons donc e labore un
troisi`eme traitement e lectronique des signaux pour augmenter la sensation despace percue par les occupants dun vehicule. Il convient cependant de distinguer plusieurs composantes de la sensation despace,
chacune necessitant un traitement particulier pour laugmenter.
Nous navons pas pour ambition de corriger les eventuelles non-linearites du syst`eme audio existant
[74] ; ces distorsions peuvent apparatre au niveau de lamplificateur ou des haut-parleurs eux-memes,
121
122
TABLEAU III.1 Reglages e nergetiques pour le test decoute sur linfluence perceptive du contenu frequentiel
relatif du son direct et de la reverberation.
A
Son direct
1
2
Rverbration
Son direct
Rverbration
+6
+6
-6
-6
+3 +3
-3
-3
+6
+3
-3 -3
+3
+6
-6
-6
1A
1B
2A
2B
3A
3B
0 1A
BB 1
BB 2
BB 4
@7
11
1B 2A 2B 3A
3
5
10
12
13
14
3B
1
CC
CC
CC
A
15
BF MF HF
Dautre part, lenergie totale, somme de lenergie du son direct et de la reverberation, est constante pour
chaque configuration 1, 2 ou 3 :
f+1 ; +3 ; +7g dB environ pour la configuration 1, ce qui correspond a` un reglage nettement passehaut ;
f+4 ; +3 ; +4g dB environ pour la configuration 2 ;
f+7 ; +3 ; +1g dB environ pour la configuration 3, ce qui correspond a` un reglage nettement passebas.
Les reglages e nergetiques des stimuli oscillent donc autour dun rapport e nergetique entre londe directe
et le champ reverbere qui vaut toujours 0 dB dans la bande MF.
En dautres termes, on peut considerer trois familles de modifications :
1. Modification globale du spectre de lenergie : cest le cas des paires 2 f1A;2Ag, 5 f1B;2Bg,
9 f2A;3Ag, 14 f2B;3Bg, 7 f1A;3Ag et 12 f1B;3Bg.
2. Energie totale identique, avec e change entre le son direct et la reverberation : cest le cas des
paires 1 f1A;1Bg, 6 f2A;2Bg et 15 f3A;3Bg.
3. Affectation particuli`ere de lenergie sur le son direct ou la reverberation :
modifications de la densite denergie du son direct, avec compensation par une moindre modification inverse sur la reverberation : cest le cas des paires 4 f1A;2Bg et 13 f2A;3Bg ; ou
inversement : cest le cas des paires 3 f2A;1Bg et 10 f3A;2Bg ;
modifications uniquement de la densite denergie du son direct ou de la reverberation : cest
le cas des paires 8 f1B;3Ag et 11 f1A;3Bg.
Trois ensembles de configurations, correspondant a` trois conditions differentes, seront construits.
Dans chaque ensemble, le reglage e nergetique sera identique a` ce qui est decrit precedemment, la variabilite e tant introduite par les variations frequentielles du temps de reverberation, et par la diffusion
spatiale de la reverberation (cf. tab. III.2).
Dans les deux premi`eres conditions, nous prenons des valeurs du temps de reverberation proches de
celles rencontrees lors de lanalyse temps-frequence de veritables reponses impulsionnelles dhabitacles,
a` savoir f0,3 ; 0,05 ; 0,05g sec. dans les trois bandes de frequences ; dans la condition Reference, nous
prenons des valeurs identiques, a` savoir f0,1 ; 0,1 ; 0,1g sec. Ces deux ensembles de valeurs permettront
de juger de linfluence dune repartition non homog`ene du temps de reverberation dans les trois bandes
de frequences.
123
TABLEAU III.2 Variations du temps de reverberation (en sec.) et de la diffusion spatiale de la reverberation
au cours des trois conditions decoute
Condition Habitacle
Condition Frontale
Condition Reference
Tr BF
0,30
0,30
0,10
Tr MF
0,05
0,05
0,10
Tr HF
0,05
0,05
0,10
Reverberation
diffuse
localisee frontale
diffuse
En ce qui concerne la diffusion spatiale de la reverberation, nous choisissons, dune part, une reverberation diffuse pour les conditions Reference et Habitacle, et dautre part, une reverberation localisee
frontalement pour le second. Ces deux reglages permettront de juger de linfluence de laspect diffus de
leffet dhabitacle.
Le but du test est detudier linfluence de ces differents reglages sur notre perception, dans le cas
dune e coute en habitacle automobile. Afin de sapprocher de cette situation, nous devons maintenant
proceder au reglage du Spatialisateur .
124
-6
2
3
B
+6 +6
+6
-6
-6
-6
1, 2 ou 3
A ou B
face
omni
direct
room
OD
Rev
1/
30
10
50
on obtient une excursion de 6 dB entre les deux frequences de transition sur lesquelles sont centrees les
bandes BF et HF. Le niveau de la bande MF reste toujours e gal a` 0 dB.
125
F IGURE III.3 Interface du test decoute realise pour e tudier linfluence perceptive du contenu frequentiel
relatif du son direct et du champ reverbere
e galite triangulaire ne sera pas forcement respectee ; nous sommes, pour linstant, dans un espace non
euclidien. Pour chaque sujet, le programme informatique de test fournit trois matrices de dissemblance,
une par condition. On suppose quil ny a pas de difference entre le stimulus A et lui-meme, et que
la dissemblance entre les stimuli A et B est identique a` celle entre les stimuli B et A. Chaque matrice
de dissemblance poss`ede donc des 0 sur la diagonale, et sa forme est triangulaire (lautre moitie e tant
reconstruite si besoin).
Configurations ideales
Les valeurs ideales que nous voulions nous imposer, a` savoir 3 dB ou 6 dB dans deux bandes
de frequences basses et hautes, ne seront pas exactement atteintes. En effet, le procede de reglage des
filtres du Spatialisateur consiste a` specifier les cinq param`etres de reglage dun filtre de type (( double
shelving )) (cf. E.1.3) ; notamment, les valeurs des gains en basses et hautes frequences correspondent
aux valeurs a` f
et f Fech = . Et lorsque nous effectuons la reduction de la resolution frequentielle
exposee precedemment (cf. fig. III.4), nous obtenons trois valeurs leg`erement differentes, regroupees
dans le tableau III.3. De ce fait, nous ne pouvons pas atteindre les configurations ideales exposees dans
=0
126
dB
100
200
177
354
250
400
707
800
1.5k
1414
3k
2828
5k
10k
5657
1414
Bande de frquences en Hz
20k
dB
12
9
6
3
0
3
6
9
12
dB
dB
12
9
6
3
0
3
6
9
12
dB
dB
12
9
6
3
0
3
6
9
12
11314
8000
100
200
177
354
250
dB
200
177
354
250
400
707
800
1414
1.5k
3k
2828
1414
Bande de frquences en Hz
5k
10k
5657
20k
dB
12
9
6
3
0
3
6
9
12
100
1.5k
1414
3k
2828
5k
10k
5657
11314
20k
8000
Filtre doubleshelving 6, 0, 6
12
9
6
3
0
3
6
9
12
12
9
6
3
0
3
6
9
12
11314
8000
12
9
6
3
0
3
6
9
12
50
dB
dB
dB
dB
12
9
6
3
0
3
6
9
12
707
800
1414
Bande de frquences en Hz
Filtre doubleshelving 6, 0, 6
12
9
6
3
0
3
6
9
12
50
400
100
200
177
354
250
400
707
800
1414
1.5k
3k
2828
1414
Bande de frquences en Hz
5k
10k
5657
11314
20k
8000
F IGURE III.4 Fonctions de transfert pleine e chelle des filtres (( double shelving )), puis reduction en sept
bandes doctaves, et moyenne en trois valeurs finales
le tableau III.1, mais des valeurs approchees a` moins de 1 dB, ce qui ne nuira en rien a` la pertinence de
notre test ; ces valeurs sont rassemblees dans le tableau III.4.
III.2.5.2
Configurations reelles
Nous calculons dabord le temps de reverberation pour chacun des six stimuli de la condition Habitacle (cf. fig. III.5(a)), et nous constatons quil est en accord avec les specifications que nous nous e tions
fixees au III.2.2.
En ce qui concerne les niveaux e nergetiques du son direct e quivalent et de la reverberation (cf. fig. III.5(c)),
il faut tenir compte du reglage impose au temps reverberation ; en effet, la valeur en basses frequences
est beaucoup plus e levee que celles en moyennes et hautes frequences (dun facteur 6, soit 7,8 dB), et ces
niveaux influent directement sur celui de la section diffuse du Spatialisateur , a` savoir la section R3. En
particulier, en labsence dinfluence de tout autre filtre, les e carts de gain entre les trois sections frequentielles du temps de reverberation doivent se retrouver sur la section R3. Cependant, dans notre e tude,
comme les sections R1, R2 et R3 du Spatialisateur se recouvrent partiellement, ce nest pas exactement
le cas ; la difference de gain est plus faible (cf. fig. III.5(c)). De plus, lenergie totale nest pas totalement
identique entre les configurations A et B (cf. fig. III.5(e)). Dans la suite de lanalyse nous verifierons
que ces differences nentranent pas de modifications perceptibles, notamment par comparaison avec la
condition Reference.
Puis nous effectuons le meme genre danalyse pour les six stimuli de la condition Reference. Les
resultats sont rassembles sur les figures III.5(b), III.5(d), et dans le tableau III.6. Les resultats sont par-
127
TABLEAU III.3 Param`etres de reglage des filtres (( double shelving )), et valeurs finales issues de la reduction
de la resolution frequentielle en trois bandes de frequences BF, MF et HF ; les valeurs sont
exprimees en dB
Param`etres de
reglage des filtres
(( double shelving ))
Reduction du gain
en trois valeurs
Configurations
ideales
+12;0 0;0
12;0
+6;0 0;0
6;0
5;7 0;0
+6;9
+6;0 0;0
6;3
+3;0 0;0
3;2
6;0 0;0
+6;0
+6;0 0;0
6;0
+3;0 0;0
3;0
TABLEAU III.4 Niveaux e nergetiques BF, MF et HF envisageables a` partir dune specification e nergetique
sous forme de filtres (( double shelving )), exprimes en dB. Lenergie totale est la somme de
lenergie du son direct et de celle de la reverberation tardive
Stimulus
Energie totale
Energie directe
Energie reverberee
Stimulus
Energie totale
Energie directe
Energie reverberee
Stimulus
Energie totale
Energie directe
Energie reverberee
1A
+1;0 +3;0
5;7
0;0
0;0
0;0
2A
+4;0 +3;0
2;8
0;0
+3;0
0;0
3A
+7;0 +3;0
0;0
0;0
+6;0
0;0
+7;7
+6;9
0;0
+4;3
+3;4
3;2
+0;9
0;0
6;3
1B
+1;0 +3;0 +7;7
0;0
0 ;0
0;0
5;7
0;0 +6;9
2B
+4;0 +3;0 +4;3
+3;0
0;0
3;2
2;8
0;0 +3;4
3B
+7;0 +3;0 +0;9
+6;0
0;0
6;3
0;0
0 ;0
0;0
TABLEAU III.5 Niveaux e nergetiques de la condition Habitacle , issus dune analyse temps-frequence et
reduits a` trois valeurs, exprimees en dB
Stimulus
Energie totale
Energie directe
Energie reverberee
Stimulus
Energie totale
Energie directe
Energie reverberee
Stimulus
Energie totale
Energie directe
Energie reverberee
1A
+1;2 +1;4
5;3
0;0
+0;1
4;4
2A
+4;5 +1;4
2;7
0;0
+3;6
4;4
3A
+7;4 +1;3
0;0
0 ;0
+6;5
4;6
128
+7;5
+7;2
4;1
+3;8
+3;5
7;5
+0;4
0;0
10;6
1B
+1;1 +1;5 +5;1
0;0
0;0
0;0
5 ;6
3;80 3;5
2B
+4;1 +1;4 +1;4
+3;0
0;0
3;1
2;6
4;1
0;4
3B
+7;3 +1;3
2;0
+6;4
0;0
6;1
+0;1
4;4
4;1
0.5
1A
0.5
0.4
0.4
0.3
0.3
0.3
0.3
0.2
0.2
0.2
0.2
0.1
0.1
0.1
0.1
2A
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
3A
0
2A
0.5
Tr en sec
0.4
0.5
2B
0.5
3B
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
3A
0.5
0.4
0.4
0.4
0.3
0.3
0.3
0.3
0.2
0.2
0.2
0.2
0.1
0.1
0.1
250
1414
8000
250
1414
8000
0.1
250
1414
3A
250
1414
2B
10
8
6
4
2
0
2
4
6
8
10
10
8
6
4
2
0
2
4
6
8
10
8000
3B
250
1414
1A
10
8
6
4
2
0
2
4
6
8
10
Energie en dB
Energie en dB
10
8
6
4
2
0
2
4
6
8
10
10
8
6
4
2
0
2
4
6
8
10
8000
1414
Energie totale en dB
Energie totale en dB
1414
8000
Configurations 1
10
8
6
4
2
0
2
4
6
8
10
Configurations 2
Configurations 3
1414
250
Configurations 1
250
8000
3B
10
8
6
4
2
0
2
4
6
8
10
10
8
6
4
2
0
2
4
6
8
10
Frquence en Hz
10
8
6
4
2
0
2
4
6
8
10
2B
10
8
6
4
2
0
2
4
6
8
10
3A
250
1B
10
8
6
4
2
0
2
4
6
8
10
2A
10
8
6
4
2
0
2
4
6
8
10
Frquence en Hz
10
8
6
4
2
0
2
4
6
8
10
8000
1B
10
8
6
4
2
0
2
4
6
8
10
2A
1414
10
8
6
4
2
0
2
4
6
8
10
250
Frquence en Hz
1A
8000
Frquence en Hz
10
8
6
4
2
0
2
4
6
8
10
3B
0.5
0.4
2B
0.5
0.5
1B
0.5
0.4
0.5
Tr en sec
1B
0.5
0.4
10
8
6
4
2
0
2
4
6
8
10
8000
Frquence en Hz
Configurations 2
10
8
6
4
2
0
2
4
6
8
10
Configurations 3
250
1414
8000
Frquence en Hz
F IGURE III.5 Temps de reverberation et niveaux e nergetiques des stimuli des conditions Habitacle et Reference , reduits a` trois valeurs apr`es avoir e te specifies sous forme de filtre (( double shelving ))
129
TABLEAU III.6 Niveaux e nergetiques de la condition Reference, issus dune analyse temps-frequence et reduits a` trois valeurs, exprimees en dB
Stimulus
Energie totale
Energie directe
Energie reverberee
Stimulus
Energie totale
Energie directe
Energie reverberee
Stimulus
Energie totale
Energie directe
Energie reverberee
1A
+1;0 +2;8
5;2
0;0
0;2
0;4
2A
+4;0 +2;8
2;7
0;0
+2;9
0;4
3A
+6;6 +2;7
0;0
0 ;0
+5;5
0;6
+8;0
+7;2
0;0
+4;3
+3;5
3;4
+0;9
0;0
6;6
1B
+1;1 +3;1 +8;3
0;0
0 ;0
0;0
5;3 +0;2 +7;6
2B
+4;0 +3;0 +4;5
+3;0
0;0
3;1
2;6
0;0 +3;6
3B
+7;2 +2;8 +0;8
+6;3
0;0
6;1
0;3
0;4
0;1
Stimuli
Erreur
Total
Stimuli
Erreur
Total
Stimuli
Erreur
Total
Condition Habitacle
Variance
ddl Variance / ddl
1,308105
14
9343;0
1,080105 240
450;1
2,388105 254
Condition Frontale
Variance
ddl Variance / ddl
1,158105
14
8268;0
1,034105 240
431;1
2,192105 254
Condition Reference
Variance
ddl Variance / ddl
0,993105
14
7095;0
1,185105 240
493;6
2,178105 254
f
20,76
Pr
100,0
f
19,18
Pr
100,0
f
14,37
Pr
100,0
faitement en accord avec les valeurs du tableau III.4, et lenergie totale est parfaitement identique entre
les configurations A et B (cf. fig. III.5(f)).
Nous ne procedons pas a` lanalyse objective des stimuli de la condition Frontale, puisque les configurations e nergetiques et le temps de reverberation sont en tout point identiques a` ceux de la condition
Habitacle ; seule change la diffusion spatiale de la reverberation.
Analyse de variance
Nous devons dabord nous demander si les resultats des tests sont significatifs, c.-`a-d. si les sujets
ont reellement entendu des differences, et nont pas repondu au hasard. Nous effectuons pour cela une
analyse de la variance des resultats. Cette methode est decrite dans lannexe B.1.2.
Lidee est de tester lhypoth`ese selon laquelle les moyennes sur les individus sont identiques entre
les paires. Pour cela, on forme le rapport entre la variance due aux stimuli et la variance residuelle
(difference entre la variance totale et la variance due aux stimuli) ; comme ces deux variances sont des
variables aleatoires independantes, leur rapport suit une loi F de Fisher. Il ne reste plus qu`a calculer
la probablite de rejet de lhypoth`ese nulle. Les resultats sont rassembles dans le tableau III.7. Nous en
concluons que les trois tests decoute sont globalement significatifs.
130
30
20
10
Nombre doccurences
10
20
30
40
50
60
70
80
90
100
60
40
20
0
10
20
30
40
50
60
70
80
90
100
30
20
10
0
10
20
30
40
50
60
70
80
90
100
Dissemblance perceptive
F IGURE III.6 Distributions de lensemble complet des jugements de dissemblance, sur toutes les paires et
tous les sujets ; superposition dune gaussienne de meme moyenne et de meme e cart type.
TABLEAU III.8 Moyennes et e carts types de lensemble des individus sur toutes les paires
III.2.6.2
Condition Habitacle
Condition Frontale
Condition Reference
Les trois distributions de lensemble des dix-sept sujets sur lensemble des quinze paires sont presentees figure III.6. Aucune des distributions nest gaussienne, ce qui montre que les sujets nont pas
a priori repondu au hasard ; ce fait important sera confirme dans la suite de notre e tude. Pour chaque
condition, les notes comprises entre 0 et 10, refletant une dissemblance quasi nulle, forment un grand
ensemble, specialement pour la condition Frontale ; ceci peut provenir de sujets netant pas en mesure
de focaliser leur attention sur ce quon a voulu leur faire e couter.
Pour la condition Habitacle, mis a` part la forte proportion des notes faibles, la distribution est a` peu
pr`es reguli`ere, avec une forte proportion de notes aux alentours de 25 et 48. Il en est de meme pour la
condition Reference, avec une forte proportion de notes aux alentours de 38 et 48. Par contre, il nen est
pas de meme pour la condition Frontale, pour laquelle lensemble des sujets a detecte des differences
plutot faibles.
Interessons-nous ensuite aux distributions de chaque individu. Elles ne sont pas uniformes, traduisant le fait que les sujets ont reellement remarque des differences entre les paires, et nont pas repondu
au hasard. Les moyennes entre les paires varient assez fortement dun individu a` lautre, surtout pour la
localisation et le timbre ; il en est de meme pour les e carts types. Le tableau III.8 rassemble les resultats.
Nous mettons en evidence des differences importantes dans les comportements des differents sujets :
certains sont plus sensibles que dautres a` tel ou tel aspect, ce qui se traduit par une moyenne des notes
plus ou moins importante. Dautre part, nous remarquons que les sujets nutilisent pas tous lechelle
de notation de mani`ere identique : certains sujets nen ont utilise que la moitie, et dautres ne lont pas
utilise de mani`ere homog`ene. Il est donc necessaire de normaliser les notes de chaque individu par leur
131
TABLEAU III.9 Moyennes et e carts types de lensemble des paires sur tous les individus
Condition Habitacle
Condition Frontale
Condition Reference
variance, ce qui revient a donner a` chaque individu la meme importance quelle que soit sa dispersion :
on retablit lequilibre entre les individus en leur donnant a` tous une variance unite.
Lexamen des distributions de chaque paire sur tous les individus fait apparatre une forme proche
dune gaussienne. Le nombre de sujets commence a` e tre suffisant pour appliquer le theor`eme de la limite
centrale. Nous confirmons nos observations par un test de comparaison avec une distribution gaussienne
ideale, de meme moyenne et de meme e cart type ; ce test fait intervenir une loi du 2 a` seize degres
de libertes. En choisissant comme hypoth`ese nulle lidentite entre les deux lois, et un facteur de risque
relativement important, nous pouvons considerer la plupart des distributions testees comme gaussiennes.
Les moyennes interindividuelles des notes varient fortement dune paire a` une autre ; il en est de
meme pour les e carts types. Le tableau III.9 rassemble les resultats. Remarquons que les e carts types
sont assez importants, en regard de la moyenne ; ceci peut sexpliquer par les differences dutilisation de
lechelle de notation, et laisse presager une certaine difficulte dans lextraction de resultats fiables.
Poursuivons lanalyse des distributions par la recherche de lintervalle contenant les moyennes et
e carts types theoriques des distributions des notes des differentes paires, sur tous les individus. Les bornes
de ces deux intervalles ont dej`a e te precisees au II.4.7.2 ; un calcul rigoureux de ces bornes suppose
que les distributions sont gaussiennes, mais on peut considerer les resultats fiables lorsque leffectif de
la population est au moins e gal a` une dizaine dindividus [18].
La figure III.7 presente les resultats concernant les moyennes et les e carts types des distributions des
notes. Les quantites estimees sont representees par des *, tandis que les intervalles contenant les quantites
theoriques sont representes par des barres verticales. Le risque est choisi e gal a` 5 %.
Les intervalles contenant les moyennes theoriques des dissemblances permettent de mettre en e vidence les precautions a` prendre lors de conclusions trop hatives en regardant uniquement les valeurs
des moyennes elles-memes. Si les intervalles contenant les moyennes theoriques de deux paires se chevauchent, il est possible quil ny ait pas de differences entre ces paires. Cest le cas par exemple des
paires 7 et 8 pour la condition Habitacle, et de plus de la moitie des paires de la condition Frontale ! En
ce qui concerne les e carts types, bien que ceux-ci soient assez importants, les intervalles contenant les
valeurs ideales sont relativement faibles, ce qui indique une certaine stabilite des resultats ; notamment,
pour la condition Habitacle, lecart type des dissemblances des paires 2, 5, 9 et 14 est le plus faible, et
lintervalle contenant lecart type theorique est tr`es petit.
Terminons lanalyse des distributions par lexamen des diagrammes en botes, encore appeles box
plot. Il sagit dune representation schematique qui montre les principales caracteristiques dune variable numerique en utilisant les quartiles ; si lon suppose connue la distribution theorique dune variable aleRatoire X de densite de probabilite f x , alors la fonction de repartition vaut par definition
x
F x
: , F Q2
: et
1 f t t, et les quartiles Q1 , Q2 et Q3 sont definis par F Q1
F Q3
: . La partie centrale de la distribution est representee par une bote de largeur arbitraire
et dont la longueur correspond a` lintervalle entre le premier et le troisi`eme quartile. On trace alors a`
( )=
( )d
( ) = 0 75
()
132
( ) = 0 25 ( ) = 0 50
100
80
60
60
40
40
20
0
20
1
10
11
12
13
14
15
100
Ecart type
Moyenne
10
11
12
13
14
15
14
15
80
60
40
20
1
10
11
12
13
14
60
40
20
0
15
100
80
60
60
40
40
20
10
11
12
13
100
80
100
80
100
80
20
1
10
11
12
13
14
15
Numro de la paire
10
11
12
13
14
15
Numro de la paire
F IGURE III.7 Encadrement contenant la moyenne theorique (`a gauche) et lecart type theorique (`a droite) des
distributions des dissemblances entre les stimuli, pour lensemble des individus. En abscisse :
le numero de la paire, en ordonnee : la valeur de la dissemblance
linterieur la position de la mediane, correspondant au deuxi`eme quartile. La bote est completee par des
(( moustaches )) correspondant aux valeurs adjacentes :
adjacente superieure, c.-`a-d. la plus grande valeur inferieure a` Q3
: Q3 Q1 ;
adjacente inferieure, c.-`a-d. la plus petite valeur superieure a` Q1
: Q 3 Q1 .
Les valeurs exterieures representees par des + sont celles qui sortent des (( moustaches )). Enfin, la bote
comporte des entailles representant lintervalle de confiance a` 95% de la mediane. Un tel graphique facilite la comparaison de plusieurs distributions ; en particulier, il est plus aise de comparer des diagrammes
en botes que de comparer des histogrammes.
Nous avons utilise des diagrammes en botes pour comparer les distributions des valeurs de dissemblances de chaque paire sur tous les individus.
+ 1 5(
1 5(
133
Valeur de la dissemblance
80
70
60
50
40
30
20
10
0
1
35
Mdiane
7
8
9
Numro de la paire
10
11
12
13
14
15
45
60
55
80
134
Valeur de la dissemblance
80
70
60
50
40
30
20
10
0
1
35
Mdiane
7
8
9
Numro de la paire
10
11
12
13
14
15
45
60
55
80
lautre sens. Les dissemblances percues sont de lordre de 60. Pour ces paires, le changement e nergetique
seffectue principalement sur OD, et les differences sont plus importantes que lorsquil seffectue sur
Rev. Comme dans les series precedentes, lorsque le niveau de Rev devient trop faible, les dissemblances
sont moins audibles. La dissemblance au sein de la paire 4 est plus faible quau sein de la paire 11
car les differences sur OD sont plus faibles et en partie compensees par Rev ; on peut tenir le meme
raisonnement pour les paires 3 et 8.
Les paires 8 f1B;3Ag et 11 f1A;3Bg correspondent a` un changement de deux lignes et deux colonnes en diagonale. Il y a changement denergie totale de deux graduations, mais separement sur OD et
Rev. Les distances percues sont les plus fortes, de lordre de 80. Les dissemblances sont plus importantes
que pour les paires 7 et 12. La dissemblance au sein de la paire 11 est plus importante quau sein de la
paire 8 car les changements ont lieu sur OD.
En conclusion, on peut dire quil est dej`a possible de construire un estimateur de la dissemblance
globale, en ajoutant separement les modifications spectrales apportees au son direct et a` la reverberation,
` ce stade de notre analyse,
plutot quen tenant compte uniquement de la modification spectrale globale. A
il semble que le contenu spectral du son direct et celui de la reverberation doivent e tre consideres comme
deux variables independantes ; toutefois, il semble necessaire dintroduire une ponderation privilegiant
le contenu spectral du son direct. Cette hypoth`ese sera confirmee par lanalyse multidimensionnelle.
C ONDITION R E FE RENCE (cf. fig. III.9)
Les dissemblances entre les paires 1, 6 et 15 sont leg`erement reduite par rapport a` la condition
precedente ; ceci peut sexpliquer par la constance du temps de reverberation. La dissemblance de la
paire 12 est plus faible que dans la condition Habitacle car le niveau de Rev est plus e leve en HF.
Le changement de spectre total influe directement notre perception, mais pour un meme changement
135
Valeur de la dissemblance
80
70
60
50
40
30
20
10
0
1
35
Mdiane
7
8
9
Numro de la paire
10
11
12
13
14
15
45
60
55
80
de spectre total, notre perception est gouvernee par lenergie du son direct. Entre les paires 7, 12, 8 et 11,
nous effectuons un changement de spectre total de deux graduations : les dissemblances sont identiques
entre les paires 7 et 12 (la modification e nergetique est la meme), mais elles sont plus importantes pour
la paire 8, et surtout pour la paire 11. Entre les paires 8 et 12, les dissemblances sont globalement
identiques : que lon effectue un changement de spectre total reparti sur OD et Rev, ou uniquement sur
Rev, les influences sont faibles. Par contre, entre les paires 7 et 11, les differences sont importantes : on
percoit plus facilement les changements sur OD. Ajoutons que ce phenom`ene samplifie lorsque le temps
de reverberation nest plus constant.
Les observations sont donc globalement identiques a` la condition Habitacle, a` quelques nuances
pr`es. Aussi peut-on conclure que les variations frequentielles du temps de reverberation introduites pour
la condition Habitacle nont pas modifie sensiblement la structure perceptive du test, en depit de valeurs
objectives differentes de la condition Reference.
C ONDITION F RONTALE (cf. fig. III.10)
Les performances de discrimination sont nettement reduites par rapport aux conditions precedentes
et la structure perceptive est modifiee. Les changements de spectre sur OD et Rev, sous forme dechange
(c.-`a-d. les paires 1, 6 et 15), ne donnent plus lieu a` une perception differente ; ceci demontre limportance de laspect spatial de la reverberation. On constate aussi une inversion de leffet preferentiel de
OD par rapport a` Rev : les dissemblances au sein des paires 3 et 10 sont superieures a` celles au sein des
paires 4 et 13 ; il en est de meme pour la paire 8 par rapport a` la paire 11. Ceci peut sexpliquer par le
fait que si la reverberation est diffusee par des canaux de sortie non correles, ce qui est le cas dans les
conditions Reference et Habitacle, les colorations e ventuelles sont attenuees. Inversement, ces colorations sont amplifiees si la reverberation est diffusee par un seul canal.
136
TABLEAU III.10 Param`etres de decision concernant le choix du nombre de dimensions du mod`ele danalyse
INDSCAL : stress, et variance expliquee
ndim
1
2
3
Condition Habitacle
stress
VE
0;40
0;26
0;17
0;65
0;13
0;66
Condition Frontale
stress
VE
0;32
0;52
0;18
0;65
0;14
0;65
Condition Reference
stress
VE
0;40
0;29
0;17
0;62
0;12
0;63
En conclusion, cest donc grace a` la distribution spatiale que les sujets ont pu discriminer les differences spectrales des contributions directe et reverberees dans les conditions Habitacle et Reference, et ce
en depit dun support temporel tr`es court. Lorsque les contributions directe et reverberee sont localisees
de mani`ere identique la perception du timbre devient globale.
137
Condition Habitacle
Condition Habitacle
CC
DR
RL
3A
FC
AB
VL
EB
LL
PP
RM
RB
OW
GB
BN
LC
2A
3B
Dimension 2
Dimension 2
GV
OL
1A
2B
1B
1
2
2
Dimension 1
0
Dimension 1
Dimension 2
dir/rev [HF]
OD [BF]
OD [HF]
dir/rev [BF]
tot [HF]
Rev [HF]
Dimension 1
138
Sur le plan stimuli (cf. fig. III.11(b)), la variance expliquee totale est de 0,65 ; la variance expliquee
par chacun des axes represente respectivement 49% et 51% de la variance expliquee totale. Celle-ci, notee
R2 , est calculee comme e tant le carre de la moyenne des correlations sur lensemble des sujets entre les
produits scalaires initiaux et ceux estimes par le mod`ele (cf. B.2.3) ; le pourcentage de variance pour
chaque axe est estime en ponderant la variance expliquee totale R2 par le poids normalise moyen que les
sujets ont accorde a` cet axe.
Les segments de droite representant les modifications du rapport entre la densite spectrale denergie du son direct et celle de la reverberation, a` e nergie totale constante (c.-`a-d. les segments [1A-1B],
[2A-2B] et [3A-3B]) sont parall`eles entre eux, et orientes approximativement le long de la deuxi`eme
diagonale. Les segments de droite representant les modifications de lenergie totale, alors que le rapport
entre la densite spectrale denergie du son direct et celle de la reverberation reste identique (c.-`a-d. les
segments [1A-2A-3A] et [1B-2B-3B]) sont e galement parall`eles entre eux, et orientes approximativement le long de la premi`ere diagonale. Ces deux ensembles de segments sont orthogonaux entre eux ;
les deux crit`eres objectifs sont donc independants dans le plan. Ces deux crit`eres e tant objectivement
? e gale a` 0,04 permet de conclure a`
non correles dans la construction des configurations, la valeur de S12
?
lindependance des facteurs perceptifs correspondants (S12 mesure la quantite dinformation conservee
par les axes 1 et 2 par rapport a` la quantite dinformation injectee a priori par les valeurs des crit`eres des
configurations).
La meme conclusion peut e tre tiree pour les segments [1A-3B] et [1B-3A] qui representent respectivement les variations de la densite spectrale denergie du son direct a` e nergie reverberee constante, et
les variations de la densite spectrale denergie de la reverberation a` e nergie directe constante. On peut
ajouter que ces segments de droite sont approximativement parall`eles aux axes fournis par lanalyse.
En accord avec les valeurs brutes de dissemblances et un param`etre interne de lanalyse INDSCAL
(en loccurence la constante ajoutee aux dissemblances pour leur faire respecter linegalite triangulaire),
il est possible destimer la limite inferieure de perception dune difference ; celle-ci est represente par un
cercle centre sur le stimulus 1A. Grace a` ce seuil, il est aise de constater que tous les stimuli peuvent
e tre discrimines a` lexception de ceux faisant partie des paires f1A;2Ag, f2A;3Ag, f1B;2Bg et f2B;3Bg.
Le plan crit`eres (cf. fig. III.11(c)) permet de visualiser la pertinence des crit`eres objectifs dans le
domaine perceptif. Plus la norme dun vecteur est grande, plus il est globalement correle avec le plan
stimuli, et plus sa direction se rapproche de celle dun axe, plus il traduit objectivement leffet perceptif
caracterise par cet axe. Les vecteurs dessines dans ce plan ont comme composantes les correlations entre
les valeurs des crit`eres objectifs et les coordonnees des configurations sur les differents axes.
Les axes fournis par lanalyse sont donc tr`es fortement correles a` la densite spectrale denergie du
son direct, et a` celle de la reverberation. Les premi`eres diagonales sont fortement correles a` la densite
spectrale de lenergie totale et a` celle du rapport e nergetique entre le son direct et la reverberation. Les
positions respectives des crit`eres confirment que les variations frequentielles de lenergie du son direct
sont non correlees avec les variations frequentielles de lenergie de la reverberation, et que les variations
frequentielles de lenergie totale sont non correlees avec les variations frequentielles du rapport e nergetique entre le son direct et la reverberation.
Une analyse en composantes principales (cf. B.2.1) a e te effectuee sur les coordonnees de chacun
des stimuli dans le plan stimuli issu de lanalyse. Elle permet de detecter laxe supportant le maximum
de variance : il est a` +9o par rapport a` laxe 1, et rassemble 57% de la variance des coordonnees. On peut
donc effectuer une rotation de -9o de la configuration des stimuli dans le plan pour obtenir une variance
maximale le long du premier axe.
` ce stade, aucune conclusion ne peut e tre donnee quant au lien entre les crit`eres objectifs et les
A
facteurs perceptifs. Comme on peut effectuer une rotation des stimuli dans le plan, on peut choisir de les
expliquer aussi bien par le couple fe nergie du son direct ; e nergie de la reverberationg que par le couple
139
Condition Rfrence
Condition Rfrence
DR
RM
PP
RL
OW
CC
LL
AB
BN
GB
FC
VL
3A
2A
EBLC
Dimension 2
GV
OL
Dimension 2
RB
1A
0
3B
2B
1B
2
2
Dimension 1
0
Dimension 1
Rev [BF]
OD [HF]
Dimension 2
tot [BF]
tot [HF]
OD [BF]
Rev [HF]
dir/rev [BF]
Dimension 1
fe nergie totale ; rapport e nergetique entre le son direct et la reverberationg. On ne peut pas determiner
les axes explicatifs.
Comme la distance entre les stimuli 1A et 3B est superieure a` la distance entre les stimuli 1B et
3A, cette condition Habitacle montre que, pour les stimuli consideres, nous sommes plus sensibles aux
changements du contenu spectral du son direct qu`a ceux de la reverberation. Cependant lexistence des
deux dimensions et la comparaison des distances avec lestimation du seuil de discrimination montre
que les sujets ont opere, de mani`ere sous-jacente, une distinction entre les modifications spectrales de la
contribution directe et de la contribution reverberee.
C ONDITION R E FE RENCE
Les conclusions sont en tout point identiques a` celles de la condition Habitacle. Seul le plan crit`eres
se distingue (cf. fig. III.12(c)) : bien que les crit`eres objectifs soient toujours fortement correles avec le
plan stimuli, les axes issus de lanalyse ne sont plus correles avec lun ou lautre des crit`eres objectifs. Par
ailleurs on observe que les discriminations des paires jouant sur lechange des timbres entre les contributions directes et reverberees sont un peu moins aisees que dans la condition Habitacle. On peut conclure
que les variations frequentielles du temps de reverberation, telles que rencontrees dans un habitacle de
vehicule, vont donc faciliter la discrimination entre les contenus frequentiels direct et reverbere.
140
Condition Frontale
Condition Frontale
BN
GB
RMDR
PPRL
VL
GV
CC
OW
FC
LC
EB
LL
1
RB
AB
1A
2A
3A
Dimension 2
Dimension 2
OL
1B
2B
3B
2
2
Dimension 1
0
Dimension 1
dir/rev [HF]
Rev [BF]
Dimension 2
tot [HF]
tot [BF]
Rev [HF]
dir/rev [BF]
OD [BF]
Dimension 1
141
C ONDITION F RONTALE
Sur le plan sujets (cf. fig. III.13(a)), on remarque que les sujets sont un peu moins regroupes que
dans la condition Habitacle, mais la correlation entre les poids des differents sujets sur les axes est e gale
a` 0,94, valeur qui permet toujours denvisager une rotation de la configuration des stimuli dans le plan
corresondant.
Sur le plan stimuli (cf. fig. III.13(b)), la variance expliquee totale est de 0,65 ; la variance expliquee
par chacun des axes represente respectivement 67% et 33% de la variance expliquee totale.
La configuration des stimuli dans le plan est globalement identique a` la condition Habitacle, avec
? voisine
une preponderance plus forte des changements importants de lenergie totale. La valeur de S12
de 0 confirme, comme dans la condition Habitacle, lindependance des facteurs perceptifs decrits par les
axes du plan. Mais nous devons remarquer dans cette condition une influence tr`es forte de la constante
additive (cf. lalgorithme de INDSCAL ) : alors que sur le diagramme en botes, seules les dissemblances
entre les paires f1A;3Ag, f1B;3Bg, f1B;3Ag et f1A;3Bg ont reellement une importance, la perception
des changements dans le rapport entre lenergie du son direct et lenergie de la reverberation e tant la plus
importante, elle conduit a` construire obligatoirement une configuration a` deux dimensions.
Le respect de linegalite triangulaire impose daugmenter (( artificiellement )) les distances entre les
paires f1A;1Bg, f2A;2Bg, f3A;3Bg et f1A;2Ag, f2A;3Ag, f1B;2Bg, f2B;3Bg. La valeur du seuil de
perception de la difference nous montre quil nest plus possible denvisager une discrimination au sein
de ces paires, correspondant aux modifications de timbre operees soit sur le son direct soit sur la reverberation.
Sur le plan crit`eres (cf. fig. III.13(c)), on remarque, comme dans la condition Habitacle, que tous
les crit`eres sont fortement correles avec le plan stimuli. Le premier axe de lanalyse est correle fortement avec lenergie totale, tandis que le second est correle au rapport direct sur reverbere. Cependant,
compte tenu de la remarque precedente, cette deuxi`eme dimension a peu de signification puisquelle ne
sexplique que par lajout artificiel de la constante additive.
Une analyse en composantes principales a e galement e te effectuee sur les coordonnees de chacun
des stimuli dans le plan issu de lanalyse. Laxe supportant le maximum de variance est le premier axe
issu de lanalyse ; il rassemble cette fois 74% de la variance totale des stimuli.
Si on suppose que, comme dans la condition Habitacle, tous les sujets sont regroupes dans le plan
sujets, les configurations du plan stimuli peuvent tourner ; on ne peut donc pas determiner les axes preferes, qui seraient l`a o`u les sujets entendent des differences. Pour pouvoir le faire, il faudrait trouver
deux directions dans lesquelles certains sujets vont dilater le plan stimuli, et dautres non ; ces deux axes
seraient donc significatifs.
Mais comme les stimuli des deux conditions sont construits de mani`ere identique, on peut assimiler
cette nouvelle condition a` un (( deuxi`eme sujet )) sur lequel on aurait effectue une analyse MDSCAL . En
regardant les variances des configurations, on sapercoit que, dans cette condition, il y a forte dilatation
du premier axe issu de lanalyse ; ce premier axe est fortement preponderant, alors que le deuxi`eme est
beaucoup moins important : la condition Frontale est fortement influencee par lenergie totale, alors que
limportance du rapport e nergetique entre le son direct et la reverberation a chute. Cela permet de choisir
un couple de crit`eres plutot quun autre : on choisit dexpliquer le plan stimuli par le couple de crit`eres
independants fe nergie totale ; rapport e nergetique entre le son direct et la reverberationg.
Pour la condition Frontale, on conclut a` une indissolubilite entre la densite spectrale de lenergie
du son direct et celle de la reverberation (et non masquage car dans ce cas on aurait repere une forte
influence du son direct) : on nentend plus les variations de timbre du son direct, ni celles de la reverbe-
142
T1
T3
1
1B
2B
3B
Dimension 2
Dimension 2
T2
0
3A
1A
2A
2
2
Dimension 1
0
Dimension 1
F IGURE III.14 Resultats de lanalyse INDSCAL effectuee a` partir des resultats de lanalyse de chacun des
trois conditions
ration, mais uniquement celles de lenergie totale. En outre, ce test confirme que laspect spatial de la
reverberation fait partie integrante de celle-ci.
Remarque generale concernant les trois tests : les sujets e tant fortement regroupes dans le plan sujets,
avec des valeurs de correlation superieures a` 0,90, on aurait pu se contenter dune analyse MDSCAL
effectuee a` partir dune moyenne des matrices de dissemblances de tous les sujets. Il sav`ere que les
resultats sont en tout point identiques, ce qui confirme le fait que les sujets ont tous utilise avec la meme
force les dimensions perceptives sous-jacentes pour effectuer leur jugement.
A NALYSE
MENTAIRE
COMPL E
Pour chaque condition, les distances entre stimuli ont e te calculees a` partir des coordonnees des
stimuli fournies par lanalyse INDSCAL , et ont e te assimilees a` des dissemblances recoltees par un test
decoute, avant detre injectees dans une analyse INDSCAL , comme si lon disposait de trois sujets. Le
plan stimuli calcule (cf. fig. III.14(a)) est semblable a` celui de chacune des trois conditions individuelles ;
il represente lespace commun aux trois conditions. La variance expliquee totale est de 0,95 ; la variance
expliquee par chacun des axes represente respectivement 47% et 53% de la variance expliquee totale. Cet
espace commun est oriente selon deux axes representant la densite spectrale de lenergie totale et celle
du rapport de la densite spectrale de lenergie du son direct et de celle de la reverberation. Il nous semble
donc plus opportun dexpliquer les facteurs perceptifs par le couple de crit`eres objectifs fe nergie totale ;
rapport e nergetique entre le son direct et la reverberationg.
Le plan sujets (cf. fig. III.14(b)) montre que lespace de la condition Frontale est, par rapport aux
deux autres conditions, plus dilate vers la densite spectrale de lenergie totale, ce qui confirme la preponderance de ce crit`ere dans la condition Frontale.
143
spatial de la reverberation. Pour chacune de ces configurations, six stimuli ont e te comparees par paire ;
les stimuli ont e te construits de mani`ere identique pour chaque condition : variations frequentielles de
lenergie totale, du son direct et/ou de la reverberation.
La condition Habitacle (Tr plus e leve dans les basses frequences, reverberation diffuse) montre que,
dans les conditions decoute representees par les six stimuli testes, notre perception peut e tre expliquee
a` laide de deux facteurs perceptifs representant deux crit`eres objectifs independants, deux entites sur
lesquelles on est parfaitement capable de discerner les differences de spectre : lenergie totale, et le rapport e nergetique entre le son direct et la reverberation. En outre, notre perception est plutot gouvernee
par le son direct ; nous sommes plus sensible a` un changement frequentiel sur le son direct, quau meme
changement sur la reverberation.
La condition Reference (Tr identique dans les trois bandes, reverberation diffuse) confirme les impressions de la condition Habitacle, mais les differences entre les stimuli sont plus subtiles, car le contenu
frequentiel de la reverberation nest pas ((soutenu)) par les variations du Tr.
La condition Frontale (Tr different dans les trois bandes, identique a` la condition Habitacle, reverberation frontale) montre que nous ne sommes plus en mesure de distinguer les modifications frequentielles
effectuees soit sur le son direct soit sur la reverberation : il y a fusion (mais pas masquage) entre les deux.
Nous ne percevons plus que les changements de lenergie totale. La distinction entre lenergie du son direct et celle de la reverberation, mise en e vidence lors de la condition Habitacle, sappuie donc sur la
distribution spatiale.
Il ressort de cette e tude que, malgre la duree tr`es courte de leffet dhabitacle, notre perception distingue la repartition temps-frequence de lenergie, et nest pas uniquement sensible au contenu frequentiel global ; cette distinction repose sur laspect spatial de la reverberation. Dans loptique de traitements
de correction frequentielle, il est donc souhaitable degaliser separement le son direct et leffet de lhabitacle. Si une seule e galisation est possible, pour des raisons de cout de calcul par exemple, il est plus
pertinent de la realiser sur lentite adequate (son direct ou effet dhabitacle) pour corriger un defaut, que
de la realiser globalement sur lenergie totale.
144
Etant
donnee la configuration du dispositif e lectroacoustique de restitution sonore par rapport au
conducteur ou au passager avant, nous considerons que lauditeur est plus sensible au son direct provenant des haut-parleurs avant qu`a celui provenant des haut-parleurs arri`ere (en fait, le son direct est cense
venir de lavant). Nous cherchons donc a` inverser le spectre du son direct provenant des haut-parleurs
avant, et celui de la reverberation provenant des haut-parleurs arri`ere.
Pour linversion du spectre du son direct, la correction a` appliquer sur les haut-parleurs avant, notee
d, secrit
d
constante ,
(III.1)
OD =
avec OD la densite denergie du son direct mesure sur les haut-parleurs avant ; la correction est realisee
dans le domaine frequentiel, apr`es avoir pris les precautions qui simposent (voir ci-dessous).
Nous voulons aussi inverser le spectre de la reverberation (ou plutot de leffet dhabitacle). Heureusement, les haut-parleurs arri`ere nous offrent un degre de liberte supplementaire qui va nous permettre
de mener legalisation du champ diffus. Il faut cependant tenir compte de la contribution de lensemble
des haut-parleurs, en particulier ceux de lavant auxquels on vient dapporter une correction. En dautres
termes, la difficulte provient du fait que le son direct e mis par les haut-parleurs avant (( alimente )) e galement la reverberation. En appliquant le principe selon lequel on peut ajouter de lenergie, mais pas en
enlever, la correction a` appliquer sur les haut-parleurs arri`ere, notee r , secrit
d Revavant
+ r Revarriere = constante ,
(III.2)
avec Rev la densite denergie de la reverberation ; elle est e galement realisee dans le domaine frequentiel.
La densite spectrale de lenergie du son direct e quivalent et celle de la reverberation sont deduites
de lanalyse temps-frequence des reponses impulsionnelles acoustiques de lhabitacle, mesurees entre
chaque haut-parleur et un microphone omnidirectionnel place approximativement au centre de la tete de
lauditeur (cf. I.5.4). Plus precisement, le calcul est effectue grace au relief de decroissance integre :
la densite spectrale de lenergie de la reverberation est (( lue )) sur le relief de decroissance integre,
5 ms apr`es larrivee du son direct (cest donc lenergie restant dans la reponse impulsionnelle, au
temps considere) ;
la densite spectrale du son direct e quivalent est alors calculee comme e tant la difference entre la
densite spectrale de lenergie totale et la densite spectrale de lenergie de la reverberation precedemment calculee.
III.2.9.1
Choisissons dans un premier temps une correction calculee pour le conducteur, selon le schema
de la figure III.15. Linversion des spectres est effectuee dans le domaine spectral, apr`es avoir pris les
precautions e lementaires suivantes (cf. II.3.2.2) :
1. Effectuer un lissage sur une e chelle frequentielle logarithmique, c.-`a-d. a` Q constant, en accord
avec les proprietes de laudition.
2. Limiter la dynamique, afin deviter les resonances ou anti-resonances trop marquees.
3. Limiter letendue frequentielle, afin deviter lamplification erronee des tr`es basses ou tr`es hautes
frequences.
Une fois linversion effectuee dans le domaine frequentiel, se pose le probl`eme de la modelisation soit
par un filtre non recursif a` reponse impulsionnelle finie (RIF), soit par un filtre recursif a` reponse impulsionnelle infinie (RII).
Dans le cas de la synth`ese dun filtre RIF, la methode la plus employee est la methode des fenetres
(cf. C.1.6). Elle fournit un filtre stable (puisque sans pole), et assez (( fouille )) pour peu que le nombre
de coefficients soit assez important.
145
Canal droit
Son direct1
Son direct1
Rverbration1
Rverbration1
Hautparleur W, micro O
Hautparleur Y, micro O
40
40
OD
OD liss
OD liss invers
OD liss invers modlis
20
10
10
dB
dB
20
10
10
20
20
30
30
40
50
10
8
6
4
2
0
2
4
6
8
10
50
100
200
400
800
1.5k
3k
5k
10k
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
OD
OD liss
OD liss invers
OD liss invers modlis
30
20k
40
50
100
200
400
20k
10
8
6
4
2
0
2
4
6
8
10
50
100
200
400
dB
dB
30
800
1.5k
3k
5k
10k
20k
800
1.5k
Frquence en Hz
3k
5k
10k
20k
F IGURE III.16 Inversion du son direct e quivalent provenant des deux haut-parleurs avant ; comparaison
entre une modelisation du filtre inverse sous forme RIF et sous forme RII dordre 16
En revanche, elle necessite lutilisation dune technique de filtrage efficace (cf. C.1.5), car le cout
de calcul est tr`es e leve.
Dans le cas de la synth`ese dun filtre RII, la methode la plus efficace que nous ayons testee est celle
de Steiglitz-MacBride (cf. C.1.7). Lalgorithme ne converge pas toujours, et le filtre genere nest pas
necessairement stable, mais lerreur de modelisation reste generalement tr`es faible. Lordre du mod`ele
nexc`ede jamais 20, et il est le plus souvent de 12 ou 16.
Le cout de calcul de loperation de filtrage est de N
operations par e chantillons, o`u N est
lordre du filtre.
2 +1
En tout e tat de cause, letape dinversion et de modelisation RIF ou RII recquiert un certain nombre
dajustements qui ne peuvent e tre automatises.
La figure III.16 presente les resultats de linversion de la densite spectrale de puissance du son
direct e quivalent, calcule a` partir dune analyse temps-frequence des reponses impulsionnelles des hautparleurs avant-gauche et avant-droit dans un vehicule de type Safrane. Les filtres inverses sont appliques
uniquement aux haut-parleurs avant.
La figure III.17 presente les resultats de linversion de la densite spectrale de puissance de la reverberation, calcule a` partir dune analyse temps-frequence des reponses impulsionnelles des haut-parleurs
146
Hautparleur X, micro O
Hautparleur Z, micro O
30
30
20
20
10
10
0
dB
dB
0
10
20
40
dB
50
50
10
8
6
4
2
0
2
4
6
8
10
50
20
Rev
Rev liss
Rev liss invers
PseudoRev liss invers
PseudoRev liss invers modlis
100
200
400
30
40
800
1.5k
3k
5k
10k
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
Rev
Rev liss
Rev liss invers
PseudoRev liss invers
PseudoRev liss invers modlis
20k
50
50
100
200
400
20k
10
8
6
4
2
0
2
4
6
8
10
50
100
200
400
dB
30
10
800
1.5k
3k
5k
10k
20k
800
1.5k
Frquence en Hz
3k
5k
10k
20k
F IGURE III.17 Inversion globale de leffet dhabitacle, realise sur les haut-parleurs arri`ere ; comparaison
entre une modelisation du filtre inverse sous forme RIF et sous forme RII dordre 16
arri`ere-gauche et arri`ere-droit dans le meme vehicule. Les filtres inverses sont calcules de la mani`ere
indiquee a` lequation (III.2) ; ils sont appliques uniquement aux haut-parleurs arri`ere.
On peut remarquer sur ces deux figures que letape de modelisation par un filtre recursif est hautement souhaitable, dans la mesure o`u le cout de calcul est tr`es faible compare a` celui dun filtre transverse, et lerreur de modelisation est ici inferieure a` 2 dB. Le nombre doperations par e chantillons est
de 33 multiplications-accumulations par filtre inverse dordre 16, soit 132 pour les quatre filtres.
Ces filtres ont e te implantes dans le logiciel Max/MSP, et un test informel a e te realise en aveugle
dans le vehicule en question : de nombreux auditeurs, assis en position conducteur, ont e coute le syst`eme
audio de base et le syst`eme audio e galise par les filtres precedemment calcules ; il e tait possible de
commuter instantanement entre le syst`eme audio brut et le syst`eme audio e galise. Differentes signaux
sonores ont e te utilises : musique pop, musique classique, et dialogue entre un homme et une femme.
Tous les sujets ayant e coute les deux configurations se sont prononces en faveur du syst`eme corrige.
Neanmoins, nous devons formuler plusieurs remarques. Dabord, les param`etres de reglage de linversion des filtres sont delicats a` regler, en particulier il faut veiller a` ne pas pousser le processus trop
loin en frequence (14 kHz sur lavant et 10 kHz sur larri`ere), afin de ne pas trop remonter le niveau
des aigus qui deviennent alors tr`es agressifs ; de plus, la bande passante des haut-parleurs arri`ere est, par
construction, bien plus faible que celle des haut-parleurs avant, et augmenter de facon excessive le niveau
des frequences e levees conduit inevitablement a` un effet de distorsion.
Ensuite, nous avons constate quil e tait souhaitable de diminuer le niveau global des haut-parleurs
arri`ere, sous peine de detruire limage sonore generale ; en effet, la presence de ces haut-parleurs, une
fois la correction implantee, devient tr`es importante. Mais dans ce cas, la correction du champ diffus
nest plus exacte.
Ce qui nous am`ene a` penser que, comme nous avons affecte un role particulier aux haut-parleurs
avant et arri`ere, il faut maintenir une coherence dans cette demarche. En particulier, le role des hautparleurs arri`ere comme haut-parleurs deffet (( surround )) se doit detre confirme en leur ajoutant un
retard et une certaine decorrelation.
147
Hautparleur Y, micro O
dB
dB
Hautparleur W, micro O
10
8
6
4
2
0
2
4
6
8
10
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
10
8
6
4
2
0
2
4
6
8
10
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
5k
10k
20k
(a) Residu de linversion du son direct e quivalent provenant des haut-parleurs avant
Hautparleur Z, micro O
dB
dB
Hautparleur X, micro O
10
8
6
4
2
0
2
4
6
8
10
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
10
8
6
4
2
0
2
4
6
8
10
50
100
200
400
800
1.5k
Frquence en Hz
3k
III.2.9.2
Il convient enfin de se demander quelle est linfluence sur les autres passagers de la correction calculee pour le conducteur. On sappercoit que la position du microphone de mesure est tr`es sensible,
c.-`a-d. quun deplacement dune dizaine de centim`etres est largement suffisant pour modifier radicalement le spectre e nergetique total. Cette modification vient principalement de linfluence sur les premi`eres
millisecondes de la propagation (que nous appelons son direct e quivalent), la reverberation e tant moins
touchee ; de plus, les basses frequences sont plus affectees que les hautes frequences, car le taux de recouvrement modal est assez faible en basses frequences (cf. I.4.3). En ce qui concerne la reverberation,
cest plutot le contraire : les basses frequences ont globalement la meme allure, tandis que les hautes frequences (superieures a` la frequence de Schroeder) conservent leur caract`ere aleatoire ; ceci est conforme
au mod`ele statistique developpe au I.4.2.2, et a e te verifie par Baskind [13].
Nous avons donc utilise la correction precedente, optimisee pour le conducteur, et nous avons calcule
son impact pour un auditeur a` la position du passager avant (cf. fig. III.18). Il apparat que le contenu
spectral est loin detre celui recherche ; a` laudition, les effets peuvent e tre assez nefastes. Il ne nous
semble pas opportun dutiliser des filtres de corrections en frequence autres que ceux optimises pour une
place determinee. On peut envisager le calcul dune (( fonction de transfert moyenne )) a` partir de celles
calculees pour un ensemble de places, et tenter doptimiser les filtres inverses pour quils compensent les
defauts les plus importants mesures pour cet ensemble de places. Mais il semble plus efficace de mettre
en uvre des techniques doptimisation telles que celles decrites au III.3.5.3. Lidee consiste a` utiliser
un algorithme adaptatif degalisation multipoints avec ponderations, dans lequel limportance de lerreur
a` la position decoute primordiale est accentuee ; la degradation de legalisation aux autres points de
mesure peut e tre maintenue dans des limites acceptables. Une application de ce principe a` legalisation
en basses frequences est donnee dans [69, 246].
Cependant, dapr`es les informations en notre possession, la presence dune seule personne a` bord
dun vehicule represente pr`es de 90 % de son utilisation. Dans ces conditions, la mise en uvre de tels
algorithmes a` la fois complexes et couteux en calcul ne semble pas une necessite absolue.
148
sous forme de filtres a` phase minimale ; de plus, pour avoir un cout de calcul le plus faible possible, nous
avons choisi une structure recursive.
Il convient e galement de chercher a` corriger limage sonore. Nous distinguons dans cette partie la
spatialisation delivree par le signal radio lui-meme de celle liee aux conditions de reproduction.
La premi`ere correspond aux effets stereophoniques de temps et dintensite qui permettent de localiser lateralement et en profondeur une source sonore entre deux haut-parleurs places a` 30o par rapport a`
lauditeur. Ces effets sont soit inherents au syst`eme de prise de son, soit ajoutes lors de letape de postproduction [198, 274] ; ils peuvent e tre varies suivant le style de musique, mais, dans le cas dun signal
de parole, il est toujours fait en sorte que la source soit percue de mani`ere frontale.
La seconde correspond aux effets induits par la position des haut-parleurs par rapport a` lauditeur ;
or justement, dans un habitacle automobile, le champ sonore est gravement affecte par la position tr`es
particuli`ere du syst`eme e lectroacoustique par rapport a` lauditeur, geometrie pour le moins e loignee du
triangle e quilateral de la stereophonie classique. Les informations stereophoniques contenues dans le signal radio sont donc degradees, et il convient de chercher a` les restaurer.
Dans un habitacle de vehicule, la presence de surfaces reflechissantes telles que les vitres fait e merger de fortes reflexions, conduisant a` deteriorer encore un peu plus limage sonore. Pour ces raisons, une
e galisation compl`ete du syst`eme audio dun vehicule ne comprend pas seulement la mise a` plat des reponses en frequence, mais aussi des modifications temporelles. Celles-ci sont necessaires pour modifier
la direction apparente de provenance des sources sonores.
Pour localiser une source sonore, le syst`eme auditif humain est sensible a` la fois aux differences
de temps darrivee des ondes sonores (en basses frequences), aux differences de niveaux (en moyennes
frequences), et aux differences spectrales (en hautes frequences) [54, chap. 1] [20].
Une correction temporelle, associee a` une correction de niveau, permet bien entendu daligner les
temps darrivee et les intensites des ondes sonores provenant des sources localisees a` des distances differentes (meme si cela nest theoriquement valable quen champ libre). Mais des filtres numeriques peuvent
e galement e tre employes pour realiser un deplacement virtuel des sources sonores physiques (c.-`a-d. les
haut-parleurs du vehicule), et donner limpression a` un auditeur decouter une paire de haut-parleurs
places dans une position symetrique par rapport au plan median de sa tete, restaurant ainsi le triangle
e quilateral parfait de lecoute stereophonique (cf. Nelson [233, 234, 236]).
Lobjectif de cette e tude est cependant plus large, puisque nous avons pour ambition de substituer a`
leffet dhabitacle un effet de salle nettement plus approprie a` lecoute de la musique, par exemple un bon
studio decoute voire une salle de concert ; ce qui veut dire que des reflections discr`etes et une reverberation doivent e tre recree es, pour e tre en accord avec limpression spatiale recherchee. Si la reverberation
desiree est plus importante que leffet dhabitacle, il nest theoriquement pas necessaire dannuler leffet
dhabitacle, qui sera masque par la reverberation cree e ; mais si les conditions decoute desirees sont
plus proches de celle dun studio decoute quasiment anechoque, ne pas annuler leffet dhabitacle peut
e tre a` lorigine dune perception subjective tr`es differente de leffet recherche, principalement en regime
transitoire.
` la difference de Farina [78, 79, 82], nous avons choisi de separer dune part letape de modification
A
virtuelle de la position des sources sonores, et dautre part letape dajout de reverberation ; de cette
mani`ere, nous pouvons garder un controle sur chacun de ces processus, c.-`a-d. linversion de la matrice
de transfert e lectroacoustique de lhabitacle qui comprend lannulation de la reverberation, et le reglage
perceptif de la reverberation qui sera effectue grace au Spatialisateur ( IRCAM ) (cf. E.1.1). Mais
comme Farina, et a` la difference de Nelson, nous gardons bien separees les modifications temporelles et
frequentielles, ce qui permet, entre autres, de minimiser la longueur des filtres de correction.
149
F IGURE III.19 Interface de traitements en temps-reel realisee pour optimiser le reglage des valeurs des
retards a` appliquer aux signaux alimentant les differents haut-parleurs
150
tion a` accorder une preference superieure au syst`eme modifie, meme avec un signal de musique. Mais
si cette technique permet bien de simuler des haut-parleurs situes a` e gale distance de lauditeur, elle ne
permet pas de placer avec precision une source sonore virtuelle dans lhabitacle.
Nous avons donc pousse plus loin le concept de recentrage de limage sonore, et nous avons utilise
la technique du PanPot binaural-transaural dans le but de synthetiser deux sources virtuelles a` 30o , ce
qui permet de recreer les conditions decoute ideales de la stereophonie classique.
Nous avons dabord applique cette technique dans le cas simple dune reproduction avec un syst`eme e lectroacoustique non centre situe en chambre anechoque, c.-`a-d. sans effet de salle. Nous verrons
que labsence de symetrie du syst`eme de reproduction necessite de mener un calcul dinversion compl`ete (module et phase) de reponses impulsionnelles binaurales ; or ce probl`eme nadmet pas de solution
mathematique exacte, car de tels filtres inverses sont par definition instables (ou stables, mais infinis et
non causaux) ! Nous e tudierons principalement la technique doptimisation au sens des moindres carres,
et nous nous interesserons a` differentes techniques de regularisation : regularisation par limitation de la
dynamique du module, par filtrage, par troncature ou par amortissement de la decomposition en valeurs
singuli`eres des filtres directs.
Puis nous avons applique ce principe dans le cas dune restitution dans un habitacle automobile.
Cela pose une difficulte supplementaire, car la technique du PanPot binaural-transaural est theoriquement
e tudiee pour e tre e coutee en chambre anechoque. Et meme si la reverberation naturelle dun habitacle
automobile peut e tre consideree comme faible, elle nest pas compl`etement absente, et la presence de
premi`eres reflexions extremement prononcees nuit considerablement a` la qualite de la restitution. Il faut
donc inverser (annuler) lacoustique de lhabitacle, ce qui cause des contraintes supplementaires dans le
calcul des filtres transauraux.
151
Filtrage
binaural
xg
xd
Filtrage
transaural
yg
yd
zg
zd
F IGURE III.20 Encodage binaural dune source sonore monophonique, et decodage transaural avant sa diffusion sur deux haut-parleurs
Pgd Pdg
Pgg
Pdd
Pg
Pd
III.3.3.1
Rappelons dabord le schema de perception de deux sources sonores dans lespace, qui sont constituees dans notre cas par deux haut-parleurs, lauditeur e tant place sur un des sommets du triangle e quilateral (cf. fig. III.21) Chaque oreille de lauditeur ne recoit pas seulement le son du haut-parleur situe
dans sa direction, mais aussi celui du haut-parleur situe a` loppose. La pression recue par chaque oreille
secrit
Pg
Pd
=
=
Pgg + Pdg
Pgd + Pdd
(III.3)
Ces termes supplementaires Pdg et Pgd ont pour consequence linadaptation du syst`eme traditionnel a`
lecoute binaurale sur haut-parleur. Lobjectif est donc deliminer ces termes supplementaires.
La plupart des e quations exprimees dans cette section se rapportent aux syst`emes lineaires, et aux
fonctions de transfert qui relient les signaux dentree et de sortie. On suppose que la structure algebrique
dans laquelle nous nous situons est un espace vectoriel reel de dimension finie. Pour faire en sorte que
loperation de convolution puisse e tre e crite comme une multiplication, ces e quations sont exprimees
dans le domaine frequentiel, et, par souci de simplicite, la dependance frequentielle des variables a e te
omise. Les signaux scalaires sont notes en minuscules, et les fonctions de transfert en majuscules ; les
vecteurs et les matrices sont notes en gras, les vecteurs en minuscules et les matrices en majuscules,
conformement a` la tradition en vigueur. Nous adoptons les notations suivantes :
152
x
y
z
indice g
indice d
indice gg
indice gd
indice dg
indice dd
:
:
:
:
:
:
:
:
:
zg
zd
=
=
Ggg yg + Gdg yd
Ggd yg + Gdd yd
(III.4)
avec Gxy les fonctions de transfert entre un haut-parleur et une oreille ; matriciellement, on e crit
z = Gy ,
avec
z=
zg
zd
G=
Ggg Gdg
Ggd Gdd
(III.5)
y=
yg
yd
pour linstant, nous navons toujours pas introduit le filtrage transaural (on a y x).
Les signauxzg et zd sont consideres comme e tant mesures par un microphone omnidirectionnel place
a` lentree du conduit auditif et en conditions (( blocked ear )), c.-`a-d. avec le conduit auditif bouche. Les
fonctions Gxy incluent la reponse en frequence du haut-parleur, lattenuation de lair, et la fonction de
transfert de loreille proprement dite. peut donc e tre factorise
avec
H=
G = HP ,
Hgg Hdg
Hgd Hdd
(III.6)
P = P0g P0d ;
, et
H est la matrice des HRTF, et P est la matrice de la fonction de transfert du haut-parleur en champ
libre : chaque terme Px peut e tre decompose comme le produit de la fonction de transfert du haut-parleur
lui-meme et de la fonction de transfert de la propagation dans lair (c.-`a-d. du haut-parleur au centre de
la tete). On suppose que le haut-parleur affecte identiquement les deux oreilles.
On souhaite cependant que le son percu corresponde au signal binaural, ce qui se traduit par les
e galites
zg
zd
=
=
xg
xd
(III.7)
et necessite lintroduction dun e tage supplementaire de filtrage. Matriciellement, loperation peut secrire
et on desire que
do`u
F=G
y = Fx ,
(III.8)
z = GFx = x ,
(III.9)
1 = P 1H 1 =
153
Fgg Fdg
Fgd Fdd
1=
Pg
Pd
(III.10)
En pratique, legalisation du haut-parleur peut e tre omise si ceux-ci sont identiques et de bonne qualite ;
en revanche, si lauditeur nest pas situe a` e gale distance des deux haut-parleurs, il est necessaire de
retarder et dattenuer le signal alimentant le haut-parleur le plus proche.
G=H
Hdd
Hgd
Hdg
Hgg
= Hgg Hdd
, avec
Hgd Hdg .
(III.12)
est le determinant de la matrice H ; le determinant inverse est commun a` tous les termes, et il determine
la stabilite du filtre inverse. Cependant, comme cest un facteur commun, il affecte legalisation globale,
et non leffet dinversion des trajets croises. Lorsque le determinant est nul a` une frequence, la matrice
est singuli`ere et ne peut e tre inversee.
III.3.3.2
Nous rappelons ici les e quations regissant le principe du syst`eme transaural, tel quil est couramment
decrit dans la litterature.
Le filtre de Schroeder Presentons dabord le filtrage propose par Atal et Schroeder [9, 283, 284], dans
lequel intervient une simplification tr`es importante : on consid`ere le syst`eme auditif humain symetrique
par rapport au plan median. Comme on suppose e galement le dispositif de restitution symetrique, on e crit
alors
Hgg
Hgd
=
=
=
=
Hdd
Hdg
S
A
(III.13)
avec S la fonction de transfert entre un haut-parleur et loreille situee du meme cote (ou oreille ipsilaterale), et A la fonction de transfert entre un haut-parleur et loreille situee du cote oppose (ou oreille
contralaterale). On obtient donc
(
et finalement en posant C
yg
yd
=
=
S
S 2 A2
S
S 2 A2
yg
=
=
S (1 C 2 )
S
S (1 C 2 )
xg
Ax
S d
Ax
S g
+ xd
(III.14)
(III.15)
S=A
8
<
:
yd
(xg + Cxd)
(Cxg + xd)
Ces relations permettent de determiner le schema correspondant au syst`eme transaural (cf. fig. III.22).
Schroeder a montre que le filtre C est causal (on voit que A poss`ede un retard superieur a` celui de S) ; C
est realisable sous forme de filtre RIF, et donc C 2 aussi ; par consequent, (1 1C 2 ) est realisable en placant
154
xd
1
1 C2
1
1 C2
yg
yd
A
S
A
S
zg
zd
Le filtre shuffler Presentons ensuite les structures imaginees par Cooper et Bauck [46], et deduites du
filtre de Schroeder. Introduisons pour cela
"
yg
yd
S0
A0
=
=
=
=
S
S 2 A2
A
S 2 A2
S 0 xg + A0 xd
A0 xg + S 0 xd
(III.16)
(III.17)
N0
P0
=
=
S 0 A0
2
2
S 0 +A0
en omettant le facteur 2 (qui nest autre quun gain global), ces expressions sont e gales a`
"
N0
P0
=
=
1
1
N
P
=
=
1
1
S +A
S A
(III.18)
yg
yd
=
=
(xg
(xg
xd )N 0 + (xg + xd )P 0
xd )N 0 + (xg + xd )P .
(III.19)
ce qui permet den deduire le filtre shuffler e quivalent (cf. fig. III.23(b)). On obtient donc une structure
155
xg
xg
xd
xd
+
S0
A0
A0
+
yg
S0
P0
+
yd
S
zg
N0
yg
yd
zd
zg
S
zd
U=U =U
1 ;
1
(III.20)
1
t , que les vecteurs propres de la matrice symetrique 1 sont les vecteurs
on verifie que
et
, et que les valeurs propres associees sont f S +1 A S 1 A g. Donc la matrice de melange
1 par la transformation
diagonalise la matrice symetrique
(1;1) (1; 1)
1=U 1
S +A
S A
U,
(III.21)
156
Ce concept est mis a` profit dans la structure shuffler, car on peut verifier experimentalement que les
filtres N et P ont quasiment le meme exc`es de phase (il sagit dune constatation purement heuristique).
Une consequence pratique de ce comportement est que les filtres N et P sont definis uniquement par leur
module jN j et jP j, la phase minimale e tant deduite a` laide de la transformee de Hilbert (cf. C.1.3).
Le calcul des filtres inverses N 0 et P 0 se reduit donc a` une inversion de module, operation nettement
plus simple. En outre, on peut implanter ces filtres sous forme RII, structure peu couteuse et efficace
(cf. C.1.7).
III.3.3.3
Lorsque la position de lauditeur nest pas symetrique par rapport au syst`eme e lectroacoustique a`
inverser, les principes simplificateurs ne peuvent plus sappliquer.
Reprenons ici la formulation utilisee par Gardner [91] et introduite par Mller [205] ; en divisant le
numerateur et le denominateur par Hgg Hdd , lequation (III.12) devient
F=
Hgg
avec
0
1
Hdd
!
1
ITFg
ITFg = HHgdgg
et
1
ITFd
1
1 ITFg ITFd ,
(III.22)
ITFd = HHdg
(III.23)
dd
les fonctions de transfert interaurales (ou Interaural Transfer Function). Lexamen de lequation (III.22)
permet dexpliquer le processus de linversion des trajets croises. Le travail est en effet realise par les
termes
sur la seconde diagonale de la matrice de droite. Ces termes effectuent en quelque sorte
une (( prediction )) des trajets croises, et envoient une composante dannulation hors phase dans le canal oppose. Par exemple, la voie droite du signal dentree est convoluee avec
d qui predit le trajet
croise atteignant loreille gauche, et le resultat est soustrait du signal de sortie gauche. Le terme commun
g d effectue quant a` lui une compensation des trajets croises dordre superieurs : le fait que
chaque composante dannulation des trajets croises transite elle-meme par loreille opposee doit e tre annule ; ce terme est surtout significatif en basses frequences. La matrice de gauche est diagonale ; il sagit
essentiellement dune e galisation en hautes frequences qui facilite la perception de sources laterales ou
arri`eres. Lutilisation des ITF pour predire les trajets croises vers loreille contralaterale necessite que
chaque signal de sortie soit e galise par la HRTF ispsilaterale.
ITF
ITF
1 ITF ITF
H
H
La matrice est inversible si et seulement si elle est non singuli`ere, c.-`a-d. si son determinant est
1 nexiste seulenon nul. Comme est fonction de la frequence, il est possible que la matrice inverse
ment que pour certaines bandes de frequences o`u la matrice
est non singuli`ere. En dautres termes,
si la matrice
est mal conditionnee a` certaines frequences, cela conduira a` une faible valeur de , et
le module de = sera tr`es grand. En pratique, il faut faire appel a` des methodes de regularisation pour
limiter le module de = , et dans ces bandes de frequences, la matrice inverse alors calculee ne sera
quune approximation de la veritable matrice inverse.
1
1
On peut sinterroger sur la causalite et la stabilite dun tel syst`eme [91]. Le terme a` prendre en
compte est =
g d.
Pour que le syst`eme soit causal, il faut que la somme des deux retards interauraux soit superieure a`
zero, c.-`a-d.
(III.24)
g
d> ,
1 (1 ITF ITF )
ITD
ITD + ITD
avec
x le retard interaural correspondant. Cette condition est realisee (pour un mod`ele de tete spherique) lorsque langle de la tete avec le plan median est tel que
<< .
90
157
90
xd
Fgg
Fdd
Fdg
Fgd
yg
yd
Hgd Hdg
Hgg
Hdd
zg
zd
F IGURE III.24 Schema general du syst`eme transaural pour un dispositif de restitution quelconque
Pour que le syst`eme soit stable, il faut que les poles de la fonction de transfert soient a` linterieur du
cercle unite, ce qui qui se traduit par linequation
(III.25)
Les ITF rendent compte du masquage de la tete, et peuvent e tre considerees comme un filtre passe-bas ;
la condition e noncee ci-dessus est donc e galement realisee lorsque langle de la tete avec le plan median est tel que
<< .
90
90
Nous allons maintenant presenter trois structures dimplantation des filtres transauraux pour un dispositif de restitution non symetrique.
Structure en treillis
avec
2
4
Fgg
Fgd
yg
yd
=
=
=
=
Fgg xg + Fdg xd
Fgd xg + Fdd xd
Hdd
Fdg
Fdd
Hgd
=
=
,
Hdg
Hgg
(III.26)
3
5.
La structure la plus generale correspondant a` cette e quation est celle representee figure III.24 ; il sagit
dune structure en treillis.
Structure recursive La structure recursive, introduite par Iwahara et Mori [132], et modifiee par Gardner [91] pour introduire les fonctions de transfert interaurales, est schematisee figure III.25(a). Les e quations la regissant sont
(
zg
A yg DC zd
(III.27)
;
zd
D yd BA zg
les coefficients de cette e quation sont calcules pour satisfaire lequation (III.12), ce qui donne
=
=
2
4
A
D
=
=
+
+
Hgg
Hdd
158
=
=
Hgd 3
Hgg 5
.
Hdg
Hdd
xg
xg
xd
Hgd
Hgg
Hdg
Hdd
xd
Lg
Rg
Ld
Rd
Hgg
Hdd
yg
Hgd
Hdg
yd
Hgd
Hgg
Hdd
zg
yg
yd
Hgg
zd
Hdd
zg
Hdg
zd
F IGURE III.25 Schemas particuliers du syst`eme transaural pour un dispositif de restitution quelconque
Linterpretation de cette implantation est assez intuitive : chaque canal est convolue par la fonction de
transfert interaurale appropriee, effectuant ainsi une prediction du trajet croise atteignant loreille contralaterale ; le trajet croise est annule en injectant loppose de ce signal predit dans le canal oppose. Une
caracteristique importante de cette implantation est que le signal dannulation est injecte a` lentree du
canal oppose, plutot qu`a la sortie, donc les trajets croises dordre superieurs sont automatiquement annules. Finalement, chaque canal est e galise par la fonction de transfert ipsilaterale correspondante.
Structure shuffler On peut aussi imaginer une structure shuffler. Ecrivons pour cela
(
yg
yd
=
=
Axg Bxd
Cxg + Dxd
2
avec
A+B
=
=
A
C
2 (xg xd ) +
C +D (x
g xd ) +
2
=
=
Hdd
Hgd
=
=
A B
2 (xg + xd )
C +D (x + x )
g d
2
(III.28)
Hdg
5;
Hgg
on obtient donc, au facteur 2 pr`es (qui nest autre quun gain global)
2
4
A+B
C+D
Hdd +Hdg
= = Lg
= Hgd+Hgg = Ld
A B
C +D
=
=
Hdd Hdg
Hgd +Hgg
= Rg 5
,
= Rd
(III.29)
ce qui nous permet de dessiner le schema dune structure shuffler (cf. fig. III.25(b)). Comme pour lequation (III.21), on peut e crire matriciellement
1=U 1
Rg L g
Rd Ld
U.
(III.30)
Le concept de phase minimale jointe, introduit par Cooper et Bauck dans le cas dune structure
shuffler pour un dispositif de restitution symetrique, ne peut plus sappliquer ici. Il faut proceder a` une
159
.
do`u
2
4
Hgg
Hgd
=
=
Lg = Ld
Rg = Rd
Hdd
Hdg
=
=
=
=
=
S
A
S 2 A2
N0
P0
(III.31)
III.3.3.4
Lannulation des trajets croises ne peut e tre effectuee sur toute la largeur de la bande audio, c.-`a-d.
de 20 Hz a` 20 kHz. Plusieurs probl`emes existent en hautes frequences :
le gain des fonctions de transfert interaurales ITF peut devenir superieur a` 1 a` cause dantiresonances dans la fonction de transfert ipsilaterale, causant une instabilite des filtres transauraux
(cf. III.3.3.3) [91] ;
plus la longueur donde diminue, plus le syst`eme transaural devient sensible a` la position de la tete
de lauditeur ;
linversion dune fonction de transfert est toujours delicate a` realiser en hautes frequences, et il y a
fort a` parier que le resultat soit finalement plus catastrophique que si on effectue aucun traitement.
Le calcul des filtres est donc mene jusque 6 kHz, ce qui correspond a` une longueur donde de 50 mm
environ. Cette limite a e te verifie experimentalement comme largement suffisante a` la realisation dun
syst`eme transaural convaincant.
Mod`ele general La methode la plus efficace, proposee par Cooper et Bauck [47], consiste a` specifier differemment la matrice en basses frequences et en hautes frequences. On peut donc la recrire
globalement
F=
Hgg
HPBHdg
HPBHgd
Hdd
(III.32)
avec HPB la fonction de transfert dun filtre passe-bas ; cela revient a` remplacer, dans lequation (III.22),
les termes
par leur version filtree par le filtre passe-bas. En basses frequences, on a toujours
1 , mais en hautes frequences, on a maintenant
F=
ITF
Ff>fc =
Hgg
Hdd
(III.33)
ce qui correspond a` une simple e galisation ipsilaterale. Cette formulation est importante lorsquon desire realiser un syst`eme qui a les bonnes proprietes de repartition de la puissance. Lorsque la direction
de provenance de la source virtuelle est celle dun haut-parleur, le signal provenant de ce haut-parleur
est uniforme en frequence ; mais lautre haut-parleur e met une certaine puissance en hautes frequences,
puisque le syst`eme dannulation des trajets croises ny est pas effectif. Nous decrions plus tard une methode pour retablir les bonnes proprietes de repartition de la puissance.
Lorsque le dispositif de restitution est symetrique, la matrice
fler
1
1
0
Ff>fc = S 0 1 ,
160
avec S Hgg
Hdd . Cest ce principe qui est implante dans le Spatialisateur , a` la difference que la
fonction de transfert de normalisation nest pas directement la fonction de transfert
p ipsilaterale, mais une
moyenne quadratique des fonctions de transfert ipsi et contralaterales, c.-`a-d. S 2 A2 ; ce choix permet une transition plus homog`ene entre le domaine des basses et des hautes frequences, et a e te confirme
par des tests decoute.
Ff>fc = G0 D0
avec
2
6
4
G
D
=
=
(III.35)
1 (L2g + Rg2 )
2
q
1 (L2 + R2 )
d
2 d
y = Fhw ,
w,
avec les HRTF correspondant a` la position de la source. En hautes frequences, dapr`es lequation (III.33),
lequation precedente devient
yf>fc =
Hg =Hgg
Hd=Hdd
w.
(III.37)
Il sagit dune e galisation des HRTF en champ libre ; et globalement, les haut-parleurs e mettent des signaux binauraux. Lorsque la direction de provenance de la source est celle dun haut-parleur, le signal
provenant de ce haut-parleur est uniforme en frequence, grace a` legalisation, mais lautre haut-parleur
e met la reponse binaurale contralaterale e galisee par rapport au champ libre, ce qui viole les proprietes
de repartition de la puissance. Si lannulation des trajets croises setendait jusquaux plus hautes frequences, la reponse contralaterale serait annulee et napparatrait pas sur lautre haut-parleur ; cependant,
comme nous lavons mentionne au debut de ce paragraphe, ceci nest pas opportun. Il convient donc de
rechercher une technique permettant doptimiser lannulation des trajets croises en hautes frequences,
tout en preservant les proprietes de repartition de la puissance.
Cette solution est decrite par Gardner [91]. Le dephasage des signaux parvenant aux oreilles en
hautes frequences e tant important, on consid`ere que ces signaux sadditionnent de mani`ere incoherente,
c.-`a-d. en e nergie. Les fonctions de transfert de puissance sont derivees des mesures de HRTF. La matrice
de transfert de puissance est inversee dans le but de calculer les puissances a` injecter dans les hautparleurs pour obtenir les bonnes puissances au niveau des oreilles. Souvent, il nest pas possible dobtenir
les bonnes valeurs de puissances au niveau des oreilles, par exemple si on veut synthetiser une source
plus a` droite que le haut-parleur droit. En effet, dans ce cas la difference de niveau interaural doit e tre
plus grande que si on envoie le signal uniquement dans le haut-parleur droit ; or le signal e mis par le hautparleur gauche reduit la difference de niveau interaural. Dans les cas o`u il nexiste pas de solution exacte,
lidee de la methode est denvoyer le signal dans un seul haut-parleur, et deffectuer une ponderation de
sa puissance pour que le transfert de puissance total aux deux oreilles soit e gal a` la puissance totale des
HRTF considerees. Pratiquement, la puissance e mise par chaque haut-parleur en hautes frequences est
controlee par un gain associe a` chaque canal ; et comme le syst`eme dannulation des trajets croises est
diagonal en hautes frequences, les gains peuvent e tre associes aux HRTF considerees. Ainsi, lequation
precedente devient
yf>fc =
gg Hg =Hgg
gd Hd =Hdd
161
w,
(III.38)
0.9
gain gauche
gain droite
0.8
Gain multiplicatif
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
180
135
90
45
0
315
Azimut en degrs
270
225
180
F IGURE III.26 Gains appliques en hautes frequences sur les HRTF pour avoir une repartition plausible
de la puissance entre les deux oreilles ; la geometrie du dispositif decoute est celui de la
stereophonie classique
et on peut ainsi creer un ensemble de HRTF (( modifiees )) qui ont leur reponse adaptees en hautes
frequences pour satisfaire les bonnes proprietes de repartition de la puissance entre les deux oreilles,
apr`es passage dans un syst`eme dannulation des trajets croises.
Nous ne detaillerons pas ici le detail du calcul des gains gg et gd ; le lecteur se reportera a` [91]. Mais
une attention particuli`ere doit e tre apportee a` la mise en uvre du filtre passe-haut utilise pour calculer
la composante hautes frequences des HRTF. Il est possible dutiliser deux filtres shelving (un par canal),
mais leur phase en basses frequences doit e tre identique, et leur module independant du gain en hautes
frequences, sous peine dintroduire des effets parasites au niveau des differences interaurales de temps
et dintensite. Gardner conseille donc dutiliser un filtre FIR a` phase nulle. La figure III.26 presente les
valeurs de gains en hautes frequences pour un dispositif decoute symetrique classique (haut-parleurs a`
30o , tete de lauditeur a` 0o ). On remarque que lorsque la direction de provenance de la source est celle
dun haut-parleur, la solution est denvoyer toute la puissance dans ce haut-parleur et deteindre lautre.
Lorsque la direction de provenance de la source est superieure a` 30o , il ny a pas de solution exacte, et le
principe consiste a` e teindre le haut-parleur contralateral tandis que le gain du haut-parleur ipsilateral est
choisi pour conserver lenergie totale.
On peut enfin imaginer une methode pour calculer les HRTF modifiees ; notons quil existe un
ensemble de gains pour chaque geometrie du dispositif de restitution, et pour chaque position de la tete
de lauditeur. Il est necessaire de separer en deux le domaine frequentiel, et on pourrait penser utiliser
deux filtres shelving, voire un seul si les filtres ont une reponse complementaire. Malheureusement, il
nest pas possible dutiliser une paire de filtres shelving recursifs car leur reponse en phase en basses
frequences depend de leur gain en hautes frequences, et inversement. Il faut donc absolument utiliser des
filtres RIF a` phase nulle. Un seul filtre est necessaire, par exemple un filtre passe-bas pour rester coherent
avec lequation (III.32), puisquon peut e crire
wb
=
=
(III.39)
162
HPB
g
+
F IGURE III.27 Synth`ese binaurale permettant dappliquer des gains specifiques en hautes frequences
Rappelons quil existe une matrice inverse par dispositif de restitution (c.-`a-d. pour une position des
haut-parleurs et de lauditeur). De plus, il est theoriquement necessaire que les filtres transauraux soient
calcules a` partir des fonctions de transfert de lauditeur ; ceci e tant impossible pour des raisons pratiques,
on utilise, comme pour la synth`ese binaurale, un jeu de HRIR mesurees sur un mannequin acoustique
que lon (( adapte )) afin quelles soient valides pour un grand nombre de sujets [142, 176178]. Le mannequin utilise est le KEMAR , dont les fonctions de transfert doreille ont e te mesurees par Gardner [92].
Les reponses impulsionnelles doreille comportent 512 points.
Sauf dans le cas de limplantation symetrique sous forme de structure shuffler, nous allons devoir
effectuer linversion du determinant de la matrice , matrice de transfert e lectroacoustique directe.
est la difference de deux produits de fonctions de transfert doreille, a` savoir
Hgg Hdd Hgd Hdg .
Il ny a aucune raison pour que ce filtre soit a` phase minimale. Comme nous devons inverser ce filtre, et
quil nexiste pas de solution exacte, nous mettons en uvre une technique doptimisation au sens des
moindres carres comportant un filtre de regularisation ; le calcul est effectue dans le domaine temporel,
afin de saffranchir du probl`eme de repliement inherent a` la specification dans le domaine frequentiel
discret.
=
Nous nous proposons de comparer plusieurs implantations du syst`eme transaural, dans une configuration decoute symetrique, et dans une configuration decoute non symetrique.
Plusieurs crit`eres objectifs ont e te utilises :
la comparaison des signaux contenant linformation acoustique entre chaque haut-parleur et chaque
oreille, par rapport au but recherche, c.-`a-d. lannulation des trajets croises ;
la comparaison du vecteur de signaux arrivant aux oreilles de lauditeur, par rapport au signal
binaural arrivant a` lentree du syst`eme transaural ;
le retard interaural, ou ITD (Interaural Time Delay), indice pertinent de la localisation auditive en
basses frequences.
Dautre part, nous avons implante tous ces dispositifs dans le logiciel Max/MSP, et nous avons
effectue une comparaison auditive des resultats.
III.3.4.1
Placons-nous dabord dans le cas dun dispositif de restitution symetrique, c.-`a-d. deux haut-parleurs
situes a` 30o par rapport au plan median de la tete de lauditeur.
Nous nous proposons ensuite de comparer :
limplantation sous forme classique, conforme a` la figure III.24, et mettant en uvre quatre filtres
RIF ;
limplantation sous forme shuffler general (avec un dispositif de restitution symetrique), conforme
a` la figure III.25(b), et sous forme shuffler symetrique, conforme a` la figure III.23(b), mettant en
uvre quatre (ou seulement deux) filtres RIF calcules directement dapr`es le syst`eme dequations
correspondantes (III.29) ;
limplantation sous forme shuffler general (avec un dispositif de restitution symetrique), conforme
a` la figure III.25(b), et sous forme shuffler symetrique, conforme a` la figure III.23(b), mettant en
163
0.5
0.5
Amplitude
Amplitude
Direct GG
1
0.5
0.5
20
40
60
Echantillons
80
100
20
0.5
0.5
0.5
80
100
80
100
Direct DD
Amplitude
Amplitude
Direct DG
40
60
Echantillons
0.5
20
40
60
Echantillons
80
100
20
40
60
Echantillons
F IGURE III.28 Fonctions de transfert entre haut-parleurs et oreilles, mesurees en chambre anechoque, pour
un syst`eme de restitution symetrique compose de deux haut-parleurs a` 30o
uvre quatre (ou seulement deux) filtres RIF ou RII calcules a` partir dune decomposition en module et exc`es de phase, ce qui permet de limiter la largeur de bande du syst`eme transaural.
Sur les figures suivantes, les couleurs sont reparties comme suit :
bleu ! implantation classique
bleu plus clair ! implantation generale shuffler, avec quatre filtres RIF
vert ! implantation generale shuffler, avec quatre filtres RIF calcules a`
partir dune decomposition en module et exc`es de phase, avec
limitation de la largeur de bande du syst`eme transaural
cyan ! implantation generale shuffler, avec quatre filtres RII calcules a`
partir dune decomposition en module et exc`es de phase, avec
limitation de la largeur de bande du syst`eme transaural
rose ! implantation symetrique shuffler, avec deux filtres RIF
rouge ! implantation symetrique shuffler, avec deux filtres RIF calcules
a` partir dune decomposition en module et exc`es de phase, avec
limitation de la largeur de bande du syst`eme transaural
magenta ! implantation symetrique shuffler, avec deux filtres RII calcules
a` partir dune decomposition en module et exc`es de phase, avec
limitation de la largeur de bande du syst`eme transaural
Les e lements de la matrice de transfert e lectroacoustique directe sont presentes figure III.28 ; dans
un souci de clarte, nous navons represente que les 100 premiers points (sur les 512).
Nous devons effectuer linversion du determinant de cette matrice ; chaque HRIR comportant 512
points, en comporte 1023. Nous choisissons de calculer linversion a` phase totale du determinant sur
1024 points (cf. fig III.29). Le bruit residuel est inferieur a` -30 dB, et nous considerons la precision du
calcul comme suffisante. Nous avons e coute linfluence de ce filtre sur un signal musical, et il nest pas
apparu de phenom`enes desagreables.
Dans le cas dune implantation shuffler symetrique, cette inversion nest pas necessaire, puisquon
utilise la propriete de phase minimale jointe des filtres N
S A et P S A, avec S la fonction
de transfert ipsilaterale et A la fonction de transfert contralaterale (cf. III.3.3.2). Une inversion a` phase
minimale des filtres N et P est seulement necessaire.
164
= +
Rponse en frquence
40
lin
0.5
20
0
dB
0
0.5
1
20
0
200
400
600
800
1000
1200
40
60
20
lin
0.5
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
0
0.5
1
40
0
200
400
600
800
1000
1200
20
Rsidu
0
dB
20
dB
Filtre direct
Filtre inverse
20
40
60
40
80
100
Rsidu
0
200
400
600
Echantillons
800
1000
60
20
1200
(a) Signaux
50
F IGURE III.29 Inversion du determinant de la matrice de transfert e lectroacoustique directe, dans le cas
dune e coute en chambre sourde, sur un dispositif de restitution symetrique
Nous pouvons maintenant proceder a` la comparaison des differentes structures dinversion des trajets
croises.
Annulation des trajets croises Interessons-nous aux fonctions de transfert entre haut-parleurs et oreilles,
apr`es passage dans les syst`emes transauraux. La figure III.30 presente les gains des fonctions de transfert
residuelles entre chaque haut-parleur et chaque oreille, c.-`a-d. le produit matriciel
qui devrait en
toute rigueur e tre e gal a` la matrice identite.
On remarque que les trajets directs sont correctement restitues, mis a` part une leg`ere faiblesse en
basses frequences pour les courbes bleues ; cette faiblesse est due au filtre de regularisation utilise pour
inverser le determinant de la matrice de transfert directe.
Pour les trajets croises, on constate trois ensembles de courbes :
HF
les courbes bleues, correspondant a` la mise en uvre de quatre filtres RIF de 1535 points, pour
lesquelles le taux de rejection est superieur a` 60 dB, mis a` part une leg`ere faiblesse en basses
frequences, toujours due a` la regularisation ;
la courbe rose, correspondant a` la mise en uvre de deux filtres RIF de 1535 points, pour laquelle
le taux de rejection est variable, mais cependant assez faible en basses frequences ;
les autres courbes, correspondant a` une technique de calcul de filtres par decomposition en module
et exc`es de phase, et permettant une limitation du syst`eme transaural a` 6 kHz, pour lesquelles
le taux de rejection est le plus faible ; les filtres (deux ou quatre suivant la prise en compte de
la symetrie) sont laisses sous forme RIF de 512 points (correspondant a` la longueur des HRIR
originales) ou modelises sous forme RII dordre 12.
Les deux courbes bleues montrent que le filtrage RIF permet de realiser un syst`eme dannulation
des trajets croises dune tr`es grande precision, mais au prix dun cout de calcul en temps reel plus e leve
quavec des filtres RII (cf. C.1.5).
On peut sinterroger sur la courbe rose, car le syst`eme correspondant devrait theoriquement presenter
le meme taux de rejection des trajets croises que les syst`emes correspondant aux courbes bleues ; nous
navons pu expliquer ce phenom`ene.
Les quatre courbes presentant le taux de rejection le plus faible sont parfaitement groupees. Ceci
montre que limplantation shuffler symetrique et shuffler non symetrique sont ici e quivalentes (en sup-
165
DG
20
20
dB
20
dB
20
40
40
60
60
80
50 100 200 400 800 1.5k 3k 5k
Frquence en Hz
80
50 100 200 400 800 1.5k 3k 5k
Frquence en Hz
10k 20k
GD
10k 20k
DD
20
20
dB
20
dB
20
40
40
60
60
80
50 100 200 400 800 1.5k 3k 5k
Frquence en Hz
80
50 100 200 400 800 1.5k 3k 5k
Frquence en Hz
10k 20k
10k 20k
F IGURE III.30 Gains des fonctions de transfert des trajets acoustiques entre chaque haut-parleur et chaque
oreille, pour sept implantations differentes dun syst`eme transaural, correspondant a` une restitution sur deux haut-parleurs a` 30o a` gauche et a` droite
posant que les HRIR utilisees sont bien symetriques), et que la modelisation sous forme RII dordre 12 est
parfaitement efficace (algorithme de Steiglitz-MacBride avec warping frequentiel, cf. C.1.7 et C.1.9).
Le taux de rejection bien plus faible (de lordre de 25 dB entre 400 Hz et 6 kHz) est a` mettre sur le compte
de la precision de modelisation du filtre inverse, a` savoir 512 points au lieu de 1535 pour les autres configurations testees ; cependant, nous navons pas dautre alternative, e tant donne que tous les filtres sont
decomposes en module et exc`es de phase, les HRIR initiales ayant une longueur de 512 points. Mais,
un avantage de cette technique est la possibilite relativement simple de limiter la largeur de bande des
filtres transauraux, alors quavec un calcul direct des filtres sous forme RIF, il faut utiliser une technique
plus complexe de filtrage a` phase nulle pour separer les composantes basses et hautes frequences, sur
lesquelles on applique un gain pour retablir la bonne distribution de puissance au niveau des oreilles
(cf. III.3.3.4). Un autre avantage de cette technique est limplantation sous forme de filtres RII, nettement moins couteux en temps reel que les filtres RIF.
Fonctions de transfert Nous avons e galement simule la propagation dun signal binaural depuis son
admission a` lentree du syst`eme transaural jusquaux oreilles du mannequin ; nous avons utilise les signaux binauraux utilises dans le Spatialisateur , c.-`a-d. les fonctions de transfert doreille du mannequin
KEMAR modelisees sous forme dun filtre a` phase minimale recursif dordre 12, et dun retard pur. Pour
un signal binaural constitue de la HRIR a` 0o dans le plan horizontal, et injecte a` lentree du syst`eme
transaural, les deux signaux arrivant aux haut-parleurs sont identiques en module et en phase, quelque
soit le syst`eme transaural utilise (la figure III.31 represente uniquement les modules des fonctions de
transfert).
Les signaux arrivant aux oreilles du mannequin, apr`es passage dans le syst`eme transaural et dans le
syst`eme e lectroacoustique, sont e galement identiques en module et en phase (cf. fig. III.32) ; la courbe
noire represente le signal binaural injecte, c.-`a-d. la HRIR theorique, et on peut constater que tous les
166
HP 30 et 330
Source 0 30
20
20
10
10
Gain en dB
Gain en dB
HP gauche
30
10
10
20
20
30
100
200
400
800 1.5k
3k
Frquence en Hz
5k 6k
10k
HP droit
30
100
20k
200
400
800 1.5k
3k
Frquence en Hz
5k 6k
10k
20k
F IGURE III.31 Module des signaux arrivant sur chacun des haut-parleurs, dans le cas dun signal binaural
constitue de la HRIR a` 0o injecte a` lentree du syst`eme transaural, correspondant a` une
restitution sur deux haut-parleurs a` 30o a` gauche et a` droite
HP 30 et 330
Source 0 30
20
20
10
10
Gain en dB
Gain en dB
Oreille gauche
30
10
10
20
20
30
100
200
400
800 1.5k
3k
Frquence en Hz
5k 6k
10k
Oreille droite
30
100
20k
200
400
800 1.5k
3k
Frquence en Hz
5k 6k
10k
20k
(a) Gain
HP 30 et 330
Source 0 1.5
Retard de groupe en ms
Retard de groupe en ms
Oreille gauche
1.5
0.5
0.5
1.5
Oreille droite
0.5
0.5
8
10
12
14
Frquence en kHz
16
18
1.5
20
8
10
12
14
Frquence en kHz
16
18
20
167
20
20
10
10
Gain en dB
Gain en dB
HP gauche
30
10
20
20
200
400
800 1.5k
3k
Frquence en Hz
5k 6k
10k
30
100
20k
pleine bande
10
30
100
HP droit
bande limite
200
400
800 1.5k
3k
Frquence en Hz
5k 6k
10k
20k
F IGURE III.33 Module des signaux arrivant sur chacun des haut-parleurs, dans le cas dun signal binaural
constitue de la HRIR a` 90o a` gauche injecte a` lentree du syst`eme transaural, correspondant
a` une restitution sur deux haut-parleurs a` 30o a` gauche et a` droite
Retard interaural Nous avons calcule, pour chaque syst`eme transaural e tudie, le retard interaural des
signaux arrivant a` chaque oreille, et nous les avons compare avec le retard interaural theorique, c.-`a-d.
celui du signal binaural injecte a` lentree du syst`eme transaural. Pour cela nous avons injecte a` lentree
du syst`eme transaural une distribution compl`ete de HRIR tous les 5o , et pour chaque HRIR nous avons
calcule le retard interaural ; celui-ci est obtenu grace a` la procedure decrite par Larcher [176], a` savoir
par regression lineaire sur la plus grande portion lineaire de la difference gauche-droite des exc`es de
phase des signaux binauraux, entre deux frequences determinees (200 et 5000 Hz, ici). Comme on peut
le constater sur la figure III.36, tous les syst`emes e tudies permettent de retrouver la bonne valeur du
retard interaural.
168
HP 30 et 330
Oreille gauche
30
Source 90 30
20
20
10
10
Oreille droite
Gain en dB
Gain en dB
bande limite
pleine bande
10
10
20
20
30
100
200
400
800 1.5k
3k
Frquence en Hz
5k 6k
10k
30
100
20k
200
400
800 1.5k
3k
Frquence en Hz
5k 6k
10k
20k
(a) Gain
HP 30 et 330
Source 90 1.5
Retard de groupe en ms
Retard de groupe en ms
Oreille gauche
1.5
0.5
0.5
1.5
Oreille droite
0.5
0.5
8
10
12
14
Frquence en kHz
16
18
1.5
20
8
10
12
14
Frquence en kHz
16
18
20
HP 30 et 330
Source 90 30
20
20
10
10
Gain en dB
Gain en dB
Oreille gauche
30
10
20
20
200
400
800 1.5k
3k
Frquence en Hz
5k 6k
10k
30
100
20k
pleine bande
bande limite
10
30
100
Oreille droite
200
400
800 1.5k
3k
Frquence en Hz
5k 6k
10k
20k
F IGURE III.35 Idem figure III.34, pour une restitution sur deux haut-parleurs a` -25o ;+35o a` gauche et a`
droite
169
0.6
ITD en millisecondes
0.4
0.2
0.2
0.4
0.6
0.8
0
45
90
135
180
225
Azimut en degres
270
315
360
F IGURE III.36 Retard interaural entre les signaux arrivant aux oreilles du mannequin, compare avec le
retard interaural theorique (courbe noire e paisse), pour un syst`eme de restitution symetrique
compose de deux haut-parleurs a` 30o
III.3.4.2
Nous avons refait les meme tests en supposant un dispositif de restitution non symetrique, en loccurrence un haut-parleur a` 10o a` gauche et un autre a` 50o a` droite (ces angles correspondent a` peu pr`es
aux valeurs rencontrees en automobile). Dans ce cas, nous comparons :
limplantation sous forme classique, conforme a` la figure III.24, et mettant en uvre quatre filtres
RIF ;
limplantation sous forme shuffler general, conforme a` la figure III.25(b), mettant en uvre quatre
filtres RIF calcules directement dapr`es le syst`eme dequations correspondantes (III.29) ;
limplantation sous forme shuffler general, conforme a` la figure III.25(b), mettant en uvre quatre
filtres RIF ou RII calcules a` partir dune decomposition en module et exc`es de phase, ce qui permet
de limiter la largeur de bande du syst`eme transaural.
Sur les figures suivantes, les couleurs sont reparties comme suit :
bleu ! implantation classique
bleu plus clair ! implantation generale shuffler, avec quatre filtres RIF
vert ! implantation generale shuffler, avec quatre filtres RIF calcules a`
partir dune decomposition en module et exc`es de phase, avec
limitation de la largeur de bande du syst`eme transaural
cyan ! implantation generale shuffler, avec quatre filtres RII calcules a`
partir dune decomposition en module et exc`es de phase, avec
limitation de la largeur de bande du syst`eme transaural
Les e lements de la matrice de transfert e lectroacoustique directe sont presentes figure III.37 ; dans
un souci de clarte, nous navons represente que les 100 premiers points (sur les 512). Il faut remarquer
que :
chaque reponse impulsionnelle a un retard different, ce qui, a` la difference du syst`eme symetrique,
necessite obligatoirement deffectuer une inversion incluant la composante a` phase non minimale
(le concept de phase minimale jointe ne peut plus sappliquer dans le cas de la structure shuffler) ;
les differences entre les amplitudes de chaque e lement, dues a` lattenuation spherique et a` la diffraction par la tete, requi`erent une dynamique plus importante des filtres inverses, comparees au
syst`eme symetrique.
170
0.5
0.5
Amplitude
Amplitude
Direct GG
1
0.5
0.5
20
40
60
Echantillons
80
100
20
0.5
0.5
0.5
80
100
80
100
Direct DD
Amplitude
Amplitude
Direct DG
40
60
Echantillons
0.5
20
40
60
Echantillons
80
100
20
40
60
Echantillons
F IGURE III.37 Fonctions de transfert entre haut-parleurs et oreilles, mesurees en chambre anechoque, pour
un syst`eme de restitution non symetrique compose dun haut-parleur a` 10o a` gauche et dun
haut-parleur a` 50o a` droite
Chaque HRIR comportant 512 points, en comporte 1023, et nous choisissons de calculer le filtre
inverse sur 1024 points (cf. fig III.38). La precision du residu est de 30 dB environ, et nous la considerons
comme suffisante. Nous avons e coute linfluence de ce filtre sur un signal musical, et il nest pas apparu
de phenom`enes desagreables.
Nous pouvons maintenant proceder a` la comparaison des differentes structures dinversion des trajets
croises.
Annulation des trajets croises Sur la figure III.39, on peut constater que les trajets directs sont correctement restitues, mis a` part la leg`ere faiblesse en basses frequences, due au filtre de regularisation.
Pour les trajets croises, on constate deux ensembles de courbes :
les courbes bleues, correspondant a` la mise en uvre de quatre filtres RIF de 1535 points, pour
lesquelles le taux de rejection est superieur a` 60 dB, mis a` part une leg`ere faiblesse en basses
frequences, toujours due a` la regularisation ;
la courbe verte et la courbe cyan, correspondant a` une technique de calcul de filtres par decomposition en module et exc`es de phase, et permettant une limitation du syst`eme transaural a` 6 kHz,
pour lesquelles le taux de rejection est de 20 dB entre 200 et 6000 Hz ; les quatre filtres sont laisses
sous forme RIF de 512 points (correspondant a` la longueur des HRIR originales) ou modelises
sous forme RII dordre 12.
Les deux courbes bleues montrent, comme dans le cas symetrique, que le filtrage RIF permet de
realiser un syst`eme dannulation des trajets croises tr`es efficace.
Les courbes vertes et cyan mettent en e vidence une rejection bien plus faible, due essentiellement
a` la plus faible longueur des filtres transauraux ; ici encore, la modelisation RII proprement dite est
parfaitement efficace, puisque ces deux courbes sont pratiquement semblables.
Fonctions de transfert Pour un signal binaural constitue de la HRIR a` 0o dans le plan horizontal, et
injecte a` lentree du syst`eme transaural, les deux signaux arrivant aux haut-parleurs sont globalement
identiques a` la fois en module et en phase, quelque soit le syst`eme transaural utilise (la figure III.40 ne
171
Rponse en frquence
40
lin
0.5
20
0
dB
0
0.5
1
20
0
200
400
600
800
1000
1200
40
0.5
lin
60
20
Filtre direct
Filtre inverse
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
0
40
0.5
200
400
600
800
1000
1200
20
Rsidu
0
dB
20
40
60
40
80
100
100
Rsidu
200
300
400
500
600
700
Echantillons
800
900
1000
60
20
1100
(a) Signaux
50
F IGURE III.38 Inversion du determinant de la matrice de transfert e lectroacoustique directe, dans le cas
dune e coute en chambre sourde sur un dispositif de restitution non symetrique
HP 10 et 310
GG
DG
20
20
dB
20
dB
20
40
40
60
60
80
50 100 200 400 800 1.5k 3k 5k
Frquence en Hz
80
50 100 200 400 800 1.5k 3k 5k
Frquence en Hz
10k 20k
GD
10k 20k
DD
20
20
20
dB
20
dB
dB
20
40
40
60
60
80
50 100 200 400 800 1.5k 3k 5k
Frquence en Hz
80
50 100 200 400 800 1.5k 3k 5k
Frquence en Hz
10k 20k
10k 20k
F IGURE III.39 Gains des fonctions de transfert des trajets acoustiques entre chaque haut-parleur et chaque
oreille, pour quatre implantations differentes du syst`eme transaural, correspondant a` une
restitution sur un haut-parleur a` 10o a` gauche et un haut-parleur a` 50o a` droite
172
20
20
10
10
Gain en dB
Gain en dB
HP gauche
30
10
10
20
20
30
100
200
400
800 1.5k
3k
Frquence en Hz
5k 6k
10k
30
100
20k
HP droit
200
400
800 1.5k
3k
Frquence en Hz
5k 6k
10k
20k
F IGURE III.40 Module des signaux arrivant sur chacun des haut-parleurs, dans le cas dun signal binaural
constitue de la HRIR a` 0o injecte a` lentree du syst`eme transaural, correspondant a` une
restitution sur un haut-parleur a` 10o a` gauche et un haut-parleur a` 50o a` droite
represente que les modules) ; on constate cependant une difference au-del`a de 6 kHz sur le haut-parleur
de droite.
Les signaux arrivant aux oreilles du mannequin acoustique (cf. fig. III.41), apr`es passage dans le
syst`eme transaural et dans le syst`eme e lectroacoustique, sont e galement identiques en module et en
phase ; la courbe noire represente le signal binaural injecte, et on peut constater que tous les syst`emes
e tudies permettent de retrouver ce signal aux oreilles du mannequin, avec cependant une amplification
plus importante des resonances et antiresonances pour le syst`eme shuffler dont les filtres sont calcules
par decomposition en module et exc`es de phase.
Nous avons refait lexperience avec un signal binaural constitue de la HRIR correspondant a` une
source a` 90o a` gauche dans le plan horizontal, et nous pouvons faire les memes remarques quavec le
dispositif de restitution symetrique. Les syst`emes calcules pleine bande font clairement apparatre, au
niveau des haut-parleurs, des resonances tr`es marquees en hautes frequences, et qui se traduisent perceptivement par des sifflements tr`es desagreables pouvant nuire a` la localisation de la source virtuelle. Mais
la validation objective au niveau des oreilles du mannequin montre toujours une inversion du phenom`ene
(cf. lanalyse du probl`eme page 168). Les resultats sont rassembles sur les figures III.42 et III.43.
Sur la figure III.43(b), on remarque que les syst`emes transauraux calcules pleine bande donnent une
valeur correcte du retard de groupe sur les deux oreilles. Comme dans le cas dun dispositif de restitution
symetrique, le retard de groupe observe sur loreille contralaterale, a` laide des syst`emes calcules sur une
bande limitee, se detache nettement de la valeur ideale a` partir de 8 kHz ; pour le syst`eme implante sous
forme recursive, on constate, comme sur le module, une erreur importante autour de 5 kHz.
Retard interaural Nous avons calcule, pour chaque syst`eme transaural e tudie, le retard interaural des
signaux arrivant a` chaque oreille, et nous les avons compare avec le retard interaural theorique, c.-`a-d.
celui du signal binaural injecte a` lentree du syst`eme transaural. Comme on peut le constater sur la
figure III.44, les syst`emes transauraux bases sur le calcul de filtres RIF specifies pleine bande permettent
de retrouver la bonne valeur du retard interaural, pour tous les azimuts dans le plan horizontal ; par contre,
les syst`emes transauraux mettant en jeu des filtres RIF ou RII optimises jusqu`a 6 kHz presentent une
erreur entre les azimuts 95o et 125o (et de meme pour le secteur angulaire symetrique) : lextremum est
atteint pour 110o environ (resp. 250o ), et sa valeur est majoree de 20%.
III.3.4.3
Conclusion
Nous venons detudier deux structures de filtres transauraux, la structure classique mettant en uvre
quatre filtres RIF, et la structure shuffler, mettant en uvre quatre (ou deux par symetrie) filtres RIF ou
173
HP 10 et 310
Source 0 30
20
20
10
10
Gain en dB
Gain en dB
Oreille gauche
30
10
10
20
20
30
100
200
400
800 1.5k
3k
Frquence en Hz
5k 6k
10k
Oreille droite
30
100
20k
200
400
800 1.5k
3k
Frquence en Hz
5k 6k
10k
20k
(a) Gain
HP 10 et 310
Source 0 1.5
Retard de groupe en ms
Retard de groupe en ms
Oreille gauche
1.5
0.5
0.5
1.5
Oreille droite
0.5
0.5
8
10
12
14
Frquence en kHz
16
18
1.5
20
8
10
12
14
Frquence en kHz
16
18
20
HP 10 et 310
Source 90 30
20
20
10
10
Gain en dB
Gain en dB
HP gauche
30
10
10
20
20
30
100
200
400
800 1.5k
3k
Frquence en Hz
5k 6k
10k
30
100
20k
HP droit
200
400
800 1.5k
3k
Frquence en Hz
5k 6k
10k
20k
F IGURE III.42 Module des signaux arrivant sur chacun des haut-parleurs, dans le cas dun signal binaural
constitue de la HRIR a` 90o a` gauche injecte a` lentree du syst`eme transaural, correspondant
a` une restitution sur un haut-parleur a` 10o a` gauche et un haut-parleur a` 50o a` droite
174
HP 10 et 310
Source 90 30
20
20
10
10
Gain en dB
Gain en dB
Oreille gauche
30
10
10
20
20
30
100
200
400
800 1.5k
3k
Frquence en Hz
5k 6k
10k
Oreille droite
30
100
20k
200
400
800 1.5k
3k
Frquence en Hz
5k 6k
10k
20k
(a) Gain
HP 10 et 310
Source 90 1.5
Retard de groupe en ms
Retard de groupe en ms
Oreille gauche
1.5
0.5
0.5
1.5
Oreille droite
0.5
0.5
8
10
12
14
Frquence en kHz
16
18
1.5
20
8
10
12
14
Frquence en kHz
16
18
20
trait gras : ITD brut, traits normaux : ITD aprs crosstalk cancellation
0.8
0.6
ITD en millisecondes
0.4
0.2
0.2
0.4
0.6
0.8
0
45
90
135
180
225
Azimut en degres
270
315
360
F IGURE III.44 Retard interaural entre les signaux arrivant aux oreilles du mannequin, compare avec le
retard interaural theorique (courbe noire e paisse), pour un syst`eme de restitution non symetrique compose dun haut-parleur a` 10o a` gauche et dun haut-parleur a` 50o a` droite
175
RII ; dans cette derni`ere, les filtres peuvent e tre calcules par decomposition en module et exc`es de phase,
ce qui permet de limiter facilement lefficacite du syst`eme transaural a` 6 kHz, largeur suffisante pour
garantir la pertinence auditive des traitements effectues.
Nous avons e tudie ces structures dans le cas dun dispositif de restitution symetrique, mais aussi
dans le cas dun dispositif de restitution non symetrique. Dans ce cas, il est necessaire deffectuer une inversion compl`ete (module et phase) du determinant de la matrice de transfert e lectroacoustique ; comme
il nexiste pas de solution exacte, nous avons choisi loptimisation au sens des moindres carres, avec
regularisation par filtrage, calculee dans le domaine temporel.
Nous avons verifie objectivement que le calcul des filtres effectue directement sous forme RIF (dans
une structure classique ou une structure shuffler, symetrique ou non symetrique) permet datteindre des
resultats plus ambitieux, en regard de lannulation des trajets croises, que le calcul des filtres effectue sous
forme RIF apr`es decomposition en module et exc`es de phase (dans une structure shuffler, symetrique ou
non symetrique). Nous y voyons deux explications : dabord la seconde methode conduit a` des filtres de
longueur 512 points, puisque les fonctions de transfert directes sont stockees sur ce meme nombre de
points. Ensuite, la seconde methode induit une regularisation par limitation de la dynamique du module,
sans toucher a` lexc`es de phase ; cette methode est facile a` mettre en uvre, mais cause necessairement
une erreur sur le filtre inverse (absence dadequation entre module et phase, au niveau des zones de
regularisation) ; lerreur est cependant assez faible ici. La deuxi`eme methode permet en revanche de
limiter facilement la largeur de bande des filtres de la matrice inverse, et permet e galement de generer
des filtres RII, peu couteux en temps de calcul. Alors que la premi`ere methode permet de tailler au mieux
le filtre inverse du determinant, a` la fois en termes objectifs et perceptifs, mais gen`ere des filtres beaucoup
plus long dans la matrice inverse, do`u un cout de calcul beaucoup plus e leve.
Nous avons implante toutes ces configurations dans le logiciel Max/MSP, et nous avons effectue
un test informel. Perceptivement, il faut admettre que les syst`emes calcules pleine bande presentent des
sifflements en hautes frequences ; ce defaut nuit a` la localisation correcte de la source virtuelle, et il est
necessaire de limiter cette bande passante, par lune des deux methodes presentee au III.3.3.4.
Cependant, plus langle entre les haut-parleurs et la tete de lauditeur est faible, plus cette limite
doit e tre repoussee en hautes frequences, car le masquage de la tete est de moins en moins efficace pour
les reponses impulsionnelles contralaterales ; ainsi, pour une configuration en dipole stereophonique, les
filtres doivent e tre calcules sur une bande tr`es large [158, 160].
Les RIB contenant leffet acoustique de lhabitacle, il faut conserver un nombre dechantillons garantissant que le maximum dinformation est present. Le temps de reverberation moyen e tant de 50 ms,
176
40
40
20
20
Amplitude
Amplitude
Direct GG
60
0
20
40
60
0
20
40
500
1000
1500
Echantillons
60
2000
500
60
40
40
20
20
0
20
40
60
2000
Direct DD
60
Amplitude
Amplitude
Direct DG
1000
1500
Echantillons
0
20
40
500
1000
1500
Echantillons
60
2000
500
1000
1500
Echantillons
2000
F IGURE III.45 Fonctions de transfert entre haut-parleurs et oreilles, mesurees dans un vehicule de type Safrane
et la frequence dechantillonnage de 44,1 kHz, nous choisissons de conserver 2048 points. On pourrait
choisir un nombre de points plus e leve, mais les filtres de la matrice inverse comporteraient plus de
points, do`u un cout de calcul plus e leve. On pourrait aussi choisir un nombre de points plus faibles, mais
les basses frequences ne seraient pas totalement conservees. En tout e tat de cause, leffet dhabitacle ne
sera inverse que sur ces 2048 premiers points. Les e lements de la matrice de transfert e lectroacoustique
directe sont presentes figure III.45.
Linversion du determinant de la matrice est presente figure III.46. Nous choisissons de conserver 2048 points du determinant (sur 4095 au total), et de calculer linverse sur 2048 points e galement.
La precision du residu est de 30 dB environ, et nous la considerons comme suffisante. Linfluence de la
regularisation est clairement visible sur la figure III.46(b). Nous avons e coute linfluence de ce filtre sur
un signal musical, et il nest pas apparu de phenom`enes desagreables. Nous pouvons maintenant proceder a` la comparaison des differentes structures dinversion des trajets croises.
Nous nous proposons de comparer :
limplantation sous forme classique, conforme a` la figure III.24, et mettant en uvre quatre filtres
RIF ;
limplantation sous forme shuffler general, conforme a` la figure III.25(b), mettant en uvre quatre
filtres RIF calcules directement dapr`es le syst`eme dequations correspondantes (III.29) ;
limplantation sous forme shuffler general, conforme a` la figure III.25(b), mettant en uvre quatre
filtres RIF calcules a` partir dune decomposition en module et exc`es de phase, ce qui permet de
limiter la largeur de bande du syst`eme transaural.
Dans les deux premiers cas, la longueur des filtres de la matrice inverse est donc de 4095 points,
puisque les filtres directs comportent 2048 points et que linverse du determinant de la matrice, dont
on a conserve les 2048 premiers points, est e galement calcule sur 2048 points. Dans le dernier cas, la
longueur des filtres de la matrice inverse est de 4096 points, puisque pour eviter le repliement temporel
dans le calcul de linverse du determinant, la decomposition en module et exc`es de phase est effectuee
sur 4096 points.
La regularisation par limitation de la dynamique du module, effectuee lors de linversion du determinant dans limplantation shuffler general a` bande limitee, gen`ere ici des erreurs beaucoup plus impor-
177
Rponse en frquence
40
lin
0.5
20
0
dB
0
0.5
1
20
0
500
1000
1500
2000
2500
3000
3500
4000
4500
40
0.5
lin
60
20
Filtre direct
Filtre inverse
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
0
40
0.5
500
1000
1500
2000
2500
20
Rsidu
dB
dB
20
20
40
60
40
80
100
Rsidu
0
1000
2000
3000
Echantillons
4000
5000
60
20
6000
(a) Signaux
50
F IGURE III.46 Inversion du determinant de la matrice de transfert e lectroacoustique directe, dans le cas
dune e coute dans un vehicule de type Safrane
tantes que dans le cas o`u le syst`eme transaural est calcule pour e tre restitue en chambre anechoque. Cet
effet est du aux nombreuses zones du module devant subir loperation de regularisation. Il faut donc a` tout
prix effectuer le calcul de lapproximation du filtre inverse en utilisant une technique de regularisation
par filtrage, nettement plus onereuse, mais nettement plus precise.
Dautre part, la modelisation des filtres de la matrice inverse sous forme RII est compl`etement illusoire.
Sur les figures suivantes, les couleurs sont reparties comme suit :
bleu ! implantation classique
bleu plus clair ! implantation generale shuffler, avec quatre filtres RIF
vert ! implantation generale shuffler, avec quatre filtres RIF calcules a`
partir dune decomposition en module et exc`es de phase, avec
limitation de la largeur de bande du syst`eme transaural
Annulation des trajets croises Sur la figure III.47, on peut constater que les filtre calcules remplissent
globalement leur role. Les trajets directs sont correctement restitues, mis a` part une leg`ere faiblesse en
basses et hautes frequences, due a` la regularisation ; il en est de meme autour de 500 Hz.
Pour les trajets croises, on constate que ceux-ci subissent une rejection superieure a` 20 dB a` partir
de 200 Hz ; la limitation en hautes frequences est parfaitement visible pour le syst`eme represente par la
courbe verte.
Fonctions de transfert Les signaux arrivant aux oreilles du mannequin acoustique apr`es passage dans
le syst`eme transaural et dans le syst`eme e lectroacoustique, sont presentes figure III.48 ; la courbe noire
represente toujours la fonction de transfert du signal binaural injecte. Le syst`eme transaural ayant e te
calcule a` partir des mesures de RIB non e galisees par la fonction de transfert en champ diffus du mannequin, nous avons aussi utilise des signaux binauraux non e galises (`a la difference de la validation en
chambre sourde). On peut constater que tous les syst`emes e tudies permettent de retrouver globalement
ce signal aux oreilles du mannequin, meme si il apparat clairement des antiresonances sur les modules
des fonctions de transfert des signaux passes au travers du syst`eme transaural et du syst`eme e lectroacous-
178
DG
20
20
dB
20
dB
20
40
40
60
60
80
50 100 200 400 800 1.5k 3k 5k
80
50 100 200 400 800 1.5k 3k 5k
10k 20k
GD
10k 20k
DD
20
20
dB
20
dB
20
40
40
60
60
80
50 100 200 400 800 1.5k 3k 5k
Frquence en Hz
80
50 100 200 400 800 1.5k 3k 5k
Frquence en Hz
10k 20k
10k 20k
F IGURE III.47 Gains des fonctions de transfert des trajets acoustiques entre chaque haut-parleur et chaque
oreille, pour trois implantations differentes du syst`eme transaural, correspondant a` une restitution binaurale sur les deux haut-parleurs avant dun vehicule de type Safrane
tique. Ces antiresonances ont lieu aux alentours de 500 Hz, region qui correspond a` une regularisation
importante (cf. fig. III.46(b)) ; nous avions dej`a note cette faiblesse sur la figure III.47 representant les
gains des fonctions de transfert des trajets acoustiques directs. Mis a` part ces imperfections, les modules
des fonctions de transfert binaurales sont correctement reproduits. On notera aussi que le syst`eme transaural a` bande limite est moins precis en hautes frequences, mais cela est justifie par des considerations
perceptives dont nous nous sommes dej`a fait lecho.
Retard interaural Nous avons calcule, pour chaque syst`eme e tudie, le retard interaural (ITD) des
signaux arrivant sur chaque oreille, entre 200 Hz et 5000 Hz. La methode de calcul utilisee (regression lineaire sur lexc`es de phase) impose de considerer que le syst`eme transaural annule compl`etement
lacoustique de lhabitacle ; le calcul des filtres transauraux e tant effectues a` partir des 2048 premiers
points de la matrice de transfert e lectroacoustique directe, le calcul des signaux arrivant aux oreilles
doit e tre effectue en ne considerant que ces memes 2048 premiers points. Nous avons alors compare ce
retard interaural avec le retard interaural theorique, obtenu a` partir de mesures de HRIR effectuees en
chambre sourde (cf. fig. III.49). Les resultats sont tr`es satisfaisants, et confirment que lon est en mesure
de percevoir une localisation correcte des sources sonores virtuelles.
Correlation interaurale Nous avons e galement calcule lintercorrelation des signaux arrivant sur chacune des oreilles du mannequin, en considerant cette fois la totalite des fonctions de transfert directes
(leffet dhabitacle nest donc que partiellement annule). En reperant linstant darrivee du maximum de
cette correlation, on peut en deduire le retard interaural (ITD) et le coefficient IACC (cf. III.4.1). Le
calcul a e te mene lorsquun signal binaural est injecte a` lentree du syst`eme transaural, puis diffuse par
les haut-parleurs du vehicule, et capte par les oreilles du mannequin place en position conducteur. La
correlation interaurale reste tr`es e levee, meme pour une source virtuelle localisee a` 90o a` gauche, c.-`a-d.
179
Vhicule b54/adams, HP WY
Source 0 20
10
10
0
Gain en dB
Gain en dB
Oreille gauche
20
10
10
20
20
30
30
40
100
200
400
800 1.5k
3k
Frquence en Hz
5k6k
10k
20k
Oreille droite
40
100
200
400
800 1.5k
3k
Frquence en Hz
5k6k
10k
20k
10
10
20
Source 330 20
10
10
0
Gain en dB
10
10
20
20
20
30
30
30
400
800 1.5k
3k
Frquence en Hz
5k6k
10k
40
100
20k
200
400
800 1.5k
3k
Frquence en Hz
5k6k
10k
40
100
20k
200
400
10
10
5k6k
10k
40
100
20k
Oreille droite
Source 300 20
10
10
10
10
10
20
20
20
30
30
30
30
40
100
40
100
40
100
400
800 1.5k
3k
Frquence en Hz
5k6k
10k
20k
200
400
800 1.5k
3k
Frquence en Hz
5k6k
10k
20k
200
400
10
800 1.5k
3k
Frquence en Hz
5k6k
10k
40
100
20k
Oreille droite
Source 270 20
10
10
10
10
20
20
20
30
30
30
400
800 1.5k
3k
Frquence en Hz
5k6k
10k
40
100
20k
200
400
800 1.5k
3k
Frquence en Hz
5k6k
10k
40
100
20k
200
400
10
10
5k6k
10k
40
100
20k
Oreille droite
Source 240 20
10
10
Gain en dB
10
20
30
30
30
30
40
100
40
100
40
100
5k6k
10k
20k
200
400
800 1.5k
3k
Frquence en Hz
5k6k
10k
20k
5k6k
10k
20k
5k6k
10k
20k
Oreille droite
200
400
800 1.5k
3k
Frquence en Hz
5k6k
10k
20k
Oreille droite
10
20
800 1.5k
3k
Frquence en Hz
800 1.5k
3k
Frquence en Hz
10
20
400
400
Vhicule b54/adams, HP WY
Oreille gauche
20
20
200
200
0
Gain en dB
10
800 1.5k
3k
Frquence en Hz
Gain en dB
Oreille gauche
20
20k
10
30
200
10k
10
20
40
100
5k6k
Oreille droite
Vhicule b54/adams, HP WY
Oreille gauche
20
Gain en dB
10
Gain en dB
Source 90 20
800 1.5k
3k
Frquence en Hz
Gain en dB
Oreille gauche
20
400
10
20
200
200
Vhicule b54/adams, HP WY
Oreille gauche
20
Gain en dB
Source 60 20
800 1.5k
3k
Frquence en Hz
Gain en dB
20
Gain en dB
Gain en dB
Oreille gauche
Gain en dB
10
30
200
Oreille droite
10
20
40
100
Gain en dB
Vhicule b54/adams, HP WY
Oreille gauche
0
Gain en dB
Gain en dB
Oreille droite
Gain en dB
Oreille gauche
20
200
400
800 1.5k
3k
Frquence en Hz
5k6k
10k
20k
40
100
200
400
800 1.5k
3k
Frquence en Hz
F IGURE III.48 Module des signaux arrivant sur chacune des oreilles du mannequin, correspondant a` une
restitution binaurale sur les deux haut-parleurs avant dun vehicule de type Safrane
180
0.6
ITD en millisecondes
0.4
0.2
0.2
0.4
0.6
0.8
0
45
90
135
180
225
Azimut en degres
270
315
360
F IGURE III.49 Retard interaural entre les signaux arrivant aux oreilles du mannequin, compare avec le
retard interaural theorique (courbe noire e paisse), pour une restitution binaurale sur les deux
haut-parleurs avant dun vehicule de type Safrane
a` lexterieur de lhabitacle, que nous sommes parfaitement en mesure de localiser avec precision.
III.3.5.2
Les syst`eme transauraux que nous avons e tudies ont e te implantes dans le logiciel Max/MSP, et
nous avons effectue un test informel en vehicule. Le positionnement de sources virtuelles a` droite du
conducteur est correct, mais il est un peu moins satisfaisant a` gauche, au fur et a` mesure que lon secarte
de la direction frontale. Cependant, le positionnement de deux sources virtuelle a` 30o nous a paru
convaincant ; lobjectif que nous nous e tions fixe est donc atteint.
Dans le meme temps, nous avons annule de leffet acoustique de lhabitacle (sur les 2048 premiers
points), et il devient alors possible dajouter un effet de salle plus en accord avec le message musical
choisi par lauditeur.
De mani`ere auditive, nous avons pu nous apercevoir que la zone decoute optimale est assez reduite,
et le positionnement de lauditeur assez sensible. Lextension de la zone decoute est de lordre de moins
dune dizaine de centim`etres de gauche a` droite ; elle est cependant plus importante davant en arri`ere. Ce
resultat nest pas e tonnant, dans la mesure o`u le phenom`ene bien connu existe aussi lors dune restitution
en chambre sourde.
De mani`ere objective, nous avons examine la robustesse du syst`eme en utilisant les filtres transauraux calcules pour une e coute au point A avec les reponses impulsionnelles binaurales mesurees au
point B. Pour cela, nous avons utilise des mesures effectues le meme jour, mais avec une position differente du si`ege sur lequel e tait pose le mannequin (assise reculee et dossier penche) ; la position des
oreilles a varie de plus de dix centim`etres dans les trois directions de lespace.
Sur la figure III.51, on peut constater que lannulation des trajets croises est de lordre de 10 dB
jusque 2 kHz, et inexistante au-del`a.
Par contre, lITD calcule en basses frequences entre 200 et 500 Hz est assez bien reproduit, comme
on peut le constater figure III.52. Globalement, les valeurs sont sous-evaluees. Lallure generale de la
courbe est conservee pour les azimuts compris entre 0o et 180o , c.-`a-d. a` gauche de lauditeur ; en revanche, il nen est pas de meme pour les azimuts compris entre 225o et 330o . On peut donc craindre une
181
Maximum de lintercorrlation
IACC
1
0.8
0.6
0.4
0.2
0
125
250
500
1k
2k
Bande de frquence en Hz
4k
8k
4k
8k
ITD
1
Temps en ms
0.5
0.5
125
250
500
1k
2k
Bande de frquence en Hz
Maximum de lintercorrlation
IACC
1
0.8
0.6
0.4
0.2
0
125
250
500
1k
2k
Bande de frquence en Hz
4k
1
0.8
0.6
0.4
0.2
0
8k
125
250
0.5
0.5
0.5
125
250
500
1k
2k
Bande de frquence en Hz
4k
125
250
Maximum de lintercorrlation
Maximum de lintercorrlation
8k
IACC
0.8
0.6
0.4
0.2
125
250
500
1k
2k
Bande de frquence en Hz
500
1k
2k
Bande de frquence en Hz
IACC
4k
1
0.8
0.6
0.4
0.2
0
8k
125
250
ITD
500
1k
2k
Bande de frquence en Hz
4k
8k
4k
8k
ITD
0.5
0.5
Temps en ms
Temps en ms
4k
8k
0.5
8k
0.5
4k
ITD
Temps en ms
Temps en ms
ITD
500
1k
2k
Bande de frquence en Hz
0.5
125
250
500
1k
2k
Bande de frquence en Hz
4k
8k
125
250
500
1k
2k
Bande de frquence en Hz
F IGURE III.50 IACC et ITD calcules sur les signaux arrivant sur les oreilles du mannequin, correspondant
a` une restitution binaurale sur les deux haut-parleurs avant dun vehicule de type Safrane
182
Vhicule b54/adams, HP WY
GG
DG
20
20
dB
20
dB
20
40
40
60
60
80
50 100 200 400 800 1.5k 3k 5k
80
50 100 200 400 800 1.5k 3k 5k
10k 20k
GD
10k 20k
DD
20
20
dB
20
dB
20
40
40
60
60
80
50 100 200 400 800 1.5k 3k 5k
Frquence en Hz
80
50 100 200 400 800 1.5k 3k 5k
Frquence en Hz
10k 20k
10k 20k
F IGURE III.51 Idem figure III.47, mais pour une position differente du mannequin acoustique
trait gras : ITD brut, traits normaux : ITD aprs crosstalk cancellation
0.8
0.6
ITD en millisecondes
0.4
0.2
0.2
0.4
0.6
0.8
0
45
90
135
180
225
Azimut en degres
270
315
360
F IGURE III.52 Idem figure III.49, mais pour une position differente du mannequin acoustique
183
erreur sur la localisation dune source. Cette erreur aura des consequences dautant plus importantes que
la source est fixe. Car dans le cas dune source en mouvement, celui-ci sera correctement percu, tout au
moins si la source e volue entre -30o et 225o .
Il est necessaire, a` ce stade, denvisager un test decoute plus rigoureux, a` plus large e chelle, ayant
pour but de quantifier les erreurs de localisation, et donc daffiner les param`etres de reglage du syst`eme
transaural.
III.3.5.3
Propositions damelioration
Il existe plusieurs limitations a` notre application : le cout de calcul est important, la zone decoute
est reduite, et dans une plus large mesure le syst`eme nest valable que pour un seul auditeur.
de calcul Limplantation dun des deux syst`emes transauraux (sous forme clasDiminution du cout
sique ou sous forme shuffler) met en uvre quatre filtres de longueur 4096 points. La convolution en
temps reel sans retard dun signal stereophonique avec ces quatre filtres est assez couteuse ; mais labsence de retard netant pas une exigence, on peut utiliser un algorithme de convolution rapide base sur la
FFT (cf. C.1.5).
On pourrait envisager de ne garder quun nombre plus restreint de points dans les reponses impulsionnelles binaurales, mais la performance du syst`eme irait en diminuant.
Il serait par contre interessant de tester lapproche envisagee par Kahana [149], qui preconise de
mesurer la matrice de transfert e lectroacoustique directe en chambre anechoque, avec les deux porti`eres
compl`etes et le si`ege dans une position identique a` celle existant dans le vehicule. Les performances
se rapprochent de celles atteintes en chambre sourde : une source virtuelle apparat dans une direction
unique. Meme si les directions laterales restent problematiques du cote de la vitre, les directions a` 30o a`
gauche et a` droite sont tout-`a-fait satisfaisantes. De plus, ces images ne semblent pas disparatre lorsque
lauditeur bouge leg`erement la tete (translation ou rotation).
Les reponse impulsionnelles directes ne contenant pas la reverberation, linversion du determinant
de la matrice de fonctions de transfert directe est moins problematique ; une faible regularisation est suffisante. Mais il sagit dun compromis : ne sont inversees que les caracteristiques les plus importantes des
reponses impulsionnelles ; le syst`eme fonctionne correctement grace principalement aux temps darrivee
et aux amplitudes des ondes sonores qui se rapprochent tr`es fortement de celles obtenues en chambre
sourde. Mais des erreurs sont inevitables, car la reverberation naturelle de lhabitacle est laisse inchange,
et les nombreuses reflexions sur les vitres et le toit degradent la precision de la localisation de la source
virtuelle.
Le cout de calcul est inevitablement reduit, puisquon peut se contenter de mesurer les reponses
impulsionnelles directes sur 256 points, et de calculer les filtres inverses sur 512 points.
Une autre approche pour diminuer le nombre de points dun filtre inverse, en degradant de mani`ere
limitee la performance de linversion, consiste a` utiliser la technique du warping temporel (cf. C.1.9)
sur le filtre RIF dont on veut calculer linverse [75, 165], en loccurence ici le denominateur de la matrice
de transfert directe. En effet, on peut montrer que linformation basses frequences est conservee dans les
premiers e chantillons du filtre warpe, tandis que linformation hautes frequences est rejetee dans les derniers e chantillons. Le principe est alors de tronquer le filter warpe, ce qui permet de conserver la majeure
partie de linformation en basses frequences (une troncature a` 10% est typiquement envisageable), avant
deffectuer linversion (cf. fig. III.53). Si lon veut filtrer un signal par ce filtre warpe inverse, il est necessaire dutiliser une convolution avec warping inverse integre, c.-`a-d. une convolution dans laquelle le
retard conventionnel z 1 est remplace par un filtre passe-tout z 1 r =
rz 1 (cf. fig. C.7), avec
r le facteur de warping prenant la valeur opposee de celle ayant servi a calculer le filtre warpe.
184
) (1
signal brut
convolution avec
warping inverse intgr
signal filtr
warping temporel
rponse impulsionnelle
F IGURE III.53 Principe de calcul et dutilisation dun filtre inverse dans le domaine warpe
Mais il faut noter que le warping inverse du retard de modelisation (cf. procedure de calcul dun
filtre inverse) entrane une erreur sur la phase. Un simple retard de p e chantillons devient un filtre passetout ayant p poles a` z
r et p zeros a` p
=r ; en consequence, le warping dun retard pur devient
une sequence infiniement longue, dont le retard de groupe a` une forme exponentielle. La distorsion de
la reponse en phase est importante en hautes frequences lorsque r est positif (les hautes frequences sont
plus retardees que les basses), elle est importante en basses frequences lorsque r est negatif (les basses
frequences sont plus retardees que les hautes). Cette distorsion de la reponse en phase des filtres peut
e tre compensee par filtrage FIR dans le domaine non warpe avec la reponse impulsionnelle retournee du
filtre correspondant au retard pur dans le domaine warpe.
Cependant, cette distorsion en phase e tant la meme pour chaque filtre du syst`eme transaural, elle ne
trouble pas linformation temporelle relative contenue dans un signal binaural. Dapr`es Kirkeby [165], la
distorsion de la phase induite par le retour dans le domaine non warpe dun retard de 16 ou 32 e chantillons
(correspondant a` des filtres de longueur 32 ou 64 points) est parfaitement inaudible en pratique ; cela est
en accord avec les e tudes menees par Karjalainen [154] qui sugg`ere quun retard de groupe inferieur a`
5 ms est parfaitement acceptable. Dans notre cas, ce seuil devrait encore e tre plus e leve car le retard de
groupe du filtre dans le domaine non warpe est une fonction tr`es lisse.
=1
Elargissement
de la zone decoute Les performances de localisation se degradent substantiellement
lorsque lauditeur nest plus dans la zone decoute ideale, plus connue sous lappellation sweet spot ; les
dimensions de cette zone se mesurent en centim`etres. Ce phenom`ene est bien connu dans le cas dune
restitution en chambre anechoque [15, 187, 235, 313], et il est encore plus critique lors de la presence
de reflexions parasites [88, 186].
En chambre anechoque, on peut montrer que letendue de cette zone decoute optimale varie avec
la frequence et la geometrie du dispositif de restitution ; pour resumer (dans le cas dun dispositif de
restitution symetrique) :
une reduction de langle entre les haut-parleurs et la tete de lauditeur diminue le volume de la
boule decoute pour les octaves graves (63, 125 et 250 Hz) ;
pour les octaves moyennes (500 et 1000 Hz), langle naffecte pas de mani`ere significative le
volume de la boule decoute optimale ;
pour les octaves en hautes frequences (2 et 4 kHz), de faibles angles (inferieurs a` 15o ) produisent
une zone decoute plus large que celle obtenue avec des angles plus e leves (superieurs a` 30o ) ;
cependant, de faibles angles ne permettent pas de tirer profit de la separation naturelle effectuee
par le masquage de la tete en hautes frequences.
Les experiences faites dans le cas dun dispositif de restitution non symetrique, mais toujours en
chambre anechoque, montrent que la robustesse aux mouvements lateraux est identique au cas dun
dispositif de restitution symetrique [273].
185
Et dapr`es les investigations effectuees par Kahana en vehicule [149], un deplacement lateral de
deux centim`etres suffit a` provoquer des colorations dans les fonctions de transfert calculees au niveau
des oreilles de lauditeur ; ces colorations sont dues au decalage entre les RIB ayant servi a` calculer le
syst`eme transaural et les RIB effectives. Mais ceci na pas e te verifie par un test decoute, pas plus que
la degradation de la localisation (il est en effet possible que les colorations parasites constatees objectivement soient interpretees par loreille en terme de modifications de la localisation).
C ONFIGURATION
` RE
PARTICULI E
Farina [16] a e value limplantation en vehicule dun syst`eme transaural en configuration de dipole
stereophonique [160] ; en effet, il est bien connu que cette configuration permet davoir une zone decoute
dautant plus large que les haut-parleurs de reproduction sont proches lun de lautre. Il a pour cela place
deux petits haut-parleurs face a` la tete du conducteur, formant un angle de 5o par rapport au plan median de la tete. Il obtient bien e videmment des performances tr`es importantes en terme de localisation, de
qualite sonore, et de taille de la zone decoute. Mais une telle configuration est difficilement envisageable
dans un vehicule de serie, sauf si lon utilise des haut-parleurs plats inseres dans la planche de bord. De
telles structures ont dailleurs recemment fait leur apparition [7, 271].
AUGMENTATION
DU NOMBRE DE CANAUX
186
QUENCES
EN DEUX BANDES DE FR E
Une approche interessante consiste a` separer le syst`eme transaural en deux bandes de frequences
[14]. Bauck part du principe que le volume de la boule ideale de restitution varie avec la frequence
(les hautes frequences sont plus affectees que les basses frequence, car le deplacement de lauditeur
correspond a` une plus grande fraction de la longueur donde). Lidee consiste a` separer la voie gauche et
la voie droite en deux bandes de frequences (basse et haute), et a` les diffuser par des haut-parleurs separes
(woofer et tweeter). Les tweeters sont places proches lun de lautre (typiquement 3o ), et comme ils
recoivent un signal pauvre en basses frequences, ils ne sont pas sujets aux niveaux importants qui peuvent
survenir dans cette configuration en basses frequences ; et comme ils sont proches, ils gen`erent une boule
decoute ideale e tendue en hautes frequences. Les woofers sont au contraire places loin lun de lautre
(typiquement 20o ), et comme ils recoivent un signal pauvre en hautes frequences, ils nimposent pas de
boule decoute reduite en hautes frequences. La frequence de separation a e te choisie par Bauck e gale
a` 1 kHz. Tous les haut-parleurs sont supposes e tre alignes (physiquement ou e lectroniquement par ajout
de retards).
Le syst`eme a e te teste pour un dispositif de restitution symetrique. Sur la figure III.23(a), les fonctions de transfert S et A deviennent
S
A
=
=
Cw Sw + Ct St
Cw At + Ct At
(III.40)
ADAPTATIVE
Ce principe a surtout e te utilise pour legalisation de la fonction de transfert dune salle en de multiples points [71]. Il consiste a` ajuster les coefficients du filtre afin de minimiser la somme des carres des
erreurs entre la reponse e galisee en de nombreux points dans la salle et une version retardee du signal
original. Le filtre degalisation permet dobtenir une reponse en frequence plus uniforme dans un plus
grand volume que si le filtre avait e te specifie en un seul point. Elliott presente une generalisation multicanaux de lalgorithme LMS filtre [318] (pour un filtre inverse RIF), et de lalgorithme de Eriksson [73]
(pour un filtre inverse RII).
Une application de ce principe a` lelargissement de la zone decoute dun syst`eme transaural peut
187
111111111
000000000
000000000
111111111
000000000
111111111
000000000
111111111
largeur apparente de la source
enveloppement
III.4.1.1
Approche classique
Lapproche classique ne prend en consideration que les phenom`enes acoustiques des lieux decoute.
188
Largeur apparente de la source Il est bien connu quun des crit`eres objectifs relies a` la largeur apparente de la source (ASW) est la correlation interaurale, ou IACC (Inter Aural Cross Correlation). Ce
coefficient mesure lintercorrelation des signaux parvenant aux deux oreilles ; en effet, les signaux parvenant aux deux oreilles ne sont toujours que partiellement correles entre eux, voire totalement incoherents,
du fait des processus de distorsion subits au cours de leur trajet. Pour un signal en champ libre, les deux
signaux parvenant a` chaque oreille diff`erent par leur intensite et leur date darrivee, en fonction de langle
dincidence de la source (sauf si elle est dans le plan median). Ce crit`ere est base sur la fonction de correlation interaurale normalisee gd t mesuree avec une tete artificielle, entre les temps dintegration t1
et t2 , c.-`a-d.
R t2
t hg t hd t t ,
qR 1
gd
(III.41)
R t2
t2 2
2
h
t
t
h
t
t
t1 g
t1 d
()
( ) ( + )d
( )d
( )d
( )=
()
()
avec hg t et hd t les signaux de pression arrivant aux oreilles gauche et droite. La valeur de IACC
correspond au maximum de cette fonction de correlation, c.-`a-d.
IACC
= jmax
j ( )j .
j1 ms gd
(III.42)
Compte tenu des dimensions moyennes de la tete dun auditeur, la position du maximum nexc`ede jamais 1 ms. Les maxima de la fonction gd t traduisent lexistence de directions dincidence privilegiees
dans le champ sonore. On peut donc utiliser la mesure de la correlation interaurale pour decrire la repartition directionnelle de lenergie. Ce crit`ere est toujours compris entre 0 et 1, et sa valeur est minimale
lorsquil nexiste aucune direction preponderante. Il permet donc devaluer le caract`ere diffus du champ.
Il est traditionnellement e value dans plusieurs bandes doctaves. Pour une revue detaillee de ce crit`ere,
et pour son utilisation dans la caracterisation acoustique des salles de concert, le lecteur se reportera
a` [27, 52, 124, 125, 150, 289].
()
ASW est correle negativement avec IACC, c.-`a-d. quune faible correlation interaurale rend compte
dune largeur apparente de la source importante. Des e tudes ont e te menees pour verifier si il existait
une relation entre la direction de provenance des reflexions et la largeur apparente de la source [217] ;
il ressort que la largeur apparente de la source percue dans des champs sonores differents, mais avec
le meme taux de correlation interaurale, est identique, quels que soient le nombre et la direction de
provenance des reflexions. Cependant, dans le cas o`u le retard des premi`eres reflexions est tr`es faible,
en loccurrence inferieur a` 4 ms (ce qui est le cas dans un habitacle de vehicule automobile), Morimoto
montre que la largeur apparente de la source decroit lorsque ces reflexions proviennent dune direction
de plus en plus frontale [214].
Dautres auteurs ont e tudie linfluence des premi`eres reflexions laterales sur limpression despace
[11]. Cet effet est lineairement dependant dune mesure objective, la fraction denergie laterale precoce,
ou LEF (Lateral Energy Fraction), correspondant au rapport entre lenergie laterale et lenergie totale,
dans les 80 premi`eres millisecondes, c.-`a-d.
LEF
= 10log10
R 80
2
5 Rp (t)cos()dt ,
80
0 p2 (t)dt
(III.43)
o`u est langle entre la direction darrivee de la reflexion et laxe imaginaire traversant les deux oreilles
de lauditeur. La limite de 80 ms apr`es larrivee du son direct est fixee par Barron comme e tant la fronti`ere
entre les e v`enements precoces et les e v`enements tardifs. Dans la pratique, on mesure lefficacite laterale
a` laide de deux microphones, lun ayant une directivite dipolaire, lautre omnidirectionnel, c.-`a-d.
R 80
LEF
(III.44)
()
()
o`u pL t represente la pression mesuree avec le microphone dipolaire, et p t represente la pression mesuree avec le microphone omnidirectionnel. Linconvenient de cette representation est quen procedant
ainsi, on obtient une e nergie laterale qui est ponderee par le carre dun cosinus. Kleiner [168] propose
donc une nouvelle methode de calcul qui sapproche davantage du calcul theorique, c.-`a-d.
LEFC
= 10log10
R 80
()
(III.45)
()
[1
[1
[1
Enveloppement sonore Dapr`es Morimoto [213], le rapport denergie avant/arri`ere affecte de mani`ere
significative lenveloppement (LEV) : celui-ci augmente quand le rapport diminue. De plus, ce rapport
e nergetique na aucune influence sur la largeur apparente de la source (ASW) si la valeur du crit`ere
IACC est maintenue constante. Morimoto va meme plus loin en examinant la contribution relative des
premi`eres reflexions et des reflexions tardives du rapport e nergetique avant/arri`ere [218] ; le resultat le
plus important de cette e tude est que la contribution des reflexions precoces et tardives sur lenveloppement est identique.
Dautre part, on constate que lenveloppement augmente lorsque le rapport entre lenergie du son
direct et lenergie du champ reverbere augmente, de meme lorsque le temps de reverberation augmente [10, 98, 118, 216]. Plus precisement, lenveloppement (LEV) est relie aux niveaux, aux directions
et aux temps darrivee des reflexions tardives ; il est meme montre que lorsquon augmente la sensation
denveloppement, la sensibilite aux changements de la largeur apparente de la source decrot [28]. Bradley [29] propose un crit`ere objectif de mesure de lenveloppement, appele gain lateral, ou LG (Lateral
Gain), correspondant au rapport entre le niveau de pression du champ sonore tardif capte par un microphone dipolaire pL t et le niveau de pression capte du champ sonore global capte par un microphone
()
190
R1
t
= 10log10 R801 pp2L((tt)d
)dt .
(t), c.-`a-d.
(III.46)
2
= 10log10 (GG((tt))2 +DD(t())t)e2g ;
(III.47)
legalisation de la difference des deux signaux gauche et droit est effectuee en dessous de 300 Hz et
consiste en une rampe de 6 dB par octave (elle sert a` compenser la reduction de la difference interaurale
en champ diffus). Ce crit`ere peut e tre calcule a` partir de reponses impulsionnelles binaurales, mais aussi
a` partir de signaux binauraux enregistres.
Tous ces crit`eres ne sont pas applicables tels quels dans les petites salles en raison des bornes
temporelles bien trop e lev`ees ; il conviendrait, dans le cas de lecoute en vehicule, de determiner experimentalement la limite temporelle entre les e v`enements precoces et les e v`enements tardifs.
III.4.1.2
Une autre approche, developpee par Griesinger [107, 108, 110, 112], met laccent sur la reproduction du son dans un environnement clos, par lintermediaire dun dispositif e lectroacoustique. Griesinger
ne prend pas seulement en compte les informations que lon peut extraire de la reponse impulsionnelle
acoustique, mais il e tudie e galement le contenu du message sonore diffuse et met laccent sur la separation du message sonore en flux. Il sinteresse de plus a` la geometrie du dispositif de reproduction
e lectroacoustique. Il a en outre mene des e tudes dans les petites salles [109].
Les grandes salles sont capables de generer une sensation despace et denveloppement sur des
signaux de parole ou de musique. Mais dans une petite salle, telle un studio decoute ou un habitacle de
191
vehicule automobile, cette perception est absente. La tache de creation dune impression despace dans
un environnement inhospitalier incombe donc a` lingenieur du son (au moment de lenregistrement) ou
au concepteur du syst`eme audio (au moment de la reproduction). Bien que les phenom`enes physiques et
psychacoustiques qui sous-tendent ce processus ne fassent pas encore lunanimite, on peut dire que la
sensation despace est gouvernee par :
1. La detection de lenergie des reflexions a` travers les variations rapides de la difference de temps
interaural, ou ITD (Interaural Time Delay), et de la difference de niveau interaural, ou ILD (Interaural Level Difference) ; ces fluctuations sont crees par les interferences entre le son direct et les
multiples reflexions qui proviennent de directions differentes.
2. Un processus de segregation auditive qui separe un son en plusieurs flux davant-plan et un flux
darri`ere-plan. Les flux davant-plan sont composes dev`enements sonores qui ont le meme timbre,
la meme localisation, ou le meme (( sens )). Les sons qui ne sont pas identifiables en tant quev`enements precis, ou qui ne peuvent e tre groupes en un flux davant-plan, forment le flux darri`ere-plan.
Ce sont les proprietes spatiales de ce flux darri`ere-plan qui donnent naissance a` une perception
despace et denveloppement.
Le processus de separation decrit ci-dessus nest pas toujours possible, par exemple avec un ensemble dinstruments a` corde jouant lentement et legato. Dans ce cas, la perception despace est differente (et meme plus faible) que si un flux darri`ere-plan avait pu e tre forme. Donc la perception despace
depend du type de musique, et de la mani`ere dont elle a e te jouee et enregistree. Pour apprecier pleinement la perception despace, il est necessaire quil y ait du vide entre les e v`enements sonores (ce qui est
le cas avec la parole). De plus, on peut montrer que meme avec un enregistrement sonore comportement
beaucoup dintervalles blancs, la geometrie du reseau de haut-parleurs influence fortement ce que nous
percevons. Lobjectif est donc ici de maximiser les fluctuations de lITD et de lILD au niveau des oreilles
de lauditeur, particuli`erement durant les portions de signal reverbere present sur lenregistrement. Nous
desirons maximiser ces fluctuations pour une zone decoute aussi large que possible.
Les multiples reflexions laterales interf`erent avec le son direct, et sont a` lorigine des fluctuations
de lITD et de lILD. Lamplitude des fluctuations est proportionnelle a` lenergie des reflexions. La frequence des fluctuations depend de plusieurs facteurs, notamment le vibrato du signal musical. Lorsque
la frequence des fluctuations est inferieure a` 3 Hz, celles-ci sont percues comme une modification de la
position de la source ; des fluctuations plus rapides causent un e largissement apparent de la source, ou
une perception dune source plus e troite en presence dun effet (( surround )).
Lorsque le son direct est continu, et ne peut pas e tre separe en differents e v`enements sonores, lenergie reflechie et les fluctuations interaurales correspondantes donnent naissance a` une sensation despace
qui est relie au son direct. Cette sensation peut e tre compl`etement enveloppante. Cependant, lorsque le
niveau sonore global de la source augmente, limpression despace ne varie pas. Cest en variant le rapport entre le le son direct et le champ reverbere que lon peut faire varier cette impression. Griesinger
appelle cette sensation limpression continue despace, ou CSI (Continuous Spatial Impression).
Lorsque le son direct peut e tre separe en differents e v`enements sonores, de sorte que lon puisse
former un flux davant-plan, la perception despace se separe en deux, suivant le retard des reflexions.
Lenergie reverberee qui arrive pendant un ev`enement sonore, et dans les 50 ms qui suivent la fin de cet
e v`enement, est percue comme faisant partie de lev`enement lui-meme. Griesinger appelle cette sensation
limpression precoce despace, ou ESI (Early Spatial Impression). Comme CSI, ESI ne varie pas si le
niveau global du son est modifie. Cependant, a` la difference de CSI, ESI nest dordinaire pas totalement
enveloppant. ESI est percue comme provenant de la meme direction que la source sonore.
ESI est limpression despace des petites salles. Dans ce cas, leffet de salle est limite a` la source, et
il ny a ni impression despace ni sensation denveloppement.
192
Quand les dimensions de la salle sont suffisamment larges pour quune quantite substantielle denergie arrive plus de 50 ms apr`es larret du son direct, on percoit une impression despace darri`ere plan,
ou BSI (Background Spatial Impression). Si cette e nergie est spatialement diffuse, alors les fluctuations
` la difference de
de lILD et de lITD sont maximales, et resulte une forte sensation denveloppement. A
ESI et CSI, la perception de BSI nest pas limitee a` la direction de provenance du son direct, et est independante du rapport entre lenergie du son direct et lenergie du champ reverbere. BSI depend fortement
du niveau global de la soure, et du niveau de lenergie reverberee autant que du temps de reverberation.
Pour produire cette sensation despace, il est absoluement necessaire que le message sonore puisse e tre
scinde en flux de plusieurs ev`enements ; en effet, BSI ne se produira jamais a` larret dun seul ev`enement
sonore (ou a` la fin dun morceau de musique). BSI peut seulement e tre percue dans les intervalles entre
les e v`enements sonores davant-plan.
Dans lacoustique des petits espaces, comme dans les grandes salles, on se ref`ere principalement
a` la perception de BSI lorsque lon parle de lenveloppement. Nous sommes donc assez sensibles aux
proprietes spatiales du son qui arrive 50 ms apr`es la fin du son direct. En fait, notre sensibilite a` BSI augmente pour atteindre un maximum aux alentours de 160 ms apr`es la fin dun e v`enement davant-plan.
Malheureusement, il y a tr`es peu denergie dans une petite salle 160 ms apr`es la fin dun e v`enement
sonore ; dans un habitacle automobile, il ny en a meme plus apr`es 50 ms ! Donc, si nous voulons recreer
cette sensation despace, il faut lajouter sur lenregistrement, ou par des traitements e lectroniques lors
de la restitution.
En hautes frequences, dapr`es les e tudes menees par Griesinger, on peut dire que :
1. Pour avoir une sensation maximale despace, les composantes reverberees dun enregistrement
doivent e tre totalement decorrelees.
2. Dans le cas dune reproduction stereophonique, la bande de frequence correspondant a` la sensation
maximale despace varie avec langle entre les deux haut-parleurs ; plus langle est e leve, plus
basse est la premi`ere bande de frequences generant une sensation despace, et plus e levee est la
sensation despace.
3. Idealement, les composantes reverberees dun enregistrement devraient e tre reproduites par un
reseau non correle de haut-parleurs entourant lauditeur.
Une paire de haut-parleurs dans une configuration stereophonique classique est loin detre ideale
en hautes frequences. Idealement, le champ reverbere doit e tre diffus. Meme si les reflexions laterales
peuvent diffuser lenergie reverberee dun enregistrement, il est preferable dutiliser un dispositif de restitution comportant de nombreux haut-parleurs.
En basses frequences, les phenom`enes sont plus compliques. Limpression despace est toujours
produite par les fluctuations de lITD, mais ces fluctuations ont une origine differente. En dessous de
500 Hz, le son est vehicule par des ondes stationnaires, les modes propres. Or les modes propres dune
salle ont une phase constante. Supposons un seul mode propre : on ne peut pas mesurer un quelconque
retard, mais juste une variation damplitude. Or le processus de localisation auditive en basses frequences
est presque exclusivement gouverne par le retard interaural. Si la phase est constante, il ny a pas de
retard, et londe stationnaire nest pas localisable ; elle est percue dans la tete.
Heureusement, dans une salle il y a de nombreux modes propres. Cest justement linteraction entre
les modes lateraux et les autres modes (verticaux, avant-arri`eres et transverses) qui donne naissance a` un
retard interaural. Mais comme chaque mode a une phase constante, il nest pas evident quun decalage
de phase puisse se produire. Cependant, lorsque le signal dexcitation et les modes propres de la salles
ne sont pas exactement a` la meme frequence, il resulte un decalage de phase, et celui-ci est constant dans
la salle ; sa valeur depend de la geometrie de la salle. Cest grace a` ce decalage que peut seffectuer la
localisation.
La sensation despace primairement ressentie est celle du signal audio lui-meme : si la reverberation
est diffusee par des canaux non correles, les retards interauraux produits par les modes propres de la salle
193
vont fluctuer, et une impression despace sera percue. Cependant, dans la plupart des signaux musicaux,
lattaque et lextinction sont plutot lentes : limpression despace correspond a` CSI, et non a` BSI (pour
CSI, ce sont les fluctuations de lITD au sein du flux davant-plan qui ont une importance).
En general, ce que lauditeur percoit depend des relations de phase du materiau musical, du type et
de la position des haut-parleurs, et de lacoustique de la salle decoute. La raison est toujours la meme :
tous ces facteurs determinent la proportion de modes lateraux par rapport aux autres modes. Limpression
despace en basses frequences augmente lorsque la proportion de modes lateraux asymetriques augmente
par rapport aux autres modes de la salle decoute. Des dispositifs acoustiques peuvent e tre mis en uvre
pour satisfaire cette condition [109]. Pour resumer, la configuration optimale correspond a` un syst`eme
stereophonique sur deux haut-parleurs pleine bande formant un dipole, dans une salle dont larri`ere et le
plafond sont absorbants, et avec un dispositif e lectronique permettant delargir la largeur de limage en
basses frequences [105].
Globalement, la sensation denveloppement sonore est convaincante et naturelle aussi bien en basses
quen hautes frequences si le dispositif de reproduction e lectroacoustique comporte plusieurs hautparleurs diffusant des signaux non correles.
Enfin, Griesinger introduit un crit`ere objectif de mesure de lenveloppement dans les petites salles
[112] en basses frequences : il sagit de la fonction de transfert diffuse, ou DFTF (Diffuse Field Transfer
Function). Elle est basee sur le fait que si une petite salle est capable de reproduire une sensation denveloppement sonore, les fluctuations de lITD et de lILD doivent e tre transmises du materiau musical
aux oreilles de lauditeur. Lidee est donc de savoir comment la salle transmet ces informations, do`u
lorigine du nom. Elle est calculee a` partir de reponses impulsionnelles binaurales. Nous ne detaillerons
pas ici le processus de calcul assez complexe. Une difficulte principale consiste a` construire un detecteur
robuste du retard interaural. Dautre part, le crit`ere doit e tre calibre pour que :
1. Sa valeur soit faible pour une source monophonique.
2. Sa valeur soit faible pour un syst`eme de reproduction avec deux canaux en phase.
3. Sa valeur augmente quand au moins deux sources sonores reproduisent un signal qui comporte des
fluctuations en amplitude et en phase.
4. Sa valeur calculee en chambre anechoque soit maximale lorsque les deux haut-parleurs sont disposes de chaque cote de lauditeur, et decroisse vers zero proportionnellement au sinus de langle
entre les haut-parleurs et la direction frontale.
Ce crit`ere a e te teste avec un bruit rose filtre par bandes dans le cas dune salle rectangulaire. Il permet
de dresser des constatations importantes quant au retard et a` la distribution temporelle et spatiale des
reflexions precoces en basses frequences.
En conclusion, limpression denveloppement sonore (LEV) doit e tre transferee de lenregistrement
a` lauditeur, ou ajoutee par traitements e lectroniques. Pour cela, le signal doit contenir des fluctuations
en amplitude et en phase, conditions qui permettent au syst`eme auditif humain de creer cette sensation
denveloppement sonore. Il est e galement necessaire de creer une bonne separation laterale en basses
frequences (il a e te montre que cette separation devait, dans certaintes conditions, e tre effective au moins
a` partir de 60 Hz). En hautes frequences, le syst`eme e lectroacoustique doit pouvoir developper une
image jusqu`a des angles de 150o derri`ere lauditeur ; un tel syst`eme, qui maintiendrait en outre une
bonne separation laterale entre les sources arri`eres gauche et droite, est capable de fournir une sensation
denveloppement importante, pour peu que le materiau musical contienne des hautes frequences non
correlees dans ces deux canaux arri`eres.
194
Grace au Spatialisateur (cf. E.1.1), nous avons pu facilement tester en vehicule leffet perceptif
obtenu en ajoutant des premi`eres reflexions laterales en vehicule. Il est en effet possible de regler la
distribution, le niveau et la direction de provenance de huit reflexions precoces.
Le parametrage peut e tre effectue de mani`ere perceptive, grace au param`etre envelopment de linterface de haut niveau (cf. fig. E.1) ; ce param`etre controle en fait le niveau relatif des sections temporelles
direct et early. Il est explicitement relie a` la largeur apparente de la source. Afin de se focaliser uniquement sur linfluence des premi`eres reflexions, le gain des sections cluster et reverb peut e tre mis
a` zero.
Le parametrage des premi`eres reflexions peut aussi e tre effectue par le biais dune interface de bas
niveau, beaucoup plus proche du traitement du signal. Il est alors possible de definir precisement les
niveaux de chaque section temporelle direct et early, ou meme plus en detail les temps darrivee,
directions et niveaux des reflexions ajoutees. Mais le reglage seffectue de mani`ere deconnectee de toute
consideration perceptive.
Nous avons pu constater, a` laide dune e coute informelle en vehicule, que lajout de premi`eres
reflexions laterales a` la direction de provenance de la source permet effectivement daugmenter la largeur
apparente de la source.
III.4.2.2
Suivant les experiences menees par Parizet [250], nous avons applique un retard et un gain uniquement sur les haut-parleurs arri`eres. Grace au logiciel Max/MSP, nous avons pu faire varier en temps
reel la valeur du retard et du gain, et e couter en meme temps le resultat. Une e coute informelle a e te effectuee dans plusieurs vehicules, avec differents types de musique. Une sensation de profondeur apparat
effectivement lorsque la valeur du retard est tr`es importante (de lordre de 50 ms) ; mais leffet ne nous
est pas apparu tr`es convaincant. Il meriterait cependant detre quantifie par un test decoute approfondi,
car Parizet avait constate une augmentation radicale de la sensation denveloppement (mais les auditeurs
e taient places a` larri`ere).
Nous avons calcule la correlation interaurale a` court terme lorsquune attenuation de 6 dB et un
retard de 50 ms sont appliques sur les haut-parleurs arri`eres (cf. I.5.6). Le mannequin est place en
position conducteur, et les quatre haut-parleurs sont alimentes par le meme signal. La comparaison des
figures III.55(a) et III.55(b) montre que ces traitements permettent de diminuer la correlation tardive
principalement pour la bande doctave centree sur 250 Hz ; mais la chute de la correlation dans les
bandes superieures est plus nuancee.
III.4.2.3
Concernant linstallation dun caisson de basses les avis divergent ; et specialement pour la musique
classique, il semblerait que les proprietes du champ sonore en dessous de 60 Hz soient sans rapport avec
le jugement de la qualite sonore globale. Dans le cas dune e coute en vehicule, ceci meriterait detre
quantifie par un test decoute effectue lorsque le vehicule roule, car il se produit un phenom`ene important
de masquage en basses-frequences. Mais en tout e tat de cause, plus lextension en basses frequences est
importante, plus la sensation denveloppement sonore (LEV) est importante [21].
195
100
90
0.9
90
0.9
80
0.8
80
0.8
70
0.7
70
0.7
60
0.6
60
0.6
50
0.5
50
0.5
40
0.4
40
0.4
30
0.3
30
0.3
20
0.2
20
0.2
10
0.1
10
0.1
125
250
500
1k
2k
Bande de frquences en Hz
4k
8k
Temps en msec
Temps en msec
100
125
250
500
1k
2k
Bande de frquences en Hz
4k
8k
F IGURE III.55 IACC a` court terme calcule a` partir de mesures realisees dans un vehicule de type Safrane
pour un signal monophonique
Dapr`es Zacharov [331], le positionnement dun caisson de basses nest pas critique dans les petites
salles. Mais en accord avec Griesinger [111], il est recommande dinstaller deux caissons de basses
lateraux ; et un an plus tot, Griesinger [109] declarait que son positionnement dans un coin dune petite
salle rectangulaire produit plus denveloppement en basses frequences que si il e tait place au centre de
la salle ; il en serait de meme pour deux caissons de basses alimentes en stereo ou meme en mono.
Linfluence particuli`ere dun deuxi`eme caisson de basses, permettant la presentation de signaux basses
frequences non correles, est e tudiee par Martens [190].
Pour resumer, dapr`es Salava [276], il peut e tre e tabli que, en-dessous de la frequence de Schroeder
[287] (cf. I.4.2.2) :
1. La fonction de transfert entre la source et lauditeur depend, outre les proprietes de la salle, toujours
de la position de la source et du recepteur.
2. Linfluence sonore des differents modes peut e tre positive ou negative, mais dans une petite salle
il est primordial que le maximum de modes soient pleinement excites.
3. Dans une petite salle rectangulaire, tous les modes sont excites si une source monopolaire est situee
dans un coin.
4. Dans une petite salle, la position la moins avantageuse de lauditeur pour les basses frequences est
le centre de la salle.
Nous navons pas effectue de tests avec un caisson de basses, mais simplement utilise un filtre
parametrique pour amplifier le niveau des basses frequences. Cet effet est assez inadapte avec un signal
de musique classique, sauf eventuellement pour compenser le bruit du moteur et le bruit de roulement ;
mais a` ce sujet, il est necessaire de mener une evaluation perceptive. Cet effet doit cependant rester assez
discret, meme avec de la musique pop.
III.4.2.4
Diminuer voir annuler la correlation de signaux audio peut produire des images sonores qui ont la
largeur, la profondeur, et la sensation despace typiques des environnements naturels, sans le cout de
calcul important dun environnement de simulation acoustique, c.-`a-d. dune reverberation artificielle.
Labsence de correlation a au moins cinq effets sur la perception de limage spatiale [156] :
1. Les modifications du timbre (coloration et filtrage en peigne) associees aux interferences constructives et destructives des multiples reflexions est perceptivement e liminee.
196
2. Des canaux non correles produisent un champ sonore diffus (semblable au champ reverbere tardif
dune salle de concert), mais sans reverberation proprement dite.
3. Des canaux non correles produisent une excellente sensation dexteriorisation lors dune e coute au
casque.
4. La position de limage sonore est identique meme si la position de lauditeur par rapport au dispositif de reproduction est modifiee.
5. Leffet de precedence (ou loi du premier front donde, appele effet de Haas), qui cause un effondrement de limage sonore dans le haut-parleur le plus proche, est annule.
Les deux effets principaux qui nous concernent dans notre e tude sont la production dun champ sonore diffus, exempt de reverberation, et la disparition de leffet de precedence. Le champ diffus sera percu
comme entourant lauditeur, aucune direction de provenance netant definissable ; et la predominance du
haut-parleur le plus proche de lauditeur sera annulee.
Mesure de la correlation La correlation entre deux signaux
calculant la fonction de correlation croisee
Z +T
1
x1 (t)x2 (t + )dt ,
R( ) = lim
(III.48)
T !1 2T
T
o`u represente le decalage temporel entre x1 (t) et x2 (t). Pratiquement, cest lextremum de cette fonction qui donne la mesure de la correlation, et en fait 1 R +1. On peut montrer que :
si les deux signaux x1 (t) et x2 (t) sont identiques, alors R = 1 ;
si les deux signaux x1 (t) et x2 (t) sont en opposition de phase, alors R = 1 ;
si les deux signaux x1 (t) et x2 (t) sont tr`es differents, ils sont dits non correles, et dans ce cas
R = 0.
Il est meme possible de controler limpression de distance a` la source sonore. Dapr`es les e tudes
menees par Kurozumi [170], et confirmees par Wilde [320, 321], la distance apparente a` la source est
fortement liee a` la valeur de la correlation entre les deux canaux (ces e tudes ont neanmoins e te effectuees
avec du bruit diffuse par deux haut-parleurs frontaux). La distance la plus faible est obtenue lorsque
R
(mais la largeur apparente de la source est plutot faible), et la distance la plus importante est
obtenue lorsque R
(la largeur apparente de la source est e galement faible). Une distance moyenne
est obtenue pour R
(et la largeur apparente de la source est alors maximale).
= 1
= +1
=0
Filtre passe-tout Le principe de lannulation de la correlation entre plusieurs canaux sonores consiste a`
appliquer sur chaque canal un filtre passe-tout. De cette mani`ere, le timbre du signal de sortie est preserve
sur chaque canal, car loreille nest pas sensible a` la phase [256] ; par contre, loreille est sensible aux
variations de phase, et donc brouiller la phase entre les canaux a une influence tr`es forte sur limpression
despace : loreille devient incapable de definir une direction de provenance de la source sonore.
Kendall [156] propose de definir un jeu de filtres RIF construits par TFD inverse, ce qui permet de
controler la correlation R des signaux de sortie. Les filtres sont ainsi definis dans le domaine spectral :
leur module est uniforme sur toute la bande de frequences (pour satisfaire le caract`ere passe-tout), et leur
phase est aleatoire entre et . La correlation resultante des signaux de sortie est directement reliee a`
la correlation de la phase de ces filtres. Leur reponse impulsionnelle est obtenue par TFD inverse.
La correlation R des signaux de sortie est controlee par la specification de la reponse en phase des
filtres passe-tout. Par exemple, pour deux canaux :
si on desire une correlation R
, les reponses en phase des filtres passe-tout doivent e tre differentes ;
si on desire une correlation R
, les reponses en phase des filtres passe-tout doivent e tre identiques ;
=0
=1
197
x(n)
z N
y (n)
g2
si on desire une correlation < R < , il faut ponderer la reponse en phase du premier filtre par
un facteur k tel que < k < et la sommer avec la reponse en phase du second filtre.
Si on desire une correlation negative, le prinicipe est le meme, mais il faut ajouter a` la reponse en phase
du second filtre.
Ce principe connat neanmoins quelques limitations. En effet, si on effectue la TFD de la reponse
impulsionnelle du filtre ainsi cree , on sapercoit que le module de la fonction de transfert, bien que
globalement plat, comporte des variations entre les points de la TFD ; la neutralite du timbre peut donc
e tre mise a` mal. La solution consiste a` augmenter le nombre de points de la TFD, mais cela augmente
la longueur de la reponse impulsionnelle. Dune part, cela augmente la cout de calcul de loperation de
convolution, dautre part, la duree de la reponse impulsionnelle ne doit pas exceder 20 ms, afin deviter
letalement temporel qui perturbe les proprietes transitoires du signal source ; de plus, lamplitude du
decalage de phase sur les basses frequences du signal dentree diminue avec le nombre de coefficients
du filtre.
Une autre limitation liee au nombre de coefficients des filtres dannulation de la correlation concerne
la precision de la correlation calculee en sortie, par rapport a` la correlation specifiee, specialement pour
les valeurs comprises entre -0,4 et +0,4. La solution preconisee par Kendall consiste simplement a` recommencer le processus avec des reponses en phase calculees a` partir dautres sequences aleatoires.
Une approche alternative consiste a` utiliser non plus des filtres passe-tout sous forme RIF, mais sous
forme RII. Dans le plan complexe, les distances des poles et des zeros au cercle unite sont controlees par
une sequence aleatoire. Lordre des filtres doit e tre e leve pour produire une correlation proche de 0.
Il y a deux avantages a` specifier un filtre passe-tout sous forme recursive : dune part, le cout de
calcul est bien plus faible, dautre part, ils permettent de realiser facilement des variations dynamiques
(les coefficients peuvent e tre continument modifies, ce qui change les distances des poles et des zeros
au cercle unite). Ces variations dynamiques produisent un effet semblable a` celui dun environnement
sonore comportant des sources sonores ou des surfaces reflechissantes en mouvement.
Lequation aux differences dun filtre passe-tout est, dans le domaine temporel discret (cf. C.1.3)
[243]
y n gy n N gx n x n N ,
(III.49)
( )= (
) ( )+ (
)
avec x(n) le signal dentree, y (n) le signal de sortie, N un retard en e chantillons, et g un gain tel que
0 g < 1. Sa reponse impulsionnelle est donnee par
hpt (0) = g
(III.50)
hpt (kN ) = g(1 g2 ) avec k 2 N ,
ce qui correspond a` la structure representee figure III.56. La transformee en z de la reponse impulsionnelle est donnee par
g z N
Hpt z
,
(III.51)
gz N
( )= 1 +
198
Hpt (e2jf ) =
g + e 2jNf
1 ge 2jNf
(III.52)
On remarque que le numerateur et le denominateur sont conjugues lun de lautre, et donc jHpt 2jf j
; de plus, les polynomes correspondant sont reciproques lun de lautre, ce qui explique que les racines
soient les inverses de poles.
Le retard correspond au delai quil faut attendre pour quun e chantillon de sortie soit de nouveau
injecte dans la sortie du filtre. Le gain permet de regler la proportion du signal dentree et du signal de
sortie qui sera envoyee sur la sortie. Il est amusant de tester ces effets a` loreille. Un retard court (quelques
millisecondes) associe a` un gain important (proche de 1) permet de (( brouiller )) la localisation du signal
source ; un retard important (plusieurs centaines de millisecondes) associe a` un gain faible (proche de 0)
gen`ere des e chos.
Le cout de calcul dune telle structure est de 3 operations par e chantillons, plus des operations de
stockage et de lecture en memoire.
(e
)=
Comme avec la structure RIF, il est possible de garantir une certaine valeur de la correlation. A partir
de deux signaux y1 t et y2 t dont la correlation vaut , il faut generer les signaux
()
()
y10 (t)
y20 (t)
(III.53)
et lon a
"
"
= 12
)
= 12
p
= 22 )
= 0
= 0p )
= 22
"
"
y10 (t)
y20 (t)
y10 (t)
y20 (t)
y10 (t)
y20 (t)
=
=
=
=
=
=
+y1(t)
+y2(t)
p
p
+ p22 y1(t) + p22 y2(t)
+ 22 y1(t) + 22 y2(t)
p2
p2
y
(
t
)
+
1
p22
p22 y2 (t)
2 y1 (t) 2 y2 (t)
et IACC
=
et IACC
=1
et IACC
= 1
(III.54)
Nous avons implante ce syst`eme dans le logiciel Max/MSP, a` raison dun filtre par haut-parleur.
Un test informel a e te effectue directement en vehicule, pour comparer trois parametrages differents
des quatre filtres passe-tout. La sensation denveloppement la plus importante est generee lorsque les
param`etres de reglage des quatres filtres (c.-`a-d. le gain et le retard) sont differents.
Remarquons que les valeurs optimales du retard et du gain de chaque filtre passe-tout doivent e tre
reglees a` loreille pour obtenir une impression despace maximale, sans toutefois rendre le son nasillard.
Nous avons e galement teste lajout de deux filtres uniquement sur les haut-parleurs arri`eres ; leffet
denveloppement est plus faible, mais cette configuration permet de garder une localisation du son vers
lavant.
Nous avons alors calcule la correlation interaurale a` court terme lorsque deux filtres passe-tout sont
appliques uniquement sur les haut-parleurs arri`eres (cf. fig. III.57). Le mannequin est place en position
conducteur, et les quatre haut-parleurs sont alimentes par le meme signal. Le caract`ere diffus du champ
tardif est cette fois beaucoup plus prononce quavec ladjonction dun retard et dune attenuation sur les
haut-parleurs arri`eres (cf. fig. III.55).
Lutilisation de filtres passe-tout est en fait le premier pas vers lajout de reverberation. En effet, les
filtres utilises ont une reponse impulsionnelle dont la longueur, quoique faible, nest pas reduite a` un seul
199
Temps en msec
100
90
0.9
80
0.8
70
0.7
60
0.6
50
0.5
40
0.4
30
0.3
20
0.2
10
0.1
125
250
500
1k
2k
Bande de frquences en Hz
4k
8k
F IGURE III.57 IACC a` court terme calcule a` partir de mesures realisees dans un vehicule de type Safrane
pour un signal monophonique, avec les deux haut-parleurs arri`eres decorreles
e chantillon. Et meme si la convergence des coefficients vers zero est rapide (cf. e q. (III.50)), il y a bien,
au sens strict, ajout de reverberation. Ce principe est dailleurs mentionne par Jot [138]. Comportant de
serieuses limitations en terme de cout de calcul necessaire a` laugmentation significative du temps de
reverberation, mais aussi en terme de colorations parasites, il est preferable de faire appel a` des reseaux
de retards recursifs.
III.4.2.5
Ajout de reverberation
Toujours grace au Spatialisateur , cet effet a pu facilement e tre teste en vehicule. Lavantage de
ce logiciel est quil dispose dune interface de commande reliee a` des crit`eres perceptifs (cf. fig. E.1).
Lespace cree est totalement virtuel, mais le controle de leffet perceptif produit est immediat, car a` la
difference de dispositifs fonctionnant par convolution avec une reponse impulsionnelle mesuree, il nest
pas necessaire de mettre a` jour les coefficients dun filtre.
Il est e galement possible de regler le processeur pour que notre perception de leffet de salle cree
soit celui dune salle reelle, de laquelle nous possedons une reponse impulsionnelle. Le principe consiste
a` effectuer une analyse temps-frequence de cette reponse impulsionnelle, et a` calculer les param`etres de
reglage temporels et frequentiels du processeur [139, 310].
Meme si lajout de reverberation est toujours tr`es spectaculaire de prime abord, il ne nous semble
pas opportun den exagerer les effets, car une certaine lassitude pourrait se produire.
200
Il est souhaitable que la correction soit permanente, quel que soit le type de signal diffuse : musique
classique, jazz, pop ou parole.
Il convient neanmoins de definir une fonction de transfert (( cible )) pour le son direct et leffet
dhabitacle, grace a` des tests decoute aupr`es de la client`ele.
Cette correction est cependant calculee et optimisee pour une seule place dans un vehicule particulier ; cest ce qui en fait sa principale limitation. Il semble realiste de specifier un ensemble de filtres
par vehicule. Par contre il peut e tre plus delicat de specifier un ensemble de filtres par position dans un
vehicule (quelle place choisir au detriment de quelle autre?) ; des techniques doptimisation doivent alors
e tre mises en uvre.
Dans la deuxi`eme partie de cette e tude, nous avons voulu e tudier les possibilites damelioration de
limage sonore. En effet, la position decentree des passagers par rapport au syst`eme e lectroacoustique est
source dune degradation importante de la perception de la sc`ene sonore, principalement pour la musique
classique et la parole.
Dans un premier temps, nous avons montre que lajout de retard et de gains sur les differents hautparleurs permettait de recentrer limage sonore, pour un cout de calcul derisoire. Les valeurs de ces
retards et gains sont cependant delicates a` optimiser. Le principe est reellement efficace, specialement
pour un signal de radio ou de musique pop. Dans un deuxi`eme temps, nous avons developpe une technique permettant de creer deux sources sonores virtuelles de part et dautre du plan median de la tete dun
auditeur. Nous avons montre que cette technique doit e tre limitee en frequence, afin de ne pas engendrer
de phenom`enes desagreables en hautes frequences ; pour cette zone de frequences, il est preferable de
travailler sur lenergie du signal. Cette deuxi`eme approche est cependant beaucoup plus couteuse en
calcul, puisquil faut effectuer :
quatre operations de filtrage recursif avec des filtres dordre 12 (en fait deux filtres binauraux pour
chaque source virtuelle), soit 100 operations par e chantillon ;
quatre operations de convolution avec des filtres dont le nombre de points N depend de la precision
de lannulation des trajets croises (typiquement N
) ; si on accepte un certain retard entre
lentree et la sortie, on peut effectuer la convolution par addition-recouvrement, ce qui necessite
trois operations de FFT de taille L M N
sur des blocs de signal de longueur M N ,
soit
operations par e chantillon pour les quatre filtres.
2L
Comme pour la correction de timbre, ce syst`eme est optimise pour une seule place dans un seul vehicule.
Les memes remarques simposent donc.
La technique de creation de sources virtuelles est limitee aux haut-parleurs avant. Pour un signal de
parole, on pourra se contenter de generer une seule source sonore virtuelle face a` lauditeur (puisquun
tel signal est toujours diffuse pour e tre percu de mani`ere frontale). Pour un signal de musique classique,
la generation de deux sources virtuelles a` 30o par rapport au plan median de la tete de lauditeur permet
de restaurer les conditions decoutes ideale de la stereophonie, en accord avec le dispositif de prise de
son ; il peut alors e tre opportun dajouter un certain effet de salle sur les haut-parleurs arri`eres, ou tout
au moins de decorreler les signaux alimentant ces haut-parleurs.
Nous avons e galement montre quil e tait possible dannuler leffet dhabitacle. Cette annulation est
theoriquement necessaire lors de lajout de reverberation, bien quen pratique si leffet de salle ajoute est
largement superieur a` leffet dhabitacle, le premier masque le second.
= 4096
4 (4log ( ) + 4) = 224
Dans la troisi`eme partie de notre e tude, nous nous sommes interesses a` limpression despace. En
effet, e tant donne le petit volume dun habitacle automobile, il est impossible de percevoir cette sensation.
Nous avons montre quil fallait distinguer la largeur apparente de la source de lenveloppement sonore.
La largeur apparente de la source peut e tre augmentee en ajoutant des premi`eres reflexions laterales.
Lenveloppement peut e tre augmente en amplifiant le niveau des basses frequences, en retardant les
signaux alimentant les haut-parleurs arri`ere ou mieux en decorrelant les signaux envoyes aux differents
haut-parleurs ; un effet de salle peut aussi e tre ajoute.
201
Temps en msec
180
0.9
160
0.8
140
0.7
120
0.6
100
0.5
80
0.4
60
0.3
40
0.2
20
0.1
125
250
500
1k
2k
Bande de frquences en Hz
4k
8k
F IGURE III.58 IACC a` court terme calcule a` partir de mesures realisees dans un vehicule de type Safrane,
comportant un syst`eme transaural sur les haut-parleurs avant, ainsi que deux filtres passetout et deux retards sur les haut-parleurs arri`ere
Ces techniques ne sappliquent pas a` un signal de radio, car il est perceptivement souhaitable que
lon ait la sensation dune source parfaitement localisee et frontale.
Laugmentation de la largeur apparente de la source sapplique a` tous les styles de musique, mais
elle est plus efficace pour la musique classique ou le jazz. Laugmentation de lenveloppement sapplique
e galement a` tous les styles de musique, mais la technique employee nest pas la meme. Avec de la musique pop, une amplification des basses frequences semble communement appreciee ; la decorrelation
des signaux alimentant les quatre haut-parleurs est envisageable, mais lajout dun effet salle est catastrophique. Pour le jazz, on se limitera a` la decorrelation. Pour la musique classique, lamplification des
basses frequences est a` rejeter (sauf de mani`ere leg`ere pour compenser le bruit du moteur et le bruit de
roulement) ; la decorrelation des signaux alimentant les quatre haut-parleurs est e galement spectaculaire,
mais en association avec la creation de sources virtuelles a` 30o a` laide des haut-parleurs avant, elle doit
e tre limitee aux haut-parleurs arri`ere ; il en est de meme pour la reverberation, qui doit, en outre, rester
discr`ete.
Le cout de calcul necessaire a` la mise en uvre de lajout de premi`eres reflexions laterales est negligeable, puisquil ne fait intervenir quune operation de stockage/lecture en memoire et une multiplication
et addition par reflexion et par e chantillon. Limplantation de filtres passe-tout recursifs ne necessite que
trois multiplications et additions par filtre et par e chantillon. Lajout de reverberation grace a` des reseaux
de retards reboucles est plus couteux (au minimum huit cellules dordre deux pour les retards absorbants,
soit 40 operations par e chantillon, et huit rebouclages, soit 24 operations par e chantillon).
Nous avons calcule la correlation interaurale a` court terme lorsquun syst`eme transaural est applique sur les deux haut-parleurs avant, et deux filtres passe-tout et deux retards sont appliques sur les
haut-parleurs arri`eres (cf. fig. III.58). Le mannequin est place en position conducteur, un signal binaural
correspondant a` la HRIR a` 0o est injecte a` lentree du syst`eme transaural, et les haut-parleurs arri`eres
sont alimentes en mono. Nous retrouvons ici une correlation interaurale e levee sur les premi`eres fenetre
(traduisant une localisation precise de la source), et une correlation interaurale plutot faible en champ
tardif (traduisant une sensation despace) ; la correlation reste cependant importante autour de 500 Hz.
Lobjectif que nous nous e tions fixe est donc atteint, puisquun tel syst`eme permet a` un auditeur de
localiser avec precision une source sonore virtuelle ; la synth`ese de deux sources virtuelles a` 30o permet
alors de recreer les conditions ideales dune prise de son stereophonique. Dautre part, ce syst`eme apporte
une sensation denveloppement sonore importante, alors quelle est naturellement absente dans un petit
volume comportant de nombreuses parois absorbantes.
202
Traitement
du signal
Convolution
Habitacle
Ecoute au casque, ou
sur un rseau denceintes
dans un local adapt
Ecoute par les hautparleurs
de la voiture
F IGURE III.59 Schema synoptique du dispositif complet de traitements et de restitution dun signal audio
dans un habitacle de vehicule automobile
203
F IGURE III.61 Interface de commande permettant de mettre en (ou hors) service les differents traitements
proposes
F IGURE III.62 Interface permettant de tester differentes methodes destinees a` augmenter la sensation despace a` linterieur du vehicule
204
louverture dune autre fenetre permettant de choisir differentes methodes de realisation de leffet recherche (sauf pour le recentrage de limage sonore a` laide de retards et de gains, et laugmentation du niveau
des basses frequences, car les reglages sont figes). Le choix des differentes methodes est toujours effectue
de mani`ere exclusive a` laide de boutons radios (par exemple pour limpression despace, cf. fig. III.62).
Pour la correction frequentielle, il est possible de choisir entre :
une e galisation realisee a` laide de filtres parametriques reglables par lutilisateur ;
une e galisation conforme a` celle decrite dans la premi`ere partie de ce chapitre, c.-`a-d. separee pour
le son direct (provenant des haut-parleurs avant) et pour leffet dhabitacle (diffuse par lensemble
des haut-parleurs du vehicule).
Pour la correction de limage sonore, il est possible de choisir entre :
la classique balance gauche/droite et avant/arri`ere ;
le PanPot dintensite realise sur les quatre haut-parleurs ;
la creation de sources virtuelles a` laide des techniques decrites dans la deuxi`eme partie de ce chapitre.
Pour limpression despace, il est possible de choisir entre :
lajout de retards sur les haut-parleurs arri`eres ;
lajout de premi`eres reflexions laterales ;
lajout de filtres passe-tout sur les haut-parleurs arri`eres.
Enfin lajout dun effet de salle permet de choisir entre plusieurs configurations de reglage du
Spatialisateur correspondant a` differentes salles de concert.
Pour chaque famille de traitements, nous avons privilegie une approche de complexite et defficacite
croissante dans les differentes methodes.
Cette plate-forme a fait lobjet dune demonstration embarquee dans un vehicule a` larret a` loccasion de la presentation des activites de la Direction de la Recherche de RENAULT . Il sagissait de presenter
lactivite de recherche en audio chez RENAULT , et de faire e couter lamelioration apportee par les traitements e lectroniques. La demonstration est apparue satisfaisante, la commutation instantanee sans/avec
traitements e tant tr`es demonstrative.
Mais il est necessaire denvisager la realisation dun test decoute plus rigoureux, afin de mieux
cerner les attentes de la client`ele.
Dautre part, il faut reflechir a` limplantation de ces traitements directement au sein de lautoradio.
Lensemble des traitements, y compris lajout de reverberation, represente un cout de calcul relativement
modique, de lordre de la centaine de MIPS, et par consequent est a` la portee de nimporte quel DSP
actuellement en vente sur le marche.
Il est e galement souhaitable que les traitements proposes soient integres a` lensemble des fonctions
audio du vehicule. On pourrait par exemple diffuser le signal de lautoradio de mani`ere non correlee sur
les haut-parleurs arri`ere lorsque lon e tablit une communication telephonique avec un syst`eme (( mains
libres )). On pourrait aussi envisager de donner une localisation precise a` certains messages dalertes, afin
de faciliter la prise de decision du conducteur.
205
F IGURE III.63 Implantation dun syst`eme de modelisation de la restitution sonore a` linterieur dun vehicule
a` laide de la biblioth`eque doutils du Spatialisateur
206
F IGURE III.64 Module gerant le son direct dun haut-parleur avant, permettant de synthetiser deux sources
virtuelles dans deux bandes de frequences et deux directions differentes
III.6.3 Couplage
Le couplage des deux dispositifs, tel que schematise figure III.59, peut poser des probl`emes de
charge de calcul. En letat actuel de la puissance de calcul disponible sur les ordinateurs personnels,
nous conseillons de separer la charge de calcul en deux : un ordinateur pour le dispositif de traitements,
et un autre ordinateur pour le dispositif de restitution.
Le signal audio peut e tre chane sans probl`eme sous format numerique (ADAT ou AES).
Quant au controle, il peut lui aussi e tre transmis dune machine a` lautre grace a` des objets specialement dediees dans le programme Max/MSP ou jMax, la communication seffectuant sous forme de
signaux MIDI.
Si lon choisit un dispositif de restitution par convolution, il est possible dutiliser les cartes e lectroniques specialement dediees (syst`eme HURON CP4 de marque LAKE DSP ) disponibles a` la Direction de
la Recherche de RENAULT .
207
Page blanche
208
Conclusion
209
Conclusion
differences. Grace a` une e tude objective et une analyse perceptive multidimensionnelle, nous avons pu
determiner la correction qui permet dobtenir la restitution la plus fid`ele possible. La principale conclusion est que la conduite optimale des tests decoute necessite linversion numerique du casque decoute
mesure sur le mannequin ayant servi a` relever les mesures de reponses impulsionnelles dans lhabitacle.
En revanche, il ressort de letude quune e galisation individuelle par rapport au champ diffus napporte
pas damelioration substantielle de la fidelite de restitution. Legalisation proposee assure une garantie
suffisante de fidelite pour levaluation sur e couteurs de la qualite de restitution dans lhabitacle et constitue une amelioration tr`es nette par rapport a` celle proposee par le fabricant, tant du point de vue objectif
que perceptif.
La troisi`eme partie a e te consacree au developpement de differents axes de traitements e lectroniques
permettant dameliorer sensiblement la qualite de lecoute embarquee. En effet, due a` des caracteristiques
specifiques (petit volume, presence de parois absorbantes et reflechissantes) et a` de fortes contraintes
(position de lauditeur par rapport au syst`eme e lectroacoustique), la restitution dun message audio dans
un vehicule est loin detre ideale ! Non seulement il est necessaire de mettre en uvre des traitements
frequentiels pour corriger les fortes aberrations spectrales, mais il faut e galement operer dans le domaine
temporel afin de corriger limage sonore.
Compte tenu du support temporel tr`es ramasse et du faible temps de reverberation dune reponse
impulsionnelle acoustique mesuree dans un habitacle, nous nous sommes interroges sur la necessite de
distinguer le contenu frequentiel du son direct de celui de leffet dhabitacle. Nous avons pu repondre a`
cette question a` laide dun test decoute realise en laboratoire avec des reponses impulsionnelles synthetiques permettant de controler de mani`ere fine la distribution temps-frequence en e nergie. Nous avons pu
montrer que notre perception se fait suivant deux facteurs perceptifs independants lies a` des indices objectifs se rapportant au son direct et a` leffet dhabitacle ; cette distinction sappuie sur laspect spatial de
leffet dhabitacle. La correction de la reponse en frequence des reponses impulsionnelles de lhabitacle
peut alors e tre effectuee a` laide de quatre filtres (un par haut-parleur) ; grace a` ces quatre filtres, il est
possible dagir a` la fois sur le contenu spectral du son direct, mais aussi sur celui de leffet dhabitacle.
Cette correction est cependant specifique a` un vehicule donne, et a` une position donnee de lauditeur,
puisque la correction de leffet dhabitacle est calculee a` partir de celle du son direct.
Concernant lamelioration de limage spatiale, nous avons principalement travaille sur la realisation
dun syst`eme transaural en vehicule. Cette methode permet de creer une ou plusieurs sources sonores
virtuelles autour de lauditeur ; en outre, elle permet dinverser le debut de la reponse acoustique de
lhabitacle. La difficulte est double : dune part les haut-parleurs sont dans une position non symetrique
par rapport a` lauditeur, dautre part les reponses impulsionnelles binaurales ne sont pas mesurees en
conditions anechoques. Dans cet esprit, nous avons travaille sur linversion a` phase totale de reponses
impulsionnelles. Comme la resolution de lequation integrale de premi`ere esp`ece est un probl`eme sans
solution, il faut se contenter dune approximation au sens des moindres carres ; dautre part, il faut e galement mettre en uvre un principe de regularisation permettant de controler le processus dinversion
proprement dit, afin deviter lapparition de resonances trop marquees dans le filtre inverse. Plusieurs
techniques dinversion et de regularisation ont e te e tudiees. La technique dinversion la plus precise est
linversion dans le domaine temporel, qui necessite la resolution dun syst`eme lineaire base sur une
matrice de Toeplitz symetrique pour lequel il existe un algorithme performant ; la technique de regularisation la plus efficace est lutilisation dun filtre defini dans le domaine frequentiel qui permet de limiter
la portee de linversion dans des zones spectrales bien definies. Lapplication dun syst`eme transaural
(( e
tendu )) en vehicule, adapte pour une configuration non symetrique du dispositif de reproduction et
comprenant un effet dhabitacle, permet de recreer virtuellement les conditions decoute ideales de la
stereophonie classique, a` savoir deux sources sonores a` 30o par rapport au plan median de la tete de
lauditeur. Un resultat tr`es satisfaisant peut e tre obtenu avec quatre filtres non recursifs de 4096 points ;
cette correction est e galement specifique a` un vehicule donne et a` une position donnee de lauditeur.
210
Conclusion
Plusieurs propositions ont e te formulees pour e largir la zone decoute (quantification vectorielle, filtrage
adaptatif).
Nous avons enfin cherche a` ameliorer limpression despace sonore. Nous avons pour cela explore
deux directions, a` savoir laugmentation de la largeur apparente de la source sonore, et laugmentation
de la sensation denveloppement de lauditeur. La largeur apparente de la source peut e tre augmentee a`
laide de premi`eres reflexions laterales. Quant a` la sensation denveloppement sonore, elle peut e tre amelioree de mani`ere spectaculaire en decorrelant les signaux alimentant les haut-parleurs ; elle nest pas
specifique a` une position donnee de lauditeur. Cette decorrelation peut e tre realisee de mani`ere globale
pour lensemble du message audio diffuse dans le vehicule, a` laide de quatre filtres passe-tout (un par
haut-parleur) ; mais on peut la limiter aux signaux diffuses par les haut-parleurs arri`ere, en lassociant
a` un syst`eme transaural sur les haut-parleurs avant. Cette deuxi`eme solution permet dobtenir la qualite
decoute la plus satisfaisante, car elle combine une localisation precise de limage sonore avec une sensation despace importante. Se dessine alors a` lhorizon lajout dune reverberation plus consequente, afin
dimmerger lauditeur dans une ambiance de salle radicalement differente comme une salle de concert,
par exemple.
Sur ces differents domaines, on peut resumer les principales contributions de cette th`ese :
1. La mise en place dune nouvelle methode de mesure de reponses impulsionnelles, qui a pris corps
par la creation dune procedure de mesure automatique ; cette procedure permet la detection de la
derive dhorloge dechantillonnage, la conversion de frequence dechantillonnage, et la recuperation des temps de propagation relatifs entre plusieurs sources mesurees de mani`ere sequentielle.
2. La constitution dune base de donnees de mesure de reponses impulsionnelles sur une dizaine
de vehicules, avec trois capteurs differents, et pour quatre positions de ces capteurs dans chaque
vehicule.
3. La mise en place dune plate-forme de restitution en laboratoire, permettant de restituer au casque
la meme sensation decoute que dans un vehicule reel.
4. Une correction spectrale basee sur la repartition temps-frequence-energie des reponses impulsionnelles.
5. La realisation dun syst`eme transaural en vehicule permettant de restaurer les conditions decoute
ideales de la stereophonie.
6. Laugmentation de la sensation denveloppement sonore de lauditeur grace a` une technique simple
et peu couteuse en calcul.
7. La livraison dune plate-forme logicielle permettant de tester en temps reel dans un vehicule tous
les traitements proposes.
Il est maintenant necessaire de proceder a` une validation perceptive a` grande e chelle des traitements
proposes. Cette e tude se doit detre menee avec des specialistes du marketing en vue de satisfaire les
attentes des clients. Une fois les specifications decidees, les traitements doptimisation pourront alors
e tre implantes directement dans lautoradio. A lexception du transaural, tous les traitements proposes
sont peu couteux en calcul, et peuvent e tre aujourdhui meme realises en temps reel et sans retard par
nimporte quel processeur de signal ; la creation de sources sonores virtuelles est plus couteuse, mais le
temps reel (avec retard) peut e tre maintenu grace a` une technique de filtrage rapide. Cela permet daugmenter les possibilites de spatialisation de messages audio specifiques, tels des signaux dalerte, afin de
leur conferer une identite particuli`ere, et de faciliter les capacites de discrimination ; ces techniques ont
dej`a fait leur preuve dans le contexte aeronautique.
Certains points restent cependant a` ameliorer.
Le comportement de lhabitacle en basses frequences meriterait detre explore plus en detail, afin de
parfaire legalisation.
211
Conclusion
Nous navons pas propose de nouveaux crit`eres objectifs adaptes a` la description de la qualite acoustique des habitacles de voiture. Considerant que la realisation de tests decoute visant a` caracteriser de
mani`ere globale la qualite de la restitution sonore actuelle a` linterieur des vehicules serait une operation
longue et delicate, nous avons prefere nous contenter des deformations dej`a recensees dans la litterature,
ou connues de tous, et nous focaliser sur les traitements doptimisation. Nous suggerons que la qualite
sonore soit maintenant evaluee par le biais de tests decoute visant a` juger de la pertinence auditive des
differents traitements.
Lextension de la zone decoute optimale, dans le cas dune correction spectrale ou dune simulation
de sources virtuelles, nous semble un axe de recherche e galement tr`es important. Meme si la majorite des
vehicules en circulation ne comporte que le conducteur a` bord, une optimisation de ces deux traitements
pour un ensemble de places dans le vehicule pourrait e tre un argument de vente supplementaire.
Enfin, nous navons pas e value limpact du bruit de roulement sur les differents traitements. En letat
actuel de nos investigations, il existe actuellement sur le marche des autoradios realisant une correction
automatique du volume en fonction de la vitesse du vehicule ; mais cette correction ne sadapte pas au
contenu spectral du bruit percu dans lhabitacle. Il serait donc interessant de voir dans quelle mesure une
correction spectrale adaptative pourrait e tre mise en uvre, afin de compenser le masquage frequentiel
en basses frequences. En outre, il serait interessant detudier linfluence du bruit de roulement sur la
robustesse de la transauralisation, ainsi que sur la sensation denveloppement.
Nous ne saurons que trop insister sur la finalite dune telle e tude : ameliorer les conditions de restitution du signal audio pour les occupants dun vehicule. A ce titre, plusieurs e lements sont a` prendre en
consideration.
Dabord, linterface de commande se doit detre aussi simple que possible ; un syst`eme trop complexe a` utiliser nest en realite presque jamais utilise. Linterface homme-machine pourrait se resumer a`
une simple distinction suivant le type de signal e coute ; ceci nous semble a` la fois necessaire, mais aussi
largement suffisant.
Ensuite, si il est necessaire de definir le degre doptimisation recherche par la client`ele, rien nempeche de proposer un syst`eme a` la carte nettement plus performant, soit sur certains mod`eles haut de
gamme soit pour des conducteurs plus exigeants.
Enfin, il faut tenir compte du fait que le conducteur dun vehicule doit traiter un grand nombre
dinformations necessaires a` la bonne marche du vehicule alors quil est en train decouter un signal
audio. Le danger existe bel et bien quune sensation de confort extreme detourne sa vigilance de taches
nettement plus importantes. Il nous semble opportun detudier ce point avec laide dergonomes et de
psychologues.
212
ANNEXE A
Materiel de mesure
A.1
Les microphones SOUNDFIELD sont construits en disposant quatre capteurs, dont la directivite est
de type cardiode, au centre des faces dun tetra`edre (cf. fig. A.1). Les capteurs sont appeles capsules
alors que le terme tete fait reference a` lassemblage des quatre capsules. Le mod`ele ST 250 utilise des
capsules e lectrostatiques. La tete du microphone est disposee au sommet dun boitier cylindrique conte-
nant lelectronique de preamplification, et est protegee par une grille acoustiquement transparente.
Les signaux issus des quatre capsules constituent le (( format A )) ; celles-ci sont orientees reguli`erement dans lespace des directivites, et on peut les reperer par les couples
(1;1 )
(2;2 )
(3;3 )
(4;4 )
=
=
=
=
( 4 ; 4 )
( 34 ; 34 )
( 4 ; 54 )
( 34 ; 74 )
(A.1)
une representation schematique est donnee figure A.2. Les vecteurs ont pour coordonnees spheriques
213
F IGURE A.2 Orientation des capteurs du microphone S OUNDF IELD, symbolisees par quatre vecteurs unitaires
Figure LF (Left Front)
1
Axe Z
Axe Z
2
1
0
1
3
0
1
2
3
Axe Y
Axe X
Axe X
2
Axe Z
Axe Z
1
2
1
0
1
3
3
Axe Y
Axe Y
Axe Y
Axe X
Axe X
F IGURE A.3 Figures de directivite ideales des capteurs du microphone SoundField (format A)
rLF
rLB
rRB
rRF
=
=
=
=
(1;1 ;1 )
(1;2 ;2 )
(1;3 ;3 )
(1;4 ;4 )
(A.2)
Les figures de directivites ideales des capsules sont presentees figure A.3.
Le microphone est fourni avec un transcodeur analogique realisant la conversion des signaux issus
des capsules en quatre signaux composes
dune directivite monopolaire (ou uniforme) ;
de trois directivites dipolaires (ou en forme de huit) dans chacune des trois directions principales
de lespace.
Ces quatre signaux composent le (( format B )). Le transcodage est realise en appliquant uniquement des
gains et des inversions de phase selon les formules de transcodage ideales [133, 300]. Les directivites
ideales sont presentees figure A.4.
Ce microphone a e te mesure par Laborie [173], qui constate que les figures de directivites des
capsules sapprochent du mod`ele ideal dans une bande limitee de frequences comprises entre 1500 et
5000 Hz. Une divergence en phase est e galement remarquee.
Les imperfections des figures de directivites ainsi que labsence de concidence spatiale des capsules
les unes par rapport aux autres ne sont pas pris en compte ; un mod`ele ameliore de transcodage est propose par Laborie [173].
214
Figure X
Axe Z
0.5
Axe Z
0
0.5
1
0.5
0
0.5
Axe Y
0.4
0.2
0
0.2
0.4
Axe Y
0
1
0.4
0.2
0
0.2
0.4
Axe X
Axe X
Figure Z
0.4
0.2
0
0.2
0.4
0.5
Axe Z
Axe Z
Figure Y
0
0.5
0.5
0
0.5
Axe Y
0.4
0.2 0
0.2
0.4
Axe Y
0.4
0 0.2
0.2
0.4
Axe X
0.4
0 0.2
0.2
0.4
Axe X
F IGURE A.5 Les quatre figures de directivite utilisees lors dune prise de son Ambisonic
Les quatre signaux du format B constituent les quatre canaux du syst`eme Ambisonic ; celui-ci est
apparu dans les annees 80 comme une extension du principe de la stereophonie pour atteindre une reproduction tridimensionnelle [95]. Lidee consistait a` completer une prise de son M-S concidante (c.-`a-d. un
microphone omnidirectionnel et un microphone bidirectionnel lateral gauche-droite) par lajout de microphones supplementaires en sassurant de labsence de redondance dinformation. Cette contrainte est
satisfaite en ajoutant seulement deux microphones presentant des figures de directivite en huit et orientees respectivement selon les directions avant-arri`ere et haut-bas. La figure A.5 illustre le principe de la
prise de son Ambisonic avec les quatre figures de directivite employees. Le signal obtenu au moyen dune
prise de son Ambisonic poss`ede un reel sens physique, et realise donc un encodage directif du champ
sonore. Les signaux captes par les trois directivites en huit sinterpr`etent comme la projection de londe
incidente sur chacune des trois directions principales de lespace ; le signal issu de la directivite uniforme
represente la pression de londe incidente. En faisant reference a` ce sens physique, on note W ; la
figure de directivite uniforme, et X ; , Y ; et Z ; les figures de directivite dipolaire. Les quatre
signaux obtenus constituent le format B ; les composantes Ambisonic associees a` ces quatre figures de
directivites sont notees w, z , y et z . La superiorite du syst`eme Ambisonic est la consequence directe de
la capture, de la manipulation et de la transmission des sc`enes sonores directement au format B, au lieu
de travailler sur des signaux destines a` alimenter les haut-parleurs du syst`eme de restitution [173]. Un
encodage spatial au format B est independant du syst`eme de restitution ; il est susceptible detre restitue
sur un nombre quelconque de haut-parleurs disposes selon une configuration geometrique quelconque.
Ladaptation au syst`eme de restitution est realise au moyen dun decodeur dont le role est dexploiter
de mani`ere optimale ce dispositif de restitution ; la restitution sera dautant meilleure que le nombre de
( ) ( )
( )
215
( )
1
1
0
0
y1
y1
1
1.5
1
0.5
0.5
0.5
0
Axe Z
Axe Z
0.5
0
Axe Z
Axe Z
0.5
0.5
0.5
1.5
1.5
0.5
1
0.5
1.5
0.5
0.5
0
0.5
Axe Y
Axe Y
0.5
0.5
(b) l = 1, m =
0
0.5
0.5
0.5
1.5
Axe Y
Axe X
(a) l = 0, m = 0
0.5
0
1.5
Axe X
0.5
0.5
0.5
1
0.5
1
0.5
0.5
1
1
(c) l = 1, m = 0
Axe X
Axe Y
Axe X
(d) l = 1, m = 1
F IGURE A.6 Representation des quatre premi`ere harmoniques spheriques reelles correspondant au developpement jusque l = 1
W (;)
X (;)
Y (;)
Z (;)
=
=
=
=
( )
y00 (;)
p13 y11 (;)
p13 y1 1 (;)
p13 y10 (;)
avec ylm
8
>
>
>
<
=>
>
>
:
(A.3)
2l + 1 (l m)! (1
Plm (x) =
2 (l + m)!
avec Pl
()
m m Pl x
,
xm
x2 ) 2
(A.4)
(A.5)
Les fonctions de bases obtenues a` lordre 0 et 1 sont representees figure A.6. Pour une description
compl`ete sur le formalisme mathematique le lecteur se reportera a` [1] [264, chap. 6] ; on trouvera
un bon resume dans [173]. Plusieurs applications dans le domaine de lacoustique sont donnees par
[182, 220, 315].
La coherence du champ sonore et labsence de redondance dinformation spatiale entre les differents
canaux Ambisonic est garantie de mani`ere theorique par les proprietes dorthonormalites de la base des
harmoniques spheriques. Cette e troite relation entre les composantes Ambisonic et la base des harmoniques spheriques permet denvisager un encodage du champ sonore aux ordres superieurs [54].
En effectuant une combinaison lineaire des differents canaux w, x, y et z , on peut creer nimporte
quelle figure de directivite (omni, infra-cardiode, cardiode, hyper-cardiode, figure huit). Cest en cela
que nous faisons reference a` un microphone a` directivite variable.
216
ANNEXE B
Methodes danalyse statistique
La methode des comparaisons par paires [58] permet de degager un ordre de preference concernant
un attribut semantique non symetrique, c.-`a-d. mesurable sur une e chelle continue et orientee. Cest a
priori une methode fiable lorsque les differences entre les stimuli sont faibles ; elle permet en outre de
reduire les desaccords entre les sujets. Mais elle suppose que les comparaisons sont independantes entre
elles ; dans le cas contraire, il est preferable dappliquer une methode directe dextraction des rangs.
Dautre part, des hypoth`eses plus restrictives (comme la transitivite) peuvent e tre posees concernant les
probabilites de preference des stimuli.
Le mod`ele necessite la connaissance des probabilites de preferences de chaque stimulus, et gen`ere
pour chacun une mesure chiffree appelee merite. On suppose que ces valeurs sous-tendent le processus de
jugement. Elles peuvent e tre positionnees sur une e chelle lineaire, et leurs positions relatives indiquent
la mani`ere dont ont e te juges les stimuli : si deux stimuli ont des valeurs de merite comparables, leur
probabilites de preferences seront proche de 0.5, tandis que si les valeurs de merite sont e loignees, cette
probabilite sera proche de 1 (ou 0). De plus, les valeurs de merite permettent detablir des correlations
avec des indices objectifs mesurables.
Supposons que n sujets (
= 1;2; : : : ;n) doivent comparer par paires t objets (A1 ;A2 ; : : : ;At ). Soit
xij (i;j = 1;2; : : : ;t;i 6= j ) une variable aleatoire prenant les valeurs 1 ou 0 selon que le sujet
a prefere
Ai ou Aj . On suppose que tous les xij sont independants, avec xij + xji = 1.
Soit ij = Prfxij = 1g la probabilite que Ai soit prefere a` Aj . Il est admis que 0 ij 1 et que
ij = 1 ji. A` ce stade, les objets peuvent e tre ordonnes en accord avec les probabilites de preference
moyenne
i =
1 j6=i ij .
(B.1)
Un autre ordonnancement est possible en introduisant lhypoth`ese de transitivite pour chaque triplet
de stimuli, c.-`a-d.
ij
1
2
et
jk
1 )
2
ik
1;
2
(B.2)
le classement se fait de mani`ere triviale a` linterieur de chaque triplet, et de proche en proche pour lensemble des stimuli.
217
Densit de probabilit
0.25
0.9
0.2
0.8
0.7
0.15
0.6
0.5
0.1
0.4
0.3
0.05
0.2
0.1
0
10
0
Mrite
0
10
10
0
Mrite
10
F IGURE B.1 Densite de probabilite et fonction de repartition de la variable aleatoire z utilisees dans le
mod`ele Bradley-Terry
=12
= Pr
= Pr
= (
)
= ( )
0
0
(
=12
( ) = Pr
Lorsque les probabilites de preferences sont exprimees a` laide dune fonction de repartition symetrique, on dit que les yi satisfont un mod`ele lineaire. En effet, on peut exprimer les ij uniquement a`
laide de t
differences independantes de Vi , avec ij T 21 selon Vi T Vj . Les merites des objets
peuvent donc e tre representes par t points sur une e chelle lineaire muni dune origine arbitraire.
Dans le mod`ele de Bradley-Terry, la probabilite ij est donnee par
H (Vi Vj ) =
= log
1Z 1
4 (Vi
1 dx = 1 (1 + tanh( Vi Vj )) ,
(B.4)
2 1
2
2
Vj ) cosh ( 2 x)
0 ; en outre, on impose que P i = 1. Le lecteur deduira
avec Vi
i , ce qui necessite i
aisement la probabilite de preference de lobjet Ai sur lobjet Aj
ij =
i
.
i + j
(B.5)
Les veritables valeurs de merite (V ) et les veritables probabilites ( ), exposees ci-dessus, ne sont en
fait obtenues que dans le cas dune population infinie. Lorsque nous ne sommes pas dans ce cas limite,
nous devons estimer ces quantites. Nous designons par v les estimateurs des V , et par p les estimateurs
des .
aij
Le but de cet algorithme est de calculer les estimateurs vi des Vi . Soit pij
n la proportion de
preference de lobjet Ai sur lobjet Aj , avec aij le nombre de fois o`u Ai est prefere a` Aj . On definit
218
( )=
vi =
1 X dij .
(B.6)
t j =6 i
Les vi ainsi obtenus sont une estimation des Vi , au sens des moindres carres. Avec la densite de probabilite calculee par le mod`ele de Bradley-Terry donnee en (B.4), on trouve que
pij H (dij ) =
et donc que
1 (1 + tanh( 1 dij )) ,
2
2
(B.7)
do`u
vi =
1 ln Y(a
(B.8)
ij =aji .
j 6=i
Comme lorigine de lechelle lineaire est arbitraire, il est commode de la choisir telle que
t
X
i=1
(B.9)
Vi = 0 ,
(B.10)
ce qui garantit lunicite de lestimateur vi , mais implique de normaliser les i par leur somme pour que
celle-ci soit e gale a` 1.
Les vi peuvent alors e tre places sur une e chelle continue et orientee.
Un test de performance statistique permet de savoir si lalgorithme a reellement pu distinguer les
stimuli : il sagit de tester (et de rejeter) lhypoth`ese selon laquelle les vi sont identiques entre eux au
moyen dune loi statistique particuli`ere possedant une distribution du 2 a` t
degres de libertes (cf. [58,
p. 59]).
B.1.2
Lanalyse de variance
Cette technique est destinee a` apprecier leffet de variables qualitatives sur une variable numerique,
et revient dans le cas simple a` comparer plusieurs moyennes dechantillons gaussiens.
=12
=12
[0 10]
: m1 = m2 = : : : = mp = m
: 9i;j mi 6= mj
En remarquant que pn mtot = pn msuj + msuj mtot , on peut facilement e crire
1 X X(n m )2 = 1 X X(n m )2 + 1 X(m m )2 ,
tot
suj
suj
tot
p
p
NP
NP
P
n
H0
H1
219
(B.11)
(B.12)
S 2 = SA2 + SR2 ,
(B.13)
2 represente la variance entre les stimuli, S 2 la variance resiformule dite (( danalyse de variance )) ; SA
R
duelle.
1 PP 2
1 PN n msuj 2 en introduisant les variances
2
P p=1 Sp avec Sp
N n=1 p
NP S 2
NP S 2
de chaque paire, on trouve que 2 R est une variable 2 a` NP P degres de liberte car 2 R
PP NSp2
NSp2
2
p=1 2 et 2 est une variable N 1 .
S2
2
Sous lhypoth`ese H0 , les msuj sont des variables de meme loi, et dans ce cas NP
2 suit un NP 1
car S 2 est la variance dun e chantillon de taille NP issu dune gaussienne de moyenne m et decart type
2
, et NP2SA suit un 2P 1 car SA2 est analogue a` la variance des P moyennes msuj .
Or on peut e crire
2NP 1 2P 1 2NP P ,
(B.14)
Si on e crit
SR2
1 = F (P 1; NP
P
P),
S 2 =P 1
avec F la loi de Fisher. Le test statistique est alors le suivant : on forme le rapport S 2 A=NP P
R
calcule la probabilite de rejet de lhypoth`ese nulle, a` savoir
Prf0 f g =
Z f
F ()d ;
(B.15)
= f , et on
(B.16)
si cette probabilite est superieure a` un seuil fixe a` lavance (typiquement 95%), alors on rejette lhy2 est alors un
poth`ese H0 et on conclut a` une influence significative des differences entre stimuli ; SR
2
estimateur sans biais de . Le rejet de H0 ne signifie pas que les msuj sont toutes differentes entre elles,
et on peut chercher a` tester legalite a` 0 des differences msuji msujj appeles ((contrastes )). Diverses
methodes existent ; le lecteur se reportera a` [277].
B.1.3
La technique du bootstrap
Cette methode a e te mise au point par Efron [68]. Elle permet devaluer la precision dune analyse
statistique a` partir des donnees dun seul e chantillon de population. Le principe consiste a` creer, a` partir
de lechantillon original, un grand nombre dechantillons de meme taille afin de calculer la probabilite
pour que la quantite estimee soit comprise dans differentes fourchettes de valeurs. Pour determiner ces
nouveaux e chantillons, on effectue un tirage au sort, avec remise, parmi la population de lechantillon
de depart ; ces e chantillons sont dits (( simules )). Le nom de cette methode de simulation (( bootstrap )),
qui signifie tirant de bottes, indique que le seul e chantillon dont on dispose permet den creer dautres.
Il nest, dune part, plus necessaire de supposer que les donnees suivent une loi normale, et dautre
part, il nest plus indispensable de ne se cantonner quaux mesures statistiques dont les proprietes sont
calculables analytiquement.
On peut considerer que la partie redonne le tout. Mais les avantages de la methode bootstrap ne sont
valables quen moyenne et, comme toute autre procedure statistique, celle-ci peut donner des resultats
220
=( )
^ = ( ^)
= ( )
^ ^ = ( ^)
^
x=(
x (x)
)
= ( )
^ = (x)
( ^)
^ = (x )
une replication bootstrap de ^. La quantite s(x ) est obtenue en appliquant la meme fonction s a` x
au lieu de lappliquer a` x. Lestimateur bootstrap de seF (^), lerreur standard de la statistique ^, est un
estimateur e tendu qui utilise la fonction de distribution empirique F^ a` la place de la distribution theorique
inconnue F . Cet estimateur bootstrap de seF (^) est defini par :
seF^ (^ ) .
(B.20)
En dautres termes, lestimateur bootstrap de seF (^) est lerreur standard de ^ pour lensemble des e chantillons de taille n construits par e chantillonnage aleatoire a` partir de la distribution empirique F^ . Malheureusement, dans la quasi totalite des cas, il nexiste pas de formule analytique permettant de calculer cet
estimateur. Cependant, on peut obtenir une bonne approximation numerique de lerreur standard de ^ en
e valuant la deviation standard (ou e cart type) empirique des replications : le resultat est appele estimateur
b B , o`u B est le nombre de replications. En appelant 1 ; 2 ; : : : ; B
bootstrap de lerreur standard, note se
les e chantillons de bootstrap, et
x x
b=1
b=1
X
X
^ () = ^(b)=B = s(xB )=B
(B.21)
!1=2
(
^ (b) ^ ())2
bB =
se
,
B 1
b=1
B
X
^ ( ) = (x )
( ^ )
(B.22)
= 12
avec b
s b , b
; ; : : : ;B , la replication bootstrap correspondant a` chaque e chantillon
b B lorsque B tend vers linfini est en fait lestimateur bootstrap ideal de
de bootstrap. La limite de se
seF theta , c.-`a-d.
se
bB
seF^ seF^ .
(B.23)
B !1
lim
(^ )
1. Lerreur standard est un terme general pour la deviation standard (ou e cart type) dune statistique decrite par une somme ;
ce nest pas un estimateur de la deviation standard base sur les donnees. Dans le cas de lestimateur de la moyenne x
, lerreur
standard vaut seF (
x) = F = n
221
^ = (x )
^
Un autre param`etre servant a` controler la precision dun estimateur est le biais. Par definition, cest
la difference entre lesperance de lestimateur et la vraie valeur du param`etre , c.-`a-d.
^
biaisF = EF [s(x)] t(F ) .
^ = ( ^)
(B.24)
Les estimateurs e tendus t F ne sont pas necessairement non biaises, mais on constate generalement
quils tendent a` avoir un biais faible compare a` leur erreur standard. On peut donc utiliser le bootstrap
pour calculer le biais dun estimateur s . Lestimateur bootstrap du biais est defini comme e tant
lestimateur de biaisF obtenu en substituant F dans lequation (B.24),
^ = (x)
^
biaisF^ = EF^ [s(X )] t(F^ ) ,
(B.25)
= ^() t(F^ ) ,
(B.26)
avec t(F^ ) lestimateur e tendu de , qui peut differer de ^ = s(X).
Un estimateur ameliore du biais peut e tre calcule lorsque ^ est lestimateur e tendu t(F^ ) de = t(F ).
Soit Pj la proportion du j-`eme point contenue dans lechantillon bootstrap x = (x1 ; : : : ;xn ), c.-`a-d.
1
P = Cardfx = xj g pour j = 1;2; : : : ;n ,
(B.27)
dB
biais
et on note
P = (P1; : : : ;Pn)
(B.28)
(B.29)
pour indiquer que est fonction du vecteur de ree chantillonnage. Les B e chantillons de bootstrap
1 ; 2 ; : : : ; B fournissent donc B vecteurs de ree chantillonnage 1 ; 2 ; : : : ; B , chaque vecteur
b e tant de la forme (B.28). On definit enfin la moyenne de ces vecteurs, c.-`a-d.
x x
P
P P
P
P = X B1 Pb
(B.30)
b=1
= ^()
T (P ) ;
(B.31)
Lors dune analyse mettant en oeuvre le bootstrap, il peut e tre dune grande utilite detablir un intervalle de confiance pour , ce qui est plus significatif quun estimateur isole . Pris ensemble, lestimateur
ponctuel et lintervalle de confiance fournissent les renseignements les plus complets sur . Plusieurs
methodes existent pour calculer cet intervalle de confiance ; nous donnons ici le resultat de la methode
basee sur les percentiles de la distribution cumulee, car elle comporte le meilleur rapport qualite-cout.
222
[ ^ ; ^ ] = [ ^ ( ); ^ (1 )]
^ ( )=^
100
distribution du bootstrap, et
[^inf ; ^sup] = [^() ; ^(1 ) ] .
(B.33)
()
Lorsque B est fini, ^B est le 100: percentile empirique des ^ (b), c.-`a-d. la B: valeur dans la liste
()
ordonnee des B replications de ^ . Donc, si B = 200 et si = 0:05, ^B est la 10`eme valeur ordonnee
des replications. Lintervalle de confiance sexprime alors par
(B.34)
Remarquons que nous nobtenons quune approximation de lintervalle de confiance, dont la precision
augmente avec le nombre de replications.
Lanalyse en composantes principales ACP est une methode danalyse factorielle qui a pour objectif de synthetiser linformation donneee par un grand nombre de variables en un nombre restreint de
variables nouvelle. LACP est ainsi une methode descriptive permettant de visualiser et reduire linformation contenue dans un tableau individus variables ; dans la suite du paragraphe, nous supposerons
que n individus ont attribue une note a` p variables, p < n, et nous appelerons xij la valeur prise par la
variable Xj sur lindividu i. Matriciellement,
0
X=
B
B
B
B
B
B
B
B
B
@
x11 x12
x21 x22
..
.
..
.
..
.
..
.
..
.
xn1
..
.
xn2
x1p
x2p
..
xij
..
.
..
.
..
..
.
xnp
1
C
C
C
C
C
C.
C
C
C
A
Pour representer graphiquement ce tableau, on consid`ere quune ligne i du tableau decrit les coordonnees dun point individu ; on doit donc effectuer donc une representation dun nuage de n points dans
Rp . Un probl`eme se pose d`es que p > ...
Un des buts de lACP est de reduire la taille des matrices originelles en projettant le nuage de points
sur un sous-espace o`u converge au mieux la topologie ; en dautres termes, il sagit dunifier les variables
fortement correlees. Le principe consiste a` decomposer la matrice de taille n p en valeurs singuli`eres,
ce qui secrit
p
t X ki i t ,
(B.35)
i
i=1
avec
la matrice diagonale des valeurs singuli`eres P
reelles, et et
deux matrices orthogonales. La
q k
ti soit suffisamment proche de . Les
reduction consiste a` trouver q < p tel que ?
i
i
i=1
vecteurs i sont appeles facteurs.
Soit maintenant un nuage de n points dans Rp muni de la distance euclidienne, et soit 1 le vecteur
directeur de F1 , suppose meilleur axe factoriel au sens des moindres carres. Il sagit de definir F1 comme
la droite le long de laquelle la somme des distances quadratiques des points a` F1 est minimale. Le lecteur
X = TKU =
X =
223
vu
T U
vu
XX
demontrera sans difficulte que le vecteur 1 cherche nest autre que le vecteur propre de t , matrice
des produits scalaires des points individus.
Pour generaliser, on peut e crire que le i-`eme axe factoriel ajustant au mieux le nuage de points
individus est defini par le vecteur directeur i vecteur propre associe a` la i-`eme plus grande valeur
propre i de la matrice t . On peut demontrer que les axes factoriels passent par le centre de gravite
du nuage de points. La qualite de la representation obtenue en se limitant aux q premiers axes factoriels
est estimee en calculant
Pq
j j
Tq Pri=1 i ,
(B.36)
i=1 ji j
XX
X X
Pratiquement, il faut commencer par centrer le nuage de points par rapport a` son centre de gravite,
ce qui revient a` centrer la matrice
par rapport aux moyennes des colonnes. De plus, si les donnees
ne sont pas homog`enes (toutes les variables nont pas la meme unite), il faut essayer dattenuer leffet
dechelle en faisant des homotheties de rapport variable suivant la direction de R p . On normalise donc la
matrice par lestimation de lecart type j associe a` la variable j , et on note cette nouvelle matrice.
Puis il ne reste plus qu`a diagonaliser la matrice dans la base des axes factoriels. La diagonalisation peut
soperer soit par une decomposition en vecteurs et valeurs propres, soit par une decomposition en valeurs
singuli`eres ; le resultat est identique avec lune ou lautre methode, a` ceci pr`es que les valeurs propres
sont les variances des nouvelles coordonnees sur les axes principaux, alors que les valeurs singuli`eres
sont les e carts types.
La k-`eme composante principale est le facteur k dont les n composantes sont les coordonnees des
n points individus sur le k-`eme axe factoriel k . Matriciellement,
0
Y=
B
B
B
B
B
B
B
B
B
@
y11 y12
y21 y22
..
.
..
.
..
.
..
.
..
.
yn1
..
.
yn2
y1p
y2p
..
yij
..
.
..
.
..
..
.
ynp
C
C
C
C
C
C
C
C
C
A
B
B
B
B
B
B
B
B
B
@
ACP
f11 f12
f21 f22
..
.
..
.
..
.
fn1
f 1q
f 2q
..
.
..
. yij
..
.
fn2
..
.
..
.
..
.
fnq
1
C
C
C
C
C
C,
C
C
C
A
(B.37)
Yt Y.
uu
f f
La representation graphique consiste a` projeter le nuage des individus sur un plan principal ( k ; k0 )
qui est generalement defini par deux des trois premiers axes principaux ; plus on va loin, plus on deforme
la representation. Les coordonnees de lindividu i dans ce syst`eme daxe sont les composantes ik et ik0 .
La qualite globale de la representation est estimee en calculant
Tq (uk ;uk0 ) =
Pkr
+ k0
i=1 ji j
224
(B.38)
uu
La qualite ponctuelle de la representation est estimee pour lindividu i sur le plan ( k ; k0 ) en consi2 de langle quil fait avec le plan, c.-`a-d.
derant le
cos
p = cos2 =
y^
Pp
(B.39)
avec i la projection du vecteur i dans le plan ; plus p est proche de 1, meilleure est la representation.
Avec cette methode, on interpr`ete les proximites entre individus en terme de similitude de comportement (r`egle (( qui se ressemble sassemble ))) ; deux individus sont proches dans R p si ils sont dans le
plan factoriel ( k ; k0 ) et si ils sont bien representes dans ce plan.
uu
B.2.2
Lanalyse MDSCAL
Cette methode de positionnement est non metrique, ou ordinale [169] ; elle consiste a` rechercher une
configuration de t points dans un espace euclidien de dimension fixee p telle que les distances d entre ces
points respectent au mieux lordre defini par les dissemblances : si Ai ;Aj < Ak ;Al , on cherche
a` avoir d Ai ;Aj < d Ak ;Al pour le maximum de points. La relation existant entre dissemblance
initiale et distance finale est monotone. De plus, le choix des axes est arbitraire : le mod`ele est invariant
par rotation. Pour une description detaillee, le lecteur se reportera a` [279]. Globalement, lalgorithme
transforme , une matrice t t symetrique (ou une demi-matrice) contenant linformation de proximite
entre les t stimuli (sous forme de ressemblance ou de dissemblance), en , une matrice t r contenant
les coordonnees des t stimuli sur r dimensions. Matriciellement,
0
B
B
B
B
@
11 12
21 22
..
.
..
.
t1 t2
1t
2t
..
jk
C
C
.. C
. C
A
..
.
..
.
B
B
B
@
=)
tt
x11 x12
x21 x22
..
.
xt1
..
.
xt2
x1r
x2r
xjp
..
.
xtr
1
C
C
C
A
(B.40)
avec jk la proximite entre les stimuli j et k , et xjp la coordonnee du stimulus j sur la dimension p.
Une fois que les dissemblances ont e te transformees en distances euclidiennes par lajout dune
constante (appelee constante additive), le programme gen`ere une matrice de produits scalaires, suivant
la procedure decrite par [306], et reprise dans [277, 279], soit
bjk =
avec
d2j =
t
1X
d2
t k=1
jk
1 (d2
2 jk
d2k =
t
1X
d2
t j =1
jk
et
1 X d2 .
d2 = 2
t j;k jk
(B.41)
(B.42)
Une matrice de configuration initiale est calculee a` partir des p premiers vecteurs propres de la matrice
des produits scalaires ; en effet, on sait que les vecteurs propres dune matrice de produits scalaires
representent un ensemble de composantes principales (cf. B.2.1), c.-`a-d. un ensemble de coordonnees
a` variance maximale ; linitialisation est donc metrique (elle respecte au mieux les distances) et non
ordinale. Puis loptimisation non metrique debute.
` chaque iteration, la configuration est normalisee pour avoir une moyenne nulle et une variance
A
unite. Les coordonnees calculees permettent detablir une matrice de distances. Les disparites Dij sont
alors calculees par transformation des distances dij , en regard des donnees : la transformation peut e tre
monotone ou mieux lineaire, ce qui e vite les solutions degenerees (valeurs de disparites identiques). Les
disparites sont alors dans le meme ordre que les donnees, et collent aux distances le mieux possible (au
225
sens des moindres carres). Puis le stress, ou coefficient dajustement du mod`ele, compris entre 0 et 1, est
calcule selon la formule
P
dij Dij 2
i>j
P
stress
(B.43)
2 .
i>j dij
( )
Si il devient inferieur a` un seuil, ou si il reste constant au cours des derni`eres iterations, literation courante clos le processus. Dans le cas contraire, la position des points est modifiee a` laide dune procedure
de descente de gradient. Et le processus recommence : calcul des disparites et calcul du stress.
Apr`es la derni`ere iteration, la configuration est normalisee pour que les coordonnees sur chaque axe
aient une moyenne nulle et une somme des carres unite. De plus, si la distance choisie est la distance
euclidienne, c.-`a-d.
0
11=w
r
X
d Aj ;Ak @ jxjp xkpjw A
(B.44)
p=1
)=
=2
B.2.3
Lanalyse INDSCAL
Si, comme nous le supposons, nous utilisons tous les memes facteurs pour apprehender un phenom`ene, par contre nous avons chacun notre propre sensibilite. On peut donc imaginer quun programme
puisse superposer les espaces des individus en les placant de facon a` trouver alternativement les axes de
dilatation possibles, et a` faire concider les positions des configurations dans lespace. Ces axes de dilatation sont les facteurs perceptifs communs a` tous les sujets ; ils correspondent a` la notion de sensibilite.
Lespace moyen, appele espace perceptif de groupe, permet de retrouver tous les espaces individuels,
non par rotation, mais par dilatation dans un sens ou dans un autre suivant le sujet. La prise en compte
des aspirations propres de chaque sujet implique necessairement que le mod`ele INDSCAL (IN dividual
D ifferences SCAL ing) nest pas invariant par rotation. Les coefficients de dilatation sont les poids que les
sujets accordent aux differents facteurs.
Pour une description precise de cet algorithme, le lecteur se reportera a` [34, 279] ; un rappel des
points importants est presente dans [181]. Globalement, lalgorithme transforme n matrices
tt
symetriques (ou demi-matrices) contenant linformation de proximite entre les t stimuli (sous forme de
226
ressemblance ou de dissemblance), en , une matrice n r de poids des n sujets sur les r dimensions
definissant lespace sujet, et , une matrice tr contenant les coordonnees des t stimuli sur r dimensions
definissant lespace perceptif de groupe. Un espace individuel peut alors e tre construit pour chaque sujet
en appliquant la racine carree des poids du sujet aux dimensions des stimuli. Matriciellement,
0
B
B
B
B
@
0
B
B
B
@
w11 w12
w21 w22
..
.
wn1
..
.
wn2
1t
2t
11 12
21 22
..
.
..
.
..
C
B
C
B
C et B
A
@
.
w
p ..
wnr
..
.
..
.
jk
+ 0
t1 t2
w1r
w2r
C
C
.. C
. C
A
n fois
tt
x11 x12
x21 x22
..
.
xt1
..
.
xt2
x1r
x2r
(B.45)
C
C
. C
xjp .. A
xtr
avec jk la proximite entre les stimuli j et k , w
p le poids accorde par le sujet
a` la dimension p,
` la difference de MDSCAL , INDSCAL est une
et xjp la coordonnee du stimulus j sur la dimension p. A
analyse metrique, c.-`a-d. que la relation existant entre les dissemblances initiales et les distances finales
est lineaire. La distance, pour lindividu
, entre les stimuli j et k est une generalisation de la distance
euclidienne ; elle est donnee par
11=2
r
X
d (Aj ;Ak ) = @
p=1
wp jxjp xkp j2 A
(B.46)
Une interpretation geometrique est fournie figure B.2. Lespace perceptif de groupe, en haut a` gauche,
montre neuf stimuli. Lespace sujet, en haut a` droite, montre les poids (forces perceptives) accordes
par les neuf sujets aux deux dimensions ; ces poids peuvent e tre vus comme des facteurs de dilatation
applicables aux dimensions de lespace perceptif de groupe. Ainsi, le sujet 3, qui poss`ede des poids
identiques sur les deux dimensions, aura un espace individuel identique a` lespace de groupe (`a un facteur
de zoom pr`es). Par contre, il nen est pas de meme pour les individus 2 et 4, pour qui les dimensions sont
dilatees ou comprimees. Le sujet 9, a` lorigine du rep`ere, doit e tre exclu de lanalyse : ou il a repondu au
hasard, ou il a juge par rapport a` dautres dimensions.
Rappelons que les dimensions sont determinees de mani`ere unique, et quil est impossible denvisager une quelconque rotation des axes ; ceux-ci correspondent a` un processus perceptif.
Lalgorithme debute comme pour MDSCAL . Apr`es ajout dune constante (appelee constante additive) sur les dissemblances pour leur faire respecter linegalite triangulaire (d
jk ), celles-ci sont converties
en produits scalaires b
jk (eq. (B.41)), et une configuration initiale est calculee par analyse en composantes principales. Les poids initiaux sont tous e gaux. Loptimisation consiste a` minimiser, au sens des
moindres carres, la fonction derreur
X
S ;
bjk b
jk 2 ,
(B.47)
;j;k
(W X) =
avec
^ )
^b
jk = X yjp
ykp
p=1
(B.48)
p
le produit scalaire calcule a` partir de la configuration courante avec yjp
wp xjp et y centre. Literation
seffectue alternativement sur les poids wp
et sur les coordonnees xjp . La convergence vers un minimum
227
Dim 2
A
Dim 2
5 4
3
8
Dim 1
7
6
Dim 1
Espace sujet
Espace stimulus
de groupe
Dim 2
Dim 2
Dim 1
Dim 1
Espace individuel
sujet 4
Espace individuel
sujet 2
F IGURE B.2 Exemple illustrant le mod`ele INDSCAL. Les poids de lespace sujet sont appliques aux dimensions de lespace stimulus de groupe pour produire les espaces individuels pour les sujets 2
et 4
228
local est assuree, meme si un minimum global est atteint dans la majorite des cas. Une derni`ere normalisation permet dassurer une meilleure visualisation des plans representant lespace perceptif, a` savoir
Pt
2
.
j =1 xjp
Si tous les sujets repondent de la meme mani`ere au test, les espaces individuels seront aussi les
memes et le programme ne trouvera aucun axe de dilatation. Il donnera la position des configurations les
unes par rapport aux autres, mais le rep`ere de lespace propose sera arbitraire.
La correlation entre les poids des differents individus sur les axes renseigne sur leur dispersion dans
lespace ; elle est donnee par
=1
Spp0 =
Pn
qP
n
=1
=1 wp wp0
P
wp
2 n
=1
( )
(wp 0 )2
(B.49)
Si cette correlation tend vers 1, tous les sujets sont regroupes et une rotation des axes est alors permise.
Si cette correlation est nulle, les sujets sont alors separes en deux groupes, les uns e tant insensibles a`
laxe p, les autres e tant insensibles a` laxe p0 . Dans le cas o`u les sujets sont uniformement repartis dans
le plan, Spp0 prend la valeur caracteristique = : .
0 64
La correlation entre les coordonnees des configurations sur les axes p et p0 est donnee par
?0
Spp
Pt
j =1 xjp xjp0
= qPt
2
2
j =1 (xjp ) (xjp0 )
(B.50)
? 0 mesure la quantite dinformation conservee par les axes p et p0 par rapport a` la quantite
La valeur de Spp
dinformation injectee a priori par les valeurs des crit`eres des configurations. Si les valeurs des crit`eres
varient initialement de facon independante, la correlation entre les facteurs perceptifs correspondants
?0
?0
informe sur la dependance (Spp
) ou sur lindependance conservee des facteurs (Spp
). Par
?
contre, si les valeurs des crit`eres sont initialement correles, le calcul de Spp0 ne permet pas de mesurer
?0
lindependance des facteurs ; meme si Spp
, cela ne remet pas en case lexistence de ces facteurs
0
perceptifs p et p .
=1
=0
=1
Le mod`ele INDSCAL est toujours capable de trouver une solution d`es lors quon lui impose le nombre
de dimensions r . Le probl`eme est de choisir le nombre de dimensions optimal, en terme dadequation
du mod`ele aux donnees initiales, mais aussi en terme defficacite du mod`ele, c.-`a-d. que ce nombre de
dimensions doit e tre le plus faible possible pour decrire de mani`ere satisfaisante le mod`ele. Or, il est
impossible de choisir ex nihilo le bon nombre de dimensions. Par contre, il existe a posteriori plusieurs
indicateurs de loptimisation du mod`ele.
Lindicateur principal est la variance expliquee par le mod`ele ; lidee est de connatre la quantite
dinformation (( sauvegardee )) lors du passage dans le mod`ele. La variance expliquee R2 est le carre
de la moyenne des correlations sur lensemble des sujets entre les produits scalaires initiaux b
jk et ceux
estimes par le mod`ele b
jk ; cest un nombre compris entre 0 et 1 qui, plus il est proche de 1, temoigne
dun ajustement de plus en plus precis du mod`ele aux donnees initiales. Ainsi, on e crit
R=
Pr
;j;k bjk p=1 wp xjp xkp
q P
Pr
2 P
;j;k bjk
;j;k
p=1 wp xjp xkp
( )) (
)2 )
(B.51)
Le pourcentage de variance sur chaque axe est estime en ponderant R2 par le poids normalise moyen que
les sujets ont accorde a` cet axe, ce qui secrit
p =
Pn
( ) R2 .
( )2
wp
2
=1
Pr Pn
p=1
=1 wp
229
(B.52)
B.2.4
Lanalyse EXSCAL
Le mod`ele INDSCAL peut ne pas e tre approprie si, en plus des dimensions partagees par les stimuli,
ceux-ci different par des dimensions specifiques a` chaque stimulus, appelees specificites. Winsberg &
Caroll [325327] proposent un mod`ele dans lequel la distance entre le stimulus j et k pour le sujet
est
definie par
0
11=2
r
X
d
Aj ;Ak @ wp
jxjp xkpj2 u
sj sk A ,
(B.53)
p=1
)=
+ ( + )
avec sj et sk les specificites des stimuli j et k , et u
le poids pour le sujet
pour les specificites. La
specificite sj , pour le stimulus j , peut e tre vue comme la somme ponderee des carres des coordonnees
sur cette dimension specifique au stimulus j , toutes e tant nulle sauf celle pour le stimulus en question ; en
dautres termes, il sagit du carre de la force perceptive dune caracteristique possedee par le stimulus. Ce
mod`ele tr`es general est appele EXSCAL (EX tended INDSCAL model). Bien entendu, certaines quantites
peuvent e tre nulles, comme u
par exemple.
Dans ce mod`ele, la relation existant entre les dissemblances initiales et les distances finales est
definie par
jk
F
d
jk erreur .
(B.54)
= ( )+
avec les dissemblances et d les distances. La fonction F nest pas lineaire, donc le mod`ele est non
metrique. Cependant, la relation nest pas monotone quelconque, comme dans le cas dun traditionnel
mod`ele non metrique, puisquil sagit de combinaisons lineaires de fonctions splines ; on parlera donc ici
de mod`ele quasi non metrique. Ces fonctions ont lavantage detre aisement manipulables, puisquelles
sont decrites par un nombre reduit de param`etres, et quelles sont differentiables ; dapr`es Caroll [33],
elles permettent de minimiser les degenerescences des solutions.
Lestimation des param`etres du mod`ele est du type maximum de vraisemblance. Si on suppose
que les erreurs de lequation (B.54) sont independantes et distribuees normalement, on peut e crire le
logarithme de la fonction de vraisemblance, soit
log L /
n X
X
=1 k>j
jk
2
F (d jk )
(B.55)
Lestimation par maximum de vraisemblance se transforme en une estimation au sens des moindres
carres. Les param`etres a` estimer sont classes en trois ensembles : les param`etres spatiaux, xjp et sj
(j
: : : t, p
: : : r), les param`etres de la transformation cq (ordre des fonctions splines q
: : : Q),
et les poids wp (
: : : n) et u . Nous ne detaillerons pas le mecanisme de cette optimisation ; le lecteur se reportera aux references citees en debut de paragraphe. Globalement, lalgorithme commence
par choisir un ensemble de valeurs pour les param`etres de transformation et les param`etres de poids, et
=1
=1
=1
=1
230
cherche la configuration spatiale qui maximise le logarithme de la vraisemblance ; puis, conditionnellement a` la configuration et aux poids, lalgorithme cherche la transformation qui maximise la vraisemblance ; et enfin, conditionnellement a` la configuration et a` la transformation, il cherche les poids qui
maximisent la vraisemblance. Loptimisation fait intervenir un hessien sur les coordonnees ; elle est du
second ordre.
Comme lestimation est du type maximum de vraisemblance, on peut comparer divers mod`eles, en
terme de qualite dajustement des param`etres. En toute rigueur, les deux crit`eres exposes ci-dessous ne
sont pas suffisants pour decider du choix dun mod`ele ; ils ne fournissent quune presomption. Pour lever
le doute, il faudrait proceder a` une analyse de type Monte Carlo entre deux mod`eles concurrents [127].
Les crit`eres statistiques suivants sappliquent uniquement lorsque le mod`ele est asymptotique par
rapport au nombre dindividus [327] ; ce nest pas le cas pour un mod`ele avec ponderations individuelles
(et a fortiori avec specificites) puisquon introduit plus dun param`etre par nouvel individu. Ces crit`eres
ne constituent alors pas un veritable test statistique, mais plutot un indicateur de ladequation du mod`ele.
Il faut alors proceder a` une interpretation e clairee de la situation...
Le premier, note AIC (A ikake I nformation Criteria) et introduit par Aikake [3], est defini par
AIC
= 2log L + 2 ,
(B.56)
avec le nombre de degres de libertes du mod`ele. Cette statistique ne prend pas en compte la taille de
lechantillon (nombre de sujets et nombre de stimuli), et peut conduire a` selectionner un mod`ele trop couteux vis-`a-vis du nombre de param`etres. Schwartz [291] introduit un second crit`ere, note BIC (Bayesian
I nformation C riteria), qui repond a` cette critique. Dans le cas dune comparaison par paires, il est defini
par
BIC
= 2log L + log
t(t
1) .
(B.57)
Le mod`ele avec la plus petite valeur de ces statistiques est e lu pour donner la meilleure representation
des donnees. Empiriquement, Winsberg & De Soete [328] conseillent de se fier au BIC . En general,
pour une analyse qui ne comporte pas de minima locaux, ces crit`eres diminuent avec laugmentation du
nombre de param`etres du mod`ele jusqu`a un certain point, avant daugmenter. En pratique, le crit`ere le
plus important sur lequel le choix final doit e tre fonde est linterpretabilite des dimensions et specificites
fournies par le mod`ele.
Les specificites ne doivent e tre prises en compte que si le mod`ele se trouve considerablement ameliore.
231
Page blanche
232
ANNEXE C
Filtrage numerique
C.1
Nous donnons ici un rappel des proprietes importantes ; pour une e tude plus approfondie, le lecteur
se reportera a` [243].
C.1.1 Definitions
Un syst`eme discret est un syst`eme dont lentree x
verifiant le theor`eme de Shannon.
Comme dans le cas des signaux a` temps continu, on peut definir les notions de linearite et dinvariance dans le temps.
Un syst`eme F est dit lineaire si F fx1 n
x2 n g F fx1 n g F fx2 n g, avec et
constantes reelles.
Un syst`eme F est dit invariant dans le temps si un decalage en temps de lentree produit un meme
decalage en temps de la sortie, c.-`a-d. F fx n k g F fx n gn=n k .
On appelle filtre lineaire un syst`eme lineaire et invariant dans le temps.
( )+
() =
) =
() +
()
()
Un filtre lineaire repond a` une e quation de convolution entre le signal dentree et une fonction
caracteristique appelee reponse impulsionnelle. Cette propriete se traduit en temporel par la relation
y(n) =
+1
X
k=
x(k)h(n k) .
(C.1)
La fonction h
H (z ) =
avec
n=+
X1
n=
h(n)z
n,z
2 Dh ,
(C.2)
(C.3)
La fonction H
savoir
+1
X
n=
h(n)exp(
2jnf ) ,
(C.4)
exp(2
(C.5)
(e )
F fexp(2jnf )g = H (e2jf )exp(2jnf ) .
(C.6)
C.1.2 Equation
lineaire aux differences a` coefficients constants
Une importante sous-classe de filtres lineaires est constituee par les syst`emes qui repondent a` une
e quation lineaire aux differences a` coefficients constants, c.-`a-d.
y(n) + a1 y(n
1) + : : : + apy(n
p) = b0 x(n) + b1 x(n
1) + : : : + bq x(n
q) .
(C.7)
En utilisant les proprietes de la transformee en z , on obtient pour la fonction de transfert une fraction
rationnelle
Bz
b0 : : : bq z q
Hz
.
(C.8)
Az
a1 z 1 : : : ap z p
( ) = (( )) = 1 + + ++ +
Les zeros et les poles de la fonction de transfert correspondent respectivement aux racines du numerateur
et du denominateur. Ils sont soit reels, soit complexes conjugues.
Si tous les ai sont nuls, le filtre est a` reponse impulsionnelle finie, ou RIF ; dans le cas contraire, il
est dit a` reponse impulsionnelle infinie, ou RII.
Si tous les bi sont nuls, le filtre est dit auto regressif, ou AR ; dans le cas contraire, il est dit auto
regressif a` moyenne ajustee, ou ARMA.
C.1.3 Proprietes
Un syst`eme est dit causal si sa reponse impulsionnelle est nulle pour les instants negatifs, ce qui
secrit
hn
8n < ;
(C.9)
( )=0
cette condition implique que les e chantillons en sortie du filtre ne dependent que des e chantillons aux
instants precedents.
Un syst`eme est dit stable si a` toute entree bornee correspond une sortie bornee (BIBO, ou Bounded
Input Bounded Output). On peut montrer quune condition necessaire et suffisante pour quune filtre
lineaire soit stable est que sa reponse impulsionnelle h n soit de module sommable, ce qui secrit
()
+1
X
n=
jh(n)j < +1 .
234
(C.10)
On en deduit que le filtre est stable si et seulement si le domaine de convergence de sa fonction de transfert H z contient le cercle unite. Comme le domaine de convergence ne doit contenir aucun pole, on en
deduit que la fonction de transfert ne doit avoir aucun pole sur le cercle unite. Mais on peut montrer par
ailleurs que si H z correspond a` la solution causale, alors le domaine de convergence setend au-del`a du
pole de plus grand module. Cela implique quun filtre lineaire est a` la fois causal et stable si et seulement
si tous ses poles sont a` linterieur du cercle unite.
()
()
La linearite de la phase dun filtre est une propriete tr`es importante en audio, car elle garantit le
respect de la forme temporelle du signal, dans la mesure o`u son contenu frequentiel nest pas modifie.
Pour les signaux transitoires, cest une caracteristique a` laquelle loreille est tr`es sensible. Les filtres a`
phase lineaire sont tr`es utilises pour la realisation de filtres passe-bas, passe-bande et passe-haut, pour
lesquels il est capital que le signal dans la bande ne soit pas deforme.
La linearite de la phase est assuree pour un filtre a` reponse impulsionnelle finie par limportante
propriete
hN n hN n ,
(C.11)
)= ( + )
o`u N represente le milieu de la reponse impulsionnelle ; un tel filtre introduit un retard de N e chantillons.
Les filtres a` reponse impulsionnelle infinie causaux et stables ne peuvent en aucun cas avoir une
phase lineaire.
On distingue deux quantites qui mesurent le retard introduit par un filtrage. Il sagit du retard de
phase
H 2jf
'
,
(C.12)
et du retard de groupe
g =
))
1 dArg(H (e2jf )) .
2
df
(C.13)
Ces deux retards ne sont e gaux que si le filtre est a` phase lineaire. Notons que les formules ci-dessus ne
sont valables que pour un signal a` bande e troite ; en particulier, on ne peut pas dire, en general, que le
retard introduit par un filtre soit caracterise par son temps de propagation de groupe ; cela nest vrai que
pour un signal a` bande e troite dont le support concide avec la bande passante du filtre H .
Tout filtre peut e tre vu comme la mise en serie dun filtre a` phase minimale et dun filtre passe-tout,
de telle sorte que sa fonction de transfert peut secrire (la dependance frequentielle e tant omise par souci
de clarte)
= jH j ej'
= jH j ej'mph ej'eph
(C.14)
= Hmin Hexc ,
avec Hmin = jH jej'mph le filtre a` phase minimale, et Hexc = ej'eph le filtre passe-tout. De plus, on
H
peut montrer que le module et la phase dun filtre a` phase minimale forment une paire de transformee de
Hilbert [243], a` savoir
= Hilbert
jH j .
(C.15)
mph = (
( log
))
Tout filtre H est donc enti`erement determine par son module jH j et par lexc`es de phase
posante passe-tout.
eph de sa com-
On dit quun filtre lineaire est a` minimum de phase si les poles et les zeros de sa fonction de transfert
sont a` linterieur du cercle unite ; le filtre inverse se retrouve donc a` la fois causal et stable.
235
F IGURE C.1 Diagramme de Nyquist dun filtre a` phase minimale, sur lequel on peut constater que lorigine
( ) nest jamais entouree
Dans le cas o`u la fonction de transfert est une fraction rationnelle a` coefficients constants, un filtre
a` minimum de phase est uniquement defini par la donnee du module de son gain complexe (ce nest pas
vrai dans le cas general, puisque les poles et les zeros sont soit reels soit complexes conjugues). Cette
approche est souvent adoptee dans la synth`ese dun filtre a` partir de la seule donnee de son gain.
Le filtre a` minimum de phase est, parmi tous les filtres ayant le meme gain, celui qui repond le plus
rapidement. En effet, si on note ymin n la reponse du filtre a` minimum de phase, et y n celle de tout
autre filtre ayant le meme gain, on peut montrer que pour tout signal dentree x n , on a
()
n
X
k=
()
jy(k)j2
n
X
k=
()
jymin(k)j2 ,
(C.16)
ce qui veut bien dire que le filtre a` minimum de phase est celui qui a lenergie de sa reponse impulsionnelle la plus concentree autour de 0.
Dautre part, si un filtre est a` minimum de phase, son retard de groupe est nul ; au pire, il est constant
si la partie passe-tout se reduit a` un retard pur.
Enfin, on peut e tablir une condition necessaire et suffisante pour quun filtre soit a` minimum de
phase. Pour cela, on utilise le crit`ere de Nyquist afin de detecter la presence de zeros a` lexterieur du
cercle unite. Le crit`ere de Nyquist est base sur un theor`eme de Cauchy dans le plan complexe : si une
variable complexe z dans le plan z decrit un contour C1 dans le sens trigonometrique, alors H z ,
fonction de la variable z , decrira un coutour C2 dans le plan H z qui entourera N fois lorigine dans le
sens trigonometrique, o`u N est la difference entre le nombre de poles et de zeros de H z inclus dans
C1 [229, 278]. Pour les syst`emes discrets, le contour C1 nest autre que le cercle unite. Donc si H z est
la transformee en z dun syst`eme causal et stable, alors H z na aucun pole a` lexterieur du cercle unite ;
donc le nombre de tours de H z autour de lorigine, lorsque z decrit le cercle unite, est precisement le
nombre de zeros de H z exterieurs au cercle unite dans le plan z .
Pratiquement, le test se resume a` tracer un diagramme polaire (ou courbe de Lissajous), c.-`a-d. la
partie reelle de H 2jf en abscisse, et sa partie imaginaire en ordonnee ; si le trace nentoure pas le
cercle unite, alors le filtre est a` phase minimale (cf. fig. C.1). Pour cela, il est necessaire que H 2jf
soit e chantillonne sur le cercle unite avec un pas suffisamment fin pour e viter les brusques variations de
phase. Si lon dispose de la reponse impulsionnelle du filtre, on aura donc soin de calculer sa TFD sur un
grand nombre de points, et au besoin deffectuer un zero-padding ; et si il existe un retard avant larrivee
du son direct, celui-ci doit e tre e limine puisquil est e quivalent a` un filtre passe-tout.
()
()
(e
()
()
()
()
()
(e
On dit quun filtre lineaire est passe-tout si son gain est independant de la frequence. Les zeros de
de poles de H z , et la phase est toujours decroissante (avec une
()
236
a1
brusque variation au niveau des poles). On peut montrer que pour tout signal dentree x
de sortie y n on a la propriete
n
n
X
X
jx k j2
jy k j2 ,
k= 1
k= 1
()
()
()
(C.17)
1) + b2x(n 2)
a1 y(n
1)
a2 y(n
2) ,
(C.18)
Ce filtre est bien causal car sa sortie depend des entrees et des sorties precedentes ; sa fonction de transfert
secrit
H (z ) =
B (z )
A(z )
1
= b10++ab11zz 1 ++ab22zz
2
2.
(C.19)
Il est aise de calculer le crit`ere de stabilite, c.-`a-d. lensemble des valeurs de a1 et a2 qui garantissent le
stabilite du filtre : il suffit de calculer les racines du polyome A z et de voir sous quelles conditions elles
ont un module inferieur a` 1 ; on obtient la domaine connexe represente sur la figure C.2. De plus, on peut
montrer que si
()
a1
(1 + a2) < 1 ,
4a2
(C.20)
alors le gain du filtre passe par un maximum dont la frequence (dite frequence de resonance) est donnee
par
fr =
1 arccos
2
a1 (1 + a2 )
4 a2 ;
(C.21)
H (fr ) =
1
(1 a2 )sin ' ,
(C.22)
avec a1
r ' et a2 r2 , o`u lon verifie que r represente le module des poles et ' leur
argument. On remarquera que la surtension a` la resonance est dautant plus grande que a2 est voisin
de 1.
= 2 cos
237
20
15
0.5
10
1
rad
dB
1.5
5
2
10
2.5
15
20
0.05
0.1
0.15
0.2
0.25
0.3
Frquence rduite
0.35
0.4
0.45
0.5
0.05
0.1
0.15
0.2
0.25
0.3
Frquence rduite
0.35
0.4
0.45
0.5
F IGURE C.3 Reponse en frequence dune cellule dordre deux. A` gauche : module ; a` droite : argument
()
La partie non recursive, representee par le polynome B z sert a` creer une antiresonance dans le
gain du filtre ; afin de retomber sur les memes formules que ci-dessus pour la frequence de lextremum
(ici un minimum) et la valeur du gain correspondant (mais inverse), il est commode de normaliser le
polynome B z par b0 qui nest autre quun gain global.
Le filtre complet H z permet dont de creer une resonance et une antiresonance, comme un peut le
voir sur la figure C.3. On remarquera la brusque variation de la phase autour de la resonance. Le lecteur
se referera a` [56, 194, 324] pour plus dinformations sur la cellule du second ordre et son utilisation en
audio.
()
()
= +
4log ( ) + 4
238
temps reel, mais surtout sans retard [31, 94]. Notons que le cout de calcul est variable, car il depend de
la taille des blocs de FFT, et aussi dun certain retard pouvant e tre introduit.
Pour un filtre RII, la structure la plus efficace en terme de cout de calcul est la structure en serie ;
tout filtre H z est factorise en cellules du second ordre, soit pour un filtre dordre N pair
()
H (z ) =
N=
Y2
(C.23)
Grace a` lappariement des poles et des zeros, et grace a` lordre des sections en cascade, il est possible de
reduire limportance du bruit de quantification des coefficients, et deviter les erreurs darrondis [324] ;
numerateur et denominateur sont donc regroupes de sorte que la frequence de resonance et la frequence
dantiresonance de la cellule soient proches, et ainsi que le gain maximal de la cellule soit proche de 1 ;
les cellules sont donc ordonnees par gain maximal decroissant. On peut meme stocker le gain global du
filtre dans le coefficient b01 de la premi`ere cellule, tandis que les N=
suivantes nont besoin que
de quatre coefficients ; on obtient alors un cout de calcul de N=
N
operations par
e chantillons.
2 1
4 ( 2) + 1 = 2 + 1
( )=
Lexistence dune symetrie, paire ou impaire, des coefficients du filtre par rapport au milieu de la
fenetre permet de realiser un filtre a` phase lineaire.
Dans la suite, on suppose donne le gain en frequence H
()
Methode de la fenetre La reponse impulsionnelle h n peut e tre obtenue par la formule de transformation inverse suivant lexpression (dans le domaine e chantillonne)
h(n) =
()
+ 12
1
2
(C.25)
En general, la suite h n est infinie. Aussi pour pouvoir realiser loperation de filtrage directement a`
partir de la relation de convolution, il ne faut conserver quun nombre fini P de valeurs. De facon a`
239
()
= 2 +1
()
+
()
()
()
Methodes iteratives La synth`ese du filtre h n est ici consideree comme un probl`eme dapproximation
ponderee au sens de Chebyshev. Pour cela, il faut determiner un ensemble de conditions pour lesquelles
il est possible de montrer que la solution est optimale (au sens o`u lerreur dapproximation est minimisee sur lintervalle entier), et unique. Lidee est dexprimer jH 2jf j sous la forme dun produit
jH 2jf j P 2jf Q 2jf , produit dans lequel Q 2jf est connu a priori, et P 2jf est le polynome trigonometrique dont on doit determiner les coefficients. Lerreur dapproximation est exprimee
par
E 2jf W 2jf H 2jf Q 2jf P 2jf ,
(C.26)
(e
) = (e
) (e
(e
) = (e
)[ (e
(e
(e
(e
) (e
(e
)]
avec W 2jf une fonction de ponderation qui permet de donner une importance differente a` lerreur
suivant la frequence f . La minimisation au sens de Chebyshev est celle de la norme 1 , soit
(e
(C.27)
H (z ) =
B (z )
A(z )
PM
i
i=0 bi z
PN
j
j =0 aj z
1
X
n=0
hn z
n.
(C.28)
240
Transposition a` partir de filtres continus La premi`ere methode est celle de linvariant impulsionnel.
Comme son nom lindique, cette methode consiste a` dire que la reponse impulsionnelle du filtre numerique est la version e chantillonnee de la reponse impulsionnelle du filtre continu. Cette methode donne
de bons resultats pour des filtres de type Butterworth, Bessel ou Chebyshev, en ce sens quelle conserve
les proprietes de phase aussi bien que les proprietes dattenuation ; cette methode est simple a` mettre
en uvre, moyennant le fait que la fonction de transfert du filtre continu verifie Hc 2jf pour
jf j f2e , ce qui permet de definir une frequence dechantillonnage fe et de limiter les recouvrements
de spectres lies a` lechantillonnage ; une deuxi`eme condition est que hc
, ce qui traduit labsence
de discontinuite a` lorigine. Cependant, cette methode necessite de connatre H 2jf par ses poles et
ses zeros, ce qui necessite souvent un calcul de racines de polynomes quil nest pas evident de toujours
mener correctement pour des ordres trop e leves.
(e
(0) = 0
(e
) 0
Transformation bilineaire La methode precedente permet dobtenir un filtre numerique dont seule la
reponse impulsionnelle est invariante. Mais il est possible de determiner une methode pour laquelle le
filtre numerique presentera le meme comportement que le filtre continu quelque soit lentree. La transformation peut e tre abordee de deux facons : soit comme une transformation geometrique du plan complexe
qui transforme laxe imaginaire du plan de Laplace en cercle unite du plan z, soit comme une identification de loperateur dintegration. Cest souvent le deuxi`eme principe qui est utilise. On obtient un filtre
numerique e quivalent en effectuant la transformation
H (z ) = H (p)jp= T2 zz+11 ,
(C.29)
avec T la periode dechantillonnage. Le filtre ainsi obtenu aura approximativement la meme reponse
temporelle que le filtre de depart continu ; cette transformation est appelee transformation bilineaire. Le
demi-plan gauche devient linterieur du cercle unite, laxe imaginaire le cercle unite, et le demi-plan droit
lexterieur du cercle unite ; il y a donc conservation de la stabilite.
La relation entre les frequences continues et numeriques est un peu plus compliquee ; il y a bel et
2jfN T o`u fN represente la frequence du domaine numerique, il
bien distorsion de frequence. Soit z
vient
fc
fN T ,
(C.30)
=e
= T1 tan(
avec fc la frequence correspondante du domaine continu. Il sensuit que lorsque fc varie de facon continue de 1 a` 1, alors fN T varie de 21 a` 12 : le fait de decrire laxe imaginaire tout entier fait decrire
un seul tour sur le cercle unite.
La procedure de synth`ese est donc la suivante :
1. Definir le gabarit du filtre numerique.
2. Redefinir le gabarit dans le domaine continu a` laide de la distorsion de frequences.
3. Effectuer la synth`ese a` laide de methodes du continu (Butterworth, Bessel, Chebyshev, Legendre,
Cauer, elliptique, etc.)
4. Effectuer la transformation de lequation (C.29) qui donne directement H z .
()
Conception directe Il est possible de specifier un filtre directement dans le domaine numerique, par
` la difference des methodes de specifications a` partir du
approximation de sa fonction de transfert. A
domaine continu, les methodes de conception directes ne sont pas limitees a` des des filtres passe-bas,
passe-haut, passe-bande ou stop-bande.
M E THODE
DE
Y ULE -WALKER
Cette methode specifie un filtre recursif par ajustement (au sens des moindres carres dans le domaine
temporel) du gain dune fonction de transfert donne. Lorigine du nom provient de la methode utilisee
241
pour calculer les coefficients du denominateur : lalgorithme calcule la TFD inverse du spectre de puissance idealement desire, et resout les e quations de Yule-Walker modifiees en utilisant les coefficients de
la fonction dautocorrelation. Le calcul du numerateur est plus complexe, et fait intervenir lajustement
temporel sus-cite ; pour un descriptif complet de la methode, le lecteur pourra se referer a` [89]. Cette
methode naccepte aucune information de phase.
M E THODE
E EN
DE LA TRANSFORM E
z INVERSE
` la difference de la methode precedente, cette methode accepte une fonction de transfert complexe
A
en entree. Les coefficients du numerateur et du denominateur sont calcules a` laide dun ajustement
au sens des moindres carres dans le domaine frequentiel discret, par le biais de la minimisation dune
fonction derreur, c.-`a-d.
NX1
B k 2
w k H k
(C.31)
,
b;a
A
k
k=0
avec k frequence discr`ete, N taille de la TFD, w fonction de ponderation de lerreur, H la fonction de
transfert desiree, B
A le filtre recursif calcule ; celui-ci est toujours stable.
min
M E THODE
() ()
()
()
Cette methode gen`ere exclusivement un filtre autoregressif (AR), ou tout poles, dont la reponse impulsionnelle sajuste au mieux a` une sequence temporelle definie. Elle suppose que chaque e chantillon de
sortie du filtre est une combinaison lineaire de n e chantillons passes, et que les coefficients sont constants
au cours du temps. Ceux-ci sont calcules par inversion de la matrice dautocorrelation (en general grace
a` lalgorithme recursif de Durbin-Levinson applique a` la dite matrice, de forme Toeplitz symetrique).
Le filtre genere est toujours stable, mais il peut ne pas modeliser exactement la sequence definie, car le
calcul de lautocorrelation suppose implicitement que les e chantillons sont nuls au-del`a de la longueur
de la sequence.
M E THODE
DE
P RONY
+1
M E THODE
DE
S TEIGLITZ -M AC B RIDE
Comme la methode de Prony, cette methode determine les coefficients dun mod`ele ARMA dont
la reponse impulsionnelle est la meilleure approximation dune sequence temporelle donnee ; pour une
description compl`ete de la methode, le lecteur se reportera a` [185, 301]. Mais a` la difference de la methode de Prony, la methode de Steiglitz-MacBride realise lidentification compl`ete dun syst`eme, basee
242
sur la connaissance dune sequence dentree et dune sequence de sortie correspondante. Lalgorithme
est iteratif ; il debute comme pour la methode de Prony, c.-`a-d. que les coefficients du denominateur sont
dabor calcules par la methode de la covariance modifiee ; puis lentree et la sortie sont filtrees par le
filtre AR precedemment calcule, et les coefficients du numerateur sont calcules par la minimsation dune
fonction derreur entre la sortie du filtre calcule et la sequence de sortie desiree. Lalgorithme converge
tr`es rapidement ; mais il peut aussi ne pas converger du tout si lordre du mod`ele est trop grand. Comme
pour la methode de Prony, le filtre genere nest pas necessairement stable. Les capacites de modelisation
sont, pour un ordre donne, superieures a` la methode de Prony.
13
Outre linteret concernant ladequation de la representation au fonctionnement de notre syst`eme auditif, il en existe un autre concernant la modelisation dun filtre. Une fois loperation de lissage effectuee,
la modelisation requiert un plus petit nombre de coefficients.
Lissage du spectre de puissance Les bancs de filtres peuvent e tre utilises dans le domaine frequentiel,
sur le module dun gain complexe obtenu par transformee de Fourier (assimilable a` un banc de filtres de
largeurs constantes). Le lissage est effectue par lintermediaire dune moyenne ponderee des e chantillons
du spectre ; mais le nombre de points resultants est moindre (il est e gal au nombre de filtres dans le banc).
Si on veut ensuite proceder a` une modelisation, il faut effectuer une interpolation entre ces valeurs pour
revenir a` une e chelle frequentielle constante.
Le lissage peut aussi e tre realise par lintermediaire dune moyenne ponderee des e chantillons du
spectre, avec une fenetre de ponderation symetrique sur une e chelle logarithmique (en general une fenetre de Hann) definie par son facteur de qualite Q, et glissante. On obtient donc un spectre lisse avec
le meme nombre de points que le spectre original, mais chaque nouveau point represente une moyenne
243
effectuee sur un intervalle dautant plus large que la frequence augmente. Dans le cas des signaux discrets, considerons le spectre de puissance jH k j2 , o`u k est lindice frequentiel tel que k N
;
loperation de lissage peut e tre exprimee a` laide de lequation de convolution
()
Hl (k)
= jH (k)j2 ~ Wsm(m(k);k)
N
X1
=
jH (k i) mod N j2 Wsm(m(k);i) ,
(C.32)
i=0
( () )
o`u ~ represente loperation de convolution circulaire, et Wsm m k ;k est une fenetre de lissage ayant la
forme generale dun filtre passe-bas (en general une combinaison lineaire de fonctions cosinus), dont la
demi-largeur m k varie en fonction de lindice frequentiel k . Ordinairement, les fenetres sont definies
par c.-`a-d.
LX1
ik
W k
bi
,
(C.33)
N
i=0
()
cos 2
( )=
=1
=1
8
b (b 1) cos[(=m(k))k]
>
>
2b(m(k)+1) 1
>
<
Wsm(m(k);k) =
>
b (b
1) cos[(=m(k))(k
2b(m(k)+1) 1
N )]
=2
=05
= 05
k = 0;1; : : : ;m(k)
(m(k) 1); : : : ;N 1
0
k = m(k) + 1; : : : ;N (m(k) + 1)
(C.34)
On peut, par exemple, choisir m(k ) pour effectuer un lissage sur une e chelle de 1=3 doctave, ou
>
>
:
k=N
m(k);N
mieux directement sur lechelle des ERB. Un tel lissage, effectue avant letape de modelisation precedemment decrite, permet de repartir uniformement lerreur de modelisation dans les differentes bandes
critiques.
Le lissage peut aussi e tre effectue dans le domaine cepstral [243] ; le principe est deffectuer une
troncature du cepstre, le nombre de points conserves correspondant a` lidee de la frequence de coupure
dun filtre passe-bas. Aucune reference ne peut e tre donnee quant a` une quelconque resolution frequentielle.
Dans le meme ordre didee, on peut decomposer un signal temporel (ou un spectre complexe) sur
une base dexponentielles complexes, et ne garder quun nombre fini de coefficients.
Lissage du spectre complexe Si le filtrage est effectue sur le module du gain complexe, aucun traitement nest effectue sur la phase. Le processus de lissage du module est donc non reversible, en ce sens
quil est impossible de retrouver la reponse impulsionnelle dont le module de son gain complexe serait
justement le module lisse (sauf a` supposer que la reponse impulsionnelle est a` phase nulle). Or, la reponse
temporelle modifiee (calculee a` partir dun lissage du module et de la phase) peut e tre aussi pertinente,
dun point de vue perceptif, que le spectre de puissance lisse. Lidee du lissage complexe [121] est de
modifier une reponse impulsionnelle pour que, dune part elle acqui`ere les proprietes dun spectre de
puissance lisse, et dautre part elle puisse mettre en e vidence les caracteristiques temporelles perceptivement pertinentes du syst`eme e tudie. Lequation de convolution devient dans ce cas
Hlc (k)
=
=
H (k) ~ Wsm(m(k);k)
NX1
i=0
[H (k i) mod N ] Wsm(m(k);i) .
244
(C.35)
0.5
0.5
10
12
Temps en ms
14
16
18
20
10k
20k
30
Energie en dB
20
10
0
10
20
30
40
50
50
Brut
Lissage rel
Lissage complexe
100
200
400
800
1.5k
Frquence en Hz
3k
5k
F IGURE C.4 Influence dun lissage complexe en 1/3 doctave sur une reponse impulsionnelle mesuree a` linterieur dun vehicule
Le resultat est presente figure C.4 ; il est clair que les composantes hautes frequences sont conservees
au debut de la reponse impulsionnelle, et quun effet passe-bas est progressivement introduit. Cet effet
correspond bien a` notre processus auditif, specialement dans le cas de lanalyse dune reponse impulsionnelle de salle. De plus, leffet du lissage complexe peut e tre mis a` profit dans le calcul de filtres
inverses pour legalisation acoustique, puisquil permet de realiser des filtres avec une sensibilite plus
faible dun point de vue perceptif aux modifications de la position lauditeur dans la salle.
()
()
()
()
=
z r
,
rz
(C.36)
o`u r est le param`etre de warping compris entre -1 et +1 ; on peut voir sur la figure C.5 leffet de cette
operation sur laxe frequentiel. Dapr`es Smith, la valeur optimale (au sens de la minisation a` laide de la
norme L1 de lerreur relative de la largeur de bande) du coefficient de warping permettant dapprocher
au mieux lechelle des Barks est donnee par
r?
(C.37)
avec fe la frequence dechantillonnage en kHz ; la formule est extremement precise pour des valeurs de
fe voisines de 40 kHz. Pour une frequence dechantillonnage de 44 kHz, on obtient une valeur de r?
proche de 0,756.
La valeur optimale (au sens du meme crit`ere) du coefficient de warping permettant dapprocher au
mieux lechelle des ERB de Moore et Glasberg est donnee par
r? (fe) 0:7446
2 arctan(0:1418fe ) + 0:03237 ,
245
(C.38)
0.35
0.3
r=+0.5
r=0.5
0.25
r=0
0.2
r=0.75
0.15
r=0.85
0.1
r=0.95
0.05
0.05
0.1
0.15
0.2
0.25
0.3
Frquence rduite originelle
0.35
0.4
0.45
0.5
F IGURE C.5 Distorsion de laxe frequentiel sous linfluence de loperation de transformation bilineaire suggeree par Smith ; r est le param`etre de warping
avec fe la frequence dechantillonnage en kHz ; on obtient la valeur 0,738 pour une frequence dechantillonnage de 44kHz. Due a` la resolution frequentielle plus e levee de lechelle des ERB, principalement
en basses frequences, le filtre du premier ordre utilise est moins efficace, et lerreur dapproximation est
deux a` trois fois plus importante quavec lechelle des Barks.
Le warping est une operation de transformation compl`ete du plan complexe, de telle sorte que le
plan complexe originel z est transforme en un autre plan complexe . Cette operation peut e tre realisee
directement dans le plan complexe (c.-`a-d. sur les poles et les zeros de F z , ou sur le module de F z ;
mais elle peut aussi e tre realisee directement sur le signal temporel.
Dans le plan complexe, on peut directement remplacer les poles et les zeros de F z par leur nouz r
velles valeurs, calculees en e crivant que
1 rz .
+r ; en e crivant
Sur la fonction de transfert F z , on peut remplacer z par 1+
j , on
r
trouve que
()
()
()
()
= cos + sin
(1 r2)
arg z = arctan (1 +sinr2)cos
+ 2r
(C.39)
()
il est donc possible de re-echantillonner laxe frequentiel sur lequel est evalue le module de F z pour
obtenir le module sur un axe frequentiel warpe.
Sur le signal temporel, loperation est plus complexe. Il faut se reporter a` la structure directe dun
filtre RIF (cf. C.1.5 et fig. C.6), dans laquelle le retard z 1 sera remplace par sa version warpee, c.-`a-d.
z 1 r
1 rz 1 ,
(C.40)
qui nest autre que la fonction de transfert dun filtre passe-tout [154] ; une structure e quivalente a` limplantation transverse, mais avec un cout de calcul relativement faible, a e te developpee a` cette occasion
(cf. fig. C.7). Les avantages de cette technique sont nombreux. Dabord, elle permet de realiser le warping (( a` la volee )), c.-`a-d. dobtenir directement le signal temporel resultant de la convolution dun signal
source avec une reponse impulsionnelle warpee. Ensuite, cette structure est valide quelle que soit lentree, donc en particulier pour une impulsion ; il est donc possible dobtenir une reponse impulsionnelle
(temporelle) dans le domaine warpe. Celle-ci presente une information basses frequences comprimee
dans ses premiers e chantillons, tandis que linformation hautes frequences est repoussee vers ses derniers e chantillons ; on peut expliquer ceci par la diminution (resp. laugmentation) de la constante de
temps des poles proches du point z
(resp. z
) [75]. En dautres termes, pour un nombre donne
de coefficients, la reponse impulsionnelle warpee est, par rapport a` la version non warpee, plus precise
en basses frequences et plus grossi`ere en hautes frequences. La reponse impulsionnelle warpee peut
=1
= 1
246
Entre
b0
b1
b2
Sortie
z 1
z 1
z 1
etc
Entre
b0
b1
b2
Sortie
z 1
z 1
z 1
etc
F IGURE C.7 Schema de cablage dun filtrage RIF avec warping integre
247
dB
20
20
40
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
dB
20
20
40
0.1
0.2
0.3
0.4
0.5
0.6
Frquence rduite
0.7
0.8
0.9
F IGURE C.8 Comparaison du warping effectue dans le domaine temporel et dans le domaine frequentiel
Modlisation SANS warping
40
module
module NON warp
dB
20
20
40
50
100
200
400
800
1.5k
3k
5k
10k
20k
dB
20
20
40
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
F IGURE C.9 Mesure et modelisation du module dune fonction de transfert sous la forme dun filtre recursif
dordre 12 a` laide de la methode de Steiglitz-MacBride ; le warping est effectue sur lechelle
des Barks
donc e tre tronquee apr`es ses premiers e chantillons sans perdre trop dinformation en basses frequences,
specialement pour les valeurs e levees du coefficient de warping r ; le cout de calcul de la convolution
sen trouve reduit de 40%. Farina exploite cette technique pour realiser une e galisation en frequence : la
reponse impulsionnelle du canal acoustique a` e galiser est dabord warpee (filtrage avec warping et une
impulsion en entree), puis inversee dans le domaine warpe, et stockee, avant detre convoluee avec un
signal source quelconque (filtrage avec warping inverse et le signal temporel en entree) [17, 307].
La figure C.8 compare les resultats dun warping effectue directement dans le domaine temporel sur
une reponse impulsionnelle, et dans le domaine frequentiel sur le module de la fonction de transfert ; la
technique temporelle, bien que nettement plus couteuse, est leg`erement plus precise en basses frequences.
Terminons avec un exemple de modelisation dun filtre (fig. C.9) ; on veut modeliser le module de
la fonction de transfert represente en bleu sous forme dun filtre recursif dordre 12, grace de la methode
de Steiglitz-MacBride. Dune part, nous avons modelise directement le module ; dautre part, nous avons
warpe le module sur lechelle des Barks, puis effectue letape de modelisation, et warpe en sens inverse
les poles et les zeros. Il est clair que la solution warpee fournit une meilleure e valuation globale que la
solution directe, qui sacrifie la precision en dessous de 4 kHz pour obtenir une meilleure approximation
au-dessus de 10 kHz.
248
C.2
X (p;k) =
N
X1
n=0
(C.41)
avec h(n) la fenetre danalyse de support temporel [ (N 1);0], N la longueur de la fenetre danalyse,
n lechantillon temporel, R le facteur de sous-echantillonnage temporel, p lechantillon temporel souse chantillonne, et k lechantillon frequentiel. Pour une frequence discr`ete k fixee, le signal de sous-bande
X (p;k) est indice par p et bien e chantillonne a` une frequence R fois plus faible que le signal analyse
x(n) indice par n. Chaque coupe de la TFCT a` k constant represente levolution temporelle du signal
dans le canal centre autour de la frequence reduite k=N : la largeur de ce canal est donne par la resolution
frequentielle du fenetrage employe.
Une analyse avec fenetres de Hann ne fournit pas un resultat satisfaisant car la decroissance en haute
frequence est perturbee par la decroissance en basse frequence. Le choix de la fenetre danalyse sest
donc porte sur celle de Blackman-Harris dordre 4. Cette fenetre poss`ede dexcellentes caracteristiques
globales [119, 239], les plus interessantes e tant la hauteur extremement faible de ses lobes secondaires
(-92 dB) et le faible e cart entre la largeur a` -3 dB du lobe principal de sa transformee de Fourier discr`ete
(TFD) et la bande de bruit e quivalente. Meme si le taux de decroissance des lobes secondaires de sa
TFD est faible (6 dB par octave), il est suffisant, car lobjectif de lanalyse est dobtenir une dynamique
maximale a` toutes les frequences. La resolution frequentielle relativement faible de cette fenetre, fixee
par la largeur a` -6 dB du lobe principal de sa transformee de Fourier (2.72 bins) [119, 239], est un
avantage, puisque plusieurs points frequentiels voisins se trouveront naturellement moyennes grace a` la
convolution frequentielle. En effet, il ne sert a` rien davoir une resolution frequentielle extreme, puisquil
y a fort a` parier que les caracteristiques que lon recherche (temps de reverberation et densite de puissance
initiale) ne varient pas brutalement en frequence.
La longueur de la fenetre a e te fixee a` 11,6 ms, ce qui correspond a` 512 e chantillons (on rappelle
que la frequence dechantillonnage des reponses impulsionnelles mesurees est de 44000 Hz). La taille de
la transformee de Fourrier discr`ete, implementee sous forme de FFT, a e te fixee aussi a` 512 points. On
neffectue donc pas de (( zero padding )). Celui-ci serait inutile, puisquil augmenterait lechantillonnage
frequentiel de la transformee de Fourier a` temps discret, mais sans apporter aucune information, puisque
les points rajoutes ne sont pas independants. La resolution frequentielle de notre fenetre est donc de
86 Hz.
Le pas de decalage des fenetres, ou facteur de sous-echantillonnage des signaux de sous-bande, est
choisi en accord avec les conditions de reconstruction parfaite.
Lorsque lon cherche a` reconstruire un signal analyse par TFCT, la methode la plus employee,
lorsque R est different de 1, est loverlap-add. Toujours dans le cas de notre approche passe-bande, elle
secrit
+1
NX1
X
Y p;k 2jk(n pR)=N ,
yn
f n pR
(C.42)
N
p= 1
k=0
( )=
avec f
)1
( )e
que la somme du produit des fenetres danalyse et de synth`ese decalees soit e gal a` 1, pour tout n, c.-`a-d.
+1
X
p=
f (n pR)h(pR n) = 1; 8n .
(C.43)
Dans le cas o`u la fenetre de synth`ese est une fenetre carree, la condition de transparence devient
+1
X
p=
h(pR n) = 1; 8n .
(C.44)
Il existe une r`egle simple, portant sur le pas davancement des fenetres, permettant de verifier theoriquement cette condition [32]. La fenetre de Blackman-Harris dordre 4, comme beaucoup de fenetres,
est obtenue par e chantillonnage dune fenetre continue qui est une combinaison lineaire de P termes en
cosinus (quatre termes ici), a` savoir
h(t) =
P
X
p=0
ap cos(2pt)
avec t 2
1; 1 .
22
(C.45)
(1 1 )
(1 1 )
34
=3
Enfin, comme ce qui nous interesse est une representation temps-frequence e nergetique, on va considerer le carre du module de la TFCT. Cette representation prend encore le nom de spectrogramme
(cf. I.4.2.1). Dans ce cas, il convient
de prendre en compte lenergie de la fenetre dans sa represenPN 1 2
1
tation continue, donnee par F e n=0 h n . Le spectrogramme est donc a` normaliser par cette quantite,
comme on le fait avec un periodogramme moyenne et fenetre pour garantir quil soit sans biais lorsque
la longueur des trames tend vers linfini [316].
()
250
ANNEXE D
Inversion de reponses impulsionnelles
Rappelons les phenom`enes en presence lors de linversion dun filtre defini dans le domaine temporel
discret sur un support fini.
D.1.1.1 Presentation du probl`eme
Pour une description approfondie des probl`emes dinversion et de deconvolution, le lecteur se reportera a` [45, 63, 117, 167, 203].
Dans un syst`eme lineaire et invariant dans le temps, lentree x et la sortie y sont reliee par lequation
integrale
Z
y(t) =
) ( )d
h t u x u u;
(D.1)
D
le noyau de cette integrale est la reponse impulsionnelle du syst`eme. La deconvolution est le probl`eme
qui consiste a` resoudre lequation integrale de convolution pour restaurer lentree du syst`eme a` partir de
sa sortie. Ce probl`eme nest pas limite a` lacoustique des salles, puisque lequation (D.1) se rencontre
dans de nombreux domaines de la physique o`u les phenom`enes e tudies verifient assez bien lhypoth`ese
de linearite. La resolution dune e quation de convolution nest absolument pas triviale, puisquil sagit
dun probl`eme inverse et, comme la plupart des probl`emes de ce type, dun probl`eme mal pose. Les
difficultes proviennent du caract`ere lissant de loperateur de convolution : lequation (D.1) montre quau
lieu dacceder directement a` la grandeur a` mesurer x t , on obtient une grandeur experimentale y t qui
est une moyenne ponderee de la vraie grandeur. La moyenne effectuee par lintegrale de convolution a
pour effet dadoucir toutes les irregularites de x t . La resolution effective dun probl`eme de deconvolution est numerique : elle suppose que le probl`eme soit discretise. La resolution du probl`eme necessite
aussi de donner des structures despace metriques a` lensemble x des param`etres theoriques et a` lensemble y des param`etres experimentaux. Nous utiliserons, dans tout ce paragraphe, lespace de Hilbert
()
()
()
251
qui est un
p espace complet pour sa norme associee, laquelle norme provient dun produit scalaire, c.-`a-d.
k~uk
~u ~u. Soient x et y deux espaces de Hilbert definis sur le corps des reels ; lequation de
convolution est de la forme
y Hx , x 2 x et y 2 y ,
(D.2)
:
x !
y est un operateur lineaire, borne et compact. Pour memoire, on rappelle que :
H est borne si il existe un reel c 0 tel que kHxk ckxk, quelque soit x 2
x ;
H est dit compact si il applique tout ensemble borne S
x dans un ensemble A(S ) dont la
fermeture A(S ) est compacte. En dautres termes, A est compact si et seulement si, pour toute
suite bornee fxn , n 2 N g
x , il existe une sous-suite fxnk , k 2 N g et un e lement y 2
y tels
kk
y
que A(xnk ) ! y lorsque k ! 1; un operateur lineaire et compact est aussi borne (la reciproque
est vraie si
y est de dimension finie).
o`u H
Toutes les difficultes e voquees plus haut proviennent du caract`ere compact de loperateur de convolution.
Un probl`eme est dit stable ou bien pose au sens de Hadamard lorsque a` une faible perturbation des
donnees correspond une faible variation de la solution. Ici, si lon observe y y au lieu de y , lequation
doit rester soluble et y ! doit entraner x ! .
Pour que lequation (D.2) soit un probl`eme bien pose au sens de Hadamard, il faut satisfaire trois
conditions :
m( )
er( ) = 0.
1. Existence : 8y 2 y ; 9x=Hx y () y 2 I H .
2. Unicite : liee a` la trivialite de lequation homog`ene K H
3. Stabilite : la solution x doit dependre continument de y .
x et
y doivent e tre choisies soigneusement pour que H et son inverse soient continues. En effet, les
conditions
y = I m(H ) et Ker(H ) = 0 sont les conditions habituelles dexistence et dunicite de la
solution, auxquelles il faut ajouter, comme pour tout probl`eme physique, une condition de stabilite, qui
est ici une condition de fermeture topologique I m(H ) = I m(H ). Malheureusement, il est prouve que
limage dun operateur borne peut ne pas e tre fermee, et que si de plus loperateur est compact, limage
nest presque jamais fermee.
Mentionnons que la symetrisation de H par son adjoint H ? napporte rien, car H ? y H ? Hx reste
un probl`eme mal pose en regard de la stabilite.
Si lon se restreint au cas o`u x, y et h sont des fonctions possedant des transformees de Fourier (notees F ), une methode de resolution utilisant les proprietes de la transformee de Fourier semble simposer.
En effet, lequation (D.1) devient dans le domaine frequentiel
Y (f ) = H (f )X (f ) ,
(D.3)
X (f ) = Y (f )H 1 (f )
et
()
x(t) = F 1 [X (f )] .
()
(D.4)
()
()
y h 1 = x h h 1 = x = x .
252
(D.5)
Mais h 1 nexiste pas toujours si h est, par exemple, une distribution. Plus grave encore, h 1 peut
nexister que pour certaines fonctions y . De plus, si lalg`ebre A admet des diviseurs de zero, lequation (D.1) admet une infinite de solutions.
Il ne faut pas perdre de vue laspect purement formel de lequation (D.3). Pour quelle ait un sens, il
faut que H 1 f existe, que H f soit une fonction qui ne sannule pour aucune valeur de f et ne tende
pas vers zero plus vite que toute puissance de =f . Ces conditions ne sont jamais realisees en pratique.
De plus, pour des syst`emes physiques, H f ! quand f ! 1, et H f nest donc en principe connue
que sur un intervalle fini borne FH FH . Quand H f est a` support borne, la relation (D.3) montre
que Y f a le meme support. Ceci entrane que, dans le cas general, X f est compl`etement inconnue, et
la solution impossible. Lelaboration dune methode universelle de deconvolution (c.-`a-d. sappliquant a`
tous les signaux ayant une transformee de Fourier) na donc aucun sens, et il faut, dune certaine mani`ere,
la specialiser. Cette specialisation repose sur une information a priori permettant de restreindre la classe
des entrees de facon a` obtenir une solution unique.
Si la classe des entrees est limitee aux fonctions a` spectre limite, c.-`a-d. aux fonctions dont la transformee de Fourier est a` support borne (X f
pour jf j FX ), il est clair que la largeur FX du
spectre de lentree doit e tre inferieure a` la largeur de bande FH de la fonction de transfert.
Si la classe des entrees est limitee aux fonctions a` support borne (x t
en dehors de a;b ), il est
clair dapr`es la relation (D.3) que linformation disponible sur x t est une faible partie du spectre X f .
Il est cependant possible de determiner uniquement la solution. H f est connue est identiquement nulle
sur lintervalle fini jf j FH ; x t e tant a` support borne, X f est une fonction analytique reguli`ere qui
ne peut sannuler identiquement sur un intervalle, si petit soit-il. Une consequente particuli`ere est que
les valeurs de X f pour jf j FH determinent de facon unique son comportement pour tout f . Il est
donc theoriquement possible de reconstituer une entree a` support borne a` partir de la mesure exacte de
la sortie, quelles que soient les largeurs des spectres de h t et de x t .
Ces methodes sont dune mise en uvre difficile et sont tr`es sensibles au bruit. En effet, quand les
inevitables erreurs de mesure sont prises en compte, le probl`eme change totalement, et il est possible que
deux entrees tr`es differentes donnes deux sorties differant dune quantite partout inferieure aux erreurs
de mesure. Sans perdre de generalite, on peut supposer que sur lintervalle jf j FH la fonction Y f
est connue avec une erreur B f , c.-`a-d.
()
()
1
() 0
; ]
()
()
()
()
( )=0
()
()
()
()
( )=0
2
[ ]
()
()
()
()
()
()
do`u
()
Y (f ) = H (f )X (f ) + B (f ) ,
(D.6)
X (f ) = [Y (f ) B (f )]=H (f ) .
(D.7)
() ()
Les erreurs b t ont en general un contenu spectral e tendu, et il ny a aucune raison que B f =H f
se comporte comme on le souhaite quand f ! 1. Le probl`eme est a` nouveau mal pose et la solution
instable.
Les difficultes e voquees plus haut pour deconvoluer dans le cas analogique vont evidemment se
retrouver dans le probl`eme discretise quil faut bien resoudre pour une deconvolution effective. On peut
montrer quil est possible de se ramener a` un syst`eme dequations lineaires dans lesquelles on choisit,
par souci de commodite, de normaliser les pas dechantillonnage a` lunite. Lentree a` restaurer e tant
discretisee sur M points, le syst`eme comportant N points, et lobservateur disposant de L N M
valeurs de la sortie, lequation de convolution discr`ete secrit
= +
y(i) =
ou matriciellement
M
X1
j =0
y = Hx ;
253
1,
(D.8)
(D.9)
()
()=0
Pour que les erreurs dues a` lechantillonnage soient inferieures aux erreurs de mesure, il faut que x t soit
a` support borne, et que les M points de lechantillonnage soient repartis reguli`erement sur ce support.
Faisons lhypoth`ese que le signal dentree et le syst`eme sont causaux, c.-`a-d. x i
et h i
pour
i < , on obtient alors
()=0
0
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
@
y(0)
y(1)
y(2)
y(L
La matrice
..
.
..
.
..
.
..
.
..
.
..
.
1)
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
A
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
@
h(0)
h(N
..
.
..
.
..
.
..
.
0
h(0)
1)
..
.
..
.
H poss`ede la propriete
h(N
..
.
..
.
..
.
..
.
0
..
.
0
..
1)
..
..
..
..
..
0
0
..
.
0
h(0)
..
.
..
.
..
.
..
.
0 h(N 1)
C
C
C
C0
C
C
CB
CB
CB
CB
CB
CB
CB
CB
CB
C@
C
C
C
C
C
A
x(0)
x(1)
x(M
..
.
..
.
..
.
j = 0;1; : : : ;M
1)
1;
C
C
C
C
C
C.
C
C
C
A
(D.10)
(D.11)
une telle matrice est dite de Toeplitz, enti`erement definie par sa premi`ere ligne et sa premi`ere colonne.
Dans sa forme discr`ete, le probl`eme de la deconvolution nest quun cas particulier (correspondant a`
des espaces X et Y de dimensions finies) du probl`eme general e voque par lequation (D.2), et la premi`ere
demarche consiste a` symetriser le probl`eme en appliquant a` lequation (D.9) loperateur adjoint t ,
c.-`a-d.
t
t .
(D.12)
H y = H Hx
Le probl`eme semble donc se limiter a` la resolution dun syst`eme dequations lineaires e lementaire
(D.13)
xb = (HtH) 1Hty .
Ceci suppose evidemment que la matrice symetrique Ht H soit reguli`ere, c.-`a-d. quil y ait au moins autant dobservations y (i) que dinconnues x(i). Si cette condition est verifiee, le probl`eme semble resolu ;
en fait il nen est rien, car meme si Ht H est de rang plein, linversion directe suivant lequation (D.13)
peut conduire a` des resultats inacceptables, cette derni`ere difficulte provenant du caract`ere mal conditionne de la matrice Ht H.
En effet, le conditionnement de ces matrices depend du pas dechantillonnage. Pour bien comprendre
cela, il faut remarquer que les lignes successives de
sont tr`es proches (due au caract`ere Toeplitz), et
cela dautant plus que le pas dechantillonnage est petit. Mais on peut aussi expliquer ceci a` laide des
proprietes des valeurs propres et des vecteurs propres des matrices de Toeplitz.
La matrice t e tant supposee reelle et symetrique de taille M M , elle poss`ede des valeurs
propres reelles 2j , supposees ordonnees
HH
H = UV
254
(D.14)
H. La matrice H peut
(D.15)
U V
o`u et sont deux matrices orthonormales, et est la matrice diagonale formee des valeurs singuli`eres
j . Le rang K de la matrice symetrique t est tel que K L ; M . On peut montrer que
HH
inf( )
kxk2 max 2 kyk2 ,
(D.16)
kxk2
min kyk2
avec y lerreur dobservation sur y et x lerreur dobservation sur x. On voit que, meme dans le cas
a priori favorable o`u la matrice est reguli`ere (K = M ), lerreur relative sur x est bornee par lerreur
relative sur y affectee du rapport des valeurs singuli`eres extremes. Ce rapport mesure le conditionnement
de H communement utilise en analyse numerique pour mesurer les difficultes dinversion dune matrice.
Comme dans la pratique levaluation donnee par la borne de lequation (D.16) sav`ere tout a` fait
correcte, il est important de connatre a priori les valeurs de max et min qui renseignent sur les difficultes que lon pourrait rencontrer dans une deconvolution particuli`ere. Lorsque les dimensions de
sont faibles, il est possible de calculer ces valeurs avec un programme informatique ; mais lorsque les
dimensions augmentent, il devient de plus en plus difficile de calculer avec precisions les plus faibles
valeurs singuli`eres. Il est alors preferable dutiliser les relations qui existent entre lensemble des valeurs
singuli`eres de et la reponse impulsionnelle h t .
On a vu que
est une matrice de Toeplitz, et cette propriete est conservee dans le produit t
notee dont le terme general est
()
r (i j ) =
NX1
k=0
HH
h(k)h(k + i j ) ;
(D.17)
()
()
()
( )=
( )exp( 2
) = (e
(k)j2 ,
nies, mais une extension du theor`eme de Szego [103, 104, 200] indique que, lorsque ces dimensions augmentent, lensemble des valeurs propres de se repartit approximativement comme la fonction jH k j2
evaluee en M points e quidistants, soit
()
i = H (e2jf )
HH
f =i=M
(D.20)
le mauvais conditionnement dune matrice t peut donc e tre evalue a` laide dun algorithme du type
FFT.
Lexamen de la figure D.1 permet de comprendre comment la diminution de la frequence dechantillonnage accrot le mauvais conditionnement de t . Un e chantillonnage fin est necessaire pour ame-
HH
255
2i
Fech1
Fech2
1
M Fech1
ech2
M F
Repliement frquentiel
F IGURE D.1 Variation de lensemble des valeurs singuli`eres avec la frequence dechantillonnage
liorer la resolution, et aussi pour reduire les erreurs dapproximation dune integrale par une somme fini.
La reponse h t est, pour des raisons pratiques, a` spectre limite et jH f j sannule pour jf j FH .
Quand la frequence dechantillonnage augmente,
! alors que
reste inchange.
Ceci explique le paradoxe de la deconvolution : plus lerreur dapproximation est faible, plus la solution directe est sujette a` caution. Il est clair que le conditionnement du probl`eme depend aussi de la
douceur de jH f j, c.-`a-d. de sa vitesse de decroissance vers 0. Le cas des syst`emes passe-bande sera
donc plus delicat que celui des syst`emes passe-bas.
()
min
()
max
()
Nous avons montre dans ce paragraphe que la deconvolution est un probl`eme mal pose dont les
difficultes sont celles des e quations generales de premi`ere esp`ece. Lidee majeure de la plupart des nombreuses methodes proposees dans la litterature est de construire une (( solution )) qui soit une approximation physiquement acceptable et qui soit suffisamment stable du point de vue du calcul.
` la difference des probl`emes usuels, dans les probl`eme mal poses, les proprietes des solutions
A
acceptables ou significatives ne sont pas enti`erement contenues dans lequation de depart, et lastuce
est dapporter une information supplementaire sur la solution desiree afin de resoudre correctement le
probl`eme mal pose.
On designe par regularisation dun probl`eme mal pose les differentes approches qui permettent de
circonvenir le manque de dependance continue de la solution vis-`a-vis des donnees (et aussi dapporter
lexistence et lunicite si necessaire). En gros, cela revient a` substituer au probl`eme initial mal pose un
probl`eme bien pose associe dont lanalyse fournit une solution acceptable. On distingue habituellement
trois aspects de la regularisation : la philosophie, les methodes, et les algorithmes qui permettent de les
mettre en uvre.
La philosophie de la regularisation entremele les idees suivantes :
: kH xb
Les methodes de regularisation sont extremement variees : regularisation au sens de Phillips-TwomeyTikhonov, decomposition tronquee en valeurs singuli`eres, methodes de projection, etc.
256
Pour que la strategie de resolution retenue soit effectivement mise en uvre, il faut disposer dalgorithmes, ce qui necessite en general la determination de la valeur adequate dun param`etre particulier
correspondant a` la methode adoptee (coefficient de regularisation, dimension du sous-espace de projection, coefficient de relaxation, etc.). Ce nest pas un choix trivial, car il implique un compromis entre la
precision et la stabilite numerique, une situation qui ne se presente pas dans les probl`emes bien poses.
D.1.1.2 Inversion generalisee
On a indique precedemment dun moyen de resoudre un probl`eme mal pose consistait a` changer la
notion meme de solution. Une demarche possible consiste a` introduire, par le concept dinverse generalisee, une quasi-solution, c.-`a-d. une solution qui minimise kHx y k. Ce concept remedie au probl`eme
de la non unicite de la solution. La resolution de lequation (D.2) presente trois possibilites :
1. Il y a une solution unique.
2. Il y a une infinite de solutions.
3. Il ny a pas de solutions.
Dans le premier cas, il reste a` calculer linverse habituelle H 1 . Dans le second cas (quand y 2 I H ),
le probl`eme est de choisir la meilleure solution, par exemple la solution de norme minimale ; loperateur
H + qui permet de lobtenir est appele inverse generalise de loperateur H . Dans le troisi`eme cas (quand
y 2= I H mais le noyau de H nest pas trivial 1 ), on aimerait encore definir la meilleure solution et
on pourrait par exemple choisir un x qui minimise kHx y k, c.-`a-d. une solution des moindres carres ;
mais comme le noyau de H nest pas trivial, il faut encore effectuer un choix, et on peut par exemple
choisir, comme dans le cas 2., le vecteur de norme minimale qui minimise kHx y k.
m( )
m( )
Moindres carres On appelle b une solution au sens des moindres carres de lequation matricielle
une solution qui minimise la norme euclidienne k
k2 , c.-`a-d.
y = Hx
y Hx
xb = arg minfky Hxk2g .
(D.21)
Hty = HtHxb .
(D.22)
HH
y = Hx
(H) =
(H) =
(H H)
x=x=H y
(H H)
x = (H H) H y
y = Hx
H y = HtHxb. Si
y m( )
o`u
x+ = H+y ,
257
(D.23)
Une matrice
Penroose si
Ces definitions sont identique si les normes associees aux espaces sont du type euclidien. Il est facile de
verifier que lerreur quadratique moyenne entre une estimation b lineaire quelconque de la solution et
+ (elle est meme nulle si +
est minimale si b
).
x=H y
H H=I
En resume, lorsque nous voulons calculer une solution au sens inverse generalise de lequation
avec une matrice de taille L M , quatre situations se presentent :
1;
si L M et rang
M , alors +
+
t
1 t;
si L > M et rang
M , alors
t t
1;
si L < M et rang
L, alors +
si rang
K<
L;M , alors il faut decomposer en K valeurs singuli`eres, ou utiliser
des methodes iteratives.
y = Hx
(H) =
(H) =
(H) =
(H) =
inf(
H =H
H = (H H) H
H = H (H H)
Decomposition en valeurs singuli`eres Nous avons dej`a expose que toute matrice
de taille L
peut e tre separee en plusieurs composantes orthogonales. La matrice t e tant supposee reelle et
symetrique de taille M M , elle poss`ede des valeurs propres reelles 2j , supposees ordonnees
HH
(D.25)
ces valeurs propres correspondent aux carres des valeurs singuli`eres de la matrice , a` laquelle on peut
associer deux syst`emes de vecteur propres i , i
; ;:::L
et j , j
; ; : : : M , tels que
u =01
1 v =01
"
Hvj = j uj ,
Htui = ivi
ce qui devient
"
HtHvj =
HHtui =
2j vj
2i ui
(D.26)
(D.27)
la matrice identite.
Si rang
definie par
o`u
(H) = K < inf(L;M ), la solution inverse generalisee au sens de Moore & Penroose est
x+ = H+y , avec H+ = V+Ut ,
(D.29)
+ = diag(i) , avec
i = 1i
i = 0
si
si
i 6= 0
i 0
et i
= 0;1; : : : ;K 1 .
(D.30)
258
y = Hx
Hx x = 0
lim
x= y
lim kx H 1yk = 0
!0
on a dans ce cas
kx
et
y = Hx
lim kHx yk = 0 ;
!0
(D.31)
(D.32)
le premier terme (erreur de regularisation) tend vers zero quand ! , le second terme (amplification
du bruit due au caract`ere mal pose) tend vers zero, a` fixe, quand ! . Regulariser consiste donc,
1 k. Pour des raisons de simplicite, on
pour un > donne, a` choisir qui minimise k
impose souvent a` R detre lineaire. Il faut remarquer que les operateurs R ne sont pas uniformement
1 nest pas borne. Lerreur due au bruit tend donc vers linfini quand ! .
bornes puisque
Lidee de ces solutions approchees ou regularisees est donc la suivante : on accepte le fait que la
resolution (au sens habituel) de lequation
soit impossible. Cette e quation definit dailleurs,
plutot quune solution unique, une classe dequivalence, lensemble des entrees telles que k
k<
. Il faut donc une information supplementaire pour choisir un e lement particulier dans cette classe ; cette
information supplementaire est contenue dans le regulariseur.
x H y
= ()
y = Hx
y Hx
Regularisation par controle dune dimension Une question sous-jacente dans tout regularisation
dun probl`eme mal pose est le choix dune base appropriee pour representer la solution. Lapproche
probablement la plus classique pour la resolution de tels probl`emes consiste a` rechercher une approximation de la solution par combinaison lineaire dun petit nombre de fonctions judicieusement choisies.
Le probl`eme se reduit alors a` determiner au mieux un petit nombre de param`etres. Les methodes de ce
paragraphe montrent comment lon peut regulariser en changeant a` la fois la notion de solution et les
espaces de travail, et ceci en controlant une dimension : le nombre de fonctions choisies. Nous verrons
que ces fonctions peuvent e tre choisies a` lavance (TSVD) ou bien generees recursivement par filtrage
repete dune approximation initiale x0 .
D E COMPOSITION
La methode de decomposition tronquee en valeurs singuli`eres (Truncated Singular Values Decomposition, ou TSVD), utilise les bases formees des vecteurs singuliers de . Pour un operateur compact,
? et ? .
le syst`eme singulier est forme des fonctions propres et des valeurs propres des operateurs
Lexposant ? represente loperateur adjoint, c.-`a-d. la matrice transposee et conjuguee. Comme dej`a
e nonce precedemment, on a la decomposition
?,
(D.33)
H = UV
HH H H
HHV
HH
avec la matrice dont les colonnes sont les vecteurs propres de ? , la matrice dont les colonnes
? , et la matrice diagonale formee des valeurs propres correspondantes.
sont les vecteurs propres de
? est de taille M M et ses valeurs
Si on suppose la matrice de taille L M , avec L M ,
propres reelles 2 peuvent e tre ordonnees
HH
H
(D.34)
On decide qu`a partir du rang K les valeurs singuli`eres ordonnees ne sont plus significatives. Pour linversion, on utilise linverse generalisee au sens de Moore & Penroose de , c.-`a-d.
+
+ ?,
(D.35)
H = V U
259
avec
+ = diag(i) , avec
i = 1i
i = 0
si
si
i 6= 0
i 0
significatif
.
non significatif
(D.36)
e tant un operateur compact, 0 est un point daccumulation de ses valeurs singuli`eres ; celles-ci sont donc
contenues dans une boule de rayon fini. En dautres termes, les valeurs singuli`eres varient de mani`ere
continue, et il nest pas evident de definir un sous-espace significatif.
Lorsque les donnees sont contaminees par du bruit, lerreur de la solution relative due au bruit
sannule si est orthogonal aux vecteurs j , j
; ; : : : ;K ; sinon, les projections non nulles de sur
ces vecteurs doivent e tre suffisamment petites devant celles des donnees non bruitees .
u =12
On voit donc que cette methode conduit a` des probl`emes numeriquement tr`es bien posees, sans
pour autant assurer lelimination des effets du bruit. Elle semble limitee en pratique aux probl`emes de
dimensions raisonnables car elle necessite la determination du syst`eme singulier de ; or il nest pas
envisageable deffectuer un tel calcul sur une matrice contenant plusieurs milliers de coefficients, comme
cest le cas en acoustique des salles, par exemple. En pratique, il existe une methode astucieuse permettant deffectuer tout de meme le calcul.
H (qui devient une matrice carree de taille minimale (2M 1) (2M 1)), et de completer le vecteur
x au? moins par M 1 zeros afin de ne rien changer a` loperation de convolution. Dans ce cas, la matrice
H H devient elle aussi circulante.
Mais il sagit dune approximation : sous reserve que les dimensions du syst`eme soit tr`es grande
et que la reponse impulsionnelle soit a` support e troit, alors on peut montrer que les matrices T et C
ci-dessous sont asymptotiquement e quivalentes.
Une matrice
j;
pour i
= 0;1; : : : ;L 1 et j = 0;1; : : : ;M 1 ;
(D.38)
en dautres termes, tous les e lements se trouvant sur des lignes parall`eles a` la premi`ere diagonale sont
identiques. Si de plus
est carree et symetrique de taille L L, on a Tij
tji j j; pour i
; ; : : : ;L , c.-`a-d.
0
1
t0
t1 tL 2 tL 1
B t1
t0
tL 2 C
B
C
01
( )=
T = BBB
t0
2
tL 1 tL 2
B
@ tL
t0
t0
t1
C
C;
C
C
A
t1
t0
(D.39)
une telle matrice est enti`erement determinee par sa premi`ere ligne (ou sa premi`ere colonne).
Une matrice carree de dimensions L L est dite circulante a` droite (ou en haut) si
(Cij ) =
cj i
cL j +1
260
si
si
j
j
i0
i<0
(D.40)
c.-`a-d.
C=
c0
B cL
B
B c
B L
B .
B ..
B
B
@
c1
c0
c2
c1
c0
..
..
1
2 cL 1
cL 2 cL 1
c1
c0
cL 1
cL 2
...
c0
c1
c0
cL 2 cL 1
c2
1
C
C
C
C
C.
C
C
C
A
(D.41)
On peut montrer [114, chap. 7] que les valeurs propres dune matrice circulante sont les coefficients
de la transformee de Fourier discr`ete (TFD) de sa premi`ere ligne, et ses vecteurs propres sont les vecteurs
de base de la TFD.
Appelons la matrice des vecteurs de base de la TFD, de la forme
F = (p0 p1 : : : pL 1) ,
(D.42)
avec
(pk )n = p1L exp 2j kn
;
L
pour k
= 0;1; : : : ;L 1 et n = 0;1; : : : ;L 1 ;
(D.43)
(kk ) =
LX1
n=0
c(n)exp
2j kn
;
L
pour k
= 0;1; : : : ;L 1 .
(D.44)
0
B
B
B
B
B
B
B
B
B
B
@
r(0)
r(1)
r(M
r(M
..
.
..
.
r(1)
r(0)
r(M 1) r(M 1)
r(M
1)
1)
..
.
2)
r(0)
r(0)
r(1)
r(M 2)
r(1)
r(0)
C
C
C
C
C
C,
C
C
C
C
A
(D.46)
PM 1
avec r p
; ; : : : ;M
; cest une matrice circulante. On diagonalise
n=0 h n h n p , p
alors cette matrice dans la base de ses vecteurs propres, c.-`a-d.
avec la matrice des vecteurs propres (vecteurs de base de la TFD) et p
la matrice diagonale des valeurs propres reelles (TFD de
la premi`ere ligne de ) ; puis on calcule
, et on definit un seuil en dessous duquel les valeurs
+
+ ? , on calcule ?
1 c ? puisque
propres seront mises a` 0. Enfin comme on veut
?
1
?
lon a c
, avec
car est orthonormale.
( )=
H = UV
( ) ( + ) = 01
= D
H = V U
V =V V
261
GV = VD
U = (H V)
1) H
(2
1) (2
(2
1)
1) (2
p
p
On verifie que lon a bien
,
, c
et ?c
. Au passage,
? et ?
? ; or la matrice est normale, donc deux
on remarque que lon a c ?c
c c
bases de vecteurs propres associees a` un seul ensemble de valeurs propres conduisent a` la meme diagonalisation. Dailleurs, les valeurs propres de sont degenerees : elles sont doubles. Ceci est coherent avec
la forme de : cest une matrice circulante dans les deux sens (`a droite et a` gauche), elle est donc de
Toeplitz et de Hankel, ou encore centrosymetrique ; sa premi`ere ligne e tant reelle et paire, sa TFD sera
e galement reelle et paire, ce qui explique la degenerescence des valeurs propres de . Chaque valeur
propre definit ainsi un plan propre, compl`etement caracterise par deux vecteurs.
GV = VD GU = UD H V = U D H U = V D
H H = UU H H = VV
H
G
A MORTISSEMENT
` RES
DES VALEURS SINGULI E
Au lieu de diminuer le nombre de valeurs singuli`eres, on peut les amortir. Dans le cas de la deconvolution, la matrice est de Toeplitz ; on la suppose de plus carree de taille N (sinon le raisonnement
sapplique a` lequation normale). Soit la matrice carree de taille N dont tous les e lements sont nuls
sauf ceux de la diagonale secondaire formee de 1. Resoudre
est donc e quivalent a` resoudre
y = Hx
y = Az o`u A = HP et z = Px ,
P=
(D.47)
puisque 2 I ; ceci revient en fait a` retourner lordre des inconnues dans . Comme est de Toeplitz,
est symetrique et poss`ede donc un syst`eme propre orthogonal complet j , j
; ; : : : ;N . Si les
valeurs propres i sont distinctes et non nulles, on peut e crire la solution avec des donnees bruitees
z = VVt(y + b) = X j vj
j =1
o`u j
()
z; = X wj ()j vj
j =1
= 12
= y vj + b vj , j = 1;2; : : : ;N .
t
(D.48)
() = j jj+j j
j
(D.49)
z; =
N
X
j =1
vj utj (y + b) !
j + j
o`u
(j ) = = signe() .
(D.50)
On effectue un amortissement des valeurs singuli`eres, plutot quune troncature brutale. On peut choisir
les coefficients damortissement j tels que j
; ceci revient a` perturber la matrice
par , mais si est faible, cela risque de ne pas ameliorer sensiblement le mauvais conditionnement du
= = constante
262
probl`eme, et si est e leve, on peut avoir une mauvaise approximation. Il est preferable de choisir, pour
les j des multiples des variations premi`eres des composantes des vecteurs propres , c.-`a-d.
j =
NX1
i=1
vj (i + 1) vj (i) 2 ;
N
(D.51)
Les methodes dapproximation successives, ou du gradient, peuvent e tre utilisees pour construire des
methodes de resolution approchee de probl`emes mal poses, tels que les e quations integrales de premi`ere
` chaque fois quon utilise une methode iterative pour la resolution numerique dun probl`eme,
esp`ece. A
une r`egle darret doit e tre fixee pour terminer la procedure. Dans le cas dun probl`eme mal pose, la
terminaison est compliquee par linstabilite numerique du probl`eme. Si les mesures sont contaminees
par du bruit, c.-`a-d. y
y b avec kbk < , il est naturel detablir une r`egle darret fondee sur
levolution du residu k bi
k. Le seuil darret > e tant choisi au debut des iterations, le rang k
de literation finale est determine par les conditions
= +
Hx y
kHxbi
si le seuil
y k >
Hx yk ;
pour i < k , et k bk
= () est choisi tel que () > et () ! 0 quand ! 0, alors on e tablit que
b k H+ y k = 0 ,
lim
sup
k
x
!0;kbk<
(D.52)
(D.53)
x =x ( x )
o`u bk bk ;b;bo est la solution approchee obtenue avec le seuil . Ceci montre que, dans ces conditions, la procedure iterative est une methode de regularisation au sens defini au debut de ce paragraphe ;
dans ce cas, bien sur, =k joue le role du param`etre de regularisation.
Algorithme de regularisation La methode presentee ici permet de calculer une solution regularisee au
probl`eme de la deconvolution avec un nombre doperations e lementaires et un encombrement memoire
raisonnables. La solution a la forme generale
xb = (HtH + D) 1 Hty ;
(D.54)
linversion directe de la matrice (Ht H + D) devient tr`es rapidement impraticable lorsque les dimen-
sions du probl`eme augmentent, ce qui est le cas dans notre e tude, puisque les reponses impulsionnelles
a` inverser peuvent atteindre plusieurs milliers de points ; la taille memoire necessaire a` linversion dune
telle matrice rend le processus totalement irrealisable.
On contourne cette difficulte en utilisant les proprietes des valeurs propres et des vecteurs propres
des matrices circulantes ; il sagit de la methode de Hunt qui est une methode de moindres carres sous
contraintes. Il faut determiner b qui minimise
J (x) = (y
(D.55)
(y Hx)t (y Hx) = 2
263
minimal ,
(D.56)
o`u
est une matrice correspondant a` une operation de filtrage lineaire, donc de convolution par une
reponse impulsionnelle. La solution regularisee a pour expression
(D.57)
la valeur du coefficient de regularisation doit e tre recherchee par iterations jusqu`a ce que la condition (D.56) soit satisfaite. Ceci est une raison supplementaire de disposer dun algorithme rapide de
t
resolution de (D.57). La matrice
t est symetrique mais, dans le cas general, elle na pas
dautres proprietes remarquables. Dans le cas particulier o`u
et sont des matrices de Toeplitz (ce
qui est le cas lors dune operation de convolution), cette matrice est aussi de Toeplitz, de plus elle est
symetrique. Lidee est alors detendre les vecteurs , , et par des zeros, afin dobtenir des matrices
et circulantes que lon peut diagonaliser par transformee de Fourier discr`ete (cf. e q. (D.45)).
(H H + C C)
H C
H C
xhc y
[
X
(k) =
() ()
()
H (k)
jH (k)j2 + jC (k)j2 Y (k); k = 0;1; : : : ;L
() ()
1,
(D.59)
()
()
o`u H k , C k et Y k sont les TFD des sequences h n , y n et c n habilement prolongees par des
zeros, et lexposant represente le complexe conjugue. La solution xd
n est enfin obtenue par TFD
inverse.
(nT ),
On consid`ere que la reponse impulsionnelle du filtre a` inverser peut se mettre sous la forme h
n < N et T la periode dechantillonnage ; dans la suite on suppose que T .
La transformee en z de la reponse impulsionnelle h secrit
=1
()
1)zN
1.
(D.60)
()
Comme h n est une reponse impulsionnelle finie, H z peut e tre decrite par ses zeros dans le plan
complexe (tous ses poles sont a` lorigine). Soit les zeros sont tous a` linterieur du cercle unite (et le filtre
est a` phase minimale), soit il existe des zeros sur le cercle unite ou a` lexterieur du cercle unite. Lorsquil
existe un zero sur le cercle unite, le filtre inverse nest pas defini a` la frequence correspondante ; nous
excluons ce cas de notre reflexion. Le filtre inverse de h n est le signal g n tel que
()
()
h(n) g(n) = (n) ,
(D.61)
o`u represente loperation de convolution, et (n) le signal impulsion-unite. La transformee en z de
g(n) secrit
1 ;
G(z ) =
(D.62)
H (z )
les zeros de H (z ) deviennent les poles de G(z ). Pour avoir un filtre stable, il est necessaire que le
domaine de convergence de la transformee en z inclue le cercle unite ; les poles a` linterieur du cercle
unite correspondent a` une solution exponentielle causale dans le domaine temporel, tandis que les poles a`
lexterieur du cercle unite correspondent a` une solution exponentielle non causale. Donc le filtre inverse
264
g(n) peut e tre rendu stable, mais alors infiniment long et son support temporel depend de la distribution
des zeros de H (z ).
Pour obtenir un filtre de longueur finie qui approxime le veritable filtre inverse, on peut effectuer
une troncature a` laide dune fenetre w n , c.-`a-d.
()
1
0
pour
autrement
M1 n < M2
(D.63)
+1
()
(e
(e
()
Decomposons le phenom`ene : toute transformee en z peut e tre scindee en une partie a` phase minimale et une partie passe-tout (cf. C.1.3), c.-`a-d.
H (z ) = Hmin(z )Hpt (z ) .
()=
()
()
jai j < 1
jai j > 1
"
pour
pour
Hmin(z )
Hpt (z )
=
=
(D.64)
(z)j = 1.
i = 1;2; : : : k
i = k + 1;k + 2; : : : N
Qk
(1
i=1
QN
i=k+1
ai z i )
(1 aiz i)
(D.65)
(D.66)
Gmin(z ) =
Hmin(z )
= Qk
i=1
(1
ai z
(D.67)
puisque cette fonction est stable (tous ses poles sont a` linterieur du cercle unite). Si on sen tient l`a, on a
jG(z)j = jH 1 (z)j ;
min
(D.68)
mais il est clair que cette e galisation ne peut realiser une deconvolution parfaite dans le domaine temporel, en accord avec lequation (D.62) ; il restera un residu correspond a` la partie passe-tout, qui a certes
un spectre uniforme, mais contient la plupart de lenergie temporelle de la reverberation. La composante
passe-tout dune reponse impulsionnelle acoustique est percue comme une reverberation et un (( e talement )) des composantes transitoires dun signal passe au travers, mais sans la coloration souvent associee
a` ces distorsions [263].
La partie a` phase maximale ne peut e tre inversee directement, puisque cela conduit a` une fonction
instable. Il faut donc recourir a` une approximation, consistant en une troncature et un decalage, comme
explique precedemment.
T ECHNIQUE
CEPSTRALE
265
( )exp
T ECHNIQUE
S
DES MOINDRES CARR E
Une autre approche sest revelee plus efficace et plus robuste, basee sur la technique des moindres
carres [223, 225]. Bri`evement, on desire creer un filtre causal g n de longueur finie qui, convolue avec
h n , produira un signal de sortie y n qui sera la meilleure approximation au sens des moindres carres
du signal impulsion-unite ; il sagit donc de minimiser la fonction derreur I telle que
()
()
()
I=
L
L
X
1X
e2 (n) = [(n)
L n=0
n=0
b(n)]2 ,
(D.69)
1
^(n) = M
i=0 f (i)h(n i) avec N la longueur du filtre direct, M la longueur du filtre inverse et
L = N + M 1 la longueur du signal resultat. Lavantage de cette approche est quelle permet de prendre
en compte les proprietes de la phase non minimale de h(n) pour introduire un retard de p e chantillons
en sortie ; la fonction derreur devient dans ce cas Ip telle que
P
o`u
L
X
1
Ip =
[(n
L n=0
p) b(n)]2 .
(D.70)
I = 4 L1
( )
L
X
n=0
1
b k )j
10log j(
L
L
X
n=0
b k )j
10log j(
!2 3 12
5
(D.71)
()
o`u b k represente la TFD de b n pour les frequences discr`etes k . Plus la fonction derreur est petite,
meilleure est linversion. En pratique, deux facteurs determinent le succ`es de linversion :
1. la longueur M du filtre inverse, mais on a toujours tendance a` la choisir la plus faible possible pour
garantir une implantation en temps reel la plus efficace possible.
2. le desaccord entre la reponse impulsionnelle utilisee pour calculer le filtre inverse, et la veritable
reponse impulsionnelle du syst`eme e tudie ; ce facteur est surtout sensible dans le cas de la dereverberation dun signal, car la reponse impulsionnelle dune salle varie avec les positions et les
orientations de la source et du recepteur [222].
Lorsquun signal de longueur fini
phase non minimale, on peut e crire
266
(D.72)
01
..
.
..
.
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
C
A
0
1 =
0
..
.
..
.
0
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
@
h(0)
h(1)
h(N
..
.
..
.
0
..
.
..
.
0
h(0)
h(1)
..
..
.
..
0
h(0)
h(1)
1) h(N 2)
h(N 1)
..
..
.
..
.
.
..
h(0)
..
.
..
.
0 h(N 1) h(N 2)
d = Hf
1
C0
C
C
CB
CB
CB
CB
CB
CB
CB
CB
CB
C@
C
C
C
A
1H
= +1
f (0)
f (1)
f (M
..
.
..
.
..
.
1)
C
C
C
C
C
C , (D.73)
C
C
C
A
e = d Hf
f = (H H) H d
(D.75)
On peut montrer [202] que, quel que soit la longueur M du filtre inverse, le carre de la norme de la
fonction derreur ne tend plus vers 0 d`es lors que le filtre direct poss`ede une composante a` phase non
minimale, mais plutot
lim
L!1
keLk2 = 1
hN 1 2
h0
(D.76)
ce qui veut dire que lapproximation au sens des moindres carres connat bien une limite.
Rf = h
e , et se resout de mani`ere efficace grace a` lalLequation (D.75) peut se mettre sous la forme
gorithme bien connu de Levinson [99, 272] [264, chap. 2]. Cet algorithme est recursif ; seule la premi`ere
ligne de la matrice doit e tre stockee en memoire : il est donc possible deffectuer le calcul pour des
filtres tr`es long sur un ordinateur standard. Le cout de calcul est de M 2 operations pour un filtre inverse
de longueur M . Cet algorithme a e te implante sous forme dun objet externe pour Matlab programme
en C.
La figure D.2 presente le resultat dune telle demarche effectuee sur une reponse impulsionnelle
doreille mesuree en chambre sourde par Gardner sur le mannequin KEMAR [92] ; la longueur du filtre
direct est de 128 points. Nous avons fait varier la longueur du filtre inverse, et nous avons calcule le carre
de la norme de lerreur ; les resultats sont rassembles dans le tableau D.1. On constate que, meme pour
une longueur du filtre inverse e gale a` celle du filtre direct, la rejection est de lordre de 30 dB.
267
Filtre direct
lin
lin
0.5
0.5
1
0.5
0
20
40
60
80
Filtre inverse
100
120
140
lin
lin
0
20
40
60
80
100
120
dB
50
100
200
Echantillons
Rponse en frquence du rsidu
250
50
80
0
300
50
150
Rsidu
200
250
300
100
300
350
400
dB
0
1
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
2
50
20k
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
0.5
0.5
lin
lin
100
0
0.5
0
0.5
20
40
60
80
Filtre inverse
100
120
140
20
40
60
80
Filtre inverse
100
120
140
2
lin
lin
140
40
0
2
0
2
100
200
300
Rsidu
400
500
600
dB
60
400
600
Rsidu
800
1000
1200
200
400
800
Echantillons
Rponse en frquence du rsidu
1000
1200
40
60
100
200
500
Echantillons
Rponse en frquence du rsidu
600
80
0
700
1
dB
0
1
2
50
200
20
40
80
0
20
dB
120
60
80
0
dB
100
20
60
2
50
40
60
80
Filtre inverse
140
Rsidu
20
40
dB
20
dB
Filtre direct
0.5
0
1
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
2
50
20k
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
F IGURE D.2 Inversion approximee au sens des moindres carres dune reponse impulsionnelle doreille mesuree sur 128 e chantillons
TABLEAU D.1 Precision de lapproximation dans le cas de linversion presentee figure D.2
Longueur du filtre inverse
128
256
512
1024
0,029160
0,006174
0,000790
0,000015
TABLEAU D.2 Precision de lapproximation dans le cas de linversion presentee figure D.3
Longueur du filtre inverse
512
1024
2048
4096
0,022585
0,005418
0,001030
0,000357
268
Filtre direct
lin
lin
0.5
0
0.5
1
Filtre direct
0.5
0
0.5
100
200
300
Filtre inverse
400
500
600
100
200
300
Filtre inverse
400
500
600
200
400
600
Rsidu
800
1000
1200
lin
lin
2
0
2
4
100
200
300
Rsidu
400
500
600
0
20
dB
dB
20
40
60
40
60
80
0
200
400
800
Echantillons
Rponse en frquence du rsidu
1000
80
0
1200
0
1
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
2
50
20k
Filtre direct
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
Filtre direct
lin
lin
1600
0.5
0
0.5
0
0.5
100
200
300
Filtre inverse
400
500
600
500
1000
1500
2000
300
Filtre inverse
400
2000
2500
Rsidu
500
600
500
1000
1500
3000
3500
4000
4500
500
1000
1500
3000
Echantillons
Rponse en frquence du rsidu
3500
4000
4500
10k
20k
dB
20
40
60
40
60
500
1000
2000
Echantillons
Rponse en frquence du rsidu
2500
80
0
3000
2
1
dB
1
0
1
2
50
200
20
80
0
100
2500
Rsidu
lin
lin
1400
0.5
dB
1200
dB
2
50
400
1
dB
dB
200
0
1
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
2
50
20k
100
200
400
800
1.5k
Frquence en Hz
3k
5k
F IGURE D.3 Inversion approximee au sens des moindres carres dune reponse impulsionnelle doreille mesuree sur 512 e chantillons
269
TABLEAU D.3 Precision de lapproximation dans le cas de linversion presentee figure D.4
Longueur du filtre inverse
2048
4096
8192
16384
0,035617
0,008843
0,003071
0,001015
La figure D.3 presente le meme genre de resultats pour une reponse impulsionnelle doreille mesuree
par nos soins en chambre sourde, sur 512 points ; le carre de la norme de lerreur est presente dans le
tableau D.2. La diminution de lerreur est moins sensible que precedemment.
La figure D.4 presente toujours le meme genre de resultats pour une reponse impulsionnelle mesuree
dans un vehicule de type Safrane entre le haut-parleur avant gauche et un micro omnidirectionnel place
approximativement au centre de la tete du conducteur. Nous avons conserve les 2048 premiers points, ce
qui correspond approximativement a` 50 ms, duree au-del`a de laquelle le bruit de mesure commence a` se
faire sentir. Le carre de la norme de lerreur est presente dans le tableau D.3. La diminution de lerreur
est encore moins sensible que precedemment, ce qui montrerait que plus le filtre direct est long, plus le
filtre inverse doit comporter de points pour atteindre un certain resultat.
Lequation (D.75) peut aussi e tre resolue dans le domaine frequentiel [157], c.-`a-d.
F (e2jf ) =
H (e2jf )
jH (e2jf )j2 ; o`u
(D.77)
H (e2jf ) represente la transformee de Fourier a` temps discret discret de la sequence h(n), et lexposant
le passage au complexe conjugue. Le cout de calcul de loperation sen trouve considerablement reduit,
mais loperation nest theoriquement exacte que dans le domaine frequentiel continu. Or ce domaine
nest pas accessible sur un calculateur numerique, et lechantillonnage inevitable du domaine frequentiel
provoque une erreur dautant plus grande que le pas dechantillonnage est e leve. Pour une longueur
donnee du filtre inverse, son efficacite est considerablement reduite. Dautre part, nous subissons ici
de mani`ere inevitable les effets du repliement temporel, associe au calcul dun filtre dans le domaine
frequentiel discret ; il est possible de le minimiser en mettant en uvre une technique de regularisation
par filtrage (voir ci-apr`es).
Reprenons notre reponse impulsionnelle doreille mesuree sur 512 points, et appliquons la formule
ci-dessus (cf. fig. D.5). Pour une longueur du filtre inverse de 1024 points, le carre de lerreur residuelle
est de 0,335786, valeur qui doit e tre comparee avec celle du tableau D.2 dans le domaine temporel :
lerreur dans le domaine frequentiel tombe a` une valeur comparable a` celle du domaine temporel pour
une longueur quadruple du filtre inverse.
Aussi precise que soit linversion, dun point de vue mathematique, elle nen est pas pour le moins
satisfaisante, dun point de vue perceptif. En effet, si la reponse en frequence du filtre original presente
des anti-resonances trop marquees, celles-ci se transforment en des resonances excessives sur le filtre inverse (cf. fig. D.6). De plus, si la partie du spectre situee en hautes frequences presente une e nergie faible
(ce qui est souvent le cas a` cause des filtres anti-aliasing), le filtre inverse aura une amplitude maximale
dans cette zone de frequences inaudibles, et une amplitude tr`es faible dans les frequences inferieures ;
cela peut conduire a` des probl`emes de dynamique de quantification du signal filtre, puisque celui-ci peut
e tre masque par le bruit de quantification. Pour ces raisons, il est necessaire que la reponse impulsionnelle originale subisse un traitement avant le processus dinversion, consistant a` (( limiter )) celui-ci : on
parle de regularisation. Ce traitement est delicat a` mettre en uvre, et requiert une certaine experience,
car il est fortement dependant du filtre original. Neanmoins, il est relativement facile decouter le resultat
de linversion par le biais dune convolution rapide, notre oreille restant le meilleur (et definitif) juge.
270
Filtre direct
lin
lin
0.5
0
0.5
1
0
0.5
500
1000
1500
Filtre inverse
2000
2500
lin
lin
0
500
1000
1500
2000
500
dB
500
1000
1500
2000
3000
Echantillons
Rponse en frquence
3500
4000
80
0
4500
3000
3500
4000
4500
1000
2000
3000
4000
Echantillons
Rponse en frquence
6000
7000
dB
20
0
20
0
20
0.05
0.1
0.15
0.2
0.25
0.3
Frquence rduite
0.35
0.4
0.45
0.5
0.05
0.1
0.15
0.2
0.25
0.3
Frquence rduite
0.35
0.4
0.45
0.5
1
0.5
lin
0.5
lin
2000
2500
Rsidu
40
20
0
0.5
0
0.5
500
1000
1500
Filtre inverse
2000
2500
500
1000
1500
Filtre inverse
2000
2500
2
lin
2
lin
1500
60
80
0
0
2
0
2
1000
2000
3000
4000
5000
Rsidu
6000
7000
8000
9000
2000
4000
6000
8000
10000
Rsidu
12000
14000
16000
18000
20
dB
20
dB
2500
20
60
40
60
40
60
80
0
2000
4000
6000
8000
Echantillons
Rponse en frquence
80
0
12000
0.2
0.4
0.6
1.4
1.6
1.8
0.05
0.1
0.15
0.2
0.25
0.3
Frquence rduite
0.35
0.4
0.45
0.5
20
dB
20
dB
1000
40
2000
2500
Rsidu
20
1000
1500
Filtre inverse
dB
500
0
2
dB
Filtre direct
0.5
0
20
0
20
0.05
0.1
0.15
0.2
0.25
0.3
Frquence rduite
0.35
0.4
0.45
0.5
F IGURE D.4 Inversion approximee au sens des moindres carres dune reponse impulsionnelle dhabitacle
mesuree sur 16384 e chantillons dont on a conserve que les 2048 premiers
271
Filtre direct
lin
lin
0.5
0
0.5
1
100
200
300
Filtre inverse
400
500
600
200
400
600
Rsidu
800
1000
200
300
Filtre inverse
400
500
1000
1500
2000
2500
Rsidu
3000
500
600
3500
4000
4500
20
dB
dB
100
1200
20
40
60
80
0
lin
lin
0
0.5
Filtre direct
0.5
40
60
200
400
10
1200
1400
80
0
1600
500
1000
1500
2000Echantillons3000
3500
Rponse en frquence du rsidu
4000
4500
5000
dB
dB
1
5
0
1
0
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
2
50
20k
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
lin
0.5
0
0.5
1
100
200
300
Filtre inverse
400
500
600
200
400
600
Rsidu
800
1000
1200
lin
5
0
dB
20
40
60
80
0
200
400
1200
1400
1600
dB
1
0
1
2
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
272
20
dB
10
10
20
30
0.05
0.1
0.15
0.2
0.25
0.3
Frquence rduite
0.35
0.4
0.45
0.5
F IGURE D.6 Reponses en frequence du filtre direct et du filtre inverse, sans regularisation
H (k) =
k=0
h(n)exp(
h(n)
(D.78)
(n).
elle peut e tre vue comme e tant un e chantillonnage de la transformee de Fourier a` temps discret de h
Linverse de ces valeurs constitue la TFD de g n , c.-`a-d.
()
1 = G(e2jf )
.
H (k)
f =k=N
()
(D.79)
Comme g n est a` support infini, le spectre discret defini ci-dessus est sous-echantillonne, et si on calcule
la TFD inverse, le resultat sera entache par du recouvrement temporel, ce qui secrit
g~(n) =
()
+1
X
r=
g(n + rN ) = TFDI
1 .
H (k )
(D.80)
Mais comme g n decrot exponentiellement lorsque jnj augmente, lorsquon augmente la taille de la
TFD, le recouvrement temporel diminue, et g n approxime g n . Lorsque H z a des zeros proches du
cercle unite, la decroissance des poles correspondant de G z sera lente, ce qui necessite une taille plus
importante de la TFD pour combattre le recouvrement temporel.
Il est cependant possible de limiter la dynamique de j =H z j avant le calcul de la TFD inverse, ce
qui permet de calculer g n en utilisant une taille plus petite de la TFD. Les operations a` realiser sont les
suivantes :
1. Decider du nombre de points M du filtre inverse.
2. Calculer la TFD de h n sur M points en utilisant lalgorithme de FFT.
3. Calculer =H k et limiter la dynamique du module.
4. Calculer la TFD inverse du spectre complexe a` laide de la FFT inverse.
~( )
()
()
1 ()
~( )
1 ()
()
273
()
lin
0.5
0
0.5
1
100
200
300
Filtre inverse
400
500
600
200
400
600
Rsidu
800
1000
1200
0.4
lin
0.2
0
0.2
0.4
0
dB
20
40
60
80
0
200
400
1200
1400
1600
dB
20
0
20
0
0.05
0.1
0.15
0.2
0.25
0.3
Frquence rduite
0.35
0.4
0.45
0.5
F IGURE D.7 Regularisation par limitation de la dynamique et prolongement par une constante dans les frequences extremes
z p
(n)
u(n)
f (n)
v (n)
e(n)
h(n)
b(n)
vb (n)
filtre de
rgularisation
5. Fenetrer le signal temporel resultant, et lui adjoindre un retard pour le rendre causal.
Le resultat dun tel processus est presente sur la figure D.7. Le filtre direct est toujours la meme
reponse impulsionnelle doreille mesuree sur 512 points ; le filtre inverse est calcule sur 1024 points.
La dynamique a e te limitee a` 30 dB, et surtout aucune inversion na e te effectuee en basses et hautes
frequences. Lerreur est tr`es importante, mais cette fois le filtre inverse est audible.
Regularisation par filtrage Il sagit de modifier la fonction derreur introduite a` lequation (D.69).
Pour cela, interessons-nous au schema de la figure D.8. Le retard de modelisation p est necessaire pour
compenser linversion de la partie a` phase non minimale de h n ; on suppose toujours que le filtre
direct h n est de longueur N et que le filtre inverse f n est de longueur M N . Lidee de cette
technique [163, 232] est de minimiser une fonction de cout donnee par
()
()
= E + V ,
()
(D.81)
o`u E est une mesure de lerreur de performance (adequation du filtre inverse au signal desire) et V est une
mesure de leffort deploye pour atteindre le but ; , nombre reel positif, permet de determiner le poids
accorde au terme deffort [70, 230]. En variant de 0 a` linfini, le filtre inverse calcule varie selon que
274
lon minimise seulement E ou seulement V . Le principe est le suivant : si le syst`eme est mal conditionne
a` une frequence particuli`ere (c.-`a-d. si il presente une anti-resonance tr`es marquee), le filtre inverse ne
reussira pas a` deconvoluer le syst`eme a` cette frequence parce que le terme deffort sera tr`es important
compare a` lerreur de performance.
Comme une grande valeur de signifie que la solution favorisera une faible puissance de sortie du
filtre inverse au depend dune erreur de performance importante, il est evident que peut e tre utilise pour
reguler la puissance de sortie du filtre inverse. De plus, peut e tre utilise pour controler la (( duree )) du
filtre inverse, et donc fournit un moyen de minimiser les effets de repliement habituellement rencontres
lors de la conception de filtres par des methodes basees sur lechantillonnage du domaine frequentiel
(et dont nous parlerons un peu plus loin). Plus precisement, la regularisation permet de controler la plus
grande constante de temps du filtre inverse [161] 3 ; pour faire en sorte que la valeur de cette constante
de temps ne soit ni trop faible si trop e levee, le param`etre de regularisation doit e tre regle separement.
Si est trop petit, il y aura des resonances tr`es marquees dans la reponse en frequence du filtre inverse,
et si est trop grand, linversion ne sera pas tr`es precise. Heureusement, dapr`es Kirkeby [162] la valeur
exacte de nest pas critique, puisquune tolerance de 20 % sur la valeur optimale peut e tre admise sans
impact nocif sur la qualite perceptive du filtre inverse.
=ee
=vv
=vv
f = (HtH + Bt B) 1Htp ,
(
) =01
(D.82)
()
(e
Le filtre b n doit repondre au principe suivant : il doit avoir un gain jB 2jf j e leve dans les
regions frequentielles o`u on veut limiter linversion du filtre direct h n ; ailleurs, le gain doit e tre tr`es
faible [166]. Il est donc possible de controler linversion de mani`ere precise un grand nombre de regions
frequentielles, moyennant un nombre de coefficients plus ou moins e leve pour le filtre RIF b n (ce
qui nest pas un inconvenient tant quil ne depasse pas M , nombre de points desire pour le filtre inverse,
puisque la matrice t est de taille M M ). Notons quil peut e tre avantageux de specifier le gabarit de
jB 2jf j sur une e chelle frequentielle logarithmique, afin de se rapprocher des proprietes perceptives
de loreille.
Une fois le filtre b n calcule, il faut determiner . Ce coefficient agit de mani`ere globale sur toute
la reponse en frequence du filtre a` inverser ; une valeur e levee entrane tout simplement une inversion
moins efficace. On peut specifier un crit`ere pour : par exemple, on peut faire en sorte quune certaine
valeur maximale du gain du filtre inverse soit atteinte. Dapr`es nos investigations, il est apparu que
()
()
(e
HH
()
275
(D.83)
Filtre direct
0.5
lin
lin
0.5
0
0.5
1
Filtre direct
0
0.5
100
200
300
Filtre inverse
400
500
600
100
200
300
Filtre inverse
400
500
600
200
400
600
Rsidu
800
1000
1200
lin
0.5
lin
0.5
0
0.5
200
400
600
Rsidu
800
1000
0.5
1200
0
20
dB
dB
20
40
60
60
80
0
200
400
1200
1400
80
0
1600
200
400
1200
1400
1600
20
dB
20
dB
40
0
20
0
20
0.05
0.1
0.15
0.2
0.25
0.3
Frquence rduite
0.35
0.4
0.45
0.5
0.05
0.1
0.15
0.2
0.25
0.3
Frquence rduite
0.35
0.4
0.45
0.5
F IGURE D.9 Inversion dune reponse impulsionnelle doreille mesuree sur 512 points, regularisee par filtrage et calculee dans le domaine temporel
` titre dinformation, mentionnons aussi que peut e tre fixe par des crit`eres de masquage frequenA
tiel sur le signal qui va a priori passer dans le filtre inverse [183].
Cette methode peut e tre utilisee dans le domaine temporel grace a` un algorithme efficace de resolut
tion de lequation (D.82), dans laquelle la matrice
t , est de forme Toeplitz symetrique,
de taille L
M N
. Lalgorithme que nous avons choisi est celui de Levinson, car il necessite
une tr`es faible occupation en memoire. Pour un filtre direct de taille N , les operations a` realiser sont les
suivantes :
1. Decider du nombre de points M du filtre inverse.
2. Specifier le gabarit de jB 2jf j et la valeur de .
3. Calculer la premi`ere ligne des matrices dautocorrelation t et t , de longueur M .
t
t p .
4. Utiliser lalgorithme de Levinson pour resoudre le syst`eme lineaire
t
Sur la figure D.9, on peut voir linfluence du facteur de regularisation lorsque le calcul est effectue
conformement a` la procedure decrite ci-dessus. Le filtre direct est toujours la meme reponse impulsionnelle doreille mesuree sur 512 points ; le filtre inverse est calcule sur 1024 points.
(H H + B B)
(e
HH BB
(H H + B B)f = H
Mais on peut aussi resoudre cette e quation dans le domaine frequentiel (cf. methode de Hunt, decrite
a` la fin du D.1.1.3), qui devient
F (e2jf ) =
H (e2jf )
jH (e2jf )j2 + jB (e2jf )j2 ; o`u
(D.84)
H (e2jf ) et B (e2jf ) representent les transformees de Fourier a` temps discret discret des sequences
h(n) et b(n), et lexposant le passage au complexe conjugue. Lavantage dun cout de calcul ridicule
e tant compense par la precision moindre de linversion, puisquil faut proceder a` un e chantillonnage du
domaine frequentiel (lequation precedente nest en fait resolue que pour un nombre fini de points) ; plus
lechantillonnage est fin meilleure est linversion, mais plus long est le filtre inverse !
Pour un filtre direct de taille N , les operations a` realiser sont les suivantes :
1. Decider du nombre de points M du filtre inverse.
276
(e )
() ()
2.
3.
4.
5.
6.
( ) =01
()
(e
()
()
Regularisation par troncature de la decomposition en valeurs singuli`eres Cette methode a e te decrite au D.1.1.3. Il sagit de calculer linverse generalisee au sens de Moore & Penrose de la matrice de
convolution , c.-`a-d.
+
+ ?,
(D.85)
avec
H = V U
+ = diag(i) , avec
i = 1i
i = 0
si
si
i 6= 0
i 0
significatif
,
(D.86)
non significatif
et la matrice unitaire dont les colonnes sont les vecteurs propres de ? , la matrice unitaire dont
? , et la matrice diagonale formee des racines carrees des
les colonnes sont les vecteurs propres de
HH
HHV
U V
Gardons a` lesprit que la decomposition en valeurs singuli`eres ne peut e tre calculee que moyennant
lapproximation de la matrice de convolution de Toeplitz en matrice circulante. De plus, le filtre inverse
est e galement entachee dune erreur de repliement due a` sa specification dans le domaine frequentiel
discret. Enfin, il nest pas facile de definir le seuil en dessous duquel les valeurs singuli`eres seront considerees comme nulles, car elles varient continument (cf. fig. D.11). Remarquons que le rapport max =min
est ici tr`es e leve, et temoigne donc dun probl`eme largement mal pose ; ce rapport mesure le conditionnement de la matrice, ou en dautres termes limmunite de la solution vis-`a-vis de faibles perturbations
du filtre direct (cf. D.1.1.1). Cette approche a e te utilisee par Ordua [244] pour tester la robustesse dun
syst`eme dannulation des trajets croises.
277
Filtre direct
lin
lin
0.5
0
0.5
1
Filtre direct
0.5
0
0.5
100
200
300
Filtre inverse
400
500
600
100
200
300
Filtre inverse
400
500
600
200
400
600
Rsidu
800
1000
1200
lin
0.5
lin
0.5
0
0.5
0.5
200
400
600
Rsidu
800
1000
1200
0
20
dB
dB
20
40
60
60
80
0
200
400
1200
1400
80
0
1600
0
20
1200
1400
1600
0.05
0.1
0.15
0.2
0.25
0.3
Frquence rduite
0.35
0.4
0.45
0.5
0.05
0.1
0.15
0.2
0.25
0.3
Frquence rduite
0.35
0.4
0.45
0.5
1
0.5
lin
0.5
lin
400
20
0
0
0.5
1
200
20
dB
20
dB
40
0
0.5
100
200
300
Filtre inverse
400
500
600
100
200
300
Filtre inverse
400
500
600
200
400
600
Rsidu
800
1000
1200
lin
0.5
lin
0.5
0
0.5
0.5
200
400
600
Rsidu
800
1000
1200
0
20
dB
dB
20
40
60
60
80
0
200
400
1200
1400
80
0
1600
200
400
1200
1400
1600
20
dB
20
dB
40
0
20
0
20
0.05
0.1
0.15
0.2
0.25
0.3
Frquence rduite
0.35
0.4
0.45
0.5
0.05
0.1
0.15
0.2
0.25
0.3
Frquence rduite
0.35
0.4
0.45
0.5
F IGURE D.10 Inversion dune reponse impulsionnelle doreille mesuree sur 512 points, regularisee par filtrage et calculee dans le domaine frequentiel
278
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
100
200
300
Indice
400
500
600
F IGURE D.11 Valeurs singuli`eres de la reponse impulsionnelle directe, classees par ordre decroissant
Ici encore, bien quune vue objective de la situation permette doptimiser ce seuil, cest bien souvent
lecoute qui permettra de trouver les meilleurs param`etres.
Sur la figure D.12, on peut voir linfluence de la troncature plus ou moins importante de la decomposition en valeurs singuli`eres ; pratiquement, on fixe le seuil de mani`ere relative par rapport a` la plus
grande valeur singuli`ere. Il apparat cependant deux erreurs : celle due au repliement temporel du filtre
inverse (qui disparat avec limportance de la troncature), et celle due a` lapproximation circulante de la
matrice de convolution (cette derni`ere est visible sur la figure D.12(a) o`u on a garde toutes les valeurs
singuli`eres).
Regularisation par amortissement des valeurs singuli`eres Cette methode a e te decrite au D.1.1.3.
Comme precedemment, on calcule effectue la decomposition en valeurs singuli`eres de la matrice , mais
au lieu de definir un seuil en dessous duquel les valeurs singuli`eres seront considerees comme nulles, on
effectue un amortissement de ces valeurs singuli`eres. Pratiquement, on ajoute une constante aux valeurs
singuli`eres, procede qui aura une influence dautant plus significative que les valeurs singuli`eres sont
faibles. Contrairement a` la troncature de la decomposition, il ny a pas reduction de la dimension du
sous-espace de projection.
Cet algorithme a e galement e te implante sous forme dun objet externe pour Matlab programme
en C.
Sur la figure D.13, on peut voir linfluence de la constante ajoutee aux valeurs singuli`eres, et qui
a pour effet de limiter linversion des faibles valeurs. Il apparat que, contrairement a` la troncature,
lamortissement des valeurs singuli`eres permet de reduire de mani`ere moins significative linfluence du
repliement temporel du filtre inverse.
D.1.2.3 Conclusion
Toutes les methodes illustrees precedemment ont un point commun : elles permettent de calculer une
inversion approchee dune reponse impulsionnelle comportant une composante a` phase maximale ; et par
le biais de techniques de regularisation, elles fournissent des filtres inverses perceptivement convaincants,
c.-`a-d. comportant des resonances limitees et des regions basses et hautes frequences adoucies.
Lapproximation au sens des moindres carres est plus robuste que lutilisation de la technique cepstrale, et sa mise en uvre dans le domaine temporel permet de saffranchir des probl`emes dechantillonnage du domaine frequentiel discret (nombre dechantillons e leve pour garantir une precision suffisante,
279
Filtre direct
lin
lin
0.5
0
0.5
1
Filtre direct
0.5
0
0.5
100
200
300
Filtre inverse
400
500
600
100
200
300
Filtre inverse
400
500
600
200
400
600
Rsidu
800
1000
1200
lin
lin
0.5
0
0
5
200
400
600
Rsidu
800
1000
0.5
1200
0
20
dB
dB
20
40
60
60
80
0
200
400
1200
1400
80
0
1600
0
20
1200
1400
1600
0.05
0.1
0.15
0.2
0.25
0.3
Frquence rduite
0.35
0.4
0.45
0.5
0.05
0.1
0.15
0.2
0.25
0.3
Frquence rduite
0.35
0.4
0.45
0.5
1
0.5
lin
0.5
lin
400
20
0
0
0.5
1
200
20
dB
20
dB
40
0
0.5
100
200
300
Filtre inverse
400
500
600
100
200
300
Filtre inverse
400
500
600
200
400
600
Rsidu
800
1000
1200
0.5
lin
lin
0.5
0
0
0.5
200
400
600
Rsidu
800
1000
0.5
1200
0
20
dB
dB
20
40
60
60
80
0
200
400
1200
1400
80
0
1600
200
400
1200
1400
1600
20
dB
20
dB
40
0
20
0
20
0.05
0.1
0.15
0.2
0.25
0.3
Frquence rduite
0.35
0.4
0.45
0.5
0.05
0.1
0.15
0.2
0.25
0.3
Frquence rduite
0.35
0.4
0.45
0.5
F IGURE D.12 Inversion dune reponse impulsionnelle doreille mesuree sur 512 points, regularisee par troncature de sa decomposition en valeurs singuli`eres, realisee dans le domaine frequentiel
280
Filtre direct
lin
lin
0.5
0
0.5
1
Filtre direct
0.5
0
0.5
100
200
300
Filtre inverse
400
500
600
100
200
300
Filtre inverse
400
500
600
200
400
600
Rsidu
800
1000
1200
lin
lin
1
0
0
1
200
400
600
Rsidu
800
1000
1200
0
20
dB
dB
20
40
60
60
80
0
200
400
1200
1400
80
0
1600
0
20
0.05
0.1
0.15
0.2
0.25
0.3
Frquence rduite
0.35
0.4
0.45
Filtre direct
0.05
0.1
0.15
0.2
0.25
0.3
Frquence rduite
(b) Filtre
inverse
constante=0,05
1200
1400
1600
sur
0.35
1024
0.4
0.45
0.5
points,
Filtre direct
1
0.5
lin
0.5
lin
0.5
0
0.5
0
0.5
100
200
300
Filtre inverse
400
500
600
100
200
300
Filtre inverse
400
500
600
200
400
600
Rsidu
800
1000
1200
0.4
lin
0.2
lin
1
0
0.2
200
400
600
Rsidu
800
1000
1200
0
20
dB
20
dB
400
20
0
40
60
40
60
80
0
200
400
1200
1400
80
0
1600
200
400
1200
1400
1600
20
dB
20
dB
200
20
dB
dB
20
40
0
20
0
20
0.05
0.1
0.15
0.2
0.25
0.3
Frquence rduite
(c) Filtre
inverse
constante=0,10
sur
0.35
1024
0.4
0.45
0.5
0.05
0.1
0.15
0.2
0.25
0.3
Frquence rduite
(d) Filtre
inverse
constante=1,00
points,
sur
0.35
1024
0.4
0.45
0.5
points,
F IGURE D.13 Inversion dune reponse impulsionnelle doreille mesuree sur 512 points, regularisee par
amortissement de ses valeurs singuli`eres, realisee dans le domaine frequentiel
281
synonyme dune longueur de filtre inverse importante, et phenom`ene inevitable de repliement lors du
retour dans le domaine temporel) ; mais le cout de calcul dune implantation dans le domaine temporel
est tr`es e leve, puisquil faut inverser un syst`eme lineaire... heureusement realisable rapidement, avec une
occupation memoire, limitee grace a` lalgorithme de Levinson.
Concernant la regularisation, toutes les methodes ne sont pas e quivalentes.
La regularisation par limitation de la dynamique du module laisse neanmoins lexc`es de phase intact,
et lors du retour dans le domaine temporel, la correspondance entre module et phase est partiellement
perdue. Meme si le filtre est perceptivement valide, il comporte une erreur sur la phase.
La regularisation par filtrage, calculee dans le domaine temporel, semble a` nos yeux la meilleure
methode. Dune part, le filtre de regularisation b n peut e tre concu pour empecher lapparition de nombreuses resonances, et dautre part, le facteur de regularisation permet de controler globalement limportance de la regularisation et donc la puissance du filtre inverse. La mise en uvre dans le domaine
temporel permet de saffranchir du probl`eme de repliement temporel inherent au passage dans le domaine frequentiel discret, au prix dun cout de calcul beaucoup plus e leve, mais non redhibitoire grace a`
lalgorithme de Levinson.
La decomposition dune reponse impulsionnelle acoustique en valeurs singuli`eres est une methode
nouvelle et originale, dont nous navons pas trouve trace dans la litterature. La limitation du nombre de
ses valeurs singuli`eres avant le calcul de linverse est une technique pertinente ; mais elle se heurte a` deux
difficultes : dune part il nest pas evident de definir un seuil en dessous duquel les valeurs singuli`eres
seront forcees a` zero, et dautre part le filtre inverse comporte un repliement temporel (neanmoins controlable par la valeur du seuil). Lamortissement des valeurs singuli`eres permet de limiter linversion des
plus faibles valeurs, sans limiter la dimension du sous-espace de projection, et de ce fait ne fournit pas
veritablement une solution stable ; le repliement temporel inherent a` la methode est, de plus, difficilement
controlable par le taux damortissement.
()
282
ANNEXE E
Reverberation artificielle
E.1 Le Spatialisateur
Le choix de la simulation dun effet de salle par reseau de retards recursifs sest impose a` lIRCAM ,
sappuyant en cela sur les nombreuses e tudes qui y ont e te menees sur la perception de la qualite acoustique [22, 85, 145, 150, 181, 314]. Un syst`eme temps-reel de reverberation, appele Spatialisateur (
IRCAM ), fonctionne sous forme dune biblioth`eque dobjets compatibles avec le logiciel jMax 1 (
IRCAM ) sous Linux, ou avec le logiciel Max/MSP 2 ( OPCODE / CYCLING 74/ IRCAM ) sous MacOS.
Etant
concu suivant une structure modulaire, il peut e tre considere comme une application compl`ete, ou
comme une libraire dobjets e lementaires pour le traitement spatial des sons en temps reel. Lalgorithme
developpe apporte les avantages suivants [140, 141, 143, 144] :
le controle en temps reel de la distribution des reflexions precoces, et de la reverberation tardive ;
la possibilite daugmenter indefiniment le temps de reverberation sans augmenter le cout de calcul ;
la possibilite dobtenir plusieurs canaux de sortie sans augmenter le cout de calcul.
Labsence de coloration dans les filtres en peigne recursifs est apporte par des matrices de bouclages
unitaires, ainsi que par une densite dechos et de modes suffisants [138, 141].
Le Spatialisateur recoit les signaux provenant de sources sonores instrumentales ou synthetiques
(supposees denuees de reverberation), et fournit les signaux prets a` alimenter chaque haut-parleur du
dispositif de reproduction. Lapproche generale adoptee dans ce projet peut se caracteriser par le fait
quelle permet a` lutilisateur de specifier leffet desire du point de vue de lauditeur plutot que du point
de vue du traitement realise ou du dispositif utilise. Cela se traduit par trois caracteristiques essentielles :
1. Lintegration des traitements directionnels et temporels dans le meme processeur.
2. Ladaptation du traitement au contexte de reproduction et de prise de son.
3. Lexistence dune interface de commande fondee sur une approche perceptive.
Le but vise par cet environnement de spatialisation nest donc pas lexactitude physique, mais la
pertinence perceptive. Lavantage que cette approche remporte sur la convolution concerne le controle
des effets perceptifs, qui sont representes par neuf param`etres independants (cf. fig. E.1). Linconvenient
de cette approche est quelle est totalement dependante de la puissance du processeur hote, en terme de
nombre de sources et de qualite du rendu de la reverberation.
Bien quil puisse e tre regle par des considerations perceptives relativement intuitives, le Spatialisateur
peut aussi e tre regle par une procedure objective fondee sur une analyse temps-frequence de reponse impulsionnelle de salle (temps de reverberation et spectres e nergetiques de quatre zones temporelles de la
1. http://www.ircam.fr/produits/logiciels/log-forum/jmax-e.html
2. http://www.cycling74.com/products/maxmsp.html
283
reponse). Il est donc e galement possible de penetrer plus au cur de lalgorithme, pour regler des crit`eres
objectifs de bas niveau plus proches du traitement du signal effectue.
E.1.1
La structure du processeur de reverberation numerique temps-reel est presente figure E.2. Il int`egre
dans une meme entite des effets :
temporels, a` savoir le controle de la distribution temporelle des reflexions precoces, des delimitations temporelles des differentes zones de la reponse impulsionnelle, et du temps de reverberation ;
directionnels, a` savoir le controle de leffet binaural sur le son direct, de la lateralisation des premi`eres reflexions, et de la correlation interaurale des reflexions tardives diffuses ;
spectraux, a` savoir le controle du rayonnement de la source, et de lattenuation spectrale a` apporter
a` chaque zone temporelle de la reponse impulsionnelle.
E FFETS
TEMPORELS
Le decoupage temporel de la reponse est fixe arbitrairement sachant quaucune reflexion napparatra avant le debut de la section R1 et que la densite dechos doit e tre suffisante d`es le debut de la section
R3 afin de garantir lhypoth`ese de champ diffus (fig. E.3).
Les retards appliques aux reflexions precoces sont calcules par la formule (E.1) o`u ti correspond
effectivement a` la date darrivee de la reflexion mesuree sur la reponse impulsionnelle captee avec un
micro omnidirectionnel, et ITDi correspond au retard interaural de la reflexion en fonction de sa direction
darrivee.
tli = ti
1 ITDi
2
et
tri = ti +
1 ITDi
2
(E.1)
Le plus petit retard t est superieur ou e gal a` 20 ms, et le plus grand inferieur ou e gal a` 40 ms, en vertu du
decoupage temporel montre figure E.3. Les retards 0 sont calcules de telle sorte que la somme des deux
plus petits retards t et 0 soit e gale a` 40 ms et la somme des deux plus grands soit e gale a` 100 ms. Enfin,
le plus petit des retards absorbants defini ci-apr`es doit prendre une valeur telle que la somme de tous
les plus petits retards t, et 0 soit e gale a` 100 ms.
Le controle du temps de reverberation en fonction de la frequence est assure par les filtres absorbants
de la figure E.2. Ces filtres, dont une representation schematique est donnee figure E.4, sont des filtres en
peigne modifies de telle sorte que le gain de boucle est remplace par un filtre, note hi z sur la figure E.4.
Le filtre en peigne modifie est stable si la condition jhi e2jf j < est remplie pour toute frequence f .
Ce principe de reglage repose sur lhypoth`ese que le filtre reverberant va se comporter localement, au
voisinage dune frequence f donnee, comme si chaque filtre absorbant e tait remplace par un gain pur
ki independant de la frequence et tel que ki jhi e2jf j. Cela conduit, dapr`es [138], a` specifier la
= (
284
()
E.1 Le Spatialisateur
v
>
*
Gd
bl1
Hd
<
<
H1
G1
br1
bl2
br2
v
v
br3
v
v
bl3
bl4
ligne
retard
br4
v
v
1 2
*
<
<
H2
C2
G2
v
>
v
v
>
v
v
>
v
v
>
v
retards
v
>
v
>
v
>
v
>
v
<
<
H3
C3
G3
8
*
v
*
v
*
v
retards
absorbants
v v
Hc
v v
F IGURE E.2 Structure de lalgorithme du Spatialisateur pour une reproduction sur deux canaux. G : corrections spectrales mono, C : correlations interaurales, H : corrections spectrales binaurales
dB
OD
R1
R2
0 20
40
R3
100
ms
F IGURE E.3 Decomposition temporelle par defaut de leffet de salle par le Spatialisateur
285
hi (z )
x(n)
y(n)
filtre gauche
direction
banque de donnees
de HRTF
F IGURE E.5 Principe de la synth`ese binaurale
(f ) par la relation
(E.2)
o`u Tech est la periode dechantillonnage et mi le retard en e chantillons. Dans cette expression, on a neglige la reponse en phase du filtre absorbant.
E FFETS
DIRECTIONNELS
Le controle de leffet directionnel sur le son direct est assure par le filtre Hd qui nest autre que la
fonction de transfert binaurale (Head Related Transfer Function, ou HRTF) correspondant a` la direction
que lon veut donner au son direct. Le principe de fonctionnement de ce filtre est decrit figure E.5.
On notera la presence de gains e nergetiques bl et br sur les reflexions precoces. Ceux-ci sont calcules
a` laide des e quations
bli bi gli et bri bi gri ,
(E.3)
o`u bi represente le gain e nergetique de la reflexion sur la reponse impulsionnelle mesuree avec un micro
omnidirectionnel, et gli (resp. gri ) represente la gain de la fonction de transfert binaurale gauche (resp.
droite) pour la direction de la reflexion i.
La lateralisation des reflexions precoces est uniquement effectuee a` laide des retards t et des gains
b. Mais on peut aussi rajouter le filtre binaural H1 . Deux choix sont possibles pour calculer ce filtre :
le premier consiste a` faire une moyenne des filtres binauraux correspondants a` chacune des directions
darrivee des e chos (filtre moyen), et le deuxi`eme est un filtre diffus calcule a` partir des fonctions de
transfert binaurales de toutes les directions darrivees possibles [141].
Enfin, la lateralisation des reflexions tardives diffuses est assuree par le coefficient de correlation
interaurale, ou IACC (Inter Aural Cross Correlation). Ce coefficient mesure lintercorrelation des signaux
parvenant aux deux oreilles (cf. III.4.1). Il est modelise par des filtres recursifs dordre huit.
Le controle de ce coefficient seffectue simplement en melangeant les signaux gauche et droit de
sortie du filtre reverberant (ceux-ci sont non correles). Martin [191] donne les relations suivantes pour
correler les signaux : si y1 n et y2 n sont des bruits blancs non correles, les signaux droit et gauche
()
()
286
E.1 Le Spatialisateur
(E.4)
(E.5)
SPECTRAUX
Les effets spectraux sur les quatre zones temporelles, tels que mesures par le micro omnidirectionnel,
sont representes par les filtres Gd , G1 , G2 et G3 . Le filtre Gd provient directement du calcul de lenergie
de la section OD. Le filtre
G provient du calcul de lenergie de R1, corrigee par les gains bi grace a` la
P4 1
relation G
E R = i=1 bi. Les gains G2 et G3 proviennent du calcul des e nergies des sections R2
et R3. Le calcul des e nergies est effectue dans le domaine temporel.
Les filtres H2 et H3 correspondent a` la fonction de transfert en champ diffus du recepteur simule (ici
loreille), puisque lon suppose que le champ sonore est diffus a` partir de la section temporelle R2 [138].
Enfin, on notera la presence dun filtre Hc degalisation en sortie, qui est utilise soit pour lannulation des trajets croises dans le cas dune simulation transaurale [138], soit pour legalisation du casque
dans le cas dune simulation binaurale. La presence de ce filtre est facultative dans le cadre dune experience de comparaison avec le resultat dune convolution, car on peut tolerer une certaine (( coloration ))
sur la reverberation, pourvu quelle soit identique dans les deux cas.
1 = ( 1)
E.1.2
Normalisation
Lors de la mesure des fonctions de transfert doreille (HRTF), on inclus leffet du haut-parleur et
des micros. Et lors dune synth`ese binaurale (restitution au casque dune direction dincidence a` laide
des HRTF), on inclus e galement leffet du casque. Afin deliminer ces effets, on peut deconvoluer les
HRTF par la reponse du haut-parleur et celle de lensemble casque-micro. Cette deconvolution est effectuee dans le domaine frequentiel, en supposant que toutes les fonctions de transfert sont a` phase minimale [141]. Malheureusement, cette normalisation est loin detre ideale, car elle lie irremediablement la
banque de HRTF mesuree a` une serie particuli`ere de transducteurs e lectroacoustiques. Pire meme, elle
suppose que le couplage casque-oreille soit identique a` tout moment, et que la position du micro a` linterieur du conduit auditif soit reproductible, ce qui nest pas le cas [305]. Pour remedier a` cette situation,
il existe deux solutions :
une normalisation par une HRTF particuli`ere (dite normalisation en champ libre), en loccurrence
celle correspondant a` la direction frontale dans le plan horizontal, puisque la plupart des casques
sont e galises en reference a` cette direction. Cette normalisation e limine tous les effets independants
de la direction, ainsi que la resonance du conduit auditif (donc linfluence de la position du micro
dans le conduit) ;
une normalisation par la HRTF en champ diffus (dite normalisation en champ diffus), qui nest
autre que la racine carree de la puissance moyenne des HRTF [174, 197]; cette normalisation
procure les memes avantages que la normalisation en champ libre, sans compter le fait quelle ne
privilegie plus aucune direction particuli`ere.
Le choix sest porte sur la normalisation en champ diffus [141] qui offre en plus une compatibilite avec
des mesures de HRTF realisees sur tete artificielle normalisee par rapport au champ diffus, ainsi quune
compatibilite avec une reproduction sur casques normalises par rapport au champ diffus [305] pour lesquels une e galisation du couplage casque-oreille nest pas indispensable.
287
De plus, cette normalisation permet de reduire le cout de calcul du processeur. En effet, si on decide
de normaliser tous les filtres de corrections binaurales par rapport a` la fonction de transfert binaurale en
champ diffus, les filtres H2 et H3 disparaissent. Dans ce cas, le filtre degalisation du casque devra lui
aussi e tre normalise par la HRTF en champ diffus, a` moins que le casque ne soit dej`a e galise en reference
au champ diffus [305].
E.1.3
Simplifications
Lalgorithme de simulation implante dans le Spatialisateur repose sur un certain nombre de simplifications.
Les reflexions precoces sont considerees comme discr`etes, et sont presentes en petit nombre: huit
au maximum (quatre pour une reproduction mono). Leur lateralisation est reproduite par simple effet
stereophonique : on applique seulement entre les canaux de sortie une difference de temps darrivee et
de gain, correspondant a` la direction de provenance de la reflexion. Ces differences de temps et de gain
sont independantes de la frequence. Alors quen realite les reflexions precoces sont aussi filtrees par les
fonctions de transfert de la tete.
La reverberation tardive est realisee par un reseau de retards recursifs. On peut se demander si cette
methode produit une reverberation naturelle, et surtout si la densite de modes est suffisante.
La modelisation temps-frequence de la reponse impulsionnelle fait apparatre quatre zones temporelles. Elles sont appelees OD, R1, R2 et R3, et correspondent a` londe directe, les premi`eres reflexions,
le debut de la reverberation tardive, et la reverberation tardive par elle-meme. Lenergie de chaque section
temporelle est reglable en trois bandes de frequences, grace a` des filtres (( double shelving )) implantes
sous forme degaliseurs parametriques [66, 228] ; ces filtres peuvent e tre vus comme la mise en serie
dun filtre shelving passe-bas et dun filtre shelving passe-haut (ou vice versa) implantes sous forme de
filtres RII dordre deux [266]. On peut ainsi controler lenergie en trois bandes de frequences dont les
limites sont reglables (cf. fig. E.6). Chaque filtre est donc defini par cinq param`etres :
deux frequences de transition : f1 et f2 ;
trois niveaux e nergetiques : en basses frequences, en moyennes frequences et en hautes frequences.
Le niveau en basses frequences correspond a` celui du continu, le niveau en moyennes frequences correspond a` celui de la frequence moyenne (sur une e chelle logarithmique) des deux frequences de transition,
et le niveau en hautes frequences correspond a` celui de la demi-frequence dechantillonnage. On remarquera que le niveau e nergetique a` chaque frequence de transition vaut la moitie de lexcursion e nergetique entre la bande centrale et chaque bande extreme. Par defaut dans le Spatialisateur les frequences
de transition sont fixees a` f1 =250 Hz et f2 =8000 Hz ; le niveau en moyennes frequences est donc fixe
pour une frequence de 1414 Hz.
Le temps de reverberation est lui aussi reglable uniquement dans trois bandes de frequences. Ce
reglage est toujours effectue grace a` un filtre implante sous forme degaliseur parametrique.
Leffet directionnel sur le son direct est realise par filtrage a` laide des fonctions de transfert de la
tete (HRTF). Ces fonctions de transfert sont modelisees par des filtres RII dordre douze [174, 189, 260].
Mais il faut sassurer que lon garde suffisamment dinformation.
Enfin le coefficient de correlation interaurale est modelise a` laide dun filtre RII dordre huit, dans
sept bandes doctaves uniquement. Il en est de meme pour les filtres en
f et f .
sin ( ) cos ( )
288
E.1 Le Spatialisateur
Filtre doubleshelving
8
Enerie en dB
6
50
100
200
400
800
1.5k
Frquence en Hz
3k
5k
10k
20k
F IGURE E.6 Exemple de fonction de transfert dun filtre (( double shelving )) utilise dans le Spatialisateur,
tracee sur une e chelle frequentielle logarithmique. On a specifie une e nergie de -4 dB en basses
frequences, 0 dB en moyennes frequences et +6 dB en hautes frequences ; les frequences de
coupure sont reglees a` 250 Hz et 8000 Hz, ce qui correspond aux valeurs par defaut
289
Page blanche
290
BIBLIOGRAPHIE
3236949
291
Bibliographie
292
Bibliographie
4893342
293
Bibliographie
[64] P. D E ROGIS. Analyse des vibrations et du rayonnement de la table dharmonie dun piano droit
et conception dun syst`eme de reproduction du champ acoustique. Th`ese de doctorat, Universite
du Maine, Le Mans, octobre 1997.
[65] C. D UNN et M.O. H AWKSFIRD. Distorsion immunity of MLS derived impulse response measurements. JAES, 41(5):314335, mai 1993.
[66] P. D UTILLEUX. Simple to operate digital time-varying filters. Dans 86th convention, no 2757.
Audio Eng. Soc., mars 1989.
[67] K.J. E BELLING , K. F REUDENSTEIN , et A. A LRUTZ. Experimental investigations of statistical
properties of diffuse sound fields in reverberation rooms. Acustica, 51(3):145153, 1982.
[68] B. E FRON et R.J. T IBSHIRANI. An introduction to the bootstrap. Chapman & Hall, 1993.
[69] S.J. E LLIOTT, L.P. B HATIA , F.S. D EGHAN , A.H. F U , M.S. S TEWART, et D.W. W ILSON. Practical implementation of low-frequency equalization using adaptative digital filters. J. Audio Eng.
Soc., 42(12):988998, decembre 1994.
[70] S.J. E LLIOTT, C.C. B OUCHER , et P.A. N ELSON. The behavior of a multiple channel active
control system. IEEE transactions on signal processing, 40:10411052, 1992.
[71] S.J. E LLIOTT et P.A. N ELSON. Multiple point equalization in a room using adaptative digital
filters. J. Audio Eng. Soc., 37(11):899907, novembre 1989.
[72] M. E MERIT. Simulation binaurale de lacoustique des salles de concert. Th`ese de doctorat,
Institut National Polytechnique de Grenoble & Centre Scientifique et Technique du Batiment,
Grenoble, septembre 1995.
[73] L.R. E RIKSSON , M.C. A LLIE , et R.A. G REINER. The selection and application of an IIR adptative filter for use in active sound attenuation. IEEE transactions on acoustics, speech, and signal
processing, 35:433437, 1986.
[74] A. FARINA. Simultaneous measurement of impulse response and distorsion with a swept-sine
technique. Dans 108th convention, no 5093 dans Audio measurement and instrumentation, Paris,
fevrier 2000. Audio Eng. Soc.
[75] A. FARINA , A. B ELLINI , et E. A RMELLONI. Implementation of cross-talk cancelling filters with
warped structures. Dans International DSP conference, Boston, septembre 2000. SHARC.
[76] A. FARINA , A. B ELLINI , et E. A RMELLONI. Not-linear convolution : a new approach for the
auralization of distorting systems. Dans 110th convention, no 5359 dans Signal processing for
audio, part 1, Amsterdam, mai 2001. AES.
[77] A. FARINA , A. L ANGHOFF , et L. T RONCHIN. Acoustic characterisation of virtual musical instruments using MLS technique on ancient violins. J. New Music Research, 27(4):359379, decembre
1998.
[78] A. FARINA et E. U GOLOTTI. Spatial equalisation of sound systems in cars by digital inverse
filtering. Dans 4th international conference and exhibition, Audio in automotive spaces, Bologne,
octobre 1997. Comfort in the automotive industry.
[79] A. FARINA et E. U GOLOTTI. Use of digital inverse filtering techniques for improving car audio systems. Dans 103rd convention, no 4569 dans 3D binaural audio technology, New-York,
septembre 1997. Audio Eng. Soc.
[80] A. FARINA et E. U GOLOTTI. Automatic measurement system for car audio applications. Dans
104e` me convention, no 4692 dans Spatial perception and processing, part two, Amsterdam, mai
1998. AES. URL : http://www.ramsete.com/aurora.
[81] A. FARINA et E. U GOLOTTI. Numerical model of the sound field inside cars for the creation of
virtual audible reconstructions. Dans DAFX, no 98 dans Poster session 2, Barcelone, novembre
1998. Digital audio effects.
[82] A. FARINA et E. U GOLOTTI.
Spatial equalization of sound systems in cars.
Dans
15th international conference, Audio in automotive spaces, Copenhague, octobre 1998. Audio
Eng. Soc.
294
Bibliographie
295
Bibliographie
[105] D. G RIESINGER. Spaciousness and localization in listening rooms and their effects on the recording technique. J. Audio Eng. Soc., 34(4):255268, 1986.
[106] D. G RIESINGER. Equalization and spatial equalization of dummy-head recordings for loudspeaker reproduction. J. Audio Eng. Soc., 37(1-2):2029, janvier-fevrier 1989.
[107] D. G RIESINGER. The psychoacoustics of apparent source width, spaciousness, and envelopment
in performance spaces. Acustica, 83(4):721731, 1997.
[108] D. G RIESINGER. Spaciousness and envelopment in musical acoustics. Dans 101st convention, no
4401 dans Room acoustics and simulation techniques, Los Angeles, novembre 1997. Audio Eng.
Soc.
[109] D. G RIESINGER. Spatial impression en envelopment in small rooms. Dans 103rd convention, no
4638 dans Room acoustics and simulation techniques, New-York, septembre 1997. Audio Eng.
Soc.
[110] D. G RIESINGER. General overview of spatial impression, envelopment, localization, and externalization. Dans 15th international conference, Perception of sound in small spaces, Copenhague,
octobre 1998. Audio Eng. Soc.
[111] D. G RIESINGER. Speaker placement, externalization, and envelopment in home listening rooms.
Dans 105th convention, no 4860 dans Multichannel sound, San Francisco, septembre 1998. Audio
Eng. Soc.
[112] D. G RIESINGER. Objective measure of spaciousness and envelopment. Dans 16th international
conference, Invited papers, Rovaniemi, avril 1999. Audio Eng. Soc.
[113] V. G RILLON. Auralisation dans les maquettes, traitement des reponses impulsionnelles. Th`ese
de doctorat, Universite du Maine, Le Mans, avril 1995.
[114] J. G U E GAND et T. D UGARDIN. Alg`ebre en classes preparatoires, MP*/MP. Ellipses, Paris,
octobre 1999.
[115] Y. H ANEDA. Common acoustial pole and zero modeling of room transfer functions. IEEE transactions on speech and audio processing, 2(2):320328, 1994.
[116] Y. H ANEDA , S. M AKINO , Y. K ANEDA , et N. KOIZUMI. Arma modeling of a room transfer
function at low frequencies. J. Acoust. Soc. Jpn., 15(5):353355, 1994.
[117] C. H ANSEN. Rank-deficient and discret ill-posed problems. SIAM, Philadelphia, juin 1998.
[118] T. H ANYU et S. K IMURA. Effects of statial information of a sound field on listener envelopment.
Dans 135th meeting, no 4pAAb4 dans Performance spaces, pages 21232124, Seattle, june 1998.
ASA.
[119] F.J. H ARRIS. On the use of windows for harmonic analysis with the discrete Fourier transform.
Dans proc. IEEE, volume 66(1), pages 5183, 1978.
[120] W. H ARTMANN. Signals, sound and sensation. Springer-Verlag, New-York, 1998.
[121] P.D. H ATZIANTONIOU et J.N. M OURJOPOULOS. Generalized fractional-octave smoothing of
audio and acoustic responses. J. Audio Eng. Soc., 48(4):259279, 2000.
[122] P. H ERZOG , A. S OTO -N ICOLAS , et F. G U E RY. Passive and active control of the low-frequency
modes in a small room. Dans 98e` me convention, no 3951 dans Architectural acoustics, part II,
Paris, fevrier 1995. Audio Eng. Soc.
[123] R.C. H EYSER. Acoustical measurements by time delay spectrometry. JAES, 15(4):370382,
octobre 1967.
[124] T. H IDAKA , L. B ERANEK , et T. O KANO. Interaural cross-correlation as a measure of spatial
impression. Dans 124th meeting, no 5pAA3 dans Archtiectural acoustics, New-Orleans, octobre
1992. ASA.
[125] T. H IDAKA , L. B ERANEK , et T. O KANO. Interaural cross-correlation, lateral fraction, and low
and high-frequency sound levels as measures of acoustical quality in concert halls. J. Acoust. Soc.
Am., 98(2):9981007, 1995.
296
Bibliographie
[126] F. H LAWATSCH et G.F. B OUDREAUX -BARTELS. Linear and quadratic time-frequency signal
representations. IEEE signal processing magazine, pages 2167, avril 1992.
[127] A.C. H OPE. A simplified Monte Carlo significance test procedure. Journal of the Royal Statistical
Society, B(30):582598, 1968.
[128] A. H ARMA
, M. K ARJALAINEN , L. S AVIOJA , V. V ALIM
AKI
Frequency-warped signal processing for audio applications. J. Audio Eng. Soc., 48(11):1011
1029, novembre 2000.
[129] T. I RINO et H. K AWAHARA. Signal reconstruction from modified auditory wavelet transform.
IEEE transactions on signal processing, 41(12):35493554, 1993.
[130] T. I RINO et R.D. PATTERSON. A time-domain level dependant auditory filter : the gammachirp.
J. Acoust. Soc. Am., 101:412419, 1997.
[131] ISO. Measurement of the reverberation time of rooms with reference to other acoustical parameters. Acoustics in building 3382:1997, ISO, Gen`eve, juin 1997. URL: http://www.iso.ch.
[132] M. I WAHARA et T. M ORI. Stereophonic sound reproduction system. United States Patent
, 1978.
[133] D.S. JAGGER. Recent developments and improvements in SOUNDFIELD microphone technology.
Dans 75e` me convention, no 2064, Paris, mars 1984. Audio Eng. Soc.
[134] H. J EONG et J.G. I H. Implementation of a new algorithm using the STFT with variable frequency
resolution for the time-frequency auditory model. J. Audio Eng. Soc., 47(4):240251, avril 1999.
[135] D. J OHNSTON. CoolEditPro v1.0 application programmers interface. Syntrillium Software
Corporation, 1998.
[136] D. J OHNSTON. CoolEditPro v1.1 users guide. Syntrillium Software Corporation, 1998.
[137] V.L. J ORDAN. A group of objective acoustical criteria for concert halls. Applied Acoustics,
14:253266, 1981.
doctorat, Ecole
Nationale Superieure des Telecommunications, Paris, septembre 1992.
[139] J.M. J OT, L. C ERVEAU , et O. WARUSFEL. Analysis and synthesis of room reverberation based
on a statistical time-frequency model. Dans 103th convention, no 4629 dans Room acoustics and
simulation techniques, New-York, septembre 1997. Audio Eng. Soc.
[140] J.M. J OT, J.P. J ULLIEN , et O. WARUSFEL. Method to simulate the acoustical quality of a room
and associated audio-digital processor. United States Patent
, septembre 1998.
[141] J.M. J OT, V. L ARCHER , et O. WARUSFEL. Digital signal processing issues in the context of
binaural and transaural stereophony. Dans 98th convention, no 3980 dans I, Paris, fevrier 1995.
Audio Eng. Soc.
[142] J.M. J OT, S. WARDLE , et V. L ARCHER.
Approaches to binaural synthesis.
Dans
o
th
105 convention, n 4861 dans Spatial perception and processing, part two, San Francisco, septembre 1998. Audio Eng. Soc.
[143] J.M. J OT et O. WARUSFEL. Le spatialisateur. Dans Actes du colloque Son et Espace, Lyon, avril
1995.
[144] J.M. J OT et O. WARUSFEL. A real-time spatial sound processor for music and virtual reality
applications. Dans International Computer Music Congress, Banff, septembre 1995.
[145] J.P. J ULLIEN.
Correlations among objective criteria of room acoustic quality.
Dans
12th international congress, volume 2 de Architectural and building acoustics, pages E49, Toronto, juillet 1986. ICA.
[146] J.P. J ULLIEN , A. G ILLOIRE , et A. S ALIOU. Caracterisation dune methode de mesure de reponse
impulsionnelle en acoustique des salles. Dans 11th international conference, volume 6, pages
217220, Paris, 1983. ICA.
4118599
5812674
297
Bibliographie
[147] Y. K AHANA , P.A. N ELSON , et O. K IRKEBY. Multichannel sound reproduction using a four-ear
dummy head. Dans 102nd convention, no 4465 dans Multichannel sound, Munich, mars 1997.
Audio Eng. Soc.
[148] Y. K AHANA , P.A. N ELSON , et O. K IRKEBY. Objective and subjective assessment of systems for
the production of virtual acoustic images for multiple listeners. Dans 103rd convention, no 4573
dans 3D binaural audio technology, New-York, septembre 1997. Audio Eng. Soc.
[149] Y. K AHANA , P.A. N ELSON , et S. YOON. Experiments on the synthesis of virtual acoustic sources
in automotive interiors. Dans 16th international conference, Spatial sound reproduction and application, Rovaniemi, avril 1999. Audio Eng. Soc.
[150] E. K AHLE. Validation dun mod`ele objectif de la perception de la qualite acoustique sur un
ensemble de salles de concert et doperas. Th`ese de doctorat, Universite du Maine, Le Mans, mai
1995.
[151] Y. K ANEDA. A study of non linear effect on acoustic impulse response measurement. J. Acoust.
Soc. Jp., 16(3):193195, 1995.
[152] L.J. K ARAM et J.H. M AC C LELLAN. Complex Chebyshev approximation for FIR filter design.
IEEE transactions on circuits and systems II, mars 1995.
298
Bibliographie
[166] O. K IRKEBY, P. RUBAK , P.A. N ELSON , et A. FARINA. Design of crosstalk cancellation networks
by using fast deconvolution. Dans 106th convention, no 4916 dans Signal processing, part two,
Munich, may 1999. Audio Eng. Soc.
[167] A. K IRSCH. An introduction to the mathematical theory of inverse problems. Springer Verlag,
Vienne, octobre 1996.
[168] M. K LEINER. A new way of measuring the lateral energy fraction. Applied Aoucstics, 27:321
327, 1989.
[169] J.B. K RUSKAL et M. W ISH. Multidimensional scaling. Sage, Beverly Hills, Calif, 1978.
[170] K. K UROZUMI et K. O HGUSI. The relationship between the cross-correlation coefficient of two
channel acoustic signals and sound image quality. J. Acoust. Soc. Am., 74(6):17261733, 1983.
[171] H. K UTTRUFF. Sound field in small rooms. Dans 15th international conference, Overview of the
physics and modeling of small spaces, Copenhague, octobre 1998. AES.
[172] H. K UTTRUFF. Room acoustics. Spon Press, Londres, 4e` me e dition, octobre 2000.
[173] A. L ABORIE. Capture, e chantillonnage, et manipulations de fonctions de directivite - Application
a` lenregistrement de sc`enes sonores 3d avec un micro sOUND fIELD . Rapport de stage du Mast`ere
TDS, Ecole
Nationale Superieure de Telecommunications, IRCAM - Equipe
acoustique des salles,
octobre 2000.
[174] V. L ARCHER. Interpolation de filtres audio-numeriques pour application a` la reproduction spatiale
299
Bibliographie
, et A. G ONZ ALEZ
, et A. G ONZ ALEZ
300
Bibliographie
technique, Ecole
Superieure dElectricite & Renault, Section signaux, images et formes, Metz, mai
1999.
[220] P.M. M ORSE et U.K. I NGARD. Theoretical acoustics. Mac Graw-Hill, New-York, 1968.
[221] J. M OURJOPOULOS. The removal of reverberation from signals. Th`ese de doctorat, Universite de
Southampton, Southampton, 1984.
[222] J. M OURJOPOULOS. On the variability and invertibility of room impulse response functions. J.
Sound and Vibration, 102(2):217228, 1985.
[223] J. M OURJOPOULOS. Digital equalization methods for audio systems. Dans 84th convention, no
2598, Paris, mars 1988. Audio Eng. Soc.
[224] J. M OURJOPOULOS. Digital equalization of room acoustics. J. Audio Eng. Soc., 42(11):884900,
novembre 1994.
[225] J. M OURJOPOULOS , P.M. C LARKSON , et J.K. H AMMOND. A comparative study of least-squares
and homomorphic techniques for the inversion of mixed-phase signals. Dans ICASSP, pages
18581861. IEEE, 1982.
[226] J. M OURJOPOULOS et M.A. PARASKEVAS. Pole and zero modelinf og room transfer functions.
J. Sound and Vibration, 146(2):281302, 1991.
301
Bibliographie
[244] F. O RDU NA
, et A. G ONZ ALEZ
. Robustness of acoustic crosstalk cancellation as a
function of frequency and loudspeaker separation. Dans 109th convention, no 5219 dans Perception and psychoacoustics, part one, Los Angeles, septembre 2000. Audio Eng. Soc.
[245] S. O RFANIDIS. Digital parametric equalizer design with prescribed Nyquist frequency gain. J.
Audio Eng. Soc., 45(6):444455, juin 1997.
. Experimental low-frequency sound equalisation in an extended region
[246] A. O ROZCO -S ANTILL AN
of an enclosure using adaptative filters. Dans 104e` me convention, no 4755 dans Acoustics and
sound reinforcement, Amsterdam, mai 1998. Audio Eng. Soc.
[247] N.C. OTTO. Listening tests methods for automotive sound quality. Dans 103rd convention, no
4586 dans Perception and subjective tests, New-York, septembre 1997. Audio Eng. Soc.
302
Bibliographie
[248] T. PAATERO et M. K ARJALAINEN. Kautz filters and generalized frequency resolution. Theory
and audio applications. Dans 110th convention, no 378 dans Signal processing for audio, part 2,
Amsterdam, mai 2001. Audio Eng. Soc.
[249] A. PAPOULIS. Signal analysis, chapitre 10. MacGraw-Hill, New-York, 1977.
[250] E. PARIZET et N. C HOUARD. Sound quality of car radio: the relevance of interaural correlation
coefficient. Acustica, 83(5):922925, 1997.
[251] T.W. PARKS et C.S. B URRUS. Digital filter design. Wiley & Sons, New-York, 1987.
[252] R.D. PATTERSON. Auditory filter shapes derived with noise stimuli. J. Acoust. Soc. Am.,
72(3):640654, 1982.
[253] R.D. PATTERSON , M. A LLERHAND , et C. G IGUERE. Time-domain modelling of the peripheral
auditory processing. J. Acoust. Soc. Am., 98:18901894, 1995.
[254] R.D. PATTERSON , I. N IMMO -S MITH , D.L. W EBER , et R. M ILROY. The deterioration of hearing
with age : frequency selectivity, the critical ratio, the audiogram, and speech thresold. J. Acoust.
Soc. Am., 72(6):17881803, 1982.
[255] C.J. P LACK et B.C. M OORE. Temporal window shape as a function of frequency and level. J.
Acoust. Soc. Am., 87(5):21782187, mai 1990.
[256] R. P LOMP et H.J. S TEENEKEN. Effect of phase on the timbre of complex tones. J. Acoust. Soc.
Am., 46(2, part 2):409421, 1969.
[257] J.D. P OLACK. La transmission de lenergie sonore dans les salles. Th`ese de doctorat, Universite
du Maine, Le Mans, 1988.
[258] M.A. P OLETTI. The application of linearly swept frequency measurements. JASA, 84(2):599
610, aout 1988.
[259] M.A. P OLETTI. Linearly swept frequency measurements, time delay spectrometry, and the Wigner distribution. JAES, 36(6):457468, juin 1988.
[260] F. P ONCET. Simulation de localisation de sources sonores dans lespace. Rapport technique,
Ecole
Nationale Superieure des Telecommunications, Departement Signal, mars 1992.
[261] B. P ORAT. Digital processing of random signals : theory and methods. Prentice Hall, Englewood
Cliffs, 1994.
[262] K. P RECODA et T.H. M ENG. Listener differences in audio compression evaluations. J. Audio
Eng. Soc., 45(9):708715, 1997.
[263] D. P REIS. Phase distorsion and phase equalization in audio signal processing - A tutorial review.
J. Audio Eng. Soc., 30(11):774794, novembre 1982.
[264] W.H. P RESS , B.P. F LANNERY, S.A. T EUKOLSKY, et W.T. V ETTERLING. Numerical recipes in
C. Cambridge university press, Cambridge, 2e` me e dition, 1993.
[265] T.A. R AMSTAD. Digital methods for conversion between arbitrary sampling frequencies. IEEE
transactions on acoustics, speech, and signal processing, 32(3):577591, juin 1984.
[266] P.A. R EGALIA et S.K. M ITRA. Tunable digital frequency response equalization filters. IEEE
transactions on acoustics, speech, and signal processing, 35(1):118120, janvier 1987.
[267] D. R EILLY et D. M AC G RATH. Convolution processing for realistic reverberation. Dans
98th convention, no 3977 dans Audio signal processing, part 1, Paris, fevrier 1995. Audio Eng.
Soc.
[268] D. R IFE. Comments on Distorsion immunity of MLS-derived impulse response measurements,
and authors reply. JAES, 42(6):490497, juin 1994.
[269] D. R IFE. Maximum-Length Sequence System Analyzer, reference manual, volume 10A. DRA
Laboratories, 1994. URL : http://www.mlssa/com.
[270] D. R IFE et J. VANDERKOOY. Transfer function measurement with maximum-length sequences.
J. Audio Eng. Soc., 37(6):419443, juin 1989.
303
Bibliographie
[271] M. ROBERTS , J. G RIECO , et C. E LLIS. Diffus field radiators in automotive sound system design.
Dans 108th convention, no 5163 dans Transducers, part two, Paris, fevrier 2000. Audio Eng. Soc.
[272] E.A. ROBINSON et S. T REITEL. Geophysical signal analysis, page 163 et suiv. Prentice Hall,
Englewood Cliffs, 1980.
[273] J. ROSE , P.A. N ELSON , T. TAKEUCHI , et B. R AFAELY. Variance of sweet spot size with head
location for virtual audio. Dans 110th convention, no 5391 dans Psychoacoustic, perception and
listening tests, part one, Los Amsterdam, mai 2001. Audio Eng. Soc.
[274] F. RUMSEY et T. M AC C ORMICK. Son et enregistrement - Theorie et pratique. Eyrolles, Paris,
1994. Traduit de langlais par Michel Senechal.
[275] T. S ALAVA. Acoustic load and transfer functions in rooms at low frequencies. J. Audio Eng. Soc.,
36(10):763774, octobre 1988.
[276] T. S ALAVA. Subwoofers in small listening rooms. Dans 106th convention, no 4940 dans Room
acoustics, Munich, mars 1999. Audio Eng. Soc.
[277] G. S APORTA. Probabilites, analyse des donnees et statistique. Technip, Paris, 1990.
[278] R. S AUCEDO et E.E. S CHIRING. Introduction to continuous and discrete control systems. MacMillan, New-York, 1968.
[279] S.S. S CHIFFMAN , M.L. R EYNOLDS , et F.W. YOUNG. Introduction to multidimensional scaling.
Academic Press, London, 1981.
[280] G. S CHIFFRER et D. S TANZIAL. Energetic properties of acoustic fields. J. Acoust. Soc. Am.,
96(6):36453653, Decembre 1994.
[281] M.R. S CHROEDER. Frequency correlations functions of frequency reponses in rooms. J. Acoust.
Soc. Am., 34(12):18191823, decembre 1962.
[282] M.R. S CHROEDER. New method for measuring reverberation time. J. Acoust. Soc. Am.,
37(3):409412, mars 1965.
[283] M.R. S CHROEDER. Digital simulation of sound transmission in reverberant spaces. J. Acoust.
Soc. Am., 47(2):424431, fevrier 1970.
[284] M.R. S CHROEDER. Computer models for concert hall acoustics. Am. J. Phys., 41:461471, avril
1973.
[285] M.R. S CHROEDER. Integrated impulse method for measuring decay without using impulses.
JASA, 66(2):497500, aout 1979.
[286] M.R. S CHROEDER. Normal frequency and excitation statistics in rooms: model experiments with
electric waves. J. Audio Eng. Soc., 35(5):307316, mai 1987.
[287] M.R. S CHROEDER. Statistical parameters of the frequency response curves in large rooms. J.
Audio Eng. Soc., 35(5):299306, mai 1987.
[288] M.R. S CHROEDER , D. G OTTLOB , et K.F. S IEBRASSE. Comparative study of european concert
halls. J. Acoust. Soc. Am., 56:11951201, 1974.
[289] M.R. S CHROEDER , D. G OTTLOB , et K.F. S IEBRASSE. Comparative study of European concert
halls: correlation of subjective preference with geometric and acoustic parameters. J. Acoust. Soc.
Am., 56(4):11951201, octobre 1974.
[290] M.R. S CHROEDER et H. K UTTRUFF. On frequency response curves in rooms. Compararison of
experimental, theoretical and monte carlo results for average frequency spacing between maxima.
J. Acoust. Soc. Am., 34(1):7680, janvier 1962.
[291] G. S CHWARTZ. Estimating the dimensions of a model. Annals of statistics, 6:461464, 1978.
[292] W.R. S COTT et J.S. S MITH. Error corrections for an automated time domain network analyser.
IEEE transactions on instrumentation and measurement, 35(3):300303, septembre 1986.
[293] S.M. S IMPSON. Recursive scheme for normal equations of toeplitz form. Contract AF 19 (604)
7378 7, Massachusetts Institute of Technology, Cambridge, 1963. ARPA project.
304
Bibliographie
305
Bibliographie
[316] P.D. W ELCH. The use of FFT for the estimation of power spectra: a method based on time averaging over short modified periodograms. Dans IEEE transactions on audio and electroacoustics,
volume AU-15, pages 7073, juin 1967.
[317] E. W ENZEL et F. W IGHTMAN. Localization with non individualized virtual acoustics display
cues. 8th annual conference, 1991.
[318] B. W IDROW et S. S TEARNS. Adptative signal processing. Prentice Hall, Englewood Cliffs, 1986.
[319] L. W IEGREBE et K. K RUMBHOLZ. Temporal resolution and temporal masking properties of
transient stimuli: data and an auditory model. J. Acoust. Soc. Am., 105(5):27462756, mai 1999.
[320] M.D. W ILDE. The psychacoustical effcts of interaural cross-correlation. Masters thesis, Northwest university, 1989.
[321] M.D. W ILDE , G. K ENDALL , et W. M ARTENS. Method for controlling the width and distance
of an acoustical image. Unpublished patent application assigned to the former Auris Corporation,
1990.
[322] L. W ILKINSON. SYSTAT 9, volume Statistics II, chapitre 2, pages 4773. SPSS, Chicago, 1999.
[323] F.J. W ILLIAMS et N.J. S LOANE. Pseudo-random sequences and arrays. Dans Proceedings,
volume 64(12), pages 17151728. IEEE, decembre 1976.
[324] R. W ILSON. Filter topologies. J. Audio Eng. Soc., 41(9):667678, septembre 1993.
[325] S. W INSBERG et J.D. C AROLL. A quasi-nonmetric method for multidimensional scaling of
multiway data via a restricted case of an extended INDSCAL model. Dans Multiway data analysis,
pages 405414. Elsevier, 1989.
[326] S. W INSBERG et J.D. C AROLL. A quasi-nonmetric method for multidimensional scaling via an
extended euclidian model. Psychometrika, 54:217229, 1989.
[327] S. W INSBERG et J.D. C AROLL. Fitting an extended INDSCAL model to three-way proximity
data. Journal of classification, 1995.
[328] S. W INSBERG et G. D E S OETE. A latent class approach to fitting the weighted euclidean model,
CLASCAL . Psychometrika, 58(2):315330, 1993.
[329] T. W ULFRANK. Aspects temporels du masquage auditif : experiences et modelisation. Rapport
de stage du DEA ATIAM, Universite Pierre & Marie CURIE , IRCAM - Equipe
perception et
cognition musicales, juin 2001.
[330] N. X IANG et J. B LAUERT. Auditorium acoustics prediction using binaural tenth-scale modelling. Dans Proceedings, volume 14(2), pages 4765, Birmingham, 1992. International congress
on acoustics, architecture and auditoria.
[331] N. Z ACHAROV, S. B ECH , et D. M EARES. The use of two subwoofers in the context of surround
sound reproduction. J. Audio Eng. Soc., 46(4):276287, 1998.
[332] E. Z WICKER et R. F ELDTKELLER. Loreille recepteur dinformation. Masson, Paris, 1981.
306