Professional Documents
Culture Documents
Dpartement dElectronique
THESE
Prsent en vue de lobtention du diplme de Doctorat
Option
Systmes Intelligents
Par
AMARA KORBA Mohamed Cherif
DEVANT LE JURY
EXAMINATEURS
Pour finir je tiens remercier toute ma famille et plus particulirement mes parents
pour leur soutien durant ces nombreuses annes d'tudes.
27&
+*3N" GDQ
:,&/RSH3! "$4 8'F(PF-!O
+*! "$4 G'= V-&R +* UH ,&'T18,& < S"H:F(
2[Z222 =BAU'BY&:W1'9"X,,<1N:W1'9", - %
"2G'=
"(&
FE
"/\,&'=,&8;'
G& <"]*"@,4<
:
H^U:
-%BG91'9" - @ < 7&
,)*+* ! " ,*%9S , ,<1N: '<
1
\3 BW1'9" 'aS ,:'6
G< - & : ( ,_& ` +< $ GH
2,HN]&+*
" ,&'=
+* ,&
b
( : ( 'Fc *)4(Ub ! - ,S"<
,1'< ,&'=1
,/:
H <
G'=+*! ,R4JN3O&*=
Gf
2,_=d]&N:9]&e8
- C43 -&1
G91'9" ]*"@
: /U g. < G'= +* V U(S +"S &8
2C&*
"13(U7&
G&)",(<\3! $4M`(-%
@i'"R+*'N
'=G'*
m 01-J4O:
H"G/,
,)* H3X ,
* rsss +* & F A'"1 &S 2,: , : P,: : V( m&'
]*"@ 3
2[3 tt( 8 tuX >@V rs! - , ,<1N: ,H'N [,&:
O ! - 'N
,&'= G91'9" m : - ;'L J4 O&* *
" G91'9"
2 'O:TNO
*
'
! "$4
'S,
?HJ4
oF,D
.",
,*X yxw,&,&
"/:
HB,S-]&_@"2
"R
!'v;
4+*
,& ,& oF &" #D < Bv1
, 8 - ,c'
[_@
!' vU
?/'
2,)*+*! "$ c4S]*"@ O?83,%:&)"O"&*:<(O"4(
1
P3-& MFCC ,&'=1
(,S"<
,&'=1
-&: G
,4<
[-gd}X.<1SNR83-tt2{|z.! "$4eU3,<1--R,S"<
,&'=
,&'=VlSNR-G1'"R{01-O&*="|t2~z.<,N/'",R :(P
2Y&:W1'9":,V'9
II
Abstract
Abstract
The work completed in this report lies within the general scope of the robust automatic speech
recognition (ASR).
The majority of ASR function correctly in an environment with the characteristics acoustic and
sound close to the environment in which the training was done but the performances will be
degraded notably if the environmental conditions are very different. This sensitivity to the noise is
one of the major brakes to the use of the automatic speech recognition in applications known as
general public.
Our objective, in this report, is to make recognition system insensitive, i.e. robust, with the
changes of environmental conditions, by proposing a novel method of acoustic modelling able to
improve speech signal at the entry of recognition system. This technique being based on the
exploitation of the perceptual indices of the speech signal, allowing to treat noises of more
general nature (white noise, pink noise, industrial noise.etc).
In the first time we compared various of acoustic modelling techniques, the most used in this
discipline, and which effectively solve the problem of the RAP in the clean environment, but the
performances of the system are far from being satisfactory in the presence of noise, more the
share of these acoustic parameters are based on the study of the power spectrum.
We studied the robust acoustic parameters suggested by Donglai Zhu and K.K. Paliwal which is
founded on the product of the spectrum of amplitude by the spectrum of phase. These coefficients
having allowed to obtain good rates of recognition rate until to signal to noise ratio 5dB with
varied noise conditions, which prove that it is possible to implement a system resistant to
different sound environments and who were not contributed at the training stage.
The results obtained are degraded however as the sound level increases, we proposed pre-
processing stage to enhance speech signal by adaptive denoising who affects little a useful
spectral components of the speech signal by the perceptual wavelet packet (PWP) based
denoising algorithm with both type of thresholding procedure, soft and modified soft thresholding
III
Abstract
In the experiments reported in this paper, isolated digit recognition experiments were performed
using the Arabic digit corpus database from the national laboratory of automatic and signals
(LASA) of University of Annaba, which were designed to evaluate the performance of automatic
speech algorithms. This database contains 90 speakers (46 male and 44 female). The studies were
made on the corpus of preregistered noise Noisex-92 developed at TNO institute in Soesterberg,
Netherlands. The corrupted speech is obtained by adding noise to clean speech at different SNR.
All the experiments performed in this report are evaluated by the same Markovian recognition
system of reference based on the continuous HMM. To reduce the task of programming to the
minimum, we have used software platform HTK (Hidden Markov Model Toolkit) distributed by
the university of Cambridge, we have chose this platform for its user-friendliness, its flexibility
and its great choice throughout various stage of the recognition system.
Comparison of the proposed approach with the MFCC-based conventional (baseline) feature
extraction method shows that the proposed method improves recognition accuracy rate by
44.71%, with an average value of 14.80 % computed on 7 SNR level for white Gaussian noise
conditions.
IV
Rsum
Rsum
Le travail ralis lors de cette thse sinscrit dans le cadre gnral de la reconnaissance
automatique de la parole (RAP) robuste.
La plupart des systmes RAP fonctionnent correctement dans un environnement aux
caractristiques acoustiques et sonores proches de l'environnement dans lequel sest fait
l'entranement mais les performances vont se dgrader notablement si les conditions
environnementales sont trs diffrentes. Cette sensibilit au bruit est un des freins majeurs
lemploi de la reconnaissance automatique de la parole dans des applications dites grand public.
Notre objectif, lors de cette thse, est de rendre le systme de reconnaissance insensible, cest--
dire robuste, aux changements de conditions environnementales, en proposant une nouvelle
technique de modlisation acoustique capable damliorer le signal de parole lentre du
systme de reconnaissance. Cette technique se fondant sur lexploitation des indices perceptuels
de la parole, permettant ainsi de traiter des bruits dordre plus gnral (bruit blanc, rose, industriel
.etc.).
En un premier temps nous avons compar diffrentes techniques de modlisation acoustique, les
plus utilises dans cette discipline, et qui rsolvent efficacement le problme de la RAP dans le
milieu non bruit, mais les performances du systme sont loin dtre satisfaisantes en prsence de
bruit, la plus part de ces paramtres acoustiques sont bass sur ltude du spectre dnergie.
Nous avons tudi les paramtres acoustiques robustes proposs par Donglai Zhu et K.K. Paliwal
qui sont fonds sur le produit du spectre damplitude par le spectre de phase. Ces coefficients
nous ayant permis dobtenir de bons taux de reconnaissance jusqu des rapport signal-sur-bruit
(SNR : signal to noise ratio) de 5dB avec des conditions de bruits varies qui prouvent quil est
possible de mettre en oeuvre un systme rsistant des environnements sonores diffrents et qui
nont pas t rencontrs lors de la phase dapprentissage.
Les rsultats obtenus se dgradent cependant mesure que le niveau du bruit augmente, nous
avons propos une phase de prt traitement du signal parole qui permet un dbruitage adaptatif
V
Rsum
efficace et qui affecte peu les composantes spectrales utiles du signal parole par lintroduction de
la dcomposition en paquet dondelettes perceptuel (PWP : Perceptual wavelet packet), cette
dcomposition psycho acoustique dpend de la perception de loreille humaine. Deux techniques
de seuillages ont t envisages : le seuillage doux et le seuillage doux modifi fin de ne pas
limin les composantes de haute frquence qui sont moins nergtique que les basses
frquences, tel que le cas pour les consones. Le seuil adaptatif a t obtenu par la mthode de
seuillage pnalis.
Toutes les expriences ont t effectues laide dune base de donnes vocale acquise au niveau
du laboratoire LASA, luniversit de Annaba, cette base contient 9000 mots (chiffre arabes)
prononcs par 90 locuteurs (46 hommes et 44 femmes) de faon isole. Les tudes ont t faites
sur le corpus de bruit prenregistr Noisex-92 dvelopp par linstitut TNO Soesterberg aux
Pays-Bas. Les squences bruites sont obtenues en additionnant des segments de bruit la parole
propre avec diffrents (SNR).
Toutes les expriences menues dans cette thse ont t values par le systme de reconnaissance
Markovien de rfrence fond sur les HMM continus. A fin de rduire au minimum la tache de
programmation, nous avons utilis la plate-forme logicielle HTK (Hidden Markov Model
Toolkit) distribue par luniversit de Cambridge, nous avons choisie cette plate forme pour sa
convivialit, sa souplesse et sa grande libert de choix laisse tout au long de la construction des
diffrentes parties du systme de reconnaissance.
Les comparaisons effectues entre les paramtres acoustiques robustes proposs et les paramtres
de rfrences qui sont les MFCC ont montr, que nos paramtres amliorent le taux de
reconnaissance du systme de rfrence de 44,71 % pour un SNR de -5dB, et avec une valeur
moyenne de 14,8 % calcule sur 7 niveau de SNR pour le signal parole affect par le bruit blanc
gaussien.
VI
Liste des Tableaux
N Tableau Titre page
1.1 Lalphabet arabe 09
1.2 Classification des phonmes arabes 10
1.3 les consonnes emphatiques 13
1.4 les voyelles simples et longues 14
VII
Liste des Figures
N Fig Titre page
1.1 Coupe de lappareil phonatoire 1
1.2 Coupe de lappareil auditif humain 3
1.3 Courbes d'isosonie 4
1.4 Les chelles naturelles de la membrane basilaire 5
1.5 Spectrogramme du mot 8
3.1 Visualisation du cheminement de lalignement temporel pour des formes de la base de rfrence 37
3.2 Les transitions autorises entre les points du graphe 38
3.3 Schma typique dune fonction de recalage en alignement temporel 39
3.4 Illustration de lutilisation des rcurrences Forward 43
3.5 Illustration de lutilisation des rcurrences backward 44
3.6 Structure d'un systme de reconnaissance avec HTK 50
3.7 Architecture dun neurone formel n entres 51
3.8 Architecture d'un perceptron Multi-Couches une couche cache 52
3.9 (a) donnes non linairement sparables. (b) Pr-traitement des donnes 53
3.10 Systme de segmentation parole/musique 54
VIII
Liste des Symboles
RAP : Reconnaissance automatique de la parole
SRAP : Systme de reconnaissance automatique de la parole
HMM : Hidden Markov Models
EM : Expectation-Maximisation
ARPA : Advanced Research Projects Agency
DAP : Dcodage Acoustico- Phontique
RAL : Reconnaissance Automatique du Locuteur
LPC : Linear Predictive Coefficients
LPCC : Linear Predictive Cepstral Coefficients
MFCC : Mel Frequency Cepstral Coefficients
MLP : Multi Layer Perceptron
TDNN : Time Delay Neural Network
RBF : Radial Basis Function
VQ : Vector Quantization
LVQ : Learning Vector Quantization
GMM : Gaussian Mixture Model
RASTA : RelAtive SpecTrAl
MAP : Maximum A Posteriori
MLE : Maximum Likelihood Estimation
MFCC : Mel frequency Cepstral Coefficient
MFSCC : Mel Frequency Product spectrum Cepstral Coefficient
PNRF_Soft : Proposed Noise Robust feature with Soft Thresholding
PNRF_Mst : Proposed Noise Robust feature with Modified Soft Thresholding
WP : Wavelet Packet
WPC : Wavelet Packet Coefficient
WPT : Wavelet Packet Transform
PWP : Perceptual Wavelet Packet
PWPC : Perceptual Wavelet Packet Coefficient
PWPT : Perceptual Wavelet Packet Transform
QV : Quantification Vectorielle
IX
Table des matires
Introduction gnrale . XV
Introduction ... 1
1.1 Mcanismes de production de la parole .. 1
1.2 Mcanismes d'audition de la parole 2
1.3 Proprits psycho-acoustiques du systme auditif .. 4
1.3.1 chelle d'intensit . 4
1.3.2 chelle de hauteur 4
1.4 Complexit du signal parole ... 5
1.5 Continuit et coarticulation . 5
1.6 Redondance du signal parole .. 6
1.7 Variabilit ... 6
1.7.1 Variabilit intra-locuteur .. 6
1.7.2 Variabilit inter-locuteur .. 6
1.7.3 Variabilit due lenvironnement 7
1.8 Description acoustique ... 7
1.9 LAlphabet Arabe .. 8
1.10 Les classes phontiques arabes 9
1.11 Classification Phontiques .. 10
1.11.1 Les Voyelles . 11
1.11.2 Les Occlusives .. 11
1.11.3 Les Fricatives 11
X
Table des matires
XI
Table des matires
2.5 Evaluation des paramtres acoustiques tudis par le systme de RAP de rfrence.33
2.5.1 Evaluation des performances du systme ASR en prsence du bruit blanc..34
2.5.2 Evaluation des performances du systme ASR en prsence du bruit rose34
2.5.3 Evaluation des performances du systme ASR en prsence du bruit industriel34
2.5.4 Evaluation des performances du systme ASR en prsence du bruit du cockpit F16...35
2.5.5 Discussion des rsultats 35
2.6 Conclusion.. 35
XII
Table des matires
XIII
Table des matires
XIV
Introduction gnrale
Introduction gnrale
La parole est le principal moyen de communication dans toute socit humaine. Son
apparition peut tre considre comme concomitante lapparition des outils, lhomme ayant
alors besoin de raisonner et de communiquer pour les faonner.
Limportance de la parole fait que toute interaction homme-machine devrait plus ou moins
passer par elle. Dun point de vue humain, la parole permet de se dgager de toute obligation
de contact physique avec la machine, librant ainsi lutilisateur qui peut alors effectuer
dautres tches. Ces applications peuvent tre regroupes en quatre catgories :
Commande et contrle.
Accs des bases de donnes.
Dict vocale.
Transcription automatique de la parole (sous-titrage et transduction automatique).
Le principal but de notre travail est dtudier les moyens qui peuvent rendre le systme de
reconnaissance insensible aux changements des conditions environnementales en prcdant le
moteur de reconnaissance par des modules de traitement du signal capables damliorer le
signal de parole lentre du systme de reconnaissance.
Ces modules de prt-traitement sont capables damliorer le signal parole par dbruitage
adaptatif bas sur les connaissances perceptuelles de loreille humaine, et exploitant le module
et la phase du spectre de frquence. Une multi-rsolution temps/frquence est ncessaire afin
de mieux analyser les diffrentes composantes spectrales, pour cet effet nous avons introduit
les ondelettes orthogonales qui savrent un outil incontournable pour lanalyse des signaux
non stationnaires.
Notre nouveau paramtre acoustique a t valu par les modles de Markov cachs continus
HMMc. Et cela dans des milieux affects par diffrents types de bruits (Blanc, rose,
industriel,etc.). Le systme de reconnaissance est sens reconnatre les chiffres arabes
prononc dune manire isole.
Le mmoire de ce travail est rparti en cinq chapitres, Dans le premier chapitre nous
XV
Introduction gnrale
Dans le deuxime chapitre, nous prsentons les paramtres acoustiques les plus utiliss en
reconnaissance de la parole, les paramtres qui dpendent de lappareil de production de la
parole (LPC, LPCC) et les paramtres qui dpendent de lappareil de perception humaine
(MFCC, PLP, MFPSCC). Une valuation de ces paramtres est envisag afin de dterminer
quel sont les paramtres acoustiques les plus adapt la tache de reconnaissance en milieu
bruit.
Dans le quatrime chapitre, nous commenons par prsenter ce sur quoi tous ses travaux sont
bass : les ondelettes, qui offrent une dcomposition multi-echelles et une analyse efficace
pour les signaux non stationnaires. Ainsi qune brve description des familles dondelettes les
plus utilises pour lanalyse du signal parole.
Dans le dernier chapitre, nous prsentons les dtails de notre systme de paramtrisation
acoustique robuste. Ensuite, les diffrentes expriences sur les corpus de dveloppement et de
validation sont prsentes. Par lintroduction de dondelette de daubechies et par lapplication
de diffrentes techniques de seuillage.
Nous terminons ce manuscrit, par une conclusion gnrale de notre travail sur la
paramtrisation acoustique robuste. Nous rsumons les rsultats importants obtenus au cours
de diverses exprimentations. Enfin, nous prsentons nos perspectives concernant la
paramtrisation robuste de la parole et concernant les amliorations apporter notre
systme.
XVI
Chapitre 1 Caractristiques du signal parole
Introduction
Le prsent chapitre a pour intention de prsenter les notions lmentaires et les termes
relatifs la description de la parole. Nous prsentons les appareils auditif et phonatoire de ltre
humain. Nous prsenterons ensuite les problmes dus la complexit du signal parole :
variabilit, non stationnarit, redondance et coarticulation. Nous prsenterons lalphabet arabes et
une classification phontique de la langue arabe.
Le processus de production de la parole est un mcanisme trs complexe qui repose sur une
interaction entre les systmes neurologique et physiologique. La parole commence par une
activit neurologique. Aprs que soient survenues l'ide et la volont de parler, le cerveau dirige
les oprations relatives la mise en action des organes phonatoires. Le fonctionnement de ces
organes est bien, quant lui, de nature physiologique.
Une grande quantit d'organes et de muscles entrent en jeu dans la production des sons des
langues naturelles. Le fonctionnement de l'appareil phonatoire humain repose sur l'interaction
entre trois entits : les poumons, le larynx, et le conduit vocal.
La figure 1.1 reprsente une vue globale de l'appareil de production de la parole. Le larynx est une
1
Chapitre 1 Caractristiques du signal parole
structure cartilagineuse qui a notamment comme fonction de rguler le dbit d'air via le
mouvement des cordes vocales. Le conduit vocal s'tend des cordes vocales jusqu'aux lvres dans
sa partie buccale et jusqu'aux narines dans sa partie nasale.
La parole apparat physiquement comme une variation de la pression de l'air cause et mise par
le systme articulatoire. L'air des poumons est comprim par l'action du diaphragme. Cet air sous
pression arrive ensuite au niveau des cordes vocales. Si les cordes sont cartes, l'air passe
librement et permet la production de bruit. Si elles sont fermes, la pression peut les mettre en
vibration et l'on obtient un son quasi-priodique dont la frquence fondamentale correspond
gnralement la hauteur de la voix perue. L'air mis ou non en vibration poursuit son chemin
travers le conduit vocal et se propage ensuite dans l'atmosphre. La forme de ce conduit,
dtermine par la position des articulateurs tels que la langue, la mchoire, les lvres ou le voile
du palais, dtermine le timbre des diffrents sons de la parole. Le conduit vocal est ainsi
considr comme un filtre pour les diffrentes sources de production de parole telles que les
vibrations des cordes vocales ou les turbulences engendres par le passage de l'air travers les
constrictions du conduit vocal.
Le son rsultant peut tre class comme vois ou non vois selon que l'air mis a fait vibrer les
cordes vocales ou non. Dans le cas des sons voiss, la frquence de vibration des cordes vocales,
dite frquence fondamentale ou pitch, not F0, s'tend gnralement de 70 400 hertz.
L'volution de la frquence fondamentale dtermine la mlodie de la parole. Son tendue dpend
des locuteurs, de leurs habitudes mais aussi de leurs tats physique et mental.
La parole est un vecteur de transmission d'information d'une grande complexit. En tant que
rcepteur de ce vecteur, l'appareil auditif de l'tre humain se caractrise par une grande finesse
d'analyse de cette complexit et par une grande robustesse l'environnement. Pour cette raison,
de nombreux systmes de traitement de la parole tentent de reproduire les fonctionnalits de cet
appareil.
Les mcanismes physiologiques qui permettent l'audition d'un message oral sont classiquement
spars en deux parties : l'appareil auditif priphrique et le systme auditif central. Dans ce qui
suit, nous prsentons succinctement l'appareil l'auditif priphrique chez l'tre humain pour
2
Chapitre 1 Caractristiques du signal parole
3
Chapitre 1 Caractristiques du signal parole
Loreille ragit des sons de diverses frquences qui peuvent tre regroupes sur des chelles
linaires ou non linaires.
4
Chapitre 1 Caractristiques du signal parole
Certains chercheurs utilisent chelle Bark. Mais les diffrences entre les deux chelles sont
peu importantes. La figure1.4 montre les diffrentes chelles naturelles de la membrane
basilaire [81].
Tout discours peut tre retranscrit par des mots, qui peuvent leur tour tre dcrits comme
une suite de symboles lmentaire appels phonmes par les linguistes. Cela laisse supposer que
la parole est un processus squentiel, au cours du quel des units indpendantes se succdent. La
parole est en ralit un flux continu, et il nexiste pas de pause entre les mots qui pourrait faciliter
leur localisation automatique par les systmes de reconnaissance.
De plus, les contraintes introduites par les mcanismes de production crent des phnomnes de
coarticulation. La production dun son est fortement influence par les sons qui le prcdent mais
aussi qui le suivent en raison de lanticipation du geste articulatoire. Ces effets stendent sur la
dure dune syllabe, voire mme au-del, et sont amplifis par une locution rapide.
5
Chapitre 1 Caractristiques du signal parole
1.7 Variabilit
6
Chapitre 1 Caractristiques du signal parole
prcdemment. Or le conduit vocal est de forme et de longueur variables selon les individus et,
plus gnralement, selon le genre et lge. Ainsi, le conduit vocal fminin adulte est, en moyenne,
dune longueur infrieure de 15% celui dun conduit vocal masculin adulte. Le conduit vocal
dun enfant est bien sr infrieur en longueur celui dun adulte. Les convolutions possibles
seront donc diffrentes et, le fondamental ntant pas constant, un mme phonme pourra avoir
des ralisations acoustiques trs diffrentes.
La variabilit inter-locuteur trouve galement son origine dans les diffrences de prononciation
qui existent au sein dune mme langue et qui constituent les accents rgionaux.
Il est possible de classer les diffrents sons visibles sur un spectrogramme selon leurs
classes respectives en trs peu de temps et sans aucune coute de la phrase correspondante. Le
travail des phonticiens est ce titre trs intressant et parfois fort impressionnant.
La figure1.5 nous montre une transcription du mot ( ). Laxe des abscisses du
spectrogramme reprsente le temps, laxe des ordonnes reprsentant la frquence qui est, ici,
comprise entre 0 et 8Khz. Les nuances de gris du spectrogramme reprsentent lnergie du
signal pour une frquence et un instant donn. Lnergie minimale des spectrogrammes
prsents est de 30 dcibels (correspondant au gris le plus clair), lnergie maximale tant, elle,
de 100 dcibels (correspondant au noir).
7
Chapitre 1 Caractristiques du signal parole
Diacritiques arabe
Figure 1.5 Spectrogramme
Symboles API [ s ] du mot
[ ]
[ b/ ][ sblun
[ i ]] chantillonne [ 16KHz
l ] [ u(calculer
] [ navec
] une
fentre de hamming de 256 points )
L'alphabet arabe comprend vingt-huit lettres fondamentales, et s'crit de droite gauche. Il n'y a
pas de diffrence entre les lettres manuscrites et les lettres imprimes ; les notions de lettre
capitale et lettre minuscule n'existent pas (l'criture est donc monocamrale). En revanche, la
plupart des lettres s'attachent entre elles, mme en imprimerie, et leur graphie diffre selon
qu'elles sont prcdes et/ou suivies d'autres lettres ou qu'elles sont isoles (on parle de variantes
contextuelles). L'alphabet arabe est un abjad, terme technique dcrivant les critures dans
lesquels les voyelles ne sont pas implicitement notes ; le lecteur doit donc connatre la langue
pour les restituer. Dans les ditions du Coran ou les ouvrages didactiques, cependant, on utilise
8
Chapitre 1 Caractristiques du signal parole
[t] t t [z ] z z emph
[] th th , angl [a] ayn
[] djm dj [3] ghayn rh, gh
[h] h h [f] f f
[] kh kh, ch [q] qf q
[d] dl d [k] kf k
[] dhl dh, angl [l] lm l
[r] r r roul [m] mm m
[z] zy z [n] nn n
[s] sn s [h] h h
>@ chn ch [w] ww , w
[ s ] sd s emph [j] y , y
Les phonmes, le cas chant, sont nots par paire, sourd d'abord puis sonore. Toutes ces classes
peuvent se retrouver dans le tableau ci-dessous :
Phontique Bilab Labiodent Dent Alvol Post-alvol Palat Vlaire uvulaire Pharyng Glot
~
Occlusives
Nasales
9
Chapitre 1 Caractristiques du signal parole
~ ~ ~
Fricatives
Spirantes
Affriques [dj]
Liquides
Vibrantes
Tableau 1.2 Classification des phonmes arabes.
Les diffrents sons de la parole sont regroups en classes phontiques en fonction de leurs
caractristiques principales. Ces caractristiques reprsentent des diffrences qui sont
suffisamment importantes pour quil soit possible de classer les diffrents sons visibles sur un
spectrogramme selon leur classe respective en trs peu de temps et sans aucune coute de la
phrase correspondante.
Les diffrentes classes phontiques existantes, dont nous donnons ci-aprs la liste, correspondent
des regroupements qui suivent, dans les grands principes, les catgories de lalphabet. Il existe
ici aussi une diffrence entre voyelles et consonnes par exemple. Mais ltude des sons de la
10
Chapitre 1 Caractristiques du signal parole
parole a oblig nuancer cette rpartition et crer dautres classes subdivisant lensemble des
consonnes.
Les diffrentes classes phontiques prsentes en Arabe, Anglais et Franais sont :
11
Chapitre 1 Caractristiques du signal parole
Elles ont la structure acoustique des voyelles mais ne peuvent en jouer le rle car elles ne
sont que des transitions vers dautres voyelles qui sont les vritables noyaux syllabiques. Dun
point de vue syntaxique, une rgle stricte de la langue franaise veut que deux voyelles ne
puissent jamais se suivre. Cette rgle est trs largement respecte dans la construction des mots
mais prsente, comme toute rgle, quelques exceptions. La classe des semi-consonnes a t cre
pour pallier ces exceptions de manire gracieuse. Les semi-consonnes sont videment sonores.
12
Chapitre 1 Caractristiques du signal parole
vritables fricatives.
[ t ] [ z ] [ s d ] [ d d ] [ayn ] [ qf ]
Toutes les lettres des tableaux prcdents sont des consonnes (ou des lettres muettes). Les
voyelles ne sont que rarement notes, et si elles le sont, c'est sous la forme de diacritiques.
Ainsi, alif n'est pas la voyelle mais une lettre de prolongement pour la voyelle /a/ (voir
la section voyelles simples ) ou un support pour divers diacritiques, dont un transcrit
une consonne, la hamza (voir plus bas). Il est donc improprement transcrit par ;
de mme, la lettre alif maqsra, qui ne s'utilise qu'en fin de mot, est une autre lettre de
prolongement pour la voyelle /a/. Son nom indique le son obtenu, alif de prolongement
, et non sa forme, puisque la lettre ressemble un y ;
enfin, le t marbta est aussi une consonne, savoir un /t/ ; toutefois, elle ne se trouve
qu'en fin de mot et toujours prcde de /a/. Le son /t/, cependant, n'est prononc que si
13
Chapitre 1 Caractristiques du signal parole
les voyelles casuelles finales qui suivent la lettre le sont aussi ; or, ces voyelles sont souvent
omises dans la prononciation courante.
Fatha ae / aa
Damma ux / uh
Kasra ih / ix / ih
) Fatha + alif ah
,) Kasra + yaa iy
Note : Les voyelles changent lgrement de timbre selon le contexte dans lequel elles se trouvent.
1.12.2 Suk-n
Une syllabe arabe peut tre ouverte (elle est termine par une voyelle) ou ferme (par une
consonne) :
14
Chapitre 1 Caractristiques du signal parole
ouverte : C[onsonne]V[oyelle] ;
ferme : CVC ; la voyelle en question est le plus souvent brve
Quand la syllabe est ferme, On peut indiquer que la consonne qui la ferme ne porte aucune
voyelle en plaant au dessus un signe nomm sukn, de la forme , pour lever tout ambigut .
exemple : (.(/0 ( qalb) ainsi les sukn permettent de savoir o ne pas placer une voyelle .
15
Chapitre 2 paramtrisation acoustique du signal parole
2.1 Introduction
Tout Les systme de reconnaissance de la parole sont diviss en deux parties, une
premire partie qui reprsente la phase dextraction des paramtres, et une deuxime partie qui est
le moteur de reconnaissance. Les performances des systmes de reconnaissance de la parole
dpendent de faon considrable des paramtres acoustiques utiliss.
Dans le prsent chapitre nous prsentons les paramtres acoustiques les plus utiliss en
reconnaissance automatique de la parole, quand on peut les dcomposs en deux types, ce qui
dpendent de la modlisation du systme de production de la parole tel que les paramtres LPC et
les paramtres LPCC, et ce qui dpendent de la perception de loreille humaine tel que les
paramtres acoustiques MFCC, PLP et PLP-RASTA. la fin de ce chapitre une valuation des
paramtres acoustiques tudis est faite.
Vecteur de
Signal parole Extraction des paramtre Moteur de Mot reconnu
paramtres reconnaissance
16
Chapitre 2 paramtrisation acoustique du signal parole
N 1
E0 = S n2 (2.1)
n =0
L nergie ainsi obtenue est sensible au niveau d'enregistrement; on choisit en gnral de la
normaliser, et d'exprimer sa valeur en dcibels par rapport un niveau de rfrence. D'autres
paramtres peuvent tre calculs dans le domaine temporel, comme les coefficients d'auto-
corrlation, le taux de passage par zro, ou encore la frquence fondamentale. L'estimation des
coefficients d'auto-corrlation {rk } est calcule par :
N 1
rk = sn sn k 0 k N 1 (2.2)
n =0
{S n }, n = 0 N-1 comme :
k
N 1 j 2n
S k = sn e N , 0 k N 1 (2.3)
n =0
L'intensit en dcibels du spectre est directement visualisable sous la forme d'un spectrogramme
pour une valuation qualitative du signal.
Le nombre de paramtres spectraux calculs sur une trame par FFT reste trop lev pour un
traitement automatique ultrieur. L'nergie du spectre est calcule travers un banc de filtres
17
Chapitre 2 paramtrisation acoustique du signal parole
Laxe des abscisses du signal temporel reprsente le temps alors que laxe des ordonnes
reprsente lamplitude du signal. Laxe des abscisses du spectrogramme reprsente galement le
temps, laxe des ordonnes reprsentant la frquence qui est, ici, comprise entre 0 et 5512 Hz. Les
nuances de gris du spectrogramme reprsentent lnergie du signal pour une frquence et un
instant donn. Lnergie minimale des spectrogrammes prsents est de 30 dcibels
(correspondant au gris le plus clair), lnergie maximale tant, elle, de 100 dcibels
(correspondant au noir).
18
Chapitre 2 paramtrisation acoustique du signal parole
Figure 2.4 Reprsentation temporelle (en haut), spectrogramme (en bas) du mot zro en arabe
Le signal analogique est fourni en entre et une suite discrte de vecteurs, appele trame
acoustique est obtenue en sortie.
19
Chapitre 2 paramtrisation acoustique du signal parole
frquences; la pr-accentuation sn' de l'chantillon sn l'instant n est calcule pour une valeur
S n' = S n S n 1 (2.4)
Puis le signal est segment en trames. Chaque trame est constitue dun nombre N fixe
dchantillons de parole. En gnral, N est fix de telle manire que chaque trames corresponde
environs 25 ms de parole (dure pendant laquelle la parole peut tre considre comme
stationnaire). Enfin une multiplication par une fentre de pondration Wn est effectue, afin de
rduire les effets de bords. Le choix se porte gnralement sur les fentres de Hamming ou de
Hanning:
n
Ham min g (n) = 0,54 0,64 cos 2 , 0 n N - 1 (2.5)
N 1
n
Hanning (n) = 0,5 0,4 cos 2 , 0 n N - 1 (2.6)
N 1
avec
S n'' = Wn S n' (2.7)
Aprs cette mise en forme du signal (commune la plupart des mthodes danalyse de la parole),
une transforme de Fourier discrte DFT en particulier FFT (Transform de Fourier Rapide) est
applique pour passer dans le domaine frquentiel.
s(t)
Filtrage et sn Pr-accentuation
sn Segmentation Multiplication par une sn
Echantillonnage en trames fentre de Hamming Signal
Signal
analogique discrtis
20
Chapitre 2 paramtrisation acoustique du signal parole
stochastique (bruit blanc), et ventuellement mixte, de faon pouvoir modliser les sons voiss
ainsi que les sons non-voiss.
Remarquons que pour le cas des sons purement voiss, l'excitation du systme reprsentera
l'action opre par la vibration des cordes vocales, alors que le filtre reprsentera l'action du
conduit vocal. Pour le cas de sons partiellement non voiss par contre, le signal acoustique est le
rsultat d'un processus plus complexe faisant intervenir la frication, c'est dire les perturbations
cres par le passage de l'air au travers des constrictions du conduit vocal ou des lvres.
L'interprtation du modle n'est donc plus aussi simple. Ce modle reste cependant trs utilis en
pratique car, quel que soit la nature priodique ou apriodique du signal, la fonction de transfert
du filtre sera un bon modle de l'enveloppe spectrale du signal, caractristique essentielle pour la
distinction des sons linguistiques.
La prdiction linaire [71] permet la modlisation d'un signal s (n) comme une combinaison
linaire de ses valeurs passes et des valeurs d'un signal dexcitation u (n) .
p
s (n) = ai s (n i ) + Gu (n) (2.8)
i =1
p
S ( z ) = ai z i S ( z ) + GU ( z ) (2.9)
i =1i
S ( z) 1
H ( z) = = (2.10)
GU ( z ) 1 i =1 ai z i
p
et devra idalement avoir un ordre suffisamment lev pour modliser avec prcision la structure
en formants du spectre du signal. L'ordre ne sera cependant pas trop lev, et ce pour viter la
modlisation de dtails spectraux au contenu linguistique ngligeable. On estime en gnral avoir
besoin d'une paire de ples par kHz de bande passante, plus 3 ou 4 ples pour l'excitation
glottique et la radiation des lvres. Pour une frquence d'chantillonnage de 8 kHz, on choisira
21
Chapitre 2 paramtrisation acoustique du signal parole
donc un ordre de 11 ou 12. Les expriences de reconnaissance vocale montrent que ces valeurs
sont raisonnables.
Les paramtres de ce modle, savoir le gain, l'excitation et les coefficients ai peuvent tre
estimes par des mthodes d'analyse. Une interprtation de ces mthodes d'analyse est de sparer
la source et la structure, et donc d'obtenir des paramtres de structure ai relativement ''propres''.
A partir du modle qui vient d'tre dcrit, une estimation de l'chantillon s (n) peut-tre calcule
de la sorte:
p
s(n) = ai s (n i ) (2.11)
i =1
p
s ( n) a i s ( n i ) (2.12)
i =1
Une estimation des paramtres ai peut tre obtenue par minimisation de la somme des carrs des
erreurs de prdiction sur une trame de parole provenant des tapes de traitement prcdentes, ce
qui conduit un systme linaire de p quations p inconnues faisant intervenir la fonction de
covariance du signal s . En limitant l'ordre de la somme des erreurs de prdiction par dfinition
d'une fentre de signal de dure limite, on peut montrer que les lments intervenant dans le
systme d'quation sont les p + 1 premiers lments de la fonction d'autocorrlation du signal.
De plus, la matrice du systme est une matrice de Toeplitz (les lments de toutes les diagonales
sont gaux) symtrique. Cette particularit permet l'utilisation d'une mthode de rsolution
particulirement efficace appele rcursion de Durbin. Une description de cette mthode peut tre
trouve dans [46].
Les paramtres LPCC sont calculs partir d'une modlisation auto-rgressive du signal.
Si un modle auto-rgressif A(1, a1 ....a p ) d'ordre p a t estim sur une trame du signal, les d
22
Chapitre 2 paramtrisation acoustique du signal parole
1 n 1
C n = a n + (n i)ai C n i 1 n d (2.13)
n i =1
L i
ci = 1 + sin ai (2.15)
2 L
O L est le nombre de coefficients. Cette mthode de prdiction linaire est beaucoup Plus
utilise en reconnaissance de la parole que celle de lanalyse spectrale.
La figure ci-dessus reprsente le processus de calcul des coefficients PLP. Pour obtenir un spectre
auditif, la courbe de masquage () est tout d'abord utilise
0 si 1,3
10 2 ,5( + 0 ,5 ) si -1,3 0 ,5
() = 1 si -0 ,5 0 ,5 (2.16)
10 1,0( 0 ,5 ) si 0 ,5 2 ,5
0 si 2 ,5
23
Chapitre 2 paramtrisation acoustique du signal parole
24
Chapitre 2 paramtrisation acoustique du signal parole
Nous dcrivant dans ce qui suit Algorithme de calcule des coefficients RASTA PLP
1. Calcul le spectre damplitude en bandes critiques (comme pour la PLP).
2. Compression de lamplitude laide dune transformation non linaire.
3. Filtrage des trajectoires temporelles de chaque composante spectrale.
4. Expansion de lamplitude laide dune transformation non linaire.
5. Praccentuation laide du contour dgale intensit sonore et prise en compte de lchelle
sonore par lvation la puissance 0.33.
6. Calcul du modle tout pole du spectre selon la mthode PLP classique.
S ( ) = E ( ) H ( ) (2.22)
En prenant le logarithme de cette expression, puis en faisant une transforme de Fourier inverse,
on obtient le cepstre :
25
Chapitre 2 paramtrisation acoustique du signal parole
On appellera le signal s( n) obtenu par cette opration cepstre complexe associ au signal s ( n) .
On a donc [68] :
Pour estimer la contribution du conduit vocal dans le signal de parole, on ne conserve que les
premiers chantillons du cepstre c(n) qui correspondent en particulier aux informations sur les
formants. Les chantillons du cepstre d'ordre plus lev correspondent en gnral aux
caractristiques de la frquence fondamentale des cordes vocales.
Une des proprits du cepstre est qu'il effectue un filtrage passe-bas du spectre du signal et tend
donc lisser les irrgularits du spectre. De ce fait, les amplitudes des harmoniques ne sont pas
conserves. Pour palier ce problme et obtenir une enveloppe spectrale passant par les amplitudes
des harmoniques du signal, Galas et Rodet ont propos une mthode dite du cepstre discret [55].
26
Chapitre 2 paramtrisation acoustique du signal parole
Figure 2.9 Les filtres triangulaires passe-bande en Mel-Frq (B(f)) et en frquence (f)
On peut calculer les points frontires B( j ) des filtres en mel-frquence ainsi :
B(f h ) B(f l )
B( j ) = B(f l ) + j 0 j N +1 (2.28)
J +1
N est le nombre de filtres ( N = 22 ).
On doit calculer les points f ( j ) correspondants dans le domaine de frquence relle :
N 1
f ( j) = B B( j ) (2.29)
Fs
Puis on dtermine tous les coefficients de chaque filtre :
0 k f ( j 1)
k f ( j 1)
f ( j 1) k f ( j )
f ( j ) f ( j 1) (2.30)
H j( k ) =
f ( j + 1) k
f ( j ) k f ( j + 1)
f ( j + 1) f ( j )
0 k f ( j + 1)
L'analyse MFCC comporte plusieurs tapes reprsentes dans la (figure 2.12). Le pr-traitement
consiste effectuer sur le signal de parole, chantillonn 11025 Hz et quantifi sur 16 bits, les
oprations suivantes :
Toutes les 10ms (110 chantillons), une trame acoustique de 25ms (275 chantillons) est
extraite du signal.
La composante continue des chantillons constituant cette trame est enleve.
Afin de compenser l'attnuation naturelle du spectre du signal de parole, la squence des
chantillons constituant la trame subit une pr-accentuation avec le filtre du premier ordre
H ( Z ) = 1 0,97 Z 1 (2.40)
27
Chapitre 2 paramtrisation acoustique du signal parole
Figure 2.10 Schma en blocs de l'analyse acoustique permettant le calcul des vecteurs MFCC.
Pour attnuer les distorsions spectrales introduites par l'extraction de la trame du signal de parole,
on pondre les chantillons de cette trame par la fentre de Hamming.
L'analyse MFCC proprement dite consiste effectuer sur chacune des trames rsultantes du pr-
traitement les oprations suivantes :
La transformation de Fourier permet de calculer le spectre d'amplitude de la trame.
Pour chacun des 22 filtres triangulaires rpartis sur l'chelle des frquences de Mel, l'nergie
du spectre d'amplitude en sortie de ce filtre est calcule. Cette opration donne un vecteur de
22 valeurs nergtiques E j .
N 1 2
E j = S (k ) H j (k ) (2.31)
k =0
Les logarithmes de ces 22 valeurs sont alors transforms en 12 coefficients MFCC par
l'inverse de la transforme en cosinus discrte :
2 N i
ci = log10 ( E j ) cos ( j + 0,5) (2.32)
N j =1 N
o ci est le ieme coefficient mel-cepstral, E j est l'nergie du spectre calcule sur la bande passante
28
Chapitre 2 paramtrisation acoustique du signal parole
L i
ci = 1 + sin ci 1 i 12 (2.33)
2 L
o ci est le ime coefficient mel-cepstral liftr et L est le coefficient du liftering (L = 22). Ces
pondrations corrigent la dcroissance rapide des coefficients MFCC d'indice lev et permet
l'utilisation d'une distance euclidienne.
X ( ) = X ( ) e j ( ) (2.34)
La fonction de temps de groupe (GDF : group Delay function) est dfinie par [72] :
d ( )
p ( ) = (2.35)
d
Lquation (2. 35) peut tre simplifie comme suit [72]:
d (log( X ( ))
p ( ) = Im (2.36)
d
X R ( )YR ( ) + X I ( )YI ( )
= 2
(2.37)
X ( )
O Y ( ) est la transforme de Fourier de nx(n) , I et R pour designer respectivement la partie
imaginaire et la partie relle. La figure 2.13 (a), (b) et (c) montre une trame (de dure T=30ms) de
la voyelle (i), son spectre de puissance et sa GDF respectivement. Avant le calcul de la
transforme de Fourier, le signal parole a subit un filtrage de pre-accentuation ensuite une
multiplication par la fentre de Hamming. Dans le spectre de puissance les formants sont
29
Chapitre 2 paramtrisation acoustique du signal parole
clairement visibles, cependant, il y a seulement des pics sans signification dans la GDF. Ils se
produisent en raison du spectre de puissance dans le dnominateur dans lquation (2.37). Afin
de rendre la GDF significative, une modification a t propose pour la GDF en remplaant le
2
spectre de puissance X ( ) par le spectre de puissance cepstral liss ( S ( )) 2 dans lquation
30
Chapitre 2 paramtrisation acoustique du signal parole
Figure 2.11 une trame de la voyelle (i), son spectre de puissance, fonction de temps de groupe, fonction
de temps de groupe modifie et le produit spectral.
31
Chapitre 2 paramtrisation acoustique du signal parole
danalyse par :
32
Chapitre 2 paramtrisation acoustique du signal parole
n
Ck (t + i )
i = n
Ck = n
(2.47)
2
i
i = n
Des coefficients de second ordre peuvent aussi contribuer lamlioration du systme surtout
dans le cas de la parole bruite soumise leffet lombard. Ces coefficients Ck et E sont
2.5 Evaluation des paramtres acoustiques tudis par le systme de RAP de rfrence
Une sries dexpriences est effectue afin chercher quel sont les paramtres acoustiques
les plus adapts la RAP par les HMMc, les valuations ont t faites en prsence de quatre types
de bruits additifs rels (blanc, rose, industriel, cockpit F16). La base de donnes utilise dans nos
expriences contient 90 locuteurs (46 hommes et 44 femmes), chaque locuteur prononce 10 fois
le mme chiffre arabe (0-9). 6 locutions ont t utilises pour lapprentissage du systme de
rfrence (chapitre5) et les quatre restantes sont utilises pour les tests.
Une description dtaille de la base de donnes vocale et de la base de bruit ainsi que le systme
de rfrence est prsente dans le chapitre5, section3.
Nous prsentons les diffrentes configurations des paramtres acoustiques par 4 tableaux ci-
dessous :
33
Chapitre 2 paramtrisation acoustique du signal parole
Tableau 25 Taux de reconnaissance (%) obtenus avec les diffrents paramtres en prsence du bruit
blanc.
Tableau 2.6 Taux de reconnaissance (%) obtenus avec les diffrents paramtres en prsence du bruit rose.
Tableau 2.7 Taux de reconnaissance (%) obtenus avec les diffrents paramtres en prsence du bruit
industriel.
34
Chapitre 2 paramtrisation acoustique du signal parole
clean 20 15 10 5 0 -5 Tmoyen
LPC 88,61 67,69 50,93 35,01 24,48 18,92 11,92 42,50
PLP 98,72 95,55 88,22 73,13 52,99 30,01 20,28 65,55
MFCC 98.55 94.28 85.94 72.55 54.29 34.04 17.09 65,24
MFPSCC 98,61 98,60 97,17 94,69 85,79 63,02 30,90 81,25
Tableau 2.8 Taux de reconnaissance (%) obtenus avec les diffrents paramtres en prsence du bruit du
cockpit de lavion de chasse F16.
Les tableaux ci-dessus prsentent les taux de reconnaissance obtenus partir du systme de
reconnaissance de rfrence, dans le cadre de nos expriences, nous constatons que les
coefficients MFCC et PLP pressentent de bonnes performances dans le milieu non bruit. Mais
les performances du systme sont loin dtre satisfaisantes en prsence de bruit, les coefficients
MFCC se dgradent de faon considrable et plus rapidement par rapport aux coefficients PLP.
Les coefficients MFPSCC offrent de bonnes performances au systme et prsentent un apport
majeur sur le taux de reconnaissance de 10 15% en valeur moyenne et sur 7 niveaux de SNR
par rapport aux coefficients MFCC et PLP.
Les coefficients LPC ne sont pas adapts la tache de reconnaissance en milieu bruit.
2.6 Conclusion
Nous constatons que le paramtre acoustique MFPSCC prsent de bonnes performances au
systme RAP, et offre une robustesse par rapport aux paramtres acoustiques tudis, Mais son
inconvnient est la dgradation pour les SNR (SNR 5dB) surtout en prsence de bruit blanc et
rose. Pour remdier ce problme, qui prsente un handicap et un frein pour la RAP, nous
proposons un nouveau paramtre acoustique bas sur le paramtre MFPSCC est plus adapt au
bruit et offrant des meilleurs performances en des faible SNR. Nous prsenterons au chapitre 5
les dtails et les diffrentes tapes de dveloppement de notre nouveau paramtre.
35
Chapitre 3 systmes de reconnaissance automatique de la parole
3.1 Introduction
La reconnaissance automatique de la parole est un domaine dtude trs actif depuis le dbut des
annes cinquante. Vu la complexit de cette tache Plusieurs mthodes de reconnaissance ont t
dveloppes, Nous lavons principalement restreint aux mthodes de reconnaissance des mots isols et
nous lavons encore plus particulirement restreint aux mthodes stochastiques. Ces diffrentes
restrictions nous ont dailleurs pouss focaliser le titre sur les modles de Markov cachs (HMM) bien
quil ne soit pas ici le seul sujet de dissertation.
Ce chapitre nous permet de prsenter en dtail les deux grandes techniques de reconnaissance des formes
qui sont utilises en reconnaissance automatique des mots isols : programmation dynamique DTW et les
modles de Markov cachs. Ensuite nous donnons un aperu sur les logiciels de dveloppement de
systmes bases de HMM, plus particulirement sur la plate forme logicielle HTK choisie pour le
dveloppement de notre systme ASR. A la fin de ce chapitre nous survolons les mthodes de
reconnaissance hybrides (HMM/ANN, HMM/SVM..etc.) les plus efficaces dans cette discipline.
Lalignement temporel, plus connu sous lacronyme de DTW, Dynamic Time Warping, est une
mthode fonde sur un principe de comparaison dun signal analyser avec un ensemble de
signaux stocks dans une base de rfrence. Le signal analyser est compar avec chacune des
rfrences et est class en fonction de sa proximit avec une des rfrences stockes. Le DTW est
en fait une application au domaine de la reconnaissance de la parole [74] de la mthode plus
gnrale de la programmation dynamique [77]. Elle peut ainsi tre vue comme un problme de
cheminement dans un graphe [78], [44].
Ce type de mthode pose deux problmes : la taille de la base de rfrence, qui doit tre
importante, et la fonction de calcul des distances, qui doit tre choisie avec soin. La taille de la
base contenant les signaux de rfrence est directement lie aux capacits, variables, de
reconnaissance du systme dalignement temporel. Chacun des signaux de rfrence est en effet
stock dans son tat brut, sans compression daucune sorte. Ce stockage permet de disposer dun
vocabulaire dont la taille correspond au nombre de mots du vocabulaire multipli par le nombre
de locuteurs et le nombre des ventuelles rptitions des mots. Cette base de rfrence permet
deffectuer une mise en correspondance entre le signal stock, dune part, et sa retranscription
36
Chapitre 3 systmes de reconnaissance automatique de la parole
Figure 3.1 : Visualisation du cheminement de lalignement temporel pour des formes de la base
de rfrence.
Comme le montre le schma de la figure 3.1, la forme choisie sera celle pour laquelle le chemin
de mise en correspondance est le plus court, cette taille minimale marquant le peu de diffrences
entre la forme analyser et la forme de rfrence.
Lautre partie importante de lalignement temporel est la dfinition de la fonction de recalage qui
permet de calculer, selon certaines contraintes, la distance entre la forme comparer et la forme
de rfrence. La forme analyser est mise en correspondance dans le plan temporel par
lalgorithme dalignement qui essaie de trouver le plus court chemin dans le graphe ainsi
constitu. Cette fonction de mise en correspondance dfinit une valeur pour chaque arc du graphe,
ces valeurs favorisant laxe mdian qui correspond une parfaite mise en relation de la forme
analyser et dune forme de rfrence comme le montre la figure 3.1.
La fonction de recalage suit typiquement le schma prsent dans la figure 3.2. La fonction d(i,j)
37
Chapitre 3 systmes de reconnaissance automatique de la parole
est la fonction de calcul de la distance entre deux points successifs du graphe. Les valeurs ,
et permettent de dfinir une partie du comportement de la fonction d qui peut tre soit
symtrique ( = ) soit asymtrique ( ). Ce calcul de distance entre deux noeuds successifs
du graphe nest cependant pas suffisant pour calculer la longueur totale du chemin parcouru dans
le graphe. Une fonction supplmentaire, G, calcule une longueur totale qui permettra, aprs le
calcul de cette longueur des chemins sur toutes les formes de la base de rfrence, de savoir
quel mot du vocabulaire prenregistr correspond la forme classer. Dun point de vue
mathmatique, M et N tant les longueurs respectives de la forme classer et de la forme de
rfrence, on cherche sur lensemble du corpus la distance globale minimale D(M,N).
La distance cumule au point (i,j) est obtenue de manire rcursive par la formule suivante :
G (i 1, j ) + d (i, j )
G (i, j ) = min G (i 1, j 1) + d (i, j ) (3.1)
G (i 1, j 2 ) + d (i, j )
38
Chapitre 3 systmes de reconnaissance automatique de la parole
Cette mthode de reconnaissance des formes est, initialement, bien adapte la reconnaissance de
mots isols mais des extensions ont t dveloppes pour permettre de lappliquer la parole
continue [64] et [66].
Dautres mthodes complmentaires ont par ailleurs t dveloppes pour tenter de rduire la
taille de la base des formes de rfrence par slection optimale des formes conserver. Ces
mthodes reposent surtout sur une exploration statistique de la base des formes de rfrence et
permettent dobtenir une caractrisation des diffrents ensembles la constituant, ces ensembles
correspondant aux diffrents symboles rfrencs dans la base. Une des techniques quil est
possible demployer pour ce faire est, par exemple, la mthode des plus proches voisins.
Certaines mthodes permettent de rduire ce temps de calcul lutilisation par apprentissage a
39
Chapitre 3 systmes de reconnaissance automatique de la parole
3.3.1 Dfinitions
Un modle de Markov est un automate probabiliste d'tats finis constitu de N tats.
Un processus alatoire se dplace d'tat en tat chaque instant, et on note qt le numro de l'tat
atteint par le processus l'instant t. L'tat rel qt du processus n'est pas directement observable
on dit qu'il est cach mais le processus met aprs chaque changement d'tat un symbole
discret ot qui appartient un alphabet fini de nv symboles V = {vk } , 1 k nv . Dans le cas
d'un processus markovien du premier ordre, la probabilit de passer de l'tat i l'tat j l'instant t
et d'mettre le symbole vk ne dpend ni du temps, ni des tats aux instants prcdents. Un
S = {si } , 1 i N l'ensemble des N tats, en sachant que le processus part de l'tat initial s1
l'instant t=0 et arrive l'tat final s N l'instant t=T
{ }
A = aij 1 i , j N l'ensemble des probabilits de transition entre les tats i et j :
Des variantes existent cependant. La probabilit d'mission est parfois note bij (k ) dans le cas o
La ralisation par la machine d'un processus markovien de dure T est dcrite par :
40
Chapitre 3 systmes de reconnaissance automatique de la parole
Q = (q1 qT ) un chemin a priori cach parmi les N tats; on pose de plus par convention
q0 = 1 puisque tous les processus partent de l'tat initial l'instant t = 0, et on impose l'arrive
l'tat final par qT = N .
L'valuation de la probabilit que la suite des observations ait t mise par un modle. Lorsque
plusieurs modles existent, cette valuation permet le choix du modle le plus probable.
3.3.2.2 Le dcodage
La recherche de la squence d'tats d'un modle ayant produit les observations. La squence
cache de plus forte probabilit est dtermine par l'algorithme de Viterbi.
3.3.2.3 Lapprentissage
L'apprentissage des paramtres d'un modle. A partir d'un modle donn a priori et
d'observations supposes mises par ce modle, on cherche les probabilits de transition et
d'mission maximisant la vraisemblance des observations.
La solution au problme de lvaluation de la vraisemblance nous donne un moyen de mesurer
ladquation dune squence dobservation un modle. Ainsi nous pouvons dcider du meilleur
modle selon la rgle de bayes, Rsoudre le problme du dcodage permettra de segmenter les
squences par la recherche de la squence dtats de vraisemblance maximale. Enfin,
lapprentissage doit permettre dadapter automatiquement un HMM un ensemble de donnes
particulier.
41
Chapitre 3 systmes de reconnaissance automatique de la parole
Le problme de lestimation des probabilits peut tre nonc de la faon suivante : tant donn
un modle de Markov M, comment calculer la probabilit P(O / M ) quil gnre la squence de
dobservation O ?
On considre la squence dtat Q
Q = q1 qT (3.8)
o q1 est ltat initial, la probabilit de la squence dobservation O pour une squence dtat Q
est :
T
P(O Q, ) = P(Ot qt , ) (3.9)
t =1
On considre que les observations sont statistiquement indpendantes, cela nous donne :
P(O Q, ) = bq (O1 ) bq (O2 )bq (OT )
1 2
(3.10) T
P(Q ) = q aq q aq
1 1 2 q
T 1 T
(3.11)
La probabilit jointe de O et Q, est la probabilit de la production de O et Q simultanment, elle
peut tre dcompos simplement en deux termes :
P(O Q, ) = P(O Q, ) P(Q, ) (3.12)
La probabilit de O est obtenu par la somme des probabilit jointe par rapport tous les tat
possible de la squence Q donne
Le calcule de P(O ) , donne par la dfinition directe, ncessite trop de calcul , pour cela il
existe une procdure rcurrente de calcul de cette probabilit que nous nous proposons de dcrire,
cest lalgorithme Forward-Backward qui fournit un solution exacte ce problme faisant
intervenir tous les chemins dans le modle HMM.
a) Algorithme forward :
On dfinir la variable comme suit :
t(i) = P(O1 O2 Ot , qt = Si ) (3.15)
42
Chapitre 3 systmes de reconnaissance automatique de la parole
Pour t de 1 T
Pour j de 1 N
N
t +1 ( j ) = t +1 ( j )aij b j (Ot +1 ), 1 i T-1 1 j N (3.17)
i =1
pour arriver finalement, ltat final linstant T
N
P(O ) = T (i ) (3.18)
i =1
S1 a1 j
S2 Sj
.
.
t +1
S N a Nj t +1 ( j )
Cette mthode est une formulation simple de lexploration de la matrice temps / tats sous la
contrainte des transitions autorises entre tats.
Lestimation direct est suffisante pour obtenir la probabilit dfinie par toutefois lapprentissage
des modle sera facilit par (3.7) lintroduction de la probabilit rtrograde.
b) Algorithme backward
Cette dernire est dfinie comme la probabilit que les trames suivant Ot aient t mises sachant
Le calcul de est opr par une rcurrence sur le temps en partant de l tat final F au temps T :
Initialement
43
Chapitre 3 systmes de reconnaissance automatique de la parole
T (i ) = 1 , 1 i N (3.20)
Pour t de T 1
Pour i de 1 N
N
t 1 (i ) = aij b j (Ot ) t ( j ) (3.21)
j =1
Pour arriver finalement, ltat initial au temps 1 :
P(O, ) = 0 (1) (3.22)
ai1 S1
S2
.
.
Sj
t aiN S
N
t (i )
Figure 3.5 Illustration de lutilisation des rcurrences backward pour le calcule de t(i).
Cette probabilit est utilise lors de lapprentissage des modles par lalgorithme de Baum
Welch. Ces variables permettent lestimation de la vraisemblance de la squence sur le modle en
tenant compte de lensemble des chemins.
44
Chapitre 3 systmes de reconnaissance automatique de la parole
La variable t(i) est dfinie comme la probabilit maximale que les observations observes
jusqu' l'instant t aient t mises par le modle en suivant un chemin qui arrive l'tat
d'indice i:
t (i ) = max P(O1 Ot , q1 qt 1 qt = i ) (3.24)
q1 q t 1
Alors une rcurrence similaire celle suivie pour le calcul de la probabilit d'mission s'applique,
laquelle s'ajoute la mmorisation du meilleur chemin:
Le processus est initialement dans l'tat d'indice 1:
Pour t de T 1
Pour i de 1 N
[ ]
t ( j ) = max t 1aij b j (Ot ) , 2 t T 1 j N
1 i N
(3.27)
arrive du processus dans ltat final :
P = max [ T (i )] (3.28)
1 i N
qT = max [ T (i )] (3.29)
1 i N
La probabilit d'mission sur le meilleur chemin peut tre utilise pour la reconnaissance comme
une approximation de la probabilit d'mission par le modle; mais cette mthode de rsolution
est sous-optimale puisqu'elle nglige les chemins de plus faible probabilit.
Le but de lentranement dun HMM est de trouver lensemble des paramtres maximisant sur
lensemble des donnes dentranements O j la vraisemblance des donnes tant donn les
45
Chapitre 3 systmes de reconnaissance automatique de la parole
( )
J
arg max P O j M j , j (3.30)
j =1
L'entranement des modles est effectu partir de l'estimation de P(O M ) en tenant compte de
tous les chemins possibles. La r-estimation des paramtres du modle xx est bas sur le
comptage du nombre moyen de transitions observes entre les tats i et j. la probabilit wij de
suivre cette transition linstant t peut sexprimer au moyen des variables discrtes et rtrogrades
introduites aux paragraphes prcdents
t 1aij b j (Ot )t ( j )
wt (i, j ) = P(qt 1 = i, qt = j O, ) = (3.31)
P(O )
le nombre moyen de transition entre i et j est donc :
T
ij = wt (i, j ) (3.32)
t =1
et la probabilit de transition est r-estime par :
ij
aij = N
(3.33)
ik
k =1
Lestimation de la probabilit dmission associe un tat ncessite le dcompte des
observations correspondant chaque catgorie de symbole :
1 T
bj = wt ( j ), 1 k nv (3.34)
j t =1
avec
t ( j )t ( j )
wt ( j ) = P(qt = j O, ) = (3.35)
P(O )
T
et j = wt ( j ) (3.36)
t =1
46
Chapitre 3 systmes de reconnaissance automatique de la parole
continues dans l'espace de reprsentation. Cette solution vite les distorsions introduites par la
QV, mais pose le problme du choix des densits de probabilit et de la robustesse de leur
estimation. L'utilisation d'une combinaison linaire de gaussiennes dans l'espace Rd est frquente:
G
b j (O ) = g k N (O, k , k ) (3.37)
k =1
o k et k sont respectivement la moyenne et la matrice de covariance de la gaussienne, et
g k la pondration qui lui est affecte. Nous rappelons que la densit de probabilit d'une loi
normale de moyenne et de matrice de covariance en dimension d est:
1
1 (O )' 1 (O )
N (O, k , k ) = d 1
e 2 (3.38)
(2 ) []
2 2
La r-estimation des probabilits d'mission est diffrente pour des modles continus. Nous
dtaillons le cas de densits de probabilit continues reprsentes par une gaussienne multi-
dimensionnelle, mais ces formules peuvent tre gnralises au cas de multi-gaussiennes. Le
vecteur de moyenne et la matrice de covariance de la densit de probabilit associe l'tat i sont
recalculs comme:
1 T
i = wt (i )Ot (3.39)
i t =1
et
i =
1 T
{
wt (i )(Ot )(Ot )
i t =1
} (3.40)
47
Chapitre 3 systmes de reconnaissance automatique de la parole
Aprs une analyse des caractristiques de chacun de ces logiciels, notre choix sest finalement
port sur la plate-forme logicielle HTK (Hidden Markov Model Toolkit). elle a t dveloppe
l'Universit de Cambridge par S.J. Young et son quipe. Elle est constitue d'un ensemble d'outils
logiciels qui permettent de construire des systmes de reconnaissance de la parole continue base
de modles de Markov cachs.
Date de la
1993 1987 1997 1992
premire version
Disponibilit du
Sous licence Sous licence Domaine publique Sous licence
source
Tableau 3.1 Quelques caractristiques des logiciels libres de dveloppement de systmes de
reconnaissance de parole base des HMM.
Contrairement aux autres logiciels figurant dans le tableau 3.1, HTK a connu une priode de
commercialisation. De ce fait, HTK est pass par les diffrents cycles de perfectionnement
ncessaires au logiciel commercial. Il est par consquent plus document, plus convivial et plus
souple que les autres logiciels.
HTK est remarquable par la trs grande libert de choix laisse tout au long de la construction du
systme de reconnaissance. Les modles peuvent reprsenter des mots ou tout type d'unit sub-
lexicale, et leur topologie est librement configurable. Les densits de probabilit d'mission, qui
sont associes aux tats, sont dcrites par des multi-gaussiennes.
Les modles sont initialiss avec l'algorithme de Viterbi, puis r-estims par l'algorithme optimal
de Baum-Welch. Le dcodage est ralis par l'algorithme de Viterbi, sous la contrainte d'un
rseau syntaxique dfini par l'utilisateur, et le rsultat est enfin valu par alignement dynamique
avec la chane phontique ou lexicale de rfrence.
48
Chapitre 3 systmes de reconnaissance automatique de la parole
L'ensemble de ces outils est crit en langage C, et la documentation dtaille leur utilisation et les
principes de leur implmentation, ce qui permet d'intgrer de manire efficace les modifications
souhaites dans le systme de reconnaissance. De plus, HTK est un systme largement rpandu
dans le monde de la recherche; en 1992, ses concepteurs revendiquaient dj plus d'une centaine
d'utilisateurs.
Les outils de base manipulent des fichiers de diffrents types: signaux, tiquettes, paramtres,
description des modles, dfinition de rseaux. Les formats des fichiers de signaux et d'tiquettes
des bases de donnes les plus rpandues sont reconnus. Les autres fichiers sont dans un format
particulier HTK, dcrit dans le manuel de rfrence. En particulier, les modles et les rseaux
sont dfinis dans des fichiers texte, ce qui facilite leur cration et leur modification par
l'utilisateur. Les options d'utilisation des outils sont transmises en argument sur la ligne de
commande, ce qui facilite la tache lautomation des processus d'apprentissage et de dcodage
avec des scripts crits dans le langage de commande du systme d'exploitation.
49
Chapitre 3 systmes de reconnaissance automatique de la parole
HLED HSLAB
HLSTATS HCOPY
HLIST Prparation des donnes
HQUANT
Transcriptions Speech
HDMAN HMM
Dictionar
y Phase de Test
HVITE
Networks
Transcriptions
Les rseaux de neurones (RN) constituent un domaine de recherche trs intressant et sont trs
couramment utiliss lorsque l'on parle de classification. Ils ont t notamment appliqus des
problmes tels que: la reconnaissance de visage, le contrle de robot, la reconnaissance de la
parole, l'identification du locuteur etc.
Les RN ralisent un traitement d'informations distribu et sont composs d'units de calcul
primitives (les neurones formels) fonctionnant en parallle et relies entre elles par des
connexions. Un neurone formel reoit un nombre variable d'entres en provenance de neurones
en amont. A chacune de ces entres est associ un poids reprsentant la force de la connexion. Il
est aussi dot d'une sortie unique qui se ramifie ensuite pour alimenter les neurones en aval. Le
principe de fonctionnement du neurone est simple, il calcule la somme pondre de ses entres et
50
Chapitre 3 systmes de reconnaissance automatique de la parole
passe cette valeur une fonction d'activation qui dtermine l'excitation de ce neurone. La figure
n
3.7 illustre l'architecture d'un neurone formel. La sortie du neurone y = F wi xi dpend de la
i =1
fonction d'activation choisie: fonction seuil, linaire par morceaux, sigmode, gaussienne etc.
X1
w1 Y1
Xi F
wi
Xn wn
Dans un rseau, la connaissance se trouve dans la topologie mme du rseau et dans les poids des
connexions. L'apprentissage d'un RN est ralis l'aide de mthodes d'apprentissage automatique
utilisant la descente du gradient de l'erreur et se fait par modification des poids des connexions du
rseau en fonction des donnes d'apprentissage. Aucune hypothse sur la distribution des donnes
n'est ncessaire.
Enfin, les RN ont de nombreuses proprits trs intressantes telles que leur robustesse au bruit,
leur flexibilit et leur capacit importante de gnralisation. Nous allons prsenter rapidement le
rseau de neurones le plus souvent utilis dans le domaine de la reconnaissance
Automatique de la parole: le perceptron multi-couches (PMC).
Le perceptron Multi-Couches est issu des travaux de F. Rosenblatt sur le perceptron monocouche
[76]. Un PMC est un rseau dont les neurones sont disposs en plusieurs couches successives et
o chaque neurone d'une couche est connect tous les neurones de la couche suivante et de la
couche prcdente mais pas aux neurones de la mme couche.
Le PMC est un rseau passe-avant (feed-forward), c'est--dire que les informations ou activations
ne vont circuler que dans un seul sens, des neurones de la couche d'entre vers les neurones de la
couche de sortie (Figure 3.8).
51
Chapitre 3 systmes de reconnaissance automatique de la parole
Une couche cache dans un PMC correspond une couche qui n'est ni la couche d'entre, ni celle
de sortie. De plus, un PMC peut avoir autant de couches caches que dsires mais il a t montr
[59] que quelque soit le nombre de couches caches dans un PMC, il existe un PMC quivalent
avec une seule couche cache. Cette couche cache permet de modliser des fonctions de
dcisions complexes et non linaires entre n'importe quels espaces d'entre et de sortie.
L'apprentissage des PMC se fait par rtropropagation du gradient de l'erreur [62]. Le principe est
d'adapter les diffrents poids des connexions en propageant l'erreur commise en sortie du rseau.
Les SVM, introduites par Vapnik et ses collgues [51] comme une nouvelle classe d'algorithmes
d'apprentissage, constituent une application directe du principe inductif de minimisation
structurel du risque [63]. Elles sont utilises dans les trois problmes classiques en apprentissage
(rgression, estimation de densit et discrimination). Ces diffrents algorithmes se caractrisent
par le choix de maximiser les capacits en gnralisation d'une fonction de discrimination f en
minimisant une borne suprieure sur le risque. Le risque est l'erreur en gnralisation de la
fonction de discrimination f et correspondant la probabilit que le rsultat de f soit erron. La
borne suprieure sur le risque est ce que l'on appelle le risque garanti.
Dans le cadre de la discrimination, la SVM, l'instar d'un perceptron, tente de sparer
linairement les donnes. Cependant, dans l'espace o elles se trouvent, les donnes ne sont
gnralement pas linairement sparables. Dans ce cas, il devient utile d'effectuer un pr-
traitement sur les donnes avant de les sparer avec des hyperplans. Ainsi, dans l'exemple
reprsent sur la figure 3.9, on peut pr-traiter les points de R2, en les projetant sur la surface d'un
52
Chapitre 3 systmes de reconnaissance automatique de la parole
parabolode bien choisi. D'une manire gnrale, on projette les donnes, l'aide d'une fonction
dans un espace de plus grande dimension, appel "espace de reprsentation", o l'on espre
qu'elles seront linairement sparables. On parle alors de SVM linaire lorsque cette application
correspond la fonction identit, i.e. lorsqu'elle ne renvoie pas les donnes dans un nouvel
espace de reprsentation, et de SVM non linaire dans le cas contraire.
Figure. 3.9 (a) donnes non linairement sparables. (b) Pr-traitement des donnes, choix d'une
transformation (projection sur un parabolode) rendant les donnes linairement sparables.
Enfin, les SVM ont t dvelopps initialement dans le cadre d'une classification bi-classes, mais
des extensions multi-classes ont t proposs, comme la M-SVM [12] Les SVMs ont rcemment
t introduites en reconnaissance de la parole et ont donn des rsultats prometteurs [13], [14].
Les HMMs sont largement utiliss dans le domaine de la parole, plus particulirement en
reconnaissance de la parole. Mais ils prsentent aussi quelques limitations comme le besoin de
faire des hypothses simplificatrices pour leur fonctionnement qui entrane une limitation de leur
gnralit. De plus, leur apprentissage n'est en gnral pas discriminant.
La combinaison des HMMs avec des mthodes discriminantes semble intressante et a t utilise
avec succs en reconnaissance de la parole et en discrimination parole/bruit [22], [32]. Deux
associations sont souvent utilises: HMM-RN et HMM-SVM.
Dans cette approche hybride, le rseau de neurones (la plupart du temps un PMC) se situe en aval
53
Chapitre 3 systmes de reconnaissance automatique de la parole
d'un HMM et est utilis comme estimateur de probabilits a posteriori d'appartenance une
classe. En effet, il a t dmontr [61], [56] qu'un PMC entran dans des conditions adquates
est quivalent un estimateur de probabilits a posteriori l'appartenance une classe.
Un perceptron peut ainsi apprendre les probabilits a posteriori des classes de phonmes. Ces
probabilits, grce la formule de Bayes, permettent d'obtenir les vraisemblances des
observations qui vont tre utilises la place de celles fou mies par un mlange de gaussiennes
dans un HMM classique.
Une autre faon d'utiliser la sortie du PMC comme entre d'un HMM est illustre par la figure
3.10 Ce systme est celui de [22].
Des coefficients cepstreux (PLP) sont extraits tous les 16ms. Un PMC reoit ces coefficients en
entre et donne en sortie des probabilits a posteriori pour les diffrentes classes de phonmes.
Les probabilits a posteriori des classes de phonmes sont ensuite analyses selon leur "entropie"
et "dynamisme" pour finalement arriver en entre du classifieur HMM qui effectuera la
segmentation (les probabilits d'mission du HMM ont t estimes en utilisant soit un GMM,
soit un deuxime PMC).
L'hybridation HMM/PMC donnant de bons rsultats, il est donc normal de vouloir coupler les
HMMs avec d'autres mthodes discriminantes telles les SVM Contrairement aux PMC qui
estiment des distributions de probabilit, les SVM estiment directement, partir des donnes
d'apprentissage, des surfaces de dcision. Diffrentes mthodes ont t proposes pour convertir
la distance d'une observation inconnue une surface de dcision fournie par une SVM en
probabilits a posteriori exploitables par un HMM une de ces implantations a consist entraner
une SVM sur des donnes segmentales, en transformant les informations de distance fournie par
une SVM en estimation de probabilits a posteriori pour les HMMs [32]. Utilise notamment en
54
Chapitre 3 systmes de reconnaissance automatique de la parole
55
facteur
dchelle
frquences
petit
facteur dchelle
grand
temps
Figure 4.1 Boite de Heisenberg correspondant au pavage du plan temps/frquence de la
transforme en ondelettes des chelles diffrentes. Une chelle plus petite rduit ltalement en
temps mais augmente la taille du support frquentiel.
56
Chapitre 4 application des ondelettes au signal la parole
57
Chapitre 4 application des ondelettes au signal la parole
temps
temps
4.1.2 Dfinitions
Nous avons vu quune alternative, pour dpasser les limitations de la transforme de Fourier
fentre, se trouve tre lutilisation de la transforme en ondelettes. Nous pouvons prsent dfinir
ce quest une ondelettes [29] et comment une transforme en ondelettes du signal.
Et nergie finie :
+ 2
(t ) dt % + (4.3)
58
Chapitre 4 application des ondelettes au signal la parole
1 t u
u,s(t) = avec s + (4.4)
s s
peut tre relle ou analytique complexe. Selon les applications, on peut choisir lune ou lautre.
Pour notre part, nous avons opt pour une ondelette relle. Nous allons maintenant dfinir la
transforme en ondelettes.
f(t) avec londelette u,s correspondante. Ceci nous donne la dfinition suivante de la
transforme en ondelettes :
+ 1 t u
Wf (u , s ) = f , u , s = f (t ) dt (4.5)
s s
o
W est linitiale de Wavelet qui signifie ondelette en anglais,
59
Chapitre 4 application des ondelettes au signal la parole
1 + + 1 t u ds
x(t ) = W x (u , s ) du (4.7)
C 0 s s s2
et
+ 2 1
+ + 2 ds
x(t ) dt = C 0 W x (u, s ) du 2 (4.8)
s
La condition
2
+ ( )
C = 0
d % + (4.9)
Du thorme prcdent sappelle la condition dadmissibilit de londelette. Pour que lintgrale
soit finie, il faut sassurer que (0) = 0 , ce qui explique pourquoi les ondelettes doivent tre de
moyenne nulle. Cette condition est presque suffisante. Si (0) = 0 avec ( ) continment
diffrentiable, la condition dadmissibilit est alors satisfaite. On vrifie assez facilement que
( ) est continment diffrentiable si dcrot assez vite linfini. Cest pourquoi on choisit
aussi des ondelettes dcroissance rapide. Enfin, la dernire quation du thorme dmontre la
conservation de lnergie entre le domaine temporel et le domaine des ondelettes.
Le signal de parole est continu mais nous travaillons sur un signal discret f [n] = f (n) (de taille
N). Nous utiliserons donc la version discrte de la transforme en ondelettes. La transforme en
[ [
intermdiaires pour chaque octave 2 j ,2 j +1 . De plus, la transforme en ondelettes de f ne
pourra tre calcule que pour les chelles :
1
% s %1 (4.10)
N
4.1.3 La transforme en ondelettes discrte utilise pour le dbruitage de la parole
Le traitement du signal bas sur les ondelettes a t utilis avec succs pour des problmes trs
varis, comme la reconnaissance de la parole [30], [17], le dbruitage de la parole [25], la
classification audio [24], [10] et la compression dimage [31],etc.
Lutilisation des ondelettes permet de faire une analyse multi-rsolution du signal. Nous verrons
60
Chapitre 4 application des ondelettes au signal la parole
N
2 ai , on dfinit une ondelette discrte dilate par a i :
k
1 n
j (n ) = (4.11)
aj aj
frquences
temps
Elle a KNa j valeur non nulles sur [ N 2 , N 2] . Lchelle a j doit tre suprieur 2 pour que
le pas dchantillonnage soit plus petit que le support de londelette. Afin dviter des problmes
de bords, f [n] et [n] sont trait comme des signaux de priode N.
La transforme en ondelettes discrte peut alors scrire comme une convolution circulaire avec
j [n] = j [ n ] (4.12)
[ ] N 1
Wf n, a j = f [m] j [m n ] = f j [n]
m=0
(4.13)
61
Chapitre 4 application des ondelettes au signal la parole
Si nous prenons le cas ou lchelle est dcoupe selon une suite dyadique 2 j { } j , c'est--dire
[ ] N 1
Wf n,2 j = f [m] 2 [m n ] = f 2 [n ]
m =0
j j (4.14)
avec
1 n
2 (n ) =
j (4.15)
2j 2j
La figure 4.5 montre la dcomposition temps/frquence du signal en utilisant la transforme en
ondelettes dyadique. La transforme dyadique de f ne peut pas tre calcule que pour des
1
chelles 1 2j la valeur absolue de j sera utilise par la suite pour reprsenter les
N
diffrentes chelles dans lanalyse multi-resolution ainsi que les diffrentes bandes de frquence.
Lutilisation de la transforme en ondelettes dyadique nous permet dobtenir une partition
dyadique du plan temps/frquence de telle sorte que les basses frquences sont reprsentes avec
une haute rsolution frquentielle et une faible rsolution temporelle alors que les hautes
frquences sont reprsentes avec une haute rsolution temporelle et une faible rsolution
frquentielle (figure 4.4). La rsolution temporelle est inversement proportionnelle la rsolution
frquentielle cause du principe dincertitude dHeisenberg. Cette partition permet davoir une
rsolution frquentielle qui se rapproche de celle de loreille humaine, analyse fine des basses
frquences et qui diminue de manire logarithmique lorsque lon montre en frquence (figure
4.5). Cest une approximation de lchelle Mel, trs utilise en reconnaissance de la parole et
notamment avec les MFCC.
62
Chapitre 4 application des ondelettes au signal la parole
frquences
0 0,5 1 2 4 8 KHz
figure 4.5 Rsolution frquentielle obtenue laide de la dcomposition en ondelettes dyadique.
(Arbre de dcomposition dyadique avec 5 niveaux de dcomposition).
a j (k ) (sortie du filtre passe bas) et en coefficients de dtails j (k ) (la sortie du filtre passe haut
(H)).
Les coefficients dapproximation correspondent des moyennes locales du signal tandis que les
coefficients de dtails, aussi appels coefficients dondelettes, dpeignent les diffrences entre
deux moyennes locales successives, c'est--dire entre deux approximations successives du signal.
63
Chapitre 4 application des ondelettes au signal la parole
Sous chantillonnage a1 (k )
G 2
a1 (k )
G 2
s (k ) 1 (k )
filtre passe bas H 2
1 (k )
H 2
filtre passe haut
Dune manire plus image, les coefficients dapproximation donnent une reprsentation lisse
du signal et les coefficients dondelettes (de dtails) nous donnent les dtails (le bruit) qui ont t
supprims lors du lissage. Il est tout fait possible de reconstruire le signal de dpart partir de
ces coefficients dapproximation et de dtails.
Lors de notre tude, nous nous somme limits trois familles dondelettes bien connues en
traitement du signal : les ondelettes de Daubechies, les Symlets et les Coeflets. Ces ondelettes
sont toutes admissibles, selon le thorme1, car de moyenne nulle et dcroissance rapide.
De plus elles ont dj t tudi en reconnaissance de la parole et ont donn de bons rsultats
[23], [26]. Enfin, elles ont toutes la proprit davoir un support minimum pour un nombre de
moments nuls donn. Avant daller plus loin, dfinissons les deux caractristiques que nous
venons de citer : le nombre de moments nuls et la taille du support dune ondelette. Ces deux
caractristiques importantes sont gnralement prises en compte dans le choix dune ondelette.
a) Les moments nuls
Le nombre de moments nuls dune ondelette sexprime de la manire suivante :
+ k
t (t )dt = 0 pour 0k % p (4.16)
64
Chapitre 4 application des ondelettes au signal la parole
Si une ondelette vrifie cette quation alors on dit que londelette a p moments nuls. Cela
signifie que est orthogonale tout polynme de degr p 1 . Lintrt davoir p moments
nuls est dobtenir des coefficients dondelettes j proches de 0 au chelles fines 2 j (lorsque 2 j
tend vers 0). En effet, si f (t ) est localement de classe C k alors f (t ) est localement bien
b) Taille du support
Si f (t ) a une singularit isole en t0 , et si t0 est dans le support de londelette j , alors la
transforme en ondelette aux fines chelles : lorsque lchelle s tend vers 0, il y aura k
ondelettes aura des coefficients dondelettes de fortes amplitude autour de t0 . Si londelettes a
un support de taille k , alors haute rsolution, c'est--dire aux fines chelles : alors lchelle s
tend vers 0 il y aura k ondelettes j dont le support contiendra t0 . Lide est de minimiser la
doit donc faire un compromis entre la taille du support et le nombre de moments nuls. Si f (t ) a
peu de singularits isoles, et est trs rgulier entre ces singularits, il est plus appropri de
choisir une ondelette ayant de nombreux moments nuls afin dobtenir un grand nombre de
coefficients dondelettes de petite amplitude. Lorsque la densit de singularits augmente, il vaut
65
Chapitre 4 application des ondelettes au signal la parole
mieux diminuer la taille du support, quitte avoir moins de moments nuls. En effet, les ondelettes
dont le support passe par une singularit donnent des coefficients de grande amplitude.
Pour le choix des ondelettes, il faut aussi noter quen utilisant la transforme en ondelettes
discrte, nous nous restreignons nutiliser que des ondelettes filtres. En effet, seules les
ondelettes filtres pouvant tre utilises avec la transforme discrte, alors que dans le cas
continu nimporte quelle fonction dintgrale nulle convient. Ainsi, les ondelettes utilises sont
dfinies directement par leurs filtres associs (filtre passe-bas et passe-haut). En fait londelette
nest pas toujours directement accessible, c'est--dire quaucune formule analytique ne la dfinit,
comme par exemple londelette dfinie implicitement, en utilisant un algorithme dduit de
lalgorithme de reconstruction de Mallat [29]. Les filtres correspondant aux ondelettes que nous
utilisons ont t construits laide du logiciel Matlab. La figure 4.7 reprsente la rponse
impulsionnelle des filtres associs londelette de Daubichies dB4. Nous prsentons maintenant
plus en dtails les trois familles dondelettes choisies.
Figure 4.7 reprsentation en module dans le domaine des frquences des effets des filtres
danalyse passe-haut ( gauche) et passe-bas ( droite) associ londelette db4.
66
Chapitre 4 application des ondelettes au signal la parole
Figure 4.8 Exemple de Daubechies : de gauche droite nous avons db2, db4 et db8
Figure 4.9 Exemple de Symlets : de gauche droite nous avons sym2, sym4 et sym8
67
Chapitre 4 application des ondelettes au signal la parole
rside dans le fait que si nous analysons une fonction f assez rgulire, alors les coefficients
d'approximation (pour un nombre de niveaux de dcomposition assez grand) correspondent
l'chantillonnage de f.
Figure 4.10 Exemple de Symlets : de gauche droite nous avons coif2, coif3 et coif5
68
Chapitre 4 application des ondelettes au signal la parole
1 N 1 j
f j = log10
N j k
k
J
( ) 2
= 0
1 N 1 j
f j = log10
J
N j k =0
( )
k kj1kj+1
(4.17)
1 (N + N ) 2 j
f j = log10
j
N j k = (N
k
J
( ) 2
(4.18)
N ) 2j J
J correspond la bande la plus basse.
Le choix de ce sapplique par le fait que les coefficients dondelettes ont une rsolution
temporelle plus fine dans les hautes frquences. Ils recouvrent des intervalles de temps de plus en
plus petits lorsque lon monte en frquence alors que lorsque lon descend dans les basses
frquences les coefficients dondelettes vont recouvrir des zones temporelles de plus en plus
grandes. Le nombre de coefficients donc diffrent dune bande lautre, un grand nombre dans
les hautes frquences et un petit nombre dans les basses frquences. La technique de rsolution
temporelle hirarchique extrait les caractristiques concentres au centre de la fentre danalyse,
en prenant le mme nombre de coefficients pour toutes les bandes.
69
Chapitre 4 application des ondelettes au signal la parole
70
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
5.1 Introduction
La robustesse au bruit est un problme trs difficile auquel sont confronts les systmes de
reconnaissance de la parole dans les applications concrtes. Plusieurs techniques [36] ont t
proposes pour amliorer les performances de la reconnaissance en prsence de disparit entre les
conditions d'apprentissage et celles de l'application. Ces techniques peuvent tre classifies en
deux catgories : celles fondes sur le pr-traitement du signal de la parole (RASTA [53] ou
amlioration de l'intelligibilit [37] par exemple) et les techniques de compensation. Dans ces
dernires, des modles acoustiques initiaux (gnralement les modles de parole propre) sont
transforms pour reprsenter le nouvel environnement.
Dans notre approche nous considrons que les donnes de parole ont t enregistres dans
diffrentes conditions de bruit. Nous dveloppons ensuite larchitecture de notre nouveau
paramtre propos (PNRF : Proposed Noise Robust Feature), qui est issu des tudes psycho-
acoustique en relation avec la perception de loreille humaine, et qui dpend du module ainsi que
de la phase du spectre du signal. Le principe de cette nouvelle paramtrisation acoustique est de
proposer une phase prliminaire de pr-traitement dans le but damliorer le signal parole par un
dbruitage adaptatif pour une tache de reconnaissance, et cela par dcomposition du signal parole
en bandes critiques par paquet dondelettes perceptuelles suivi par un seuillage adaptatif propos.
Ce chapitre est organis de la faon suivante. Dans la prochaine section, nous commenons par
dvelopper l'architecture gnrale de notre nouveau paramtre acoustique. Et nous dfinissons les
diffrentes tapes que nous utilisons dans ce dveloppement. Dans la section 3, nous posons le
cadre exprimental pour nos valuations, nous dcrivons la base de donnes vocale, la base de
bruit noisex-92 et le systme de reconnaissance markovien de rfrence. La quatrime section de
ce chapitre est consacre aux rsultats et leur analyse.
71
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
Signal parole
Fentrage du signal
L=275 , S=110
72
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
Dans la figure 5.1 du bloc diagramme de lalgorithme de paramtrisation robuste du signal parole.
Le signal dentre est chantillonn une frquence Fs = 11025Hz . Une segmentation en trames
est effectue toutes les 10 ms pour permettre de dcouper le flot de parole continue en fentre de
25 ms soit de langueur L = 275 chantillons, dans lesquelles le signal est suppos quasi-
stationnaire, le recouvrement entre deux fentre successives est de 10 ms ( L = 110 chantillons).
Lapplication dune fentre classique (Hamming, Hanning,..etc.) nest pas ncessaire avant la
phase de dcomposition en dondelettes.
j=3 (3,0) (3,1) (3,2) (3,3) (3,4) (3,5) (3,6) (3,7) 0.6890
. (a)
j = 5 (5,0) (5,1) (5,2) (5,3) (5,4) (5,5) (5,6) (5,7)
. . . . . . . . (5,28) (5,29)(5,30) (5,31) 0.1722
; ; ; ; ; ; (b); ; ; ; ; ;
(kHz)
Figure 5.2 (a) structure de larbre WP. (b) correspondance de chaque bande (les bandes sont de largeurs
identiques)
73
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
Index des Bandes Centre de la bande (Hz) Index des Bandes Centre de la bande (Hz)
frquentielles frquentielles
1 86 17 2838
2 258 18 3010
3 430 19 3182
4 602 20 3354
5 774 21 3526
6 946 22 3698
7 1118 23 3870
8 1290 24 4042
9 1462 25 4214
10 1634 26 4386
11 1806 27 4558
12 1978 28 4730
13 2150 29 4902
14 2322 30 5074
15 2494 31 5246
16 2666 32 5418
Tableau 5.1 : Description spectrale des sous bandes frquentielles (toutes les bandes sont de
largeurs identiques 172 Hz)
Pour cet effet nous avons propos deffectu une dcomposition du signal parole en arbre
perceptuel (PWPT : Perceptual Wavelet Packet Tree) comme il a t dcrit dans ([19] par
Pinter), (srinivasan et Jamieson dans [83]) et (carneno et drygajlo dans [82]), cette arbre est plus
adapte au systme auditif, qui se comporte comme un banc de filtres passe-bande [43]. Les
largeurs de bande de ces filtres, appele bandes critiques se rapprochent d'chelles issues d'tudes
sur la perception sonore (chelle Bark) et sur les bandes passantes critiques de l'oreille.
Une bande critique correspond l'cart frquentiel minimal pour que deux harmoniques d'un son
soient discrimins perceptivement.
La dcomposition en PWPT a t lobjet de plusieurs tudes rcentes, elle est largement
applique pour lamlioration de la parole dans le milieu bruit [5], [6], [8], [15], [16], [35], ainsi
que pour la reconnaissance robuste de la parole [1], [2], [7], [19], [20].
Les coefficients de la dcomposition par PWP sont obtenus partir de 17 sous bandes critiques,
qui sont gnralement considrs comme suffisantes pour les expriences de reconnaissance de la
parole et du locuteur.
74
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
La dcomposition par PWP a un intrt majeur par rapport la dcomposition par WP, on peut
citer quelques avantages :
Les coefficients obtenus sont plus reprsentatifs et plus pertinents pour la tache de
reconnaissance.
Un nombre de nud rduit par rapport la dcomposition en WP, ce qui nous rapporte un
gain dans les calcules et dans le temps, et rend le systme de reconnaissance plus souple ce
qui permettra dextraire les paramtres acoustiques en temps rel.
Une reprsentation de linformation plus compacte, ce qui nous rapporte un gain
considrable sur lespace mmoire.
j=0 5.5125
(1,0) (1,1)
j=1 2.7562
(2,0) (2,1) (2,2) (2,3)
j=2 1.3781
(3,0) (3,1) (3,2) (3,3) (3,4) (3,5) (3,6) (3,7)
j=3 0.6890
(4,0) (4,1) (4,2) (4,3) (4,4) (4,5) (4,6) (4,7) (4,8) (4,9)
j=5 0.1722
(b)
Frequency (kHz)
Figure 5.3 : (a) structure de larbre PWPT. (b) correspondance de chaque bande critique.
La figure 5.3 prsente les dtails de la dcomposition en PWP, cinq niveaux de dcomposition
sont ncessaires pour la cration de larbre, le dernier niveau de dcomposition contient 17 sous
bandes de largeur diffrentes.
Le tableau 5.2 montre que le nombre de coefficient dans une sous bande varie dun niveau un
autre, il est plus lev pour les niveaux ascendants qui sont moins nergtiques par rapport aux
coefficients descendants.
75
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
Plusieurs tudes ont t faites pour dterminer quelles sont les ondelettes les plus adquates pour
une tche de discrimination parole/bruit, c--d qui modlisent au mieux le signal parole en milieu
prcontraint. Ce choix ne peut tre fait qu'empiriquement. Nous ne pouvons pas prdire, en
regardant ses proprits mathmatiques, si une ondelette est meilleure pour telle ou telle tche. Il
existe de nombreuses familles d'ondelettes. Mais nous nous sommes limits aux ondelettes
utilisables par l'algorithme rapide base de bancs de filtres les ondelettes orthogonales Nous
avons ainsi tudi trois familles d'ondelettes, les plus connues et les plus utilises eu traitement
du signal les ondelettes de Daubechies, les Symlets et les Coiflets que nous avons dcrites au
chapitre prcdent.
Il a t montr dans plusieurs tudes rcentes que les ondelettes de Daubechies sont les plus
recommands pour le dbruitage du signal parole pour la RAP robuste [15], [12], [14] et [7], la
dtection de lactivit vocale en milieu bruit [3], [11] ainsi que pour lamlioration du signal
parole dans le milieu prcontraint [5], [6], [35]. Apres plusieurs essais notre choix est port sur
londelette Daubechies (Db8), quand vas le maintenir pour toutes les expriences.
76
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
Dans la littrature rcente beaucoup de mthodes ont t dveloppes dans le but de dbruit les
signaux contamins par les bruits environnementaux [12], [16], [15], [13], [19]. Le dbruitage par
les ondelettes est ralis par des algorithmes de seuillage, dont leurs coefficients sont infrieurs
dune certaine valeur spcifique, quand lappelle seuil. Dans le domaine des ondelettes, ce terme
signifie la rejection de bruit par un seuillage adquat [84], [85].
Dans cette section nous allons prsenter les techniques de seuillage les plus utilises et nous
introduisant une technique de seuillage plus adapte pour traiter le signal parole.
0 x
H ( x) = (5.1)
x x
: designe le seuil.
x : designe les coefficients dondelettes ( x wij ).
0 x
S ( x) = (5.2)
sign( x)( x ) x
composantes de hautes frquences qui peuvent tre confondue avec le bruit et par consquent
limines durant la procdure de seuillage. Pour remdier a ces problmes nous avons introduit
lalgorithme de seuillage doux modifi, qui est dfini comme suit :
x x
y = Mst ( x) = (5.3)
sgn( x )( x + ( 1)) x
Lide de base du seuillage doux modifi est lintroduction de coefficient dinclinaison , pour
ne pas forcer zro les coefficients dont leurs valeurs absolue est infrieurs au seuil . La
technique de seuillage doux modifi est quivalente au seuillage doux lorsque = 0 . Dans notre
cas = 0,5 .
a) signal original
78
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
n le nombre des chantillons dans une trame du signal parole, et lcart type du bruit estim
par lexpression suivante
median( wij )
= (5.6)
0,6745
79
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
=
1
mad
( )
median w1,1 (5.7)
La constante mad = 0,6745 estime la valeur mdiane de la valeur absolue de lcart type non
cd.
A = cumsum(thres 2 ) (5.8)
cumsum : calcule la somme cumulative le long diffrente dimension.
(
valthr = index _ min 2 2 t ( + log(nc t )) A ) (5.9)
80
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
- La restitution du signal est faite par la transforme inverse en paquet dondelettes ITWP.
- La frquence dchantillonnage est de 11025Hz.
- La fentre de traitement est de 25ms (275 chantillons) avec un pas de traitement de 10ms
(110 chantillons).
Figure 5.5 (a) signal original, (b) signal bruit par le bruit blanc 5dB, (c) signal dbruit par
seuillage dur, (d) signal dbruit par seuillage doux, (e) signal dbruit par seuillage doux
modifi. (dans lensemble de ces exprience nous avons utilis le seuil pnalis).
premire vue on constate que le seuillage dur et doux rejettent radicalement le bruit blanc, mais
en ralit, ils liminent aussi les composantes de hautes frquences qui constituent la majeure
partie du spectre des consonnes et qui sont lessence mme de la reconnaissance automatique de
la parole. Par contre ils affectent moins les basses frquences qui sont plus nergtiques que les
hautes frquences, et constituant les composantes principales des voyelles.
Le seuillage doux modifi (MST: modified soft thresholding) ne rejettes pas les bruit mais les
attnuent, cette attnuation est due lintroduction du coefficient dinclinaison calculer par
lexpression (5.4), ce type de seuillage est fait un bon compromis entre les composantes de hautes
frquences et les bruits.
81
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
A partir du signal restitu nous calculons les paramtres robustes proposs MFPSCC proposs
par D. Zhu and K.K and Paliwal comme ils on dcrit dans la rference [18].
Les coefficients Mfpscc ont t calculs partir des quatre tapes suivantes :
1) Nous calculons le spectre du signal ~
x (n) et de n~
x (n) par la FFT que lon dsigne
respectivement par X (k ) et Y (k ) .
2) Nous calculons ensuite le produit spectral donn par lexpression suivante:
Q (k ) = max ( X R (k )YR (k ) + X I (k )YI (k ), ) (5.13)
o = 10 10 max ( X R (k )YR (k ) + X I (k )YI (k ) ) (5.14)
Dans toutes nos expriences, nous ajoutons les coefficients drivs du premier et du second ordre
ainsi que le logarithme de lnergie obtenu par chaque trame tous les paramtres utiliss dans le
reste de cette thse.
1 N 1 j
E j = log10
N j k
J
k ( )
2
(5.15)
= 0
5.2.8 Coefficients diffrentiels
Les coefficients drivs delta sont obtenus par la formule suivante :
82
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
(c +1 c 1 )
d t = =1
(5.16)
2
2
=1
o d t est le coefficient delta calcul partir des coefficients ct et ct + . La mme formule est
utilise pour le calcul des coefficients dacclrations. Leurs utilisations amliorent les
performances des systmes markoviens de reconnaissance.
Afin de dterminer quel est le paramtre acoustique le plus immunis aux variations
environnementales. Une comparaison graphique a t effectue entre les diffrents paramtres
soumis au bruit blanc de diffrentes intensits. Chaque vecteur de paramtre comporte 12
composantes frquentielles. Les zones les plus sombres reprsentent les vecteurs de paramtres
dont leurs coefficients sont moins nergtiques qui peuvent gnralement tre des segment de
silence (au dbut et la fin de chaque mot) ou des segments de signaux non voiss (consonnes
occlusive, fricative etc.).
83
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
Figure 5.6 Reprsentation graphique des paramtres MFCC, MFPSCC et PNRF_Soft du mot un
en arabe () corrompu par le bruit blanc sous 7 niveaux de SNR.
Comme le cas pour les coefficients MFCC, Mfpscc et PNRF_Soft sont calculs sur une fentre de
25 ms avec un pas de traitement de 10ms, les coefficients cepstraux sont obtenus a partir de la
transforme en cosinus discrte du logarithme des nergies issues de 22 filtres rpartis sur une
chelle de Mel. A partir de la figure ci-dessus on peut constater que la dgradation des paramtres
MFCC en prsence de bruit blanc apparat nettement pour des SNR 10dB , alors que les
coefficients MPSCC et PNRF_soft rsistent mieux des niveau de bruit plus levs.
On peut voir clairement pour des SNR 5dB Les paramtres PNRF_soft sont les plus robustes
et les plus adapts a cette environnement par rapport aux paramtres MFPSCC.
84
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
Toutes nos expriences ont t ralises laide dune base de donnes vocale dveloppe au
niveau du laboratoire dautomatique et des signaux de Annaba (LASA), luniversit badji-
Mokhtar, Annaba. Cette base a t acquise par un microphone mono-phonique reli un
ordinateur. La base contient 90 locuteurs, 46 locuteurs de sexe masculin et 44 autres de sexe
fminins, qui appartiennent tous la mme tranche dage, et dont la majorit sont de la mme
rgion (est dAlgrie). Chaque locuteur a prononc 10 fois chaque chiffre arabe (0 9) dune
manire isole (avec dure du silence importante entre deux locutions successives), cette base au
totale contient 9 000 mots, les enregistrements ont t fait dans des condition moins bonnes (dans
une salle ferme) . Le signal a t chantillonn avec une frquence 11025 Hz et quantifi sur 16
bits.
Nous avons effectu un premier traitement qui consiste enlever les bruits provoqus par le
locuteur lors de la lecture, tel que les bruits dinspirations et dexpirations de laire entre les
locutions, la toux et parfois des lapsus de prononciation.
Dans nos expriences, lapprentissage du systme de reconnaissance est fait dans des conditions
non bruites. Pour mieux valuer nos paramtres acoustiques proposs plusieurs tests ont t
faites lors de la phase dvaluation du systme et dans des conditions environnementales
diffrentes de celle de lapprentissage. Les signaux de parole obtenus sont corrompus par les
bruits extraits du monde rel du corpus Noisex-92 dvelopp par TNO. Quatre types de bruits ont
t slectionns: le bruit blanc, le bruit rose, le bruit industriel (usinage de tle) et le bruit du
cockpit de lavion de chasse F16.
Deux groupes de tests ont t envisags, un groupe de test A, o les locuteurs ont contribus au
deux phases, la phase dapprentissage et la phase des tests. Nous avons pris de chaque 10
locutions de chaque chiffre prononc (0 9) par chaque locuteur (90 locuteurs) 6 locutions pour
servir la phase de lapprentissage et les 4 locutions restantes pour la phase des tests. Ce qui nous
fait 5400 locutions pour lapprentissage en clair et 3600 locutions restantes ont t utilises pour
lvaluation du systme de reconnaissance.
Un groupe de test B, dans ce groupe, les locuteurs qui ont servis la phase dapprentissage nont
pas contribus la phase des tests. Lapprentissage est fait avec les 10 locutions prononces par
85
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
60 locuteurs (31 hommes et 29 femmes) ce qui ne donne un total de 6000 locutions. Les 30
locuteurs restant (15 hommes et 15 femmes) ont servis la phase des tests avec un total de 3000
locutions.
86
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
Dans le systme HMM de rfrence chaque mot est reprsent par un HMM distinct. Dans l'tape
dapprentissage, chaque prononciation est convertie en une squence de vecteur de paramtre
acoustique (MFCC, MFPSCC, etc.) qui constitue une squence d'observation pour l'valuation
des paramtres HMM associs au mot respectif. L'valuation est excute en optimisant la
probabilit des donnes dapprentissage correspondant chaque mot dans le vocabulaire.
Typiquement l'optimisation est excute en utilisant l'algorithme de Baum-Welch.
Les choix qui ont t fait pour le systme de base sont les suivant :
Nous avons modlis chaque unit acoustique de notre vocabulaire par un modle de Markov
cach continu, 10 modles sont ncessaires pour notre application (un modle pour chaque
chiffre arabe). Chaque modle est reprsent par 15 tats, nous avons suppos que la majorit
des chiffres arabes sont constitus de 5 phonmes. O chaque phonme est reprsent par
trois tats, un tat pour son dbut, un notre plus stable au milieu et le dernier pour sa fin.
On a opte pour une topologie des modles gauche droite (modle de Bakis) propos par
Rabiner dans [42] pour sa bonne rsolution des problmes de reconnaissance des mots isols.
La Probabilit dmission modlise par une combinaison linaire de 3 gaussiennes matrice
de covariance diagonale.
Tous les modles ont la mme topologie, et les probabilits dmission de tous les tats sont
reprsentes par un nombre identique de gaussiennes. Lapprentissage et la reconnaissance des
modles isols ont t raliss avec les outils de la plate forme logicielle HTK.
87
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
5.4.1 Evaluation des performances du ASR en prsence du bruit blanc pour les deux
groupes de test (A et B)
Tableau 5.3 Taux de reconnaissance (%) obtenus avec les diffrents paramtres en prsence du
bruit blanc (les locuteurs appartiennent au groupe de test A).
88
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
100
90
80
70 MFCC
60 MFPSCC
50 PNRF_Mst
40 PNRF_Soft
30
20
10
clean 20 15 10 5 0 -5
Figure 5.8 Reprsentation graphique des taux de reconnaissance (%) obtenus pour les diffrents
paramtres en prsence du bruit blanc (les locuteurs appartiennent au groupe de test A).
Tableau 5.4 Taux de reconnaissance (%) obtenus avec les diffrents paramtres en prsence du
bruit blanc (les locuteurs appartiennent au groupe test B).
89
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
100
90
80
70 MFCC
60 MFPSCC
50 PNRF_Mst
PNRF_Soft
40
30
20
10
clean 20 15 10 5 0 -5
Figure 5.9 Reprsentation graphique des taux de reconnaissance (%) obtenu pour les diffrents
paramtres en prsence du bruit blanc (les locuteurs appartiennent au groupe de test B).
A partir du tableau 5.3 et 5.4 on peut remarquer pour un bruit blanc de faible intensit SNR > 10
le paramtre Mfpscc a un apport meilleur sur le taux de reconnaissance, 0,6% par rapport au
paramtre PNRF_soft et PNRF_Mst. Mais pour des niveaux de bruit levs, pour des SNR
10db les meilleurs taux de reconnaissance sont obtenus avec nos paramtres proposs
PNRF_Soft et PNRF_Mst, lapport est de plus de 42% par rapport au paramtre Mfcc, et plus de
24% sur le taux de reconnaissance par rapport au paramtre Mfpscc. Le paramtre Mfcc se
dgrade facilement en prsence de bruit ce qui prsente un handicap pour le systme de
reconnaissance qui opre dans ce genre de milieu.
On peut constat aussi que le seuillage doux est mieux adapt que le seuillage doux modifi pour
le traitement du signal parole corrompu par le bruit blanc et cela pour les deux sries de test
effectus (avec les groupes de test A et B).
partir des rsultats obtenus on peut conclure, pour les 7 niveaux de SNR que le paramtre
PNRF_soft est plus immunis au bruit pour une tache de reconnaissance par les HMMc.
90
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
5.4.3 Evaluation des performances du ASR en prsence du bruit rose pour les deux groupes
de test (A et B)
Tableau 5.5 Taux de reconnaissance (%) obtenus avec les diffrents paramtres en prsence du
bruit rose (les locuteurs appartiennent au groupe de test A).
100
90
80
70 MFCC
60 MFPSCC
PNRF_Mst
50
PNRF_Soft
40
30
20
10
clean 20 15 10 5 0 -5
Figure 5.10 Reprsentation graphique des taux de reconnaissance (%) obtenu pour les diffrents
paramtres en prsence du bruit rose (les locuteurs appartiennent au groupe de test A).
91
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
Tableau 5.6 Taux de reconnaissance (%) obtenus avec les diffrents paramtres en prsence du
bruit rose (les locuteurs appartiennent au groupe de test B).
100
90
80
70 MFCC
60 MFPSCC
PNRF_Mst
50
PNRF_Soft
40
30
20
10
clean 20 15 10 5 0 -5
Figure 5.11 Reprsentation graphique des taux de reconnaissance (%) obtenus pour les diffrents
paramtres en prsence du bruit rose (les locuteurs appartiennent au groupe de test B).
A partir des tableaux 5.5 et 5.6 pressentant les taux obtenus par le systme de reconnaissance
pour le signal parole corrompu par le bruit rose, on constate pour des SNR 10db le paramtre
Mfpscc a un apport de 0,2 0,9% par rapport au paramtre PNRF_Mst et de 0,2 1,2% par
92
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
rapport au paramtre PNRF_Soft. Pour des SNR < 10db c'est--dire pour des bruits de niveau
lev, lapport de paramtre PNRF_Mst est de 0,2 jusqu' 7% par rapport au Mfpscc. avec le
paramtre PNRF_soft lapport sur le taux de reconnaissance est de 8 10% par rapport au Mfpscc
et ce pour des SNR <5db. Les mmes constatations peuvent tre faites pour le paramtre Mfcc, o
la dgradation est toujours importante mme en prsence de faible bruit.
En conclusion, le taux en valeur moyenne obtenu montre que paramtre PNRF_Mst offre plus de
robustesse au systme de reconnaissance par rapport aux autres paramtres. De plus on peut
conclure que le seuillage doux modifi est mieux adapt pour le traitement du bruit rose.
5.4.5 Evaluation des performances du ASR en prsence du bruit industriel pour les deux
groupes de test (A et B)
Tableau 5.7 Taux de reconnaissance (%) obtenus avec les diffrents paramtres en prsence du
bruit industriel (les locuteurs appartiennent au groupe de test A).
93
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
100
90
80
70 MFCC
60 MFPSCC
PNRF_Mst
50
PNRF_Soft
40
30
20
10
clean 20 15 10 5 0 -5
Figure 5.12 Reprsentation graphique des taux de reconnaissance (%) obtenus avec les diffrents
paramtres en prsence du bruit industriel (les locuteurs appartiennent au groupe de test A).
Tableau 5.8 Taux de reconnaissance (%) obtenus avec les diffrents paramtres en prsence du
bruit industriel (les locuteurs appartiennent au groupe de test B).
94
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
100
90
80
70 MFCC
60 MFPSCC
PNRF_Mst
50
PNRF_Soft
40
30
20
10
clean 20 15 10 5 0 -5
Figure 5.13 Reprsentation graphique des taux de reconnaissance (%) obtenus avec les diffrents
paramtres en prsence du bruit industriel (les locuteurs appartiennent au groupe de test B).
A partir des tableaux 5.7 et 5.8 on peut constat que nos paramtres proposs PNRF_Soft et
PNRF_Mst ont un apport considrable de 4 6% par rapport aux paramtres Mfpscc sur le
systme de reconnaissance et ce pour un niveau de bruit industriel trs lev SNR < 5db, par
contre le paramtre Mfpscc est meilleur pour des SNR 5db et lapport varie de 0,6 1,2 par
rapport a PNRF_Mst et de 1,4 3% pour le PNRF_Soft. Les mmes constatations faites au
dessus sont conserves pour le paramtre Mfcc. Pour ce type de bruit le seuillage doux modifi
est mieux adapt que le seuillage doux pour la tache de reconnaissance par les HMMc.
95
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
Tableau 5.9 Taux de reconnaissance (%) obtenus avec les diffrents paramtres en prsence du
bruit de cockpit de lavion de chasse F16 (les locuteurs appartiennent au groupe A).
100
90
80
70 MFCC
60 MFPSCC
PNRF_Mst
50
PNRF_Soft
40
30
20
10
clean 20 15 10 5 0 -5
Figure 5.14 Reprsentation graphique des taux de reconnaissance (%) obtenus avec les diffrents
paramtres en prsence du bruit de cockpit de lavion de chasse F16 (les locuteurs appartiennent
au groupe de test A).
96
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
Tableau 5.10 Taux de reconnaissance (%) obtenus avec les diffrents paramtres en prsence du
bruit de cockpit de lavion de chasse F16 (les locuteurs appartiennent au groupe de test B).
100
90
80
70 MFCC
60 MFPSCC
PNRF_Mst
50
PNRF_Soft
40
30
20
10
clean 20 15 10 5 0 -5
Figure 5.15 Reprsentation graphique des taux de reconnaissance (%) obtenus avec les diffrents
paramtres en prsence du bruit de cockpit de lavion de chasse F16 (les locuteurs appartiennent
au groupe de test B).
A partir des tableaux 5.9 et 5.10 pressentant les taux obtenus par le systme de reconnaissance
pour le signal parole corrompu par le bruit de cockpit de lavion de chasse F16, on peut constat
que le paramtres PNRF_Mst a un apport de 2 7% par rapport aux paramtres Mfpscc, et le
paramtre PNRF_soft a un apport de 1,5 4% par rapport au Mfpscc sur le taux du systme de
reconnaissance et ce pour des SNR < 10db. Par contre le paramtre Mfpscc est meilleur pour des
97
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
SNR 10db et lapport varie de 0,6 1,2 par rapport a PNRF_Mst et de 1,4 2,2% pour le
PNRF_Soft. Les mmes constatations pour le paramtre Mfcc. Pour ce type de bruit le seuillage
doux modifi est mieux adapt que le seuillage doux.
98
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
Conclusion gnrale
Nos expriences ont t portes sur une base de donns vocale contenant 9000 mots (chiffres
arabes) prononc par des hommes et des femmes ce qui est satisfaisant pour une tache de
reconnaissance de mots isols. Les diffrents rsultats tablis lors de cette thse ont montr
lefficacit et lapport important du paramtre acoustique propos sur les performances du
systme de reconnaissance Markovien des mots isols (chiffres arabes), et ce dans lensemble des
environnements utiliss, mais plus particulirement en prsence de bruit blanc et du bruit rose qui
sont des freins majeurs lemploi de la reconnaissance automatique de la parole.
99
Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
Perspectives
Plusieurs tests ont montr que notre nouveau paramtre acoustique propos permet une
bonne modlisation acoustique du signal dans des conditions environnementales corrompues par
diffrent type de bruit. Il convient dans un premiers temps de le tester sur d'autres bases de
donnes vocales universelles (TIMIT, AURORA, TIDIGITetc.). Il convient galement de le
tester sur des moteurs de reconnaissance hybride (HMM/DTW, HMM/ANN, HMM/SVM) tel
que les moteur dvelopps au niveau du laboratoire LASA par les membres de notre quipe.
Dans le future, pour amliorer le systme propos de reconnaissance de la parole de mots isols,
plusieurs voies de recherche restent ouvertes. Plusieurs techniques peuvent tre proposes :
l'adaptation du moteur de reconnaissance aux nouvelles conditions environnementales,
lapplication des techniques dadaptation au locuteur ou l'utilisation d'informations
supplmentaires comme des informations visuelles sur la gomtrie des lvres.
Les techniques de traitement du signal appliques au signal parole pour lextraction des
paramtres robustes ne suffisent pas pour rendre le systme de reconnaissance insensible aux
changements environnementaux (le type de microphone, l'cho de la salle, ou bien la distorsion
de la transmission). Une adaptation du moteur de reconnaissance est ncessaire par lutilisation
des moteurs de reconnaissance hybride tel que les HMM/ANN, HMM/SVM.etc.
100
Rfrences bibliographiques
[1] M.C. Amara Korba, D. Messadeg, R. Djemili, H. Bourouba. "Robust Speech Recognition Using
Perceptual Wavelet Denoising and Mel-frequency Product Spectrum Cepstral Coefficient
Features", Informatica Journal, Vol. 32, No 3, pp. 283-288, 2008.
[2] N.Q. Trung; P.T. Nghia, "The perceptual wavelet feature for noise robust Vietnamese speech
recognition", Communications and Electronics ICCE2008, Vol. 2, pp. 258-261, 2008.
[3] Shi-Huang Chen, Hsin-Te Wu, Yukon Chang, T. K. Truong, "Robust voice activity detection
using perceptual wavelet-packet transform and Teager energy operator", Pattern Recognition
Letters, vol. 28, pp. 1327-1332, 2007.
[4] M.T. Johnson, X. Yuan and Y. Ren, "Speech signal enhancement through adaptive wavelet
thresholding", Speech Communication, Elsevier, Vol. 49, pp. 123-133, 2007.
[7] B. kotnik, Z. Kacic, "A noise robust feature extraction algorithm using joint wavelet packet
subband decomposition and AR modelling of speech signals", Elsevier, Signal Processing, Vol.
87, pp. 1202-1223, 2006.
[8] Yu Shao, Chip-Hong Chang, "A versatile speech enhancement system based on perceptual
wavelet denoising", ISCAS 2005, Vol. 2, pp. 864-867, 2005.
[9] Shao, Y. Chang, C.-H, "A versatile speech enhancement system based on perceptual wavelet
denoising", IEEE international Symposium on circuits and systems, Vol. 2, pp. 864-867, 2005.
[10] C.C. lin, S.H. Chen, T.K. troung and Y. Chang, "Audio classification and categorization based
on wavelets and support vector machine". IEEE transaction on speech and audio processing,
vol.13, pages 644-651, 2005.
[11] D. Dimitriadis, P. Maragos and A. Potaminos, "Auditory teager energy cestrum coefficients for
robust speech recognition". In European Conference On speech communication and
Technology, pags 3013-3016, 2005.
[12] Y. Guermeur, A. Eliseef and D. Zelus, "A Comparative study of multi-class classifiers. Applied
stochastic model in business and industry", Vol. 21, 2005.
[13] V. Wan & J. Carmichael, "Polynomial dynamic time Warping kernel support vector machines
for dysarthric speech recognition with sparse training data". ln INTERSPEECH, 2005.
101
Rfrences bibliographiques
[14] V. Wan & S. Renais, "Speaker verification using sequence discriminant support vector
machines". IEEE Transaction on Speech and Audio Processing, Vol. 13, 2005.
[16] S.H. Chen, J. Wang, "Speech Enhancement Using Perceptual Wavelet Packet Decomposition
and Teager Energy Operator", Springer, The Journal of VLSI Signal Processing, Vol. 36, No. 2,
pp. 125-139, 2004.
[17] M. Deviren, "Revising speech recognition systems: dynamic bayesian networks and new
computational paradigms". Phd thesis, Universit Henri poincar, Nancy, france, 2004.
[18] Z. Donglai and K. K. Paliwal, "Product of power spectrum and group delay function for speech
recognition", Proc. ICASSP, pp. 125-128, 2004.
[19] O. Farooq and S. Datta, "Wavelet-based Denoising for Robust Feature Extraction for Speech
Recognition", electronics letters, Vol. 39, No 1, pp. 163-165, 2003.
[20] B. kotnik, Z. Kacic and B. Horvat, "The usage of wavelet packet transformation in automatic
noisy speech recognition systems", Proceeding EROCON 2003, pp. 131-134, 2003.
[21] H.A. Murthy and V. Gadde, "The Modified Group Delay Function and Its Application to
Phoneme Recognition", Proc. ICASSP, vol. 1, pp. 68-71, 2003.
[22] J. Ajmera, I. McCowan & H. Bourlard. "Speech/Music Discrimination using Entmpy and
Dynamism Feaiures in a HMM Classification". Frameuiork; Speech Communication, vol. 40,
pp. 351-363, 2003.
[23] M. Deviren and K.Daoudi, "Frequency filtering or wavelet filtering". In joint Intl. Conf. on
Artificial Neural Networks and Neural Information Processing, ICANN/ICONIP, 2003.
[24] G. Tzanetakis and P. Cook, "Musical genre classification of audio signals". IEEE transaction on
speech and audio processing, Vol. 10, No. 5, pp. 293-302, 2002.
[25] I. J. Kim, S.I. Yang and Kwon, "Speech enhancement using adaptive wavelet shrinkage". In
ISIE-2001, vol. 1, pp. 501-504, 2001.
[26] R. Gemello, D. Albesano, L. Moisa and R. De Mori, "Integration of fixed and Multiple
resolution analysis in a speech recognition system". In ICASSP-01, 2001.
[27] O. Farooq and S. Datta, "Robust features for speech recognition based on admissible wavelet
packets", Electronics letters, Vol. 37, No 5, pp. 1554-1556, 2001.
102
Rfrences bibliographiques
[28] N. Gowda and Z. Tufekci, "Mel-scaled discrete wavelet coefficients for speech recognition",
Proc. Int. Conf. on acoustic, Speech and signal processing, Vol. 3, pp. 1351-1354, Istanbul,
Turkey, 2000.
[29] S. Mallat. "Une exploration des signaux en ondelettes". Editions de lEcole polytechnique, 2000.
[30] R. Sarikaya and J.H.L. Hansen. "High resolution speech feature parameterization for
monophone-based stressed speech recognition". IEEE. Signal processing letters, vol. 7, No 7,
pp. 182-185, 2000.
[31] S. Saha, "Image compression from DCT to wavelets", ACM grossroads, Vol. 6, No. 3, pp. 644-
651, 2000.
[32] A. Ganapathiraju & J. Picone, "Hybrid SVM/HMM Architectures for Speech Recognition". In
Neural Information Processing Systems, 2000.
[33] F. Jabloun and A. Enis Cetin, "The teager energy based feature parameters for robust speech
recognition in car noise", In ICASSP 99, 1999.
[34] S. Mallat, "A wavelet tour of signal of signal processing". Academic press, 1998.
[35] I. Pinter, "Perceptual wavelet-representation of speech signals and its application to speech
enhancement", Computer speech & language, Vol. 10, No. 1, pp. 1-22, 1996.
[36] Yifan Gong, "Speech recognition in noisy environments: a survey". Speech communication,
Vol. 16, pp. 261-291, 1995.
[37] Ephraim, "Gain-adapted Hidden Markov Models for Recognition of Clean and Noisy Speech".
IEEE Trans. Signal Processing, Vol. 40, pp. 1303-1316, 1992.
[38] F. Jabloun and A. Enis Cetin, "The teager energy based feature parameters for robust speech
recognition in car noise", In ICASSP 99, 1999.
[39] R. Vergin and D. O'Shaughnessy, "Generalized Mel frequency cepstral coefficients for large-
vocabulary speaker-independent continuous speech recognition", IEEE Trans. Speech, Audio
Process., vol. 7, no. 5, pp. 525-532, Sept. 1999.
[40] S. Mallat, "A wavelet tour of signal of signal processing". Academic press, 1998.
[41] V.N. Vapnik, "Statistical learning theory", John Wiley ans Son, Inc N.Y. 1998.
[42] L.R Rabiner and B. juang, " A Tutorial on hidden Markovs Models and select application in
speech recognition ", Proceedings of IEEE, Vol. 77, No. 2 , pp. 257-285, 1989.
[43] B. Moore, "An introduction to the psychology of hearing", Academic Press, 1997.
103
Rfrences bibliographiques
[44] J. S. Bridle, "Optimization and search in speech and language processing". Survey of the state of
the art in human language technology, pp. 423-428, 1995.
[47] J.W. Picone, "Signal modeling techniques in speech recognition", Proc. IEEE, Vol. 81, No. 9,
pp. 1215-1247, 1993.
[48] L. Rabiner and B.-H. Juang, "Fundamentals of speech recognition", Prentice-Hall, 1993.
[49] I. Daubechies, "Ten lectures on wavelets", Society for industrial and applied Mathematics, 1992.
[50] B. Yegnanarayana and H.A. Murthy, "Significance of Group Delay Functions in Spectrum
Estimation", IEEE Trans. Signal Processing, Vol. 40, pp. 2281-2289, 1992.
[51] B. Boser, I. Guyon and V. Vapnik, "A training algorithm for optimal margin classifiers". In
COLT92, pp. 144-152, 1992.
[52] H. Hermansky, N. Morgan, A. Bayya et P. Kohn, "Compensation for the effect of the
communication channel in auditory-like analysis of speech (RASTA-PLP)". Proceedings of the
European Conference on Speech Communication and Technology, pp 1367-1370, 1991.
[54] J.-P. Haton, J.-M. Pierrel, G. Prennou, J. Caelen et J.-L. Gauvain. "Reconnaissance
automatique de la parole", 239 p, Collection AFCET - Dunod informatique, Dunod, 1991.
[55] T. Galas et X. Rodet, "Generalized functional approximation for source-filter system modeling",
Proc. of Eurospeech 1991, pp. 1085-1088. 1991.
[56] H. Bourlard & C. Wellckcns. "Links between Markov models and multilayer perceptrons". In
Trans. PAMI, Vol. 12, pp. 1167-1178, 1990.
[57] H. Hermansky, "Perceptual linear predictive (plp) analysis of speech", Journal of Acoustical
Society of America, Vol. 87, pp. 17381752, 1990.
[58] T. Galas et X. Rodet, "An improved cepstral method for deconvolution of source-filter systems
with discret spectra : application to musical sound signals", In ICMC, 1990.
104
Rfrences bibliographiques
[59] K. Hornik, M.Stinchcombe and H. white. "Multilayer feedforward networks are universal
approximators". Neural Networks, vol. 2, 1989.
[60] L.R. Rabiner, J.G. Wilpon & F.K. Soong, "High performance connected digit recognition using
hidden Markov models", IEEE Trans. Acoust., Speech, Signal Processing, Vol. 37, No. 8, pp.
1214-1225, 1989.
[61] J.J. Hopfield. "Learning algorithms ans probability distributions in fee-forward networks". In
Nat. Aead. Sei, pp. 8429-8433, 1987.
[62] Y. lecun, "Une procdure dapprentissage pour rseaux seuil asymtrique". In proc. Cognitiva,
pp. 599-604, 1985.
[63] V.N. Vapnik, "Estimation of dependence based on empirical data", Springer-Verlag, N.Y, 1982.
[64] C. S. Myers et L. R. Rabiner, "Connected digit recognition using a level building DTW
algorithm". IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. 29, pp 351-
363, 1981.
[65] S.B. Davis and P. Mermelstein, "Comparison of parametric representations for monosyllabic
word recognition in continuously spoken sentences", IEEE Trans. Acoustics, Speech, Signal
Processing, Vol. 28, No. 4, pp. 357-366, 1980.
[66] H. Sakoe, "Two level DP-matching a dynamic programming based pattern matching algorithm
for connected word recognition". IEEE Transactions on Acoustics, Speech and Signal
Processing, Vol. 27, pp. 588-595, 1979.
[67] J.-P. Zerling, "Articulation et coarticulation dans les groupes occlusive-voyelle en franais".
Thse de doctorat de 3me cycle, Universit de Nancy 2, Nancy (France), 1979.
[68] L.R. Rabiner and R.W. Schafer, "Digital processing of speech signals", Prentice-Hall, 1978.
[69] H. Sakoe et S. Chiba, "Dynamic programming algorithms optimization for spoken word
recognition". IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 26, No. 1, pp.
43-49, 1978.
[70] F. Itakura, "Minimum production residual principle applied to speech recognition". IEEE
Transaction on Acoustics, Speech and Signal Processing, vol. 23, pp 67-72, 1975.
[71] J.M. Makhoul, "Linear prediction: a tutorial review", Proc. IEEE, Vol. 63, No. 4, pp. 561-579,
1975.
[72] A.V. Oppenheim and R.W. Schafer, "Digital Signal Processing", Englewood Cliffs, NJ:
Prentice-Hall, 1975.
[73] A. V. Aho, J. E. Hopcroft et J. D. Ullman, "The design and analysis of computer algorithms,
chapitre 7 : The fast Fourier transform and its application", pp. 251-276, 1974.
105
Rfrences bibliographiques
[74] H. Sakoe et S. Chiba, "A dynamic programming approach to continuous speech recognition",
Proceedings of the 7th International Conference on Acoustics, article 20C-13, 6 pp, 1971.
[75] J.W. Cooley & J.W. Tukey, "An algorithm for machine calculation of complex Fourier series",
Math.Comput, vol. 19, pp. 297-301, 1965.
[77] R. E. Bellman, "On a routing problem", Quaterly Journal of Applied Mathematics, vol. 16, pp.
87-90, 1958.
[79] W. Koenig, H.K. Duhn & L.Y. Lacy, "The sound spectrograph", J. Acoust. Soc. Am, Vol. 18,
pp. 19- 49, 1946.
[80] D.Gabor, "Theory of communication", J. IEEE, Vol. 93, pp. 429-457, 1946.
[81] Calliope, "La parole et son traitement automatique", livre, Collection technique et scientifique
des tlcommunications, CNET - ENST, Masson.
[82] B. Carneno, A. Drygajlo, "Perceptual speech coding and enhancement using frame-synchronized
fast wavelet-packet transform algorithms". IEEE Trans. Signal Process, Vol. 47, No 6, pp. 1622-
1635, 1999.
[83] P. Srinivasan, L.H. Jamieson, "High quality audio compression using an adaptive wavelet
decomposition and psychoacoustic modelling". IEEE Trans. Signal Process, Vol. 46, No 4, pp.
1085-1093, 1998.
[84] D. L. Donoho, "De-noising by Soft-thresholding", IEEE Trans. Inform Theory, Vol. 41, No. 3,
pp. 613-627, 1995.
[85] D. L. Donoho, "Nonlinear Wavelet Methods for Recovering Signals, Images, and Densities from
Indirect and Noisy Data", Proceedings of Symposia in Applies Mathematics, Vol. 47, pp. 173-
205, 1993.
[86] A. Varga, H. Steeneken, M. Tomlinson, D. Jones, The NOISEX-92 study on the effect of
additive noise on automatic speech recognition, Technical report, DRA Speech Research Unit,
Malvern, England, 1992. Available from: http://spib.rice.edu/spib/select_noise
106