These 2009

BADJI MOKHTAR-ANNABA UNIVERSITY
UNIVERSITE BADJI MOKHTAR-ANNABA
-
Facult des Sciences de lIngnieur Anne 2009
Dpartement dElectronique
THESE
Prsent en vue de lobtention du diplme de Doctorat
Reconnaissance Automatique de la Parole par les HMM en Milieu Bruit :

Contribution par paramtrisation acoustique robuste
Option
Systmes Intelligents
Par
AMARA KORBA Mohamed Cherif
DIRECTEUR DE THSE : MESSADEG Djemil Matre de Confrences U. ANNABA
DEVANT LE JURY
PRESIDENT : DOGHMANE Noureddine Professeur U. ANNABA
EXAMINATEURS
Mr. TEBBIKH Hicham Professeur U. GUELMA

Mme. ROUAINIA Mounira Matre de Confrences U. SKIKDA
Mr. BOUGHAZI Mohamed Matre de Confrences U. ANNABA
Mr. SBAA Salim Matre de Confrences U. BISKRA
REMERCIEMENTS
Je voudrais remercier tout particulirement mon encadreur monsieur MESSADEG
DJEMIL, matre de confrences au dpartement d'lectronique de l'universit de Badji-
Mokhtar Annaba, pour sa confiance en moi et en notre projet. Son support moral et
scientifique a t indispensable tout au long de cette thse et je dois avouer que j'ai eu la
chance de travailler avec un homme extrmement comptent mais surtout un homme
formidable.
Je remercie mon co-encadreur Monsieur DJEMILI RAFIK, Matre de confrences au

dpartement d'lectronique de l'universit de Skikda, pour avoir t prsent aux instants
importants de prise de dcision ainsi que pour les discussions riches et vives que nous avons
eues durant ces dernires annes. Je le remercie aussi pour ses remarques et critiques qui ont
contribu l'laboration de ce travail.
Je remercie monsieur DOGHMANE NOUREDINNE, professeur au dpartement

d'lectronique de l'universit de Badji Mokhtar Annaba, pour m'avoir fait l'honneur de
prsider mon jury de thse et pour l'intrt qu'il a port mon travail.
Mes remerciements s'adressent mes rapporteurs, monsieur TEBBIKH HICHAM

professeur au dpartement dlectronique de luniversit de Guelma, madame ROUAINIA
MOUNIRA matre de confrences luniversit de Skikda, monsieur BOUGHAZI
MOHAMED Matre de confrences au dpartement dlectronique de luniversit de Annaba
et Monsieur SBAA SALIM matre de confrences au dpartement dlectronique de
luniversit de Biskra qui ont bien voulu accepter d'valuer le prsent travail et ce malgr
toutes les responsabilits qu'ils assument. Je les remercie pour le temps qu'ils consacreront
la lecture de cette thse et je souhaite qu'ils y trouvent entire satisfaction.
Mes vifs remerciements s'adressent monsieur BEDDA MOULDI, mon encadreur de

thse de Magister.
Mes plus sincres remerciements l'quipe parole, et plus particulirement

monsieur BOUROUBA HOUCINE pour les riches discussions.
Pour finir je tiens remercier toute ma famille et plus particulirement mes parents
pour leur soutien durant ces nombreuses annes d'tudes.

-,)*+*%&'(! "#$

2.'/01
7&
-,1<,&'=>?=@ (;7&
&8%9:
,)*+*! "#$45*63
7&
>?= J4; I'
* %9: 'F" ! " $4 GH 3E B
" C& #D A
! " #$4
"/ M
" G<&
3 - G91'9": DL" F 2K8 &)"
2,&'&G<&N"
27&
+*3N" GDQ
:,&/RSH3! "$4 8'F(PF-!O
+*! "$4 G'= V-&R +* UH ,&'T18,& < S"H:F(
2[Z222 =BAU'BY&:W1'9"X,,<1N:W1'9", - %
"2G'=
"(&
FE
"/\,&'=,&8;'
G& <"]*"@,4<
:
H^U:
-%BG91'9" - @ < 7&
,)*+* ! " ,*%9S , ,<1N: '<
1
\3 BW1'9" 'aS ,:'6
G< - & : ( ,_& ` +< $ GH
2,HN]&+*
" ,&'=
+* ,&
b ( : ( 'Fc *)4(Ub ! - ,S"<
,1'< ,&'=1
,/:
H <
G'=+*! ,R4JN3O&*=
Gf
2,_=d]&N:9]&e8
- C43 -&1
G91'9" ]*"@ : /U g. < G'= +* V U(S +"S &8
2C&*
"13(U7&
G&)",(<\3! $4M`(-%
,*S S"H<2S\3W1'9"i'"Rj=1 &1'F"O&*=

h?"
+*K&\DQ1 E( W1'9" (#?fk :'<4&S,&'= V, C&#" ,&?":
#&R<" 01 - V m&%_ ,<1
"/: F ( ,&'= Vl , ]&N G4'%
; nR": 0* "

( 'T -'%&R n +*
" ,<1N oF 3 &S B8'
R
- %
,'
,
1",& <(,
1",& < q1""& <"
"/:2G'Tp
GUU" G; G
- ,H H( ,& GUU" G; V G e)
- C&* ="4 #?f
2,
6 " &) G'Tp ,R : 'F \ B,a_@

2,_@
:01
@i'"R+*'N
'=G'*
m 01-J4O:
H"G/,
,)* H3X ,
* rsss +* & F A'"1 &S 2,: , : P,: : V( m&'
]*"@ 3
2[3 tt( 8 tuX >@V rs! - , ,<1N: ,H'N [,&:
O ! - 'N
,&'= G91'9" m : - ;'L J4 O&* *
" G91'9"
2 'O:TNO

*
'
! "$4 'S,
?HJ4
oF,D
.",
,*X yxw,&,&
"/:
HB,S-]&_@"2
"R
!'v;
4+*
,& ,& oF &" #D < Bv1
, 8 - ,c'
[_@
!' vU
?/'
2,)*+*! "$ c4S]*"@ O?83,%:&)"O"&*:<(O"4(

1
P3-& MFCC ,&'=1
(,S"<
,&'=1
-&: G
,4<

[-gd}X.<1SNR83-tt2{|z.! "$4eU3,<1--R,S"<
,&'=
,&'=VlSNR-G1'"R{01-O&*="|t2~z.<,N/'",R :(P
2Y&:W1'9":,V'9

II
Abstract
Abstract
The work completed in this report lies within the general scope of the robust automatic speech
recognition (ASR).
The majority of ASR function correctly in an environment with the characteristics acoustic and
sound close to the environment in which the training was done but the performances will be
degraded notably if the environmental conditions are very different. This sensitivity to the noise is
one of the major brakes to the use of the automatic speech recognition in applications known as
general public.
Our objective, in this report, is to make recognition system insensitive, i.e. robust, with the
changes of environmental conditions, by proposing a novel method of acoustic modelling able to
improve speech signal at the entry of recognition system. This technique being based on the
exploitation of the perceptual indices of the speech signal, allowing to treat noises of more
general nature (white noise, pink noise, industrial noise.etc).
In the first time we compared various of acoustic modelling techniques, the most used in this
discipline, and which effectively solve the problem of the RAP in the clean environment, but the
performances of the system are far from being satisfactory in the presence of noise, more the
share of these acoustic parameters are based on the study of the power spectrum.
We studied the robust acoustic parameters suggested by Donglai Zhu and K.K. Paliwal which is
founded on the product of the spectrum of amplitude by the spectrum of phase. These coefficients
having allowed to obtain good rates of recognition rate until to signal to noise ratio 5dB with
varied noise conditions, which prove that it is possible to implement a system resistant to
different sound environments and who were not contributed at the training stage.
The results obtained are degraded however as the sound level increases, we proposed pre-
processing stage to enhance speech signal by adaptive denoising who affects little a useful
spectral components of the speech signal by the perceptual wavelet packet (PWP) based
denoising algorithm with both type of thresholding procedure, soft and modified soft thresholding
III
Abstract
procedure. A penalized threshold was selected.
In the experiments reported in this paper, isolated digit recognition experiments were performed
using the Arabic digit corpus database from the national laboratory of automatic and signals
(LASA) of University of Annaba, which were designed to evaluate the performance of automatic
speech algorithms. This database contains 90 speakers (46 male and 44 female). The studies were
made on the corpus of preregistered noise Noisex-92 developed at TNO institute in Soesterberg,
Netherlands. The corrupted speech is obtained by adding noise to clean speech at different SNR.
All the experiments performed in this report are evaluated by the same Markovian recognition
system of reference based on the continuous HMM. To reduce the task of programming to the
minimum, we have used software platform HTK (Hidden Markov Model Toolkit) distributed by
the university of Cambridge, we have chose this platform for its user-friendliness, its flexibility
and its great choice throughout various stage of the recognition system.
Comparison of the proposed approach with the MFCC-based conventional (baseline) feature
extraction method shows that the proposed method improves recognition accuracy rate by
44.71%, with an average value of 14.80 % computed on 7 SNR level for white Gaussian noise
conditions.
IV
Rsum
Rsum
Le travail ralis lors de cette thse sinscrit dans le cadre gnral de la reconnaissance
automatique de la parole (RAP) robuste.
La plupart des systmes RAP fonctionnent correctement dans un environnement aux
caractristiques acoustiques et sonores proches de l'environnement dans lequel sest fait
l'entranement mais les performances vont se dgrader notablement si les conditions
environnementales sont trs diffrentes. Cette sensibilit au bruit est un des freins majeurs
lemploi de la reconnaissance automatique de la parole dans des applications dites grand public.
Notre objectif, lors de cette thse, est de rendre le systme de reconnaissance insensible, cest--
dire robuste, aux changements de conditions environnementales, en proposant une nouvelle
technique de modlisation acoustique capable damliorer le signal de parole lentre du
systme de reconnaissance. Cette technique se fondant sur lexploitation des indices perceptuels
de la parole, permettant ainsi de traiter des bruits dordre plus gnral (bruit blanc, rose, industriel
.etc.).
En un premier temps nous avons compar diffrentes techniques de modlisation acoustique, les
plus utilises dans cette discipline, et qui rsolvent efficacement le problme de la RAP dans le
milieu non bruit, mais les performances du systme sont loin dtre satisfaisantes en prsence de
bruit, la plus part de ces paramtres acoustiques sont bass sur ltude du spectre dnergie.
Nous avons tudi les paramtres acoustiques robustes proposs par Donglai Zhu et K.K. Paliwal
qui sont fonds sur le produit du spectre damplitude par le spectre de phase. Ces coefficients
nous ayant permis dobtenir de bons taux de reconnaissance jusqu des rapport signal-sur-bruit
(SNR : signal to noise ratio) de 5dB avec des conditions de bruits varies qui prouvent quil est
possible de mettre en oeuvre un systme rsistant des environnements sonores diffrents et qui
nont pas t rencontrs lors de la phase dapprentissage.
Les rsultats obtenus se dgradent cependant mesure que le niveau du bruit augmente, nous
avons propos une phase de prt traitement du signal parole qui permet un dbruitage adaptatif
V
Rsum
efficace et qui affecte peu les composantes spectrales utiles du signal parole par lintroduction de
la dcomposition en paquet dondelettes perceptuel (PWP : Perceptual wavelet packet), cette
dcomposition psycho acoustique dpend de la perception de loreille humaine. Deux techniques
de seuillages ont t envisages : le seuillage doux et le seuillage doux modifi fin de ne pas
limin les composantes de haute frquence qui sont moins nergtique que les basses
frquences, tel que le cas pour les consones. Le seuil adaptatif a t obtenu par la mthode de
seuillage pnalis.
Toutes les expriences ont t effectues laide dune base de donnes vocale acquise au niveau
du laboratoire LASA, luniversit de Annaba, cette base contient 9000 mots (chiffre arabes)
prononcs par 90 locuteurs (46 hommes et 44 femmes) de faon isole. Les tudes ont t faites
sur le corpus de bruit prenregistr Noisex-92 dvelopp par linstitut TNO Soesterberg aux
Pays-Bas. Les squences bruites sont obtenues en additionnant des segments de bruit la parole
propre avec diffrents (SNR).
Toutes les expriences menues dans cette thse ont t values par le systme de reconnaissance
Markovien de rfrence fond sur les HMM continus. A fin de rduire au minimum la tache de
programmation, nous avons utilis la plate-forme logicielle HTK (Hidden Markov Model
Toolkit) distribue par luniversit de Cambridge, nous avons choisie cette plate forme pour sa
convivialit, sa souplesse et sa grande libert de choix laisse tout au long de la construction des
diffrentes parties du systme de reconnaissance.
Les comparaisons effectues entre les paramtres acoustiques robustes proposs et les paramtres
de rfrences qui sont les MFCC ont montr, que nos paramtres amliorent le taux de
reconnaissance du systme de rfrence de 44,71 % pour un SNR de -5dB, et avec une valeur
moyenne de 14,8 % calcule sur 7 niveau de SNR pour le signal parole affect par le bruit blanc
gaussien.
VI
Liste des Tableaux

N Tableau Titre page
1.1 Lalphabet arabe 09
1.2 Classification des phonmes arabes 10
1.3 les consonnes emphatiques 13
1.4 les voyelles simples et longues 14
2.1 Configuration du paramtre LPC 33

2.2 Configuration du paramtre MFCC 33
2.3 Configuration du paramtre PLP 34
2.4 Configuration du paramtre MFPSCC 34
2.5 Taux de reconnaissance obtenus en prsence du bruit blanc 34
2.6 Taux de reconnaissance obtenus en prsence du bruit rose 34
2.7 Taux de reconnaissance obtenus en prsence du bruit industriel 34
2.8 Taux de reconnaissance obtenus en prsence du bruit du cockpit F16 35
3.1 Caractristiques des logiciels libres de dveloppement de systmes de reconnaissance 48
5.1 Description spectrale des sous bande frquentielles (largeur identique) 74

5.2 Description spectrale des sous bande frquentielles critiques 76
5.3 Description des bruit de la base noisex-92 86
5.4 Taux de reconnaissance en prsence de bruit blanc pour le groupe de test A 88
5.5 Taux de reconnaissance en prsence de bruit blanc pour le groupe de test B 89
5.6 Taux de reconnaissance en prsence de bruit rose pour le groupe de test A 91
5.7 Taux de reconnaissance en prsence de bruit rose pour le groupe de test B 92
5.8 Taux de reconnaissance en prsence de bruit industriel pour le groupe de test A 93
5.9 Taux de reconnaissance en prsence de bruit industriel pour le groupe de test B 94
5.10 Taux de reconnaissance en prsence de bruit de F16 pour le groupe de test A 96
5.11 Taux de reconnaissance en prsence de bruit de F16 pour le groupe de test B 97

VII
Liste des Figures
N Fig Titre page
1.1 Coupe de lappareil phonatoire 1
1.2 Coupe de lappareil auditif humain 3
1.3 Courbes d'isosonie 4
1.4 Les chelles naturelles de la membrane basilaire 5
1.5 Spectrogramme du mot 8
2.1 Schma bloc dun systme de reconnaissance de la parole 16

2.2 Mthode de calcul dune transforme de Fourier rapide 18
2.3 Reprsentation temporelle (en haut), spectrogramme (en bas) du mot zro en arabe 19
2.4 Phase de paramtrisation acoustique 19
2.5 Chane de prtraitement du signal parole 20
2.6 La densit Spectrale dune trame estime par deux mthodes de prdiction 23
2.7 tapes de calcule des coefficient PLP 23
2.8 Rponse frquentielle du filtre passe bande RASTA 25
2.9 Les filtres triangulaires passe-bande en Mel-Frquence (B(f)) et en frquence (f) 27
2.10 Schma en blocs de l'analyse acoustique permettant le calcul des vecteurs MFCC 28
2.11 Une trame de la voyelle (i), son spectre de puissance 31
3.1 Visualisation du cheminement de lalignement temporel pour des formes de la base de rfrence 37
3.2 Les transitions autorises entre les points du graphe 38
3.3 Schma typique dune fonction de recalage en alignement temporel 39
3.4 Illustration de lutilisation des rcurrences Forward 43
3.5 Illustration de lutilisation des rcurrences backward 44
3.6 Structure d'un systme de reconnaissance avec HTK 50
3.7 Architecture dun neurone formel n entres 51
3.8 Architecture d'un perceptron Multi-Couches une couche cache 52
3.9 (a) donnes non linairement sparables. (b) Pr-traitement des donnes 53
3.10 Systme de segmentation parole/musique 54
4.1 Boite Heisenberg correspondant au pavage temps frquence 56

4.2 Exemple de couverture temps frquence avec transforme de Fourier 58
4.3 Exemple de couverture temps frquence avec transforme en ondelettes 58
4.4 Dcomposition temps frquence du signal, dcomposition dyadique 61
4.5 Rsolution frquentielle obtenue laide de la dcomposition dyadique 63
4.6 Transformation en ondelettes dyadique 64
4.7 Reprsentation en module dans le domaine des frquences 66
4.8 Exemple dondelettes de Daubechies 67
4.9 Exemple dondelettes de Symlet 67
4.10 Exemple dondelettes de Coiflet 68
5.1 Bloc diagramme du paramtre robuste 72

5.2 Structure de larbre Wp et correspondance de chaque bande 73
5.3 Structure de larbre pwpt 75
5.4 Reprsentation graphique des diffrentes techniques de seuillage 78
5.5 Comparaison des diffrentes techniques de seuillage 81
5.6 Reprsentation graphique des paramtres MFCC, MFPSCC et PNRF_Soft 84
5.7 Structure du systme de reconnaissance de base 88
VIII
Liste des Symboles

RAP : Reconnaissance automatique de la parole
SRAP : Systme de reconnaissance automatique de la parole
HMM : Hidden Markov Models
EM : Expectation-Maximisation
ARPA : Advanced Research Projects Agency
DAP : Dcodage Acoustico- Phontique
RAL : Reconnaissance Automatique du Locuteur
LPC : Linear Predictive Coefficients
LPCC : Linear Predictive Cepstral Coefficients
MFCC : Mel Frequency Cepstral Coefficients
MLP : Multi Layer Perceptron
TDNN : Time Delay Neural Network
RBF : Radial Basis Function
VQ : Vector Quantization
LVQ : Learning Vector Quantization
GMM : Gaussian Mixture Model
RASTA : RelAtive SpecTrAl
MAP : Maximum A Posteriori
MLE : Maximum Likelihood Estimation
MFCC : Mel frequency Cepstral Coefficient
MFSCC : Mel Frequency Product spectrum Cepstral Coefficient
PNRF_Soft : Proposed Noise Robust feature with Soft Thresholding
PNRF_Mst : Proposed Noise Robust feature with Modified Soft Thresholding
WP : Wavelet Packet
WPC : Wavelet Packet Coefficient
WPT : Wavelet Packet Transform
PWP : Perceptual Wavelet Packet
PWPC : Perceptual Wavelet Packet Coefficient
PWPT : Perceptual Wavelet Packet Transform
QV : Quantification Vectorielle
IX
Table des matires
Table des matires

.. I
Abstract ... III
Rsum ..... IV
Liste des tableaux ...... VII
Liste des figures ....... VIII
Liste dabrviation ... IX
Table des matires ..... X
Introduction gnrale . XV
Chapitre I : Caractristiques du signal parole
Introduction ... 1
1.1 Mcanismes de production de la parole .. 1
1.2 Mcanismes d'audition de la parole 2
1.3 Proprits psycho-acoustiques du systme auditif .. 4
1.3.1 chelle d'intensit . 4
1.3.2 chelle de hauteur 4
1.4 Complexit du signal parole ... 5
1.5 Continuit et coarticulation . 5
1.6 Redondance du signal parole .. 6
1.7 Variabilit ... 6
1.7.1 Variabilit intra-locuteur .. 6
1.7.2 Variabilit inter-locuteur .. 6
1.7.3 Variabilit due lenvironnement 7
1.8 Description acoustique ... 7
1.9 LAlphabet Arabe .. 8
1.10 Les classes phontiques arabes 9
1.11 Classification Phontiques .. 10
1.11.1 Les Voyelles . 11
1.11.2 Les Occlusives .. 11
1.11.3 Les Fricatives 11
X
Table des matires
1.11.4 Les Sonnantes 11

1.11.5 Les Semi-voyelles . 12
1.11.6 Les Liquides .. 12
1.11.7 Les Nasales 12
1.11.8 Les Diphtongues 12
1.11.9 Les Affriques ... 12
1.11.10 Les Emphatiques . 13
1.12 L'alphabet arabe n'a pas de voyelles 13
1.12.1 Voyelles simples ... 14
1.12.2 Sukn . 14
Chapitre II : Paramtrisation acoustique du signal parole

2.1 Introduction ... 16
2.2 Reprsentations non paramtriques ... 16
2.2.1 Analyse temporelle . 16
2.2.2 Analyse spectrale .... 17
2.2.3 Reprsentation graphique temps/frquence (Spectrogramme).... 18
2.3 Reprsentations paramtriques . 19
2.3.1 Chane de prs-traitement ....19
2.3.2 Lanalyse LPC 20
2.3.3 LPCC (Linear Prediction Cepstral Coefficients) 22
2.3.4 Les coefficients PLP (Perceptual Linear Predictive) .. 23
2.3.5 Rasta PLP 24
2.3.6 Analyse cepstrale .26
2.3.7 L'analyse MFCC .. 26
2.3.8 Produit spectral et la fonction de temps de groupe ..29
2.3.8.1 Dfinition de la fonction de temps de groupe 29
2.3.8.2 Produit spectral .. 30
2.3.8.3 Paramtres acoustiques cepstrals ... 31
2.3.8.4 Les coefficients cepstrals de la fonction de temps de groupe (MGDCC) . 31
2.3.8.5 Les coefficients cepstrals de la fonction de temps de groupe modifie (MFGDCC) 32
2.3.8.6 Les coefficients cepstrals du produit spectral (MFPSCC)..32
2.4 Les coefficients diffrentiels ..32
XI
Table des matires
2.5 Evaluation des paramtres acoustiques tudis par le systme de RAP de rfrence.33
2.5.1 Evaluation des performances du systme ASR en prsence du bruit blanc..34
2.5.2 Evaluation des performances du systme ASR en prsence du bruit rose34
2.5.3 Evaluation des performances du systme ASR en prsence du bruit industriel34
2.5.4 Evaluation des performances du systme ASR en prsence du bruit du cockpit F16...35
2.5.5 Discussion des rsultats 35
2.6 Conclusion.. 35
Chapitre III : Systmes de reconnaissance automatique de la parole

3.2 Lalignement temporel ...36
3.2.1 Distance globale .. 38
3.3 Les Modles de Markov cachs 40
3.3.1 Dfinitions ... 40
3.3.2 Les trois problmes de base en HMMs ... 41
3.3.2.1 Evaluation de la vraisemblance . 41
3.3.2.2 Le dcodage .. 41
3.3.2.3 Lapprentissage .. 41
3.3.3 Rsolution des trois problmes ... 42
3.3.3.1 Problme 1: Estimation des probabilits 42
a) Algorithme de forward .42
b) Algorithme de backward ..43
3.3.3.2 Probleme2: le dcodage 44
3.3.3.2.1 Algorithme de Viterbi ... 45
3.3.3.3 Problme destimation des paramtres et entranement des modles 45
3.3.3.3.1 Entranement Baum-Welch ... 46
3.3.4 Cas des modles continus 47
3.4 Plate-forme logicielle HTK 47
3.4.1 Utilisation d'HTK 49
3.5 Autres mthodes de reconnaissance .. 50
3.5.1 Les rseaux de neurones: le perceptron multi-couches (PMC) ... 50
3.5.2 Le Perceptron Multi-Couches (PMC) .51
3.5.3 Les Machines Vecteurs Support (SVM) . 52
XII
Table des matires
3.5.4 Mthodes "hybrides" ....53

3.5.4.1 HMM et rseaux de neurones .... 53
3.5.4.1 HMM et SVM .. 54
Chapitre IV : Application des ondelettes au signal de la parole
4.1 Prsentation des ondelettes .. 56

4.1.1 Introduction ..56
4.1.2 Dfinitions .. 58
4.1.2.1 Les ondelettes 58
4.1.2.2 La transforme en ondelettes . 59
4.1.3 La transforme en ondelettes discrte utilise pour le dbruitage de la parole . 60
4.1.4 Algorithme rapide pour la transforme en ondelettes 63
4.2 Types dondelettes utilises ..64
4.2.1 Les ondelettes de Daubechies 66
4.2.2 Les Symlets 67
4.2.3 Les Coiflet .. 67
4.3 Types dnergies calcules sur les coefficients dondelettes 68
4.3.1 Lnergie instantane ..68
4.3.2 Lnergie de Teager 69
4.3.3 Lnergie hirarchique 69
Chapitre V : Nouveau paramtre acoustique pour la reconnaissance robuste

5.2 Description de lalgorithme de paramtrisation ... 72
5.2.1 Segmentation en fentre ..... 73
5.2.2 Dcomposition du signal parole par paquet dondelettes .. 73
5.2.3 Dbruitage par les algorithmes de seuillage ... 77
5.2.3.1 Algorithme de seuillage dur .... 77
5.2.3.2 Algorithme de seuillage doux .. 77
5.2.3.3 Algorithme de seuillage doux modifi .... 77
5.2.4 Slection du seuil ... 79
5.2.4.1 Seuil obtenu par la mthode universelle .. 79
XIII
Table des matires
5.2.4.2 Seuil obtenu par la mthode pnalis .. 80

5.2.5 Comparaison entre les diffrents types de seuillage ... 81
5.2.6 Reconstitution du signal parole .. 82
5.2.7 Dfinition des coefficients de Mel cepstral du produit spectrale ... 82
5.2.8 Coefficients diffrentiels . 83
5.2.9 Comparaison graphique entre les diffrents types de paramtres acoustiques ... 83
5.3 Dveloppement du systme de reconnaissance . 85
5.3.1 Description de la base de donnes ..... 85
5.3.2 Le corpus de bruits NOISEX-92 ..... 86
5.3.3 Description du systme de reconnaissance de rfrence base des HMMc 87
5.4 Exprimentation et rsultats ..... 88
5.4.1 Evaluation des performances du ASR en prsence du bruit blanc .... 88
5.4.2 Discussion des rsultats ...... 90
5.4.3 Evaluation des performances du ASR en prsence du bruit rose .. 91
5.4.5 Evaluation des performances du ASR en prsence du bruit industriel .. 93
5.4.7 Evaluation des performances du ASR en prsence du bruit de cockpit de lavion F16 ... 96
Conclusion gnrale .... 99
Perspective . 100
Rfrences bibliographiques .. 101-106
XIV
Introduction gnrale
Introduction gnrale
La parole est le principal moyen de communication dans toute socit humaine. Son
apparition peut tre considre comme concomitante lapparition des outils, lhomme ayant
alors besoin de raisonner et de communiquer pour les faonner.
Limportance de la parole fait que toute interaction homme-machine devrait plus ou moins
passer par elle. Dun point de vue humain, la parole permet de se dgager de toute obligation
de contact physique avec la machine, librant ainsi lutilisateur qui peut alors effectuer
dautres tches. Ces applications peuvent tre regroupes en quatre catgories :
Commande et contrle.
Accs des bases de donnes.
Dict vocale.
Transcription automatique de la parole (sous-titrage et transduction automatique).
Notre tude s'intresse la conception dun systme de reconnaissance de la parole

robuste et efficace, pour obtenir un outil s'intgrant naturellement dans la communication
entre l'homme et la machine et facilitant son interaction.
Le principal but de notre travail est dtudier les moyens qui peuvent rendre le systme de
reconnaissance insensible aux changements des conditions environnementales en prcdant le
moteur de reconnaissance par des modules de traitement du signal capables damliorer le
signal de parole lentre du systme de reconnaissance.
Ces modules de prt-traitement sont capables damliorer le signal parole par dbruitage
adaptatif bas sur les connaissances perceptuelles de loreille humaine, et exploitant le module
et la phase du spectre de frquence. Une multi-rsolution temps/frquence est ncessaire afin
de mieux analyser les diffrentes composantes spectrales, pour cet effet nous avons introduit
les ondelettes orthogonales qui savrent un outil incontournable pour lanalyse des signaux
non stationnaires.
Notre nouveau paramtre acoustique a t valu par les modles de Markov cachs continus
HMMc. Et cela dans des milieux affects par diffrents types de bruits (Blanc, rose,
industriel,etc.). Le systme de reconnaissance est sens reconnatre les chiffres arabes
prononc dune manire isole.
Le mmoire de ce travail est rparti en cinq chapitres, Dans le premier chapitre nous
XV
Introduction gnrale
prsentons les mcanismes de production et de perception de la parole. Ainsi que les

principales caractristiques de ce signal et les difficults qui peuvent tre rencontres lors de
sa modlisation. Nous prsentons ainsi les indices acoustiques pour distinguer et identifier les
diffrents phonmes arabes.
Dans le deuxime chapitre, nous prsentons les paramtres acoustiques les plus utiliss en
reconnaissance de la parole, les paramtres qui dpendent de lappareil de production de la
parole (LPC, LPCC) et les paramtres qui dpendent de lappareil de perception humaine
(MFCC, PLP, MFPSCC). Une valuation de ces paramtres est envisag afin de dterminer
quel sont les paramtres acoustiques les plus adapt la tache de reconnaissance en milieu
bruit.
Le troisime chapitre consacr ltude des moteurs de reconnaissance qui sont la

programmation dynamique et les modles de Markov cachs discrets et continus, et prsente
leurs thories et les algorithmes dapprentissages. Puis nous prsenterons la plate forme
logiciel HTK (Hidden Markov Model Tool Kits), ainsi qune brve description sur les
logiciels de dveloppement de systmes bases des HMM.
Dans le quatrime chapitre, nous commenons par prsenter ce sur quoi tous ses travaux sont
bass : les ondelettes, qui offrent une dcomposition multi-echelles et une analyse efficace
pour les signaux non stationnaires. Ainsi qune brve description des familles dondelettes les
plus utilises pour lanalyse du signal parole.
Dans le dernier chapitre, nous prsentons les dtails de notre systme de paramtrisation
acoustique robuste. Ensuite, les diffrentes expriences sur les corpus de dveloppement et de
validation sont prsentes. Par lintroduction de dondelette de daubechies et par lapplication
de diffrentes techniques de seuillage.
Nous terminons ce manuscrit, par une conclusion gnrale de notre travail sur la
paramtrisation acoustique robuste. Nous rsumons les rsultats importants obtenus au cours
de diverses exprimentations. Enfin, nous prsentons nos perspectives concernant la
paramtrisation robuste de la parole et concernant les amliorations apporter notre
systme.
XVI

Chapitre 1 Caractristiques du signal parole
Introduction
Le prsent chapitre a pour intention de prsenter les notions lmentaires et les termes
relatifs la description de la parole. Nous prsentons les appareils auditif et phonatoire de ltre
humain. Nous prsenterons ensuite les problmes dus la complexit du signal parole :
variabilit, non stationnarit, redondance et coarticulation. Nous prsenterons lalphabet arabes et
une classification phontique de la langue arabe.
1.1 Mcanismes de production de la parole
Le processus de production de la parole est un mcanisme trs complexe qui repose sur une
interaction entre les systmes neurologique et physiologique. La parole commence par une
activit neurologique. Aprs que soient survenues l'ide et la volont de parler, le cerveau dirige
les oprations relatives la mise en action des organes phonatoires. Le fonctionnement de ces
organes est bien, quant lui, de nature physiologique.
Une grande quantit d'organes et de muscles entrent en jeu dans la production des sons des
langues naturelles. Le fonctionnement de l'appareil phonatoire humain repose sur l'interaction
entre trois entits : les poumons, le larynx, et le conduit vocal.
Figure 1.1 Organes de production de la parole
La figure 1.1 reprsente une vue globale de l'appareil de production de la parole. Le larynx est une
1
structure cartilagineuse qui a notamment comme fonction de rguler le dbit d'air via le
mouvement des cordes vocales. Le conduit vocal s'tend des cordes vocales jusqu'aux lvres dans
sa partie buccale et jusqu'aux narines dans sa partie nasale.
La parole apparat physiquement comme une variation de la pression de l'air cause et mise par
le systme articulatoire. L'air des poumons est comprim par l'action du diaphragme. Cet air sous
pression arrive ensuite au niveau des cordes vocales. Si les cordes sont cartes, l'air passe
librement et permet la production de bruit. Si elles sont fermes, la pression peut les mettre en
vibration et l'on obtient un son quasi-priodique dont la frquence fondamentale correspond
gnralement la hauteur de la voix perue. L'air mis ou non en vibration poursuit son chemin
travers le conduit vocal et se propage ensuite dans l'atmosphre. La forme de ce conduit,
dtermine par la position des articulateurs tels que la langue, la mchoire, les lvres ou le voile
du palais, dtermine le timbre des diffrents sons de la parole. Le conduit vocal est ainsi
considr comme un filtre pour les diffrentes sources de production de parole telles que les
vibrations des cordes vocales ou les turbulences engendres par le passage de l'air travers les
constrictions du conduit vocal.
Le son rsultant peut tre class comme vois ou non vois selon que l'air mis a fait vibrer les
cordes vocales ou non. Dans le cas des sons voiss, la frquence de vibration des cordes vocales,
dite frquence fondamentale ou pitch, not F0, s'tend gnralement de 70 400 hertz.
L'volution de la frquence fondamentale dtermine la mlodie de la parole. Son tendue dpend
des locuteurs, de leurs habitudes mais aussi de leurs tats physique et mental.
1.2 Mcanismes d'audition de la parole
La parole est un vecteur de transmission d'information d'une grande complexit. En tant que
rcepteur de ce vecteur, l'appareil auditif de l'tre humain se caractrise par une grande finesse
d'analyse de cette complexit et par une grande robustesse l'environnement. Pour cette raison,
de nombreux systmes de traitement de la parole tentent de reproduire les fonctionnalits de cet
appareil.
Les mcanismes physiologiques qui permettent l'audition d'un message oral sont classiquement
spars en deux parties : l'appareil auditif priphrique et le systme auditif central. Dans ce qui
suit, nous prsentons succinctement l'appareil l'auditif priphrique chez l'tre humain pour
2
introduire la description d'importantes proprits perceptives du systme auditif en relation avec

la psycho-acoustique.
Loreille est divise en trois parties distinctes, cette division se faisant en fonction de la distance
par rapport lenvironnement arien, porteur des sons. Une premire partie, loreille externe,
correspond la partie visible de lorgane, pavillon et lobe, laquelle est rattach le conduit
auditif externe qui permet de propager le son jusquau tympan.
Le tympan marque la frontire entre loreille externe et loreille moyenne. Les organes de loreille
moyenne permettent de transformer les sons en vibrations grce au contact quils ont avec le
tympan. Ces vibrations, une fois gnres, sont transmises la cochle qui constitue lorgane
majeur de loreille interne. La cochle permet de transformer les vibrations en influx nerveux par
le biais de cellules cilies qui captent les vibrations produites dans le fluide de la membrane
basilaire par ltrier, le dernier os de loreille moyenne. Cet influx nerveux est alors transmis au
cerveau en charge du traitement. Une description dtaille de loreille (figure 1.2) permettra au
lecteur de mieux apprhender les diffrents organes la constituant et de mieux visualiser leur
rpartition. Il faut noter que la prsence de deux oreilles permet deffectuer, au niveau du cerveau,
des traitements plus complexes que le simple dcodage dune scne auditive. Le positionnement
des oreilles de chaque ct du crne permet en effet de profiter des capacits de la binauralit.
Cette facult permet de calculer la provenance dun son en fonction du retard darrive de ce son
dans une oreille par rapport lautre. Il est noter que cette binauralit permet lhomme de
discerner la position horizontale de lmetteur dun son mais pas sa position verticale.
Figure 1.2 : Coupe de lappareil auditif humain
3
Loreille ragit des sons de diverses frquences qui peuvent tre regroupes sur des chelles
linaires ou non linaires.
1.3 Proprits psycho-acoustiques du systme auditif

La psycho-acoustique a pour objet l'tude des relations quantitatives entre les stimuli
acoustiques et les rponses du systme auditif de l'tre humain
Les rsultats les plus marquants de cette science sont les suivants :
1.3.1 chelle d'intensit
Le systme auditif ne prsente pas une sensibilit l'intensit sonore identique toutes les
frquences. En effet, des sons d'intensit sonore gale n'auront pas la mme sonie (l'intensit
perue) selon qu'ils soient de haute frquence 10kHz, de basse frquence 100Hz, ou de frquence
moyenne 1kHz. Ainsi, si ces trois sons ont une mme intensit de 40dB, les sons de frquence
100Hz et 10kHz seront plus faiblement perus que le son de frquence 1kHz.
Les courbes d'isosonie reprsentent les niveaux d'intensit sonore gnrant une perception
auditive d'gale intensit en fonction de la frquence du son stimulant (figure. 1.3).
Figure 1.3 Courbes d'isosonie

1.3.2 chelle de hauteur
La tonie (la hauteur) d'un son est la qualification subjective de sa frquence. Des tudes
psycho-acoustiques ont en effet montr que la perception humaine du contenu frquentiel des
sons ne suit pas une chelle linaire mais une chelle frquentielle de Mel. Cette chelle est
approximativement linaire de 20 Hz jusqu' 1kHz et logarithmique de 1kHz jusqu' 20kHz.
4
Certains chercheurs utilisent chelle Bark. Mais les diffrences entre les deux chelles sont
peu importantes. La figure1.4 montre les diffrentes chelles naturelles de la membrane
basilaire [81].
Figure.1.4 les chelles naturelles de la membrane basilaire
1.4 Complexit du signal parole

La complexit du signal parole provient de la combinaison de plusieurs facteurs,
Principalement la redondance du signal acoustique la grande variabilit qui peut tre due
lenvironnement, la variabilit intera-locuteur et inter-locuteur, et les effets de coarticulation en
parole continue, qui doivent tre pris en compte lors de la conception dun system de RAP. Nous
allons maintenant voir les problmes lis la parole, ceux-ci sont relatifs la diffrence inne de
prononciation vis--vis de un ou plusieurs locuteurs.
1.5 Continuit et coarticulation
Tout discours peut tre retranscrit par des mots, qui peuvent leur tour tre dcrits comme
une suite de symboles lmentaire appels phonmes par les linguistes. Cela laisse supposer que
la parole est un processus squentiel, au cours du quel des units indpendantes se succdent. La
parole est en ralit un flux continu, et il nexiste pas de pause entre les mots qui pourrait faciliter
leur localisation automatique par les systmes de reconnaissance.
De plus, les contraintes introduites par les mcanismes de production crent des phnomnes de
coarticulation. La production dun son est fortement influence par les sons qui le prcdent mais
aussi qui le suivent en raison de lanticipation du geste articulatoire. Ces effets stendent sur la
dure dune syllabe, voire mme au-del, et sont amplifis par une locution rapide.
5
1.6 Redondance du signal parole

Le signal acoustique prsente, dans le domaine temporel, une redondance qui rend
indispensable un traitement pralable toute tentative de reconnaissance. Il existe en effet une
grande disproportion entre le dbit du signal enregistr et la quantit dinformation cherche pour
une tache de reconnaissance. Un signal chantillonn 16 kHz sur 16 bits reprsente un dbit de
256k bit/s, alors quune tache de reconnaissance phontique recherche typiquement une dizaine
de phonmes la seconde, soit une compression de prs de 104 du dbit initial.
1.7 Variabilit
1.7.1 Variabilit intra-locuteur

La variabilit intra-locuteur identifie les diffrences dans le signal produit par une mme
personne. Cette variation peut rsulter de ltat physique ou moral du locuteur. Une maladie des
voies respiratoires peut ainsi dgrader la qualit du signal de parole de manire ce que celui-ci
devienne totalement incomprhensible, mme pour un tre humain. Lhumeur ou lmotion du
locuteur peut galement influencer son rythme dlocution, son intonation ou sa phrasologie. Il
existe un autre type de variabilit intra-locuteur li la phase de production de parole ou de
prparation la production de parole. Cette variation est due aux phnomnes de coarticulation
[67]. Il est possible de voir la phase de production de la parole comme un compromis entre une
minimisation de lnergie consomme pour produire des sons et une maximisation des scores
datteinte des cibles que sont les phonmes tels quils sont thoriquement dfinis par la
phontique.
1.7.2 Variabilit inter-locuteur

La variabilit inter-locuteur est un phnomne majeur en reconnaissance de la parole. La
cause principale des diffrences inter-locuteurs est de nature physiologique. La parole est
principalement produite grce aux cordes vocales qui gnrent un son une frquence de base, le
fondamental. Cette frquence de base sera diffrente dun individu lautre et plus gnralement
dun genre lautre, une voix dhomme tant plus grave quune voix de femme, la frquence du
fondamental tant plus faible. Ce son est ensuite transform par lintermdiaire du conduit vocal,
dlimit ses extrmits par le larynx et les lvres. Cette transformation, par convolution, permet
de gnrer des sons diffrents qui sont regroups selon les classes que nous avons nonces
6
prcdemment. Or le conduit vocal est de forme et de longueur variables selon les individus et,
plus gnralement, selon le genre et lge. Ainsi, le conduit vocal fminin adulte est, en moyenne,
dune longueur infrieure de 15% celui dun conduit vocal masculin adulte. Le conduit vocal
dun enfant est bien sr infrieur en longueur celui dun adulte. Les convolutions possibles
seront donc diffrentes et, le fondamental ntant pas constant, un mme phonme pourra avoir
des ralisations acoustiques trs diffrentes.
La variabilit inter-locuteur trouve galement son origine dans les diffrences de prononciation
qui existent au sein dune mme langue et qui constituent les accents rgionaux.
1.7.3 Variabilit due lenvironnement

La variabilit lie lenvironnement peut, parfois, tre considre comme une variabilit
intra-locuteur mais les distorsions provoques dans le signal de parole sont communes toute
personne soumise des conditions particulires. La variabilit due lenvironnement peut
galement provoquer une dgradation du signal de parole sans que le locuteur ait modifi son
mode dlocution.
Les moyens de transport peuvent entraner des dformations du signal, dorigine psychologique.
Le bruit ambiant peut ainsi provoquer une dformation du signal de parole en obligeant le
locuteur accentuer son effort vocal. Enfin, le stress et langoisse que certaines personnes
finissent par prouver lors de longs voyages peuvent galement tre mis au rang des contraintes
environnementales susceptibles de modifier le mode dlocution.
1.8 Description acoustique
Il est possible de classer les diffrents sons visibles sur un spectrogramme selon leurs
classes respectives en trs peu de temps et sans aucune coute de la phrase correspondante. Le
travail des phonticiens est ce titre trs intressant et parfois fort impressionnant.
La figure1.5 nous montre une transcription du mot ( ). Laxe des abscisses du
spectrogramme reprsente le temps, laxe des ordonnes reprsentant la frquence qui est, ici,
comprise entre 0 et 8Khz. Les nuances de gris du spectrogramme reprsentent lnergie du
signal pour une frquence et un instant donn. Lnergie minimale des spectrogrammes
prsents est de 30 dcibels (correspondant au gris le plus clair), lnergie maximale tant, elle,
de 100 dcibels (correspondant au noir).
7
Diacritiques arabe

Figure 1.5 Spectrogramme
Symboles API [ s ] du mot
[ ]
[ b/ ][ sblun
[ i ]] chantillonne [ 16KHz
l ] [ u(calculer
] [ navec
] une
fentre de hamming de 256 points )
(a) laxe des frquence

(b) produit par lappareil en absence du signal.
(c) Bruit de friction ( / [ s ] )
(d) Formants : la mesure se fait au centre de la bande noire.
(e) Modulation de lnergie la frquence fondamentale
(f) Barre dexplosion de locclusion.
(g) Barre de voisement
(h) Transitions formantiques.
(i) Formant faible de la sonnante ( / [ l ] ).
1.9 LAlphabet Arabe
L'alphabet arabe comprend vingt-huit lettres fondamentales, et s'crit de droite gauche. Il n'y a
pas de diffrence entre les lettres manuscrites et les lettres imprimes ; les notions de lettre
capitale et lettre minuscule n'existent pas (l'criture est donc monocamrale). En revanche, la
plupart des lettres s'attachent entre elles, mme en imprimerie, et leur graphie diffre selon
qu'elles sont prcdes et/ou suivies d'autres lettres ou qu'elles sont isoles (on parle de variantes
contextuelles). L'alphabet arabe est un abjad, terme technique dcrivant les critures dans
lesquels les voyelles ne sont pas implicitement notes ; le lecteur doit donc connatre la langue
pour les restituer. Dans les ditions du Coran ou les ouvrages didactiques, cependant, on utilise
8
une notation vocalique sous forme ddia critique.
API FORME NOM VALEUR API FORME NOM VALEUR

[a] alif [d ] dd d emph
[b] b b [] t t emph
[t] t t [z ] z z emph
[] th th , angl [a] ayn
[] djm dj [3] ghayn rh, gh
[h] h h [f] f f
[] kh kh, ch [q] qf q
[d] dl d [k] kf k
[] dhl dh, angl [l] lm l
[r] r r roul [m] mm m
[z] zy z [n] nn n
[s] sn s [h] h h
>@ chn ch [w] ww , w
[ s ] sd s emph [j] y , y
Tableau 1.1 LAlphabet arabe
1.10 Les classes phontiques arabes
Les phonmes, le cas chant, sont nots par paire, sourd d'abord puis sonore. Toutes ces classes
peuvent se retrouver dans le tableau ci-dessous :
Phontique Bilab Labiodent Dent Alvol Post-alvol Palat Vlaire uvulaire Pharyng Glot
~
Occlusives
Nasales
9
~ ~ ~
Fricatives

Spirantes
Affriques [dj]

Liquides
Vibrantes
Tableau 1.2 Classification des phonmes arabes.
Dfinition des diffrentes abrviations :

Vlaire : Se dit des voyelles ou des consonnes articules prs du voile du palais.
Uvulaire : consonne dont le lieu d'articulation se situe l'extrmit postrieure du palais mou, au niveau
de la luette.
Pharyngal : Se dit d'une consonne articule en rapprochant la racine de la langue et la paroi arrire du
pharynx.
Glottal : Emis par la glotte.
Alvole : Consonne articule avec la pointe de la langue au niveau des alvoles des dents.
Dentale : Consonne dentale que l'on prononce en appuyant la langue sur les dents.
Bilabiale : Consonne labiale ralise avec la participation des deux lvres.
labiodentale : Se dit d'une consonne ralise avec la lvre infrieure et les incisives suprieures.
Palatale : Se dit d'une voyelle ou d'une consonne qui a son point d'articulation situ dans la rgion du
palais dur .
1.11 Classification Phontiques
Les diffrents sons de la parole sont regroups en classes phontiques en fonction de leurs
caractristiques principales. Ces caractristiques reprsentent des diffrences qui sont
suffisamment importantes pour quil soit possible de classer les diffrents sons visibles sur un
spectrogramme selon leur classe respective en trs peu de temps et sans aucune coute de la
phrase correspondante.
Les diffrentes classes phontiques existantes, dont nous donnons ci-aprs la liste, correspondent
des regroupements qui suivent, dans les grands principes, les catgories de lalphabet. Il existe
ici aussi une diffrence entre voyelles et consonnes par exemple. Mais ltude des sons de la
10
parole a oblig nuancer cette rpartition et crer dautres classes subdivisant lensemble des
consonnes.
Les diffrentes classes phontiques prsentes en Arabe, Anglais et Franais sont :
1.11.1 Les Voyelles

Cette classe correspond, quelques nuances supplmentaires prs, aux voyelles de lcrit.
Elles se caractrisent principalement par le voisement qui cre des formants. Ces formants, qui
sont des zones frquentielles de forte nergie, correspondent une rsonance dans le conduit
vocal de la frquence fondamentale produite par les cordes vocales. Ces formants peuvent
slever jusqu des frquences de 5 kHz mais ce sont principalement les formants en basses
frquences qui caractrisent les voyelles. Cette caractristique permet dailleurs de distinguer
grossirement les voyelles en fonction de leur premier et deuxime formant.
1.11.2 Les Occlusives

Les phonmes de cette classe se caractrisent oralement par la fermeture du conduit vocal,
fermeture prcdant un brusque relchement. Les occlusives sont donc constitues de deux
parties successives : une premire partie de silence, correspondant locclusion effective, et une
deuxime partie dexplosion, au moment du relchement. Les occlusives peuvent tre voises,
la manire des voyelles, ou sourdes, cest dire non voises. Les occlusives voises peuvent
galement tre appeles occlusives sonores.
1.11.3 Les Fricatives :

Dans cette classe sont regroups les sons produits par la friction de lair dans le conduit
vocal lorsque celui-ci est rtrci au niveau des lvres, des dents ou de la langue. Cette friction
produit un bruit de hautes frquences et peut tre voise ou sourde.
1.11.4 Les Sonnantes

Cette classe est en fait constitue, pour simplification, du regroupement des trois sous-classes que
sont les semi-consonnes, les liquides et les nasales.
1.11.5 Les Semi-voyelles
11
Elles ont la structure acoustique des voyelles mais ne peuvent en jouer le rle car elles ne
sont que des transitions vers dautres voyelles qui sont les vritables noyaux syllabiques. Dun
point de vue syntaxique, une rgle stricte de la langue franaise veut que deux voyelles ne
puissent jamais se suivre. Cette rgle est trs largement respecte dans la construction des mots
mais prsente, comme toute rgle, quelques exceptions. La classe des semi-consonnes a t cre
pour pallier ces exceptions de manire gracieuse. Les semi-consonnes sont videment sonores.
1.11.6 Les Liquides

Les liquides sont trs similaires aux voyelles et aux semi-consonnes mais leur dure et leur
nergie sont gnralement plus faibles. Elles sont sonores.
1.11.7 Les Nasales

Les phonmes sont forms par passage de lair dans le conduit vocal depuis les cordes vocales.
Ce passage exclut normalement toute connexion du conduit normal, le conduit buccal, avec le
conduit nasal. Ce dernier peut cependant tre employ, dans un nombre limit de cas puisque sa
physionomie ne permet pas de crer des sons autrement quen modifiant le volume de la caisse de
rsonance quil constitue par lintermdiaire de la langue, faisant occlusion dans le conduit
buccal. Les nasales sont donc produites de la mme manire que les occlusives nasales mais lair
nest pas, cette fois, comprim dans le conduit vocal. Le vlum est en effet abaiss pour permettre
lair dtre expir. Les nasales sont voises. Il est noter que certaines voyelles possdent
galement un caractre de nasalit.
1.11.8 Les Diphtongues

Cette classe phontique est propre langlo-amricain et larabe. Les phonmes qui
composent cette classe se caractrisent par deux tats stables formantiques et par la transition
entre ces deux tats.
1.11.9 Les Affriques

Cette classe est, elle aussi, propre langlo-amricain et larabe mais les affriques peuvent
galement tre observes dans le franais qubcois. Les affriques sont composes dun
occlusive immdiatement suivie par une fricative de dure cependant plus faible que celle des
12
vritables fricatives.
1.11.10 Les Emphatiques
L'arabe connat une srie de consonnes complexes, dites emphatiques , qui

comprennent, simultanment au phonme, un recul de la racine de la langue (crant ainsi une
augmentation du volume de la cavit buccale ) vers le fond de la bouche ( recul not en API au
moyen de souscrit et une pharyngalisation (API : adscrit), c'est dire une prononciation
simultane du phonme au niveau du pharynx, l o s'articule []. On note mme une certaine
vlarisation, ou prononciation simultane du phonme au niveau du palais mou, le velum ou
voile du palais .
Les consonnes emphatiques sont les suivantes :
[ t ] [ z ] [ s d ] [ d d ] [ayn ] [ qf ]
Tableau 1.3 les consonnes emphatiques
1.12 L'alphabet arabe n'a pas de voyelles
Toutes les lettres des tableaux prcdents sont des consonnes (ou des lettres muettes). Les
voyelles ne sont que rarement notes, et si elles le sont, c'est sous la forme de diacritiques.
Ainsi, alif n'est pas la voyelle mais une lettre de prolongement pour la voyelle /a/ (voir
la section voyelles simples ) ou un support pour divers diacritiques, dont un transcrit
une consonne, la hamza (voir plus bas). Il est donc improprement transcrit par ;
de mme, la lettre alif maqsra, qui ne s'utilise qu'en fin de mot, est une autre lettre de
prolongement pour la voyelle /a/. Son nom indique le son obtenu, alif de prolongement
, et non sa forme, puisque la lettre ressemble un y ;
enfin, le t marbta est aussi une consonne, savoir un /t/ ; toutefois, elle ne se trouve
qu'en fin de mot et toujours prcde de /a/. Le son /t/, cependant, n'est prononc que si
13
les voyelles casuelles finales qui suivent la lettre le sont aussi ; or, ces voyelles sont souvent
omises dans la prononciation courante.
1.12.1 Voyelles simples

Les voyelles (qui peuvent tre brves ou longues) ne sont gnralement pas crites, sauf
parfois dans les textes sacrs et didactiques, auquel cas l'on dit de ces textes qu'ils sont vocaliss
. Les brves sont des diacritiques placs sur ou sous la consonne qui les prcde dans la syllabe,
tandis que les longues sont notes par le diacritique de la brve quivalente suivie d'une consonne
de prolongement :
alif ou alif maqsra (seulement en fin de mot) pour l'allongement de /a/ ;

y pour celui de /i/ : iy = ;
ww pour celui de /u/ : uw = .
Voyelles simples Nom TIMIT
Fatha ae / aa
Damma ux / uh
Kasra ih / ix / ih
) Fatha + alif ah
*(( ) Fatha + maqsora ay
+(() Damma+ waw ux / uw
,) Kasra + yaa iy
Tableau 1.4 les voyelles simples et longues
Note : Les voyelles changent lgrement de timbre selon le contexte dans lequel elles se trouvent.
1.12.2 Suk-n
Une syllabe arabe peut tre ouverte (elle est termine par une voyelle) ou ferme (par une
consonne) :
14
ouverte : C[onsonne]V[oyelle] ;
ferme : CVC ; la voyelle en question est le plus souvent brve
Quand la syllabe est ferme, On peut indiquer que la consonne qui la ferme ne porte aucune
voyelle en plaant au dessus un signe nomm sukn, de la forme , pour lever tout ambigut .
exemple : (.(/0 ( qalb) ainsi les sukn permettent de savoir o ne pas placer une voyelle .
15

Chapitre 2 paramtrisation acoustique du signal parole
2.1 Introduction
Tout Les systme de reconnaissance de la parole sont diviss en deux parties, une
premire partie qui reprsente la phase dextraction des paramtres, et une deuxime partie qui est
le moteur de reconnaissance. Les performances des systmes de reconnaissance de la parole
dpendent de faon considrable des paramtres acoustiques utiliss.
Dans le prsent chapitre nous prsentons les paramtres acoustiques les plus utiliss en
reconnaissance automatique de la parole, quand on peut les dcomposs en deux types, ce qui
dpendent de la modlisation du systme de production de la parole tel que les paramtres LPC et
les paramtres LPCC, et ce qui dpendent de la perception de loreille humaine tel que les
paramtres acoustiques MFCC, PLP et PLP-RASTA. la fin de ce chapitre une valuation des
paramtres acoustiques tudis est faite.
Vecteur de
Signal parole Extraction des paramtre Moteur de Mot reconnu
paramtres reconnaissance
Figure 2.1 Schma bloc dun systme de reconnaissance de la parole

Ce chapitre est organis de la faon suivante. Dans la prochaine section, nous prsentons les
reprsentations non paramtriques. Dans la troisime section nous prsentons les reprsentations
paramtriques les plus utiliss dans la discipline (LPC, LPCC, MFCC, PLP, PLP-Rasta), en fin
dans la dernire section nous dfinirons les paramtres acoustiques MGDCC, MFGDCC et
MFPSCC, ces derniers qui dpendent du produit du spectre damplitude et de phase.
2.2 Reprsentations non paramtriques

Le signal de parole peut tre analys dans le domaine temporel ou dans le domaine
spectral par des mthodes non paramtriques, sans faire l'hypothse d'un modle pour rendre
compte du signal observ. Les reprsentations le plus souvent retenues sont l'nergie du signal et
les sorties d'un banc de filtres numriques.
2.2.1 Analyse temporelle
L'nergie du signal est un indice qui peut par exemple contribuer la dtection du
voisement d'un segment de parole. L'nergie totale E0 est calcule directement dans le domaine
temporel sur une trame de signal {S n } 0 n N-1 comme :
16
N 1
E0 = S n2 (2.1)
n =0
L nergie ainsi obtenue est sensible au niveau d'enregistrement; on choisit en gnral de la
normaliser, et d'exprimer sa valeur en dcibels par rapport un niveau de rfrence. D'autres
paramtres peuvent tre calculs dans le domaine temporel, comme les coefficients d'auto-
corrlation, le taux de passage par zro, ou encore la frquence fondamentale. L'estimation des
coefficients d'auto-corrlation {rk } est calcule par :
N 1
rk = sn sn k 0 k N 1 (2.2)
n =0
Ces coefficients sont utiliss dans le cadre de la modlisation auto-rgressive. Cependant, la

production de la parole rend souhaitable une analyse du signal dans le domaine spectral pour la
reconnaissance.
2.2.2 Analyse spectrale
La transforme de Fourier et limplantation algorithmique efficace qui y a t associe la
transforme de Fourier rapide, prsente de nombreux avantages en tant que mthode lanalyse
temps-frquence. La rapidit de sa mise en uvre la propuls au rang dlment incontournable
des systmes de traitement de signal. Mais, aprs la naissance de la notion de reprsentation
temps-frquence, qui fait suite lutilisation de reprsentations spectrographiques.
Des spectrogrammes ont t utiliss pour reprsenter la parole ds les annes 40 [79], en utilisant
des bancs de filtres analogiques. Actuellement, les spectres sont obtenus numriquement par
Transforme de Fourier Discrte, en particulier grce l'algorithme de la Transforme de Fourier
Rapide (FFT) [75].
Le spectre court terme {S k }, k = 0 N-1 est calcul partir des N chantillons
{S n }, n = 0 N-1 comme :
k
N 1 j 2n
S k = sn e N , 0 k N 1 (2.3)
n =0
L'intensit en dcibels du spectre est directement visualisable sous la forme d'un spectrogramme
pour une valuation qualitative du signal.
Le nombre de paramtres spectraux calculs sur une trame par FFT reste trop lev pour un
traitement automatique ultrieur. L'nergie du spectre est calcule travers un banc de filtres
17
numriques couvrant la bande passante, ce qui permet de ne conserver qu'une vingtaine de

valeurs d'nergie par exemple sur une bande passante de 8 kHz. Des filtres triangulaires sont
prfrs pour leur simplicit et leur effet de lissage sur le spectre.
2.2.3 Reprsentation graphique temps/frquence (Spectrogramme)

Le spectrogramme est un outil de visualisation utilisant la technique de la transforme de Fourier
et donc du calcul de spectres. Il a commenc tre largement utilis en 1947, lapparition du
sonagraphe [54], et est devenu loutil incontournable des tudes en phontique pendant de
nombreuses annes. Il est largement utilis du fait de sa simplicit de mise en uvre et du grand
nombre dtudes qui ont dj t ralises.
Le spectrogramme permet de mettre en vidence les diffrentes composantes frquentielles du
signal un instant donn, une transforme de Fourier rapide [73] tant rgulirement calcule
des intervalles de temps rapprochs.
Lensemble du processus de calcul dun spectrogramme est rsum dans la figure suivante.
Figure 2.3 Mthode de calcul dune transforme de Fourier rapide
Laxe des abscisses du signal temporel reprsente le temps alors que laxe des ordonnes
reprsente lamplitude du signal. Laxe des abscisses du spectrogramme reprsente galement le
temps, laxe des ordonnes reprsentant la frquence qui est, ici, comprise entre 0 et 5512 Hz. Les
nuances de gris du spectrogramme reprsentent lnergie du signal pour une frquence et un
instant donn. Lnergie minimale des spectrogrammes prsents est de 30 dcibels
(correspondant au gris le plus clair), lnergie maximale tant, elle, de 100 dcibels
(correspondant au noir).
18
Figure 2.4 Reprsentation temporelle (en haut), spectrogramme (en bas) du mot zro en arabe
2.3 Reprsentations paramtriques

Pour rsoudre les problmes lis la complexit de la parole, il est possible de calculer
des coefficients reprsentatifs du signal trait. Ces coefficients sont calculs lintervalle
temporel rgulier. En simplifiant les choses, le signal de parole est transform en une srie de
vecteurs de coefficients.
Ces coefficients doivent reprsenter au mieux le signal quils sont censs modliser, et extraire le
maximum dinformations utiles pour la reconnaissance.
Un systme de paramtrisation du signal, se dcompose en deux blocs (figure 2.5), le premier de

mise en forme (figure 2.6) et lautre de calcul de coefficients.
Le signal analogique est fourni en entre et une suite discrte de vecteurs, appele trame
acoustique est obtenue en sortie.
Signal parole Vecteur de

Chane de Calcul des coefficients (MFCC, paramtrisation
analogique
LPC, PLP, nergie, coefficients
Prtraitement
diffrentiels)
Figure 2.5 Phase de paramtrisation acoustique
2.3.1 Chane de prs-traitement

Il est ncessaire de mettre en forme le signal de parole. Pour cela, quelques oprations
sont effectues avant tout traitement. La (figure 2.6) illustre lensemble de ces oprations. Le
signal est tous dabord filtr puis chantillonn une frquence donne. Une pr-accentuation est
effectue afin de relever les hautes frquences. Qui sont moins nergtiques que les basses
19
frquences; la pr-accentuation sn' de l'chantillon sn l'instant n est calcule pour une valeur
comprise entre 0,9 et 1 comme :
S n' = S n S n 1 (2.4)
Puis le signal est segment en trames. Chaque trame est constitue dun nombre N fixe
dchantillons de parole. En gnral, N est fix de telle manire que chaque trames corresponde
environs 25 ms de parole (dure pendant laquelle la parole peut tre considre comme
stationnaire). Enfin une multiplication par une fentre de pondration Wn est effectue, afin de
rduire les effets de bords. Le choix se porte gnralement sur les fentres de Hamming ou de
Hanning:
n
Ham min g (n) = 0,54 0,64 cos 2 , 0 n N - 1 (2.5)
N 1
n
Hanning (n) = 0,5 0,4 cos 2 , 0 n N - 1 (2.6)
N 1
avec
S n'' = Wn S n' (2.7)
Aprs cette mise en forme du signal (commune la plupart des mthodes danalyse de la parole),
une transforme de Fourier discrte DFT en particulier FFT (Transform de Fourier Rapide) est
applique pour passer dans le domaine frquentiel.
s(t)
Filtrage et sn Pr-accentuation
sn Segmentation Multiplication par une sn
Echantillonnage en trames fentre de Hamming Signal
Signal
analogique discrtis
Figure 2.6 Chane de prtraitement du signal parole
2.3.2 Lanalyse LPC

Le principe du modle autorgressif du signal de parole est de modliser le processus
phonatoire par un systme de synthse lmentaire comprenant un module d'excitation gain
variable G, suivi par un filtre tout-ples d'ordre p (LPC: Linear Predictive Coding). Les
coefficients du filtre sont considrs constants pendant des intervalles de temps rduits de l'ordre
de 25 ms (hypothse de quasi-stationnarit). L'excitation u est soit priodique (train
d'impulsions, ou plus gnralement signal priodique dont le spectre d'amplitude est un train
d'impulsions, ce qui permet de modliser les dphasages entre les diffrentes harmoniques), soit
20
stochastique (bruit blanc), et ventuellement mixte, de faon pouvoir modliser les sons voiss
ainsi que les sons non-voiss.
Remarquons que pour le cas des sons purement voiss, l'excitation du systme reprsentera
l'action opre par la vibration des cordes vocales, alors que le filtre reprsentera l'action du
conduit vocal. Pour le cas de sons partiellement non voiss par contre, le signal acoustique est le
rsultat d'un processus plus complexe faisant intervenir la frication, c'est dire les perturbations
cres par le passage de l'air au travers des constrictions du conduit vocal ou des lvres.
L'interprtation du modle n'est donc plus aussi simple. Ce modle reste cependant trs utilis en
pratique car, quel que soit la nature priodique ou apriodique du signal, la fonction de transfert
du filtre sera un bon modle de l'enveloppe spectrale du signal, caractristique essentielle pour la
distinction des sons linguistiques.
La prdiction linaire [71] permet la modlisation d'un signal s (n) comme une combinaison
linaire de ses valeurs passes et des valeurs d'un signal dexcitation u (n) .
Un chantillon s (n) est calcul comme suit :
p
s (n) = ai s (n i ) + Gu (n) (2.8)
i =1
En effectuant la transformation en Z , on obtient
p
S ( z ) = ai z i S ( z ) + GU ( z ) (2.9)
i =1i
La fonction de transfert du filtre est bien videmment exprime par :
S ( z) 1
H ( z) = = (2.10)
GU ( z ) 1 i =1 ai z i
p
et devra idalement avoir un ordre suffisamment lev pour modliser avec prcision la structure
en formants du spectre du signal. L'ordre ne sera cependant pas trop lev, et ce pour viter la
modlisation de dtails spectraux au contenu linguistique ngligeable. On estime en gnral avoir
besoin d'une paire de ples par kHz de bande passante, plus 3 ou 4 ples pour l'excitation
glottique et la radiation des lvres. Pour une frquence d'chantillonnage de 8 kHz, on choisira
21
donc un ordre de 11 ou 12. Les expriences de reconnaissance vocale montrent que ces valeurs
sont raisonnables.
Les paramtres de ce modle, savoir le gain, l'excitation et les coefficients ai peuvent tre
estimes par des mthodes d'analyse. Une interprtation de ces mthodes d'analyse est de sparer
la source et la structure, et donc d'obtenir des paramtres de structure ai relativement ''propres''.
A partir du modle qui vient d'tre dcrit, une estimation de l'chantillon s (n) peut-tre calcule
de la sorte:
p
s(n) = ai s (n i ) (2.11)
i =1
L'erreur de prdiction s(n) s (n) vaut donc :
p
s ( n) a i s ( n i ) (2.12)
i =1
Une estimation des paramtres ai peut tre obtenue par minimisation de la somme des carrs des
erreurs de prdiction sur une trame de parole provenant des tapes de traitement prcdentes, ce
qui conduit un systme linaire de p quations p inconnues faisant intervenir la fonction de
covariance du signal s . En limitant l'ordre de la somme des erreurs de prdiction par dfinition
d'une fentre de signal de dure limite, on peut montrer que les lments intervenant dans le
systme d'quation sont les p + 1 premiers lments de la fonction d'autocorrlation du signal.
De plus, la matrice du systme est une matrice de Toeplitz (les lments de toutes les diagonales
sont gaux) symtrique. Cette particularit permet l'utilisation d'une mthode de rsolution
particulirement efficace appele rcursion de Durbin. Une description de cette mthode peut tre
trouve dans [46].
2.3.3 LPCC (Linear Prediction Cepstral Coefficients)
Les paramtres LPCC sont calculs partir d'une modlisation auto-rgressive du signal.
Si un modle auto-rgressif A(1, a1 ....a p ) d'ordre p a t estim sur une trame du signal, les d
premiers coefficients cepstraux C n sont obtenus par :
22
1 n 1
C n = a n + (n i)ai C n i 1 n d (2.13)
n i =1
Ces coefficients sont utiliss AT&T [60].

Ensuite un liftrage est effectu pour augmenter la robustesse des coefficients cepstraux, ce liftrage
consiste en une multiplication par la fentre de poids (reprsent par la formule (2.13)) par des
coefficients cepstraux augmentant lamplitude des coefficients connus pour tre moins sensibles
au canal de transmission et au locuteur
L i
i [1, L] w(i ) = 1 + sin (2.14)
2 L
L i
ci = 1 + sin ai (2.15)
2 L
O L est le nombre de coefficients. Cette mthode de prdiction linaire est beaucoup Plus
utilise en reconnaissance de la parole que celle de lanalyse spectrale.
2.3.4 Les coefficients PLP (Perceptual Linear Predictive)

PLP est une technique d'analyse de la parole [57] fonde sur la modlisation du spectre par un
modle tout ple suivant un principe identique la technique de prdiction linaire (LP).
Cependant, la diffrence rside dans le fait que les paramtres d'un filtre auto-rgressif tout ple
sont estims en modlisant au mieux le spectre auditif. Ceci est fond sur trois effets auditifs :
slectivit spectrale de bande critique, courbe d'intensit gale et loi de puissance.
Loi de Solution pour

FFT |-|2 Analyse de puissance IDFT coefficients
Signal bande critique PLP
Cubique auto regressif
parole
Figure 2.7 tapes de calcule des coefficient PLP
La figure ci-dessus reprsente le processus de calcul des coefficients PLP. Pour obtenir un spectre
auditif, la courbe de masquage () est tout d'abord utilise
0 si 1,3
10 2 ,5( + 0 ,5 ) si -1,3 0 ,5

() = 1 si -0 ,5 0 ,5 (2.16)
10 1,0( 0 ,5 ) si 0 ,5 2 ,5

0 si 2 ,5
23
O est la frquence de Bark calcule partir de la frquence angulaire par la dfinition :

1
2 2
( ) = 6 ln + + 1 (2.17)
1200 1200

Le spectre de puissance du signal P( ) (pair et priodique) est convolu avec la courbe de
masquage:
= +2 ,3
(k ) = P( k )() (2.18)
= 1,3
Puis, lalgorithme tente de faire l'approximation de la sensibilit de l'oreille humaine diffrentes
frquences par l'intermdiaire d'une fonction de transfert E ( ) :
(()) = E()( ( ) ) (2.19)

La non-linarit entre l'intensit d'un son et son niveau de perception par l'oreille est ralise en
l'approchant par une loi de puissance :
1
() = () 3 (2.20)
Enfin le spectre auditif est modlis par un modle tout-ple. Une transforme de Fourier inverse
discrte est applique sur le spectre auditif () pour obtenir les valeurs d'autocorrlation. M+1
premiers coefficients d'autocorrlation sont utiliss pour calculer les coefficients auto rgressifs
du modle tout ple d'ordre M qu'on appelle les coefficients PLPs.
Comme la mthode LPC, les coefficients cepstraux peuvent tre obtenus partir des coefficients
PLPs.
2.3.5 Rasta PLP

La mthode PLP [57], dont lalgorithme repose sur des spectres court terme de la parole, rsiste
difficilement aux contraintes qui peuvent lui tre imposes par la rponse frquentielle dun canal
de communication. Pour attnuer les effets de distorsions spectrales linaires, [53] propose de
modifier lalgorithme PLP en remplaant le spectre court terme par un spectre estim o chaque
canal frquentiel est modifi par passage travers un filtre. Cette modification est la base de la
mthode RASTA PLP, RASTA tant lacronyme de RelAtive SpecTrAl [53]. La mise en place de
ce filtrage permet, lorsquil est effectu dans le domaine spectral logarithmique, de supprimer les
composantes spectrales constantes, supprimant ainsi les effets de convolution du canal de
communication.
24
Nous dcrivant dans ce qui suit Algorithme de calcule des coefficients RASTA PLP
1. Calcul le spectre damplitude en bandes critiques (comme pour la PLP).
2. Compression de lamplitude laide dune transformation non linaire.
3. Filtrage des trajectoires temporelles de chaque composante spectrale.
4. Expansion de lamplitude laide dune transformation non linaire.
5. Praccentuation laide du contour dgale intensit sonore et prise en compte de lchelle
sonore par lvation la puissance 0.33.
6. Calcul du modle tout pole du spectre selon la mthode PLP classique.
Figure 2.8 Rponse frquentielle du filtre passe bande RASTA
2.3.6 Analyse cepstrale

L'analyse cepstrale permet, dans le cas d'un signal de parole, la sparation des deux composantes
de ce signal que sont : l'excitation de la source et la rponse du conduit vocal [68]. Comme la
modlisation linaire prdictive, cette analyse suppose que l'appareil de production de la parole se
comporte comme un modle source-filtre. Le signal de parole rsulte donc du produit de
convolution de l'excitation et de la rponse impulsionnelle du filtre
s ( n) = e( n ) h( n) (2.21)
Un traitement appel dconvolution, ou traitement homomorphique de la convolution, permet de
sparer les signaux e(n) et h(n) .
Ce traitement consiste calculer d'abord la transforme de Fourier du signal s (n) , c'est--dire
S ( ) = E ( ) H ( ) (2.22)
En prenant le logarithme de cette expression, puis en faisant une transforme de Fourier inverse,
on obtient le cepstre :
s(n) = TF 1 (log E ( ) ) + TF 1 (log H ( ) ) (2.23)

o TF 1 dsigne le transforme de Fourier inverse.
25
On appellera le signal s( n) obtenu par cette opration cepstre complexe associ au signal s ( n) .
On a donc [68] :
s(n) = e(n) + h(n) (2.24)

Si, comme le signal de parole, le signal s ( n) est un signal rel, alors s( n) sera aussi rel et on
pourra le calculer partir du module de la transforme de Fourier.
Le cepstre rel est ainsi dfini comme la transforme de Fourier inverse du logarithme du module
de la transforme de Fourier d'une fentre court terme du signal de parole :
c(n) = TF 1 (log(S (k ) ) (2.25)

k
1 K 1 j 2n
= log(S (k )e K (2.26)
k k =0
2
avec S (k ) = s (k ) la densit spectrale de puissance du signal
Pour estimer la contribution du conduit vocal dans le signal de parole, on ne conserve que les
premiers chantillons du cepstre c(n) qui correspondent en particulier aux informations sur les
formants. Les chantillons du cepstre d'ordre plus lev correspondent en gnral aux
caractristiques de la frquence fondamentale des cordes vocales.
Une des proprits du cepstre est qu'il effectue un filtrage passe-bas du spectre du signal et tend
donc lisser les irrgularits du spectre. De ce fait, les amplitudes des harmoniques ne sont pas
conserves. Pour palier ce problme et obtenir une enveloppe spectrale passant par les amplitudes
des harmoniques du signal, Galas et Rodet ont propos une mthode dite du cepstre discret [55].
2.3.7 L'analyse MFCC

L'analyse acoustique MFCC est l'une des techniques les plus utilises pour la paramtrisation du
signal en segmentation markovienne de parole.
Cette technique est base sur deux ides cls [65] [47] [39]. La premire consiste exploiter les
proprits du systme auditif humain par la transformation de l'chelle linaire des frquences en
chelle de Mel. Et la deuxime consiste effectuer une transformation cepstrale qui permet la
dcorrlation des composantes spectrales du signal de parole.
Pour transformer une frquence linaire en une frquence Mel, on utilise la formule de
transformation suivante:
f
B( f ) = 2595 log10 1 + (2.27)
700
26
o f est la frquence en Hz, B(f) est la frquence mel-chelle de f.

Les bandes-passantes sont de mme taille dans lchelle Mel.
Figure 2.9 Les filtres triangulaires passe-bande en Mel-Frq (B(f)) et en frquence (f)
On peut calculer les points frontires B( j ) des filtres en mel-frquence ainsi :
B(f h ) B(f l )
B( j ) = B(f l ) + j 0 j N +1 (2.28)
J +1
N est le nombre de filtres ( N = 22 ).
On doit calculer les points f ( j ) correspondants dans le domaine de frquence relle :
N 1
f ( j) = B B( j ) (2.29)
Fs
Puis on dtermine tous les coefficients de chaque filtre :

0 k f ( j 1)

k f ( j 1)
f ( j 1) k f ( j )
f ( j ) f ( j 1) (2.30)
H j( k ) =
f ( j + 1) k
f ( j ) k f ( j + 1)
f ( j + 1) f ( j )

0 k f ( j + 1)

L'analyse MFCC comporte plusieurs tapes reprsentes dans la (figure 2.12). Le pr-traitement
consiste effectuer sur le signal de parole, chantillonn 11025 Hz et quantifi sur 16 bits, les
oprations suivantes :
Toutes les 10ms (110 chantillons), une trame acoustique de 25ms (275 chantillons) est
extraite du signal.
La composante continue des chantillons constituant cette trame est enleve.
Afin de compenser l'attnuation naturelle du spectre du signal de parole, la squence des
chantillons constituant la trame subit une pr-accentuation avec le filtre du premier ordre
H ( Z ) = 1 0,97 Z 1 (2.40)
27
Figure 2.10 Schma en blocs de l'analyse acoustique permettant le calcul des vecteurs MFCC.
Pour attnuer les distorsions spectrales introduites par l'extraction de la trame du signal de parole,
on pondre les chantillons de cette trame par la fentre de Hamming.
L'analyse MFCC proprement dite consiste effectuer sur chacune des trames rsultantes du pr-
traitement les oprations suivantes :
La transformation de Fourier permet de calculer le spectre d'amplitude de la trame.
Pour chacun des 22 filtres triangulaires rpartis sur l'chelle des frquences de Mel, l'nergie
du spectre d'amplitude en sortie de ce filtre est calcule. Cette opration donne un vecteur de
22 valeurs nergtiques E j .
N 1 2
E j = S (k ) H j (k ) (2.31)
k =0
Les logarithmes de ces 22 valeurs sont alors transforms en 12 coefficients MFCC par
l'inverse de la transforme en cosinus discrte :
2 N i
ci = log10 ( E j ) cos ( j + 0,5) (2.32)
N j =1 N
o ci est le ieme coefficient mel-cepstral, E j est l'nergie du spectre calcule sur la bande passante
du jeme filtre, et N est le nombre de filtres ( N = 22 ).

Afin d'augmenter la robustesse de ces coefficients pour le calcul des distances cepstrales, une
pondration en sinus (liftering) est applique sur les coefficients MFCC ci [46] :
28
L i
ci = 1 + sin ci 1 i 12 (2.33)
2 L
o ci est le ime coefficient mel-cepstral liftr et L est le coefficient du liftering (L = 22). Ces
pondrations corrigent la dcroissance rapide des coefficients MFCC d'indice lev et permet
l'utilisation d'une distance euclidienne.
2.3.8 Produit spectral et la fonction de temps de groupe

Les coefficients MFCC sont les paramtres acoustiques les plus largement utiliss en
reconnaissance de la parole. Ils se drivent du spectre de puissance du signal parole.
Rcemment, des tudes ont t mens par Murthy et Gadde dans [21] sur les paramtres
cepstraux bass sur la fonction de temps de groupe (GDF : Group Delay Function). Dans ce qui
suit nous prsentons des paramtres acoustiques robustes proposs par Donglai et Paliwal dans
[18] qui dpendent du produit du spectre de puissance et de la fonction de temps de groupe, et qui
rsultent des coefficients cepstrals de Mel du produit spectral. Le spectre rsultant est une
combinaison entre le spectre damplitude et le spectre de phase.
2.3.8.1 Dfinition de la fonction de temps de groupe

Soit la trame du signal parole x( n), n = 0 N 1 sa transforme de Fourier est donne par :
X ( ) = X ( ) e j ( ) (2.34)
La fonction de temps de groupe (GDF : group Delay function) est dfinie par [72] :
d ( )
p ( ) = (2.35)
d
Lquation (2. 35) peut tre simplifie comme suit [72]:
d (log( X ( ))
p ( ) = Im (2.36)
d
X R ( )YR ( ) + X I ( )YI ( )
= 2
(2.37)
X ( )
O Y ( ) est la transforme de Fourier de nx(n) , I et R pour designer respectivement la partie
imaginaire et la partie relle. La figure 2.13 (a), (b) et (c) montre une trame (de dure T=30ms) de
la voyelle (i), son spectre de puissance et sa GDF respectivement. Avant le calcul de la
transforme de Fourier, le signal parole a subit un filtrage de pre-accentuation ensuite une
multiplication par la fentre de Hamming. Dans le spectre de puissance les formants sont
29
clairement visibles, cependant, il y a seulement des pics sans signification dans la GDF. Ils se
produisent en raison du spectre de puissance dans le dnominateur dans lquation (2.37). Afin
de rendre la GDF significative, une modification a t propose pour la GDF en remplaant le
2
spectre de puissance X ( ) par le spectre de puissance cepstral liss ( S ( )) 2 dans lquation
(2.37) [50]. Il donne la MGDF comme suit

X R ( )YR ( ) + X I ( )YI ( )
= (2.38)
( S ( )) 2
La figure 2.13 (d) montre que la MGDF du signal a des valeurs ngatives, qui doivent tre limit
par un seuil non ngatif avant le calcul des valeurs en dB. Nous adoptons le seuil dynamique
propos dans [47], c.--d., rejet des valeurs au-dessous d'un certain seuil de la crte dans le
spectre. Dans notre cas le seuil a t plac - 60dB.
En outre, la MGDF a une enveloppe plutt plate, qui est obtenu par la prsence du spectre de
puissance liss dans le dnominateur de l'quation (2.38).
2.3.8.2 Produit spectral

Donglai et Paliwal dans [18] ont dfini le produit spectrale par Q( ) comme le produit du
spectre de puissance par la GDF, et il est dfini comme suit :
2
Q( ) = X ( ) p ( ) (2.39)
= X R ( )YR ( ) + X I ( )YI ( ) (2.40)
Le spectre du produit est influenc par les deux spectre, spectre damplitude et spectre de phase.
La figure 2.13 (e) montre le spectre de produit spectral du signal. Il amliore les rgions aux
formants au-dessus du MGDF et il a une enveloppe comparable celle du spectre de puissance.
30
Figure 2.11 une trame de la voyelle (i), son spectre de puissance, fonction de temps de groupe, fonction
de temps de groupe modifie et le produit spectral.
2.3.8.3 Paramtres acoustiques cepstrals

Nous prsentons en bref les diffrents algorithmes pour extraire des paramtres robustes pour la
tche de la reconnaissance proposs par Donglai et Paliwal dans [18], dans ces algorithmes il y a
des paramtres qui dpendent du spectre de phase, du spectre de module et ainsi dautre qui
dpendent du produit spectral.
2.3.8.4 Les coefficients cepstrals de la fonction de temps de groupe (MGDCC)

Les coefficients MGDCC sont calculs avec les quatre tapes suivantes [21]:
1- Calcul du spectre de Fourier de x(n) et nx(n) dnoter respectivement par X (k ) et
Y (k ) .
2- Calcul du cepstre du spectre de X (k ) denoter par S (k )
3- Calcul de la MGDF comme suit :

X (k )YR (k ) + X I (k )YI (k )
~p (k ) = sign R avec ( = 0,4 et = 0,9 ) (2.41)
( S ( )) 2
X R (k )YR (k ) + X I (k )YI (k )
o sign est la fonction signe de (2.42)
( S (k )) 2
4- enfin nous appliquons la cosinus discrte DCT ~p (k ) pour obtenir les coefficients
MGDCC.
31
2.3.8.5 Les coefficients cepstrals de la fonction de temps de groupe modifie (MFGDCC)

Les coefficients MFGDCC sont calculs par les cinq tapes suivantes :
Y (k ) .
2- Calcul de la MGDF comme suit :
X R (k )YR (k ) + X I (k )YI (k )
~p (k ) = max , (2.43)
( S ( )) 2

X (k )YR (k ) + X I (k )YI (k )
o max R
= 10 10 2

(2.44)
( S ( k ))
~
3- Application de la cosinus discrte DCT p (k ) pour obtenir les coefficients MGDCC.
est le seuil en dB
4- Appliquer le banc de filtre de Mel sur ~p (k ) pour obtenir lnergie issue de chaque banc
de filtre ( E j )
5- Calcul de la DCT de du logarithme de E j .
2.3.8.6 Les coefficients cepstrals du produit spectral (MFPSCC)

Les coefficients MFPSCC sont calculs par les quatre tapes suivantes :
Y (k ) .
2- Calcul du produit spectral
Q (k ) = max ( X R (k )YR (k ) + X I (k )YI (k ), ) (2.45)

o max ( X R (k )YR (k ) + X I (k )YI (k ) )
= 10 10 (2.46)
est le seuil en dB
3- Appliquer le banc de filtre de Mel sur Q(k ) pour obtenir lnergie issue de chaque banc
de filtre ( E j )
4- Calcul de la DCT du logarithme de E j pour lobtention des coefficients MFPSCC.
2.4 Les coefficients diffrentiels

Il est possible dintroduire dans ces systmes une information sur la dynamique temporelle du
signal en utilisant, en plus des paramtres initiaux, des coefficients diffrentiels du premier ordre
issus des coefficients cepstraux ou de lnergie. Soit Ck (t ) le coefficient cepstral dindice k de la
trame t, alors le coefficient diffrentiel Ck (t ) correspondant est calcul sur 2 n + 1 trames
danalyse par :
32
n
Ck (t + i )
i = n
Ck = n
(2.47)
2
i
i = n
Des coefficients de second ordre peuvent aussi contribuer lamlioration du systme surtout
dans le cas de la parole bruite soumise leffet lombard. Ces coefficients Ck et E sont
calculs par la rgression linaire des coefficients delta sur n .
2.5 Evaluation des paramtres acoustiques tudis par le systme de RAP de rfrence
Une sries dexpriences est effectue afin chercher quel sont les paramtres acoustiques
les plus adapts la RAP par les HMMc, les valuations ont t faites en prsence de quatre types
de bruits additifs rels (blanc, rose, industriel, cockpit F16). La base de donnes utilise dans nos
expriences contient 90 locuteurs (46 hommes et 44 femmes), chaque locuteur prononce 10 fois
le mme chiffre arabe (0-9). 6 locutions ont t utilises pour lapprentissage du systme de
rfrence (chapitre5) et les quatre restantes sont utilises pour les tests.
Une description dtaille de la base de donnes vocale et de la base de bruit ainsi que le systme
de rfrence est prsente dans le chapitre5, section3.
Nous prsentons les diffrentes configurations des paramtres acoustiques par 4 tableaux ci-
dessous :
Longueur de la fentre : 25 ms Longueur de la fentre 25 ms

Pas de traitement 10 ms Pas de traitement 10 ms
Fentre utilise Hamming Fentre utilise Hamming
Coefficient de pre-accentuation 0,97 Coefficient de pre-accentuation 0,97
LPC ordre 12 Nombre de coefficients cepstrals 12
Ajout du logarithme dnergie Ej Nombre de filtre dans le banc de filtres 22
Ajout des coefficients dynamiques , Nombre de coefficients de lifting 26
Tableau 2.1 configuration du paramtre LPC -60dB
Ajout du logarithme dnergie Ej
Coefficients dynamiques ajouts ,
Tableau 2.2 configuration du paramtre MFCC
33
Longueur de la fentre 25 ms Longueur de la fentre 25 ms

Pas de traitement 10 ms Pas de traitement 10 ms
Fentre utilise Hamming Fentre utilise Hamming
Coefficient de pre-accentuation 0,97 Coefficient de pre-accentuation 0,97
Nombre de coefficients PLP 12 Nombre de coefficients cepstrals 12
Elvation de lchelle la puissance 0.33 Nombre de filtre dans le banc de filtres 22
Ajout du logarithme dnergie Ej Nombre de coefficients de lifting 26
Coefficients dynamiques ajouts , Ajout du logarithme dnergie Ej
Tableau 2.3 configuration du paramtre PLP Coefficients dynamiques ajouts ,

Tableau 2.4 configuration du paramtre MFPSCC
2.5.1 Evaluation des performances du systme ASR en prsence du bruit blanc

clean 20 15 10 5 0 -5 Tmoyen
LPC 88,61 77,24 65,46 45,62 25,28 17,37 14,34 47,70
PLP 98,72 97,14 94,19 84,47 64,02 33,37 16,45 69,76
MFCC 98,55 97,55 96,03 90,78 76,69 48,04 22,70 75,76
MFPSCC 98,61 98,33 98,08 96,44 92,47 75,85 34,04 84,83
Tableau 25 Taux de reconnaissance (%) obtenus avec les diffrents paramtres en prsence du bruit
blanc.
2.5.2 Evaluation des performances du systme ASR en prsence du bruit rose

clean 20 15 10 5 0 -5 Tmoyen
LPC 88,61 71,85 56,18 37,68 24,28 19,51 15,03 44,73
PLP 98,72 97,33 94,50 85,19 67,41 42,73 23,03 72,70
MFCC 98,55 96,55 91,94 80,30 61,79 35,76 16,00 68,69
MFPSCC 98,61 89,60 97,75 96,33 91,05 71,13 42,01 85,06
Tableau 2.6 Taux de reconnaissance (%) obtenus avec les diffrents paramtres en prsence du bruit rose.
2.5.3 Evaluation des performances du systme ASR en prsence du bruit industriel

clean 20 15 10 5 0 -5 Tmoyen
LPC 88,61 68,02 51,10 34,90 24,40 19,84 14,37 43,03
PLP 98,72 96,55 92,00 80,44 60,82 38,65 22,78 69,99
MFCC 98,55 95,11 88,77 75,44 57,57 35,59 20,06 67,29
MFPSCC 98,61 98,59 97,36 95,94 90,28 71,69 40,54 84,71
Tableau 2.7 Taux de reconnaissance (%) obtenus avec les diffrents paramtres en prsence du bruit
industriel.
34
2.5.4 Evaluation des performances du systme ASR en prsence du bruit de cockpit de

lavion de chasse F16
clean 20 15 10 5 0 -5 Tmoyen
LPC 88,61 67,69 50,93 35,01 24,48 18,92 11,92 42,50
PLP 98,72 95,55 88,22 73,13 52,99 30,01 20,28 65,55
MFCC 98.55 94.28 85.94 72.55 54.29 34.04 17.09 65,24
MFPSCC 98,61 98,60 97,17 94,69 85,79 63,02 30,90 81,25
Tableau 2.8 Taux de reconnaissance (%) obtenus avec les diffrents paramtres en prsence du bruit du
cockpit de lavion de chasse F16.
2.5.5 Discussion des rsultats
Les tableaux ci-dessus prsentent les taux de reconnaissance obtenus partir du systme de
reconnaissance de rfrence, dans le cadre de nos expriences, nous constatons que les
coefficients MFCC et PLP pressentent de bonnes performances dans le milieu non bruit. Mais
les performances du systme sont loin dtre satisfaisantes en prsence de bruit, les coefficients
MFCC se dgradent de faon considrable et plus rapidement par rapport aux coefficients PLP.
Les coefficients MFPSCC offrent de bonnes performances au systme et prsentent un apport
majeur sur le taux de reconnaissance de 10 15% en valeur moyenne et sur 7 niveaux de SNR
par rapport aux coefficients MFCC et PLP.
Les coefficients LPC ne sont pas adapts la tache de reconnaissance en milieu bruit.
2.6 Conclusion
Nous constatons que le paramtre acoustique MFPSCC prsent de bonnes performances au
systme RAP, et offre une robustesse par rapport aux paramtres acoustiques tudis, Mais son
inconvnient est la dgradation pour les SNR (SNR 5dB) surtout en prsence de bruit blanc et
rose. Pour remdier ce problme, qui prsente un handicap et un frein pour la RAP, nous
proposons un nouveau paramtre acoustique bas sur le paramtre MFPSCC est plus adapt au
bruit et offrant des meilleurs performances en des faible SNR. Nous prsenterons au chapitre 5
les dtails et les diffrentes tapes de dveloppement de notre nouveau paramtre.
35

Chapitre 3 systmes de reconnaissance automatique de la parole
3.1 Introduction
La reconnaissance automatique de la parole est un domaine dtude trs actif depuis le dbut des
annes cinquante. Vu la complexit de cette tache Plusieurs mthodes de reconnaissance ont t
dveloppes, Nous lavons principalement restreint aux mthodes de reconnaissance des mots isols et
nous lavons encore plus particulirement restreint aux mthodes stochastiques. Ces diffrentes
restrictions nous ont dailleurs pouss focaliser le titre sur les modles de Markov cachs (HMM) bien
quil ne soit pas ici le seul sujet de dissertation.
Ce chapitre nous permet de prsenter en dtail les deux grandes techniques de reconnaissance des formes
qui sont utilises en reconnaissance automatique des mots isols : programmation dynamique DTW et les
modles de Markov cachs. Ensuite nous donnons un aperu sur les logiciels de dveloppement de
systmes bases de HMM, plus particulirement sur la plate forme logicielle HTK choisie pour le
dveloppement de notre systme ASR. A la fin de ce chapitre nous survolons les mthodes de
reconnaissance hybrides (HMM/ANN, HMM/SVM..etc.) les plus efficaces dans cette discipline.
3.2 Lalignement temporel
Lalignement temporel, plus connu sous lacronyme de DTW, Dynamic Time Warping, est une
mthode fonde sur un principe de comparaison dun signal analyser avec un ensemble de
signaux stocks dans une base de rfrence. Le signal analyser est compar avec chacune des
rfrences et est class en fonction de sa proximit avec une des rfrences stockes. Le DTW est
en fait une application au domaine de la reconnaissance de la parole [74] de la mthode plus
gnrale de la programmation dynamique [77]. Elle peut ainsi tre vue comme un problme de
cheminement dans un graphe [78], [44].
Ce type de mthode pose deux problmes : la taille de la base de rfrence, qui doit tre
importante, et la fonction de calcul des distances, qui doit tre choisie avec soin. La taille de la
base contenant les signaux de rfrence est directement lie aux capacits, variables, de
reconnaissance du systme dalignement temporel. Chacun des signaux de rfrence est en effet
stock dans son tat brut, sans compression daucune sorte. Ce stockage permet de disposer dun
vocabulaire dont la taille correspond au nombre de mots du vocabulaire multipli par le nombre
de locuteurs et le nombre des ventuelles rptitions des mots. Cette base de rfrence permet
deffectuer une mise en correspondance entre le signal stock, dune part, et sa retranscription
36
symbolique dautre part.

La taille de la base de rfrence est importante et implique une charge de travail non ngligeable
puisque la classification de chaque forme analyser impose de la comparer chaque forme de la
base de rfrence. Donc, si la constitution de la base de rfrence est assez rapide et si le
processus dapprentissage est inexistant dans la mthode de lalignement temporel, la phase
dutilisation ncessite une puissance de calcul non ngligeable pour chaque rfrence atomique de
signal analyser. Le schma de principe de la mthode est prsent dans la figure 3.1.
Figure 3.1 : Visualisation du cheminement de lalignement temporel pour des formes de la base
de rfrence.
Comme le montre le schma de la figure 3.1, la forme choisie sera celle pour laquelle le chemin
de mise en correspondance est le plus court, cette taille minimale marquant le peu de diffrences
entre la forme analyser et la forme de rfrence.
Lautre partie importante de lalignement temporel est la dfinition de la fonction de recalage qui
permet de calculer, selon certaines contraintes, la distance entre la forme comparer et la forme
de rfrence. La forme analyser est mise en correspondance dans le plan temporel par
lalgorithme dalignement qui essaie de trouver le plus court chemin dans le graphe ainsi
constitu. Cette fonction de mise en correspondance dfinit une valeur pour chaque arc du graphe,
ces valeurs favorisant laxe mdian qui correspond une parfaite mise en relation de la forme
analyser et dune forme de rfrence comme le montre la figure 3.1.
La fonction de recalage suit typiquement le schma prsent dans la figure 3.2. La fonction d(i,j)
37
est la fonction de calcul de la distance entre deux points successifs du graphe. Les valeurs ,
et permettent de dfinir une partie du comportement de la fonction d qui peut tre soit
symtrique ( = ) soit asymtrique ( ). Ce calcul de distance entre deux noeuds successifs
du graphe nest cependant pas suffisant pour calculer la longueur totale du chemin parcouru dans
le graphe. Une fonction supplmentaire, G, calcule une longueur totale qui permettra, aprs le
calcul de cette longueur des chemins sur toutes les formes de la base de rfrence, de savoir
quel mot du vocabulaire prenregistr correspond la forme classer. Dun point de vue
mathmatique, M et N tant les longueurs respectives de la forme classer et de la forme de
rfrence, on cherche sur lensemble du corpus la distance globale minimale D(M,N).
3.2.1 Distance globale

Les distances cumules reprsentent la dissemblance entre les rfrences et les tests. Alors que les
distances locales reprsentent la dissemblance entre les deux signaux en un instant donn, la
distance cumule en un point est la somme des distances locales depuis l'origine en suivant le
chemin optimal, c'est dire de moindre cot. Pour prserver une certaine cohrence dans le calcul
du chemin optimal, les transitions autorises entre les points du graphe de concidence sont
limites quelques uns des points les plus proches.
Figure 3.2 les transitions autorises entre les points du graphe.
La distance cumule au point (i,j) est obtenue de manire rcursive par la formule suivante :
G (i 1, j ) + d (i, j )

G (i, j ) = min G (i 1, j 1) + d (i, j ) (3.1)
G (i 1, j 2 ) + d (i, j )

38
La distance globale entre lobservation T et la rfrence R est alors donne par

D ( R , T ) = G (M , N ) (M + N ) (3.2)
O M et N sont respectivement les nombres de trames des signaux R et T.

Le calcul de cette fonction G rpond au mme principe que le principe gnral nonc par
Bellman pour la programmation dynamique : toute sous-partie du chemin optimal est lui-mme
un chemin optimal. Des exemples de fonctions d et G de calcul de distance, qui peuvent tre bien
plus complexes que la fonction de recalage prsente en figure 3.3, pourront tre trouves dans
[70] ou [69]. Dans ces rfrences, les fonctions prsentes peuvent analyser jusqu 9 chemins
diffrents pour d, la fonction G tant de complexit gale celle de d.
Figure 3.3 : Schma typique dune fonction de recalage en alignement temporel.
Cette mthode de reconnaissance des formes est, initialement, bien adapte la reconnaissance de
mots isols mais des extensions ont t dveloppes pour permettre de lappliquer la parole
continue [64] et [66].
Dautres mthodes complmentaires ont par ailleurs t dveloppes pour tenter de rduire la
taille de la base des formes de rfrence par slection optimale des formes conserver. Ces
mthodes reposent surtout sur une exploration statistique de la base des formes de rfrence et
permettent dobtenir une caractrisation des diffrents ensembles la constituant, ces ensembles
correspondant aux diffrents symboles rfrencs dans la base. Une des techniques quil est
possible demployer pour ce faire est, par exemple, la mthode des plus proches voisins.
Certaines mthodes permettent de rduire ce temps de calcul lutilisation par apprentissage a
39
priori de coefficients qui permettent de compacter la connaissance prsente dans la base de

rfrence qui devient ainsi un corpus dapprentissage. Une premire mthode mettant en oeuvre
ce principe de compactage de la connaissance est le modle de Markov.
3.3 Les Modles de Markov cachs
3.3.1 Dfinitions
Un modle de Markov est un automate probabiliste d'tats finis constitu de N tats.
Un processus alatoire se dplace d'tat en tat chaque instant, et on note qt le numro de l'tat
atteint par le processus l'instant t. L'tat rel qt du processus n'est pas directement observable
on dit qu'il est cach mais le processus met aprs chaque changement d'tat un symbole
discret ot qui appartient un alphabet fini de nv symboles V = {vk } , 1 k nv . Dans le cas
d'un processus markovien du premier ordre, la probabilit de passer de l'tat i l'tat j l'instant t
et d'mettre le symbole vk ne dpend ni du temps, ni des tats aux instants prcdents. Un
modle de Markov cach ou HMM est alors dfini par:
S = {si } , 1 i N l'ensemble des N tats, en sachant que le processus part de l'tat initial s1
l'instant t=0 et arrive l'tat final s N l'instant t=T
{ }
A = aij 1 i , j N l'ensemble des probabilits de transition entre les tats i et j :
Aij = P(qt = j qt 1 = i ) (3.3)
V = {vk } 1 k nv l'ensemble des nv symboles observables,

{ }
B = b j(k) 1 j N, 1 k nv l'ensemble des probabilits d'mission du symbole vk lors
de l'arrive dans l'tat j, avec :

B j = P(Ot = vk qt = j ) (3.4)
Des variantes existent cependant. La probabilit d'mission est parfois note bij (k ) dans le cas o
l'on associe l'mission du symbole la transition plutt qu' l'tat d'arrive:

Bij = P(Ot = vk qt 1 = i, qt = j ) (3.5)
La ralisation par la machine d'un processus markovien de dure T est dcrite par :
40
Q = (q1 qT ) un chemin a priori cach parmi les N tats; on pose de plus par convention
q0 = 1 puisque tous les processus partent de l'tat initial l'instant t = 0, et on impose l'arrive
l'tat final par qT = N .
O = (O1 OT ) une suite d'observations appartenant l'alphabet de nv symboles.

Formellement, un model de Markov cach peut tre dfini par lensemble des paramtres
= ( A, B, ) (3.6)
la distribution initial des tats :
i = P(q1 = Si ), 1 i N (3.7)
3.3.2 Les trois problmes de base en HMMs

Une fois choisie la topologie dun HMM, sa mise en uvre ncessite la rsolution des trois
problmes :
3.3.2.1 Evaluation de la vraisemblance
L'valuation de la probabilit que la suite des observations ait t mise par un modle. Lorsque
plusieurs modles existent, cette valuation permet le choix du modle le plus probable.
3.3.2.2 Le dcodage
La recherche de la squence d'tats d'un modle ayant produit les observations. La squence
cache de plus forte probabilit est dtermine par l'algorithme de Viterbi.
3.3.2.3 Lapprentissage
L'apprentissage des paramtres d'un modle. A partir d'un modle donn a priori et
d'observations supposes mises par ce modle, on cherche les probabilits de transition et
d'mission maximisant la vraisemblance des observations.
La solution au problme de lvaluation de la vraisemblance nous donne un moyen de mesurer
ladquation dune squence dobservation un modle. Ainsi nous pouvons dcider du meilleur
modle selon la rgle de bayes, Rsoudre le problme du dcodage permettra de segmenter les
squences par la recherche de la squence dtats de vraisemblance maximale. Enfin,
lapprentissage doit permettre dadapter automatiquement un HMM un ensemble de donnes
particulier.
41
3.3.3 Rsolution des trois problmes
3.3.3.1 Problme 1 : Estimation des probabilits
Le problme de lestimation des probabilits peut tre nonc de la faon suivante : tant donn
un modle de Markov M, comment calculer la probabilit P(O / M ) quil gnre la squence de
dobservation O ?
On considre la squence dtat Q
Q = q1 qT (3.8)
o q1 est ltat initial, la probabilit de la squence dobservation O pour une squence dtat Q
est :
T
P(O Q, ) = P(Ot qt , ) (3.9)
t =1
On considre que les observations sont statistiquement indpendantes, cela nous donne :
P(O Q, ) = bq (O1 ) bq (O2 )bq (OT )
1 2
(3.10) T
La probabilit de la squence dtat Q peut tre crite de la faon suivante :
P(Q ) = q aq q aq
1 1 2 q
T 1 T
(3.11)
La probabilit jointe de O et Q, est la probabilit de la production de O et Q simultanment, elle
peut tre dcompos simplement en deux termes :
P(O Q, ) = P(O Q, ) P(Q, ) (3.12)
La probabilit de O est obtenu par la somme des probabilit jointe par rapport tous les tat
possible de la squence Q donne
P(O ) = P(O Q, ) P (Q ) (3.13)

Q
= q bq (O1 ) aq q bq (O2 ) aq q bq (O3 ) aq
1 1 1 2 2 2 3 3 q
T 1 T
bq (OT )
T
(3.14)
Le calcule de P(O ) , donne par la dfinition directe, ncessite trop de calcul , pour cela il
existe une procdure rcurrente de calcul de cette probabilit que nous nous proposons de dcrire,
cest lalgorithme Forward-Backward qui fournit un solution exacte ce problme faisant
intervenir tous les chemins dans le modle HMM.
a) Algorithme forward :
On dfinir la variable comme suit :
t(i) = P(O1 O2 Ot , qt = Si ) (3.15)
42
La variable est dfinie comme la probabilit partielle de la squence dobservation

O1 O2 Ot et ltat Si linstant t, et donne par le modle t (i ) peut tre calculer comme
suit :
1 (t ) = ibi (O1 ), 1 i N (3.16)
Pour t de 1 T
Pour j de 1 N
N
t +1 ( j ) = t +1 ( j )aij b j (Ot +1 ), 1 i T-1 1 j N (3.17)
i =1
pour arriver finalement, ltat final linstant T
N
P(O ) = T (i ) (3.18)
i =1
S1 a1 j
S2 Sj
.
.
t +1
S N a Nj t +1 ( j )
Figure 3.4 Illustration de lutilisation des rcurrences Forward pour le calcule de t +1 ( j ) .
Cette mthode est une formulation simple de lexploration de la matrice temps / tats sous la
contrainte des transitions autorises entre tats.
Lestimation direct est suffisante pour obtenir la probabilit dfinie par toutefois lapprentissage
des modle sera facilit par (3.7) lintroduction de la probabilit rtrograde.
b) Algorithme backward
Cette dernire est dfinie comme la probabilit que les trames suivant Ot aient t mises sachant
que Ot a t mise par i :
t (i ) = P(Ot +1 OT qt = i i ) (3.19)
Le calcul de est opr par une rcurrence sur le temps en partant de l tat final F au temps T :
Initialement
43
T (i ) = 1 , 1 i N (3.20)
Pour t de T 1
Pour i de 1 N
N
t 1 (i ) = aij b j (Ot ) t ( j ) (3.21)
j =1
Pour arriver finalement, ltat initial au temps 1 :
P(O, ) = 0 (1) (3.22)
Lutilisation conjointe des variables directe et rtrograde permet de calculer la probabilit de

lmission dune trame sur un tat par rapport tous les chemins possibles :
P(O, qt = i ) = t (i ) 0 (1) (3.23)
ai1 S1
S2
.
.
Sj
t aiN S
N
t (i )
Figure 3.5 Illustration de lutilisation des rcurrences backward pour le calcule de t(i).
Cette probabilit est utilise lors de lapprentissage des modles par lalgorithme de Baum
Welch. Ces variables permettent lestimation de la vraisemblance de la squence sur le modle en
tenant compte de lensemble des chemins.
3.3.3.2 Probleme2 : le dcodage
La procdure d'estimation directe ou rtrograde fournit la probabilit d'mission des

observations cumule sur toutes les squences d'tats possibles, sans choisir un chemin
particulier. Il est parfois utile de connatre la squence d'tats qui a mis les observations.
L'algorithme de Viterbi cherche la squence d'tats cachs la plus probable et calcule la
probabilit d'mission le long de ce chemin. La probabilit ainsi estime nglige les chemins
moins probables.
3.3.3.2.1 Algorithme de Viterbi
44
La variable t(i) est dfinie comme la probabilit maximale que les observations observes
jusqu' l'instant t aient t mises par le modle en suivant un chemin qui arrive l'tat
d'indice i:
t (i ) = max P(O1 Ot , q1 qt 1 qt = i ) (3.24)
q1 q t 1
Alors une rcurrence similaire celle suivie pour le calcul de la probabilit d'mission s'applique,
laquelle s'ajoute la mmorisation du meilleur chemin:
Le processus est initialement dans l'tat d'indice 1:
1 (i ) = ibi (O1 ) , 1 i N (3.25)

1 (i ) = 0 (3.26)
Pour t de T 1
Pour i de 1 N
[ ]
t ( j ) = max t 1aij b j (Ot ) , 2 t T 1 j N
1 i N
(3.27)
arrive du processus dans ltat final :
P = max [ T (i )] (3.28)
1 i N
qT = max [ T (i )] (3.29)
1 i N
La probabilit d'mission sur le meilleur chemin peut tre utilise pour la reconnaissance comme
une approximation de la probabilit d'mission par le modle; mais cette mthode de rsolution
est sous-optimale puisqu'elle nglige les chemins de plus faible probabilit.
La segmentation du signal fournie par l'algorithme de Viterbi sert principalement l'initialisation

des modles l'apprentissage et la reconnaissance de la parole continue.
3.3.3.3 Problme destimation des paramtres et entranement des modles
Le but de lentranement dun HMM est de trouver lensemble des paramtres maximisant sur
lensemble des donnes dentranements O j la vraisemblance des donnes tant donn les
modles associs M j . soit :
45
( )
J
arg max P O j M j , j (3.30)
j =1
3.3.3.3.1 Entranement Baum-Welch

Lalgorithme de baum Welch est un processus itratif, o chaque itration, de nouvelles
valeurs des paramtres aij des modles sont estimes partir des anciennes valeurs.
L'entranement des modles est effectu partir de l'estimation de P(O M ) en tenant compte de
tous les chemins possibles. La r-estimation des paramtres du modle xx est bas sur le
comptage du nombre moyen de transitions observes entre les tats i et j. la probabilit wij de
suivre cette transition linstant t peut sexprimer au moyen des variables discrtes et rtrogrades
introduites aux paragraphes prcdents
t 1aij b j (Ot )t ( j )
wt (i, j ) = P(qt 1 = i, qt = j O, ) = (3.31)
P(O )
le nombre moyen de transition entre i et j est donc :
T
ij = wt (i, j ) (3.32)
t =1
et la probabilit de transition est r-estime par :
ij
aij = N
(3.33)
ik
k =1
Lestimation de la probabilit dmission associe un tat ncessite le dcompte des
observations correspondant chaque catgorie de symbole :
1 T
bj = wt ( j ), 1 k nv (3.34)
j t =1
avec
t ( j )t ( j )
wt ( j ) = P(qt = j O, ) = (3.35)
P(O )
T
et j = wt ( j ) (3.36)
t =1
46
3.3.4 Cas des modles continus

Le principe de l'mission de symboles discrets peut se gnraliser au cas continu. Les
probabilits d'mission discrtes b j (k ) sont alors remplaces par des densits de probabilit
continues dans l'espace de reprsentation. Cette solution vite les distorsions introduites par la
QV, mais pose le problme du choix des densits de probabilit et de la robustesse de leur
estimation. L'utilisation d'une combinaison linaire de gaussiennes dans l'espace Rd est frquente:
G
b j (O ) = g k N (O, k , k ) (3.37)
k =1
o k et k sont respectivement la moyenne et la matrice de covariance de la gaussienne, et
g k la pondration qui lui est affecte. Nous rappelons que la densit de probabilit d'une loi
normale de moyenne et de matrice de covariance en dimension d est:
1
1 (O )' 1 (O )
N (O, k , k ) = d 1
e 2 (3.38)
(2 ) []
2 2
La r-estimation des probabilits d'mission est diffrente pour des modles continus. Nous
dtaillons le cas de densits de probabilit continues reprsentes par une gaussienne multi-
dimensionnelle, mais ces formules peuvent tre gnralises au cas de multi-gaussiennes. Le
vecteur de moyenne et la matrice de covariance de la densit de probabilit associe l'tat i sont
recalculs comme:
1 T
i = wt (i )Ot (3.39)
i t =1
et
i =
1 T
{
wt (i )(Ot )(Ot )
i t =1
} (3.40)
3.4 Plate-forme logicielle HTK
A fin de rduire au minimum la tache de programmation des diffrentes parties du

systme de reconnaissance. Nous avons choisi de mener cette tude en utilisant un logiciel de
dveloppement de systmes de bases de modles de Markov cachs le plus complet possible au
sens des taches raliser et dont le programme sources et ouvert pour dventuelles fonctions
mettre en uvre. Le tableau 3.1 est une liste des logiciels libres.
47
Aprs une analyse des caractristiques de chacun de ces logiciels, notre choix sest finalement
port sur la plate-forme logicielle HTK (Hidden Markov Model Toolkit). elle a t dveloppe
l'Universit de Cambridge par S.J. Young et son quipe. Elle est constitue d'un ensemble d'outils
logiciels qui permettent de construire des systmes de reconnaissance de la parole continue base
de modles de Markov cachs.
HTK Sphinx ISIP (ASR) CSLU (ASR)
Microsoft et Combridge Carnegie Mellon Mississipi Oregon Graduate

Organisme
University University University Institut
www.isip.msstate.ed
URL htk.eng.cam.ac.uk fife.speech.cs.cmu.edu www.cslu.ogi.edu
u
Langage C C, perl, Java C++ C, Tcl/Tk
Unix, Linux,
Environnement Unix, Linux, Windows Unix Windows
Windows
Support Excellent Moyen Bon Moyen
Date de la
1993 1987 1997 1992
premire version
Disponibilit du
Sous licence Sous licence Domaine publique Sous licence
source
Tableau 3.1 Quelques caractristiques des logiciels libres de dveloppement de systmes de
reconnaissance de parole base des HMM.
Contrairement aux autres logiciels figurant dans le tableau 3.1, HTK a connu une priode de
commercialisation. De ce fait, HTK est pass par les diffrents cycles de perfectionnement
ncessaires au logiciel commercial. Il est par consquent plus document, plus convivial et plus
souple que les autres logiciels.
HTK est remarquable par la trs grande libert de choix laisse tout au long de la construction du
systme de reconnaissance. Les modles peuvent reprsenter des mots ou tout type d'unit sub-
lexicale, et leur topologie est librement configurable. Les densits de probabilit d'mission, qui
sont associes aux tats, sont dcrites par des multi-gaussiennes.
Les modles sont initialiss avec l'algorithme de Viterbi, puis r-estims par l'algorithme optimal
de Baum-Welch. Le dcodage est ralis par l'algorithme de Viterbi, sous la contrainte d'un
rseau syntaxique dfini par l'utilisateur, et le rsultat est enfin valu par alignement dynamique
avec la chane phontique ou lexicale de rfrence.
48
L'ensemble de ces outils est crit en langage C, et la documentation dtaille leur utilisation et les
principes de leur implmentation, ce qui permet d'intgrer de manire efficace les modifications
souhaites dans le systme de reconnaissance. De plus, HTK est un systme largement rpandu
dans le monde de la recherche; en 1992, ses concepteurs revendiquaient dj plus d'une centaine
d'utilisateurs.
Les outils de base manipulent des fichiers de diffrents types: signaux, tiquettes, paramtres,
description des modles, dfinition de rseaux. Les formats des fichiers de signaux et d'tiquettes
des bases de donnes les plus rpandues sont reconnus. Les autres fichiers sont dans un format
particulier HTK, dcrit dans le manuel de rfrence. En particulier, les modles et les rseaux
sont dfinis dans des fichiers texte, ce qui facilite leur cration et leur modification par
l'utilisateur. Les options d'utilisation des outils sont transmises en argument sur la ligne de
commande, ce qui facilite la tache lautomation des processus d'apprentissage et de dcodage
avec des scripts crits dans le langage de commande du systme d'exploitation.
3.4.1 Utilisation d'HTK

Les principaux outils de base de HTK s'enchanent naturellement pour raliser les diffrentes
tapes d'un systme de reconnaissance. Toutes les fonctionnalits de HTK sont dfinies dans des
modules constituant la librairie qui assure l'interfaage avec les objets extrieurs et constitue la
ressource commune aux outils permettant :
l'analyse du signal de parole.
la manipulation des transcriptions orthographiques et phontiques.
la dfinition de dictionnaires de prononciation.
la dfinition de modles du langage.
l'apprentissage et l'adaptation des modles acoustiques.
le dcodage acoustico-phontique de parole.
l'alignement de parole sur des transcriptions linguistiques.
49
HLED HSLAB
HLSTATS HCOPY
HLIST Prparation des donnes
HQUANT
Transcriptions Speech
HCOMP, HINIT, HREST, HEREST, Phase dApprentissage

HSMOOTH, HHED, HEADAPT
HDMAN HMM
Dictionar
y Phase de Test
HVITE
Networks
Transcriptions
HBUILD Analyse des rsultats

HPARSE HRESULTS
Figure 3.6 Structure d'un systme de reconnaissance avec HTK.
3.5 Autres mthodes de reconnaissance

3.5.1 Les rseaux de neurones: le perceptron multi-couches (PMC)
Les rseaux de neurones (RN) constituent un domaine de recherche trs intressant et sont trs
couramment utiliss lorsque l'on parle de classification. Ils ont t notamment appliqus des
problmes tels que: la reconnaissance de visage, le contrle de robot, la reconnaissance de la
parole, l'identification du locuteur etc.
Les RN ralisent un traitement d'informations distribu et sont composs d'units de calcul
primitives (les neurones formels) fonctionnant en parallle et relies entre elles par des
connexions. Un neurone formel reoit un nombre variable d'entres en provenance de neurones
en amont. A chacune de ces entres est associ un poids reprsentant la force de la connexion. Il
est aussi dot d'une sortie unique qui se ramifie ensuite pour alimenter les neurones en aval. Le
principe de fonctionnement du neurone est simple, il calcule la somme pondre de ses entres et
50
passe cette valeur une fonction d'activation qui dtermine l'excitation de ce neurone. La figure
n
3.7 illustre l'architecture d'un neurone formel. La sortie du neurone y = F wi xi dpend de la
i =1
fonction d'activation choisie: fonction seuil, linaire par morceaux, sigmode, gaussienne etc.
X1
w1 Y1
Xi F
wi

Xn wn
Figure 3.7 Architecture dun neurone formel n entres
Dans un rseau, la connaissance se trouve dans la topologie mme du rseau et dans les poids des
connexions. L'apprentissage d'un RN est ralis l'aide de mthodes d'apprentissage automatique
utilisant la descente du gradient de l'erreur et se fait par modification des poids des connexions du
rseau en fonction des donnes d'apprentissage. Aucune hypothse sur la distribution des donnes
n'est ncessaire.
Enfin, les RN ont de nombreuses proprits trs intressantes telles que leur robustesse au bruit,
leur flexibilit et leur capacit importante de gnralisation. Nous allons prsenter rapidement le
rseau de neurones le plus souvent utilis dans le domaine de la reconnaissance
Automatique de la parole: le perceptron multi-couches (PMC).
3.5.2 Le Perceptron Multi-Couches (PMC)
Le perceptron Multi-Couches est issu des travaux de F. Rosenblatt sur le perceptron monocouche
[76]. Un PMC est un rseau dont les neurones sont disposs en plusieurs couches successives et
o chaque neurone d'une couche est connect tous les neurones de la couche suivante et de la
couche prcdente mais pas aux neurones de la mme couche.
Le PMC est un rseau passe-avant (feed-forward), c'est--dire que les informations ou activations
ne vont circuler que dans un seul sens, des neurones de la couche d'entre vers les neurones de la
couche de sortie (Figure 3.8).
51
Couche Couche Couche

Dentre cache sortie
Figure 3.8 Architecture d'un perceptron Multi-Couches une couche cache.
Une couche cache dans un PMC correspond une couche qui n'est ni la couche d'entre, ni celle
de sortie. De plus, un PMC peut avoir autant de couches caches que dsires mais il a t montr
[59] que quelque soit le nombre de couches caches dans un PMC, il existe un PMC quivalent
avec une seule couche cache. Cette couche cache permet de modliser des fonctions de
dcisions complexes et non linaires entre n'importe quels espaces d'entre et de sortie.
L'apprentissage des PMC se fait par rtropropagation du gradient de l'erreur [62]. Le principe est
d'adapter les diffrents poids des connexions en propageant l'erreur commise en sortie du rseau.
3.5.3 Les Machines Vecteurs Support (SVM)
Les SVM, introduites par Vapnik et ses collgues [51] comme une nouvelle classe d'algorithmes
d'apprentissage, constituent une application directe du principe inductif de minimisation
structurel du risque [63]. Elles sont utilises dans les trois problmes classiques en apprentissage
(rgression, estimation de densit et discrimination). Ces diffrents algorithmes se caractrisent
par le choix de maximiser les capacits en gnralisation d'une fonction de discrimination f en
minimisant une borne suprieure sur le risque. Le risque est l'erreur en gnralisation de la
fonction de discrimination f et correspondant la probabilit que le rsultat de f soit erron. La
borne suprieure sur le risque est ce que l'on appelle le risque garanti.
Dans le cadre de la discrimination, la SVM, l'instar d'un perceptron, tente de sparer
linairement les donnes. Cependant, dans l'espace o elles se trouvent, les donnes ne sont
gnralement pas linairement sparables. Dans ce cas, il devient utile d'effectuer un pr-
traitement sur les donnes avant de les sparer avec des hyperplans. Ainsi, dans l'exemple
reprsent sur la figure 3.9, on peut pr-traiter les points de R2, en les projetant sur la surface d'un
52
parabolode bien choisi. D'une manire gnrale, on projette les donnes, l'aide d'une fonction
dans un espace de plus grande dimension, appel "espace de reprsentation", o l'on espre
qu'elles seront linairement sparables. On parle alors de SVM linaire lorsque cette application
correspond la fonction identit, i.e. lorsqu'elle ne renvoie pas les donnes dans un nouvel
espace de reprsentation, et de SVM non linaire dans le cas contraire.
Figure. 3.9 (a) donnes non linairement sparables. (b) Pr-traitement des donnes, choix d'une
transformation (projection sur un parabolode) rendant les donnes linairement sparables.
Enfin, les SVM ont t dvelopps initialement dans le cadre d'une classification bi-classes, mais
des extensions multi-classes ont t proposs, comme la M-SVM [12] Les SVMs ont rcemment
t introduites en reconnaissance de la parole et ont donn des rsultats prometteurs [13], [14].
3.5.4 Mthodes "hybrides"
Les HMMs sont largement utiliss dans le domaine de la parole, plus particulirement en
reconnaissance de la parole. Mais ils prsentent aussi quelques limitations comme le besoin de
faire des hypothses simplificatrices pour leur fonctionnement qui entrane une limitation de leur
gnralit. De plus, leur apprentissage n'est en gnral pas discriminant.
La combinaison des HMMs avec des mthodes discriminantes semble intressante et a t utilise
avec succs en reconnaissance de la parole et en discrimination parole/bruit [22], [32]. Deux
associations sont souvent utilises: HMM-RN et HMM-SVM.
3.5.4.1 HMM et rseaux de neurones
Dans cette approche hybride, le rseau de neurones (la plupart du temps un PMC) se situe en aval
53
d'un HMM et est utilis comme estimateur de probabilits a posteriori d'appartenance une
classe. En effet, il a t dmontr [61], [56] qu'un PMC entran dans des conditions adquates
est quivalent un estimateur de probabilits a posteriori l'appartenance une classe.
Un perceptron peut ainsi apprendre les probabilits a posteriori des classes de phonmes. Ces
probabilits, grce la formule de Bayes, permettent d'obtenir les vraisemblances des
observations qui vont tre utilises la place de celles fou mies par un mlange de gaussiennes
dans un HMM classique.
Une autre faon d'utiliser la sortie du PMC comme entre d'un HMM est illustre par la figure
3.10 Ce systme est celui de [22].
Figure 3.10 Systme de segmentation parole/musique.
Des coefficients cepstreux (PLP) sont extraits tous les 16ms. Un PMC reoit ces coefficients en
entre et donne en sortie des probabilits a posteriori pour les diffrentes classes de phonmes.
Les probabilits a posteriori des classes de phonmes sont ensuite analyses selon leur "entropie"
et "dynamisme" pour finalement arriver en entre du classifieur HMM qui effectuera la
segmentation (les probabilits d'mission du HMM ont t estimes en utilisant soit un GMM,
soit un deuxime PMC).
3.5.4.2 HMM et SVM
L'hybridation HMM/PMC donnant de bons rsultats, il est donc normal de vouloir coupler les
HMMs avec d'autres mthodes discriminantes telles les SVM Contrairement aux PMC qui
estiment des distributions de probabilit, les SVM estiment directement, partir des donnes
d'apprentissage, des surfaces de dcision. Diffrentes mthodes ont t proposes pour convertir
la distance d'une observation inconnue une surface de dcision fournie par une SVM en
probabilits a posteriori exploitables par un HMM une de ces implantations a consist entraner
une SVM sur des donnes segmentales, en transformant les informations de distance fournie par
une SVM en estimation de probabilits a posteriori pour les HMMs [32]. Utilise notamment en
54
reconnaissance de la parole bruite, cette hybridation donne dj des rsultats prometteurs.
55

Chapitre 4 application des ondelettes au signal la parole
4.1 Prsentation des ondelettes

4.1.1 Introduction
Cette section prsente rapidement la base de notre approche en paramtrisation du signal, savoir
la dcomposition du signal en ondelettes. Cette prsentation est un rapide aperu des fondements
thoriques des ondelettes. Pour aller plus loin sur cette thorie du traitement du signal laide
dondelettes, le lecteur pourra se porter au livre de Mallat [34], [29].
Au quotidien, notre attention (visuelle ou auditive) est attire par le mouvement et les
phnomnes transitoires, au contraire des stimuli stationnaires qui sont vite ignors.
Cette stratgie qui donne la priorit aux phnomnes transitoires permet de slectionner les
informations importantes de notre environnement, information qui, en des temps anciens, nous
ont permis de survivre. Pourtant le traitement du signal classique sest surtout concentr sur
ltude doprateurs invariants dans le temps et dans lespace, qui modifie les proprits
stationnaires des signaux. Cela conduit lhgmonie indiscutable de la transforme de fourier.
La transforme de Fourier est un outil fondamental pour une grande varit dapplications, telles
que la transmissions ou traitements des signaux stationnaires. Nanmoins, si nous nous
intressons des phnomnes transitoires, la transforme de Fourier savre inadquat. En effet,
nous pouvons dfinir un morceau musical comme un ensemble de frquences sonores qui
varient dans le temps.
facteur
dchelle
frquences
petit
facteur dchelle
grand
temps
Figure 4.1 Boite de Heisenberg correspondant au pavage du plan temps/frquence de la
transforme en ondelettes des chelles diffrentes. Une chelle plus petite rduit ltalement en
temps mais augmente la taille du support frquentiel.
De telles volutions temps/frquence peuvent tre mises en vidence en dcomposant le signal en

fonctions lmentaires bien concentres en temps et en frquence. La transforme de Fourier
56
fentre et la transforme en ondelettes sont deux exemples importants de dcomposition

temps/frquence. Cest en 1946 que le physicien Gabor [80] propose danalyser les signaux
sonores avec des atomes lmentaires qui sont des fonctions bien concentres en temps et en
frquence. En montrant que de telles dcompositions sont troitement lies notre perception des
sons, et quelles isolent les structures importantes des signaux de parole et de bruit, les travaux de
Gabor furent la base de analyse temps/frquence. Gabor introduit ainsi en 1946 les atomes de
Fourier fentre afin de mesurer les variations frquentielles des sons.
La rsolution temps/frquence de la transforme de Fourier fentre dpend de ltalement de la
fentre en temps et en frquence. Cet talement correspond la surface de la boite de Heisenberg.
En effet, les concentrations en temps et en frquence sont limites par le principe dincertitude
dHeisenberg. Ce principe, qui dit que lnergie dune fonction et de sa transforme de Fourier ne
peuvent tre simultanment concentres sur des intervalles arbitrairement petits, a une
interprtation importantes en mcanique quantique, en tant quincertitude sur la position et la
quantit du mouvement dune particule libre. En dautres termes, le principe dincertitude
dHeisenberg indique quun signal ne peut pas tre simultanment connu avec des prcisions en
temps t et en frquence f quelconques, le produit de ces deux quantits tant born
infrieurement [29]
1
t.f (4.1)
2
Un inconvnient de la transforme de Fourier fentre est le rglage de taille de la fentre
danalyse. Ce rglage est un compromis entre rsolution temporelle et rsolution frquentielle. On
perd en localisation frquentielle ce quon a gagn en localisation temporelle, ceci cause du
principe dincertitude de Heisenberg (figure 4.1). Ainsi, une reprsentation satisfaisante de la
structure temporelle fine du signal permettant par exemple de voir les transitions entre phonmes
se fera au dtriment de la rsolution frquentielle (analyse large bande). Inversement, une analyse
permettant de bien faire apparatre les composantes harmoniques du signal se fera au dtriment de
la rsolution temporelle et ne rendra pas en compte des vnements temporels brefs (analyse
bande troite). Une fois ce rglage effectu, la taille de la fentre sera fixe et la rsolution de la
transforme de Fourier fentre restera la mme sur tout le plan temps/frquence (figure 4.2).
Mais pour analyser des composantes transitoires de dures diffrentes comme cest souvent le cas
en parole. Il ncessaire dutiliser des atomes dont les supports temporels ont des tailles variables.
57
La transforme en ondelettes en est la solution (figure 4.3)

frquences
temps
Figure 4.2 un exemple de couverture temps/frquence avec la transforme de Fourier fentre.

Les rsolutions temporelle et frquentielle restent inchanges quelque soit le temps et la
frquence.
frquences
temps
Figure 4.3 un exemple de couverture temps/frquence avec la transforme en ondelettes.
4.1.2 Dfinitions
Nous avons vu quune alternative, pour dpasser les limitations de la transforme de Fourier
fentre, se trouve tre lutilisation de la transforme en ondelettes. Nous pouvons prsent dfinir
ce quest une ondelettes [29] et comment une transforme en ondelettes du signal.
4.1.2.1 Les ondelettes
Une ondelette [29] est une fonction L2 () de moyenne nulle :

+
(t )dt = 0 (4.2)
Et nergie finie :
+ 2
(t ) dt % + (4.3)
Elle est normalise (t ) = 1 , et centre au voisinage de t = 0 . Une famille datomes

temps/frquence sobtient en dilatant londelette par facteur s, et en la translatant par u :
58
1 t u
u,s(t) = avec s + (4.4)
s s
Si on considre u , s (t ) = 1, alors les ondelettes dilates restent de norme unitaire. Londelette
peut tre relle ou analytique complexe. Selon les applications, on peut choisir lune ou lautre.
Pour notre part, nous avons opt pour une ondelette relle. Nous allons maintenant dfinir la
transforme en ondelettes.
4.1.2.2 La transforme en ondelettes

La transforme en ondelettes dun signal f(t) lchelle s et au temps u se calcule en corrlant
f(t) avec londelette u,s correspondante. Ceci nous donne la dfinition suivante de la
transforme en ondelettes :
+ 1 t u
Wf (u , s ) = f , u , s = f (t ) dt (4.5)
s s
o
W est linitiale de Wavelet qui signifie ondelette en anglais,
est le complexe conjugu de .

Nous utiliserons par la suite uniquement des transforme en ondelettes relles car elles permettent
de mesurer la variation de f (t ) dans un certain voisinage de u (dpendant de ) de taille
proportionnelle s . Il a t dmont que lorsque s tend vers 0, la dcroissance des coefficients
dondelettes caractrisent la rgularit de f (t ) au voisinage de u . Cette proprit est trs
importante pour nous car elle permet de dtecter des transitoires.
Enfin, une transforme en ondelettes relles est complte et prserve lnergie tant que londelette
satisfait une condition dadmissibilit donne par le thorme suivant :
Thorme 1 (Calderon, Grossmann, Morlet) soit L2 () une fonction relle (ou un signal
rel) vrifiant :
2
+ ( )
C = 0
d % + (4.6)

O est la transforme de Fourier de .
59
Toute fonction x(t ) L2 () vrifie :
1 + + 1 t u ds
x(t ) = W x (u , s ) du (4.7)
C 0 s s s2
et
+ 2 1
+ + 2 ds
x(t ) dt = C 0 W x (u, s ) du 2 (4.8)
s
La condition
2
+ ( )
C = 0
d % + (4.9)

Du thorme prcdent sappelle la condition dadmissibilit de londelette. Pour que lintgrale
soit finie, il faut sassurer que (0) = 0 , ce qui explique pourquoi les ondelettes doivent tre de
moyenne nulle. Cette condition est presque suffisante. Si (0) = 0 avec ( ) continment
diffrentiable, la condition dadmissibilit est alors satisfaite. On vrifie assez facilement que
( ) est continment diffrentiable si dcrot assez vite linfini. Cest pourquoi on choisit
aussi des ondelettes dcroissance rapide. Enfin, la dernire quation du thorme dmontre la
conservation de lnergie entre le domaine temporel et le domaine des ondelettes.
Le signal de parole est continu mais nous travaillons sur un signal discret f [n] = f (n) (de taille
N). Nous utiliserons donc la version discrte de la transforme en ondelettes. La transforme en
ondelettes discrte se calcule aux chelles s = a j , avec a = 21 v ce qui fournit v chelles
[ [
intermdiaires pour chaque octave 2 j ,2 j +1 . De plus, la transforme en ondelettes de f ne
pourra tre calcule que pour les chelles :
1
% s %1 (4.10)
N
4.1.3 La transforme en ondelettes discrte utilise pour le dbruitage de la parole
Le traitement du signal bas sur les ondelettes a t utilis avec succs pour des problmes trs
varis, comme la reconnaissance de la parole [30], [17], le dbruitage de la parole [25], la
classification audio [24], [10] et la compression dimage [31],etc.
Lutilisation des ondelettes permet de faire une analyse multi-rsolution du signal. Nous verrons
60
lintrt de ce type danalyse dans le cadre de dbruitage de la parole pour la reconnaissance.

Mais tout dabord, dfinissons la transforme en ondelettes discrte.
1
Soit un signal f (t ) chantionn uniformment sur [0,1] avec un pas dchantillonnage de . On
N
n
obtient un signal discret f [n] = f compos de N chantillons.
N
Soit (t ) une ondelette en temps continu dont le support est inclus dans [ k / 2, k / 2] . Pour
N
2 ai , on dfinit une ondelette discrte dilate par a i :
k
1 n
j (n ) = (4.11)
aj aj
frquences
temps
Figure 4.4 Dcomposition temps/frquence du signal. Une dcomposition dyadique applique la

fois sur laxe du temps et laxe des frquences.
Elle a KNa j valeur non nulles sur [ N 2 , N 2] . Lchelle a j doit tre suprieur 2 pour que
le pas dchantillonnage soit plus petit que le support de londelette. Afin dviter des problmes
de bords, f [n] et [n] sont trait comme des signaux de priode N.
La transforme en ondelettes discrte peut alors scrire comme une convolution circulaire avec
j [n] = j [ n ] (4.12)
[ ] N 1
Wf n, a j = f [m] j [m n ] = f j [n]
m=0
(4.13)
O est le conjugu complexe de et est loprateur de convolution circulaire.
61
Si nous prenons le cas ou lchelle est dcoupe selon une suite dyadique 2 j { } j , c'est--dire
lorsque le paramtre dchelle est a j = 2 j , alors la transforme en ondelettes discrte et

dyadique scrit :
[ ] N 1
Wf n,2 j = f [m] 2 [m n ] = f 2 [n ]
m =0
j j (4.14)
avec
1 n
2 (n ) =
j (4.15)
2j 2j
La figure 4.5 montre la dcomposition temps/frquence du signal en utilisant la transforme en
ondelettes dyadique. La transforme dyadique de f ne peut pas tre calcule que pour des
1
chelles 1 2j la valeur absolue de j sera utilise par la suite pour reprsenter les
N
diffrentes chelles dans lanalyse multi-resolution ainsi que les diffrentes bandes de frquence.
Lutilisation de la transforme en ondelettes dyadique nous permet dobtenir une partition
dyadique du plan temps/frquence de telle sorte que les basses frquences sont reprsentes avec
une haute rsolution frquentielle et une faible rsolution temporelle alors que les hautes
frquences sont reprsentes avec une haute rsolution temporelle et une faible rsolution
frquentielle (figure 4.4). La rsolution temporelle est inversement proportionnelle la rsolution
frquentielle cause du principe dincertitude dHeisenberg. Cette partition permet davoir une
rsolution frquentielle qui se rapproche de celle de loreille humaine, analyse fine des basses
frquences et qui diminue de manire logarithmique lorsque lon montre en frquence (figure
4.5). Cest une approximation de lchelle Mel, trs utilise en reconnaissance de la parole et
notamment avec les MFCC.
62
frquences
0 0,5 1 2 4 8 KHz
figure 4.5 Rsolution frquentielle obtenue laide de la dcomposition en ondelettes dyadique.
(Arbre de dcomposition dyadique avec 5 niveaux de dcomposition).
4.1.4 Algorithme rapide pour la transforme en ondelettes

Mallat [34] a montr que les coefficients de la dcomposition du signal sur une base orthonorme
dondelettes se calculent par un algorithme rapide (algorithme pyramidal) qui cascade des
convolutions discrte avec des filtres passe-bas (G) et passe haut (H) dont les sorties sont sous
chantillonnes.
Dans notre cas, les coefficients de dcomposition du signal par la transforme en ondelettes
dyadique sont obtenus par filtrage successif passe-haut (H) et passe bas (G) de la sortie du filtre
passe bas (G). Les sorties des filtres sont sous chantillonnes par un facteur de 2 lalgorithme est
illustr la figure 4.6.
Ces banc de filtres implmentent une transforme rapide en ondelettes orthogonales, qui ne
ncessite que O ( N ) calculs pour un signal de taille N .
Le symbole ' 2' correspond au sous-chantillonnage par un facteur de 2. La figure montre qu

chaque niveau de dcomposition j , le signal est dcompos en coefficients dapproximation
a j (k ) (sortie du filtre passe bas) et en coefficients de dtails j (k ) (la sortie du filtre passe haut
(H)).
Les coefficients dapproximation correspondent des moyennes locales du signal tandis que les
coefficients de dtails, aussi appels coefficients dondelettes, dpeignent les diffrences entre
deux moyennes locales successives, c'est--dire entre deux approximations successives du signal.
63
Sous chantillonnage a1 (k )
G 2
a1 (k )
G 2
s (k ) 1 (k )
filtre passe bas H 2
1 (k )
H 2
filtre passe haut
Figure 4.6 transforme en ondelettes Dyadique avec 2 niveaux de dcomposition.
Dune manire plus image, les coefficients dapproximation donnent une reprsentation lisse
du signal et les coefficients dondelettes (de dtails) nous donnent les dtails (le bruit) qui ont t
supprims lors du lissage. Il est tout fait possible de reconstruire le signal de dpart partir de
ces coefficients dapproximation et de dtails.
4.2 Types dondelettes utilises

Il existe un nombre trs important de type dondelettes que lon appelle aussi familles. Cette
richesse dans le choix de la base dondelettes, c'est--dire le chois des fonctions analysantes, est
aussi lun des intrts de la transforme en ondelettes. Parmi la multitude de familles dondelettes
qui ont t proposes, nous pouvons citer, par exemple , les Coeflets, les Symlets, les ondelettes
de Daubechies, les ondelettes bi-orthogonales, londelettes de Haar ...etc.
Lors de notre tude, nous nous somme limits trois familles dondelettes bien connues en
traitement du signal : les ondelettes de Daubechies, les Symlets et les Coeflets. Ces ondelettes
sont toutes admissibles, selon le thorme1, car de moyenne nulle et dcroissance rapide.
De plus elles ont dj t tudi en reconnaissance de la parole et ont donn de bons rsultats
[23], [26]. Enfin, elles ont toutes la proprit davoir un support minimum pour un nombre de
moments nuls donn. Avant daller plus loin, dfinissons les deux caractristiques que nous
venons de citer : le nombre de moments nuls et la taille du support dune ondelette. Ces deux
caractristiques importantes sont gnralement prises en compte dans le choix dune ondelette.
a) Les moments nuls
Le nombre de moments nuls dune ondelette sexprime de la manire suivante :
+ k
t (t )dt = 0 pour 0k % p (4.16)
64
Si une ondelette vrifie cette quation alors on dit que londelette a p moments nuls. Cela
signifie que est orthogonale tout polynme de degr p 1 . Lintrt davoir p moments
nuls est dobtenir des coefficients dondelettes j proches de 0 au chelles fines 2 j (lorsque 2 j
tend vers 0). En effet, si f (t ) est localement de classe C k alors f (t ) est localement bien
approxim par un polynme de Taylor de degr k , et si k % p alors les ondelettes seront

orthogonales ce polynme. La transforme en ondelettes aura donc des valeur proches de 0.
A contrario, quand f (t ) ne pourra tre approxim correctement que par des polynmes de degr
suprieur p, alors la transforme en ondelettes aura de fortes amplitudes. Cette proprit est trs
utile pour dtecter les transitions brutales. En effet, les zones stationnaires dun signal
correspondront de petits coefficients dondelettes, et les transitions brutales de grands
coefficients.
b) Taille du support
Si f (t ) a une singularit isole en t0 , et si t0 est dans le support de londelette j , alors la
transforme en ondelette aux fines chelles : lorsque lchelle s tend vers 0, il y aura k
ondelettes aura des coefficients dondelettes de fortes amplitude autour de t0 . Si londelettes a
un support de taille k , alors haute rsolution, c'est--dire aux fines chelles : alors lchelle s
tend vers 0 il y aura k ondelettes j dont le support contiendra t0 . Lide est de minimiser la
taille du support de dans le but de diminuer le nombre de coefficients dondelettes de grande

amplitude. Cela permet ainsi de faire de la dtection de singularits.
Ces deux caractristiques ne sont pas indpendantes. En effet, la taille du support et le

nombre de moments nuls dune ondelettes orthogonale sont lies par le fait que si a p
moments nuls alors son support est au mois de taille 2 p 1 . Lors du choix dune ondelettes, on
doit donc faire un compromis entre la taille du support et le nombre de moments nuls. Si f (t ) a
peu de singularits isoles, et est trs rgulier entre ces singularits, il est plus appropri de
choisir une ondelette ayant de nombreux moments nuls afin dobtenir un grand nombre de
coefficients dondelettes de petite amplitude. Lorsque la densit de singularits augmente, il vaut
65
mieux diminuer la taille du support, quitte avoir moins de moments nuls. En effet, les ondelettes
dont le support passe par une singularit donnent des coefficients de grande amplitude.
Pour le choix des ondelettes, il faut aussi noter quen utilisant la transforme en ondelettes
discrte, nous nous restreignons nutiliser que des ondelettes filtres. En effet, seules les
ondelettes filtres pouvant tre utilises avec la transforme discrte, alors que dans le cas
continu nimporte quelle fonction dintgrale nulle convient. Ainsi, les ondelettes utilises sont
dfinies directement par leurs filtres associs (filtre passe-bas et passe-haut). En fait londelette
nest pas toujours directement accessible, c'est--dire quaucune formule analytique ne la dfinit,
comme par exemple londelette dfinie implicitement, en utilisant un algorithme dduit de
lalgorithme de reconstruction de Mallat [29]. Les filtres correspondant aux ondelettes que nous
utilisons ont t construits laide du logiciel Matlab. La figure 4.7 reprsente la rponse
impulsionnelle des filtres associs londelette de Daubichies dB4. Nous prsentons maintenant
plus en dtails les trois familles dondelettes choisies.
Figure 4.7 reprsentation en module dans le domaine des frquences des effets des filtres
danalyse passe-haut ( gauche) et passe-bas ( droite) associ londelette db4.
4.2.1 Les ondelettes de Daubechies

Cette famille dondelettes a t cre par Ingrid [49]. Nous noterons les ondelettes de cette
famille dbN o N est lordre de londelette. Nous retrouvons dans cette famille londelette de
Haar correspondant db1 et qui est la plus simple et certainement la plus ancienne des ondelettes.
Except db1, les ondelettes de cette famille nont pas dexpression explicite. Cette famille
possde certaines proprits intressantes. Le nombre de moments nuls de londelette dbN et N.
les ondelettes de Daubechies ont un support de taille minimale pour un nombre de moments nuls
donn. Les ondelettes de Daubechies sont trs asymtriques, en particulier pour les faibles valeurs
66
de N, sauf pour db1.
Figure 4.8 Exemple de Daubechies : de gauche droite nous avons db2, db4 et db8
4.2.2 Les Symlets

Symlets, notes symN, ont t proposes par Daubechies en modifiant la coustruction des ondelettes
dbN et constituent une famille d'ondelettes presque symtrique.
A part la symtrie, les proprits de ces deux familles sont similaires. En regardant les figures des
ondelettes de Daubechies et les Symlets, trous pouvons constater que la Symlet ressemble une
ondelette de Daubechies pour un nombre de moments nuls petit, et qu'elle est plus symtrique que sa
consoeur.
Figure 4.9 Exemple de Symlets : de gauche droite nous avons sym2, sym4 et sym8
4.2.3 Les Coiflet

Les Coitlets, comme les symlets, ont t construites par Daubechies. Elles ont t cres sur la
demande de R. Coifman pour une application lie l'analyse numrique. Nous prendrons comme
notation de cette famille d'ondelettes: coifN.
Cette famille d'ondelettes est diffrente des deux prcdentes, ici, l'ondelette coifN aura 2N
moments nuls. Toutefois, les Coiflets, comme nous pouvons le voir sur la figure 4.9, sont bien
plus symtriques que les Symlets ou les ondelettes de Daubechies. L'intrt principal des coiflets
67
rside dans le fait que si nous analysons une fonction f assez rgulire, alors les coefficients
d'approximation (pour un nombre de niveaux de dcomposition assez grand) correspondent
l'chantillonnage de f.
Figure 4.10 Exemple de Symlets : de gauche droite nous avons coif2, coif3 et coif5
4.3 Types dnergies calcules sur les coefficients dondelettes

En reconnaissance de la parole lnergie du signal est trop souvent utilise en tant que paramtre
et donne de plus de bons rsultats. Cest pourquoi, nous avons dcid dutiliser lnergie, calcule
sur les coefficients dondelettes obtenus partir de la transforme en ondelettes dyadique, comme
paramtre pour notre tache de reconnaissance. La ncessit dutiliser Lnergie est aussi due au
fait que les coefficients dondelettes sont trop nombreux dans chacune des bandes de frquences
(ou niveau de dcomposition) pour tre utilis directement.
Nous avons choisi de prsenter trois types dnergies aux proprits diffrentes.
Dans ce qui suit, kj dnote le coefficient d'ondelettes la position temporelle k et la bande de
frquence j . nous rappelons que les dcomposition temporelles et en bande de frquences

suivent une chelle dyadique, c'est--dire que la rsolution temporelle est divise par deux alors
que la rsolution frquentielle double chaque niveau de dcomposition. Le nombre de
coefficients dans la bande j est not N j . Nous calculons finalement, partir de lensemble des
coefficients dondelettes kj pour la bande de frquences j . Diffrents paramtres f j pour cette
bande de frquences j en utilisant diffrents types dnergie :
4.3.1 Lnergie instantane

Ce type dnergie, classiquement utilis dans le domaine de la parole, nous donne la distribution
de lnergie dans chacune des bandes.
68
1 N 1 j
f j = log10
N j k
k
J
( ) 2
= 0
4.3.2 Lnergie de Teager

Loprateur discret dnergie de Teager (The discrete Teager Energy Operator ou TEO) introduit
par Kaiser. Cet oprateur permet de calculer dune faon simple lnergie dun signal et de
pouvoir estimer son amplitude et sa frquence instantane (dmodulation). Cet oprateur a t
rcemment utilis en reconnaissance de la parole [11]. Il nous permis de suivre les modulation
dnergie et donne une meilleure reprsentation de linformation formantique du signal dans le
vecteur paramtre, compar aux MFCC [33]. Il permet aussi une rduction du bruit du signal en
utilisant sa capacit de suivi de la modulation dnergie.
1 N 1 j
f j = log10
J

N j k =0
( )
k kj1kj+1

(4.17)

4.3.3 Lnergie hirarchique

Nous calculons ici des paramtres bass sur lnergie mais avec une rsolution temporelle
hirarchique. Lnergie hirarchique correspond au calcul de lnergie au centre de fentre
danalyse en prenant le mme nombre de coefficients dans toutes les bandes :
1 (N + N ) 2 j
f j = log10
j
N j k = (N
k
J
( ) 2
(4.18)
N ) 2j J
J correspond la bande la plus basse.
Le choix de ce sapplique par le fait que les coefficients dondelettes ont une rsolution
temporelle plus fine dans les hautes frquences. Ils recouvrent des intervalles de temps de plus en
plus petits lorsque lon monte en frquence alors que lorsque lon descend dans les basses
frquences les coefficients dondelettes vont recouvrir des zones temporelles de plus en plus
grandes. Le nombre de coefficients donc diffrent dune bande lautre, un grand nombre dans
les hautes frquences et un petit nombre dans les basses frquences. La technique de rsolution
temporelle hirarchique extrait les caractristiques concentres au centre de la fentre danalyse,
en prenant le mme nombre de coefficients pour toutes les bandes.
69
Ce type dnergie a t utilis avec succs en reconnaissance automatique de la parole pour

paramtriser le signal [26].
70

Chapitre5 nouveau paramtre acoustique pour la reconnaissance robuste
5.1 Introduction
La robustesse au bruit est un problme trs difficile auquel sont confronts les systmes de
reconnaissance de la parole dans les applications concrtes. Plusieurs techniques [36] ont t
proposes pour amliorer les performances de la reconnaissance en prsence de disparit entre les
conditions d'apprentissage et celles de l'application. Ces techniques peuvent tre classifies en
deux catgories : celles fondes sur le pr-traitement du signal de la parole (RASTA [53] ou
amlioration de l'intelligibilit [37] par exemple) et les techniques de compensation. Dans ces
dernires, des modles acoustiques initiaux (gnralement les modles de parole propre) sont
transforms pour reprsenter le nouvel environnement.
Dans notre approche nous considrons que les donnes de parole ont t enregistres dans
diffrentes conditions de bruit. Nous dveloppons ensuite larchitecture de notre nouveau
paramtre propos (PNRF : Proposed Noise Robust Feature), qui est issu des tudes psycho-
acoustique en relation avec la perception de loreille humaine, et qui dpend du module ainsi que
de la phase du spectre du signal. Le principe de cette nouvelle paramtrisation acoustique est de
proposer une phase prliminaire de pr-traitement dans le but damliorer le signal parole par un
dbruitage adaptatif pour une tache de reconnaissance, et cela par dcomposition du signal parole
en bandes critiques par paquet dondelettes perceptuelles suivi par un seuillage adaptatif propos.
Ce chapitre est organis de la faon suivante. Dans la prochaine section, nous commenons par
dvelopper l'architecture gnrale de notre nouveau paramtre acoustique. Et nous dfinissons les
diffrentes tapes que nous utilisons dans ce dveloppement. Dans la section 3, nous posons le
cadre exprimental pour nos valuations, nous dcrivons la base de donnes vocale, la base de
bruit noisex-92 et le systme de reconnaissance markovien de rfrence. La quatrime section de
ce chapitre est consacre aux rsultats et leur analyse.
71
5.2 Description de lalgorithme de paramtrisation

Les diffrentes phases de conception de notre nouveau paramtre propos PNRF sont les
suivantes (figure 5.1):
1. Segmentation du signal parole en fentre.
2. Dcomposition frquentielle du signal parole en bandes critiques par la transformation en
paquet dondelettes perceptuelles TPWP.
3. Dbruitage du signal parole par seuillage (seuillage doux et seuillage doux modifi) des
coefficients dondelettes des diffrentes bandes critiques par slection du seuil pnalis.
4. Reconstruction du signal parole par transformation inverse par paquet dondelettes
parceptuelles IPWP.
5. Calcul des coefficients MFPSCC.
6. Enfin, calcul des coefficients dynamiques (driv et acclration).
Signal parole
Fentrage du signal
L=275 , S=110
Dcomposition par paquet

dondelettes perceptuelles
Dbruitage par seuillage

adaptatif
Reconstitution du signal par transformation

inverse en paquet dondelettes
Calcul des coefficients

MFPSCC
Calcule des coefficients

drives et acclration
Vecteur de paramtre de sortie
Moteur de reconnaissance Markovien

Figure 5.1. Bloc diagramme du paramtre robuste propos
72
5.2.1 Segmentation en fentre
Dans la figure 5.1 du bloc diagramme de lalgorithme de paramtrisation robuste du signal parole.
Le signal dentre est chantillonn une frquence Fs = 11025Hz . Une segmentation en trames
est effectue toutes les 10 ms pour permettre de dcouper le flot de parole continue en fentre de
25 ms soit de langueur L = 275 chantillons, dans lesquelles le signal est suppos quasi-
stationnaire, le recouvrement entre deux fentre successives est de 10 ms ( L = 110 chantillons).
Lapplication dune fentre classique (Hamming, Hanning,..etc.) nest pas ncessaire avant la
phase de dcomposition en dondelettes.
5.2.2 Dcomposition du signal parole par paquet dondelettes

La dcomposition du signal parole par paquet dondelettes a peu dintrt pour lanalyse du signal
parole, parce que les coefficients dondelettes sont issus dun banc de filtre de largeur de bande
identique et rpartition linaire. Cette rpartition ne se rapproche pas de la rpartition des
frquences au niveau de la membrane basilaire de l'oreille humaine. (Voir chapitre 2).
Level (j) BW(kHz)
j=0 (0,0) 5.5125
j=1 (1,0) (1,1) 2.7562
j=2 (2,0) (2,1) (2,2) (2,3) 1.3781
j=3 (3,0) (3,1) (3,2) (3,3) (3,4) (3,5) (3,6) (3,7) 0.6890
j=4 (4,0) (4,1) (4,2) (4,3) . . . . . . . . . (4,14) (4,15) 0.3445
. (a)
j = 5 (5,0) (5,1) (5,2) (5,3) (5,4) (5,5) (5,6) (5,7)
. . . . . . . . (5,28) (5,29)(5,30) (5,31) 0.1722
; ; ; ; ; ; (b); ; ; ; ; ;
(kHz)
Figure 5.2 (a) structure de larbre WP. (b) correspondance de chaque bande (les bandes sont de largeurs
identiques)
73
Index des Bandes Centre de la bande (Hz) Index des Bandes Centre de la bande (Hz)
frquentielles frquentielles
1 86 17 2838
2 258 18 3010
3 430 19 3182
4 602 20 3354
5 774 21 3526
6 946 22 3698
7 1118 23 3870
8 1290 24 4042
9 1462 25 4214
10 1634 26 4386
11 1806 27 4558
12 1978 28 4730
13 2150 29 4902
14 2322 30 5074
15 2494 31 5246
16 2666 32 5418
Tableau 5.1 : Description spectrale des sous bandes frquentielles (toutes les bandes sont de
largeurs identiques 172 Hz)
Pour cet effet nous avons propos deffectu une dcomposition du signal parole en arbre
perceptuel (PWPT : Perceptual Wavelet Packet Tree) comme il a t dcrit dans ([19] par
Pinter), (srinivasan et Jamieson dans [83]) et (carneno et drygajlo dans [82]), cette arbre est plus
adapte au systme auditif, qui se comporte comme un banc de filtres passe-bande [43]. Les
largeurs de bande de ces filtres, appele bandes critiques se rapprochent d'chelles issues d'tudes
sur la perception sonore (chelle Bark) et sur les bandes passantes critiques de l'oreille.
Une bande critique correspond l'cart frquentiel minimal pour que deux harmoniques d'un son
soient discrimins perceptivement.
La dcomposition en PWPT a t lobjet de plusieurs tudes rcentes, elle est largement
applique pour lamlioration de la parole dans le milieu bruit [5], [6], [8], [15], [16], [35], ainsi
que pour la reconnaissance robuste de la parole [1], [2], [7], [19], [20].
Les coefficients de la dcomposition par PWP sont obtenus partir de 17 sous bandes critiques,
qui sont gnralement considrs comme suffisantes pour les expriences de reconnaissance de la
parole et du locuteur.
74
La dcomposition par PWP a un intrt majeur par rapport la dcomposition par WP, on peut
citer quelques avantages :
Les coefficients obtenus sont plus reprsentatifs et plus pertinents pour la tache de
reconnaissance.
Un nombre de nud rduit par rapport la dcomposition en WP, ce qui nous rapporte un
gain dans les calcules et dans le temps, et rend le systme de reconnaissance plus souple ce
qui permettra dextraire les paramtres acoustiques en temps rel.
Une reprsentation de linformation plus compacte, ce qui nous rapporte un gain
considrable sur lespace mmoire.
Level (j) (0,0)

BW(kHz)
j=0 5.5125
(1,0) (1,1)
j=1 2.7562
(2,0) (2,1) (2,2) (2,3)
j=2 1.3781
(3,0) (3,1) (3,2) (3,3) (3,4) (3,5) (3,6) (3,7)
j=3 0.6890
(4,0) (4,1) (4,2) (4,3) (4,4) (4,5) (4,6) (4,7) (4,8) (4,9)
j=4 (a) 0.3445

(5,0) (5,1) (5,2) (5,3) (5,4) (5,5) (5,6) (5,7)
j=5 0.1722
(b)
Frequency (kHz)
Figure 5.3 : (a) structure de larbre PWPT. (b) correspondance de chaque bande critique.
La figure 5.3 prsente les dtails de la dcomposition en PWP, cinq niveaux de dcomposition
sont ncessaires pour la cration de larbre, le dernier niveau de dcomposition contient 17 sous
bandes de largeur diffrentes.
Le tableau 5.2 montre que le nombre de coefficient dans une sous bande varie dun niveau un
autre, il est plus lev pour les niveaux ascendants qui sont moins nergtiques par rapport aux
coefficients descendants.
75
Index des Bande Largeur de la bande Centre de la bande

critique critique (Hz) (Hz)
1 172 86
2 172 258
3 172 430
4 172 602
5 172 774
6 172 946
7 172 1118
8 172 1290
9 344 1548
10 344 1892
11 344 2236
12 344 2580
13 344 2924
14 344 3268
15 689 3785
16 689 4473
17 689 5161
Tableau 5.2 : Description spectrale des bandes critiques.
Plusieurs tudes ont t faites pour dterminer quelles sont les ondelettes les plus adquates pour
une tche de discrimination parole/bruit, c--d qui modlisent au mieux le signal parole en milieu
prcontraint. Ce choix ne peut tre fait qu'empiriquement. Nous ne pouvons pas prdire, en
regardant ses proprits mathmatiques, si une ondelette est meilleure pour telle ou telle tche. Il
existe de nombreuses familles d'ondelettes. Mais nous nous sommes limits aux ondelettes
utilisables par l'algorithme rapide base de bancs de filtres les ondelettes orthogonales Nous
avons ainsi tudi trois familles d'ondelettes, les plus connues et les plus utilises eu traitement
du signal les ondelettes de Daubechies, les Symlets et les Coiflets que nous avons dcrites au
chapitre prcdent.
Il a t montr dans plusieurs tudes rcentes que les ondelettes de Daubechies sont les plus
recommands pour le dbruitage du signal parole pour la RAP robuste [15], [12], [14] et [7], la
dtection de lactivit vocale en milieu bruit [3], [11] ainsi que pour lamlioration du signal
parole dans le milieu prcontraint [5], [6], [35]. Apres plusieurs essais notre choix est port sur
londelette Daubechies (Db8), quand vas le maintenir pour toutes les expriences.
5.2.3 Dbruitage par les algorithmes de seuillage
76
Dans la littrature rcente beaucoup de mthodes ont t dveloppes dans le but de dbruit les
signaux contamins par les bruits environnementaux [12], [16], [15], [13], [19]. Le dbruitage par
les ondelettes est ralis par des algorithmes de seuillage, dont leurs coefficients sont infrieurs
dune certaine valeur spcifique, quand lappelle seuil. Dans le domaine des ondelettes, ce terme
signifie la rejection de bruit par un seuillage adquat [84], [85].
Dans cette section nous allons prsenter les techniques de seuillage les plus utilises et nous
introduisant une technique de seuillage plus adapte pour traiter le signal parole.
5.2.3.1 Algorithme de seuillage dur (Hard thresholding)

Si un coefficient du signal de lobservation soit infrieur un certain seuil, il est considr
comme tant du bruit pur et est remplac par zro, sinon il est gard tel quil est. Il dfini par :
(voir figure 5.4. (b)).
0 x
H ( x) = (5.1)
x x
: designe le seuil.
x : designe les coefficients dondelettes ( x wij ).
5.2.3.2 Algorithme de seuillage doux (Soft thresholding)

Si un coefficient du signal de lobservation soit infrieur un certain seuil, il est considr
comme tant du bruit pur et est remplac par zro, sinon il est rtrci de la valeur du seuil (figure
5.4 (c))
0 x
S ( x) = (5.2)
sign( x)( x ) x
5.2.3.3 Algorithme de seuillage doux modifi (Modified soft thresholding)

Chacun des algorithmes prsents ci-dessus a ses avantages et ses inconvnients. Le seuillage dur
cre des discontinuits dans le signal de sortie, par contre le seuillage doux provoque lapparition
dun biais qui est un inconvnient. Mais la technique de seuillage doux est plus optimale pour
dbruiter le signal parole corrompue par le bruit blanc gaussien additif.
Mais il y a des considrations prendre lors de lapplication de la technique de seuillage (dur et
doux) puisque les zones non voises (consonnes) contiennent relativement beaucoup de plus
77
composantes de hautes frquences qui peuvent tre confondue avec le bruit et par consquent
limines durant la procdure de seuillage. Pour remdier a ces problmes nous avons introduit
lalgorithme de seuillage doux modifi, qui est dfini comme suit :
x x
y = Mst ( x) = (5.3)
sgn( x )( x + ( 1)) x
o x wij et y wij qui reprsente la squence des coefficients dondelettes rsultantes.
i dsigne lindex de la sous bande de la WPD et j dsigne le niveau de dcomposition.

Le coefficient dinclinaison introduit dans lquation ci-dessus est dfinie par : (figure 5.4 (d))

= (5.4)
max(wij )
est la constante dajustement de linclinaison.
Lide de base du seuillage doux modifi est lintroduction de coefficient dinclinaison , pour
ne pas forcer zro les coefficients dont leurs valeurs absolue est infrieurs au seuil . La
technique de seuillage doux modifi est quivalente au seuillage doux lorsque = 0 . Dans notre
cas = 0,5 .
a) signal original
b) signal aprs un seuillage Hard (seuil=0.5)
78
c) signal aprs un seuillage Soft (seuil=0.5)
d) signal aprs un seuillage Soft Modifi (seuil=0.5)

Figure 5.4 Reprsentation graphique des diffrentes techniques de seuillage.
Une question naturelle se pose cependant : Comment est-elle choisie la valeur du seuil de
dcision ? Cest par la rponse cette question que diffre une mthode dune autre.
5.2.4 Slection du seuil

Il y a de nombreuses formules pour obtenir la valeur du seuil, nous prsentons dans le prsent
paragraphe deux mthodes qui sont les plus adapt au traitement du signal parole : la mthode du
calcul du seuil universel et la mthode de seuil pnalis.
5.2.4.1 Seuil obtenu par la mthode universelle
Donoho D. L. dans [84] a extrait un seuil optimal et gnral donne par lexpression
= 2 log e (n) (5.5)
n le nombre des chantillons dans une trame du signal parole, et lcart type du bruit estim
par lexpression suivante
median( wij )
= (5.6)
0,6745
o wij sont les coefficients de dtail du 1er niveau de dcomposition de la transforme en

ondelettes du signal bruit.
79
5.2.4.2 Seuil obtenu par la mthode pnalis

Soit la squence des coefficients de paquet dondelettes w j ,i , o j reprsente le niveau de
dcomposition WPD et i est lindex des sous bande.

La variance est estime de la mme faon que dans [84]
=
1
mad
( )
median w1,1 (5.7)
w1,1 : est la squence de WPC du premier nud.
La constante mad = 0,6745 estime la valeur mdiane de la valeur absolue de lcart type non
biais de la distribution gaussienne.

nc : nombre de tous WPC du dernier niveau de dcomposition.
cfs : contient tous les WPC du dernier niveau de dcomposition (W5,0 , W5,1 W3,7 ) .
where t = 1 ncd
thres contient la valeur absolue des WPC sauvegardes dans lordre dcroissant, cd contient le
WPC du dernier niveau de la dcomposition (W5,1 , W5,2 W3,7 ) et ncd est le nombre de WPC dans
cd.
A = cumsum(thres 2 ) (5.8)
cumsum : calcule la somme cumulative le long diffrente dimension.
(
valthr = index _ min 2 2 t ( + log(nc t )) A ) (5.9)
: terme de pnalisation ( = 6.25)

Maxthr = max( cfs ) (5.10)
Valthr = min (valthr , Maxthr ) est la valeur du seuil. (5.11)

5.2.5 Comparaison entre les diffrents types de seuillage
Pour monter lefficacit des techniques de seuillage, nous avons appliqu chacune dentre elle sur
un signal parole bruit 10dB par un bruit blanc de SNR=5dB.
Pour le dveloppement du graphique ci-dessous nous avons procd de la manire suivante :
- Une dcomposition du signal par paquet ondelettes perceptuelles PWP est effectue.
- La dcomposition est faite par les ondelettes de Daubechies (dB8).
- Les coefficients dondelettes sont issus de 17 bandes frquentielles critiques.
80
- La restitution du signal est faite par la transforme inverse en paquet dondelettes ITWP.
- La frquence dchantillonnage est de 11025Hz.
- La fentre de traitement est de 25ms (275 chantillons) avec un pas de traitement de 10ms
(110 chantillons).
Figure 5.5 (a) signal original, (b) signal bruit par le bruit blanc 5dB, (c) signal dbruit par
seuillage dur, (d) signal dbruit par seuillage doux, (e) signal dbruit par seuillage doux
modifi. (dans lensemble de ces exprience nous avons utilis le seuil pnalis).
premire vue on constate que le seuillage dur et doux rejettent radicalement le bruit blanc, mais
en ralit, ils liminent aussi les composantes de hautes frquences qui constituent la majeure
partie du spectre des consonnes et qui sont lessence mme de la reconnaissance automatique de
la parole. Par contre ils affectent moins les basses frquences qui sont plus nergtiques que les
hautes frquences, et constituant les composantes principales des voyelles.
Le seuillage doux modifi (MST: modified soft thresholding) ne rejettes pas les bruit mais les
attnuent, cette attnuation est due lintroduction du coefficient dinclinaison calculer par
lexpression (5.4), ce type de seuillage est fait un bon compromis entre les composantes de hautes
frquences et les bruits.
81
5.2.6 Reconstitution du signal parole

En appliquant la transforme inverse par paquet dondelettes (IPWP : Inverse Perceptual Wavelet
Packet Transform) nous obtenons le signal parole amlior n~
x (n)
nx = IPWPT {w j ,i } (5.12)
x : pour dsign le signal restitu.

w j ,i : les coefficients dondelettes issus des sous-bandes critiques aprs seuillage.
5.2.7 Dfinition des coefficients de Mel cepstral du produit spectrale
A partir du signal restitu nous calculons les paramtres robustes proposs MFPSCC proposs
par D. Zhu and K.K and Paliwal comme ils on dcrit dans la rference [18].
Les coefficients Mfpscc ont t calculs partir des quatre tapes suivantes :
1) Nous calculons le spectre du signal ~
x (n) et de n~
x (n) par la FFT que lon dsigne
respectivement par X (k ) et Y (k ) .
2) Nous calculons ensuite le produit spectral donn par lexpression suivante:
Q (k ) = max ( X R (k )YR (k ) + X I (k )YI (k ), ) (5.13)

o = 10 10 max ( X R (k )YR (k ) + X I (k )YI (k ) ) (5.14)
est un seuil en dB ( dans notre cas = 60dB ).

3) Appliquer un banc de filter de Mel aux coefficients Q (k ) pour avoir les nergies issues des
sous-bandes frquentielles.
4) Enfin pour obtenir les coefficients Mfpscc, nous calculons la transforme en cosinus discrte.
Dans toutes nos expriences, nous ajoutons les coefficients drivs du premier et du second ordre
ainsi que le logarithme de lnergie obtenu par chaque trame tous les paramtres utiliss dans le
reste de cette thse.
1 N 1 j
E j = log10
N j k
J
k ( )
2
(5.15)
= 0
5.2.8 Coefficients diffrentiels
Les coefficients drivs delta sont obtenus par la formule suivante :
82

(c +1 c 1 )
d t = =1
(5.16)
2
2
=1
o d t est le coefficient delta calcul partir des coefficients ct et ct + . La mme formule est
utilise pour le calcul des coefficients dacclrations. Leurs utilisations amliorent les
performances des systmes markoviens de reconnaissance.
5.2.9 Comparaison graphique entre les diffrents types de paramtres acoustiques
Afin de dterminer quel est le paramtre acoustique le plus immunis aux variations
environnementales. Une comparaison graphique a t effectue entre les diffrents paramtres
soumis au bruit blanc de diffrentes intensits. Chaque vecteur de paramtre comporte 12
composantes frquentielles. Les zones les plus sombres reprsentent les vecteurs de paramtres
dont leurs coefficients sont moins nergtiques qui peuvent gnralement tre des segment de
silence (au dbut et la fin de chaque mot) ou des segments de signaux non voiss (consonnes
occlusive, fricative etc.).
83
Figure 5.6 Reprsentation graphique des paramtres MFCC, MFPSCC et PNRF_Soft du mot un
en arabe () corrompu par le bruit blanc sous 7 niveaux de SNR.
Comme le cas pour les coefficients MFCC, Mfpscc et PNRF_Soft sont calculs sur une fentre de
25 ms avec un pas de traitement de 10ms, les coefficients cepstraux sont obtenus a partir de la
transforme en cosinus discrte du logarithme des nergies issues de 22 filtres rpartis sur une
chelle de Mel. A partir de la figure ci-dessus on peut constater que la dgradation des paramtres
MFCC en prsence de bruit blanc apparat nettement pour des SNR 10dB , alors que les
coefficients MPSCC et PNRF_soft rsistent mieux des niveau de bruit plus levs.
On peut voir clairement pour des SNR 5dB Les paramtres PNRF_soft sont les plus robustes
et les plus adapts a cette environnement par rapport aux paramtres MFPSCC.
84
5.3 Dveloppement du systme de reconnaissance
5.3.1 Description de la base de donnes
Toutes nos expriences ont t ralises laide dune base de donnes vocale dveloppe au
niveau du laboratoire dautomatique et des signaux de Annaba (LASA), luniversit badji-
Mokhtar, Annaba. Cette base a t acquise par un microphone mono-phonique reli un
ordinateur. La base contient 90 locuteurs, 46 locuteurs de sexe masculin et 44 autres de sexe
fminins, qui appartiennent tous la mme tranche dage, et dont la majorit sont de la mme
rgion (est dAlgrie). Chaque locuteur a prononc 10 fois chaque chiffre arabe (0 9) dune
manire isole (avec dure du silence importante entre deux locutions successives), cette base au
totale contient 9 000 mots, les enregistrements ont t fait dans des condition moins bonnes (dans
une salle ferme) . Le signal a t chantillonn avec une frquence 11025 Hz et quantifi sur 16
bits.
Nous avons effectu un premier traitement qui consiste enlever les bruits provoqus par le
locuteur lors de la lecture, tel que les bruits dinspirations et dexpirations de laire entre les
locutions, la toux et parfois des lapsus de prononciation.
Dans nos expriences, lapprentissage du systme de reconnaissance est fait dans des conditions
non bruites. Pour mieux valuer nos paramtres acoustiques proposs plusieurs tests ont t
faites lors de la phase dvaluation du systme et dans des conditions environnementales
diffrentes de celle de lapprentissage. Les signaux de parole obtenus sont corrompus par les
bruits extraits du monde rel du corpus Noisex-92 dvelopp par TNO. Quatre types de bruits ont
t slectionns: le bruit blanc, le bruit rose, le bruit industriel (usinage de tle) et le bruit du
cockpit de lavion de chasse F16.
Deux groupes de tests ont t envisags, un groupe de test A, o les locuteurs ont contribus au
deux phases, la phase dapprentissage et la phase des tests. Nous avons pris de chaque 10
locutions de chaque chiffre prononc (0 9) par chaque locuteur (90 locuteurs) 6 locutions pour
servir la phase de lapprentissage et les 4 locutions restantes pour la phase des tests. Ce qui nous
fait 5400 locutions pour lapprentissage en clair et 3600 locutions restantes ont t utilises pour
lvaluation du systme de reconnaissance.
Un groupe de test B, dans ce groupe, les locuteurs qui ont servis la phase dapprentissage nont
pas contribus la phase des tests. Lapprentissage est fait avec les 10 locutions prononces par
85
60 locuteurs (31 hommes et 29 femmes) ce qui ne donne un total de 6000 locutions. Les 30
locuteurs restant (15 hommes et 15 femmes) ont servis la phase des tests avec un total de 3000
locutions.
5.3.2 Le corpus de bruits NOISEX-92

Nous allons prsenter brivement le corpus de bruit Noisex-92 avec lequel nous avons
travaill. Le but de ce corpus est de fournir un ensemble de bruits standard pouvant servir de base
de comparaison pour les diffrentes mthodes de traitement et de reconnaissance de la parole
dans le bruit.
Le corpus Noisex-92 a t conjointement mis au point, en 1992, partir du corpus Noise-Rom-0
par lInstitut TNO pour ltude de la perception et par lquipe de recherche sur la parole de la
Defense Research Agency anglaise. Seuls certains bruits ont t slectionns par rapport
lensemble de ceux disponibles dans le corpus Noisex. En complment de ces bruits sont fournis
des signaux de parole dans diffrentes conditions de bruits et, ce, pour tous les bruits du corpus :
parole non bruite et parole bruite des RSB de 18, 12, 6, 0 et -6 dcibels.
Tous les fichiers des bruits de la base Noisex-92 [84] sont enregistrs sous format .wav avec
une frquence dchantillonnage de 20 kHz et quantifi 16 bits. La dure de chaque fichier est
255 secondes, obtenus partir du corpus Noise-Rom-0. Le tableau 5.3 contient une brve
description des diffrents types de bruit de la base Noisex-92.
Type de bruit Description
White bruit gnrer par gnrateur de bruit blanc analogique
Pink bruit gnrer par gnrateur de bruit rose analogique
Babble bruit de murmures de 100 personnes dans un restaurant
Volvo bruit de voiture volovo340 120km/h en 4me vitesse sur une route goudronne
Factory1 bruit dune usine de production de voitures : bruits de soudures lectriques lors de
lassemblage du bas de caisse
Factory2 bruit dune usine de production de voitures : bruits du hall dassemblage
F16 bruit dun chasseur F16 biplace 500 noeuds et 300-600 pieds en place copilote
Destroyerops Bruit de destroyer
Destroyerengine Bruit de destroyer
hfchannel bruit de canal radio hautes frquences
Machinegun bruit de mitrailleuse calibre 50mm
Buccaneer1 bruit de buccaner 450 nuds 300 pieds
Buccaneer2 bruit de buccaner 190 nuds 1000 pieds
M109 bruit de char de combat M 109 30 km/h
Leopard bruit du Leopard 2 70 km/h
Tableau 5.3 Description des bruits de la base Noisex-92
86
5.3.3 Description du systme de reconnaissance de rfrence base des HMMc

Afin d'tudier lapport du nouveau paramtre acoustique et pour montrer la pertinence des ides
proposes, nous avons dvelopp un systme de rfrence base de modles de Markov cachs
pour la reconnaissance des mots isols.
Dans le systme HMM de rfrence chaque mot est reprsent par un HMM distinct. Dans l'tape
dapprentissage, chaque prononciation est convertie en une squence de vecteur de paramtre
acoustique (MFCC, MFPSCC, etc.) qui constitue une squence d'observation pour l'valuation
des paramtres HMM associs au mot respectif. L'valuation est excute en optimisant la
probabilit des donnes dapprentissage correspondant chaque mot dans le vocabulaire.
Typiquement l'optimisation est excute en utilisant l'algorithme de Baum-Welch.
Dans l'tape de reconnaissance, la squence d'observation reprsentant le mot reconnatre est

utilise pour calculer les probabilits, pour tous les modles possibles. Le mot reconnu
correspond au modle qui donne la probabilit la plus grande. Dans cette tape l'algorithme de
Viterbi, est employ.
Les choix qui ont t fait pour le systme de base sont les suivant :
Nous avons modlis chaque unit acoustique de notre vocabulaire par un modle de Markov
cach continu, 10 modles sont ncessaires pour notre application (un modle pour chaque
chiffre arabe). Chaque modle est reprsent par 15 tats, nous avons suppos que la majorit
des chiffres arabes sont constitus de 5 phonmes. O chaque phonme est reprsent par
trois tats, un tat pour son dbut, un notre plus stable au milieu et le dernier pour sa fin.
On a opte pour une topologie des modles gauche droite (modle de Bakis) propos par
Rabiner dans [42] pour sa bonne rsolution des problmes de reconnaissance des mots isols.
La Probabilit dmission modlise par une combinaison linaire de 3 gaussiennes matrice
de covariance diagonale.
Tous les modles ont la mme topologie, et les probabilits dmission de tous les tats sont
reprsentes par un nombre identique de gaussiennes. Lapprentissage et la reconnaissance des
modles isols ont t raliss avec les outils de la plate forme logicielle HTK.
87
Figure 5.7 Structure du systme de reconnaissance des mots isol de rfrence

5.4 Exprimentation et rsultats
Les tableaux ci-dessous montrent les taux de reconnaissance pour les sries dexpriences, nous
rappelons que toutes nos expriences, lapprentissage du systme de reconnaissance est fait dans
des conditions non bruites..
5.4.1 Evaluation des performances du ASR en prsence du bruit blanc pour les deux
groupes de test (A et B)
SNR (dB) MFCC MFPSCC PNRF_Mst PNRF_Soft

Clean 98,55 98,61 97,78 97,08
20 97,55 98,33 97,72 96,50
15 96,03 98,08 97,50 95,94
10 90,78 96,44 96,75 95,03
5 76,69 92,47 92,89 92,69
0 48,04 75,85 80,11 85,72
-5 22,70 34,04 48,99 65,05
Vmoyenne 75,67 84,83 87,39 89,71
Tableau 5.3 Taux de reconnaissance (%) obtenus avec les diffrents paramtres en prsence du
bruit blanc (les locuteurs appartiennent au groupe de test A).
88
100
90
80
70 MFCC
60 MFPSCC
50 PNRF_Mst
40 PNRF_Soft
30
20
10
clean 20 15 10 5 0 -5
Figure 5.8 Reprsentation graphique des taux de reconnaissance (%) obtenus pour les diffrents
paramtres en prsence du bruit blanc (les locuteurs appartiennent au groupe de test A).
SNR (dB) MFCC MFPSCC PNRF_Mst PNRF_soft
Clean 97,80 97,60 97,00 96,27
20 96,77 97,47 96,87 95,67
15 95,03 97,13 96,67 95,07
10 88,93 96,03 95,47 93,73
5 74,49 92,13 92,36 91,00
0 43,91 77,33 80,83 84,09
-5 18,34 39,41 49,65 63,05
Vmoyenne 73,61 85,30 86,97 88,41
bruit blanc (les locuteurs appartiennent au groupe test B).
89
100
90
80
70 MFCC
60 MFPSCC
50 PNRF_Mst
PNRF_Soft
40
30
20
10
clean 20 15 10 5 0 -5
Figure 5.9 Reprsentation graphique des taux de reconnaissance (%) obtenu pour les diffrents
paramtres en prsence du bruit blanc (les locuteurs appartiennent au groupe de test B).
A partir du tableau 5.3 et 5.4 on peut remarquer pour un bruit blanc de faible intensit SNR > 10
le paramtre Mfpscc a un apport meilleur sur le taux de reconnaissance, 0,6% par rapport au
paramtre PNRF_soft et PNRF_Mst. Mais pour des niveaux de bruit levs, pour des SNR
10db les meilleurs taux de reconnaissance sont obtenus avec nos paramtres proposs
PNRF_Soft et PNRF_Mst, lapport est de plus de 42% par rapport au paramtre Mfcc, et plus de
24% sur le taux de reconnaissance par rapport au paramtre Mfpscc. Le paramtre Mfcc se
dgrade facilement en prsence de bruit ce qui prsente un handicap pour le systme de
reconnaissance qui opre dans ce genre de milieu.
On peut constat aussi que le seuillage doux est mieux adapt que le seuillage doux modifi pour
le traitement du signal parole corrompu par le bruit blanc et cela pour les deux sries de test
effectus (avec les groupes de test A et B).
partir des rsultats obtenus on peut conclure, pour les 7 niveaux de SNR que le paramtre
PNRF_soft est plus immunis au bruit pour une tache de reconnaissance par les HMMc.
90
5.4.3 Evaluation des performances du ASR en prsence du bruit rose pour les deux groupes
de test (A et B)
Clean 98,55 98,61 97,78 97,08
20 96,55 89,60 97,42 96,69
15 91,94 97,75 97,22 96,05
10 80,30 96,33 96,17 94,72
5 61,79 91,05 92,14 91,33
0 35,76 71,13 79,41 81,24
-5 16,00 42,01 49,37 50,49
Vmoyenne 68,69 85,06 87,07 86,79
bruit rose (les locuteurs appartiennent au groupe de test A).
100
90
80
70 MFCC
60 MFPSCC
PNRF_Mst
50
PNRF_Soft
40
30
20
10
clean 20 15 10 5 0 -5
Figure 5.10 Reprsentation graphique des taux de reconnaissance (%) obtenu pour les diffrents
paramtres en prsence du bruit rose (les locuteurs appartiennent au groupe de test A).
91
Clean 97,80 97,60 97,00 96,27
20 95,63 97,59 96,70 95,77
15 89,36 97,07 96,03 95,23
10 79,03 95,50 94,83 93,73
5 60,59 90,30 90,43 89,63
0 39,28 68,99 77,49 78,09
-5 22,44 39,48 46,28 48,92
Vmoyenne 69,16 83,79 85,53 85,37
bruit rose (les locuteurs appartiennent au groupe de test B).
100
90
80
70 MFCC
60 MFPSCC
PNRF_Mst
50
PNRF_Soft
40
30
20
10
clean 20 15 10 5 0 -5
Figure 5.11 Reprsentation graphique des taux de reconnaissance (%) obtenus pour les diffrents
paramtres en prsence du bruit rose (les locuteurs appartiennent au groupe de test B).
A partir des tableaux 5.5 et 5.6 pressentant les taux obtenus par le systme de reconnaissance
pour le signal parole corrompu par le bruit rose, on constate pour des SNR 10db le paramtre
Mfpscc a un apport de 0,2 0,9% par rapport au paramtre PNRF_Mst et de 0,2 1,2% par
92
rapport au paramtre PNRF_Soft. Pour des SNR < 10db c'est--dire pour des bruits de niveau
lev, lapport de paramtre PNRF_Mst est de 0,2 jusqu' 7% par rapport au Mfpscc. avec le
paramtre PNRF_soft lapport sur le taux de reconnaissance est de 8 10% par rapport au Mfpscc
et ce pour des SNR <5db. Les mmes constatations peuvent tre faites pour le paramtre Mfcc, o
la dgradation est toujours importante mme en prsence de faible bruit.
En conclusion, le taux en valeur moyenne obtenu montre que paramtre PNRF_Mst offre plus de
robustesse au systme de reconnaissance par rapport aux autres paramtres. De plus on peut
conclure que le seuillage doux modifi est mieux adapt pour le traitement du bruit rose.
5.4.5 Evaluation des performances du ASR en prsence du bruit industriel pour les deux
groupes de test (A et B)
Clean 98,55 98,61 97,78 97,08
20 95,11 98,59 97,22 96,64
15 88,77 97,36 96,92 95,75
10 75,44 95,94 95,42 93,61
5 57,57 90,28 90,08 89,08
0 35,59 71,69 77,10 74,91
-5 20,06 40,54 44,90 45,23
Vmoyenne 67,29 84,71 85,63 84,61
bruit industriel (les locuteurs appartiennent au groupe de test A).
93
100
90
80
70 MFCC
60 MFPSCC
PNRF_Mst
50
PNRF_Soft
40
30
20
10
clean 20 15 10 5 0 -5
Figure 5.12 Reprsentation graphique des taux de reconnaissance (%) obtenus avec les diffrents
paramtres en prsence du bruit industriel (les locuteurs appartiennent au groupe de test A).
Clean 97,80 97,60 97,00 96,27
20 93,93 97,59 96,37 95,33
15 87,16 96,70 95,47 94,43
10 73,12 95,07 93,70 92,23
5 54,52 88,13 87,86 86,76
0 35,88 69,66 73,86 73,02
-5 22,71 37,35 42,08 42,61
V moyenne 66,44 83,15 83,76 82,95
bruit industriel (les locuteurs appartiennent au groupe de test B).
94
100
90
80
70 MFCC
60 MFPSCC
PNRF_Mst
50
PNRF_Soft
40
30
20
10
clean 20 15 10 5 0 -5
paramtres en prsence du bruit industriel (les locuteurs appartiennent au groupe de test B).
A partir des tableaux 5.7 et 5.8 on peut constat que nos paramtres proposs PNRF_Soft et
PNRF_Mst ont un apport considrable de 4 6% par rapport aux paramtres Mfpscc sur le
systme de reconnaissance et ce pour un niveau de bruit industriel trs lev SNR < 5db, par
contre le paramtre Mfpscc est meilleur pour des SNR 5db et lapport varie de 0,6 1,2 par
rapport a PNRF_Mst et de 1,4 3% pour le PNRF_Soft. Les mmes constatations faites au
dessus sont conserves pour le paramtre Mfcc. Pour ce type de bruit le seuillage doux modifi
est mieux adapt que le seuillage doux pour la tache de reconnaissance par les HMMc.
95
5.4.7 Evaluation des performances du ASR en prsence du bruit de cockpit de lavion de

chasse F16 pour les deux groupes de test (A et B)
Clean 98,55 98,61 97,78 97,08
20 94,28 98,60 97,19 96,47
15 85,94 97,17 96,80 95,61
72,55 94,69 94,64 93,22

10
5 54,29 85,79 87,97 87,44
0 34,04 63,02 68,38 67,88
-5 17,09 30,90 37,09 32,81
Vmoyenne 65,24 81,25 82,83 81,50
bruit de cockpit de lavion de chasse F16 (les locuteurs appartiennent au groupe A).
100
90
80
70 MFCC
60 MFPSCC
PNRF_Mst
50
PNRF_Soft
40
30
20
10
clean 20 15 10 5 0 -5
paramtres en prsence du bruit de cockpit de lavion de chasse F16 (les locuteurs appartiennent
au groupe de test A).
96
Clean 97,80 97,60 97,00 96,27
20 92,63 97,59 96,40 95,53
15 83,59 95,93 95,63 94,70
10 69,26 93,30 92,86 91,86
5 50,72 82,22 86,26 85,06
0 34,41 58,82 66,32 66,12
-5 19,87 29,68 34,48 31,78
Vmoyenne 64,04 79,30 81,26 80,18
bruit de cockpit de lavion de chasse F16 (les locuteurs appartiennent au groupe de test B).
100
90
80
70 MFCC
60 MFPSCC
PNRF_Mst
50
PNRF_Soft
40
30
20
10
clean 20 15 10 5 0 -5
paramtres en prsence du bruit de cockpit de lavion de chasse F16 (les locuteurs appartiennent
au groupe de test B).
A partir des tableaux 5.9 et 5.10 pressentant les taux obtenus par le systme de reconnaissance
pour le signal parole corrompu par le bruit de cockpit de lavion de chasse F16, on peut constat
que le paramtres PNRF_Mst a un apport de 2 7% par rapport aux paramtres Mfpscc, et le
paramtre PNRF_soft a un apport de 1,5 4% par rapport au Mfpscc sur le taux du systme de
reconnaissance et ce pour des SNR < 10db. Par contre le paramtre Mfpscc est meilleur pour des
97
SNR 10db et lapport varie de 0,6 1,2 par rapport a PNRF_Mst et de 1,4 2,2% pour le
PNRF_Soft. Les mmes constatations pour le paramtre Mfcc. Pour ce type de bruit le seuillage
doux modifi est mieux adapt que le seuillage doux.
98
Conclusion gnrale
Notre contribution consiste en la cration dun nouveau paramtre acoustique robuste et

efficace, capable doprer dans des conditions environnementales aux caractristiques
acoustiques et sonores trs diffrentes de lenvironnement de lapprentissage (en prsence des
diffrents bruits). Les majeurs contributions ont t fondue sur une dcomposition du signal
parole en paquet dondelettes perceptuel tout en respectant une repartions frquentielles sur une
chelle proche de la membrane basilaire, et par lintroduction la technique de seuillage doux
modifi pour effectuer un dbruitage tout en gardant lensemble des composantes spectrales. Le
seuil utilis est adaptatif, il a t calcul par un algorithme pnalis.
Nos expriences ont t portes sur une base de donns vocale contenant 9000 mots (chiffres
arabes) prononc par des hommes et des femmes ce qui est satisfaisant pour une tache de
reconnaissance de mots isols. Les diffrents rsultats tablis lors de cette thse ont montr
lefficacit et lapport important du paramtre acoustique propos sur les performances du
systme de reconnaissance Markovien des mots isols (chiffres arabes), et ce dans lensemble des
environnements utiliss, mais plus particulirement en prsence de bruit blanc et du bruit rose qui
sont des freins majeurs lemploi de la reconnaissance automatique de la parole.
99
Perspectives
Plusieurs tests ont montr que notre nouveau paramtre acoustique propos permet une
bonne modlisation acoustique du signal dans des conditions environnementales corrompues par
diffrent type de bruit. Il convient dans un premiers temps de le tester sur d'autres bases de
donnes vocales universelles (TIMIT, AURORA, TIDIGITetc.). Il convient galement de le
tester sur des moteurs de reconnaissance hybride (HMM/DTW, HMM/ANN, HMM/SVM) tel
que les moteur dvelopps au niveau du laboratoire LASA par les membres de notre quipe.
Dans le future, pour amliorer le systme propos de reconnaissance de la parole de mots isols,
plusieurs voies de recherche restent ouvertes. Plusieurs techniques peuvent tre proposes :
l'adaptation du moteur de reconnaissance aux nouvelles conditions environnementales,
lapplication des techniques dadaptation au locuteur ou l'utilisation d'informations
supplmentaires comme des informations visuelles sur la gomtrie des lvres.
Les techniques de traitement du signal appliques au signal parole pour lextraction des
paramtres robustes ne suffisent pas pour rendre le systme de reconnaissance insensible aux
changements environnementaux (le type de microphone, l'cho de la salle, ou bien la distorsion
de la transmission). Une adaptation du moteur de reconnaissance est ncessaire par lutilisation
des moteurs de reconnaissance hybride tel que les HMM/ANN, HMM/SVM.etc.
Pour gnraliser lapplication des systmes de reconnaissance, il faut passer la reconnaissance

automatique de la parole continue, mais il y a plusieurs problmes rsoudre.
En reconnaissance de parole continue, le dcodage acoustique ne donne pas des rsultats fiables
100%. Nous avons donc besoin d'un modle de langage. Le modle de langage peut contenir une
grammaire ou des modles de langage stochastiques.
Pour cela, une tude de la syntaxe, ainsi que la construction d'une base de donnes de textes de la
langue arabe sont ncessaires. Pour les donnes de textes, on peut envisager de les collecter
partir de plusieurs sources disponibles: les journaux, les livres ou bien les pages Web sur Internet.
100

Rfrences bibliographiques
[1] M.C. Amara Korba, D. Messadeg, R. Djemili, H. Bourouba. "Robust Speech Recognition Using
Perceptual Wavelet Denoising and Mel-frequency Product Spectrum Cepstral Coefficient
Features", Informatica Journal, Vol. 32, No 3, pp. 283-288, 2008.
[2] N.Q. Trung; P.T. Nghia, "The perceptual wavelet feature for noise robust Vietnamese speech
recognition", Communications and Electronics ICCE2008, Vol. 2, pp. 258-261, 2008.
[3] Shi-Huang Chen, Hsin-Te Wu, Yukon Chang, T. K. Truong, "Robust voice activity detection
using perceptual wavelet-packet transform and Teager energy operator", Pattern Recognition
Letters, vol. 28, pp. 1327-1332, 2007.
[4] M.T. Johnson, X. Yuan and Y. Ren, "Speech signal enhancement through adaptive wavelet
thresholding", Speech Communication, Elsevier, Vol. 49, pp. 123-133, 2007.
[5] T. Haci, E. Ergun, "Speech Enhancement based on undecimated wavelet packet-perceptual

filter-banks and MMSE-STSA estimation in various noise environments". Elsevier, Digital
Signal Processing, 2007.
[6] A. Saeed, M. T. Manzuri, D. Roodhollah, "An improved wavelet-based speech enhancement by

using speech signal features", Elsevier, Computer and Electrical Engineering Vol. 32, pp. 411-
424. 2006.
[7] B. kotnik, Z. Kacic, "A noise robust feature extraction algorithm using joint wavelet packet
subband decomposition and AR modelling of speech signals", Elsevier, Signal Processing, Vol.
87, pp. 1202-1223, 2006.
[8] Yu Shao, Chip-Hong Chang, "A versatile speech enhancement system based on perceptual
wavelet denoising", ISCAS 2005, Vol. 2, pp. 864-867, 2005.
[9] Shao, Y. Chang, C.-H, "A versatile speech enhancement system based on perceptual wavelet
denoising", IEEE international Symposium on circuits and systems, Vol. 2, pp. 864-867, 2005.
[10] C.C. lin, S.H. Chen, T.K. troung and Y. Chang, "Audio classification and categorization based
on wavelets and support vector machine". IEEE transaction on speech and audio processing,
vol.13, pages 644-651, 2005.
[11] D. Dimitriadis, P. Maragos and A. Potaminos, "Auditory teager energy cestrum coefficients for
robust speech recognition". In European Conference On speech communication and
Technology, pags 3013-3016, 2005.
[12] Y. Guermeur, A. Eliseef and D. Zelus, "A Comparative study of multi-class classifiers. Applied
stochastic model in business and industry", Vol. 21, 2005.
[13] V. Wan & J. Carmichael, "Polynomial dynamic time Warping kernel support vector machines
for dysarthric speech recognition with sparse training data". ln INTERSPEECH, 2005.
101
[14] V. Wan & S. Renais, "Speaker verification using sequence discriminant support vector
machines". IEEE Transaction on Speech and Audio Processing, Vol. 13, 2005.
[15] M. Phothisonothai, P. Kumhom, and K. Chamnongthai, "Single-Channel Noise Reduction for

Multiple Background Noises Using Perceptual Wavelet Packet Transform and Fuzzy Logic",
Journal of Advanced Computational Intelligence and Intelligent Informatics, Vol. 8, No. 6, pp.
613-620, 2004.
[16] S.H. Chen, J. Wang, "Speech Enhancement Using Perceptual Wavelet Packet Decomposition
and Teager Energy Operator", Springer, The Journal of VLSI Signal Processing, Vol. 36, No. 2,
pp. 125-139, 2004.
[17] M. Deviren, "Revising speech recognition systems: dynamic bayesian networks and new
computational paradigms". Phd thesis, Universit Henri poincar, Nancy, france, 2004.
[18] Z. Donglai and K. K. Paliwal, "Product of power spectrum and group delay function for speech
recognition", Proc. ICASSP, pp. 125-128, 2004.
[19] O. Farooq and S. Datta, "Wavelet-based Denoising for Robust Feature Extraction for Speech
Recognition", electronics letters, Vol. 39, No 1, pp. 163-165, 2003.
[20] B. kotnik, Z. Kacic and B. Horvat, "The usage of wavelet packet transformation in automatic
noisy speech recognition systems", Proceeding EROCON 2003, pp. 131-134, 2003.
[21] H.A. Murthy and V. Gadde, "The Modified Group Delay Function and Its Application to
Phoneme Recognition", Proc. ICASSP, vol. 1, pp. 68-71, 2003.
[22] J. Ajmera, I. McCowan & H. Bourlard. "Speech/Music Discrimination using Entmpy and
Dynamism Feaiures in a HMM Classification". Frameuiork; Speech Communication, vol. 40,
pp. 351-363, 2003.
[23] M. Deviren and K.Daoudi, "Frequency filtering or wavelet filtering". In joint Intl. Conf. on
Artificial Neural Networks and Neural Information Processing, ICANN/ICONIP, 2003.
[24] G. Tzanetakis and P. Cook, "Musical genre classification of audio signals". IEEE transaction on
speech and audio processing, Vol. 10, No. 5, pp. 293-302, 2002.
[25] I. J. Kim, S.I. Yang and Kwon, "Speech enhancement using adaptive wavelet shrinkage". In
ISIE-2001, vol. 1, pp. 501-504, 2001.
[26] R. Gemello, D. Albesano, L. Moisa and R. De Mori, "Integration of fixed and Multiple
resolution analysis in a speech recognition system". In ICASSP-01, 2001.
[27] O. Farooq and S. Datta, "Robust features for speech recognition based on admissible wavelet
packets", Electronics letters, Vol. 37, No 5, pp. 1554-1556, 2001.
102
[28] N. Gowda and Z. Tufekci, "Mel-scaled discrete wavelet coefficients for speech recognition",
Proc. Int. Conf. on acoustic, Speech and signal processing, Vol. 3, pp. 1351-1354, Istanbul,
Turkey, 2000.
[29] S. Mallat. "Une exploration des signaux en ondelettes". Editions de lEcole polytechnique, 2000.
[30] R. Sarikaya and J.H.L. Hansen. "High resolution speech feature parameterization for
monophone-based stressed speech recognition". IEEE. Signal processing letters, vol. 7, No 7,
pp. 182-185, 2000.
[31] S. Saha, "Image compression from DCT to wavelets", ACM grossroads, Vol. 6, No. 3, pp. 644-
651, 2000.
[32] A. Ganapathiraju & J. Picone, "Hybrid SVM/HMM Architectures for Speech Recognition". In
Neural Information Processing Systems, 2000.
[33] F. Jabloun and A. Enis Cetin, "The teager energy based feature parameters for robust speech
recognition in car noise", In ICASSP 99, 1999.
[34] S. Mallat, "A wavelet tour of signal of signal processing". Academic press, 1998.
[35] I. Pinter, "Perceptual wavelet-representation of speech signals and its application to speech
enhancement", Computer speech & language, Vol. 10, No. 1, pp. 1-22, 1996.
[36] Yifan Gong, "Speech recognition in noisy environments: a survey". Speech communication,
Vol. 16, pp. 261-291, 1995.
[37] Ephraim, "Gain-adapted Hidden Markov Models for Recognition of Clean and Noisy Speech".
IEEE Trans. Signal Processing, Vol. 40, pp. 1303-1316, 1992.
[38] F. Jabloun and A. Enis Cetin, "The teager energy based feature parameters for robust speech
recognition in car noise", In ICASSP 99, 1999.
[39] R. Vergin and D. O'Shaughnessy, "Generalized Mel frequency cepstral coefficients for large-
vocabulary speaker-independent continuous speech recognition", IEEE Trans. Speech, Audio
Process., vol. 7, no. 5, pp. 525-532, Sept. 1999.
[40] S. Mallat, "A wavelet tour of signal of signal processing". Academic press, 1998.
[41] V.N. Vapnik, "Statistical learning theory", John Wiley ans Son, Inc N.Y. 1998.
[42] L.R Rabiner and B. juang, " A Tutorial on hidden Markovs Models and select application in
speech recognition ", Proceedings of IEEE, Vol. 77, No. 2 , pp. 257-285, 1989.
[43] B. Moore, "An introduction to the psychology of hearing", Academic Press, 1997.
103
[44] J. S. Bridle, "Optimization and search in speech and language processing". Survey of the state of
the art in human language technology, pp. 423-428, 1995.
[45] O. Capp, J. Laroche et E. Moulines, "Regularized estimation of cepstrum envelope from

discrete frequency points", IEEE ASSP Work-shop on application of signal processing to audio
and acoustic (1995), p. 213-216. 1995.
[46] L. Rabiner, B. H. Juang, "Fundamentals of Speech Recognition". Prentice Hall Signal

Processing Series, 1993.
[47] J.W. Picone, "Signal modeling techniques in speech recognition", Proc. IEEE, Vol. 81, No. 9,
pp. 1215-1247, 1993.
[48] L. Rabiner and B.-H. Juang, "Fundamentals of speech recognition", Prentice-Hall, 1993.
[49] I. Daubechies, "Ten lectures on wavelets", Society for industrial and applied Mathematics, 1992.
[50] B. Yegnanarayana and H.A. Murthy, "Significance of Group Delay Functions in Spectrum
Estimation", IEEE Trans. Signal Processing, Vol. 40, pp. 2281-2289, 1992.
[51] B. Boser, I. Guyon and V. Vapnik, "A training algorithm for optimal margin classifiers". In
COLT92, pp. 144-152, 1992.
[52] H. Hermansky, N. Morgan, A. Bayya et P. Kohn, "Compensation for the effect of the
communication channel in auditory-like analysis of speech (RASTA-PLP)". Proceedings of the
European Conference on Speech Communication and Technology, pp 1367-1370, 1991.
[53] H. Hermansky, N. Morgan, A. Bayya et P. Kohn. "RASTA-PLP speech analysis". Rapport

technique TR-91-069, 6 pp, International Computer Science Institute, Berkeley (CA, tats-
Unis), 1991.
[54] J.-P. Haton, J.-M. Pierrel, G. Prennou, J. Caelen et J.-L. Gauvain. "Reconnaissance
automatique de la parole", 239 p, Collection AFCET - Dunod informatique, Dunod, 1991.
[55] T. Galas et X. Rodet, "Generalized functional approximation for source-filter system modeling",
Proc. of Eurospeech 1991, pp. 1085-1088. 1991.
[56] H. Bourlard & C. Wellckcns. "Links between Markov models and multilayer perceptrons". In
Trans. PAMI, Vol. 12, pp. 1167-1178, 1990.
[57] H. Hermansky, "Perceptual linear predictive (plp) analysis of speech", Journal of Acoustical
Society of America, Vol. 87, pp. 17381752, 1990.
[58] T. Galas et X. Rodet, "An improved cepstral method for deconvolution of source-filter systems
with discret spectra : application to musical sound signals", In ICMC, 1990.
104
[59] K. Hornik, M.Stinchcombe and H. white. "Multilayer feedforward networks are universal
approximators". Neural Networks, vol. 2, 1989.
[60] L.R. Rabiner, J.G. Wilpon & F.K. Soong, "High performance connected digit recognition using
hidden Markov models", IEEE Trans. Acoust., Speech, Signal Processing, Vol. 37, No. 8, pp.
1214-1225, 1989.
[61] J.J. Hopfield. "Learning algorithms ans probability distributions in fee-forward networks". In
Nat. Aead. Sei, pp. 8429-8433, 1987.
[62] Y. lecun, "Une procdure dapprentissage pour rseaux seuil asymtrique". In proc. Cognitiva,
pp. 599-604, 1985.
[63] V.N. Vapnik, "Estimation of dependence based on empirical data", Springer-Verlag, N.Y, 1982.
[64] C. S. Myers et L. R. Rabiner, "Connected digit recognition using a level building DTW
algorithm". IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. 29, pp 351-
363, 1981.
[65] S.B. Davis and P. Mermelstein, "Comparison of parametric representations for monosyllabic
word recognition in continuously spoken sentences", IEEE Trans. Acoustics, Speech, Signal
Processing, Vol. 28, No. 4, pp. 357-366, 1980.
[66] H. Sakoe, "Two level DP-matching a dynamic programming based pattern matching algorithm
for connected word recognition". IEEE Transactions on Acoustics, Speech and Signal
Processing, Vol. 27, pp. 588-595, 1979.
[67] J.-P. Zerling, "Articulation et coarticulation dans les groupes occlusive-voyelle en franais".
Thse de doctorat de 3me cycle, Universit de Nancy 2, Nancy (France), 1979.
[68] L.R. Rabiner and R.W. Schafer, "Digital processing of speech signals", Prentice-Hall, 1978.
[69] H. Sakoe et S. Chiba, "Dynamic programming algorithms optimization for spoken word
recognition". IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 26, No. 1, pp.
43-49, 1978.
[70] F. Itakura, "Minimum production residual principle applied to speech recognition". IEEE
Transaction on Acoustics, Speech and Signal Processing, vol. 23, pp 67-72, 1975.
[71] J.M. Makhoul, "Linear prediction: a tutorial review", Proc. IEEE, Vol. 63, No. 4, pp. 561-579,
1975.
[72] A.V. Oppenheim and R.W. Schafer, "Digital Signal Processing", Englewood Cliffs, NJ:
Prentice-Hall, 1975.
[73] A. V. Aho, J. E. Hopcroft et J. D. Ullman, "The design and analysis of computer algorithms,
chapitre 7 : The fast Fourier transform and its application", pp. 251-276, 1974.
105
[74] H. Sakoe et S. Chiba, "A dynamic programming approach to continuous speech recognition",
Proceedings of the 7th International Conference on Acoustics, article 20C-13, 6 pp, 1971.
[75] J.W. Cooley & J.W. Tukey, "An algorithm for machine calculation of complex Fourier series",
Math.Comput, vol. 19, pp. 297-301, 1965.
[76] F. Rosenblatt, "Principles of neurodynamics", Spartan Books, 1962.
[77] R. E. Bellman, "On a routing problem", Quaterly Journal of Applied Mathematics, vol. 16, pp.
87-90, 1958.
[78] R. E. Bellman. "Dynamic Programming", Princeton University Press, 1957.
[79] W. Koenig, H.K. Duhn & L.Y. Lacy, "The sound spectrograph", J. Acoust. Soc. Am, Vol. 18,
pp. 19- 49, 1946.
[80] D.Gabor, "Theory of communication", J. IEEE, Vol. 93, pp. 429-457, 1946.
[81] Calliope, "La parole et son traitement automatique", livre, Collection technique et scientifique
des tlcommunications, CNET - ENST, Masson.
[82] B. Carneno, A. Drygajlo, "Perceptual speech coding and enhancement using frame-synchronized
fast wavelet-packet transform algorithms". IEEE Trans. Signal Process, Vol. 47, No 6, pp. 1622-
1635, 1999.
[83] P. Srinivasan, L.H. Jamieson, "High quality audio compression using an adaptive wavelet
decomposition and psychoacoustic modelling". IEEE Trans. Signal Process, Vol. 46, No 4, pp.
1085-1093, 1998.
[84] D. L. Donoho, "De-noising by Soft-thresholding", IEEE Trans. Inform Theory, Vol. 41, No. 3,
pp. 613-627, 1995.
[85] D. L. Donoho, "Nonlinear Wavelet Methods for Recovering Signals, Images, and Densities from
Indirect and Noisy Data", Proceedings of Symposia in Applies Mathematics, Vol. 47, pp. 173-
205, 1993.
[86] A. Varga, H. Steeneken, M. Tomlinson, D. Jones, The NOISEX-92 study on the effect of
additive noise on automatic speech recognition, Technical report, DRA Speech Research Unit,
Malvern, England, 1992. Available from: http://spib.rice.edu/spib/select_noise
106

These 2009

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

These 2009

Uploaded by

Copyright:

Available Formats



   

Facult des Sciences de lIngnieur Anne 2009

Reconnaissance Automatique de la Parole par les HMM en Milieu Bruit :

DIRECTEUR DE THSE : MESSADEG Djemil Matre de Confrences U. ANNABA

PRESIDENT : DOGHMANE Noureddine Professeur U. ANNABA

Mr. TEBBIKH Hicham Professeur U. GUELMA

Je remercie mon co-encadreur Monsieur DJEMILI RAFIK, Matre de confrences au

Je remercie monsieur DOGHMANE NOUREDINNE, professeur au dpartement

Mes remerciements s'adressent mes rapporteurs, monsieur TEBBIKH HICHAM

Mes vifs remerciements s'adressent monsieur BEDDA MOULDI, mon encadreur de

Mes plus sincres remerciements l'quipe parole, et plus particulirement

-,)* +*%&'( ! " #$    

,*S S"H < 2S\3W1'9" i'"Rj=1 &1'F"O&*=

; nR": 0* "

procedure. A penalized threshold was selected.

2.1 Configuration du paramtre LPC 33

3.1 Caractristiques des logiciels libres de dveloppement de systmes de reconnaissance 48

5.1 Description spectrale des sous bande frquentielles (largeur identique) 74

2.1 Schma bloc dun systme de reconnaissance de la parole 16

4.1 Boite Heisenberg correspondant au pavage temps frquence 56

5.1 Bloc diagramme du paramtre robuste 72

Table des matires

Liste des tableaux ...... VII

Liste des figures ....... VIII

Liste dabrviation ... IX

Table des matires ..... X

Chapitre I : Caractristiques du signal parole

1.11.4 Les Sonnantes 11

Chapitre II : Paramtrisation acoustique du signal parole

Chapitre III : Systmes de reconnaissance automatique de la parole

3.5.4 Mthodes "hybrides" ....53

Chapitre IV : Application des ondelettes au signal de la parole

4.1 Prsentation des ondelettes .. 56

Chapitre V : Nouveau paramtre acoustique pour la reconnaissance robuste

5.1 Introduction ... 71

5.2.4.2 Seuil obtenu par la mthode pnalis .. 80

Rfrences bibliographiques .. 101-106

Notre tude s'intresse la conception dun systme de reconnaissance de la parole

prsentons les mcanismes de production et de perception de la parole. Ainsi que les

Le troisime chapitre consacr ltude des moteurs de reconnaissance qui sont la

1.1 Mcanismes de production de la parole

Figure 1.1 Organes de production de la parole

1.2 Mcanismes d'audition de la parole

introduire la description d'importantes proprits perceptives du systme auditif en relation avec

Figure 1.2 : Coupe de lappareil auditif humain

1.3 Proprits psycho-acoustiques du systme auditif

Figure 1.3 Courbes d'isosonie

Figure.1.4 les chelles naturelles de la membrane basilaire

1.4 Complexit du signal parole

1.5 Continuit et coarticulation

1.6 Redondance du signal parole

1.7.1 Variabilit intra-locuteur

1.7.2 Variabilit inter-locuteur

1.7.3 Variabilit due lenvironnement

1.8 Description acoustique

(a) laxe des frquence

1.9 LAlphabet Arabe

une notation vocalique sous forme ddia critique.

API FORME NOM VALEUR API FORME NOM VALEUR

Tableau 1.1 LAlphabet arabe

1.10 Les classes phontiques arabes

Dfinition des diffrentes abrviations :

-,)*+*%&'(! "#$

,S S"H<2S\3W1'9"i'"Rj=1 &1'F"O&=

; nR": 0* "

+(() Damma+ waw ux / uw