You are on page 1of 14

République Algérienne Démocratique et Populaire

Ministère de l’enseignement supérieur et de la recherche scientifique


Université de Guelma
Faculté des Sciences et de L’ingénierie

Département de : informatique
Spécialité : Intelligence Artificielle
=====================================================

EXPOSE SUR : les machines


Parlantes
=====================================================

Réalisé par : sous la direction de :

 Chiheb Badreddine R. bourbia

 Gueroui omar

2008/2009
LES MACHINES PARLANTES

GENERALITE SUR L’IMAGE NUMERIQUE

SOMMAIRE

1. Introduction .................................................................................................................. . .01

2. Historique des machines parlantes .................................................................................. 02

3. Qu’est-ce que la parole ? ................................................................................................. 03

3.1. Le niveau acoustique ....................................................................................... 03

3.2 Le niveau phonétique et phonologique………………………………………...03

3.2.1 Les branches de la phonétique…………………………………………..03

3.2.2 Les branches de la phonologie…………………………………………...04

3.3 Le niveau morphologique……………………………………………………....04

3.4 Le niveau syntaxique ........................................................................................ 04

3.5 Le niveau sémantique………………………………………………………….05

3.6 Le niveau pragmatique ...................................................................................... 05

4. Système de synthèse à partir du texte…………………………………………………..05

5. Applications……………………………………………………………………………..06

6. Organisation générale du module de traitement du langage naturel…………………….08

7. compréhension de parole et dialogue oral homme-machine……………………………..09

8. Conclusion ............................................................................................................................... …11

2
LES MACHINES PARLANTES

GENERALITE SUR L’IMAGE NUMERIQUE


1. Introduction :
L’application de techniques d’analyse des langages formels et la confrontation de la
linguistique aux exigences de la modélisation informatique ont conduit en quelques décennies
à l’émergence d’un véritable domaine de recherche : la linguistique informatique. Les progrès
réalisés en électronique (augmentation de la vitesse des possesseurs et des capacités de
mémoire des ordinateurs) associés à la disponibilité des ressources linguistique électronique
ont permis le développement d’applications concrètes, dont la demande s’est progressivement
faite croissante. Ces applications, chacune circonscrite à un domaine particulier mais
nécessitant des traitements automatiques du langage naturel, écrit ou oral, relèvent
aujourd’hui de ce qui on appelle plus généralement l’ingénierie de langue Leur
développement a surtout été redu possible grâce aux efforts et aux progrès réalisés dans la
définition d’outils pour le traitement de la langue (algorithmes d’analyse, de génération,
d’acquisition de connaissances linguistiques), de modèles formels (grammaires, formalismes
lexicalisés) pour représenter ces connaissances, et dans le développement de procédés de
création et de gestion de ces ressources.[1]

Nous nous intéressons dans le cadre de cet exposé à l’un des grands domaines applicatifs
d’ingénierie des langues : Les machines parlantes. Cet exposé fait le point sur les niveaux de
description de parle après l’historique des machines parlantes, puis nous présentons le
système de synthèse à partir du texte (machine capable a lire a partir de texte) et ces
domaines d’applications et on terminera avec le principe de système de dialogue homme
machine.

3
LES MACHINES PARLANTES

GENERALITE SUR L’IMAGE NUMERIQUE


2. Historique des machines parlantes :
Mersenne évoque la possibilité de construire un orgue prononçant des sons de la parole.
Le XVIIIème siècle voit apparaître une floraison d’automates. Pierre Jaquet Droz (1721-
1790) et Jacques de Vaucanson (1709-1782) sont sans doute les plus connus des constructeurs
d’automates du siècle des Lumières. En héritiers du mécanisme de Descartes, ils cherchent à
reproduire les principales fonctions de la vie (digestion, circulation, respiration).

Parmi les automates les plus célèbres figurent « Le Joueur de Flûte », automate androïde
d’1m50 qui pouvait jouer une douzaine d’airs, et le « Canard », qui battait des ailes, mangeait
du grain et le rendait digéré (la digestion s’est avérée être une supercherie), présentés à Paris
en 1738. Il est probable que Vaucanson envisageait la construction d’un automate parleur [2].

En 1780, le Danois Kratenstein remporte le prix annuel de l’Académie Impériale de Saint-


Pétersbourg en construisant un orgue composé d’une série de résonateurs capables de
prononcer les cinq voyelles Figure 1.

(Figure 1) : Résonateurs de Kratenstein en 1770. [2]

L’abbé Mical construit en 1778 une « Téte d’airain » capable de prononcer une phrase, et
présenter à l’académie des sciences en 1783 une machine composée de deux téte parlantes,
qui séduit l’écrivain et journaliste Rivarol.

C’est le baron Wolfgang von Kempelen (1734-1804) qui a réalisé à Vienne en 1791 la
machine parlante la plus perfectionnée, après avoir construit un automate plus rudimentaire
dès 1778. Von Kempelen est connu pour son automate joueur d’échec qui fut présenté dans
divers pays et remporta des parties contre les grands de ce monde, mais qui s’avéra être une
supercherie (celle-ci fut dénoncée par Edgard Poe dans ses Histoiresgrotesques et
merveilleuses), un joueur humain de petite taille étant caché dans la machine.

Cette supercherie porta sans doute du tort à la crédibilité de sa machine parlante, qui était
pourtant une invention remarquable pour l’époque. Un soufflet faisait vibrer une anche qui
excitait un résonateur unique dont on faisait varier la forme pour les différentes voyelles avec
une main. Les consonnes, y compris les nasales étaient produites par quatre passages d’air que
l’on contrôlait avec les doigts de l’autre main [2].

4
LES MACHINES PARLANTES

GENERALITE SUR L’IMAGE NUMERIQUE

(Figure 2) : la machine parlante de von Kempelen [2].

3. Qu’est-ce que la parole ?


L’information portée par le signal de parole peut être analysée de bien des façons. On en
distingue généralement plusieurs niveaux de description non exclusifs : acoustique,
phonétique, phonologique, morphologique, syntaxique, sémantique, et pragmatique [3].

3.1 Le niveau acoustique :


La parole apparaît physiquement comme une variation de la pression de l’air causée et émise
par le système articulatoire. La phonétique acoustique étudie ce signal en le transformant
dans un premier temps en signal électrique grâce au transducteur approprié : le microphone
(lui-même associé à un préamplificateur).

3.2 Le niveau phonétique et phonologique : [4]


La distinction phonétique / phonologie est issue de la tradition structurale fonctionnaliste.

Phonétique Phonologie
Étude des sons de la parole appelés phones Étude des sons à valeur linguistique,
phonèmes en relation avec un signifié. Les
traits phoniques sont appréhendés par rapport à
leur valeur distinctive.

3.2.1 Les branches de la phonétique :

Étape de la communication Branche de la phonétique correspondante

Production Phonétique articulatoire (étude des organes de


la parole et de la production des sons)
Transmission Phonétique acoustique (étude des propriétés
physiques des sons)
Perception Phonétique auditive (étude de l'appareil auditif
et du décodage des sons)

5
LES MACHINES PARLANTES

GENERALITE SUR L’IMAGE NUMERIQUE


3.2.2 Les branches de la phonologie : [4]

Phonématique Prosodie
Étude linguistique des unités distinctives de Étude de la valeur linguistique des sons selon :
la langue, les phonèmes que l'on peut :
-leur durée (cs),
- commuter sur un axe paradigmatique : -leur intensité (dB),
ex. /ru/ (rue) / /nu/ (nu) - et leur variation mélodique (Hz).
(Le phonème a une fonction distintive)
- permuter sur un axe syntagmatique : A partir desquels les phénomènes
ex. /sale/ (salé) / /lase/ (lacé) d'accentuation et d'intonation sont constitués.
(Le phonème a alors une fonction
démarcative)

(Figure 3) : Exemple de prosodie [5].

3.3 Le niveau morphologique : [3]


La morphologie est la branche de la linguistique qui étudie comment les formes lexicales sont
obtenues à partir d’un ensemble réduit d’unités porteuses de sens, appelées morphèmes. On
distingue les morphèmes lexicaux des morphèmes grammaticaux, qui apportent aux premiers
des nuances de genre, nombre, mode, temps, personne, etc. Tout comme le phonème, le
morphème est une unité abstraite. Elle peut être réalisée en pratique sous diverses formes
appelées allomorphes, fonction de leur contexte morphémique. Ainsi le morphème
grammatical du pluriel se manifestet-il sous la forme d’un ‘s’ dans ‘pommes’, d’un ‘x’ dans
‘jeux’ et d’un ‘nt’ dans ‘jouent’.

L’importance de la morphologie en traitement de la parole tient à ce que la catégorie


grammaticale et la prononciation des mots peuvent être expliquées dans une large mesure par
leur composition morphémique.

3.4 Le niveau syntaxique :


Toute suite de mots du lexique ne forme pas une phrase correcte. En effet, la liste des phrases
admises, bien qu’infinie dans les langues naturelles, est restreinte par leur syntaxe. Ceci
constitue d’ailleurs la définition du mot syntaxe¸ qu’il ne faut pas confondre avec les règles
utilisées pour la décrire, organisées sous la forme de grammaires. Les mots du lexique y

6
LES MACHINES PARLANTES

GENERALITE SUR L’IMAGE NUMERIQUE


perdent leur individualité pour n'être plus vus qu'en tant que parties du discours (ou natures),
listes de mots interchangeables pour une grammaire donnée). Par exemple, la grammaire
(arbitrairement simplifiée) :

phrase = groupe nominal + verbe conjugué


groupe nominal = déterminant + nom [+ préposition + groupe nominal]

où les crochets indiquent des composantes optionnelles, interdit les phrases


déterminant+verbe conjugué comme dans 'mon donne' ou 'les joue'.

3.5 Le niveau sémantique :


Si la syntaxe restreint l'ensemble de phrases acceptables pour une langue donnée, elle ne
constitue cependant pas une limite exhaustive d'acceptabilité. En effet, bon nombre de phrases
syntaxiquement correctes restent inadmissibles (ex : 'la politesse jaune pleure du pain').
Cette imprécision tient à la confusion qui est faite, par les grammaires, des mots appartenants
a une même liste d'éléments du discours.

L’étude des significations des mots, de la façon dont elles sont liées les unes aux autres, et des
bases du choix lexical fait l’objet de la sémantique lexicale.
Parmi les principales questions qu’il lui appartient d’examiner, les problèmes d’ambiguïté de
portée prennent un part importante. Une phrase aussi simple que :
'Jean-François n’est pas parti à New York en avion'.
peut en effet être comprise comme :
Quelqu’un d’autre est parti à New York en avion
Jean-François est parti de New York en avion
Jean-François est parti ailleurs.
Jean-François est parti à New York par un autre moyen de transport
selon l’étendue du champ d’application de la négation, et ceci bien que toutes ces acceptions
admettent la même description syntaxique.

3.6 Le niveau pragmatique (ou niveau du discours) :


Au contraire du sens sémantique, que l’on qualifie souvent d’indépendant du contexte, le sens
pragmatique est défini comme dépendant du contexte. Tout ce qui se réfère au contexte,
souvent implicite, dans lequel une phrase s’inscrit et à la relation entre le locuteur et de son
auditoire,Son étendue couvre l’étude de sujets tels que les présuppositions, les implications de
dialogue, les actes de parole indirects, etc.
Elle est malheureusement bien moins développée encore que la sémantique.

4. Système de synthèse à partir du texte : [3]


Un système de synthèse à partir du texte (TTS : Text-To-Speech) est une machine capable de
lire a priori n'importe quel texte à voix haute, que ce texte ait été directement introduit par un
opérateur sur un clavier alpha-numérique, qu'il ait été scanné et reconnu par un système de
reconnaissance optique des caractères (OCR : Optical Character Recognition), ou qu'il ait été
produit automatiquement par un système de dialogue homme-machine. Un tel système diffère
fondamentalement d'autres machines parlantes en ceci qu'il est destiné à donner lecture de
phrases qui n'ont en principe jamais été lues auparavant. Il est en effet possible de produire
automatiquement de la parole en concaténant simplement des mots ou des parties de phrases

7
LES MACHINES PARLANTES

GENERALITE SUR L’IMAGE NUMERIQUE


préalablement enregistrées, mais il est clair dans ce cas que le vocabulaire utilisé doit rester
très limité et que les phrases à produire doivent respecter une structure fixe, afin de maintenir
dans des limites raisonnables la quantité de mémoire nécessaire à stocker les éléments vocaux
de base. C'est le cas par exemple des annonceurs vocaux automatiques dans les gares. On
définira donc plutôt la synthèse TTS comme la production automatique de phrases par calcul
de leur transcription phonétique.

Texte Transcription chaine Génération acoustique


Phonétique
Graphème/phonème Prosodique

Connaissances dictionnaire de sons règles de fusion


Morpho-syntaxiques, modèles prosodiques
Phonologiques

(Figure 4) : Le principe d'un système de synthèse à partir de texte ou

(Text- To-Speech) : [6]

5. Applications : [3]
Les applications des systèmes de synthèse à partir du texte ne manquent pas. En voici
quelques exemples :

 Services de télécommunications :

La libéralisation du marché des télécommunications en Europe a récemment rendu les


opérateurs de télécommunications plus sensibles au confort de leurs clients. En particulier, on
cherche désormais à fournir un maximum de services, à moindre coût. Les synthétiseurs
permettent précisément de rendre tout type d'information écrite disponible via le téléphone.
On peut ainsi créer des serveurs vocaux diffusant les horaires des cinémas, des informations
routières, l'état d'un compte en banque, ou encore des explications automatisées concernant la
dernière facture de téléphone. Les requêtes se font soit par la voix (en combinant le
synthétiseur avec un reconnaisseur), soit par le clavier du téléphone. AT&T a récemment testé
certains services de ce type auprès de ses clients, et constaté un réel engouement, à condition
que l'intelligibilité des voix de synthèse soit suffisante; il s'est avéré que le naturel n'est pas un
facteur déterminant pour la plupart de ces services.

8
LES MACHINES PARLANTES

GENERALITE SUR L’IMAGE NUMERIQUE


 Apprentissage (ou perfectionnement) de langues étrangères :

Une synthèse de très bonne qualité couplée à un logiciel d'apprentissage constitue un outil très
utile à l'apprentissage d'une nouvelle langue, en complément d'un cours avec un professeur. Si
ce type de produit n'a pas encore percé sur le marché, c'est à cause de la mauvaise qualité des
voix disponibles jusqu'à il y a peu. On voit par contre se multiplier les petits dictionnaires
électroniques de poche, qui devraient rapidement être dotés de voix de synthèse. Il en va de
même des traducteurs électroniques mot-à-mot qui sont apparus récemment. On pourra par
exemple bientôt lire un ouvrage dans une langue étrangère et utiliser un stylo à lecture optique
(intégrant un mini-scanner) pour obtenir instantanément la traduction d'un mot inconnu et sa
prononciation.

 Aide aux personnes handicapées :

Les handicaps liés à la parole sont soit d'origine mentale, soit d'origine motrice ou sensorielle.
La machine peut être d'un grand secours dans le second cas. Avec l'aide d'un clavier
spécialement adapté et/ou d'un logiciel d'assemblage rapide de phrases, un handicapé peut
s'exprimer par la voix de son synthétiseur. Le célèbre astrophysicien Stephen Hawking donne
tous ses cours à l'université de Cambridge de cette façon. La synthèse offre également des
services aux personnes mal-voyantes, en leur donnant accès à l'information écrite "en noir"16,
à condition de coupler le synthétiseur à un logiciel de reconnaissance des caractères.

 Livre et jouets parlants :

Le marché du jouet a déjà été touché par la synthèse vocale. De nombreux ordinateurs pour
enfants possèdent une sortie vocale qui en augmente l'attrait, particulièrement chez les jeunes
enfants (pour qui la voix est le seul moyen de communication avec la machine).

 Communication homme-machine, multimédia :

A plus long terme, le développement de synthétiseurs de haute qualité (ainsi que la mise au
point de reconnaisseurs fiables et robustes) permettra à l'homme de communiquer avec la
machine de manière plus naturelle. L'explosion récente du marché du multimédia prouve bien
l'intérêt du grand public en la matière.

 Recherche fondamentale et appliquée :

Enfin, les synthétiseurs possèdent aux yeux des phonéticiens une qualité qui nous fait défaut :
ils peuvent répéter deux fois exactement la même chose. Ils sont par conséquent utiles pour la
validation de théories relatives à la production, à la perception, ou à la compréhension de la
parole.

9
LES MACHINES PARLANTES

GENERALITE SUR L’IMAGE NUMERIQUE


6. Organisation générale du module de traitement du langage
naturel : [3]
L'organisation générale des opérations de traitement du langage réalisées par le synthétiseur
est donnée à la Figure 5.

(Figure 5) : Le module de traitement du langage naturel d'un système


De conversion texte parole. [3]

Le module d'analyse morpho-syntaxique de la Figure 5 est lui-même composé de :

Un module de prétraitement, qui joue principalement le rôle d’interface entre le texte
(représentation linéaire) et la structure de donnés internes gérée par le synthétiseur. Ce
module identifie toutes les séquences de caractères qui risquent de poser un problème
de prononciation : nombres, abréviations, acronymes, expressions toutes faites, etc. et
les transcrit éventuellement en toutes lettres.

Un analyseur morphologique, qui a pour tâche de proposer toutes les natures
possibles pour chaque mot pris individuellement, en fonction de sa graphie.

10
LES MACHINES PARLANTES

GENERALITE SUR L’IMAGE NUMERIQUE


Un analyseur contextuel, qui considère les mots dans leur contexte, ce qui lui permet
de réduire la liste des natures possibles pour chaque mot en fonction des natures
possibles des mots voisins.

Enfin, un analyseur syntaxique-prosodique, qui examine l’espace de recherche restant


et établit un découpage du texte en groupes de mots qui permettra d’y associer une
prosodie.

7. compréhension de parole et dialogue oral homme-machine :


Après avoir analysé rapidement les principales difficultés de nature linguistique aux quelles
doivent faire face les systèmes de traitement automatique de la parole, nous présentons dans
ce paragraphe l’architecture générale, souvent modulaire, des systèmes conversationnels.
L’architecture globale des systèmes de dialogue home-machine dans le domaine de recherche
d’information est résumée Figure 6.

Ces systèmes comprennent ainsi : [1]

-un module de reconnaissance de parole dot le but est de transcrire le signal vocal donné en
entrée en un message orthographe. Il est composé de deux composants principaux, le modèle
acoustique et le modèle de langage.

-un module de compréhension de la parole dont le but est d’extraire les informations
pragmatiques (domaine d’application) rendant compte des actes de langage exprimés par
l’utilisateur .On peut distinguer deux grandes dans étapes dans les processus visant à
comprendre un énoncé : la compréhension hors contexte et la compréhension contextuelle.

Ce module doit composer avec les phénomènes spécifiques de l’oral déjà évoqués mais aussi
avec les erreurs de reconnaissance éventuelles.

-un module de gestion de dialogue qui supporte le contexte dialogique et l’historique de


l’interaction. Il initie les actions à effectuer suite aux requêtes des utilisateurs, que le sens de
ces requêtes ait été correctement identifié ou non. Le gestionnaire du dialogue est non
seulement un lien entre la base de données et l’utilisateur mais aussi le coordinateur de ce qui
se passe, le reflet des capacités du système pour l’utilisateur. Il doit gérer l’échange « su
l’instant et dans la duré » [7].

-un module de génération de la réponse qui convertit l’information à de livrer à l’utilisateur


sous forme sonore (synthèse vocale), textuelle ou graphique. Le lecteur pourra toute fois
utilement se reporter à pour un point complet sur les avancées réalésées dans ce domaine en
liaison avec le traitement automatique des langues.

11
LES MACHINES PARLANTES

GENERALITE SUR L’IMAGE NUMERIQUE

Parole n meilleurs énoncés structeure sémantique

Reconnaissance Compréhension

Dialogueur

Synthèse SQL
parole réponse

BDD

(Figure 6) : Architecture générale d’un système de dialogue oral homme-machine [1]

12
LES MACHINES PARLANTES

GENERALITE SUR L’IMAGE NUMERIQUE


8. Conclusion :
L’homme créa des machine « intelligente » qui peuvent remplacer leur intelligence et
résoudre les différentes problèmes de leur vie quotidienne parmi ces machines on trouve Les
machines parlantes qui sont des machines qui peuvent parler et aussi dialogue avec les
hommes, leur importance est très grand dans notre vie actuelle et en future dans plusieurs
domaines comme nous avant vu précédemment comme le domaine de télécommunication et
l’apprentissage des langues étrangères…etc.

13
LES MACHINES PARLANTES

GENERALITE SUR L’IMAGE NUMERIQUE

Les références :

[1]: Jérome Goulain,Stratégie d'analyse détaillée pour la compréhension automatique robuste


de la parole, these doctorat, Unversité de Bretagne sud, 2002.

[2] : jean véronis : informatique et linguistique 1, université de provenence (centre


informatique pour les lettres et sciences humaines), (1999-2001).

[3] : Thierry Dutoit : Introduction au Traitement Automatique de la Parole, Faculté


Polytechnique de Mons, 2000.

[4] : www.linguistes.com\phonetique\phon.html.

[5] : www.irit.fr\diamant\Demos\prosodie.html.

[6] : www.irit.fr\diamant\Demos\tts_accueil.html.

[7]: Rosset.S : Stratégies et gestionaire de dialogue pour les systèmes d'iterrogation de base de
données é reconaissance vocale, nancy France, 2000.

14

You might also like