Leon-These Corpus Web

AIX-MARSEILLE U IVERSITE ******** Universit de Provence N attribu par la bibliothque
|__|__|__|__|__|__|__|__|__|__|
THESE pour obtenir le grade de DOCTEUR DAIX-MARSEILLE U IVERSITE
Formation doctorale : Cognition, Langage, Education (mention Traitement Automatique)
Prsente et soutenue publiquement
Par
Stphanie LEON
le lundi 8 dcembre 2008
TITRE : ACQUISITION AUTOMATIQUE DE TRADUCTIONS DUNITES LEXICALES COMPLEXES A PARTIR DU WEB
Tome I
Directeur de thse : Jean VERONIS
JURY Mme Batrice DAILLE (Universit de Nantes, examinateur) Mme Violaine PRINCE (Universit de Montpellier 2, rapporteur) Mme Pascale SEBILLOT (INSA, Rennes, rapporteur) M. Jean VERONIS (Universit de Provence, directeur)
Remerciements
Cette thse est le fruit dun travail interdisciplinaire, mlant la fois une culture linguistique et informatique, qui mont t transmises au contact de personnes dont le panel vari des domaines de recherche ont constitu un ventail dchanges enrichissants.
Je pense mon directeur de thse, Jean Vronis, dont limplication et le soutien ont t sans limite, depuis mon arrive lUniversit de Provence. Cest grce sa passion et son enthousiasme pendant mes premiers cours de licence que je me suis oriente vers des tudes en traitement automatique de la smantique lexicale. Tout au long de mon parcours universitaire, il a su mapporter de prcieux conseils et ma transmis son exprience et sa rigueur du travail. Je le remercie galement pour son soutien psychologique tout au long de mes annes de thse et ses changes qui mont toujours stimule et remotive dans les moments de doute.
En ce qui concerne mon cadre de recherche, je remercie tous les membres de lancienne quipe DELIC (Description Linguistique Informatise sur Corpus), nouvellement TALEP (Traitement Automatique du Langage Ecrit et Parl), qui ma accueillie durant mes annes de thse, lUniversit de Provence. Je remercie Estelle Vronis, pour son amiti, son soutien et le partage de son exprience. Elle a toujours su tre lcoute et mapporter des conseils aviss lorsque jen ai eu besoin. Je pense Laure Brieussel pour son enthousiasme et ses conseils. Je remercie les autres doctorants avec qui jai eu le plaisir de travailler au quotidien, et de partager doutes, exprience et bonne humeur, Chrystel Millon pour sa complicit, Alice Carne, Rmi Bove, Emilie Chtelat et Loc Kervajean. Je pense enfin tous les autres membres de lquipe. Je remercie galement lquipe du LIRMM (Laboratoire d'Informatique, de Robotique et de Microlectronique de Montpellier), qui est mon quipe de recherche daccueil pour cette anne en cours, durant ma dernire anne dATER. Je remercie tout particulirement Violaine Prince pour son accueil trs chaleureux, pour son enthousiasme stimulant et pour sa participation active en tant que rapporteur au sein de mon jury de thse. Je pense galement
Mathieu Lafourcade dont laccueil et la passion pour la recherche ma apport un cadre de travail convivial. Je pense galement tous les autres membres de lquipe, qui mont rserv un accueil enthousiaste.
En ce qui concerne mon cadre denseignement, je remercie lquipe du CILSH (Centre Informatique pour les Lettres et Sciences Humaines) de lUniversit de Provence, qui a su mapporter une atmosphre de travail absolument remarquable, par sa bonne humeur et son soutien sans faille, durant mes trois annes de monitorat et ma premire anne dATER : Christophe Mathieu, pour son amiti et ses conseils toujours aviss et stimulants, Grard Della Ragione pour son prcieux soutien et son encadrement durant mes premires annes denseignement, Marie-Thrse Ponsonnet pour sa bonne humeur communicative, Jean-Luc Pris pour sa prsence chaleureuse, sans oublier tous les autres membres de lquipe. Jai galement une pense mue la mmoire dHenri Tournier.
Je remercie galement lquipe MIAp (Mathmatiques Informatique Appliques) de luniversit Montpellier III, o jai actuellement le plaisir denseigner, pour ma dernire anne dATER et dans laquelle jai t agrablement accueillie. Je remercie Christian Lavergne et Patrice Sbold qui mont permis de mintgrer dans le dpartement MIAp, pour leur accueil amical et chaleureux. Je pense naturellement mes collgues enseignants dinformatique, Sandra Bringay, Alexandre Pinlou, Sylvain Durand, Jol Quinqueton et Fabrice Philippe, dont la complicit et les nombreux conseils mont aid mintgrer rapidement, dans une chaleureuse ambiance, ainsi que tous les autres membres de lquipe, pour leur sympathique accueil.
Je remercie galement Christophe Rey, de lUniversit dAmiens, pour son amiti, ses discussions toujours avises et le partage de son exprience. Je pense aussi Louis-Jean Calvet, de lUniversit de Provence, avec qui jai le plaisir de travailler sur un autre domaine qui me passionne, celui de lanalyse linguistique des textes de chanson. Son exprience, sa passion, ainsi que son extraordinaire culture mont beaucoup enrichie et stimul, au cours de nos entrevues.
Je remercie naturellement Pascale Sbillot et Batrice Daille, davoir accept, avec Violaine Prince, de faire partie de mon jury de thse. Leur enthousiasme toutes les trois, ainsi que
leur exprience et leurs remarques toujours rigoureuses et pertinentes, mont offert un cadre particulirement stimulant pour terminer ma thse.
Je remercie galement Amanda Grey, qui a eu la grande amabilit de simpliquer dans lvaluation des traductions obtenues dans mon travail de thse. Sa rigueur et ses comptences mont permis de cibler avec prcision les caractristiques de traduction qui posent des difficults au traitement automatique et de porter un regard la fois quantitatif et qualitatif sur mes rsultats.
Enfin, je remercie ma famille et mes amis pour leur patience et leur soutien inconditionnel, tout particulirement mes parents, mon frre Sbastien et Lynda. Je remercie Alize pour tout ce quelle ma apport. Un clin dil L-Town et la plante Mars. Je remercie Bruno pour sa prsence et son soutien quotidien et sans limite.
A la mmoire de mon grand-pre Salvador et de ma tante Jeanine.
Table des matires
Chapitre1. Introduction ....................................................................................................................................... 10 1.1 1.2 1.3 1.3.1 1.3.2 1.3.3 1.3.4 1.3.5 1.3.6 1.3.7 1.4 Chapitre 2. 2.1 2.2 2.3 2.4 2.4.1 2.4.2 2.4.3 2.5 2.5.1 2.5.2 2.5.3 2.5.4 2.6 2.6.1 2.6.2 2.6.3 2.6.4 Motivation......................................................................................................................................... 10 Objectifs et mthodologie ................................................................................................................ 12 Domaines dapplication ................................................................................................................... 17 Lexicographie et terminologie....................................................................................................... 17 Traduction automatique................................................................................................................. 17 Recherche dinformation multilingue............................................................................................ 18 Dsambigusation lexicale............................................................................................................. 19 Didactique des langues .................................................................................................................. 19 Linguistique comparative .............................................................................................................. 20 Autres applications ........................................................................................................................ 20 Domaines et plan de la thse ........................................................................................................... 22 Vers des units lexicales complexes pour la traduction ......................................................... 26 Introduction ...................................................................................................................................... 26 Prmisses de la Traduction Automatique ...................................................................................... 29 Renouveau terminologique.............................................................................................................. 33 Locutions et termes complexes ........................................................................................................ 38 Locutions ....................................................................................................................................... 38 Termes complexes ......................................................................................................................... 41 Critres dfinitoires ....................................................................................................................... 42 Collocations ...................................................................................................................................... 45 Approche statistique ...................................................................................................................... 46 Approche linguistique ................................................................................................................... 48 Critres dfinitoires ....................................................................................................................... 49 Recensement et formalisation ....................................................................................................... 51 Indices de figement .......................................................................................................................... 56 Opacit smantique ....................................................................................................................... 56 Proprits transformationnelles ..................................................................................................... 59 Critre rfrentiel (Libre actualisation) ......................................................................................... 61 Degr de figement ......................................................................................................................... 62
2.7 Chapitre 3. 3.1 3.2 3.2.1 3.2.2 3.2.3 3.3 3.3.1 3.3.2 3.3.3 3.4 Chapitre 4. 4.1 4.2 4.2.1 4.2.2 4.2.3 4.3 4.3.1 4.3.2 4.3.3 4.3.4 4.4 4.5 4.5.1 4.5.2 4.5.3 4.5.4 4.5.5 4.5.6 4.6 Chapitre 5. 5.1
Conclusion ........................................................................................................................................ 62 Traitement automatique des units lexicales complexes ........................................................ 65 Introduction ...................................................................................................................................... 65 Mthodes dextraction automatique ............................................................................................... 69 Mthodes statistiques .................................................................................................................... 70 Mthodes linguistiques .................................................................................................................. 70 Mthodes mixtes ........................................................................................................................... 72 Mthodes de traductions dunits lexicales complexes ................................................................. 74 Corpus parallles ........................................................................................................................... 74 Outils dalignement de termes ....................................................................................................... 78 Corpus comparables ...................................................................................................................... 80 Conclusion ........................................................................................................................................ 82 Le Web comme mga base lexicale ......................................................................................... 84 Introduction ...................................................................................................................................... 84 Le Web est-il un corpus ? ................................................................................................................ 85 Quappelle-t-on corpus ? ......................................................................................................... 85 Le rle du corpus dans la recherche linguistique .......................................................................... 87 Quel statut attribuer au Web ? ....................................................................................................... 88 Motivations ....................................................................................................................................... 90 Une gigantesque base lexicale ....................................................................................................... 90 Une base lexicale multilingue ....................................................................................................... 91 Une base lexicale volutive ........................................................................................................... 92 Limites de lutilisation du Web ..................................................................................................... 93 Construction de corpus partir du Web ....................................................................................... 94 Domaines dapplication de lutilisation du Web pour le TAL ................................................... 100 Dsambigusation syntaxique ...................................................................................................... 101 Lexicographie .............................................................................................................................. 102 Smantique .................................................................................................................................. 102 Dsambigusation lexicale........................................................................................................... 104 Acquisition de co-occurrences lexicales ..................................................................................... 104 Autres applications ...................................................................................................................... 105 Conclusion ...................................................................................................................................... 107 Mthodes dacquisition de traductions partir du Web....................................................... 109 Introduction .................................................................................................................................... 109
5.2 5.2.1 5.2.2 5.3 5.4 5.4.1 5.4.2 5.5 5.6 5.6.1 5.6.2 5.7 Chapitre 6. 6.1 6.2 6.2.1 6.2.2 6.2.3 6.2.4 6.3 6.4 6.5 6.6 6.7 6.8 6.9 6.9.1 6.9.2 Chapitre 7. 7.1 7.2 7.2.1 7.2.2
Acquisition de textes parallles partir du Web......................................................................... 110 Typologie des textes parallles sur le Web ................................................................................. 110 Mthodes dacquisition ............................................................................................................... 112 Approches bases sur les anchor textes .................................................................................. 119 Acquisition de textes partiellement parallles partir du Web ................................................. 121 Typologie des textes partiellement parallles sur le Web ..................................................... 123 Mthodes dacquisition ............................................................................................................... 125 Le Web, un corpus comparable .................................................................................................... 127 Les frquences sur le Web pour laide au choix lexical .............................................................. 129 Mthodes dacquisition ............................................................................................................... 129 Vracit vs. popularit................................................................................................................. 132 Conclusion ...................................................................................................................................... 132 Architecture et spcification du systme dacquisition des traductions ............................... 135 Introduction .................................................................................................................................... 135 Acquisition automatique dunits lexicales complexes partir du Web ................................... 138 Contraintes dacquisition monolingue ......................................................................................... 138 Collecte de pages Web et sous-corpus ........................................................................................ 141 Extraction dunits lexicales complexes ..................................................................................... 143 Analyse des units lexicales sources ........................................................................................... 149 Prsentation de lapproche de traduction .................................................................................... 152 Ressources pralables .................................................................................................................... 155 Dtection du degr de polysmie ................................................................................................... 159 Gnration de traductions candidates .......................................................................................... 160 Interrogation automatique du moteur de recherche Yahoo....................................................... 164 Validation automatique ................................................................................................................. 165 Analyse des rsultats ...................................................................................................................... 166 Proportion de traductions ............................................................................................................ 166 Non validation ............................................................................................................................. 168 Traductions compositionnelles polysmiques ....................................................................... 173 Introduction .................................................................................................................................... 173 Mondes lexicaux : notions thoriques et applicatives ................................................................. 175 Isotopie smantique et traduction ................................................................................................ 175 Thme et mots-cls thmatiques ................................................................................................. 177
8
7.2.3 7.2.4 7.2.5 7.3 7.4 7.4.1 7.4.2 7.5 7.5.1 7.5.2 7.6 7.7 7.7.1 7.7.2 Chapitre 8. 8.1 8.2 8.2.1 8.2.2 8.3 8.3.1 8.3.2 8.4 8.5 8.5.1 8.5.2 Chapitre 9. 9.1 9.2 9.2.1 9.2.2 9.2.3 9.3 Latent Semantic Indexing et Vecteurs conceptuels ..................................................................... 179 Signatures thmatiques et signatures pertinentes ............................................................ 180 Cartographie lexicale................................................................................................................... 183 Prsentation de lapproche ............................................................................................................ 185 Filtres pralables ............................................................................................................................ 188 Web parallle ou partiellement parallle ......................................................................... 188 Rapport des frquences ............................................................................................................... 190 Construction automatique de mondes lexicaux partir du Web .............................................. 190 Construction automatique de mondes lexicaux en franais ......................................................... 190 Construction automatique de mondes lexicaux anglais ............................................................... 193 Comparaison des mondes de mots franais et anglais ................................................................ 194 Analyse des rsultats ...................................................................................................................... 196 Proportion de traductions ............................................................................................................ 196 Reprsentativit des mondes lexicaux ......................................................................................... 198 Traductions non-compositionnelles et inconnues ................................................................ 200 Introduction .................................................................................................................................... 200 Problme de la non-compositionnalit .......................................................................................... 201 Notion de compositionnalit ....................................................................................................... 201 Prsentation de la mthode .......................................................................................................... 203 Liens morphologiques multilingues ou cognates ................................................................... 204 Acquisition de rsums mixtes .................................................................................................... 204 Filtres des cognates candidats ..................................................................................................... 207 Bigrammes frquents candidats.................................................................................................... 210 Analyse des rsultats ...................................................................................................................... 214 Typologie bilingue des units lexicales complexes ..................................................................... 214 Proportions de traductions ........................................................................................................... 215 Evaluation .............................................................................................................................. 217 Evaluation ....................................................................................................................................... 217 Analyse des erreurs ........................................................................................................................ 220 Erreurs lexicales .......................................................................................................................... 220 Erreurs morpho-syntaxiques ....................................................................................................... 229 Erreurs idiomatiques ................................................................................................................... 233 Proportion des erreurs par catgorie ........................................................................................... 234 Conclusion et perspectives ..................................................................................................... 237
Chapitre 10.
10.1 10.2
Discussion ....................................................................................................................................... 237 Perspectives .................................................................................................................................... 239 Thmatiques de recherche ...................................................................................................... 239 Analyse morpho-syntaxique ................................................................................................... 241 Smantique lexicale ................................................................................................................ 243 Autres perspectives ................................................................................................................. 246
10.2.1 10.2.2 10.2.3 10.2.4
Bibliographie ...................................................................................................................................................... 254
1. Introduction
10
Chapitre1. Introduction
1.1 Motivation
Bien quelle ait t la premire application non-numrique de linformatique, la traduction automatique a connu des dbuts dcevants qui ont jet un discrdit sur cette technologie pendant plusieurs dcennies. Toutefois, des progrs considrables ont t accomplis au cours de ces dernires annes, en particulier cause de lexplosion du Web dans un contexte fortement multilingue. A lheure actuelle, les logiciels de traduction en ligne, accessibles au grand public, permettent de dchiffrer le thme et le contenu global de textes courants dans une autre langue. Des erreurs, parfois grossires, demeurent, et lon est trs loin de traductions de qualit professionnelle, mais les rsultats obtenus sont malgr tout intressants pour un large public souhaitant prendre connaissance dinformations dans des langues totalement inconnues, ou de professionnels cherchant dchiffrer rapidement des documents dans le cadre de la veille technologique ou stratgique. Ces progrs rcents sont essentiellement dus laccroissement trs important de la couverture des dictionnaires prsents dans les systmes, et la prise en compte dun nombre croissant dexpressions composes. Par exemple, le
1. Introduction
11
systme Systran1 traduit dsormais correctement du franais vers langlais des expressions figes telles que :
vol main arme > armed robbery vol la roulotte > stealing from parked vehicles vol la tire > pick-pocketing vol voile > gliding vol rgulier > scheduled flight
Malgr tout, ds que lon sort de ces listes dexpressions figes, on retombe rapidement dans des erreurs de traductions qui gnent considrablement la comprhension, et lui donnent mme parfois un caractre surraliste. Par exemple, Systran utilise la traduction la plus frquente du mot vol, cest--dire flight (usage VOL AERIE ), dans toutes les autres situations. Si vol arien est correctement traduit (air flight), vol de voitures est traduit par flight of cars, ce qui est totalement incomprhensible pour un anglophone. Pourtant, la cooccurrence vol-voitures est un indice dsambigusateur fort, qui, si elle tait correctement enregistre dans une base de donnes, pourrait servir gnrer des traductions correctes. La combinatoire est toutefois beaucoup plus ouverte quavec les expressions figes mentionnes plus haut et la constitution manuelle dune base de donnes de co-occurrences lexicales prfrentielles, trs grande chelle, est une tche peu prs impossible. Les dictionnaires bilingues se contentent dailleurs de rares indications ponctuelles sur la traduction des units lexicales complexes, se fiant au jugement du lecteur et sa connaissance du monde, que lon ne peut gure esprer dune machine.
En ce qui concerne lacquisition automatique de lexiques bilingues, nous distinguons les travaux sappuyant sur les corpus parallles ou aligns (Vronis, 2000a) de ceux, plus rcents,
http://www.systransoft.com/
1. Introduction
12
sappuyant sur les corpus comparables (Rapp, 1999, Fung et McKeown, 1997, Fung et Yee, 1998, Morin et al., 2004). Les corpus parallles souffrent dun manque de disponibilit. Les corpus comparables, plus accessibles, se limitent gnralement un domaine de spcialit, ce qui restreint la diversit des usages. Le Web, qui gnre des besoins considrables en traduction, offre en mme temps un rservoir gigantesque de donnes qui peut tre exploit par des moyens automatiques, en particulier grce des moteurs de recherche tels que Google1 ou Yahoo2. Le Web permet de palier les limites des corpus parallles et comparables : il constitue une base lexicale gigantesque, accessible librement, pour une multitude de domaines et de langues (Kilgarriff et Grefenstette, 2003). Lutilisation du Web permet un changement dchelle dont les rpercussions peuvent tre fondamentales pour la comprhension des langues. Toutefois, son utilisation constitue un phnomne rcent, non compltement matris et ncessite des rflexions thoriques et pratiques sur son statut, ses caractristiques et ses limites pour la recherche linguistique.
1.2 Objectifs et mthodologie

Lobjectif de cette thse est la mise au point de techniques dextraction automatique dquivalences bilingues dunits lexicales complexes3, partir du Web, dans un but de construction dune trs grande base de donnes du franais vers langlais. De telles bases de donnes, contenant une quantit massive de traductions, constituent des ressources rares, pourtant fondamentales pour des applications telles que la traduction automatique, la recherche dinformation multilingue ou la lexicographie et la terminologie bilingue. Notre mthodologie exploite les diffrentes facettes du Web bilingue afin dacqurir de faon automatique des quivalences de telles traductions. La base de donnes constitue nest pas de
http://www.google.com/ http://www.yahoo.com/
Concernant la combinatoire lexicale, la littrature prsente une terminologie disparate et souvent floue. Certains parlent de prfrences lexicales (Wilks, 1975), de restrictions de slection (Katz et Fodor, 1964), de termes complexes (Daille, 1994) ou encore de collocations (Benson, 1990, Smadja, 1993, Cruse, 1986). Afin de dsigner ce phnomne, nous employons ici le terme dunit lexicale complexe, plus neutre, dfini comme une cooccurrence lexicale entre deux lexmes lis syntaxiquement.
1. Introduction
13
type dictionnairique, elle ne vise pas lexhaustivit et la description du lexique. Elle constitue un recensement non exhaustif et non ferm, dont lobjectif est une augmentation croissante et quotidienne.
Etant donn lampleur du phnomne, nous nous centrons sur un couple de langue (franaisanglais), sur une direction de traduction (du franais vers langlais)1, et sur deux relations de dpendances syntaxiques en franais (limites deux mots-pleins 2) :
OM ADJ appareil digital OM DE(D) OM appareil de musculation
Ces champs dinvestigation peuvent tre largis par la suite. Nous prenons pour point de dpart des units lexicales complexes en franais collectes partir dun vaste corpus de pages Web et nous proposons une mthodologie par traitements modulaires, chaque phase tant cible sur des caractristiques particulires de traduction (compositionnalit ou noncompositionnalit, polysmie des units lexicales, etc.). Nous tudions la langue gnrale dans son ensemble, celle-ci incluant les domaines de spcialit3.
Nous esprons apporter modestement quelques techniques afin de construire de faon automatique un vaste lexique bilingue dunits lexicales complexes attestes, partir de la base de textes du Web. Nous visons la construction dun lexique ayant un champ tendu de traitement, tant quantitativement, quen matire de diversit des domaines. Ce lexique
Nous parlons de langue source afin de dsigner la langue traduire (pour nous, le franais) et de langue cible afin de parler de la langue de traduction (pour nous, langlais). Dans le dcompte des mots-pleins, les prpositions telles que de ou d ne sont pas prises en compte, cest--dire que appareil numrique contient deux mots-pleins, tout comme appareil de musculation ou cachet daspirine (Daille, 1994).
3 2 1
Harris (1991) parle de sous-langage , qui est une notion proche.
1. Introduction
14
fonctionne en continu, partir de donnes sources traduire, le lexicographe pouvant tout moment valider ou modifier les donnes obtenues, ainsi que rajouter de nouvelles donnes traduire, mme si celles-ci constituent des nologismes, ou des termes spcialiss, le Web nous permettant un accs aux usages en temps rel et de faon quantitative. Notre mthodologie exploite les caractristiques du Web pour la rsolution de difficults de traduction, ces difficults tant gres de faon modulaire : partir dune liste traduire, les traductions obtenues dans la premire phase sont limines de la liste de dpart, et ainsi de suite jusqu notre troisime et dernire phase. Dans un premier temps, nous prsentons une mthode de validation de traductions candidates base sur ltude des frquences sur le Web, dans la ligne de travaux tels que Grefenstette (1999), Cao et Li (2002) et Lon et Millon (2005). Lhypothse est que les traductions candidates errones apparaissent une faible frquence sur le Web, contrairement aux traductions correctes. Pour revenir notre exemple de vol de voitures, la traduction flight of cars apparat seulement une frquence de 4 sur le moteur de recherche Google1, tandis que theft of cars apparat 36 600 fois. Les rsultats de frquences slectionnent de faon crasante la traduction correcte (Lon et Millon, 2005).
Malgr tout, labsence de prise en compte du contexte lexical constitue une limite, car la mthode des frquences ne vrifie pas lquivalence entre lunit lexicale source et sa traduction, ce qui peut constituer des erreurs pour les cas fortement polysmiques. Par exemple, group rate, qui signifie tarif de groupe serait une traduction candidate de cours de formation par le jeu des multiples polysmies de cours et de formation (Lon et Millon, 2005). Si les frquences permettent de vrifier lexistence dune traduction et sont efficaces pour les cas non polysmiques, elles ne sont pas satisfaisantes pour les cas dambigit lexicale. Notre mthode se base sur une dtection du degr de polysmie des units lexicales et propose un module de dsambigisation lexicale pour les cas polysmiques. Notre technique se base principalement sur la notion de mondes lexicaux partir du Web. Pour nous, un monde lexical dsigne les co-occurrences frquentes d'une unit lexicale (simple ou complexe) au sein dune collection de textes2 (Vronis, 2003, 2004). De tels voisinages, plus larges que le co-occurrent immdiat, peuvent se situer au niveau de la phrase, ou mme du
1
Google, aot 2008. En loccurrence, les rsums retourns par le moteur de recherche Yahoo, en ce qui nous concerne.
1. Introduction
15
paragraphe. Par exemple, le monde lexical de la requte caisse centrale sur Yahoo (agricole, social, mutualit, crdit, banque, assurance, gestion, etc.) est proche de celui de sa traduction correcte central fund (money, pay, budget, insurance, management, social, etc.), contrairement la traduction errone central case (study, law, policy, enterprise, university, etc.). Notre hypothse est quune comparaison des mondes lexicaux permet de lever un grand nombre dambiguts lexicales (Lon, 2006). Certains travaux ont montr que lexploitation des mondes lexicaux1 permet une dsambigusation lexicale dun point de vue monolingue (Sbillot et Pichon, 1997, Pichon et Sbillot, 1999a, Pichon et Sbillot, 1999b, Rossignol et Sbillot, 2003, Vronis, 2003, Vronis, 2004). En traduction, des recherches ont soulign que les co-occurrences immdiates dun mot cible sont les mmes d'une langue l'autre (entres autres (Rapp, 1999)), mais aussi un entourage linguistique plus large (Fung et Yee, 1998, Kikui, 1998, Tanguy, 1999). Ces stratgies ont t appliques essentiellement sur des corpus terminologiques, ce qui offre une faible diversit des usages dun mot, partir de corpus parallles ou comparables, ce qui limite la quantit des observations. De plus, ils concernent majoritairement des termes simples, tandis que nous nous intressons aux units lexicales complexes. Nos travaux prsentent des similitudes avec ceux de Lafourcade et al. (2004) qui crent des ressources monolingues et bilingues par la construction de vecteurs conceptuels : la dmarche adopte est onomasiologique, cest--dire que les concepts sont donns a priori via des thesaurus et sont relis des items lexicaux. Pour nous, le monde lexical est construit uniquement partir de donnes textuelles. Notre dmarche est smasiologique : nous partons des termes pour nous intresser leur signification et leur traduction. A notre connaissance, aucune exprience sur la comparaison des mondes lexicaux na t mene en langue gnrale, sur limmense base de donnes que constitue le Web.
Les stratgies prsentes, qui constituent les deux premires tapes de notre mthode, lune pour les units lexicales non polysmiques, lautre pour celles qui sont polysmiques se fonde sur une reprsentation compositionnelle de la traduction : la combinaison des traductions de chaque lment permet daccder au sens global. Toutefois, il arrive quune traduction ne soit pas transparente. Par exemple, le co-occurrent de caisse dans caisse claire se traduit par snare
1
La terminologie relative aux mondes lexicaux varie selon les courants thoriques. Nous prsentons ces
diffrents courants dans le chapitre 7.
1. Introduction
16
qui signifie littralement pige. Une traduction littrale, partir dun dictionnaire ne peut tre satisfaisante. De plus, certaines units lexicales sont trs techniques ou rcentes et ne sont pas recenses dans les ressources dictionnairiques. Notre troisime phase de traduction propose une mthode afin de rsoudre ces difficults. La mthode se fonde sur une acquisition de pages partiellement parallles sur le Web (Nagata, 2001) et sur un reprage de cognates et de bigrammes frquents. Cette dernire tape permet de combler les lacunes dictionnairiques et de grer les problmes de traductions non transparentes. Le schma ci-dessous rcapitule les tapes de traitement de notre mthodologie :
EXTRACTION AUTOMATIQUE PAGES WEB UNITES LEXICALES COMPLEXES SOURCES
TRADUCTIONS COMPOSITIONNELLES NON POLYSEMIQUES

guitare lectrique > electric guitar
TRADUCTIONS COMPOSITIONNELLES POLYSEMIQUES

caisse de retraite > pension fund
TRADUCTIONS NON COMPOSITIONNELLES (OU INCONNUES)

caisse claire > snare drum appareil ciculatoire > circulatory system
BASE LEXICALE DE TRADUCTIONS
Figure 1.
Etapes de traitement
1. Introduction
17
1.3 Domaines dapplication
1.3.1 Lexicographie et terminologie

Les dictionnaires bilingues traditionnels contiennent peu dinformations sur les phnomnes dunits lexicales complexes, se contentant le plus souvent dindications ponctuelles, bien que la lexicographie moderne vise modifier cette tendance (Vronis, 2000a). En effet, le recensement de ces units lexicales est fondamental pour un apprenant qui ne matrise pas une langue trangre, puisque les cooccurrences prfrentielles varient entre les langues. Par exemple, la pluie est forte en franais, mais lourde (heavy rain) en anglais (Melcuk, 1997). De plus, de nombreux termes complexes, trs techniques et/ou trs rcents nont pas fait lobjet dun recensement systmatique, dans le domaine de la terminologie (ibid.). En ce qui concerne la construction des ressources dictionnairiques bilingues, Vronis (2000a) montre que la lexicographie a de plus en plus recours des corpus lectroniques. Lutilit de ces derniers a t mentionne depuis un certain temps par Hartmann (1980) et Atkins (1990) (Vronis, 2000a). La premire utilisation de corpus lectroniques en lexicographie remonte la fin des annes 1950, avec le projet du Trsor de la Langue Franaise (Imbs, 1971). Leur utilisation par des maisons ddition est plus rcente, avec le projet COBUILD (Sinclair, 1987a). Dautres projets telle que la compilation du Oxford-Hachette French Dictionary sest appuye sur des corpus comparables en anglais et en franais de plus de 10 millions de mots chacun (Grundy, 1996). Le projet interuniversitaire du Dictionnaire Canadien Bilingue fait appel un corpus de textes comparables complt par un corpus parallle align de prs de 50 millions de mots, le Hansard (Roberts et Montgomery, 1996). La conception du DEC (Dictionary of English Collocations) (Kjellmer, 1994) est base sur une analyse de frquence des mots. Les donnes lexicales extraites du Web pourraient tre utiles pour la construction de telles ressources dictionnairiques.
1.3.2 Traduction automatique

La plupart des recherches actuelles en automatisation de traduction se situent dans un continuum entre deux ples (Vronis, 2000a) : dune part, la traduction humaine assiste par
1. Introduction
18
des outils informatiss et dautre part, la traduction automatique assiste par lhomme, tels que des systmes daide la lecture et la rdaction par exemple (Li et Cao, 2002, Li et al., 2003a). Tout au long de ce continuum, les bases de traductions dunits lexicales complexes sont utiles afin de complter et damliorer les ressources traditionnelles. Les systmes de mmoire de traduction (Kjaersgaard, 1987, Isabelle, 1992, Macklovich, 1992, Picchi et al., 1992) sont bass sur lide, propose par Kay, en 1980, de raliser une approche progressive de la traduction automatique, dont ltape de dpart serait de sappuyer sur des exemples de textes (Vronis, 2000a). Le courant de la traduction automatique base sur la mmoire (ou sur les exemples) (Nagao, 1984, Sadler, 1989, Sato et Nagao, 1990, Sumita et al., 1990) avance lide dexploitation de fragments similaires aux portions du texte traduire et de combinaison de faon adquate (Vronis, 2000a). La base de donnes de traductions que nous constituons pourrait tre utilise par des systmes de mmoire de traductions. Les traductions dunits lexicales complexes peuvent tre rutilises dans diffrents contextes. De plus, les mondes lexicaux offrent des informations sur leur contexte qui pourraient tre utiles.
1.3.3 Recherche dinformation multilingue

Depuis une vingtaine dannes, la recherche dinformation multilingue (cross-language information retrieval) connat une explosion grce au Web (Vronis, 2000a). Il sagit de formuler une requte dans une langue et obtenir les rsultats (ou une partie dentre eux) dans une autre langue afin dobtenir des rsultats plus prcis (ibid.). Le prsuppos est que lutilisateur soit capable de dchiffrer les rsultats obtenus dans dautres langues, mais incapable de formuler une requte dans cette langue (ibid.). Les techniques de traduction automatique des requtes posent les mmes difficults que pour la Traduction Automatique : problmes de polysmie et imperfection des dictionnaires. Par exemple, le systme de recherche multilingue de Google1 traduit la requte souris dagneau de faon littrale, par mouse lamb2, ce qui offre des rsultats fausss pour une requte multilingue en franais cible vers des rsultats en anglais :
1
http://www.google.fr/language_tools?hl=fr La traduction attendue est lamb shank.
1. Introduction
19
Figure 2.
Recherche multilingue Google en anglais de souris dagneau
Laccs des bases de donnes lexicales de traductions dunits lexicales complexes pourrait tre utile afin damliorer la qualit de traductions de telles requtes.
1.3.4 Dsambigusation lexicale

Laccs la traduction de combinaisons lexicales peut servir la rsolution dun problme monolingue classique, celui de la dsambigusation du sens des mots en contexte (Vronis, 2000a). Lide majeure est que lambigut lexicale dune langue est leve par des choix lexicaux diffrents dans une autre langue (ibid.). Par exemple, le nom polysmique caisse se traduit en anglais de faon diffrente en fonction de son sens : fund pour lusage BA QUE, drum pour lusage TAMBOUR, etc. Laccs la traduction dun terme polysmique en contexte permet daccder son sens. Brown et al. (1991a) et Gale et al. (1993) proposent lutilisation de corpus parallles afin de constituer un corpus dentranement damorage pour les systmes de dsambigusation automatique. Lhypothse est que des banques dexemples de traductions en contexte1 peuvent tre prcieuses pour la dsambigisation lexicale.
1.3.5 Didactique des langues

Selon Grossmann et Tutin (2003), les tudes sur lacquisition dunits lexicales complexes en langue seconde (Granger, 1998, Howarth, 1998) sont parmi les plus difficiles matriser pour les apprenants. Des lexiques de traductions dunits lexicales en contexte ont un intrt en
1
Au-del des traductions dunits lexicales complexes, nous prsentons laccs au monde lexical de ces units,
qui peut galement constituer une aide prcieuse pour la dsambigisation lexicale.
1. Introduction
20
didactique des langues trangres, pour laide la matrise dune langue, tant pour laide la production (rdaction, production orale) que pour la comprhension de textes. Lobservation de lutilisation des mots en contexte (par les mondes lexicaux) peut complter efficacement les outils classiques tels que les dictionnaires et les grammaires (Vronis, 2000a).
1.3.6 Linguistique comparative

Les bases lexicales de traduction peuvent constituer des ressources pour les recherches linguistiques comparatives entre le franais et langlais ( trous lexicaux, traduction par dautres structures, etc.) et pour ltude thorique de la traduction (Vronis, 2000a). Une application de nos rsultats pourrait tre de complter des tudes de syntaxe compare telles que celle de (Guillemin-Flescher, 1981), qui portaient sur des donnes trs restreintes : pour linstant, aucune tude linguistique comparative ne porte sur des donnes dune ampleur comparable celle que nous proposons.
1.3.7 Autres applications Gnration automatique de textes

Les units lexicales complexes constituent des syntagmes relativement figs quil est possible de rutiliser de la mme faon dans des contextes divers. Sinclair (1987b) a dvelopp la notion de idiom principle, lide tant que la langue est faite de blocs prfabriqus :
The principle of idiom is that a language user has available to him or her a large number of semi-preconstructed phrases that constitute single choices, even though they might appear to be analysable into segments
Ces blocs peuvent tre considrs comme des produits semi-finis (Hausmann, 1979) et rutiliss tels quels des fins de gnration automatique. Par exemple, Smadja et McKweown (1991) ont ralis un programme de gnration automatique de phrases, Cook, dans le domaine de la bourse, en anglais, bas sur une utilisation des units lexicales complexes.
1. Introduction
21
Reconnaissance Optique des Caractres1

Les units lexicales complexes peuvent tre utiles afin de dsambiguser deux formes, pour la Reconnaissance Optique des Caractres (OCR). Il sagit dune technique, qui laide dun procd optique, permet un systme informatique de lire et de stocker automatiquement du texte dactylographi. Lorsque deux mots diffrents se prononcent de la mme manire, la connaissance de son contexte permet de dsambiguser la forme. Par exemple, considrons les formes farm et form et diffrents contextes (Church et Hanks, 1990) :
(1) federal credit (2) some of
Dans le contexte (1), accompagn rgulirement de federal credit, nous aurons le terme form, tandis que le contexte (2) (some of) se rencontre plus frquemment avec farm.
Dsambigusation syntaxique automatique

Lambigut syntaxique consiste au fait que pour une mme phrase, plusieurs analyses syntaxiques sont possibles, en fonction des regroupements tablis. Maniez (2001a) montre que langlais, par exemple, est propice aux ambiguts syntaxiques (appartenance dun mot plusieurs catgories grammaticales, pas daccord pour les adjectifs, etc.). Prenons pour illustration la structure syntaxique (ibid.) :
ADJECTIF OM1 A D OM2 Weight-reducing diet and chlorthalidone
Ladjectif weight-reducing ne sapplique quau premier nom diet. Lambigut vient du fait quune analyse pourrait appliquer la distributivit la coordination. La dsambigusation du dcoupage de ces structures peut tre apporte grce un recensement des units lexicales
1
Optical Character Recognition, en anglais.
1. Introduction
22
complexes (dans lexemple cit, lunit lexicale complexe serait de la forme syntaxique ADJECTIF- OM).
Rsums automatiques multilingues

La tche de rsum automatique consiste en une reformulation du texte original afin den dcrire lessentiel du contenu. Les mondes lexicaux sont utiles pour le reprage automatique des concepts principaux pour la tche de gnration de rsum automatique. Par exemple, SUMMARIST (Hovy et Lin, 1997, Lin et Hovy, 2000) est un systme de gnration automatique de rsums, qui sappuie sur une mthode dacquisition de mondes lexicaux1.
1.4 Domaines et plan de la thse

Notre thse se situe mi-chemin entre deux domaines, la linguistique, et plus prcisment la smantique lexicale dune part, et linformatique dautre part, plus prcisment le Traitement Automatique des Langues et lextraction automatique dinformations partir du Web.
En ce qui concerne la smantique lexicale, nous nous intressons aux aspects lexicologiques des units lexicales complexes et leurs critres dfinitoires. Nous proposons une analyse de diffrents types dunits lexicales complexes telles que les locutions (et les termes complexes) comme par exemple caisse claire et les collocations, comme par exemple pluie forte. Nous nous intressons la notion de figement et aux aspects comparatifs des phnomnes de combinatoires lexicales. Nous posons la problmatique des rapports entre les units lexicales complexes repres dans les textes, les concepts et leurs quivalences dans une langue cible. Nous nous centrons galement sur les mondes lexicaux dun point de vue interlingue et de leur utilit pour la dsambigisation lexicale en traduction.
Hovy et Lin (1997) parlent de signatures thmatiques ( topic signature en anglais), qui est une notion
proche. Nous reviendrons sur cette notion dans le chapitre 7.
1. Introduction
23
Du point de vue du Traitement Automatique des Langues, nous nous intressons aux aspects techniques de lidentification automatique des units lexicales complexes partir de vastes donnes textuelles. Nous mettons en place une procdure dacquisition automatique dunits lexicales et de leurs traductions partir du Web. Nous proposons une rflexion sur le statut du Web pour la recherche linguistique. Nous dtaillons et utilisons les diffrentes caractristiques du Web bilingue pour son utilisation en traduction.
Outre lintroduction et la conclusion, notre thse se divise en huit chapitres, dont les quatre premiers sont un tat de lart des champs qui recoupent notre sujet. Ce dernier se situe michemin entre plusieurs domaines que nous tudions de faon conjointe : les units lexicales complexes (aspects thoriques et traitement automatique monolingue et bilingue), lutilisation du Web pour les recherches linguistiques, lacquisition de traductions partir du Web. Les quatre derniers chapitres prsentent notre mthodologie dacquisition de traductions dunits lexicales complexes partir du web, analysent les rsultats et prsentent lvaluation.
Le deuxime chapitre prsente les aspects thoriques et dfinitoires des units lexicales complexes. Aprs une mise en perspective des dbuts des recherches en Traduction Automatique avec le traitement des units lexicales complexes, nous montrons quil existe plusieurs phnomnes : les locutions (ou les termes complexes) et les collocations. Nous analysons les caractristiques de ces phnomnes puis les considrons de faon comparative, en montrant que les diffrences se situent sur un continuum dont les frontires sont floues.
Le troisime chapitre prsente les mthodes traditionnelles de traitement automatique des units lexicales complexes, dabord dans une perspective monolingue, puis dans une perspective bilingue. Nous prsentons les limites des mthodes traditionnelles de traduction et montrons que le Web est un outil dont les caractristiques permettent de palier ces limites.
Le quatrime chapitre prsente un tat de lart de lutilisation du Web pour les recherches en Traitement Automatique des Langues (TAL). Nous proposons quelques rflexions thoriques sur les rapports entre lutilisation de corpus en linguistique et lutilisation du Web. Nous montrons que malgr une utilisation rcente, il existe un panel trs vari et prolifique de travaux qui utilisent le Web pour leurs applications.
1. Introduction
24
Le cinquime chapitre prsente les diffrentes mthodes dacquisition automatique de traductions, partir du web, quil sagisse de construction de corpus parallles ou dextraction dinformations partir du Web.
Le sixime chapitre correspond notre premire phase de traduction, celle des combinaisons lexicales compositionnelles non polysmiques, du type de :
guitare lectrique > electric guitar
Cette phase est base sur la prise en compte des frquences des traductions candidates sur le Web.
Le septime chapitre dcrit la phase suivante de notre mthodologie, qui traite des traductions compositionnelles polysmiques, comme dans lexemple :
appareil mnager > household appliance
Cette phase est principalement base sur la comparaison de mondes lexicaux sur le Web. Nous prsentons dabord les diffrents aspects thoriques lis la construction de mondes lexicaux (isotopie smantique, reprage thmatique, etc.), puis nous dtaillons notre mthodologie.
Le huitime chapitre constitue la dernire phase de notre mthodologie, qui concerne la traduction de combinaisons lexicales non compositionnelles et de mots techniques non recenss dans des ressources dictionnairiques traditionnelles, comme dans les exemples respectifs :
acide folique > folic acid caisse claire > snare drum
Aprs quelques rflexions thoriques sur la notion de compositionnalit, nous dtaillons cette dernire phase.
1. Introduction
25
Enfin, le neuvime chapitre consiste en une valuation dtaille des rsultats, de faon quantitative (en nombre de combinaisons correctes obtenues), et qualitative, en termes de difficults de traduction et de problmes rsolus. Nous faisons enfin le point sur les apports constats de notre mthode ainsi que de lutilisation du Web au sein de notre tude et nous parlons galement des limites et des perspectives dvolution.
2. Vers des units lexicales complexes pour la traduction
26
Chapitre 2.
Vers des units lexicales complexes
pour la traduction
2.1 Introduction
La notion de mot est une notion empirique dont les contours sont flous et difficiles dfinir, au-del du critre graphique. Les tentatives de thorisation du mot ont suscit (et suscitent encore) de vifs intrts chez les linguistes qui lont rejet au profit dautres termes (Lon, 2001). Dun point de vue pratique, les applications en Traitement Automatique des Langues qui ncessitent lidentification dunits lexicales doivent envisager des units qui ont une valeur syntaxique et smantique. Le domaine de laide la Traduction Automatique nchappe pas la rgle. Un aspect majeur consiste en lidentification des units lexicales, dont le reprage de mots spars par un espace nest pas satisfaisant. Une reconnaissance errone dune association idiomatique par le systme conduit des rsultats qui gnent la comprhension, provoquant parfois des contre-sens. Ainsi, le traducteur en ligne Systran1 propose la traduction anglaise littrale de feu rouge :
(1) feu rouge > red light
http://www.systransoft.com/
27
Cette traduction est incomprhensible pour un anglophone, parce quelle ne doit pas tre compositionnelle : la traduction correcte est traffic light (littralement feu de lumire). Audel des phnomnes idiomatiques, la polysmie1 ou lhomonymie des units lexicales constitue une difficult centrale en Traduction Automatique. Par exemple, le nom appareil est fortement polysmique2. La slection du nom cible ne peut tre effectue sans connatre son usage. Pour revenir Systran, de nombreuses erreurs en Traduction Automatique sont dues une absence de dsambigusation lexicale :
(2) appareil mnager > domestic machine (3) appareil digital > digital apparatus
Pourtant, les co-occurrents (ici mnager et digital) sont un indice dsambiguisateur fort qui pourrait tre exploit pour gnrer la traduction adquate. Une solution aux problmes didiomatisme et dambigit lexicale, consiste en la cration de vastes lexiques dquivalences bilingues du type de3 :
(1) feu rouge > traffic light (2) appareil mnager > household appliance (3) appareil digital > digital camera
La polysmie dsigne le fait quune unit lexicale ait plusieurs sens, entre lesquels il existe un lien tymologique. Dans le cas de lhomonymie, diffrents sens sont attribus la mme forme graphique, mais il nexiste pas de lien. Dans le cadre de nos travaux, nous ne prenons pas en compte cette distinction, et parlons de polysmie de faon indiffrencie. Dans notre dictionnaire bilingue Collins Pocket, 12 traductions de appareil sont recenses, ce qui montre que ce terme est polysmique (Dagan et al., 1991).
3 2
Ce problme a t abord ds les dbuts des recherches en Traduction Automatique (Bar-Hillel, 1955, Pottier, 1962c), mais les moyens informatiques sommaires de lpoque ne permettaient pas de traiter le nombre de donnes que nous pouvons envisager de nos jours.
28
Les units lexicales complexes forment une unit syntaxique. Les transformations syntaxiques sont limites, mais toutes les units lexicales complexes ne sont pas compltement figes et contiges, ce qui accroit la difficult de leur traitement automatique :
(1) feu rouge > *feu trs rouge1 feu rouge > le feu est rouge
Parfois, aucune transformation syntaxique nest possible :

(2) appareil mnager > *appareil trs mnager appareil mnager > *lappareil est mnager
Ces units lexicales complexes forment une unit smantique, car elles renvoient, le plus souvent, un rfrent unique et le sens nest pas dcomposable. Elles doivent tre envisages dans leur globalit et tre recenses en tant quunits de la langue. Il existe des milliers dunits lexicales complexes au sein de chaque langue, et une tche manuelle est impossible, il faut proposer des moyens dextraction automatique. Malgr une littrature abondante sur la combinatoire lexicale, les contours restent flous et la terminologie disparate. Les units lexicales complexes posent des problmes dfinitoires, de par leurs caractristiques fluctuantes. Les critres dfinitoires ne font pas lunanimit et des exemples prototypiques sont envisags (Williams, 2001). Nous distinguons deux types dunits lexicales complexes, les locutions (ou termes complexes) qui sont des units lexicales figes telles que appareil mnager et les collocations, qui sont semi-figes telles que caf noir. Cette distinction ntablit pas des frontires nettes et les critres de dfinition ne sont pas gnralisables lensemble de chaque classe.
Ce chapitre prsente un tour dhorizon des aspects thoriques du traitement des units lexicales complexes, dans une perspective de traduction. Aux Etats-Unis, dans les annes 1950-1960, les recherches en Traduction Automatique nont pas mis laccent sur lanalyse des
1
Lastrisque indique que la squence est agrammaticale.
29
combinaisons lexicales (Lon, 2001). Certains travaux ont toutefois nonc le problme dun traitement dunits lexicales complexes. Malgr la place dominante de linformatique, les proccupations de Bar-Hillel, premier chercheur en Traduction Automatique, sintresse la traduction dunits lexicales complexes et montre les prmisses de proccupations lexicologiques (2.2). Par exemple, une unit lexicale complexe peut se traduire par une unit lexicale simple :
(4) appareil photographique > camera (5) pomme de terre > potatoe
Les recherches en Traduction Automatique en France, plus tardives, ont conduit des linguistes dfinir des units lexicales. Ces proccupations tant pour la mcanisation du vocabulaire que pour la Traduction Automatique, ont fait merger une terminologie nouvelle, disparate, mais rvlatrice de questionnements fondamentaux pour lautomatisation de la traduction (Lon, 2001, 2004) (2.3). Aprs un aperu des recherches en Traduction Automatique dans les annes 1950-1960, pour les traditions amricaine et franaise, sous langle des proccupations du traitement dunits lexicales, nous dfinissons notre terminologie. Nous dcrivons le phnomne des locutions et des termes complexes (2.4). Au-del du figement complet, les units lexicales prfrentielles constituent une aide pour la dsambigusation lexicale en traduction, nous abordons les collocations (2.5). Les frontires entre les deux phnomnes restent floues et nous concluons par une approche comparative et graduelle (2.6). Malgr les diffrences de critres dfinitoires, il arrive que nous ayons parler des deux catgories de faon indiffrencie. Nous parlons dunit lexicale complexe, comme catgorie hyperonyme regroupant les classes des locutions et des collocations.
2.2 Prmisses de la Traduction Automatique

Aux Etats-Unis, dans les annes 1950, linteraction entre la linguistique et la Traduction Automatique est rare (Lon, 2001). Les difficults que posent la Traduction Automatique pour le reprage dunits syntaxiques et smantiques na pas veill lintrt des linguistes (ibid.). La Traduction Automatique est mise lpreuve des langages formels par
30
linformatique (ibid.). Lapproche est influence par le contexte de la seconde guerre mondiale, o des efforts avaient dus tre fournis en cryptographie. En 1947, Waever compare le processus de traduction un processus de chiffrement. Un texte traduit en russe est vu comme un chiffrage de sa version anglaise laide dun code particulier :
Also knowing nothing official about, but having guessed and inferred considerable about, powerful new mechanized methods in cryptography methods which I believe succeed even when does not know what language had been coded one naturally wonders if the problem of translation could conceivably be treated as a problem of cryptography. When I look at an article in Russian, I say : This is really written in English, but it has been coded in some strange symbols. I will now proceed to decode.
Figure 3.
Extrait de la lettre de Warren Weaver orbert Wiener1
Bar-Hillel, philosophe logicien, premier chercheur en Traduction Automatique au MIT (Massachusetts Institute of Technology), en 1951, constitue une exception. Dans le premier recueil de travaux en Traduction Automatique de 1955, il sintresse aux units lexicales complexes dont la traduction ne peut tre littrale et propose une dfinition de la notion d idiome . Il cite lexemple de red herring en anglais qui se traduit par une forme graphique en allemand, Finte2. Selon lui, un idiome est un bloc de mots qui fonctionne comme une unit et dont la traduction ne peut tre littrale3 :
An expression in a given language L is idiomatic within L, with respect to a given monolingual dictionary and a given list of grammatical rules if, and only if, none of the word sequences correlated to the given expression by the dictionary and the list of rules is (sufficiently) synonymous with it.
4 mars 1947. Fausse piste en franais. Greimas (1960) se rfrera Bar-Hillel au sujet de la problmatique de traduction des expressions idiomatiques
(Lon, 2001, 2004).
31
Les squences ne pouvant tre traduites de faon littrale, malgr des rgles de transformations morpho-syntaxiques, sont des idiomes qui doivent tre recenses. Bar-Hillel (1955) envisage lajout dun dictionnaire dquivalences didiomes au sein des systmes de Traduction Automatique, en amont des dictionnaires traditionnels. Les rgles
transformationnelles insrer dans les systmes selon Bar-Hillel (1955) seraient de deux ordres :
Les rgles de transformations morpho-syntaxiques comme par exemple :

OM-ADJECTIF (franais) > ADJECTIF- OM (anglais) appareil digital > digital camera
Les rgles de transformations idiomatiques :

roter Hering (allemand)1 > Finte (allemand)
Bar-Hillel (1955) aborde les prmisses du problme des connaissances smantiques et pragmatiques pour la traduction, qui fera lobjet dun rapport quelques annes plus tard. Pour reprendre lexemple de red herring, il y a un usage en allemand o la traduction nest pas finte mais roter Hering (traduction littrale), savoir lusage UVRE dART2. Afin de connatre lusage de red herring et la traduction adquate, il faut disposer de connaissances smantiques et pragmatiques que lon ne peut esprer dune machine. Le problme de lambigit lexicale pour la traduction a t soulev tt. En 1949, Waever introduit le besoin de dsambigusation lexicale pour la tche automatise de traduction. Il est impossible pour un lecteur daccder au sens dun mot lorsquil est dnu de tout contexte. Lorsquon lui donne accs son voisinage, lambigut lexicale nest plus prsente. Il prconise un processus qui dtermine le sens dun mot, en prenant en compte son contexte immdiat, dans
Il sagit de la traduction littrale, en allemand, de langlais, red herring. Cette usage fait rfrence une peinture de Marc Chagall, red herring. Dans cet usage, une traduction littrale
en allemand est souhaitable.
32
une fentre de deux mots (contexte gauche et contexte droit). Dans son Memorandum, il envisage un recensement de toutes les squences possibles de digrammes ou de trigrammes. Hormis quelques exprimentations (Kaplan, 1950), la mthode prsente par Weaver na pas obtenu de succs cause des moyens techniques sommaires de lpoque, problme reconnu par Weaver (1955) (Lon, 2001) :
It would hardly be practical to do this by means of a generalized dictionary which contains all possible phases 2N +1 words long : for the number of such phases is horrifying, even to a modern electronic computer.
Ces problmes nont pu tre surmonts lpoque. En 1960, Bar-Hillel publie un rapport qui met en lumire les difficults que pose la traduction, tant sur le plan technologique (la technologie informatique de lpoque tait trs sommaire) que linguistique. Dans son rapport, il met en avant la sous-estimation des connaissances contextuelles et encyclopdiques mises en jeu dans la traduction. Le clbre exemple concerne le terme polysmique anglais pen dans les deux phrases :
(1) The box is in the pen (la bote est dans lenclos) (2) The pen is in the box (le stylo est dans la bote)
Afin de traduire le terme pen, il faut disposer de connaissances gnrales sur le monde et cette difficult avait t sous-estime. Cette valuation, venant du premier chercheur recrut dans le domaine, aura un fort impact ngatif dans la communaut scientifique. En 1964, ladministration amricaine commande un rapport, le rapport ALPAC (Automatic Language Processing Advisory Commitee) qui tablit un constat dchec sur les recherches en Traduction Automatique et met fin aux financements et une majeure partie des recherches dans le domaine.
33
2.3 Renouveau terminologique

Contrairement aux Etats-Unis ou lAngleterre, o les premires recherches en Traitement Automatique des Langues sont celles en Traduction Automatique, cest la mcanisation du vocabulaire en France qui constitue les premiers travaux en TAL (Lon, 2004a). Le dbut des recherches en Traduction Automatique commencent dix ans plus tard quaux Etats-Unis, la priode de la publication du rapport ALPAC (ibid.). Les questionnements sur le statut des units traites sont au cur des travaux en mcanisation du langage (ibid.). Ces interrogations donnent naissance une terminologie nouvelle afin de dsigner les units lexicales complexes1. La terminologie propre chaque linguiste est le reflet de questionnements novateurs mis en relation avec la mcanisation du langage. Ce sont principalement les travaux en Traduction Automatique qui ont donn un nouvel essor aux rflexions lexicologiques. Nous abordons trois auteurs qui ont introduit une nouvelle terminologie pour les units lexicales complexes : la lexie de Pottier, la synapsie de Benveniste et le synthme de Martinet.
La notion de lexie (Pottier)

Pottier (1962a, 1962b, 1962c) pose la dfinition dunits lexicales, dans un cadre de Traduction Automatique (Lon, 2001). Il introduit la notion de lexie, unit de langue, la fois unit lexicale et unit de base de la construction syntaxique (ibid.). Sa dfinition est unificatrice (contrairement la tradition structuraliste) car elle regroupe diffrents types de lexies (qui ne sont jamais infrieurs au mot graphique) (Lon, 2001) :
Lexies simples :
pierre chaise
Nous parlons uniquement des principaux courants thoriques mis en rapport avec les dbuts de lautomatisation
du langage en France.
34
Lexies composes :
bateau-mouche sous-chef cheval-vapeur
Lexies complexes :
chemin de fer pomme de terre prendre la mouche
Les critres didentification sont de divers ordres. Dun point de vue smantique, le rfrent est stable et unique. Dun point de vue syntaxique1, aucune modification nest possible. Du point de vue interlingue, une lexie simple peut tre traduite par une lexie complexe ou inversement2. Seule lidentification des lexies complexes pose une difficult pour la Traduction Automatique, puisquelles ne sont pas reprables par un indice graphique (Lon, 2004a). La distinction automatique dune lexie complexe davec un syntagme libre est une tche complique, car les aspects formels sont les mmes, comme dans les exemples :
(1) cheval de Jean (2) cheval de course
Lanalyse des lexies chez Pottier laisse merger un dbut de traitement syntaxique, en proposant une
catgorisation qui sapparente la notion de tte en grammaire syntagmatique (Lon, 2004a). Par exemple, plaque tournante est considre comme un substantif parce que cest la catgorie hirarchiquement suprieure (ibid.).
2
Nous retrouvons la problmatique initialement souleve par Bar-Hillel (1955) aborde dans la section 2.1.
35
Dun point de vue morpho-syntaxique, les exemples (1) et (2) sont quivalents ( OM-PREPOM). Pourtant, lexemple (1) constitue une association libre, tandis que lexemple (2) est une lexie complexe. A mi-chemin entre ces deux types de combinaisons, il existe des zones dincertitude sur lesquelles nous reviendrons (ibid.). Selon Pottier, des critres statistiques permettent de dterminer un degr de lexicalisation (ibid.)1.
La notion de synapsie (Benveniste)

Benveniste (1966, 1967) introduit le terme de synapsie afin de dsigner une unit lexicale complexe, compose de plusieurs lexmes, dont le signifi global est unique et constant. Son analyse des synapsies sest opre dans un contexte dtude de nomenclature technique. La synapsie correspond la dfinition traditionnelle de mot compos , introduite de la faon suivante dans le dictionnaire de Linguistique (Gross, 1996) :
On appelle mot compos un mot contenant deux, ou plus de deux, morphmes lexicaux et correspondant une unit significative : chou-fleur, malheureux, pomme de terre sont des mots composs.
Toutefois, pour Benveniste, les synapsies telles que machine coudre sont diffrencier des formes graphiquement soudes, quil nomme conglomrs (du type de justaucorps), ces conglomrs incluant galement les mots-composs au sens traditionnel (timbre-poste) (ibid.). Les synapsies sont proches des lexies de Pottier, mais laccent est davantage port sur la structure syntaxique interne des synapsies (Lon, 2004a). Une synapsie est considre comme la conversion nominale dun nonc prdicatif (ibid.) :
il garde un asile de nuit > gardien dasile de nuit 2
La nature syntaxique des synapsies autorise les expansions (ibid.) :

1
La question de la lexicalisation avait dj t aborde par Bally (1932) (Lon, 2004a). Cette proposition avait dj t aborde dans le Trait de la formation des mots composs de Darmesteter
(1875).
36
[ [gardien dasile] de nuit ]
Benveniste (1966) dcrit la liste des traits caractristiques des synapsies (Drouin, 2002) :
Ce qui caractrise la synapsie est un ensemble de traits dont les principaux sont : 1 la nature syntaxique (non morphologique) de la liaison entre les membres; 2 lemploi de joncteurs cet effet, notamment de et ; 3 lordre dtermin + dterminant des membres; 4 leur forme lexicale pleine, et le choix de tout substantif ou adjectif; 5 labsence darticle devant le dterminant; 6 la possibilit dexpansion pour lun ou lautre membre; 7 le caractre unique et constant du signifi.
La notion de synthme (Martinet)

Martinet (1960, 1967, 1968) oppose le syntagme, dont le choix de combinaison seffectue librement, au synthme. Sur la base de critres syntaxiques, le syntagme est form de deux ou plusieurs monmes1 dont les rapports sont plus troits entre eux que par rapport aux autres lments de lnonc. Le synthme correspond un choix unique du locuteur et regroupe les formes construites par composition, par figement et par drivation (Lon, 2004a) :
lavage entreprendre indsirable pomme de terre
Les monmes sont dits libres dans un syntagme, conjoints dans un synthme. Les constituants du synthme ne peuvent pas recevoir de dtermination, comme dans lexemple (Martinet, 1968) :
1
Selon la terminologie de Martinet, un monme est une unit significative minimale, qui nest pas
ncessairement un segment isolable de lnonc.
37
chaise longue (synthme) chaise plus longue (vs. chaise longue)
Le critre dinsparabilit nest pas obligatoire (Lon, 2001) :

ministre du travail (Synthme) ministre italien du travail
Martinet (1985) pose la dfinition du synthme suivante :

signe linguistique que la commutation rvle comme rsultant de la combinaison de plusieurs signes minima, mais qui se comporte vis--vis des autres monmes de la chane comme un monme unique.
Martinet (1968) aborde des cas o la distinction entre syntagme et synthme pose une difficult. Il cite un exemple qui nappartient pas la mme catgorie en fonction de son emploi :
(1) de jeunes filles sont arrives (2) des jeunes filles sont arrives
Dans la squence (1), jeune fille correspond un syntagme, dans lequel ladjectif jeune modifie le nom fille. Dans la squence (2), il sagit dun synthme, cest--dire un substantif compos (Martinet, 1968)1.
Nous proposons le tableau rcapitulatif, inspir de Lon (2004a) afin de montrer les similitudes et les divergences entre ces courants thoriques. Les lexies de Pottier et les
Martinet (1967) montre que larticle indfini pluriel est de devant un pithte, et des devant un
substantif.
38
synapsies de Benveniste sont proches, tandis que le synthme de Martinet est une notion plus large :
Indsirable
Pomme de terre
Mur du son
Ministre du commerce
Pottier Lexie complexe Lexie complexe -
Benveniste
Synapsie
Martinet
Synthme
Synthme
Synthme
Synthme
Figure 4.
Tableau comparatif des units lexicales complexes
2.4
Locutions et termes complexes
2.4.1 Locutions
Si la notion de mot est rejete par les linguistes, cest parce que ses contours sont difficiles cerner. Dune part, doit-on considrer que les formes suis, es, et est constituent trois mots (Polgure, 2003)? Dautre part, il existe des expressions linguistiques complexes qui, bien que constitues de plusieurs units graphiques, forment une unit lexicale, comme pomme de terre qui renvoie un rfrent. Dun point de vue diachronique, pomme de terre provient de trois units productives mais ces units connaissent un figement lexical. Sur laxe paradigmatique, pomme de terre peut commuter avec une unit lexicale simple telle que patate. La terminologie qui dsigne les units lexicales complexes figes est disparate et a connu un dveloppement foisonnant :
39
Expression fige, Expression idiomatique, Figement, Unit polylexicale, Mot compos, Lexie complexe, Locution, Unit phrasologique (Bally, 1909), Synapsie (Benveniste, 1967), Phrasme complet (Melcuk, et al., 1998), Unit polylexmatique (Corbin, 1997)1
Nous empruntons la terminologie de Polgure (2003) et parlons de locution afin de dfinir les units lexicales complexes figes, en langue gnrale. Selon Polgure (2003), une locution dsigne une lexie2 compose d expressions linguistiques complexes :
Une locution est une lexie regroupant des expressions linguistiques complexes que seule distingue la flexion.
Une locution forme un tout lexical et les lments qui la constituent perdent leur autonomie de fonctionnement : il est impossible dinsrer de nouveaux lments au sein dune locution (ibid.). Polgure (2003) recense les types de locutions :
les locutions nominales :

fruit de mer nid de poule
les locutions verbales :

rouler sa bosse passer tabac
Voir Martins-Baltar (1997) pour une tude de la terminologie des expressions figes (Grossmann et Tutin,
2003).
2
Pour Polgure (2003), une lexie aussi appele unit lexicale, est un regroupement 1) de mots-formes ou 2) de
constructions linguistiques que seule distingue la flexion. Dans le premier cas, il sagit de lexmes, dans le second cas, de locutions .
40
les locutions adjectivales :

daccord en panne
les locutions adverbiales :

au hasard en vitesse
les locutions prpositionnelles :

propos de en regard de
Les locutions sont dotes dune autonomie de fonctionnement et dun degr de cohsion (toutefois variable en fonction du type de locution) (ibid.). Du point de vue de linterprtation smantique, le sens global de la locution ne correspond pas la somme des sens des lments qui la constituent (non-compositionnalit) comme dans lexemple de (ibid.) :
fruit de mer
Mme si le sens peut tre interprt de faon mtaphorique, il ne sagit pas dun fruit qui pousse dans la mer (ibid.). La non-compositionnalit est dautant plus perceptible que lon confronte les locutions au phnomne de traduction. Souvent, la traduction dune locution nest pas littrale (ibid.) :
fruit de mer > seafood
Une locution est associe un sens donn, au mme titre quune unit lexicale simple, et doit bnficier du statut dunit (ibid) :
41
Units lexicales
Unit lexicale simple professeur
Locution fruit de mer
Figure 5.
Types dunits lexicales
2.4.2 Termes complexes

Nous parlons de terme complexe afin de dsigner une locution relative un domaine de spcialit (Daille, 1994). Un terme renvoie un sens spcialis, mais il nest pas ncessairement exclusif au domaine (LHomme, 2005). Selon lOffice de la Langue Franaise, un terme peut tre simple ou complexe et dsigne une notion au sein dun domaine de spcialit (Dubois et al., 1994) (Sgula, 2001). Il est une unit lexicale dont le sens peut tre apprhend et dcrit en fonction des rapports de cette unit avec un domaine de la connaissance humaine (LHomme, 2002). La terminologie ne sintresse quaux termes qui dnotent des objets ou indiquent des notions. Cet aspect exclut les marques dnonciation (pronoms personnels, adjectifs possessifs, adverbes de temps et de lieux), ainsi que les mots grammaticaux (ibid.). La discipline qui tudie les termes complexes est la terminologie, dont la tche est de dcrire la structuration de la connaissance spcialise, en tudiant son systme de dsignation, ainsi que les units conceptuelles auxquelles il renvoie.
La thorie gnrale (ou traditionnelle) de la terminologie a t fonde par Wster, ingnieur autrichien, la fin des annes trente, dans la mouvance du Cercle de Vienne. Elle dfinit le terme comme le reprsentant linguistique dun concept dans un domaine de connaissances (Felber, 1987) (Bourigault et Jacquemin, 2000). La vision adopte est normalisatrice et prsente quelques limites (Drouin, 2002). Elle pose une relation biunivoque avec la notion quil dsigne, cest--dire quun terme ne correspondrait qu une seule notion et que chaque notion ne pourrait tre dsigne que par un seul terme. La biunivocit est une utopie : il existe des phnomnes de polysmie et de synonymie qui la remettent en cause. Lorsquun terme est polysmique, il renvoie plusieurs rfrents, y compris au sein dun mme domaine. Par
42
exemple1, dans le domaine de lagriculture, le terme agneau peut dsigner lanimal sur pied ou la viande dagneau . Un terme peut connatre des synonymes, et dautres termes peuvent renvoyer une mme notion. Par exemple1, dans le domaine de linformatique, les termes logiciel, programme et software peuvent tre considrs comme synonymes. Pour la thorie gnrale de la terminologie, les notions sont considres comme des entits conceptuelles, et cet aspect prime sur leur reprsentation linguistique par le biais des termes, considrs comme de simples variables (Wster, 1981) (Drouin , 2002). La dmarche adopte est onomasiologique : elle consiste partir de la notion pour trouver le terme qui lui correspond. Nous prfrons favoriser laspect textuel des termes (dmarche smasiologique). Enfin, lanalyse se situe traditionnellement au niveau du terme seul. Cette vision semble rductrice, car elle ne sintresse pas au niveau syntaxique se situant au-del du mono-terme. Dans nos travaux, nous montrons que les units lexicales complexes sont fondamentales.
2.4.3 Critres dfinitoires

Malgr les nombreuses dfinitions proposes, le terme reste difficile identifier dans les textes. Nous prsentons les principaux critres didentification du terme relevs dans la littrature.
Critre formel (morpho-syntaxique)

Les termes complexes obissent des rgles syntaxiques relativement stables, quil est possible de dcrire afin didentifier des candidats termes (Daille, 1994). Les structures peuvent tre apprhendes en fonction des units qui peuvent ou non les composer et des joncteurs qui relient ces units (Drouin, 2002). Le critre syntaxique seul ne permet pas de discriminer une combinaison libre dun terme pertinent. Pour une mme structure, le statut terminologique nest pas le mme (ibid.) :
(1) Il utilise un langage de programmation
http://wall.jussieu.fr/~cjuilliard/cours3_deb.htm
43
(2) Il parle cette fille de programmation
Les phrases (1) et (2) contiennent la mme structure syntaxique ( OM-PREP- OM), mais seule la phrase (1) contient un terme complexe. Les limites de dcoupage ne sont pas toujours videntes identifier. A la gauche du terme complexe, la prsence dun dterminant constitue un indice de limite efficace. Mais la limite reste plus dlicate fixer du ct droit (Guilbert, 1965, Boulanger, 1979, Drouin, 2002). Les structures syntaxiques sont parfois rcursives et il nest pas possible de dcrire dune faon exhaustive de tels phnomnes de rcursivit. Une autre difficult concerne les ambiguts de dcoupage. Considrons le syntagme suivant (Kocourek, 1991) (Drouin, 2002):
Gardien dasile de nuit
Deux dcoupages peuvent tre envisags :

[ [ Gardien dasile ] de nuit ] [ Gardien [ dasile de nuit ] ]
Les critres formels ne permettent pas de pallier ce type dambigut. Un indice pourrait tre des caractristiques graphiques, telles que la prsence de guillemets, ou encore typographiques (gras, italique, etc.). Toutefois, ces indices sont faiblement prsents par rapport aux cas dambigut.
Critre fonctionnel (smantique)

La proprit smantique (fonction de lunit complexe au sein du domaine) est un critre didentification dun terme pertinent par rapport un groupe nominal. Un terme dsigne une notion au sein du domaine, dune faon permanente (Daille, 1995). Ce critre reste difficile valuer, notamment pour des non-experts. Une possibilit est la confrontation des termes dans une langue trangre (ibid.). Le critre fonctionnel fait appel des connaissances gnrales sur le monde et sur le domaine de spcialit. Le test de linsertion constitue un indice de
44
lexicalisation : il nest pas possible dinsrer un nouvel lment au sein des termes complexes (Guilbert, 1965) (Drouin, 2002).
Critre quantitatif
Un autre critre concerne la frquence dapparition de loccurrence dans les textes. Les calculs de frquence doivent prendre en considration non seulement la frquence de loccurrence, mais lenvisager en fonction de sa rpartition dans lensemble des textes.
Critre pragmatique
Certains auteurs proposent de dcrire le terme en apprhendant sa caractristique pragmatique : un terme napparat que dans des contextes prcis, gnralement dans des textes de spcialit (Drouin, 2002). Selon Pearson (1998), les termes sont utiliss dans certaines situations de communication (Drouin, 2002) :
(1) expert/expert (2) expert/initi (3) pseudo-expert/non initi (4) enseignant/lve
De tels contextes sont propices lutilisation dune terminologie relativement stable (ibid.).
Nous empruntons Daille (1995) un rcapitulatif des critres didentification du terme complexe :
Dun point de vue formel, il doit appartenir une structure morpho-syntaxique prcise.
Il doit appartenir un domaine de spcialit, et faire partie intgrante dun vocabulaire
technique.
45
Dun point de vue fonctionnel, il doit possder une traduction unique.
Dun point de vue statistique, il doit apparatre dans les documents textuels un nombre
significatif de fois.
Aucun des critres ne permet dtre compltement systmatis. Ils doivent tre envisags dans leur globalit (Drouin, 2002), mais le statut terminologique de lunit ne peut jamais tre une certitude, sans une tape de validation humaine. Le critre essentiel semble tre la relation univoque du terme avec lobjet (Bourigault, 1994). Nous mettrons par la suite ces critres en confrontation avec un autre phnomne de combinaison lexicale prfrentielle dont les caractristiques sont proches, les collocations.
2.5 Collocations
Certains mots prsentent des affinits et apparaissent frquemment ensemble, sans constituer des locutions figes. Nous parlons de caf fort en franais, de strong coffee en anglais. Ces combinaisons lexicales, bien que prfrentielles, ne sont pas totalement figes et peuvent parfois subir des modifications syntaxiques :
Un caf trs fort Ce caf est fort
Ce type daffinit constitue un phnomne idiomatique, qui nest pas uniquement dtermin par le smantisme des constituants et qui varie dune langue lautre. Afin dexprimer le mme sens, nous ne pouvons pas employer une autre combinaison lexicale dont le smantisme correspondrait :
* powerful coffee
46
La co-occurrence nest pas acceptable dun point de vue idiomatique. Les collocations1 constituent un phnomne non ncessairement contigu, avec un degr de figement lexical moins contraint que pour les locutions. Si les locutions doivent avoir le mme statut syntagmatique quune lexie simple, il nen va pas de mme pour les collocations, qui doivent tre recenses partir de la tte smantique (on parle de la base dune collocation et de collocatif pour son co-occurrent, pour reprendre la terminologie dHausmann (1989, 1997)). Il est parfois possible de substituer un lment dune collocation par un synonyme, mais la combinaison est ressentie comme moins (ou pas du tout) approprie (Nerima et al., 2006) :
exercer vs. pratiquer une profession
Les collocations constituent un intermdiaire entre les expressions figes et les combinaisons libres (Tutin et Grossmann, 2002)2. Elles sont souvent considres comme transparentes en rception (le sens se devine ) alors que pour un locuteur non-natif, le choix des termes produire ne va pas de soi (ibid.). Avant danalyser les critres dfinitoires des collocations, nous introduisons les deux tendances principales qui envisagent le phnomne.
2.5.1 Approche statistique

Bien quil ne lait pas dfini dune faon prcise, Firth est considr comme lun des premiers avoir introduit le concept de collocation afin de dsigner deux ou plusieurs mots qui apparaissent frquemment ensemble, dans un voisinage proche (Firth, 1951) :
You shall know a word by the company it keeps
1
Le terme de collocation est dusage courant en anglais, mais dutilisation rcente en franais (Grossmann et
Tutin, 2003). La littrature prsente une terminologie disparate et souvent floue. Certains parlent de prfrences lexicales (Wilks, 1975), de restrictions de slection (Katz et Fodor, 1964), de semi-phrasme (Melcuk et al., 1995, Melcuk, 1998) ou encore de collocations (Benson, 1990, Smadja, 1993, Cruse, 1986).
2
Melcuk (2003) parle galement de locution semi-fige afin de mettre en valeur cet aspect
intermdiaire .
47
Ce phnomne a t tudi dans le cadre dune premire approche, contextualiste : le sens dun mot doit tre tudi en fonction des mots avec lesquels ils co-occurrent. Cette approche suit la tradition de Firth, puis de fonctionnalistes anglais tels que Halliday et Sinclair. La notion de co-occurrence habituelle nest toutefois pas sans poser des difficults. Que doit-on entendre par habituel, frquent (Williams, 2001) ? Le critre de la frquence se mesure dans de nombreux travaux par lapplication de formules statistiques partir de vastes corpus, favorise par la disponibilit de textes au format lectronique (Church et Hanks, 1990, Smadja et McKweown, 1991, Smadja, 1993). Lide est de collecter les combinaisons lexicales qui apparaissent ensemble plus frquemment que par pur hasard (Smadja, 1993). Il existe de nombreuses mesures dassociation permettant didentifier les co-occurrences les plus frquentes dans une collection de textes1. Les deux courants les plus employs sont le tscore et linformation mutuelle. Lalgorithme t-score mesure le degr dassociation entre deux lments, en faisant merger les combinaisons de frquence leve (Clear 1993, Dubreil, 2008) :
by identifying frequent and very reliable collocations, offers the lexicographer a semantic profile of the node word and a set of particular fixed phrases, grammatical frames and typical stereotyped combinations
Linformation mutuelle fait merger des co-occurrences aux frquences plus faibles (Church et Hanks, 1990, Dubreil, 2008) :
compares the probability of observing x and y together (the joint probability) with the probabilities of observing x and y independently (chance)
Mme si des outils statistiques peuvent tre utiles pour lextraction automatique, le seul critre statistique est discut afin de dcrire le phnomne collocatif. Les rsultats sont dpendants de paramtres tels que la taille du corpus (Nerima et al., 2006) ou le type de mesure adopt (Williams, 2001). Certaines collocations napparaissent quun nombre rduit de fois dans les corpus (Thoiron et Bjoint, 1989). A lchelle du Web, la collocation lire un
Daille (1994) tablit une liste des diffrents types de mesures adoptes.
48
livre apparat 227 000 fois dans les pages franaises indexes par le moteur de recherche Yahoo1. La collocation lire une revue apparat 2140 fois. Doit-on conclure que lire un livre est plus remarquable? Mme si le critre de la frquence est important, il nest pas suffisant afin danalyser les contraintes lexicales. Selon Williams (2001), les mesures statistiques permettent de collecter des collocations candidats qui doivent ensuite passer par une validation humaine. Haussman (1997) dclare que tout est idiomatique , parce quil est dlicat de fixer une limite entre les combinaisons significatives et les combinaisons banales et que cette limite se situe certainement sur un continuum (Williams, 2001). Si Clas (1994) affirme quune collocation est une unit de la langue , cest parce quil existe des affinits smantiques entre les mots que le seul critre de frquence ne dcrit pas.
2.5.2 Approche linguistique

La tradition lexicologique (Cruse 1986) et lexicographique (Hausmann 1989, Melcuk 1998) envisagent une conception restreinte de la collocation dfinie comme une association lexicale syntagmatique restreinte entre deux lments entretenant une relation syntaxique. Dans la ligne de la formalisation labore par Melcuk (1998), Tutin et Grossmann (2002) posent la dfinition de la collocation suivante :
Une collocation est lassociation dune lexie (mot simple ou phrasme2) L et dun constituant C (gnralement une lexie, mais parfois un syntagme par exemple couper au couteau dans un brouillard couper au couteau) entretenant une relation syntaxique telle que : C (le collocatif) est slectionn en production pour exprimer un sens donn en cooccurrence avec L (la base). Le sens de L est habituel.
Cette approche met laccent sur les paramtres syntaxiques et smantiques des collocations. Tutin et Grossmann (2002) montrent que cette dfinition ne permet pas de rsoudre le
Juin 2008. Locution fige dans la terminologie de Melcuk.
49
caractre htrogne des phnomnes collocatifs et proposent une typologie plus fine que nous dcrivons dans la section (2.6).
2.5.3 Critres dfinitoires

La littrature abonde de travaux sur les collocations, mais peu de critres font lunanimit. Ceux-ci sont fluctuables en fonction des collocations et aucun ne peut tre appliqu lensemble de la classe. Bien que le concept soit difficile formaliser et que les caractristiques varient selon les auteurs, nous analysons les critres dfinitoires les plus significatifs.
Critre de larbitraire
Benson (1990) parle d An arbitrary and reccurrent word combination , afin de souligner le caractre arbitraire des collocations. Selon Mel'cuk et al. (1995), il sagit dune association de mots conventionnelle qui doit tre apprise telle quelle, et quil nest pas possible de prvoir partir du sens des mots qui la composent. Malgr le caractre transparent de certaines collocations, ainsi quune part de motivation smantique1, les collocations ne sont pas prdictibles2. Par exemple, la pluie est torrentielle, tandis que les prcipitations ne le sont pas (Tutin et Grossmann, 2002), la preuve en est la diffrence entre les langues. Ce nest quen les comparant que nous saisissons lampleur du phnomne (Hausmann, 1989) : le sens des constituants est altr dans des contextes lexicaux prcis. Par exemple, la pluie est forte en franais, mais lourde (=heavy rain) en anglais (Melcuk, 1997). Cette caractristique met en vidence limportance dun recensement des collocations : un apprenant qui ne matrise pas une langue trangre ne dispose daucun moyen pour prdire ces dernires. Il en va de mme pour la Traduction Automatique : on ne peut gure esprer de telles connaissances
1
Certains travaux ont montr quil est possible de gnraliser des contraintes de slection des ensembles de
mots cls smantiquement apparents (Melcuk et Wanner, 1996, LHomme, 1998).

2
Il faut exclure du caractre arbitraire laspect syntaxique, car les collocations suivent des patrons morpho-
syntaxiques prcis.
50
idiomatiques dune machine. Laspect arbitraire est un indice quant au degr de signification des collocations, et permet de distinguer celles qui se traduisent librement, de celles qui ncessitent une connaissance idiomatique. Les slections de restriction collocationnelles peuvent varier dune langue lautre, et une collocation dans une langue peut tre un syntagme libre dans une autre (Williams, 2001).
Critre de la transparence
Malgr le caractre arbitraire des collocations, le sens reste interprtable (Cruse, 1986, Hausmann, 1989). Cet aspect ne peut pas tre gnralis tous les cas. Certaines collocations ne sont pas totalement transparentes telles que peur bleue ou colre noire (Tutin et Grossmann, 2002). Les collocations ne conserveraient pas une totale autonomie de sens et seraient majoritairement semi-compositionnelles : le sens du mot-cl reste le mme, mais le co-occurrent acquiert un sens diffrent (LHomme, 1998). Il est prfrable de dissocier la production et la rception dune collocation : le sens se devine , tandis quil est impossible pour un locuteur non-natif de produire la collocation adquate. Pour la Traduction Automatique, ce critre compositionnel est essentiel. Par exemple, peur bleue ne peut pas tre traduite de faon littrale, mais se traduit par bad fright ou bad scare.
Critre binaire
Les collocations sont considres, le plus souvent, comme tant constitues de deux lments, dont le statut nest pas le mme : il y a collocation lorsquun locuteur, voulant produire un sens donn, va slectionner un co-occurrent de faon non libre, partir dune base donne.
Critre de la dissymtrie (co-occurrence restreinte)

La base est considre comme autonome car elle conserve son sens habituel, tandis que le collocatif dpend de la base (Haussmann, 1979, 1989, Melcuk, 2003). Par exemple, dans la collocation peur bleue, la base peur conserve son sens habituel, tandis que le collocatif bleue acquiert un sens diffrent de son sens habituel, dans ce contexte lexical prcis. La collocation
51
nest pas libre, mais apparat comme une co-occurrence restreinte. A partir du choix de la base, seuls certains co-occurrents peuvent se combiner. Ainsi, pour produire le sens intense , associe la lexie peur, le co-occurrent va tre bleue.
2.5.4 Recensement et formalisation

Le recensement des collocations dun point de vue monolingue a donn lieu divers ouvrages dont nous citons les plus courants, lun pour la langue anglaise, le BBI Dictionary of English Word Combinaison (Benson et al., 1986), lautre pour la langue franaise, le Dictionnaire Explicatif et Combinatoire du franais contemporain (Melcuk et al. 1984, 1988, 1992, 1999). Dun point de vue bilingue, nous prsentons le projet PAPILLO .
BBI Dictionary of English Word Combinaison

Le BBI Dictionary of English Word Combinaison (Benson et al., 1986) est un dictionnaire de collocations en anglais, regroupant 18 000 entres et 90 000 collocations. Deux types de collocations sont recenses :
la collocation grammaticale (ou colligation) est dfinie comme la co-occurrence dun terme dominant, tel quun nom, adjectif, participe ou verbe, et dune prposition, comme par exemple (Williams, 1999) :
depend on dependence on
Les collocations lexicales combinent plusieurs mots pleins . Elles peuvent se prsenter sous diffrentes structures syntaxiques : verbe et nom, adjectif et nom, nom et verbe, nom et nom, adverbe et adjectif, adverbe et verbe.
52
Dictionnaire explicatif et combinatoire du franais contemporain (DEC)

Le Dictionnaire Explicatif et Combinatoire du franais contemporain (DEC) (Melcuk et al. 1984, 1988, 1992, 1999) est un dictionnaire de langue qui vise reprsenter toutes les connaissances permettant demployer un mot : description smantique (dfinition), syntaxique (rgime) et cooccurentielle (Fonctions Lexicales). Il comporte environ un millier dentres (noms, verbes, adjectifs, adverbes). Un article du DEC se compose de trois zones majeures :
Zone phonologique
Zone smantique
Zone de combinatoire :
Stylistique (contexte textuel, comme par exemple, littraire , familier , etc.) ;
Morphologique (partie du discours, dclinaison, formes irrgulires, etc.) ;
Syntaxique ;
Lexicale restreinte : le DEC indique les substitutions smantiques possibles sur le plan paradigmatique (synonymes, antonymes, etc.). La modlisation de ces informations smantiques sappuie sur la notion de Fonction Lexicale (FL) propose par (Melcuk, 1997) :
Lexpression [dun] sens peut tre dcrite par une fonction (au sens mathmatique du terme) f qui associe, tout x pour lequel ce sens peut tre exprim, tous les y possibles : f(x) = y.
Par exemple, pour la fonction intensit (trs), nous prsentons trois lexies x laquelle sont associes des co-occurrents :
53
tres(malade) = {trs, gravement} tres(pleurer) = {amrement, chaudes larmes, comme une madeleine} tres(pluie) = {grosse, diluvienne, violente}
La lexie x est nomme largument de f, et lensemble de ses co-occurrents constitue sa valeur. Dans lexemple cit, la Fonction Lexicale est modlise par trs. Les arguments sont malade, pleurer et pluie. Les valeurs sont trs, gravement, amrement, chaudes larmes, etc. Dans la thorie Sens-Texte, Melcuk (1997) propose un modle formel de la description smantique dune langue. Il distingue deux niveaux de modlisation des phnomnes smantiques :
- Choix lexicaux paradigmatiques : Melcuk (1997) dcompose le sens des lexies. Prenons la phrase suivante :
Je crois que Pierre est venu, mais je nen suis pas certain.
La dcomposition smantique de cette phrase sexprime de la faon suivante (ibid.) :

Je crois que Pierre est venu, mais [tout] en ayant la croyance Pierre est venu , | je suis dispos admettre que Pierre nest pas venu.
Ces rgles formelles constituent des dfinitions lexicographiques des lexies cites, ce sont des dcompositions smantiques, ou des formules molculaires du sens (ibid.).
- Choix lexicaux syntagmatiques : il sagit des collocations. La lexicographie explicative et combinatoire sappuie sur lide que les phnomnes de co-occurrence font appel un nombre restreint de sens gnralisables. Par exemple, le sens bon (tel que le locuteur lapprouve) ne sexprime pas dune faon libre, mais dpend de la lexie utilise (ibid.) :
Bon(conseil) = prcieux Bon(temps) = beau
54
Bon(choix) = heureux Bon(se porter) = comme un charme
Toutes les expressions qui slectionnent cette notion smantique connaissent des contraintes qui en font des collocations. Ces sens gnraux constituent des FL. Les FL prsentent deux proprits essentielles (ibid.) : elles sont peu nombreuses (une soixantaine) et elles sont universelles , car elles existent dans toutes les langues. Par ailleurs, lanalyse smantique ne doit pas tre trop pousse , trop nuance ( Melcuk, 1988) :
Le rglage de cet instrument, cest--dire le degr de prcision ou de rsolution exig, doit tre appropri la tche ; cela veut dire, entre autres, que le chercheur ne doit pas tre trop prcis dans sa recherche des nuances smantiques.
La thorie de Melcuk (1997) prsente nanmoins certaines limites. Bien que certaines FL soient gnralises, il nen va pas de mme en ce qui concerne les langues de spcialit, et certains cas semblent plus isols et de fait, moins efficaces . Fontenelle (1996) souligne que :
Pour formaliser le discours spcialis utilis pour parler dun terme donn, les thories de Melcuk ne sont probablement pas les plus appropries parce quelles ne permettent de coder que les relations standard de la langue gnrale et les langues de spcialit ont le plus souvent recours des relations trs spcifiques.
Ensuite, cette classification peut se prsenter utile dun point de vue scientifique, mais elle ne se rvle pas trs accessible pour un utilisateur. Cest pour cette raison que deux versions simplifies telles que le DAFLES (Verlinde et al., 2003) et DiCo (Polgure, 2000a, 2003, 2005) ont t proposes. Dans cette ligne, le projet intitul le Lexique Actif du Franais (LAF) (Polgure, 2000b) vise une vulgarisation du DEC pour le grand public.
55
Projet Papillon
Le projet Papillon1 est une ressource collaborative qui vise crer un environnement multilingue de recherche dictionnairique en ligne, comprenant entre autres l'anglais, le franais, le japonais, le malais, le lao, le tha et le vietnamien. Il sappuie sur des ressources existantes, lobjectif tant de rassembler un maximum de ressources de faon cooprative. La base lexicale distingue trois niveaux diffrents pour la gestion des dictionnaires existants : les limbes, le purgatoire et le paradis (Mangeot, 2002). Les limbes sont constitues de dictionnaires stocks dans leur format original. Le purgatoire ne contient que des dictionnaires au format XML mais ayant leur structure dorigine. Le paradis contient les volumes consituant le dictionnaire Papillon. La macrostructure du dictionnaire est une structure pivot avec un volume monolingue pour chaque langue et un volume pivot au centre (Mangeot et al., 2003). La microstructure des articles est base sur la lexicographie explicative et combinatoire issue de la thorie sens-texte (Melcuk, 1997) (ibid.). Voici un exemple de traductions de collocations pour lentre appareil du franais vers langlais :
Figure 6.
Traductions de collocations dans le projet Papillon
http://www.papillon-dictionary.org/
56
2.6 Indices de figement

Entre les associations libres du type de pomme de Jean et les locutions figes telles que pomme dAdam, il existe divers degrs de figement, laissant place des zones dincertitude1. Par exemple, la locution crise de croissance, sans tre une squence libre, autorise des critres de sparabilit comme dans le cas de (Lon, 2004a) :
crise aigu de croissance
Les deux principaux degrs de figement entre les locutions et les collocations ont t mis en vidence pour la premire fois par Bally (1909), sous lappellation d units phrasologiques (locutions) et de groupements usuels (collocations) (Grossmann et Tutin, 2003). Au-del de cette distinction, Tutin et Grossman (2002) montrent que les critres dfinitoires ne sappliquent pas toute la classe collocationnelle et proposent une typologie plus fine. Les units lexicales complexes doivent tre envisages sur un continuum, plutt que de considrer des frontires nettes pour chaque catgorie. Nous proposons une analyse contrastive de ces phnomnes, en esprant, sinon tablir des frontires nettes, du moins claircir les diffrentes ralits de combinatoire lexicale et proposer une typologie plus fine en fonction des critres de figement et envisager des traitements de traduction adapts.
2.6.1 Opacit smantique

Le principe de compositionnalit dsigne le fait que le sens dun tout est une fonction du sens de ses parties et de la faon dont elles se combinent (Bouillon, 1998). Lorsquune unit lexicale complexe est compositionnelle, la signification globale est gale la somme du sens de ses constituants. Daprs Gross (1996), il existe trois types dopacit smantique pour les combinaisons de termes :
Lopacit peut-tre totale, cest--dire quaucun des constituants ne conserve son sens habituel (Gross, 1996) :
Fontenelle (1997) appelle cette zone floue fuzzy area .
57
cl des champs
Lopacit peut tre partielle, cest--dire que seul lun des deux constituants perd son sens habituel (ibid.) :
cl anglaise
Lopacit peut tre absente et le sens est alors transparent (ibid.) :

cl neuve
Les units lexicales complexes ne sont pas, le plus souvent, interprtables en dcomposant le sens habituel de ses lments, mais les caractristiques sont variables. En ce qui concerne les locutions, la combinaison nest jamais totalement transparente, mais il arrive que le sens soit mtaphorique. En ce qui concerne les collocations, Tutin et Grossmann (2002) proposent une typologie en fonction de leur degr de figement et du paramtre de la compositionnalit. Nous empruntons Grossmann et Tutin (2003) une typologie des locutions et des collocations du plus au moins fig.
Locutions figes opaques

Les locutions figes opaques dsignent des locutions dont le sens est totalement opaque, comme par exemple (Grossmann et Tutin, 2003) :
cordon bleu
Dans cette combinaison aucun des lments na conserv son sens habituel.
58
Locutions figes images

Les locutions figes images 1 sont celles dont le sens reste analysable par mtaphore ou par mtonymie, bien que lassociation soit imprdictible (Grossmann et Tutin, 2003) :
il de buf
Collocations opaques
Les collocations opaques sont celles dans lesquelles le sens du collocatif prend un sens diffrent que son sens habituel. Lassociation est arbitraire, et seule la base conserve son sens habituel. Sur le plan smantique, la collocation est non transparente (Tutin et Grossmann, 2002) :
peur bleue
Ici, ladjectif bleu ne dsigne pas une couleur mais marque lintensit de la peur (Tutin et Grossmann, 2002). Les collocations opaques sont celles qui sont les plus proches des locutions du point de vue du figement.
Collocations transparentes
En ce qui concerne les collocations transparentes, le sens est interprtable, mais le codage de la collocation nest pas prdictible, comme par exemple (Tutin et Grossmann, 2002) :
faim de loup
Cowie (1981, 1998) parle de figurative idioms (Grossmann et Tutin, 2003).
59
Mme si le sens de faim de loup est interprtable, une connaissance idiomatique est ncessaire pour produire cette collocation.
Collocations rgulires
Dans le cas des collocations dites rgulires , lassociation est motive et transparente. En gnral, le collocatif inclut le sens de la base ou a un sens trs gnrique, comme par exemple (Tutin et Grossmann, 2002) :
grande tristesse
Les collocations rgulires sont celles qui sont les plus proches des expressions libres. Du point de vue de la traduction automatique, cette typologie peut constituer une aide la classification des phnomnes. Mme si le critre dopacit nest pas le mme entre les langues, il doit tre pris en compte, en intgrant des caractristiques interlingues cette typologie. Cest ce que nous proposons dans notre mthodologie.
2.6.2 Proprits transformationnelles

Si les locutions sont ncessairement contiges et ne peuvent pas subir de transformations syntaxiques, le cas des collocations nest pas gnralisable. Certaines collocations connaissent un figement syntaxique, contrairement dautres qui sapparentent presque des associations libres. En ce qui concerne les proprits transformationnelles, un syntagme compos dun nom et dun adjectif peut traditionnellement faire lobjet de transformations
syntaxiques Gross (1996) :

Un livre difficile La difficult de ce livre Ce livre est difficile
60
Ce type de transformation est compltement impossible avec les locutions (ibid.) :

Un cordon bleu *Le bleu de ce cordon *Ce cordon est bleu
Le cas des collocations est moins gnralisable et les critres de transformation ne peuvent pas sappliquer lensemble de la classe. Certaines collocations autorisent des transformations syntaxiques proches des syntagmes libres :
Une grande tristesse La grandeur de cette tristesse Cette tristesse est grande
Dautres collocations autorisent certaines transformations, mais pas dautres :

Un caf noir *La noirceur de ce caf Ce caf est noir
Enfin, certaines collocations nautorisent aucune transformation et sont proches du fonctionnement des locutions :
Une peur bleue *Le bleu de cette peur *Cette peur est bleue
61
2.6.3 Critre rfrentiel (Libre actualisation)

Lorsquune unit lexicale complexe nest pas fige, le co-occurrent constitue une modification du nom. Prenons le syntagme libre suivant :
pull-over bleu
Ladjectif pithte bleu modifie le nom pull-over et lui apporte une caractrisation. En revanche, lorsque la squence est fige, elle fonctionne comme un tout et le co-occurrent ne constitue pas une modification. Le critre rfrentiel est un critre dfinitoire qui sapplique lensemble de la classe des locutions. Les locutions ont une dtermination globale, et chaque lment ne peut pas tre dtermin sparment (Gross, 1996). Pour reprendre lexemple de cordon bleu, le rfrent auquel renvoie la locution nest pas un cordon auquel on apporte une modification, mais lensemble de la locution fait rfrence au signifi cordon bleu .
Si la non possibilit de libre actualisation concerne lensemble de la classe des locutions, il nen va pas de mme pour les collocations, o seulement une partie de la classe rpond au critre, qui est plus dlicat utiliser (Tutin et Grossmann, 2002). Tous les collocatifs nattribuent pas la mme valeur rfrentielle la collocation (ibid.). Certains collocatifs ont une valeur qualifiante, comme dans lexemple de (ibid.). :
clibataire endurci
Ladjectif endurci qualifie le substantif clibataire et la valeur rfrentielle de lensemble de la collocation est opposer celle dune locution. Toutefois, il arrive que certains collocatifs aient une valeur typante (ibid.). Reprenons lexemple suivant (ibid.) :
caf noir
Le collocatif noir, bien quil indique une proprit du caf, fait aussi rfrence un type particulier de caf. De telles collocations peuvent tre perues comme des units rfrentielles tandis quelles sont semi-compositionnelles dun point de vue smantique (ibid.).
62
2.6.4 Degr de figement

Le figement bloque le plus souvent la possibilit de paradigmes synonymiques. Toutefois, cette caractristique ne sapplique pas lensemble des units lexicales complexes. Certaines locutions acceptent une possibilit de paradigme, comme dans lexemple (Gross, 1996) :
vin rouge vin blanc vin gris
Ces locutions connaissent une opacit smantique, mais une prdication nest pas possible. Dautres locutions connaissent un sens transparent, comme dans le cas de (Gross, 1996) :
fait historique
Toutefois, certaines modifications syntaxiques sont possibles, et pas dautres :

ce fait est historique un fait dhistoire *un fait trs historique
2.7 Conclusion
Malgr limportance des units lexicales complexes et malgr labondance de la littrature traitant du phnomne, les critres de dfinition des locutions et des collocations ne sont pas gnralisables. Afin de dissocier une collocation dune locution, le degr de figement doit tre envisag sur un continuum. Aux extrmits de ce continuum, deux ples doivent tre distingus :
63
une collocation est constitue dun terme, accompagne dun co-occurrent qui le
qualifie comme dans lexemple :

pluie diluvienne
Le nom pluie dsigne une notion en mtorologie, quon qualifie comme tant diluvienne.
une locution (ou un terme complexe) dsigne en lui-mme une notion :

autan blanc
Ici autan blanc renvoie une seule notion ( savoir le vent ), et ladjectif ne caractrise en rien la couleur du vent mais fait partie intgrante du terme. Toutefois, au-del des cas extrmes , les frontires entre les locutions et les collocations restent floues et il est prfrable denvisager les deux phnomnes sur un continuum, du plus au moins fig :
Locutions
(Zone dincertitude)
Collocations
(Zone dincertitude)
Syntagmes libres
Entre chacune des notions, des zones dincertitude sont prsentes. Une typologie plus fine au sein de chaque classe est ncessaire pour proposer des traitements adapts. Considrons sur un axe les diffrents types de locutions et de collocations en fonction du critre de lopacit smantique, du plus au moins opaque :
64
Locutions opaques (cordon bleu)
Locutions images (il de buf)
Collocations opaques (peur bleue)
Collocations transparentes (faim de loup)
Collocations rgulires (grande tristesse)
Le figement et lopacit des units lexicales complexes va constituer un critre essentiel dans notre mthodologie de traduction. Dans le chapitre suivant, nous prsentons les travaux traditionnels de traitement automatique des units lexicales complexes.
3. Traitement automatique des units lexicales complexes
65
Chapitre 3.
Traitement automatique des units
lexicales complexes
3.1 Introduction
Lacquisition automatique de traductions dunits lexicales complexes se heurtent diffrentes difficults (Morin et al., 2004).
Polysmie des units lexicales

Lorsque plusieurs traductions sont possibles pour une unit lexicale en fonction de son usage, la slection de la traduction adquate fait appel des connaissances gnrales sur le monde que lon ne peut gure esprer dune machine. Par exemple, le nom appareil compte douze traductions dans notre dictionnaire bilingue Collins Pocket. Le recours aux contextes des units sources et cibles peut tre un lment pour la rsolution de lambigit lexicale : appareil mnager, appareil digital, etc.
66
Dcoupages smantiques diffrents

Mme pour des langues proches telles que le franais et langlais, il nexiste pas de parfaite quivalence de sens entre les mots dune langue lautre. Une conception nave consisterait penser que la langue serait comparable un rpertoire de mots chacun correspondant une chose. Il sagirait de proposer une nomenclature en langue cible quivalente la langue source. En ralit, les langues possdent chacune un dcoupage smantique qui lui est propre (Saussure, 1916, Martinet, 1960). Si les dcoupages smantiques peuvent parfois tre les mmes (comme lexemple de souris qui en franais dsigne lusage A IMAL ou lusage I FORMATIQUE, de la mme faon que pour langlais mouse), ce nest pas systmatiquement le cas. Par exemple, en anglais, le mouton (A IMAL), sheep est distingu du mouton (VIA DE), mutton (Saussure, 1916).
Idiosyncrasie
Les collocations, mme lorsquelles conservent une part de motivation smantique, se situent principalement du ct des aspects idiosyncrasiques de la langue, plutt que de celui des rgularits (Grossmann et Tutin, 2003).
on quivalence de longueur de la combinatoire

Les termes complexes ne se traduisent pas ncessairement par une combinaison de mme longueur :
Un terme complexe en franais peut tre traduit par un terme simple en anglais, ou inversement :
coup de pied > kick appareil photographique > camera
Parmi les termes complexes, la longueur peut varier (Morin et al., 2004) :
67
essence dombre > shade tolerant species
Cette difficult est dcrite sous le terme de fertilit dans les travaux de (Brown et al., 1993). Cette caractristique est rarement prise en compte dans les travaux de traduction de termes complexes, une traduction mot mot tant la plus souvent adopte (Morin et al., 2004).
on compositionnalit
La traduction dune unit lexicale complexe nest pas systmatiquement traduite par la somme de ses composants (Melamed, 2001). Par exemple, caisse claire est traduite par kick drum, ou kick nest pas la traduction littrale de claire.
Variations linguistiques
Une mme combinaison lexicale peut se prsenter sous diffrentes formes suite des variations morphologiques, syntaxiques ou smantiques, et doivent tre prises en compte dans le processus de traduction (Morin et al., 2004). Par exemple, les termes complexes amnagement de la fort et amnagement forestier sont traduits par le mme terme anglais forest management.
Trous lexicaux
Il arrive quune unit lexicale au sein dune langue source nait pas une quivalence exacte en langue cible. Par exemple, en anglais, il nexiste pas une traduction littrale de forcer un barrage, la traduction dpend du contexte situationnel :
to drive through a roadblock to run through a roadblock, etc.
68
Mthodes traditionnelles de traduction

Les mthodes dacquisition automatique de termes partir de textes, quil sagisse de corpus parallles ou de corpus comparables, sappuient gnralement sur deux phases plus ou moins dpendantes lune de lautre :
une extraction monolingue des units lexicales complexes en langue source dune part et en langue cible dautre part.
un alignement ou une mise en correspondance des units lexicales complexes.
Dans un premier temps, nous prsentons les techniques dextraction de terminologie monolingue, les principaux courants et les travaux existants (3.2). Si la frontire entre les locutions et les collocations nest pas nette et doit tre envisage sur un continuum, il en va de mme pour la tche dextraction automatique. Les mthodes didentification automatique de locutions et de collocations restent sensiblement les mmes (LHomme, 2001) :
Notons que les cloisons entre extracteurs de collocations et extracteurs de termes ne sont pas tanches : les extracteurs de collocations relvent des termes complexes ; les extracteurs de termes complexes relvent forcment des collocations.
Nous dcrivons ensuite les techniques dalignement, quil sagisse de mthodes partir de corpus parallles ou partir de corpus comparables. Malgr des techniques bien rodes, les corpus parallles restent des ressources rares. Les corpus comparables, plus faciles daccs, prsentent plus de difficults pour mettre les termes en correspondance. Nous prsentons ces mthodes traditionnelles (3.3), avant den montrer les limites et de proposer dans le chapitre suivant une gigantesque base de donnes lexicales exploitable pour lacquisition automatique de traductions, le Web.
69
3.2 Mthodes dextraction automatique

Les recherches en extraction terminologique partir de corpus sont rcentes. Lobjectif est de collecter dans des textes des units simples ou complexes susceptibles dtre des termes pertinents dans un domaine. La phase dacquisition terminologique peut tre considre comme interactive (Drouin, 2002) :
Elle est entirement automatique, mais la chane de travail est qualifie dinteractive dans la mesure o le terminologue valide les rsultats obtenus automatiquement par le logiciel
Parmi les groupes nominaux, des filtres linguistiques et/ou statistiques permettent de dgager un ensemble de candidats-termes. Ces premiers rsultats contiennent du bruit, seul un certain nombre est pertinent :
Groupes nominaux
Candidats termes
Termes
Figure 7.
Termes pertinents parmi les groupes nominaux1
Les logiciels dextraction terminologique sappuient sur diverses mthodes : on distingue ceux qui sappuient sur des critres statistiques (3.3.1), de ceux bass sur des critres morphosyntaxiques (3.3.2). Nous parlons enfin des mthodes dites mixtes, qui ont recours la fois ces deux critres (3.3.3)2.
Schma de Sta (1995). Nous prsentons les principaux logiciels dextraction automatique de terminologie en franais, mais nous ne
prtendons pas lexhaustivit.
70
3.2.1 Mthodes statistiques

Diverses mthodes statistiques ont t proposes pour la slection dunits lexicales complexes au sein dune langue. Les outils statistiques reprent les associations prfrentielles, sans connaissance linguistique. Parmi les plus connus, citons le logiciel dApprentissage Naturel Automatique (A A) (Enguehard, 1993, Enguehard et Panterra, 1995) qui est un logiciel dacquisition automatique de terminologie pour la construction du thsaurus dun domaine, partir dun vaste corpus de textes bruts. Larchitecture du logiciel passe par deux modules, lun dit de familiarisation qui extrait automatiquement des lments de connaissance sous la forme de listes, lautre dit de dcouverte qui slectionne la terminologie du domaine partir des listes et du corpus de textes.
Le logiciel MA TEX (Oueslati, 1999, Rousselot et al., 1996) est un outil dextraction terminologique qui sappuie sur le reprage de segments rpts, partir de textes non tiquets.
Les mthodes purement statistiques prsentent toutefois certaines limites (Daille, 1994, Vronis, 2000a). La raret dunits lexicales complexes rend les choix de statistiques dlicats. De plus, les units lexicales complexes semi-figes autorisent des transformations linguistiques qui posent les limites de modles statistiques simples.
3.2.2 Mthodes linguistiques

Afin de palier les limites des modles statistiques, certaines mthodes proposent une approche linguistique. Les critres morpho-syntaxiques sappuient sur des connaissances a priori des structures syntaxiques. Lhypothse est que les termes obissent des rgles de combinaison stables, et il est possible de dfinir un nombre limit de schmas morpho-syntaxiques prtablis (essentiellement des groupes nominaux) reprs dune faon automatique. Une telle mthode sappuie sur un certain nombre de prsupposs (LHomme, 2001) :
les textes en langue de spcialit sont riches de termes reprsentatifs de la
connaissance du domaine.
71
Un terme reprsentatif est utilis plusieurs reprises dans le corpus.
Une majorit de ces termes est compose de noms.
Nombre de ces termes sont complexes.
Ces termes complexes font appel un nombre rduit de structures syntaxiques : il
sagit gnralement dun nom modifi par un autre terme. Les structures syntaxiques principales sont les suivantes (ibid.) :
Structures syntaxiques Nom + Adjectif Syntagme Prpositionnel (avec nom) Syntagme Prpositionnel (avec verbe) Nom + Nom Combinaison des squences ci-dessus Figure 8.
Exemples Intelligence artificielle Robinet de commande Machine coudre Page Web Temps de conduction auriculaire
Structures syntaxiques des syntagmes nominaux1
Loutil TERMI O est une application pionnire de lacquisition automatique de termes (David et Plante, 1990) (en franais ou en anglais). Ce logiciel est bas sur le reprage de syntagmes nominaux qui constituent des candidats termes. La dfinition des termes se fonde sur les synapsies de Benveniste (1966). Les candidats-termes sont gnrs partir des dpendances entre tte et complment au sein de la structure des syntagmes nominaux extraits par lanalyseur.
FASTR (Filtrage et Acquisition Syntaxique de TeRmes) (Jacquemin, 1997) est un analyseur syntaxique permettant lidentification de variantes de termes partir de corpus, laide dune liste de termes valides fournie en entre. Les variations sont classes selon trois catgories :
LHomme (2001).
72
Variantes syntaxiques :
Mesure de volume et de flux / Mesure de flux
Variantes morpho-syntaxiques :
Flux de sve mesurs / Mesure quotidiennement le flux
Variantes smantico-syntaxiques :
Evaluation du flux / Mesure de flux
SYMO TOS (Velardi et al., 2001) est un environnement proposant des outils afin de reprer des termes simples et complexes partir de corpus, et proposer des concepts associs (Bourigault et al., 2004). Le logiciel SY TEX1 (initialement Lexter) (Bourigault, 1994, Bourigault et Fabre, 2000) est un outil dextraction terminologique qui extrait des candidats termes, partir dun corpus tiquet et dsambigis. Il effectue une analyse syntaxique de surface ddie au reprage et lanalyse de syntagmes nominaux. Les candidats termes extraits se prsentent sous la forme dun rseau.
Lintroduction de connaissances linguistiques est toutefois relativement coteuse, et nest pas indpendante des langues. Divers auteurs ont prsent des approches mixtes, mlant les stratgies statistiques et linguistiques.
3.2.3 Mthodes mixtes

Afin de pallier les contraintes des mthodes linguistiques ou statistiques, certains travaux mlent les deux stratgies. On parle de stratgies hybrides ou mixtes (LHomme, 2001).
http://w3.univ-tlse2.fr/erss/textes/pagespersos/bourigault/syntex.html
73
Le logiciel ACABIT (Automatic Corpus-based Aquisition of BInary Terms) extrait des candidats termes partir dun corpus pralablement tiquet et dsambigis (Daille, 1994, 1999). La mthode est base sur des traitements linguistiques associs des filtres statistiques :
Analyse linguistique : des squences nominales sont extraites du corpus tiquet et sont regroupes sous la forme de candidats termes binaires. Par exemple, rseau de transit satellite constitue deux candidats termes binaires, rseau de transit et rseau satellite. Les termes extraits doivent tre conformes un nombre limit de patrons syntaxiques, du type :
om-Adjectif > Emballage biodgradable om1- om2> Diode tunnel om1 (Det) om2> Assignation la demande om1 de (Det) om2> Protine de poissons om1-Prep(Det)- om2 > Multiplexage en frquence om1 Vinf > Viandes griller
Filtre statistique : les candidats termes sont filtrs au moyen dun calcul statistique, le log-likehood ratio (Dunning, 1993).
XTRACT (Smadja, 1993) est un logiciel dextraction automatique de collocations bas sur des calculs statistiques, ainsi que sur un filtrage linguistique. Loutil est compos de trois modules :
Collocations binaires : une premire phase extrait des couples de mots dont la frquence est leve et dont la distance est fixe.
74
Expansion des collocations : ltape prcdente est rpte de faon itrative afin dacqurir des collocations de plus grande longueur.
Etiquetage : les collocations sont tiquetes.
Smadja (1993) distingue trois types de collocations : les collocations prdicatives (predicative relations en anglais) du type de make/decision, les syntagmes figs (rigid noun phrases en anglais) comme foreign exchange et les phrases trous (phrasal templates), comme dans lexemple :
Temperatures indicate days high and overnight low to 8 a. m.
FipsCo (Goldman et al., 2001), (Nerima et al., 2003), (Seretan et al., 2004) est un extracteur de collocations bas sur un systme danalyse syntaxique, le systme Fips, dvelopp au LATL (Laenzlinger et Wehrli, 1991), (Wehrli, 1997). La mthode sappuie la fois sur des critres statistiques (le likelihood ratio) et sur une analyse syntaxique, qui permet le reprage de collocations dont les lments ne sont pas contigus.
3.3 Mthodes de traductions dunits lexicales complexes
3.3.1 Corpus parallles

Un texte parallle align (parfois appel bitexte (Harris, 1988) ou multitexte ) dsigne un ensemble de textes aligns avec leur traduction au niveau du paragraphe, de la phrase, des expressions ou des mots. Bien que le recours des corpus parallles ne soit pas encore trs utilis pour ldition de dictionnaires classiques, leur utilisation est largement plus importante dans le domaine de la terminologie et de la conception de lexiques computationnels (Vronis, 2000a). Le schma suivant donne une illustration dun corpus parallle :
75
source texte s1 texte s2 texte s3 texte sn Figure 9.
cible texte c1 texte c2 texte c3 texte cn Schmatisation dun corpus parallle1
Les documents parallles peuvent tre des ressources externes, comme par exemple des manuels techniques traduits, des ouvrages traduits (textes religieux, etc.) ou des dbats multilingues. Certains travaux ont galement recours des mthodes dalignement automatique de textes traduits. Nous empruntons Vronis (2000a) un tat de lart des techniques dalignement (pour un tat exhaustif, se rfrer lui).
Alignement de phrases
On distingue gnralement deux courants de mthodes dalignement, lun drivant de Kay et Rscheisen (1988) qui sappuie sur un ancrage lexical, lautre drivant de Gale et Church (1993) et de Brown et al. (1991b), qui utilisent des mthodes de corrlations de longueurs des phrases. Malgr des mthodes diffrentes, certaines hypothses sont proches. Les hypothses dalignement sappuient sur les prsupposs suivants (Vronis, 2000a) :
Lordre des phrases du texte source et du texte cible sont identiques ou proches.
Les textes contiennent un nombre rduit de suppressions ou dadjonctions.
Le courant issu de Kay et Rscheisen (1988) est fond sur une mthode dancrage lexical. Lhypothse de base de Kay et Rscheisen (1988) est quun couple de phrases ne peut tre en correspondance que si les mots qui la composent le sont aussi. Les informations utilises ne
1
Schma de Zweigenbaum (http://www.limsi.fr/~pz/p11m2r-2006/corpus-paralleles.pdf).
76
sont extraites que des textes aligner, sans autre ressource externe. La mthode prend pour point de dpart des phrases candidates avec une probabilit raisonnable de correspondance pour la premire et la dernire phrase. Les phrases intermdiaires sont certainement en correspondance dans un couloir diagonal plus ou moins troit. La mthode compare ensuite la distribution des mots, en partant de lhypothse que si un couple de mots a des distributions similaires, la probabilit quils soient une traduction lun de lautre est forte. Les mots aligns forment des points dancrage permettant daffiner lalignement des phrases de dpart. Une itration de la procdure permet dobtenir un alignement maximal. Kay et Rcheisen (1988) montrent que mme si un alignement en mots est une tache difficile, un alignement en mots mme grossier peut conduire un alignement en phrases satisfaisant.
Les courants issus de Gale et Church (1993) et de Brown et al. (1991b) sappuient sur une mthode de corrlation des longueurs de phrases. Gale et Church (1993) utilisent une mthode dalignement qui sappuie galement sur une information extraite des textes. La mthode est fonde sur une comparaison de la longueur des phrases dans le texte source et dans le texte cible. Lhypothse est que si deux phrases sont la traduction lune de lautre, leur longueur doit tre proche. La mthode sappuie sur lhypothse dun rapport constant de longueur de phrases en terme de nombre de caractres. Il est admis que le rapport de longueur de caractres entre deux langues est relativement stable, comme par exemple le fait quun texte franais a tendance tre plus long que sa traduction anglaise (Vronis, 2000a). Des algorithmes permettent deffectuer des mesures de dissimilarit entre les phrases du texte source et du texte cible, prenant en compte les phnomnes dalignement attendus tels que des cas domission, daddition ou de fusion. Brown et al. (1991b) applique une mthode qui sappuie sur le mme type dhypothses de longueurs de phrases.
De nombreuses mthodes dalignement de phrases sappuient sur ces deux hypothses, une majorit combinant les deux ides. Debili et Sammouda (1992) effectuent un alignement de phrases bas sur un ancrage lexical via un dictionnaire bilingue. Simard et al. (1992), Church (1993), Johansson et al. (1993) et McEnery et Oakes (1995) ont recours un ancrage lexical bas sur le reprage de cognates, combin une mthode dans la ligne de Gale et Church. Lancrage lexical sappuie sur le reprage de cognates, cest--dire dunits qui sont identiques en langue source et en langue cible ou qui sont graphiquement proches, comme par
77
exemple language en anglais et langue en franais (Vronis, 2000a). Lutilisation de cognates est surtout prconis dans le cadre de langues apparentes. Langlais et El-Beze (1997) et Melamed (2000) montrent la ncessit de combiner diffrents types de critres, tels que par exemple le lexique, les cognates, la longueur des phrases.
Alignement de mots et expressions

Dans les mthodes prcdentes, lancrage lexical constitue un indice dalignement en phrases. A linverse, lalignement en phrases peut constituer un point de dpart pour un alignement plus fin, savoir un alignement en mots (Dagan et Church, 1994, Resnik et Melamed, 1997, Jones et Somers, 1997, Choueka et al., 2000, Fung, 2000). Toutefois, les phnomnes phrasologiques font que lalignement en mots est une tache difficile. Lalignement des units lexicales complexes est dailleurs trs souvent lun des buts recherchs, notamment en terminologie. De nombreux auteurs se sont attachs extraire des units complexes partir de textes aligns (Kupiec, 1993, Van Der Eijk, 1993, Dagan, 1994, Gaussier et Lange, 1995). Selon Vronis (2000a), des tudes plus rcentes (Smadja et al., 1996, Melamed, 1997, Hiemstra, 1998) montrent des avances importantes dans le domaine. Un alignement en mots ou une extraction de lexique bilingue partir de corpus parallles peut se diviser en deux grands aspects, premirement un reprage des units lexicales complexes en langue source et en langue cible, puis deuximement un alignement entre les deux. Les techniques de reprage dunits lexicales complexes dcrites dans la section prcdente ont t appliques avec un certain succs leur alignement (Daille, 1994, Smadja et al., 1996, McEnery et al., 1997, Blanck, 2000, Piperidis et al., 2000).
Alignement de segments linguistiques

Un autre type dalignement est celui de lalignement de segments linguistiques suprieurs aux mots ou aux units lexicales complexes, mais infrieurs la phrase, savoir des clauses, des fragments darbres syntaxiques ou des squelettes de phrases. Ces techniques forment un continuum avec celles de lalignement en mots ou en expressions. Pour ces techniques, citons les travaux de Kaji et al. (1992), de Matsumoto et al. (1993), de Grishman (1994) et de
78
Papageorgiou (1997). Piperidis (2000) et Wu (2000) prsentent ltat davancement de ce type de techniques.
3.3.2 Outils dalignement de termes

Les outils dacquisition de terminologie bilingue exploitent des corpus parallles pour extraire des termes quivalents en langue source et en langue cible. Le systme dacquisition terminologique de Van der Eijk (1993) se compose de deux tapes :
Acquisition monolingue : les textes des langues source et cible sont extraits sur la base de patrons catgoriels.
Acquisition bilingue : les termes extraits sont aligns par une mthode danalyse des statistiques de cooccurences des termes dans les phrases alignes.
Termight (Dagan et Church, 1994) est un logiciel dacquisition de terminologie bilingue, pour le franais et langlais. Il passe galement par deux phases dacquisition : Acquisition monolingue : lors de lacquisition monolingue, le reprage se fait laide des patrons morpho-syntaxiques dunits lexicales simples et complexes, partir du texte tiquet. Les units lexicales sont regroupes partir de leur tte smantique. Une interface de validation permet de visualiser le contexte de chaque terme au sein du corpus source et une phase de validation manuelle filtre les candidats-termes. Alignement bilingue : la mise en correspondance des termes est ralis partir dun algorithme dalignement au niveau des mots. TwiC (Translation of words in context) (Wehrli, 2004) est un outil dassistance la lecture de documents en langues trangres, par le biais de traduction de mots et dexpression en contexte, bas sur une analyse syntaxique. TwiC traite les units lexicales complexes telles
79
que les mots-composs, les locutions et les collocations. Voici un exemple dinterface graphique, pour lanalyse de la phrase1 :
A natural language interface was developed.
Suite au mot slectionn par lutilisateur, le rsultat suivant apparat :
Figure 10.
Interface de rsultats du logiciel TwiC
Larchitecture du logiciel est base sur diffrents modules (ibid.) :
- Extracteur de phrases : le reprage des phrases seffectue par le biais dindices typographiques, ainsi que des indices de balises HTML.
- Identificateur de langue : un systme de tri-grammes est utilis afin didentifier la langue du document.
- Analyseur linguistique : une analyse morpho-syntaxique avec lanalyseur Fips est effectue. Elle permet de dterminer lunit lexicale recherche.
- Base de donnes bilingue : une base de donnes bilingue dquivalences dunits lexicales simples et complexes est utilise.
Exemple cit par Wehrli (2004).
80
- Interface graphique : enfin une interface graphique permet dafficher les rsultats de la requte.
Champollion (Smadja et al., 1996) est un outil dextraction de traductions de collocations partir dun corpus parallle align au niveau des phrases. Dans un premier temps, Champollion prend en entre une collocation en anglais et repre tous les mots qui lui sont fortement associs dans la partie franaise, laide du coefficient de Dice. Lhypothse est que la traduction de la collocation source se trouve dans la liste prcdemment constitue. Toutes les combinaisons possibles des couples de mots de la listes sont gnres et les couples les plus significatifs sont extraits (coefficient de Dice). Les tapes sont rptes de la mme faon pour des triplets significatifs, puis pour les squences de quatre mots, et ainsi de suite. Le logiciel sarrte lorsque plus aucune squence ne dpasse le seuil du coefficient de Dice.
3.3.3 Corpus comparables

Les travaux en acquisition automatique de traductions dunits lexicales complexes se sont principalement bass sur lexploitation de corpus parallles (Vronis, 2000a ; Morin et al., 2004). Toutefois, les textes parallles constituent des ressources rares, surtout pour des couples de langues ne faisant pas intervenir langlais (Morin et al., 2004). Des corpus comparables dsignent des corpus de langues diffrentes traitant du mme domaine mais non parallles. Bien que les travaux partir de corpus comparables constituent un phnomne plus jeune, les avantages, cits dans la littrature, ne sont pas ngligeables (Djean et Gaussier, 2002). Dun point de vue pratique, il est plus facile de collecter des corpus comparables de bonne qualit (Fung, 1998). Dautre part, laccs des corpus comparables permet de collecter les usages rels des units lexicales de la langue cible, et permet dviter dventuels biais lis la traduction (Djean et Gaussier, 2002).
La dfinition des corpus comparables de (Djean et Gaussier, 2002) est la suivante :
81
Deux corpus de deux langues L1 et L2 sont dits comparables sil existe une sous-partie non ngligeable du vocabulaire du corpus de langue L1, respectivement L2, dont la traduction se trouve dans le corpus de langue L2, respectivement L1 .
Lhypothse sous-jacente des travaux dacquisition de traductions partir de corpus comparables est bas sur le principe de la smantique distributionnelle qui sattache dcrire le sens des mots, partir de sa distribution dans un ensemble de contextes (ibid.). Si, partir des corpus parallles, lespace de recherche de lunit lexicale cible se rduit le plus souvent la phrase, il nen va pas de mme pour les corpus comparables, pour lesquels la traduction recherche peut se trouver nimporte quel endroit (ibid.). Les mthodes partir de corpus comparables consistent gnralement collecter lensemble des contextes (appels vecteurs de contexte ) de chaque unit lexicale, pour les corpus en langue source et en langue cible. Des ressources existantes sont ensuite exploites afin de traduire les vecteurs de contexte de chaque unit lexicale et de les comparer entre la langue source et la langue cible. Les hypothses sont les suivantes (Djean et Gaussier, 2002) :
(1) Les mots de la langue L1 dont les distributions normalises sont les plus similaires la distribution dun mot donn de la langue L2, sont, avec une forte probabilit, traduction de ce mot. (2) Deux mots de L1 et L2 sont, avec une forte probabilit, traduction lun de lautre si leurs similarits avec les entres des ressources bilingues disponibles sont proches.
Une majorit des travaux dacquisition de terminologie bilingue partir de corpus comparables ont port sur des termes simples (Morin et al., 2004). Nous pouvons mentionner les travaux de (Fung, 1998) qui extraient des termes simples anglais/chinois, avec une prcision de 76% sur les 20 premiers candidats. Les corpus exploits sont le Wall Street Journal et le quotidien japonais Nikkei Financial News. Les travaux de (Rapp, 1999) obtiennent une prcision de 89% sur lextraction des 10 premiers candidats, pour des termes simples anglais/allemand, partir dun corpus journalistique. (Djean et Gaussier, 2002) obtiennent une prcision de 84% sur les 10 premiers candidats de couples anglais/allemand, partir dun corpus mdical.
82
Toutefois, les travaux dacquisition de termes complexes, partir de corpus comparables sont peu courants1. En ce qui concerne la traduction de termes complexes en langue de spcialit, (Morin et al., 2004) prsentent une mthode, comportant la revue internationale Unasylva, consacre aux forts et aux industries forestires. Cette approche est une mthode mixte, qui identifie initialement les termes complexes pour chaque langue avec une mthode linguistique (utilisation du logiciel ACABIT (Daille, 1994)), et procde ensuite un alignement via des mthodes statistiques bases sur le contexte des termes. Le traitement statistique est proche de la mthode propose par (Djean et Gaussier, 2002) pour les termes simples. Lide sousjacente consiste en la traduction des termes qui sont proches du terme traduire. Lvaluation de la mthode a t ralise de faon automatique, via plusieurs lexiques de rfrence traitant du domaine de spcialit. A partir de ces lexiques, 300 termes franais ont t slectionns automatiquement, chacun de ces termes devant tre prsent au moins cinq fois dans le corpus comparable. Les rsultats montrent que les termes complexes dont la traduction est compositionnelle sont relativement bien reprs et apparaissent le plus souvent dans les 20 meilleurs candidats. Par contre, les autres termes sont moyennement reprs et napparaissent que rarement dans les 20 premiers candidats, bien que les traductions proposes se situent le plus souvent dans le mme champ smantique.
3.4 Conclusion
Nous avons prsent les mthodes traditionnelles de traitement automatique de la terminologie monolingue et bilingue. En ce qui concerne lacquisition de terminologie bilingue, les techniques dalignement prsentent des rsultats qui montrent un certain succs (Daille, 1994, Smadja et al., 1996, McEnery et al., 1997, Blanck, 2000, Piperidis, 2000). Toutefois, les mthodes dalignement sont coteuses et laccs des textes traduits est rare, surtout pour des langues autres que langlais. La taille des corpus parallles est pour linstant modeste par rapport aux corpus monolingues (Vronis, 2000a). De plus, les corpus parallles sont ncessairement biaiss dans leur reprsentativit , car les textes traduits disponibles
Dautres travaux tels que ceux de Cao et Li (2002) ont recours au Web afin dacqurir des traductions de
termes complexes. Nous parlons des stratgies utilisant le Web pour la traduction dans le chapitre 5.
83
relvent de domaines particuliers (textes lgaux, textes techniques, textes religieux (Resnik et Melamed, 1997), etc.). Certains genres sont peu reprsents, comme par exemple les conversations, les missions radiophoniques, etc. (Vronis, 2000a).
Les textes parallles ne constituent pas de vritables actes de discours, puisquil sagit de traductions et sont perues comme des artefacts (Vronis, 2000a). Des textes originaux sont supposs offrir une phrasologie plus riche que celle dune langue traduite, que certains nomment translationese afin den souligner le caractre non idiomatique (Maniez, 2001b). Bien que le lien entre les traductions soit moins vident au sein dun corpus comparable, puisque la prsence dune traduction nest pas assure comme dans les corpus parallles, laccs des corpus comparables reste plus ais que laccs un corpus parallle de bonne qualit (Fung et Yee, 1998). Les techniques sont toutefois plus rcentes et ont moins fait leurs preuves pour lacquisition dunits lexicales complexes, se centrant sur lacquisition de traductions de termes simples. Les travaux se centrent gnralement sur des domaines de spcialit (Rapp, 1995, 1999, Fung, 1995, Fung et McKeown, 1997, Fung et Yee, 1998, Diab et Finch, 2000, Morin et al., 2004), ce qui ne favorise pas ltendue de diversit lexicale que nous recherchons. Dans le chapitre suivant, nous prsentons une nouvelle ressource lexicale, le Web, dont les applications en Traitement Automatique des Langues et en acquisition de traduction, bien que rcentes, sont de plus en plus nombreuses et prsentent un certain succs au vue des avantages quil offre, en comparaison avec les ressources traditionnelles.
4. Le Web comme mga base lexicale
84
Chapitre 4.
Le Web comme mga base lexicale
4.1 Introduction
Le Web constitue un vaste rservoir de donnes lexicales, qui peut tre exploit par des moyens automatiques, par le biais de moteurs de recherche tels que Google1 ou Yahoo2. Bien que plus bruit que les corpus traditionnels, le Web reprsente un gigantesque panel d'exemples linguistiques attests, de genres diffrents (domaines terminologiques, registres de langues, etc.). Il est le plus vaste et le plus vari des corpus et son multilinguisme est ingalable (Kilgarriff et Grefenstette, 2003). Ses caractristiques reprsentent un bouleversement mthodologique pour la linguistique empirique. Malgr la prolifration de travaux qui ont recours au Web depuis la dernire dcennie, il est un phnomne nouveau dont les contours restent mconnus, et sort des cadres habituels dacquisition de terminologie monolingue et bilingue. Il convient de sinterroger sur la place du Web en linguistique, par rapport aux corpus traditionnels (4.2), ainsi que danalyser ses atouts et ses limites (4.3). Face
1
http://www.google.fr/ http://www.yahoo.fr/
85
la quantit de travaux qui ont recours au Web, nous prsentons un tour dhorizon non exhaustif des principaux domaines du Traitement Automatique des Langues (4.4). Les travaux en acquisition automatique de traductions partir du Web, galement prolifiques, feront loffice du chapitre suivant (Chapitre 5).
4.2 Le Web est-il un corpus ?

Avant de sinterroger sur le statut du Web dans la recherche linguistique, il convient de sinterroger sur la dfinition et le rle des corpus.
4.2.1 Quappelle-t-on corpus ?

Il existe des divergences sur la dfinition dun corpus , reflet de variations thoriques sur son statut en linguistique. Malgr des contours flous, la littrature saccorde sur des caractristiques gnrales. McEnery et Wilson (1996) font merger plusieurs critres :
In principle, any collection of more than one text can be called a corpus But the term corpus when used in the context of modern linguistics tends most frequently to have more specific connotations than this simple definition provides for. These may be considered under four main headings: sampling and representativeness, finite size, machine-readable form, a standard reference.
La premire notion est celle de la reprsentativit. En fonction des textes slectionns, un corpus peut-tre reprsentatif dun tat de langue ou de situations linguistiques particulires en vue de leur tude (Duclaye, 2003). Le critre de reprsentativit est toutefois une notion problmatique : de quoi le corpus doit-il tre reprsentatif (Kilgarriff et Grefenstette, 2003) ? Hormis des domaines de spcialit prcis, la reprsentativit de la langue nest pas concluante, car cette dernire prsente des variables quil nest pas possible de prendre en compte dans un corpus (Kilgarriff et Grefenstette, 2003) :
86
La reprsentativit doit-elle se placer du ct de la production ou de la rception de la langue ?
Doit-elle concerner des textes crits ou des retranscriptions orales ?
La rception passive du langage fait-elle galement partie des vnements considrer ?
Les citations doivent-elles tre considres comme de nouvelles productions langagires ?
Une notion proche de la reprsentativit est celle de corpus de rfrence . Selon Sinclair (1996), un corpus de rfrence a pour objectif de reprsenter toutes les varits pertinentes dune langue afin de constituer une base danalyse linguistique. Citons le Brown Corpus, en anglais, qui regroupe 15 genres diffrents, ou le British ational Corpus, qui contient 90% de textes crits diviss en catgories et 10% de texte parl. Lide dun corpus de rfrence prsente des limites proches de celles de la reprsentativit.
Un corpus peut-tre une slection de textes organiss selon des critres prcis (Sinclair, 1995) :
a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of language.
La slection des textes repose sur des critres explicites en fonction des objectifs de la recherche. Selon Habert (2000), des critres extra-linguistiques doivent tre ajouts aux critres linguistiques, permettant dobtenir les emplois dtermins dune langue (Duclaye, 2003). Lavnement de textes au format lectronique fait merger une dfinition, plus vague, celle de corpus lectronique . Le corpus serait une collection quelconque de textes, au format lectronique (Manning et Schtze, 1999) :
87
In Statistical NLP, one commonly receives as a corpus a certain amount of data from a certain domain of interest, without having any say in how it is constructed. In such cases, having more training data is normally more useful that any concerns of balance, and onde should simply use all the text that is available.
Un regroupement de textes sans critre prcis nest pas un corpus au sens strict, mais peut tre satisfaisant lorsque la ncessit premire est la quantit de donnes. Aprs avoir fait un tour dhorizon sur la place du corpus en linguistique (4.2.2), nous nous demandons si le Web est un corpus (4.2.3).
4.2.2 Le rle du corpus dans la recherche linguistique

Une approche du corpus peut tre une dmarche inductive, qui consiste expliquer les noncs du corpus pour en tirer des conclusions gnrales. Cette dmarche est adopte par des structuralistes amricains tels que Harris (1951). Le corpus est un ensemble clos et les procdures de dcouverte sont strictement internes. Des auteurs tels que Chomsky (1957, 1962) critiquent la vision inductive. Selon lui, la grammaire nest pas expliquer partir dun corpus, mais partir de la comptence des locuteurs. La comptence nest pas un phnomne observable, Chomsky prconise le recours lintuition (rationalisme). Pour lui, un corpus ne recense pas tous les faits utiles une description linguistique. Au jour daujourdhui, il y a une diffrence dchelle que la thorie de Chomsky ne pouvait pas prvoir. Les limites dune telle approche sont que la dmarche savre normative et non pas descriptive. Elle dcrit les faits tels quils devraient tre dits, plutt que tels quils sont dits. Cette mthode fait part de subjectivit : les intuitions ne sont pas les mmes dun locuteur lautre.
Selon Popper, une collection d'observations ne permet pas d'induire de faon logique une proposition gnrale. Pour reprendre son clbre exemple, le fait de ne voir passer que des cygnes blancs ne permet pas davoir la certitude quil nexiste pas de cygnes noirs. Popper critique une dmarche inductive dans le domaine des sciences et prconise un procd dductif de mise lpreuve des thories. Ce processus passe par un mcanisme de prdiction et de rfutation. Dans ce contexte, un corpus en linguistique est un rservoir dexemples permettant de construire des hypothses puisquon admet que lintuition nest pas
88
satisfaisante. Il constitue un banc de test, qui ne forme pas un ensemble clos et dont de nouveaux exemples peuvent rfuter les thories.
Depuis une vingtaine dannes, la recherche linguistique a pris un tournant empirique avec lutilisation de plus en plus systmatique de corpus (Leech, 1991, McEnery et Wilson, 1996). La linguistique descriptive tudie les faits linguistiques quon retrouve frquemment dans les donnes relles, quelque soit le type de donnes (mme si les textes ne correspondent pas une norme standard). Elle a permis la linguistique gnrale dtendre son champ dinvestigation et de concevoir de nouvelles approches de la langue et de la notion de norme. Pour la linguistique empirique, tudier une langue, cest runir un ensemble dnoncs, aussi varis que possible, effectivement mis par des locuteurs de cette langue, une poque donne. Il sagit danalyser ces noncs, et dventuellement faire apparatre des rgularits dans les faits. Lapparition de donnes massives a permis au Traitement Automatique des Langues de mettre en place des techniques dapprentissage.
Annes 1950 Linguistique introspective (Chomsky) Figure 11.
Annes 1990 Linguistique de corpus Donnes rares
Annes 2000 Changement dchelle Donnes massives
Evolution de la place du corpus en linguistique
4.2.3 Quel statut attribuer au Web ?

Il y a vingt ou trente ans, la constitution dun corpus lectronique tait une tche ardue : saisie et correction des textes, etc. (Habert et al., 1997). Avec lavnement de la micro-informatique, la situation a radicalement chang (ibid.). De plus en plus dcrits existent directement sousformat lectronique et sont exploitables pour la constitution de corpus. Paradoxalement, la dfinition du corpus sest obscurcie : la slection de textes est bouleverse devant la facilit daccs des textes lectroniques (ibid.). Lavnement du Web a constitu un autre bouleversement : les bases de donnes disponibles ont constitu un nouveau changement
89
dchelle qui ncessitent de sinterroger sur ces capacits. Une limite du Web concerne sa non-reprsentativit . Selon Rundell (2000), les types de textes sont htrognes : les documents journalistiques et scientifiques sont majoritaires (Duclaye, 2003). Kilgarriff et Grefenstette (2003) montrent que le Web nest certes pas reprsentatif, mais les corpus traditionnels ne le sont pas plus :
We define a corpus simply as a collection of texts . If that seems too broad, the one qualification we allow relates to the domains and contexts in which the word is used rather its denotation : a corpus is a collection of texts when considered as an object of language or literary study. The answer to the question Is the web a corpus? is yes.
La quantit des donnes offre une varit de genre plus vaste quun corpus traditionnel. Mme si le Web ne rpond pas aux dfinitions standard et que les donnes sont moins contrles, elles permettent un changement dont les rpercussions peuvent tre fondamentales pour la comprhension des langues, condition de disposer d'instruments dobservation adquats. Le Web peut tre considr comme un outil dobservation des usages pour le linguiste, en termes la fois qualitatif (il dispose du contexte rel dun grand nombre de formes) et quantitatif. Nous parlons la suite de Habert (2000) de base de textes ou de base lexicale, plutt que de corpus. Divers phnomnes linguistiques sont observables partir du Web : la quantit des donnes permet dobserver des phnomnes que des corpus rduits ne permettraient pas danalyser. Sa dimension considrable vient palier le problme du bruit (Grefenstette, 1999). Pareille la position du clbre astronome et physicien Galile, qui basait ses recherches sur la pratique et lexprience, le linguiste doit observer le ciel linguistique par le biais dinstruments adapts, cest--dire qui permettent de rapprocher lobservation le plus possible de la ralit. Lutilisation du Web dans un cadre linguistique conduit r-apprhender la question du rle du corpus. Pour nous, le Web est un rservoir dexemples afin de construire des hypothses sur la traduction. Les phnomnes de traduction sont des phnomnes complexes et les units lexicales complexes observer prolifrent. Les caractristiques du Web sont adaptes nos besoins. Un fait langagier isol sur le Web ne permet pas de tirer des conclusions. En revanche, nous attribuons un fait rcurrent une valeur linguistique.
90
4.3 Motivations
4.3.1 Une gigantesque base lexicale

Largument dominant de lutilisation du Web est sa taille. Il est difficile de savoir combien de mots sont indexs par les moteurs de recherche dans chaque langue, tant donn le caractre commercialement sensible de cette information, mais des tests indirects (voir Kilgarriff et Grefenstette, 2003) permettent destimer environ 100 milliards le nombre de mots indexs par Google pour la seule langue anglaise. Cette quantit est considrable : le British ational Corpus, qui est de loin le plus grand corpus linguistique au monde, et a servi de base de nombreuses tudes (Burnard, 1995), ne comporte que 100 millions de mots, cest--dire une taille environ 1000 fois infrieure. Le changement dchelle est phnomnal. Voici un exemple, titre comparatif des frquences dans le BNC et des frquences sur le Web dunits lexicales complexes1 :
B C 414 39 732 30 38 39 71 10 6 46 WWW (aot 2008)2 38 000 000 46 100 000 20 900 000 3 920 000 8 590 000 5 980 000 5 510 000 1 280 000 3 020 000 627 000
medical treatment prostate cancer deep breath acrylic paint perfect balance electromagnetic radiation powerful force concrete pipe upholstery fabric vital organ
Figure 12.
Comparaison des frequences entre le B C et le Web
Mme si les frquences retournes par les moteurs de recherche ne sont que des estimations, elles montrent que les contextes dtude dune unit lexicale prolifrent sur le Web alors
1
Exemple de Grefenstette (1999), mis jour pour les frquences dInternet. Frquences obtenues partir du moteur de recherche Yahoo. Lutilisation des guillemets est utilis pour une
requte littrale.
91
quils sont trs rduits dans un corpus traditionnel, mme vaste . Keller et Lapata (2003) montrent que des modles probabilistes appliqus diverses applications du TAL prsentent de meilleurs rsultats lorsquils sont appliqus sur de vastes donnes, mme si les donnes sont bruites .
4.3.2 Une base lexicale multilingue

En ce qui concerne le multilinguisme du Web, Xu (2000) estime que 71% des pages sont crites en anglais, 6,8% en japonais, 5,1% en allemand, 1,8% en franais, 1,5% en chinois, 1,1% en espagnol, 0,9% en italien et 0,7% en sudois. Le tableau suivant prsente une estimation de mots indexs par le moteur de recherche Altavista, pour un certain nombre de langues :
Language Albanian Breton Welsh Lithuanian Latvian Icelandic Basque Latin Esperanto Roumanian Irish Estonian Slovenian Croatian Malay Turkish
Web 10,332,000 12,705,000 14,993,000 35,426,000 39,679,000 53,941,000 55,340,000 55,943,000 57,154,000 86,392,000 88,283,000 98,066,000 119,153,000 136,073,000 157,241,000 187,356,000
Language Catalan Slovakian Polish Finnish Danish Hungarian Czech Norwegian Swedish Dutch Portuguese Italian Spanish French German English
Web 203,592,000 216,595,000 322,283,000 326,379,000 346,945,000 457,522,000 520,181,000 609,934,000 1,003,075,000 1,063,012,000 1,333,664,000 1,845,026,000 2,658,631,000 3,836,874,000 7,035,850,000 76,598,718,000
Figure 13.
Estimation du nombre de mots indexs par Altavista pour diffrentes langues1
Schma de Kilgarriff et Grefenstette (2003).
92
A titre comparatif, le British
ational Corpus (BNC) est un corpus exclusivement anglais.
Malgr la prdominance de langlais sur le Web, le multilinguisme de ce dernier offre des perspectives nouvelles pour la comparaison des langues, certaines langues prsentes sur le Web ntant dailleurs pas (ou trs peu) disponibles en corpus. Par exemple, De Schryver (2002) montre les perspectives quoffre le Web pour ltude de langues africaines.
4.3.3 Une base lexicale volutive

Le Web prsente lavantage dtre une base de donnes volutive, contrairement aux corpus statiques. Il permet danalyser la langue en temps rel . Sajous et Tanguy (2006) prsentent, par exemple, une mthode dacquisition de crations lexicales partir du Web. Jacquemin et Bush (2000a, 2000b) utilisent le Web pour la collecte dEntits Nommes1 et pour leur classification (selon les pays, les compagnies, les noms dauteur, etc.). Lintrt du Web est quil est mieux adapt pour le reprage dEntits Nommes volutives. Des pages Web sont collectes partir de requtes dcrivant des patrons susceptibles dintroduire des entits nommes2 tels que par exemple :
universities such as
Les Entits Nommes candidates sont extraites partir des pages Web et un filtre permet dliminer les rsultats bruits.
Les Entits Nommes sont une appellation gnrique afin de dsigner des noms propres rfrant des
personnes, des lieux ou des organismes (Jacquemin et Bush, 2000b).

2
Les indices linguistiques choisis sont ceux qui amorcent les collections.
93
4.3.4 Limites de lutilisation du Web

Nous relevons deux grandes limites quant lexploitation du Web en tant que base de donnes textuelles, l'une touchant la qualit des donnes, l'autre la performance du protocole d'extraction de co-occurrences lexicales.
Les donnes textuelles du Web renferment des biais (ou bizarreries) langagiers mis par des locuteurs non natifs de la langue cible ou des locuteurs non-spcialistes de la langue spcialise. Ces combinatoires lexicales errones, comme fumeur lourd au lieu de gros fumeur ou grand fumeur, non utilises par les locuteurs aguerris, "bruitent" le Web en tant que base de donnes textuelles et doivent tre cartes. Grce la frquence de leurs occurrences, des mthodes statistiques permettront d'liminer (ou rduire) automatiquement celles-ci. Par exemple, la co-occurrence lexicale errone, en franais, de fumeur lourd, traduction littrale de langlais heavy smoker napparat qu une frquence de 73, sur le moteur de recherche Google, contrairement gros fumeur (20 700)1.
D'autre part, les donnes textuelles du Web sont "brutes", c'est--dire qu'aucune information linguistique n'est adjointe. Or, les diffrents types d'tiquetages (Vronis, 2000b, pour un panorama) appliqus sur les corpus (ou bases textuelles) offrent une aide non ngligeable pour le traitement automatique des langues. L'tiquetage morpho-syntaxique dtermine la partie du discours (adjectif, nom, verbe, adverbe, etc.) et la morphologie des items textuels (genre et nombre pour les noms et les adjectifs, flexions pour les verbes). Ce processus permet notamment de rduire les ambiguts catgorielles. La forme ferme, par exemple, peut tre un nom, un verbe ou un adjectif. Dans de nombreux cas, l'ambigut peut tre leve grce au contexte textuel :
La ferme de mon cousin ( OM) Un fromage ferme (ADJECTIF)
Google, aot 2008.
94
L'tiquetage morpho-syntaxique autorise une catgorisation des units lexicales en cadres syntaxiques de type OM-ADJECTIF, OM-VERBE, ADVERBE-ADJECTIF, etc. La
lemmatisation est un processus qui assigne chaque occurrence des items textuels sa forme non marque : la forme masculin singulier pour les adjectifs, le singulier pour les noms, l'infinitif pour les verbes, etc. La lemmatisation permet de rassembler au sein d'une mme forme lexicale toutes les variantes morphologiques des lexmes. Dans notre tude, nous utilisons les deux processus, dtiquetage morpho-synatxique et de lemmatisation, afin dextraire les units lexicales complexes.
4.4 Construction de corpus partir du Web

Nous distinguons deux grands courants qui ont recours au Web pour des applications linguistiques, ceux qui collectent des documents pour la constitution de corpus et ceux qui extraient directement des informations sur le Web (frquences, co-occurrences, etc.). Dans cette section, nous prsentons les courants qui ont recours au Web pour la constitution de corpus. Les moteurs de recherche traditionnels nont pas t conus pour des recherches linguistiques. Certains travaux proposent des outils linguistiques afin de construire des corpus partir du Web ou dinterroger des corpus collects sur le Web. Le Sketch Engine (SkE ou Word Sketch Engine)1 (Kilgarriff, Rychly, Smrz et Tygwell, 2004) est un outil danalyse linguistique partir de corpus fournis en entre, dont certains qui sont proposs en ligne ont t collects sur le Web, en diverses langues2. Le programme offre une fonction de concordancier et une analyse en Word Sketch (dpendances syntaxiques et collocations). Les principales fonctionnalits du Sketch Engine sont les suivantes :
Concordances : un systme de concordances permet daccder aux contextes du motcl. Les requtes peuvent tre effectues partir du lemme, afin dobtenir les formes
http://www.sketchengine.co.uk/ Les langues disponibles sont entre autres le chinois, langlais, le franais, lallemand, litalien, le japonais, le
portuguais, lespagnol et le slovne.
95
associes ou partir dune forme unique. La catgorie morpho-syntaxique peut tre spcifie. Voici un extrait de concordances pour la requte barrage en franais :
Figure 14.
Extrait des concordances de barrage dans le Sketch Engine
Une requte peut-tre affine en spcifiant son contexte droit et/ou son contexte gauche, sur une fentre maximale de dix lments. Il est possible de limiter la recherche une sous-partie du corpus, comme par exemple livres et priodiques ou texte oral, gouvernement .
Word Sketch : le Word Sketch a t utilis pour la premire fois pour la production du Macmillan English Dictionary (Rundell, 2002). Il fournit la liste des dpendances syntaxiques et des collocations dans lesquelles entre le terme, comme lexemple des relations de modifieurs et dobjet pour barrage :
Figure 15.
Extrait du word sketch de barrage
96
Thesaurus : les mots entrant dans une distribution similaire du mot-cl sont prciss, ce qui offre des classes smantiques, ici un extrait des mots associs barrage :
Figure 16. -
Extrait des mots associs barrage
Comparaison des co-occurrences : partir de deux mots-cls, il est possible dobtenir leurs relations syntaxiques communes et celles qui leur sont exclusives, comme dans lexemple de barrage et barrire :
Figure 17.
Dpendances communes barrage et barrire
97
Figure 18.
Dpendances spcifiques barrage
Le systme WebBootCat1 (Baroni et Bernardini, 2004) est un outil qui collecte des pages Web via lAPI Google, pour la construction dun corpus spcialis et dune acquisition terminologique. Loutil prend un ensemble de mots-cibles en entre (reprsentatifs du domaine) et collecte les pages Web associes2. Une extraction terminologique permet dlargir les requtes et le corpus de faon itrative. La collecte de nouveaux mono-termes se fait par une comparaison des frquences au sein du corpus avec celles dun corpus de rfrence. Les termes complexes sont ensuite collects. Les tapes sont les suivantes3 :
http://sslmit.unibo.it/~baroni/bootcat.html Les langues prises en charge sont au nombre dune trentaine. Schma (initialement en anglais) propos par Baroni et Bernardini (2004).
98
Mots-cls de dpart
Gnration de requtes
Collecte de corpus
Extraction de mono-termes
Extraction de termes complexes
Figure 19.
Etapes dacquisition de corpus via BootCat
Loutil a t appliqu par Baroni et Bernardini (2004) pour la construction de deux corpus en anglais et en italien, dans le domaine de la psychiatrie. Baroni et Ueyama (2004) utilisent BootCat pour la collecte de termes spcialiss en japonais, puis pour la construction dun corpus gnral en italien et dun corpus spcialis ( partir de blogs) en japonais (Baroni et Ueyama, 2006). Le systme CorpusBuilder1 dvelopp par Ghani, Jones et Mladenic est un systme qui permet une acquisition automatique de corpus partir du Web, pour des langues minoritaires telles que le slovne, ou le tagalog, par exemple. La mthode est base sur lanalyse de deux ensembles de documents fournis en entre, lun pertinent pour le corpus construire, lautre non pertinent. Les mots-cls pertinents et non pertinents extraits sont respectivement utiliss de faon inclusive ou exclusive pour la gnration de requtes. Les rsultats sont utiliss afin de rpter la mthode de faon itrative. Ghani et Jones (2000) et Jones et Ghani (2000)
1
http://www.cs.cmu.edu/~TextLearning/corpusbuilder/
99
construisent un corpus en tagalog, partir de mots-cls pertinents. Ghani et al. (2001c) construisent un corpus de slovnien. Ghani et al. (2001a, 2001b, 2001d, 2003) appliquent la mthode diffrentes langues telles que le slovnien, le croate, le tchque et le tagalog. WebCorp1 (Kehoe et Renouf, 2002, Morley et al., 2003, Renouf, 2003, Renouf et al., 2003, Renouf et al., 2005, Morley, 2006, Renouf et al., 2007, Kehoe et Gee, 2007) est une interface de recherche linguistique vers diffrents moteurs de recherche (Google, Altavista, etc.). Les rsultats se prsentent sous la forme dun concordancier (contextes et collocations). Il permet de faire des recherches prcises telles que la distinction de la casse ou des alternatives de lettres au sein dun mot (requtes de sous-chanes telles que r[u|a]n)2. A partir dune requte, les pages sont collectes, nettoyes et les occurrences sont extraites, offrant un contexte dune fentre maximale de 50 termes gauche et droite du terme cible. Les collocations associes la requte sont galement prsentes, comme dans lexemple de surgery (Kehoe et Renouf, 2002) :
Figure 20.
Collocations de surgery extraites par WebCorp
http://www.webcorp.org.uk/ Des requtes partir des catgories morpho-syntaxiques ne sont pas possibles.
100
Dans la mme ligne, KWiCFinder (Key Word in Context Web Concordancer)1 (Fletcher, 2001, 2002, 2004, 2005, 2007) est un outil qui offre le mme type doptions que WebCorp. GoogleLing (Smarr et Grow, 2002) est galement un outil permettant dintgrer des critres de catgories grammaticales, partir de diffrents moteurs de recherche. La mthode de GoogleLing est base sur une conversion de la requte linguistique en requte gnrale adapte au moteur de recherche (Google). Par exemple, si la catgorie grammaticale recherche est un verbe, il peut sagir dajouter des inflexions de verbes. Les pages Web sont ensuite collectes via lAPI Google, nettoyes et tiquetes. La requte est ensuite identifie partir des pages Web collectes. La figure 21 montre le processus gnral de GoogleLing.
Figure 21.
Etapes de traitement de GoogleLing
4.5 Domaines dapplication de lutilisation du Web pour le TAL

Depuis la dernire dcennie, de plus en plus de travaux en Traitement Automatique des Langues ont recours au Web, pour des applications trs diverses. Nous prsentons un bref aperu des diverses applications du TAL qui exploitent le Web en tant que ressource lexicale. Chaque application tant un domaine trs riche en lui mme, nous ne visons pas lexhaustivit, mais nous proposons un tour dhorizon des possibilits quoffre le Web dans
http://www.kwicfinder.com/KWiCFinder.html
101
diffrents domaines (Volk, 2002). Nos explications sont volontairement simplifies, car nous prsentons une mise en perspective gnrale des domaines qui ont recours au Web.
4.5.1 Dsambigusation syntaxique

Certains travaux ont recours au Web afin de rsoudre des problmes dambigut de rattachement syntaxique. Prenons les exemples suivants (Volk, 2002) :
(1) Peter reads a book about computers (2) Peter reads a book in the subway
La tche automatique est confronte au problme de lambigut syntaxique de rattachement prpositionnel. Dans la phrase (1), le syntagme prpositionnel (about computers) est un attribut du nom book, tandis que dans la phrase (2), (in the subway) doit tre rattach au verbe (ibid.). Une stratgie consiste utiliser le Web afin de comparer les frquences de chaque cooccurrence verbe / prposition / nom2 ( read, about, computer ) avec nom 1 / prposition/ nom 2 ( book, about, computer )1 et de voir lesquelles sont les plus frquentes Volk (2000, 2001). Ces frquences doivent tre mises en rapport avec celles du verbe et du nom lorsquils napparaissent pas avec la prposition (ibid.). Une telle mthode ncessite un grand nombre de donnes, et serait difficilement ralisable sans lapport du Web. Dans le domaine de la dsambigusation syntaxique lie au rattachement prpositionnel partir du Web, les travaux de Volk (2000, 2001) ont t appliqus lallemand. Vandeghinste (2002) applique la mme stratgie pour le nerlandais. Calvo et Gelbukh (2003) appliquent le mme type mthode pour lespagnol. Lebarb (2002) utilise galement le Web pour lamlioration dune mthode de dsambigisation syntaxique. Gala (2003a, 2003b) et Gala et At-Mokhtar (2003) prsentent une mthode non supervise dapprentissage sur le Web, permettant damliorer la dsambigusation du rattachement prpositionnel. Contrairement
1
Volk (2001) montre quil est plus judicieux dobtenir les frquences des trigrammes plutt que des bigrammes
du type verbe+prposition et nom +prposition.
102
Volk (2000, 2001) qui calcule les frquences directement partir dun moteur de recherche, Gala (2003a, 2003b) collecte un premier corpus partir du Web qui contient les rattachements ambigus. Ceux-ci sont extraits dune premire analyse et sont gnrs en tant que requtes sur le Web, pour la collecte dun corpus, dont le but est dextraire automatiquement des informations lexicales (patrons de co-occurrences) et statistiques (poids de cooccurrence statistique) sur ces rattachements. Ces informations sont ensuite utilises afin de lever les ambiguts de rattachement. (Nakov et Hearst, 2005a, 2005b) exploitent le Web pour la dsambigusation syntaxique de rattachements prpositionnels et de rattachements de syntagmes nominaux, partir de statistiques drives du Web. Rus et Ravi (2006) ont galement recours une approche statistique partir du Web pour le reprage de syntagmes nominaux dans la tche de dsambigusation syntaxique.
4.5.2 Lexicographie
Fujii et Ishikawa (2000) collectent des descriptions encyclopdiques de termes techniques en japonais, partir du Web. La mthode est base sur un reprage de patrons linguistiques et de structures HTML susceptibles dintroduire des dfinitions de termes. Par exemple, la squence suivante introduit la dfinition du terme anglais data mining :
data mining is a process that collects data for a certain task, and retrieves relations latent in the data
Le reprage de la structure X is Y permet dassocier la dfinition Y au terme X. Lacquisition de patrons linguistiques de description est opre partir dune ressource encyclopdique lectronique.
4.5.3 Smantique
Turney et Littman (2003) prsentent une mthode de dtection de lorientation smantique (positive ou ngative) dun ensemble dunits lexicales de type subjectif, partir du Web. La mthode est base sur le calcul des co-occurrences des termes avec un paradigme de termes
103
positifs et ngatifs. Lhypothse est que les termes ayant les mmes connotations apparaissent frquemment ensemble : les termes recenses comme ayant une connotation donne permettent den reprer de nouveaux, par leur contexte lexical (Turney et Littman, 2003). Dans la mme ligne, Baroni et Vegnaduzzo (2004) prsentent une mthode didentification dadjectifs subjectifs partir du Web, en partant dune courte liste dadjectifs subjectifs slectionns manuellement. Le Web est exploit afin de collecter les adjectifs qui cooccurrent avec la courte liste cre de faon manuelle (mesure dinformation mutuelle).
Turney (2001) prsente un algorithme, nomm PMI-IR, pour la dtection de synonymes partir du Web. La mthode est base sur un calcul dinformation mutuelle, partir des frquences de couples de termes sur le Web. Les rsultats montrent que les termes obtenant les plus hauts scores de co-occurrence ont tendance tre des synonymes. Sato et Sasaki (2003) prsentent une mthode dacquisition de termes thmatiquement associs partir de termes sources, en japonais, partir du Web. Un corpus contenant les mots cibles est collect. Les termes associs sont extraits par une mthode dacquisition terminologique, et filtrs. Dans la mme ligne, Baroni et Bisi (2004) ont recours linformation mutuelle sur le Web pour la tche de dtection de synonymes au sein dun domaine de spcialit, laronautique. Terra et Clarke (2003) prsentent galement une mesure de similarit entre termes, par comparaison de leurs co-occurrences, partir du Web.
(Matsuo et al., 2006) prsentent une mthode de classification smantique de termes, partir de graphes, nomme ewman, qui est base sur une mesure de similarit partir de
frquences des vecteurs de co-occurrences sur le Web. Doan et al. (2003) proposent un systme, le systme GLUE, bas sur un reprage dinformations disponibles en ligne par dautres ontologies pour le reprage de similarit entre termes pour la construction dune ontologie. Dautres travaux ont recours au Web pour la construction ou lenrichissement dontologies (Agirre et al., 2000a, 2000b, 2004a, 2004b, Santamaria et al., 2003, Chung et al., 2006). La mthode tant base sur lutilisation de topic signatures , nous reviendrons sur ces mthodes dans notre chapitre 7.
104
4.5.4 Dsambigusation lexicale

Laccs de trs vastes donnes telles que le Web peut constituer une aide pour la tche de dsambigusation lexicale (Gonzalo et al., 2003). Turney (2004) prsente un algorithme, partir du Web, bas sur une collecte de traits smantiques partir des probabilits de cooccurrences des mots. Rosso et al. (2005) prsentent une approche de dsambigusation lexicale en anglais, partir du Web, base sur lanalyse des co-occurrences des termes ambigus. Une exploitation du Web pour la dsambigisation peut galement consister en lacquisition automatique de corpus annots smantiquement. Les travaux de Mihalcea et Moldovan (1999a, 1999b) et Mihalcea (2002) prsentent une approche dacquisition automatique de corpus annot avec des informations smantiques. La mthode sappuie sur les informations de WordNet pour la gnration de requtes (synonymes, dfinitions) sur des moteurs de recherche traditionnels. Les donnes collectes sont utilises pour lapprentissage de squences dexemples dsambigiss en contexte. Chklovski et Mihalcea (2002) prsentent le systme Open Mind Word Expert, qui utilise lannotation dutilisateurs en ligne pour la cration dun corpus annot.
4.5.5 Acquisition de co-occurrences lexicales

Le Web est utile pour lobervation de co-occurrences monolingues et pour lacquisition de relations lexicales significatives. Le Web est considr comme un miroir reprsentatif des phnomnes de co-occurrences lexicales dune langue. Par exemple1, la co-occurrence lexicale prfrentielle daunting task apparat avec une frquence de 11 000 000 sur le moteur de recherche Yahoo, tandis que des synonymes proches de task tels que job et duty ne constituent pas des co-occurrences lexicales significatives avec daunting. Daunting job, qui est une co-occurrence lexicale acceptable mais non significative apparat 110 000 fois. La co-
Exemples cits par Inkpen et Hirst (2002).
105
occurrence lexicale non acceptable1 daunting duty napparat que 660 fois, ce qui est trs peu lchelle du Web. Le smantisme nest pas une caractristique pour juger de lacceptabilit dunits lexicales complexes idiomatiques : les frquences sur Web sont un indice rvlateur. Lhypothse est que les co-occurrences non correctes apparaissent peu en comparaison avec les co-occurrences significatives. Certains travaux ont recours au Web pour valuer de l aspect collocationnel de co-occurrences lexicales collectes ou pour acqurir des collocations partir du Web. Inkpen et Hirst ( 2002) valuent l aspect collocationnel de co-occurrences lexicales, entre synonymes proches. Les collocations sont extraites partir du corpus BNC. Le Web est utilis afin dvaluer leur aspect collocationnel . Trois types de collocations sont distingues : les co-occurrences frquentes, les faibles co-occurrences (qui restent acceptables) et les co-occurrences impossibles ( anti-collocations ). Keller et Lapata (2003) collectent des bigrammes de type ADJECTIF- OM, OM- OM et VERBE-OBJET, partir de diffrents corpus (BNC et NANTC2). Le Web est utilis pour tester leur frquence. Les rsultats montrent que les frquences sur le Web sont corrles avec celles des corpus tudis et avec le jugement dvaluateurs humains. Seretan et al. (2004) collectent des relations syntaxiques de co-occurrences partir des rsums retourns sur le Web, par des mesures dassociation lexicale. Les calculs statistiques sont associs un filtre syntaxique. Ces travaux collectent un corpus partir du Web via des noms sources partir desquels sont extraits les co-occurrents dans des relations de dpendance. Patwardhan et Riloff (2006) collectent des patrons de dpendances syntaxiques relatives un domaine de spcialit, partir du Web.
4.5.6 Autres applications

Liu et Curran (2006) ont recours au Web pour la collecte dun corpus dans le cadre dun systme daide la correction orthographique. Le Web est utilis afin de dtecter les variantes mal orthographies dun terme, comme dans lexemple suivant de receive :
1
Pearce (2001) a introduit le terme d anti-collocation afin de dsigner des co-occurrences lexicales non
acceptables dun point de vue idiomatique.

2
orth American ews Text Corpus.
106
reeceive, recesive, recieive, receivce
A partir dun ensemble derreurs frquentes ( confusion set ), la tche de correction peut tre traite en terme de dsambigisation : il sagit de slectionner le terme adquat en fonction de son contexte. Liu et Curran (2006) montre que le Web est adapt ce type de travaux, qui ncessite un grand nombre de donnes.
Le Web peut tre utilis pour observer les volutions linguistiques dun point de vue diachronique (Volk, 2002). Par exemple1, en suisse allemand, la compagnie de tlphone suisse Swisscom a lanc un tlphone portable nomm atel. A la mme priode, les
tlphones portables en Allemagne sont nomms Handy. En Suisse, ces deux units lexicales ont t en comptition. Volk (2002) a compar les frquences de ces deux units lexicales avant et aprs janvier 2000 et a constat que les frquences retournes par atel avant janvier 2000 taient peu prs le double de celles de Handy. Aprs janvier 2000, les frquences de ces deux units lexicales ont t peu prs similaires. Ces rsultats montrent que lusage du terme handy a nettement augment (ibid.). Kehoe (2006) utilise WebCorp dans une perspective dtude diachronique. Les moteurs de recherches traditionnels permettent une recherche avance, en spcifiant la date du document, mais les options sont fortement limites. Kehoe (2006) montre que la prise en compte des informations de dernire modification constitue une perspective de technique pour la diachronie2. A partir de cette information, WebCorp permet de spcifier la date de modification des documents lors dune requte, soit en indiquant le dlai de modification des pages, soit en prcisant un intervalle de date. Les rsultats sont alors classs en fonction de la date de modification des documents (ibid.):
Exemple cit par Volk (2002). La limite de cette approche est que la date de dernire modification du document ne concide pas
ncessairement avec sa mise en ligne (Kehoe, 2006). Dautres repres temporels sont proposs tels que la spcification de la dernire rvision du document directement dans la page, une prcision de la date de copyright, ou la date insre dans lURL. Mais ces informations sont faiblement reprsentes.
107
Figure 22.
Concordances de la requte shock and awe classes par date par WebCorp
Une tude de Kehoe (2006) sur le mot anglais alcopops montre que les perspectives quoffre le Web pour les tudes diachroniques restent intressantes, en analysant que ce mot est de plus en plus frquemment employ depuis 1999, alors que son utilisation tait peu courante.
Mautner (2005) montre que les caractristiques du Web offrent des perspectives pour des tudes en analyse du discours. Zuraw (2006) utilise le Web tel un corpus phonologique pour ltude du Tagalog. Modjeska et al. (2003) et Bunescu (2003) ont recours au Web dans le cadre de la rsolution danaphores.
4.6 Conclusion
Les caractristiques du Web placent cette gigantesque base lexicale au cur de domaines trs varis en linguistique et en Traitement Automatique des Langues. Mme sil nest pas un corpus au sens strict, il offre des ressources et des perspectives que le linguiste se doit danalyser. Il permet de collecter de grandes quantits de textes pour la construction de corpus, ou dacqurir des informations utiles pour la dsambigisation syntaxique, la lexicographie, la smantique, la dsambigisation lexicale, la construction de lexiques monolingues et bien dautres applications dont nous avons cites les plus communes. Le domaine de lacquisition de traductions nchappe pas au phnomne. Outre sa taille, son multilinguisme le place au cur de diffrentes mthodes pour lacquisition de donnes
108
bilingues. Le chapitre suivant aborde les possibilits quoffre le Web pour la traduction et prsente les diffrentes techniques employes, telles que lacquisition de corpus parallles ou comparables, partir du Web, ou la collecte dinformations (comme par exemple les frquences), pour laide la traduction.
5- Mthodes dacquisition de traductions partir du Web
109
Chapitre 5.
Mthodes dacquisition de
traductions partir du Web
5.1 Introduction
Le caractre multilingue du Web le place au cur dun courant particulirement prolifique, celui de lacquisition de traductions partir du Web. Les mthodes dutilisation du Web dans un contexte dacquisition de traductions sont varies. Nous distinguons cinq grands courants. Dune part, certains travaux prsentent des mthodes dacquisition de corpus parallles partir du Web (5.2). Certaines mthodes ont recours aux anchor textes (5.3). Dautres utilisent le Web tel un corpus partiellement bilingue et exploitent des documents linguistiquement mixtes pour le reprage de traductions (5.4). Le Web peut galement tre considr comme un corpus comparable (5.5). Enfin, certains travaux exploitent les frquences sur le Web pour laide au choix lexical (5.6).
110
5.2 Acquisition de textes parallles partir du Web
5.2.1 Typologie des textes parallles sur le Web

La diversit des genres, des domaines et des langues prsents sur le Web constitue un atout prcieux pour les mthodes de construction de corpus parallles partir du Web. De nombreux documents du Web sont des textes parallles1 (manuels, catalogues, sites administratifs, etc.). Il peut sagir dune page Web assortie de sa traduction ou dun site Web multilingue. Les deux pages suivantes sont par exemple la traduction lune de lautre (anglais et espagnol) :
Figure 23.
Pages Web parallles en anglais et en espagnol2
Nous empruntons Resnik (1998) une typologie des principaux documents parallles prsents sur le Web.
Il ne sagit pas dun corpus au sens propre : les pages Web peuvent tre courtes et ne sont pas
ncessairement alignes.
2
Schma propos par Resnik (1998). Source des pages : http://www.legaldatasearch.com/.
111
Pages parentes1
Une page parente est un document sur le Web contenant au moins deux liens qui pointent vers des pages qui sont des traductions les unes des autres :
Figure 24.
Exemple de page parente2
Dans lexemple ci-dessus, la page parente constitue laccueil du site Academy of American and British English . Il sagit dun site multilingue, la version est disponible en six langues. Des moyens automatiques peuvent tre utiliss pour reprer des pages parentes, par une analyse des liens hypertextes qui pointent vers des langues diffrentes. Laccs aux pages traduites permet dacqurir un corpus parallle.
Pages surs 3
Une page sur est un document monolingue dans une langue donne qui contient un lien hypertexte vers sa traduction. Dans lexemple suivant, un lien hypertexte indique explicitement la traduction anglaise ( this page in english ) :
Parent page en anglais (Resnik, 1998). Schma propos par Resnik (1998). (http://www.academyofenglish.com) Sibling page en anglais (Resnik, 1998).
112
Figure 25.
Un exemple de page soeur (du franais vers langlais1)
Les liens hypertextes sont analysables afin daligner la page sur avec sa traduction. Le plus souvent, le lien de traduction est biunivoque (mais pas de faon systmatique) :
Page source
Page cible
Figure 26.
Relation hypertexte biunivoque entre une page fille et sa traduction
Une majorit des textes parallles sur le Web sont des pages parentes ou des pages surs (Resnik, 1999) : Pages parentes Pages surs
Figure 27.
Types de documents parallles sur le Web
5.2.2 Mthodes dacquisition

Les mthodes dacquisition de pages parallles partir du Web passent gnralement par trois grandes phases, une gnration de site candidats, une valuation de paires candidates, puis un
http://lrs.linbox.org/
113
filtre des sites candidats. Nous prsentons ces phases de faon gnrale, mais les mthodes existantes nutilisent pas de faon systmatique toutes les caractristiques prsentes.
Localisation de sites candidats

Une premire phase consiste en une localisation de sites candidats , susceptibles de contenir des pages qui sont des traductions. Diffrentes stratgies de reprage sont utilises :
Analyse des liens hypertextes : un reprage de liens hypertextes qui pointent vers des pages traduites peut tre effectu (Resnik, 1998, 1999, Resnik et Smith, 2003, Nie et al., 1999, Chen et Nie, 2000, Almeida et al., 2002). Les pages parallles ont pour point commun de contenir des liens hypertextes qui pointent vers la (ou les) traduction(s) de documents. La formulation de diffrents types de requtes permet de collecter ce type de documents. Par exemple, la requte suivante permet dobtenir des pages parentes contenant deux liens hypertextes pointant sur deux pages traduites (en anglais et en franais) (Resnik, 1998) :
anchor : language1 A D anchor : language2 (anchor : english OR anchor: anglais) A D (anchor : french OR anchor : franais)
Ce type de requte permet de collecter des pages qui pointent sur diffrentes traductions dune page parente : Page parente Anchor : anglais Anglais Anchor : franais Franais
Figure 28.
Reprage de pages parentes
114
Un autre type de pages parallles repres concerne les pages soeurs ( sibling pages ). Par exemple, les pages franaises retournes par la requte anchor : english OR anchor : anglais sont des documents contenant un lien vers une page en anglais :
Anchor : anglais Franais Anglais
Figure 29.
Reprage de pages sur
Des indications textuelles telles que this page in english peuvent apparaitre et constituer des indices supplmentaires de paralllisme.
Exploitation du domaine des sites : le systme BITS (Ma et Liberman, 1999) gnre une liste de sites Web candidats, fortement susceptibles dtre bilingues en utilisant comme indices les domaines des sites. Par exemple, certains domaines sont susceptibles de contenir des paires de langues donnes. Ainsi, pour le couple allemand/anglais, les domaines de (Allemagne), au (Australie) et lu (Luxembourg) sont plus susceptibles de contenir des sites bilingues faisant intervenir les langues cibles.
Reprage dURLS similaires : une phase de normalisation des URLS peut tre effectue afin daccder la traduction dun document, comme dans lexemple (Almeida et al., 2002) :
http://www.ex.pt/index_pt.html http://www.ex.pt/index_en.html
Dans cet exemple, lextension pt indique que le premier lien est en portugais, tandis que lextension en indique que le second lien est en anglais. Lorsque les URLS sont identiques, lexception de lextension de la langue, il est probable que les pages soient des traductions lune de lautre (Almeida et al., 2002, Chen et al., 2004) .
115
Comparaison du contenu smantique des documents : Chen et al. (2004) sappuie sur une comparaison du contenu smantique des documents aligner. La comparaison est fonde sur une liste de termes bilingues, permettant de comparer les termes sources et cibles contenus dans chaque document. Le coefficient de Jacquard, qui mesure le degr de similarit entre deux ensembles, est utilis afin de comparer les contenus smantiques.
Gnration de sites candidats

Une deuxime phase repre les documents parallles et filtre les documents non pertinents. Diffrentes stratgies sont galement adoptes :
Comparaison des extensions de noms de fichiers : les noms de fichiers peuvent tre des indices de contenus parallles tels que par exemple file-fr.html et fileen.html , ou fr et en indique que les documents sont respectivement en franais et en anglais (Nie et al, 1999, Chen et Nie, 2000, Almeida et al., 2002).
Comparaison de la structure HTML: il sagit de reprer les documents ayant une structure proche (Resnik, 1998, 1999, Resnik et Smith, 2003, Nie et al, 1999). Lide est que les pages parallles doivent avoir une structure HTML trs proche. Il est galement possible de comparer les lments non textuels (images, liens, etc.) (Almeida et al., 2002). Ce type de stratgie permet un alignement de squences plus fines, comme dans lexemple (Resnik, 1998) :
Figure 30.
Structures HTML de documents parallles
116
Comparaison de la longueur des textes : une comparaison entre la longueur des textes en langue source et en langue cible peut tre un indice de traduction. Lhypothse est que les pages traduites ont une longueur textuelle relativement proche (Resnik, 1998, 1999, 2002, Nie et al., 1999, Chen et Nie, 2000). Resnik (1998, 1999) et Resnik et Smith (2003) procdent une comparaison de longueur des textes par alignement de segments.
Comparaison du poids des fichiers : Almeida et al. (2002) procde une comparaison de poids entre le fichier source et le fichier cible.
Comparaison de similarit des chanes de caractres : Almeida et al. (2002) dispose dun module de comparaison des chanes de caractres entre le fichier source et le fichier cible.
Identification de la langue des documents : si les modules prcdents sont indpendants de la langue, certains travaux ont galement recours un module didentification de la langue, afin de filtrer les documents qui ne sont pas dans la langue souhaite (Resnik, 1999, 2003, Ma et Liberman, 1999, Chen et Nie, 2000, Almeida et al., 2002). Resnik (1999) et Resnik et Smith (2003) proposent un reprage automatique de la langue du document bas sur une mthode statistique de comptage des frquences de caractres, qui permet dliminer les pages collectes qui ne sont pas dans la langue attendue. Ma et Liberman (1999) tudient les proprits linguistiques des sites afin de dtecter si le site est monolingue ou multilingue et didentifier les langues impliques1. Les sites exclusivement monolingues sont supprims de la liste.
Si plus dune langue est implique dans les 3 ou 4 premiers niveaux dun site, alors il est admis que le site est
au moins bilingue.
117
Filtre des sites candidats

Ltape dvaluation de la mthode STRAND (Resnik, 1998, 1999, Resnik et Smith, 2003) permet un alignement des documents au niveau des segments ( chunks ). La mthode STRAND permet donc, outre dobtenir des paires candidates dURLs de pages parallles, de collecter un corpus align par segments. Ma et Liberman (1999) ont galement recours un alignement des pages. Un lexique bilingue est utilis afin dtablir un calcul de similarit entre les units lexicales sources et cibles pour les pages anglaises et allemandes. La mthode dAlmeida et al. (2002) dcoupe les textes en chunks et les fichiers sont convertis en PML1. Un alignement est enfin effectu, via le logiciel EasyAlign2. Cet alignement peut ensuite tre utile pour des systmes bass sur les mmoires de traduction (ibid.).
Resnik (1998, 1999) et Resnik et Smith (2003) prsentent une mthode dacquisition automatique de documents parallles partir du Web3, le modle STRAND (Structural Translation Recognition for Acquiring atural Data). Resnik (1998, 1999) value la mthode partir des couples de langues anglais/espagnol et franais/anglais. Une version amliore de STRAND a t applique au couple de langues anglais/chinois (Resnik et Smith, 2003). Le schma rsume les tapes du modle STRAND (Resnik, 1998) :
Figure 31.
1
Architecture du modle STRA D
Paragraph Markup Language. IMS Corpus Workbench, (1994-2002) Le moteur de recherche utilis pour cette tude tait le moteur Altavista.
118
Dans la mme ligne, Nie et al. (1999) proposent galement une mthode d'extraction automatique de documents parallles sur le Web en anglais et en franais, pour une tche de recherche dinformation multilingue. Les rsultats montrent que lexploitation dun corpus parallle issu du Web permet damliorer les performances de systmes de recherche dinformations multilingues. Ma et Liberman (1999) proposent le systme BITS (Bilingual Internet Text Search) pour lacquisition de textes parallle multilingue, partir du Web. La mthode, base sur le couple de langue allemand/anglais1, collecte des pages Web qui contiennent des paires de traduction et les stocke dans une base de donnes. Les expriences menes avec des paires en allemand et anglais montrent que la mthode offre des rsultats satisfaisants, avec un rappel de 97,1% et une prcision de 99, 1%. Dans le domaine de la recherche dinformation inter-lingue, Chen et Nie (2000) et Kraaij et al. (2003) proposent un algorithme, le systme PTMiner (Parallel Text Miner), dont le but est dextraire un corpus parallle partir du Web. La prcision de Chen et Nie (2000) pour le corpus obtenu en anglais/franais est de 95% et celle pour le corpus anglais/chinois est de 90%. Dans la mme ligne, Nie et Cai (2001) proposent une mthode de nettoyage de corpus parallle, partir dun corpus anglais/chinois, afin dliminer les pages Web non-parallles restantes dans le corpus. Almeida et al. (2002) proposent une mthode dextraction de pages parallles partir du Web, par lutilisation dune srie de modules qui exploitent le Web bilingue . Une exprience dvaluation, base sur lalignement de pages en portugais et en anglais, donne une prcision de 85%, avec un rappel de 92% (Almeida et al., 2002). Yang et Li (2003) prsentent galement une mthode de construction de corpus parallles partir du Web, pour langlais et le chinois, dont la prcision de de 99,5% et le rappel de 80,96%. Chen et al. (2004) propose le systme PTI (Parallel Text Identification System) qui dtecte des pages parallles partir de la comparaison des noms de fichiers et du contenu smantique des documents. Lvaluation, partir dun site gouvernemental multilingue, en anglais et en chinois, offre une prcision de 0.93% et un rappel de 0.96%. Le schma suivant prsente larchitecture de PTI (ibid.) :
Le systme est capable de traiter 13 langues diffrentes.
119
Figure 32.
Architecture du systme PTI
5.3 Approches bases sur les anchor textes

Lu et al. (2001, 2002, 2004) prsentent une mthode de traduction de requtes pour la recherche dinformations interlingues, par lexploitation de anchor textes 1. Un anchor texte est le texte contenu dans le descriptif dun lien hypertexte, comme dans lexemple :
<a href="http://www.wikipedia.org">Wikipedia</a>
Dans cet exemple, lanchor texte est Wikipdia. Les anchor textes sont utiliss par les moteurs de recherche dans la tche dindexation. Le contenu des anchor textes peut varier, il peut sagir de titres, de phrases multilingues, de textes courts, dacronymes ou mme dURLs (Lu et al., 2001, 2002, 2003). La figure 33 illustre diffrents anchor textes en de multiples langues qui pointent vers le site du moteur de recherche Yahoo :
Le terme anglais est anchor text . Il nexiste pas dquivalent strictement franais, bien quon puisse parler
dancrage. Nous employons le terme de anchor texte, plus proche du terme anglais.
120
Figure 33.
Anchor textes en diffrentes langues qui pointent sur le site Yahoo1
Les anchor textes sont propices la dtection dunits lexicales traduites et peuvent tre considrs comme des corpus comparables (ibid.). Dans cet exemple, les alias rgionaux de lEntit Nomme Yahoo peuvent tre dtects par des moyens automatiques. Lobjectif de lapproche de Lu et al. (2001, 2002, 2003) est de dterminer des stratgies permettant didentifier automatiquement la traduction dune requte, partir des anchor textes qui lui sont associs. Le but est dextraire les traductions candidates qui co-occurrent frquemment avec la requte source, au sein dun mme anchor texte. Toutefois, les termes qui co-occurrent peuvent tre bruites et le reprage de traductions effectives est une tche dlicate.
Lhypothse de Lu et al. (2001, 2002, 2003) est que les anchor textes qui pointent vers les mmes pages contiennent certainement des termes proches. Parmi ces termes, certains sont crits dans des langues diffrentes et sont susceptibles dtre des traductions lun de lautre. Une approche probabiliste est utilise pour lidentification des traductions. Les expriences de Lu et al. (2001) ont montr que 57% des termes tests en requte obtiennent une traduction correcte en chinois dans le top1 des traductions candidates, et 91% dans le top10. Lu et al. (2003) ajoute un module qui fait appel une langue intermdiaire lorsque les traductions ne peuvent pas tre extraites de faon directe. Par exemple, afin dobtenir la traduction du terme
Schma de Lu et al. (2001, 2003).
121
anglais Sony, en chinois simplifi, la traduction est dabord extraite en chinois traditionnel (Lu et al., 2003) :
Figure 34.
Traductions directes et indirectes
5.4 Acquisition de textes partiellement parallles partir du Web

Le terme de textes bilingues dsigne le plus souvent des textes parallles, cest--dire un texte en langue source, align avec un texte traduit en langue cible, ayant strictement le mme contenu (Nagata, 2001). Les mthodes bases sur le reprage de textes parallles ou de liens hypertextes bilingues sur le Web restent (dans une moindre mesure que pour lacquisition de corpus parallles traditionnels ) victimes dune limitation des donnes. Afin de palier cette limite, une solution consiste collecter des textes partiellement parallles sur le Web, cest--dire des documents mixtes dun point de vue linguistique, mais qui ne sont pas des textes aligns :
Figure 35.
Extrait de document partiellement parallle (japonais/anglais)
122
Le Web est riche dun grand nombre de documents partiellement bilingues dont les caractristiques peuvent tre varies. Par exemple, la traduction dun terme peut tre prsente de faon ponctuelle dans le corps dun document essentiellement monolingue (ibid.) :
Further support was guaranteed [], the Saudi Fund, France's Central Fund for Economic Cooperation (Caisse Centrale de Coopration Economique--CCCE).
Dans ce type de documents, il est possible dinfrer que le texte entre parenthses est une traduction du segment prcdent (sans occulter dventuelles difficults de segmentation). Ces caractristiques peuvent tre exploites par des moyens automatiques afin de collecter de nouvelles traductions de termes. De plus, le contexte de lusage est galement disponible (ibid.). Ces textes partiellement parallles sont le plus souvent des documents techniques, dans lesquels la traduction dun terme technique est prcis, le plus souvent entre parenthses, la suite du terme source (ibid.). Cette caractristique peut tre exploite afin dextraire des traductions partir du Web, notamment des traductions absentes de ressources dictionnairiques, parce quelles sont trop techniques ou trop rcentes (Nagata, 2001).
Il est difficile dvaluer la quantit de textes partiellement bilingues sur le Web. Cette quantit est dpendante des langues sources et cibles, et varie galement en fonction des genres de documents. De plus, il faudrait distinguer lors de lvaluation entre les termes simples et les termes complexes. Nagata (2001) propose une mesure dvaluation de la quantit de textes partiellement parallles pour le couple de langues japonais/anglais, en fonction de diffrents domaines de spcialit. A partir dun dictionnaire bilingue1, class selon 19 catgories (telles que laronautique, lcologie, etc ), 30 paires de termes japonais et anglais (simples et complexes) ont t slectionns pour chaque catgorie, et ont t tests en tant que requte sur le moteur de recherche Google. Les rsultats ont montr que 42% des requtes ont retournes au moins un document (ibid.), ce qui montre que la quantit de textes partiellement parallles nest pas ngligeable.
(NOVA Inc., 2000).
123
5.4.1 Typologie des textes partiellement parallles sur le Web

En nous appuyant sur la typologie propose par Nagata (2001) pour le japonais et langlais, nous proposons une typologie des textes partiellement bilingues sur le Web.
Paragraphes aligns1
Les paragraphes aligns sont des documents comportant des paragraphes traduits dans une langue cible. Chaque paragraphe est compltement monolingue, et les paragraphes traduits succdent les paragraphes sources. Ce type de documents concerne frquemment des documents officiels destins tre lus par des locuteurs non natifs, ou des articles scientifiques dans lesquels seuls les titres et les rsums sont traduits :
Figure 36.
Exemple de paragraphe align 2
Tables
Le document se prsente sous la forme dune table comprenant des paires dquivalences de termes. Il sagit le plus souvent de glossaires bilingues :
Aligned paragraph format en anglais (Nagata, 2001). http://www.pref.akita.jp/life/g090.htm
124
Figure 37.
Exemple de format table 1
Texte plein
Les termes en langue cible sont prciss de faon ponctuelle dans le corps dun document monolingue en langue source :
Figure 38.
Exemple de format texte plein 2
http://www.glossaire.be/english_french/glossaire_multimedia_anglais_francais.htm http://www.jerrock.com/66/node/154
125
Une majorit des documents bilingues sur le Web rpondent cette catgorie (ibid.). La figure rcapitule les diffrents types de textes partiellement parallles :
Paragraphes aligns
Tables
Texte plein
Figure 39.
Typologie des documents partiellement parallles

Une majorit des travaux qui exploite les proprits du Web partiellement parallles concerne les travaux centrs sur la traduction de langues asiatiques en anglais (Cheng et al., 2004a). Nous prsentons ces travaux et nous montrerons par la suite que le Web partiellement parallle peut galement tre exploit pour des langues telles que le franais et langlais. Les travaux de Nagata (2001) proposent une mthode dextraction de traductions de termes spcialiss du japonais vers langlais, partir de documents partiellement parallles sur le Web. La mthode est base sur le reprage de documents contenant la fois le terme source et le terme cible via un moteur de recherche et sur un calcul de distance entre les deux termes au sein du document. Tout dabord, sont rcolts les 100 premiers documents retourns par un moteur de recherche contenant les termes sources japonais et sont limins les documents exclusivement japonais. Pour chaque terme anglais prsent dans le document, un calcul de probabilit est estim, en prenant en compte la distance entre le terme source et la traduction candidate au sein dun mme document, et la traduction candidate obtenant le plus haut score est slectionne. Parmi les couples de termes utiliss afin de tester la quantit de documents partiellement parallles sur le Web, 50 de ceux qui avaient retourn au moins un document sont slectionns comme banc de test. Parmi eux, 34 ont retourn des pages partiellement parallles au sein des 100 premiers rsultats. En ce qui concerne lalignement de termes anglais/japonais, 60% des rsultats contiennent un alignement correct dans les 10 premiers candidats termes.
126
Cheng et al. (2004a) prsente une mthode de traduction pour langlais et le chinois, partir de requtes en langue source dont les rsultats sont limits la langue cible. Lhypothse est que la prsence de termes en langue source au sein de pages crites en langue cible peut tre un indice de reprage de documents mixtes. Les tapes de traitement partir des documents mixtes sont tout dabord une extraction terminologique, puis un alignement des traductions candidates avec le terme source. Lalignement des traductions est base sur deux stratgies complmentaires : lune mesure le taux de co-occurrence sur le Web entre le terme source et la traduction candidate, lautre compare la similarit des vecteurs de co-occurrences sur le Web entre le terme source et la traduction candidate. Une valuation, dans le cadre de la recherche multilingue, offre une prcision de 46% sur la premire traduction candidate pour les requtes les plus populaires et 58% pour le top 5. En ce qui concerne des requtes alatoires, la prcison est de 40% pour le top 1 et de 60% pour le top 5. Dans la mme ligne, Cheng et al. (2004b) proposent une approche base sur une utilisation partiellement multilingue du Web (pages contenant la fois de langlais et des langues asiatiques) afin de construire des lexiques multilingues prenant en compte des variations rgionales pour la langue chinoise.
Huang et al. (2005) prsentent une mthode dacquisition de traductions chinois/anglais dEntits Nommes partir du Web, en exploitant des documents partiellement bilingues. La mthode est base sur le reprage de traductions au sein de rsums mixtes, partir de requtes interlingues enrichies , cest--dire associant le terme source aux traductions de mots-cls apparents. Par exemple, le mot-source Faust en japonais constitue dabord une premire requte. A partir des rsums retourns, une liste de mots-cls est constitue selon diffrents critres tels que le taux de co-occurrence du mot source et du mot-cl thmatique sur le Web, le recensement de la traduction du mot-cl thmatique dans des ressources prexistantes, la faible quantit de traductions candidates possibles du mot-cl thmatique, le fait que le mot-cl thmatique soit un nom ou un syntagme nominal. Les mots-cls les plus significatifs sont traduits en anglais (langue cible) et sont gnres des requtes enrichies du type de Faust(en japonais) Goethe, comme lillustre le schma (Huang et al., 2005) :
127
Figure 40.
Exemple de requte enrichie
Des critres phontiques, smantiques et statistiques (mesure de la distance entre le mot source et le mot cible au sein des rsums) sont ensuite appliqus lextraction des rsums mixtes retourns par ce type de requtes. Les rsultats de traduction offrent une prcision de 46% en utilisant les 10 premiers rsums retourns, et de 80% en utilisant 165 rsums. Zhuang et Vines (2004, 2005) utilisent une mthode similaire de traduction chinois/anglais pour la dtection de termes inconnus1. Wu et Chang (2007) prsentent le systme TermMine, systme dacquisition de translitrations de langlais vers le chinois. La mthode est base sur lexpansion de requtes et la collecte de rsums mixtes sur le Web.
5.5 Le Web, un corpus comparable

Fung et Yee (1998) proposent une mthode dextraction automatique de nouvelles traductions de mono-termes partir de textes monolingues (journaux) en anglais et en chinois sur le Web.
1
OOV terms (Out-Of Vocabulary terms).
128
En partant du constat quun mot est fortement associ dautres mots dans un contexte donn (Rapp, 1995, Fung, McKeown, 1997), la mthode est base sur une mesure de similarit entre vecteurs de mots : les contextes dun mot source et dun mot cible. La mesure calcule le nombre de mots en commun en contextes sources et cibles. Dans un contexte bilingue, les mots communs consistent en une paire bilingue de mots. Les contextes des mots en langue source et en langue cible sont reprsents sous la forme de vecteurs de mots. Chaque mot est associ sa mesure de poids dans le corpus (la mesure utilise est le TF/IDF).
La mthode dacquisition automatique de traductions compositionnelles de termes techniques de Tonoike et al. (2005) est base sur la collecte de corpus spcialiss partir du Web, partir de termes techniques complexes sources. Le corpus est utilis afin de valider des traductions candidates gnres par la concatnation des traductions (contenues au sein dune ressource existante) de chaque lment formant un terme complexe. Les termes techniques sources sont catgoriss selon trois groupes, en fonction du nombre de traductions candidates de chaque constituant du terme complexe disponibles au sein dune ressource bilingue existante (Tonoike et al., 2005). Les trois catgories sont les suivantes :
Les termes complexes dont les traductions candidates de chaque constituant sont gales un.
Les termes complexes dont les traductions candidates de chaque constituant sont suprieures un : la tche consiste slectionner la traduction approprie parmi les traductions candidates. La mthode de Tonoike et al. (2005) consiste slection la combinaison des traductions candidates formant un terme complexe cible la plus frquente au sein du corpus collect.
Ceux dont les traductions candidates ne sont pas recenss au sein du lexique bilingue : la tche consiste gnrer ces traductions.
129
5.6 Les frquences sur le Web pour laide au choix lexical

Lutilisation la plus rpandue des frquences sur le Web dans la vie courante concerne la vrification orthographique (Kilgarriff et Grefenstette, 2003). Par exemple, la rponse une hsitation entre les termes anglais speculater ou speculator nous est donne par Google :
Figure 41.
Recherche du terme speculator sur Google (aot 2008)
Figure 42.
Recherche du terme speculater sur Google (aot 2008)
Le principe de vrification lexicale partir dun moteur de recherche ne se limite pas la vrification orthographique. Le mme type de stratgie peut tre appliqu la vrification de traduction, lorsque plusieurs choix lexicaux sont candidats.
Grefenstette (1999) est l'un des premiers avoir mis en rapport lutilisation des frquences sur le Web avec le choix lexical pour la traduction. A partir dunits lexicales complexes (de type OM- OM) extraites dun lexique bilingue existant, pour les couples allemand/anglais et espagnol/anglais, dont la traduction est compositionnelle, les traductions de chaque lment sont combines et les frquences de chaque traduction candidate sont testes. Prenons pour exemple lunit lexicale groupe de travail. Les traductions candidates de groupe sont les suivantes (Grefenstette, 1999) :
130
groupe > cluster groupe > group groupe > grouping groupe > concern groupe > collective
Les traductions de travail sont les suivantes :

travail > work travail > labor travail > labour
Une combinaison de toutes les traductions possibles offre la combinatoire suivante :

work cluster, work group, work grouping, work concern, work collective labor cluster, labor group, labor grouping, labor concern, labor collective labour cluster, labour group, labuor grouping, labour concern, labour collective
Les requtes de chaque traduction candidate donnent les rsultats suivants (ibid.) :
131
Figure 43.
Rsultats de frquences des traductions candidates
Les rsultats de frquences sur le Web permettent de slectionner la traduction adquate (ici work group). Les rsultats montrent une prcision de 86-87% pour des dcisions gnres via le plus grand nombre d'occurrences retournes pour chaque traduction candidate sur le moteur de recherche Altavita. Les tests de Grefenstette (1999) sont limits des combinaisons lexicales contraintes dj traduites au sein dun dictionnaire, en vue de tester lutilit du Web pour ce type de tches dacquisition de traductions. Wehmeier (2004) propose un outil bas sur une mthode qui se situe dans la mme ligne que Grefenstette (1999), pour la catgorie nom-adjectif en allemand et en anglais. La mthode de validation est base sur les rsultats de la frquence la plus leve pour toutes les traductions candidates, partir du moteur de recherche Google. Les collocations sources ont t extraites partir dun chantillon du British ational Corpus. Une valuation indpendante des ressources teste partir dun
chantillon de 100 collocations donne une prcision de 67,75 % pour une parfaite intelligibilit et de 82,5% pour une comprhension gnrale. Contrairement nous, Grefenstette (1999) et Wehmeier (2004) exploitent des collocations source non issues du Web. Dans la mme ligne, Cao et Li (2002) proposent une mthode mixte, dans laquelle les frquences sur le Web de combinaisons lexicales contraintes candidates sont galement exploites en tant quindice de validation. Leur exprimentation est base sur la traduction de phrases nominales de langlais vers le chinois. A partir dune unit lexicale complexe, les traductions candidates sont recherches sur le Web et des calculs statistiques sont employes pour la validation. Li et al. (2003) dveloppe un systme, le English Reading Wizard utilis pour laide la lecture et la comprhension, bas sur la mme mthode que Cao et Li (2002).
132
5.6.2 Vracit vs. popularit

Nous soulignons une consquence thorique des mthodes dacquisition de traductions partir des frquences sur le Web et insistons sur deux phnomnes non parfaitement assimilables. La popularit dun vnement retourn par un moteur de recherche ne garantit pas sa vracit. En effet, une expression peu usite et peu populaire peut avoir une valeur de vrit, tandis quune expression populaire peut ne pas avoir cette valeur de vracit. Toutefois, dun point de vue pratique, il nest pas vident de palier cette limite thorique. Notre hypothse est que la frquence des expressions linguistiques sur le Web est, dans une certaine mesure, le reflet de lusage. Naturellement, ce miroir linguistique ne peut tre considr que comme un miroir dformant puisquil est dpendant des rsultats retourns par les moteurs de recherche. Toutefois, le linguiste se doit dutiliser les outils quil a sa disposition, en gardant conscience de leurs limites. Dans nos travaux, nous utilisons la mthode des frquences au cours dune phase de notre mthodologie, tout en gardant conscience que la popularit des vnements langagiers retourns par les moteurs de recherche nest pas un gage aveugle de vracit. Lajout dautres phases de traitement, ainsi que dune srie de filtres nous permettent dexploiter lintrt pratique de telles mthodes, sans tre rellement victimes des effets nfastes de la seule prise en compte des frquences sur le Web. De plus, le recours une tape de validation humaine nous permet de contrler nos donnes et de tester la validit de notre processus de traitement.
5.7 Conclusion
Notre mthode est un systme modulaire, qui sappuie sur diffrentes stratgies dutilisation du Web bilingue , en fonction des caractristiques des units lexicales complexes :
Utilisation du Web parallle et partiellement parallle : les caractristiques du Web parallle et partiellement parallle sont exploites dans notre mthode afin de filtrer au pralable les nombreuses traductions candidates gnres automatiquement (phase 2, chapitre 7 et phase 3, chapitre 8). Notre hypothse est quune traduction valide doit apparatre au moins une fois en co-occurrence avec lunit lexicale complexe source au sein dun mme document.
133
Le Web partiellement parallle intervient galement lorsque notre systme collecte des rsums mixtes (phase 3, chapitre 8). Ces derniers sont utiliss afin de reprer des traductions non compositionnelles ou inconnues des dictionnaires.
Utilisation du Web en tant que corpus comparable : les caractristiques du Web comparables sont exploites lors de notre acquisition automatique de mondes lexicaux en langue source et en langue cible (phase 2, chapitre 7). Notre hypothse est quune traduction candidate valide doit avoir un environnement textuel sur le Web ( monde lexical ) proche de celui de lunit lexicale complexe source.
Utilisation des frquences sur le Web : les frquences sur le Web sont exploites dans une seule tape de notre phase, celle qui concerne les traductions compositionnelles non polysmiques (phase 1, chapitre 6). Les frquences sont utilises afin de prendre une dcision de validation ou de non validation lorsquun unique choix de traduction candidate ne se prsente.
Loriginalit de notre approche est, dune part, de combiner ces diffrentes stratgies de faon modulaire et dautre part, dadapter les traitements en fonction des caractristiques des units lexicales complexes sources (compositionnalit, traduction des constituants inconnue de notre dictionnaire, etc.). Notre mthodologie est base sur des prises de dcision, dont les rsultats obtenus chaque tape sont limins des units lexicales restantes traduire. Nous prenons pour point de dpart les seules informations de traduction des constituants (base et cooccurrent) contenues dans notre dictionnaire. La premire prise de dcision du systme est base sur le nombre de traductions candidates possibles pour chaque constituant. Si chaque constituant na quune traduction candidate, le traitement consiste dcider si la traduction candidate est valide. En revanche, si chaque constituant connat plus dune traduction candidate, il sagit deffectuer un choix lexical entre les traductions candidates avant de juger si la combinaison est correcte. Enfin, si aucune des combinaisons traduites candidates na t valide, une autre mthode sera employe afin de rsoudre lune des deux difficults restantes :
134
la combinaison traduite est compositionnelle, mais il nous manque lune (ou les deux) traductions adquates pour les constituants ;
la combinaison nest pas compositionnelle, et il nous faut alors obtenir la traduction adquate sans passer par une phase de traduction littrale.
6- Architecture et spcification du systme dacquisition des traductions
135
Chapitre 6.
Architecture et spcification du
systme dacquisition des traductions
6.1
Introduction
Notre mthodologie passe par deux grandes phases, lune dacquisition dunits lexicales complexes monolingues, lautre de traduction. La phase dacquisition monolingue consiste en la construction dun trs vaste corpus de pages Web, en franais dont sont extraites les units lexicales complexes sources. La phase de traduction est compose dune architecture modulaire, qui analyse les proprits des units traduire et les regroupe dans le module de traitement adapt. Nous prsentons chaque module de traduction dans un chapitre individuel. Ce chapitre traite de notre premire phase de traduction, celle qui concerne les units lexicales non polysmiques. Nous prsentons dabord notre mthode dacquisition dunits lexicales complexes sources (en franais), partir dun vaste corpus de pages Web (6.2). Nous dcrivons ensuite le premier module de traduction, qui dtecte et traduit les units lexicales compositionnelles non polysmiques (6.3 6.7). Nous analysons enfin les rsultats de cette tape (6.8). Notre mthodologie de traduction1 rpond deux spcificits, le fait dtre constitue dune architecture modulaire adapte aux caractristiques des units lexicales, et le
1
Toutes les expriences rapportes dans cette thse ont t ralises sous environnement Linux, par la ralisation
de scripts crits en bash et en PERL.
136
fait de procder par limination successive, cest--dire que les units non traduites dans un module sont relgues au module suivant.
Architecture modulaire
Notre mthodologie dacquisition de traductions est adapte aux caractristiques linguistiques des units traduire. Chaque module est spcifique une caractristique donne. Nous nous centrons sur le degr de polysmie des units lexicales sources, ainsi que sur leur caractre compositionnel ou non-compositionnel. Notre hypothse est que la tche de traduction est dpendante de ces deux critres :
Degr de polysmie : lorsquau moins un des constituants de lunit lexicale complexe est polysmique, la tche de traduction consiste slectionner lunit lexicale cible adquate parmi toutes les traductions candidates. Ce choix implique une dsambigisation lexicale de lunit source. Par exemple, afin de valider la traduction candidate central fund, pour caisse centrale, il faut connatre lusage de caisse (BA QUE) et le slectionner parmi de nombreux choix dusages possibles (TAMBOUR drum, VALISE case, etc.). En revanche, lorsque les deux
constituants de lunit lexicale complexe ne sont pas polysmiques, la tche de traduction ne consiste plus en un choix lexical, mais en une dcision de validation ou de non validation. Il sagit de juger de l aspect collocationnel de la traduction candidate.
Compositionnalit : nous avons montr que certaines units lexicales complexes sont transparentes du point de vue du sens, et dautres ne le sont pas. La tche de traduction doit sinterroger sur le caractre transparent ou non transparent de la traduction. Si la traduction est transparente, une simple combinaison de la traduction de chaque constituant est satisfaisante, partir de ressources dictionnairiques. En revanche, si la traduction nest pas transparente, nous utilisons le Web pour collecter la traduction adquate.
137
Notre mthode est constitue de modules adapts chaque cas.
Eliminations successives
Le traitement modulaire fonctionne galement par filtres successifs, cest--dire que les units lexicales complexes non traduites dans un module sont relgues au module suivant. Les modules ne fonctionnent donc pas en parallle, mais de faon successive. Chaque module a accs aux informations de non validation des units prcdentes et les traite de la mme faon que les autres units lexicales qui lui sont attribues doffice, par leurs caractristiques. A partir dune liste dunits sources, celles qui sont valides dans la premire phase sont limines de la liste. Les units restantes sont traites ltape suivante, et ainsi de suite.
La figure 44 synthtise lensemble de notre mthodologie :
CORPUS DE PAGES WEB
EXTRACTION AUTOMATIQUE
UNITES LEXICALES COMPLEXES SOURCES
RESSOURCES EXISTANTES (6.23%) PHASE 1 Frquences sur le Web (2.88%) PHASE 2 Mondes lexicaux (62.70%) PHASE 3 Cognates et bigrammes frquents (10.70%)
TRADUCTIONS OBTENUES (82.51%)
TRADUCTIONS NON OBTENUES (17.49%)
Figure 44.
Etapes de traitements
138
Dans une premire tape, nous collectons des units lexicales sources, en franais, partir dun vaste corpus de pages Web.
Nous gnrons ensuite toutes les traductions candidates via nos ressources dictionnairiques. Les traductions candidates sont analyses et leurs caractristiques sont utilises afin daffecter chaque unit lexicale source dans le module adapt.
Si aucun constituant de lunit lexicale complexe nest polysmique, nous appliquons une mthode base sur les frquences sur le Web. Les units lexicales complexes non traduites sont rejetes ltape suivante.
Si au moins un des lments est polysmique, nous procdons une comparaison des mondes lexicaux en franais et en anglais sur le Web, qui vise une dsambigisation lexicale pour la traduction. Les units lexicales complexes non traduites sont nouveau rejetes ltape suivante. Nous faisons lhypothse quun certain nombre des units non traduites sont non compositionnelles, car aucune des traductions candidates dont nous disposions via le dictionnaire na t valide ce stade.
Si la traduction est non compositionnelle, ou si lun des constituants est inconnu de notre dictionnaire, nous appliquons une mthode base sur une collecte de rsums mixtes sur le Web.
6.2 Acquisition automatique dunits lexicales complexes partir du Web
6.2.1 Contraintes dacquisition monolingue

Notre objectif est de proposer une mthodologie dacquisition automatique de traductions en anglais, partir dun grand nombre dunits lexicales complexes franaises. Afin de proposer un banc de test intressant, ces units lexicales complexes doivent tre nombreuses et les
139
usages des termes polysmiques varis. Nos contraintes dacquisition dunits lexicales sources sont les suivantes :
Lorsquun nom source est polysmique, les units lexicales complexes doivent sinscrire dans diffrents usages. Par exemple, pour le nom source appareil, nous souhaitons obtenir des usages tels que PHOTOGRAPHIQUE, ME AGER, etc. Nous ne visons pas lexhaustivit, mais le banc de test prsent doit tre difficile.
Nous visons la construction dune base lexicale de bonne qualit, avec une totale automatisation : les donnes tant nombreuses, une tche de validation manuelle serait trop coteuse.
Nous visons la construction dun lexique quantitativement tendu et volutif, qui puisse grossir de faon continue.
Devant la complexit des phnomnes de traduction des units lexicales, nous nous centrons sur un nombre rduit de relations syntaxiques :
OM-ADJECTIF OM-de (d)- OM
Une volution ultrieure sera dintgrer de nouveaux patrons morpho-syntaxiques au systme. Nous laissons volontairement de ct le patron morpho-syntaxique ADJECTIF- OM. Nous faisons lhypothse que les units lexicales de ce type restent souvent ambigus lexicalement, contrairement aux patrons tudis. Par exemple, si grosse caisse est une unit terminologique dont le sens de caisse est dsambigis, petite caisse ne permet pas de dsambigiser caisse.
Dans Lon (2006), nous testons un aspect de notre mthodologie dont les donnes sources sont les termes associs retourns par le moteur de recherche Exalead, cest--dire les squences polylexicales qui sont en co-occurrence frquente avec la requte. Lintrt de cette
140
fonctionnalit est de pouvoir affiner les requtes en incluant et/ou excluant des usages. Voici deux exemples de termes associs, les uns au terme appareil, les autres au terme caisse :
Figure 45.
Termes associs la requte caisse sur Exalead
Figure 46.
Termes associs la requte appareil sur Exalead
Plusieurs caractristiques ne rpondent pas nos contraintes actuelles :
Les usages sont trs peu diversifis. Par exemple, pour la requte appareil, seul un usage est reprsent (PHOTOGRAPHIQUE), ce qui est trs faible pour un nom fortement polysmique.
Les rsultats contiennent parfois du bruit.
La quantit de termes associs nest pas leve (une dizaine dans nos exemples).
141
Les termes associs ne sont pas ncessairement composs du terme cherch, comme par exemple grand angle, pour appareil, ce qui limite encore la quantit dunits lexicales complexes associes un terme simple.
Les patrons morpho-syntaxiques ne sont pas tous pertinents pour notre tude, ce qui rduirait davantage notre filtre.
Afin dobtenir une liste qui rponde nos critres et qui puisse grossir de faon volutive, nous optons pour la constitution dun trs vaste corpus de pages Web, collect partir de noms simples (ttes smantiques), en franais, partir duquel nous rcoltons les units lexicales complexes associes.
6.2.2 Collecte de pages Web et sous-corpus

Notre point de dpart constitue une liste dunits lexicales simples collectes de faon alatoire au sein de notre dictionnaire lectronique bilingue Collins Pocket (franais-anglais) partir desquels sont collectes les pages Web. En ltat actuel de nos travaux, le nombre dunits simples est au nombre de 1664. Toutefois, la collecte de pages Web continue de grossir. Les units lexicales simples doivent rpondre certains critres :
Seule la catgorie grammaticale des noms est conserve. Les noms constituent les ttes smantiques des units lexicales complexes extraites.
Les noms composs (typographiquement spars par un trait dunion) ne sont pas conservs, comme par exemple :
abat-jour vide-poches
142
Les noms composs forment une unit lexicale complexe en eux-mme, ce qui conduirait prendre en compte des units lexicales complexes de longueur plus leve que lobjectif dfini dans le cadre de nos travaux.
Nous supprimons les units lexicales complexes qui forment une entre lexicale en elle-mme, pour les mmes raisons que prcdemment, comme dans lexemple de :
compte rendu bret basque
Enfin nous ne tenons pas compte des Entits Nommes (critre typographique dune majuscule au dbut du terme), ce qui limine des termes du type de :
Alsace Yougoslavie
Pour chaque mono-terme, nous rcoltons les pages Web associes par le biais de requtes, via lAPI Yahoo1. Les requtes sont formules au singulier et au pluriel, uniquement pour les pages en franais. Elles sont sous la forme dexclusion du singulier ou du pluriel, afin dlargir les rsultats et se prsentent en trois temps pour un mme nom, comme dans lexemple suivant :
appareil -appareils appareils -appareil appareil +appareils
Nous collectons les mille premiers rsultats de chaque type de requte, ce qui donne environ 2500 pages de rsultats par nom simple, quantit variable selon la frquence demploi du nom
1
http://developer.yahoo.com/
143
sur le Web. Les pages Web sont ensuite nettoyes automatiquement par le biais de scripts afin dliminer le bruit, li aux caractristiques des pages Web (rtablissement de caractres d au codages, lignes vides, adresses Internet, images, PDF, etc.). Les pages Web sont ensuite tiquetes laide du logiciel dtiquetage morpho-syntaxique Treetagger1 . Nous constituons le sous-corpus tiquet de chaque mono-terme, en rcoltant son contexte de plus ou moins dix termes. Le rsultat constitue un sous-corpus des noms sources, qui se prsente sous la forme de trois colonnes, avec un terme par ligne et les informations de lemme, de forme et de catgorie grammaticale sur chaque colonne :
Figure 47.
Exemple de rsultat obtenu par Treetagger
6.2.3 Extraction dunits lexicales complexes

Notre mthode dextraction automatique dunits lexicales complexes sources est un processus compltement automatique, sans aucun filtre de validation manuelle.
Naturellement, les rsultats peuvent contenir une part de bruit. Toutefois, nous mettons en place une srie de filtres automatiques afin dliminer au maximum dventuelles units lexicales complexes errones. Nous partageons lide selon laquelle lextraction dunits lexicales complexes doit se baser sur des critres linguistiques et sur des critres de frquence (Daille, 1994) : une unit lexicale complexe est une co-occurrence prfrentielle de termes (donc relativement frquente), mais surtout elle entre dans une relation de dpendance
1
http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/
144
syntaxique. Pour nous, laspect de relation restreinte de dpendance syntaxique est le plus important, car le critre de frquence est un critre dlicat. Notre hypothse est que le Web peut tre utilis afin dvaluer l aspect collocationnel de dpendances syntaxiques pralablement collectes. Nous prsentons les critres didentification des units lexicales complexes, les critres morpho-syntaxiques dans un premier temps, et les critres de frquence dans un second temps.
Critres morpho-syntaxiques
A partir des sous-corpus tiquets, nous dfinissons les patrons morpho-syntaxiques rpondant aux relations de dpendances syntaxiques recherches. Notre mthode se base sur la dfinition de rgles filtrant des lments catgoriels avant et aprs lunit lexicale cible, afin dviter des ambigits de rattachement. Les rgles tablies nextraient que des units lexicales complexes contiges, ce qui prsente la limite dextraire des combinaisons principalement figes et dobtenir du silence dans le cas de certaines constructions syntaxiques. Dans Lon (2004b), nous avons ralis un extracteur dunits lexicales complexes en dfinissant des rgles de patrons catgoriels prenant en compte des lments non contigus, comme par exemple :
Le vent est fort (adjectif attribut) Le vent, qui est fort (proposition relative)
A partir de ces constructions syntaxiques, Lon (2004b) extrait lunit lexicale vent fort. Toutefois, nous optons volontairement ici pour un filtre simple, afin dviter au maximum des problmes de bruit et dobtenir une ressource lexicale de trs bonne qualit. Lon (2004b) sest appuy sur un corpus terminologique dont la contrainte premire est lexhaustivit des termes complexes collects, une phase manuelle permettant ensuite de valider les rsultats. Dans le cadre de cette thse, lextraction porte sur des donnes beaucoup plus vastes et nous prfrons favoriser la qualit des ressources monolingues afin de permettre une totale automatisation et nous centrer sur les mthodes de traduction. Notre hypothse est que lextraction de squences contiges est moins susceptible dtre bruite quune extraction de
145
dpendances non contiges. Nous prsentons les rgles morpho-syntaxiques et les contraintes associes1. OM ADJECTIF : nous collectons les patrons morpho-syntaxiques du type de OMADJECTIF, comme dans les exemples :
OM ADJECTIF appareil mnager caisse claire parc naturel
Les contraintes associes ce patron sont les suivantes : (1) Le syntagme ne doit pas tre suivi par un nom afin dviter des erreurs de rattachement du type de :
OM ADJECTIF OM abonnement haut dbit
Dans cet exemple, le syntagme collecterait le syntagme abonnement haut, ce qui nest pas pertinent.
(2) Le syntagme OM ADJECTIF ne doit pas tre suivi par une prposition suivie dun nom, comme dans lexemple :
OM ADJECTIF PREPOSITIO OM
Notre mthodologie peut tre victime dventuelles erreurs dtiquetage morpho-syntaxique du logiciel
Treetagger, mais aucun logiciel tiquetage ne prsente aucun bruit dans ses rsultats.
146
Abri haut de gamme
Dans cet exemple, notre mthode collecterait lunit abri haut.
OM PREPOSITIO
OM : nous nous centrons sur la seule prposition de, ainsi
que sur son extension d. Le nom cible peut apparatre en position 1 ou en position 2, comme dans les deux exemples pour le nom caisse :
OM PREPOSITIO Logiciel de caisse Caisse de retraite OM
Les contraintes tablies pour ce patron sont les suivantes :
(1) Le syntagme ne doit pas tre suivi par une prposition suivie dun nom :
OM DE(D) OM-PREPOSITIO - OM amour de cours de recration
Le syntagme erron dans cette exemple serait amour de cours.
(2) Le syntagme ne doit pas tre suivi par un adjectif :

OM DE(D) OM ADJECTIF Abattement de revenu imposable
Dans cet exemple, nous aurions collect abattement de revenu.
(3) Le syntagme ne doit pas tre suivi par un nom :
147
OM DE(D) OM - OM Appareil dAir France
Nous aurions ici identifi appareil dair.
Un anti-dictionnaire est appliqu aux patrons obtenus afin dliminer des mots gnraux ou non pertinents tels que divers, autre, diffrent, etc. Le schma suivant prsente un graphe de dcision appliqu aux patrons morpho-syntaxiques traits :
NOM appareil
D ADJ mnager DE NOM imagerie NOM musculation
Figure 48.
Graphe de dcision des patrons syntaxiques pour lidentification des termes complexes
Critres de frquence
Parmi les patrons morpho-syntaxiques collects, nous posons plusieurs filtres de frquence. Ces filtres sont considrs comme une valuation de l aspect collocationnel des relations
148
de dpendance syntaxique collectes. Ils permettent galement de filtrer dventuelles erreurs lies ltiquetage morpho-syntaxique.
La frquence de lunit lexicale complexe au sein des pages Web relies au nomsource correspondant doit tre suprieure ou gale 10. Ce filtre est volontairement peu lev car notre hypothse est que les units lexicales complexes peuvent apparatre un nombre rduit de fois dans les corpus envisags.
Les frquences des units lexicales complexes sont ensuite testes sur le Web, afin dvaluer leur aspect collocationnel . Nous posons deux critres de frquences, simples, partir du Web :
La frquence de lunit lexicale sur le Web doit tre suprieure ou gale 10000.
La frquence de lunit lexicale, prcde par un article (dfini ou indfini), sur le Web doit tre suprieure ou gale 1000. Les requtes sont du type de :
lappareil mnager OR un appareil mnager
Notre hypothse est que les units lexicales pertinentes sont certainement employes avec un article de faon significative. Par exemple, la requte lappareil mnager OR un appareil mnager compte une frquence de 43 500, tandis que la requte un style descalade OR le style descalade apparat 358 fois. Le choix des valeurs a t dtermin de faon empirique, par observation des donnes. Ce filtre peut provoquer du silence dans certains cas, mais nous posons volontairement un filtre lev afin dobtenir des ressources de trs bonne qualit. Cette difficult est lie la zone dincertitude des units lexicales complexes aborde dans le chapitre 2. Un filtre moins lev aurait gnr des units lexicales complexes dont le statut collocationnel est susceptible dtre moins significatif.
149
6.2.4 Analyse des units lexicales sources

A lissue de cette tape, nous obtenons 9664 units lexicales complexes, en franais, associes 1664 ttes smantiques (noms simples). Le nombre moyen dunits lexicales complexes par tte smantique est de 5,8. Le nombre moyen est beaucoup plus lev pour les ttes smantiques polysmiques. Notre corpus de pages Web, quant lui, est constitu denviron 4 160 000 pages Web. Le schma 49 prsente le nombre dunits lexicales sources obtenus par patron morpho-syntaxique :
Patron morpho-syntaxique Total OM ADJECTIF OM-DE- OM OM-D- OM TOTAL Figure 49. 5166 2934 1564 9664
Proportion dunits lexicales complexes par patron morphosyntaxique
Le patron morpho-syntaxique
OM-ADJECTIF est particulirement productif, puisquil
concerne plus de la moiti des cas (53.45%). Le patron OM-DE- OM concerne, lui, 30.36% des cas, suivi du patron OM-d- OM pour 16.18% des cas. Voici un exemple dunits
lexicales complexes associes au nom polysmique caisse :
caisse OM2 OM1 caisse caisse OM2 caisse ADJECTIF
d' de de OM-ADJ
allocation, amortissement, assurance, pargne bas, logiciel, ticket compensation, dpt, garantie, mutualit, pension, prvoyance, rsonance, retraite, scurit autonome, centrale, claire, commune, fdrale, nationale, noire, populaire, primaire, rgionale
Figure 50.
Units lexicales complexes associes au nom caisse
Lobjectif de notre extraction dunits lexicales complexes nest pas dobtenir une liste exhaustive de co-occurrents pour chaque nom, mais dobtenir ses co-occurrences les plus
150
significatives, tout en obtenant des usages varis pour les noms polysmiques. Les exemples montrent que les usages sont diversifis, puisquon obtient entre autres, pour caisse, les usages MUSIQUE, BA QUE, VOITURE, etc. Voici les units lexicales associes au monoterme appareil :
appareil OM2 OM1 appareil appareil OM2
d' d' de
tat, imagerie, catgorie chauffage, contrle, cuisson, mesure, poche, production, protection OM-ADJ administratif, argentique, auditif,circulatoire, compact, critique, dentaire, digestif, lectrique, lectromnager, lectronique, tatique, gnital, gouvernemental, judiciaire, locomoteur, mnager, militaire, mobile, numrique, photo, photographique, politique, portable, productif, rflex, rpressif, reproducteur, respiratoire, urinaire
appareil ADJECTIF
Figure 51.
Units lexicales complexes associes au nom appareil
Voici celles associes au nom parc :
parc OM2 OM1 parc parc OM2 parc ADJECTIF
d' de de OM-ADJ
activit, attraction, aventure, exposition gestion, place, projet bagatelle, loisirs, production, stationnement, verdure actuel, aquatique, arbor, archologique, automobile, bois, botanique, communal, dpartemental, olien, ferm, fleuri, floral, forestier, franais, historique, htelier, immobilier, industriel, informatique, linaire, locatif, marin, matriel, municipal, national, naturel, nuclaire, olympique, ornithologique, paysag, paysager, priv, provincial, public, rgional, rsidentiel, scientifique, social, technologique, thmatique, tropical, urbain, verdoyant, zoologique
Figure 52.
Units lexicales complexes associes au nom parc
Voici les units lexicales collectes pour le nom rapport :
151
rapport OM2
d'
OM1 rapport rapport OM2 rapport ADJECTIF
de de
activit, analyse, audit, autopsie, avancement, enqute, erreur, tape, tude, valuation, expert, expertise, information, vraisemblance formulaire, immeuble, modle, projet contraste, contrle, force, gestion, mission, police, projet, recherche, situation, stage, suivi, synthse
OM-ADJ annuel, conjoint, dfinitif, conomique, troit, explicatif, final, financier, global, hebdomadaire, indiqu, intgral, intrimaire, interne, mdical, mensuel, mondial, moral, national, officiel, parlementaire, priodique, prcdent, public, quotidien, scientifique, semestriel, sexuel, social, sommaire, statistique, technique, trimestriel
Figure 53.
Units lexicales complexes associes au nom rapport
Voici les units lexicales du nom tour :
tour OM2 OM1 tour tour OM2
d' de de
tour ADJECTIF
angle, argent, honneur, horizon, ivoire quart babel, chant, chauffe, cochon, contrle, cou, force, garde, guet, jeu, lit, magie, main, mange, passe, passe-passe, piste, poitrine, scrutin, table, taille, ville, vis OM-ADJ cycliste, final, prcdent, rapide
Figure 54.
Units lexicales complexes associes au nom tour
Afin de tester notre mthode de traduction, nous ralisons un chantillon alatoire parmi les units lexicales complexes obtenues. Le sondage alatoire est un principe statistique simple qui nous laisse supposer quil est reprsentatif des rsultats que nous pourrions obtenir sur un autre chantillon ou sur la totalit de nos units lexicales complexes. Naturellement, les rsultats ne seraient pas compltement les mmes, mais le sondage alatoire est une mesure communment admise pour tre reprsentative dune population donne. Cet chantillon comporte 1075 units lexicales complexes, soit 11.12% de la totalit de notre base. La section suivante dtaille la premire phase de notre mthodologie.
152
6.3 Prsentation de lapproche de traduction

Dans Lon et Millon (2005), nous prsentons une mthode dacquisition automatique de cooccurrences bilingues (franais-anglais), du type de VERBE OM ADJECTIF, OM1 DE OM2 et
OM(objet), bas sur un processus de validation sur le Web. A partir dunits
lexicales complexes en franais, Lon et Millon (2005) gnrent toutes leurs traductions candidates grce un dictionnaire lectronique. Ces traductions sont automatiquement filtres partir des rsultats de leurs frquences, sur le moteur de recherche Google. Lvaluation porte sur 10 mots franais trs polysmiques (barrage, dtention, formation, lancement, organe, passage, restauration, solution, station et vol) qui avaient t jugs comme les plus polysmiques parmi 200 noms de frquence quivalente, lors du projet Senseval (Vronis, 1998) et constituent un banc de test difficile, qui a t utilis par la suite dans divers travaux. Prenons les co-occurrences lexicales suivantes :
commettre un vol rserver un vol
En combinant les traductions de chaque lment, les frquences constituent une aide pour le choix lexical des units cibles, ici entre theft (usage DELIT) et flight (usage AERIE ), par exemple. Google permet de valider les traductions correctes, grce leur nombre doccurrences. Par exemple, la requte [commit a flight OR commit the flight] retourne seulement 13 rsultats. La requte [commit a theft OR commit the theft] retourne quant elle 5110 rsultats. Parmi ces deux traductions candidates, les rsultats slectionnent de faon crasante la traduction satisfaisante (to commit-theft), dans la ligne des travaux de Grefenstette (1999) et de Cao et Li (2002) :
Effectifs absolus flight commit reserve 13 33 500 theft 5510 3 Effectifs par million flight 0 592 theft 306 0
Figure 55.
Exemples de rsultats sur Google (janvier 2005)
153
Lvaluation de la mthode de Lon et Millon (2005) montre que le Web permet de constituer ou complter des bases de donnes lexicales multilingues de bonne qualit, de faon automatique, partir des frquences sur le Web. Les rsultats sont particulirement intressants pour les patrons syntaxiques de type OM ADJECTIF (prcision de 97,1 %) et
VERBE OM(objet) (prcision de 88,9 %). La mthode reste imparfaite pour le patron OM1 DE OM2, mais le taux de prcision est honorable (76,9%), surtout tant donn la difficult volontaire du banc de test choisi (mots trs polysmiques). La limite principale de la mthode de Lon et Millon (2005) est dordre lexical. Elle concerne lacquisition de traductions valides, mais non correspondantes lunit lexicale source, comme dans lexemple :
cours de formation > group rate
Ici, lune des traductions candidates du nom polysmique cours est rate (usage FI A CE), tandis que lune des traductions candidates du nom polysmique formation est group (usage COLLECTIVITE). Bien que ces deux choix lexicaux soient incorrects, la mthode valide cette traduction car group rate est une unit lexicale existante, qui signifie tarif de groupe. Pourtant, la prise en compte du contexte lexical de lunit lexicale source, cours de formation dans notre exemple et de sa traduction candidate errone group rate est un indice dsambiguisateur fort : notre hypothse est que les mondes lexicaux franais et anglais doivent tre proches entre une unit lexicale source et sa traduction adquate, tandis quils doivent tre diffrents lorsque la traduction est errone. Une observation des rsums retourns par le moteur de recherche Yahoo, par exemple, permet daccder au contexte lexical et de comparer les mondes lexicaux. Comparons par exemple les rsums retourns pour cours de formation et sa traduction correcte, training course :
154
Figure 56.
Rsums associs cours de formation
Figure 57.
Rsums associs training course
Laccs aux contextes lexicaux permet une comparaison des mondes lexicaux en franais et en anglais : nous observons que la thmatique est proche. En revanche, le contexte lexical de la traduction errone, group rate est diffrent :
155
Figure 58.
Rsums associs group rate
Dans le chapitre suivant, nous montrons que les mondes lexicaux retourns par les rsums des requtes sur un moteur de recherche permettent une dsambigisation lexicale pour la traduction. Toutefois, certaines units lexicales complexes ne sont pas polysmiques et la tche de traduction ne consiste pas en un choix lexical, mais en une simple valuation de l aspect collocationnel de la traduction candidate. Notre hypothse est quune mthode base sur les frquences sur le Web est satisfaisante pour des units lexicales non polysmiques, tandis quelle ne permet pas de palier tous les cas dambigit lexicale. Dans notre travail de thse, notre premire phase consiste traiter les units lexicales non polysmiques, par une mthode proche de Lon et Millon (2005). Nous valuons le degr de polysmie des units lexicales et nous nappliquons cette phase de mthodologie quaux units non polysmiques. La section suivante dtaille premirement lutilisation de ressources lexicales existantes pour les traductions dj rpertories (6.4), et deuximement, elle dcrit notre mthode de traduction des units lexicales non polysmiques (6.5 6.8).
6.4 Ressources pralables

Les dictionnaires courants contiennent un nombre restreint dunits lexicales complexes, gnralement les plus figes. Le Collins Pocket French-English Dictionary, disponible dans lquipe sous forme lectronique grce un accord avec lditeur Collins, ne propose de traductions que pour 2.60% des units lexicales dont nous disposons comme chantillon, telles que :
156
agence matrimoniale > matrimonial marriage bain moussant > bubble bath. cordon ombilical > umbilical cord
Lorsque le dictionnaire propose une traduction, nous ne gnrons pas de traduction supplmentaire. Un avantage de cette phase est de traiter certains cas dunits lexicales complexes qui se traduisent en anglais par une unit lexicale simple :
coup de balai > sweep gant de toilette > flannel
Le plus souvent, ces units lexicales napparaissent que dans un sens de traduction, celui de langlais vers le franais. Afin dlargir au maximum notre collecte, nous prenons en compte les deux sens de traduction. La figure 59 donne un exemple de traductions directement recenses dans notre dictionnaire.
157
PATRO OM ADJECTIF
U ITE LEXICALE SOURCE agence matrimoniale bain moussant carte postale corde raide cordon ombilical escalier roulant homicide involontaire
TRADUCTIO matrimonial marriage bubble bath postcard tightrope umbilical cord escalator manslaughter vine rosebud sweep heatstroke night porter football player emergency exit groundsheet table wine water main tank waiting list aluminium foil filling station
OM de OM
OM d' OM
plante grimpante bouton de rose coup de balai coup de chaleur gardien de nuit joueur de football sortie de secours tapis de sol vin de table canalisation d'eau char d'assaut liste d'attente papier d'aluminium station d'essence
Figure 59.
Exemples de traductions obtenues avec le dictionnaire Collins Pocket
Il arrive que plusieurs traductions soient proposes pour une mme unit lexicale source. Dans ce cas, nous slectionnons celle qui a la frquence la plus haute sur le moteur de recherche Yahoo, pour la seule langue anglaise. Par exemple, les traductions suivantes sont recenses pour coup de soleil :
sunburn (Frquence : 21 800 000) sunstroke (Frquence : 1 980 000)
La traduction sunburn est slectionne. Notre objectif est de ne proposer quune traduction par unit source afin dvaluer de faon efficace les cas de dsambigisation lexicale lorsquun nom est polysmique (tape suivante). Nous appliquons le mme principe de choix unique tout notre lexique.
158
Le dictionnaire en ligne de Google1 propose, quant lui, pour 3.62% de traductions des units lexicales sources traduire. Nous collectons les traductions existantes. La Figure 60 illustre des traductions obtenues avec le dictionnaire de Google.
PATRO OM ADJECTIF
U ITE LEXICALE SOURCE animal domestique an prochain antenne parabolique carte bleue formation continue fromage rp reprise conomique
TRADUCTIO pet next year satellite dish credit card continuing education grated cheese economic recovery bill of sale engagement ring corn starch sea front tummy ache vine shower curtain dealer
OM de OM
acte de vente bague de fianailles farine de mas front de mer mal de ventre pied de vigne rideau de douche trafiquant de drogue
Figure 60.
Exemples de traductions obtenues avec le dictionnaire Google
Les traductions obtenues lissue de ces deux tapes sont stockes dans notre base de rsultat et sont limines des traductions restant traduire. Le dictionnaire Google est galement pralablement test afin de collecter les traductions de co-occurrents inconnus de notre dictionnaire : aucun nayant t obtenu pour cette phase, nous aborderons ce sujet dans le chapitre suivant.
http://translate.google.com/translate_dict?hl=fr. Le dictionnaire est distinguer du service de Traduction
Automatique et du service de recherche interlingue. Nous ne nous rfrons qu des ressources lexicales dont les rsultats ne sont pas gnrs de faon automatique, afin de ne pas bruiter nos rsultats avec des rsultats gnrs par dautres systmes automatiques.
159
6.5 Dtection du degr de polysmie

Afin dvaluer le degr de polysmie des units lexicales restant traduire, nous nous appuyons sur le nombre de traductions candidates de chaque constituant recens au sein du dictionnaire bilingue. Nous faisons lhypothse quune unit lexicale dont les traductions candidates sont nombreuses est fortement polysmique, en nous appuyant sur le principe de Dagan (1991) :
les diffrents sens dun mot sont dtermins par les diffrentes traductions de ce mot dans une autre langue
Pour chaque unit lexicale source, nous comptabilisons le nombre de traductions recenses pour ses constituants. Nous ne conservons pour cette phase que celles dont les constituants ne comptent quune traduction candidate1. Par exemple, ambiance musicale est
conserve puisque ambiance et musicale ne comptent respectivement quune seule traduction :

ambiance > atmosphere musical > musical ambiance musicale > musical atmosphere
Les units lexicales dont au moins lun des constituants compte plus dune traduction ne sont pas conserves. Par exemple, abandon de poste nest pas conserv pour cette phase : abandon compte cinq traductions et poste en compte huit. Lorsque la traduction dau moins lun des constituants est inconnu, lunit lexicale nest pas traite dans cette tape, comme dans lexemple :
Nous nous basons sur le dictionnaire que nous utilisons, mme si nous avons conscience que certaines
traductions peuvent tre omises.
160
acide folique
La traduction du co-occurrent folique nest pas recense car ce terme est trop technique. La dtection de traductions inconnues est traite dans une phase cet effet.
Les units lexicales non polysmiques constituent 5.02% de notre chantillon. Dans cette phase, lobjectif nest pas de slectionner une traduction valide parmi des traductions candidates, mais de dterminer si lunique traduction1 est valide ou pas.
6.6 Gnration de traductions candidates

Nous gnrons les traductions candidates, partir de notre dictionnaire lectronique. La mthode se fonde sur deux hypothses, lune dordre morpho-syntaxique, lautre dordre smantique.
Hypothse 1 : Critre morpho-syntaxique

Nous fondons lhypothse selon laquelle il existe des quivalences de traductions de patrons morpho-syntaxiques rgulires entre le franais et langlais. Ces rgularits se formalisent par le biais de rgles de transformation syntaxique de la langue source vers la langue cible.
En ce qui concerne le patron source
OM1 DE
OM2, on oppose gnralement le type
roman , caractris par lordre dtermin-dterminant (bleu fonc, point de vue) du type germanique , caractris par lordre dterminant-dtermin (dark blue, viewpoint) (Chuquet et Paillard, 1987). Ainsi, le patron syntaxique OM1 DE OM2 en franais peut
tre traduit par diffrentes structures en anglais selon la relation smantique considre entre les deux objets. Selon Tournier (1985), le type roman
1
OM-PREP- OM nest pas
Pour le patron
OM-de-(d)- OM, deux traductions candidates sont proposes car nous prenons en compte
deux patrons syntaxiques cibles. Toutefois, il nexiste quun choix lexical, qui se manifeste dans deux constructions syntaxiques.
161
ngligeable en anglais, mais le type
OM- OM est dominant. (Chuquet et Paillard, 1987).
Nous traitons ces deux types de transformations syntaxiques (ibid.) :
le patron OM2 OM1 en anglais marque une relation troite entre les deux noms. Nous posons la rgle de transformation :
OM1 DE(D) OM2 > OM2 OM1 caisse de retraite > pension fund
Le processus de composition offre une grande souplesse en anglais et la juxtaposition des composants peut faire intervenir des relations syntactico-smantiques varies (ibid.) :
Sujet/Verbe ou Verbe/Sujet :
sunshine (the sun shines)
Objet/Verbe ou Verbe/Objet :
taxi driver (X drives the car)
Identification :
handlebar (the bar is handle)
Intrumental :
searchlight (X searches with the light)
Locatif :
call box (X calls from the box)
162
Le franais exploite moins cette diversit : les composs par juxtaposition, peu nombreux, correspondent presque exclusivement soit une relation de localisation (coin cuisine), soit la relation verbe/objet (portefeuille). Les composs en anglais posent une difficult dambigut structurale, quant la porte de chacun des termes sur les autres, comme dans lexemple (ibid.) :
[ [ modern history ] section ]
la structure OM1 of qui se traduit par la rgle :
OM2 accorde la priorit llment repr ( OM2)1, ce
OM1 DE(D) OM2 fils dhomme > son of man
Ce type de structure explicite la relation entre les deux lments, par le biais de la prposition (ibid.). Cette explicitation est efface dans la structure OM- OM.
Le patron syntaxique
OM ADJECTIF est traduit par le patron ADJECTIF
OM, puisque
ladjectif est ncessairement antpos en anglais :

OM ADJECTIF > ADJECTIF OM appareil digital > digital camera
Le cas du gnitif (NOM1s NOM2) nest pas pris en compte dans le cadre de notre tude. Nous aurions pu galement tester le patron morphosyntaxique NOM2NOM1 accols, mais nous faisons le choix de ne pas traiter ce patron, plus dlicat, de par sa structure particulire dunit lexicale simple. Une volution ultrieure sera dajouter ces deux patrons morphosyntaxiques candidats. Notons que, parmi les erreurs de traduction de type morpho-syntaxique que nous analysons dans nos rsultats (chapitre 9), certaines sont dues une absence du gnitif, mais aucune na t rpertorie pour labsence du patron NOM2NOM1.
163
Hypothse 2 : Critre smantique
Dun point de vue smantique, notre hypothse est quun certain nombre dunits lexicales complexes sont transparentes du point de vue de la traduction, cest--dire que la somme des traductions permet dobtenir la traduction adquate, comme dans lexemple :
psychologie sociale > social psychology
Si la traduction rpond cette hypothse, notre filtre automatique la validera. En revanche, si la traduction nest pas transparente, ou si nos ressources dictionnairiques ne sont pas adquates (usage non recens), elle ne sera pas valide et sera soumise ltape de traitement suivant. Nous gnrons automatiquement toutes les traductions candidates via le Collins Pocket selon la mthode de Lon et Millon (2005) et Lon (2006), qui consiste gnrer toutes les combinaisons possibles des traductions des lments simples. Prenons pour exemple :
institut de psychologie
Le Collins Pocket donne les traductions suivantes pour les units lexicales sources institut et psychologie (unit lexicale source vers unit lexicale cible) :
institut > institute psychologie > psychology
Notre programme gnre la combinatoire en appliquant les rgles de transformation syntaxique. Deux traductions candidates sont obtenues pour le patron OM-de- OM :
institut de psychologie > institute of psychology institut de psychologie > psychology institute
164
Afin davoir un ensemble de traductions le plus exhaustif possible, nous recensons galement les traductions inverses des units lexicales franaises, en recherchant ces dernires lorsquelles apparaissent en tant que traduction dans la version English-French, ce qui rajoute parfois des traductions supplmentaires, comme pour vol :
larceny, robbery, snatch vol
6.7 Interrogation automatique du moteur de recherche Yahoo

Le moteur de recherche Yahoo est interrog automatiquement laide de linterface de programmation dapplications API (Application Programming Interface)1 afin de rcuprer le nombre doccurrences2 de chaque traduction candidate. Ces frquences seront utilises lors de la validation3. Pour chaque traduction candidate, nous gnrons un ensemble de requtes (voir Figure 57), en considrant les mots de la requte comme une expression exacte, via lutilisation des guillemets. La recherche est restreinte aux pages Web de langue anglaise.
Patron syntaxique source OM ADJECTIF OM1 de OM2 Requte (en langue cible) "the ADJ NOM" OR "a ADJ NOM" "the NOM1 of NOM2" OR "a NOM1 of NOM2" "the NOM2 NOM1" OR "a NOM2 NOM1"
Figure 61.
Patrons des requtes des combinaisons lexicales anglaises
http://developer.yahoo.com/search/ Des diffrences ont t remarques entre le nombre de rsultats renvoys par lAPI et par linterface Web. Le choix dutilisation du moteur de recherche Yahoo plutt que Google sexplique par lobservation de
rsultats de frquences de Google peu fiables dans le cadre de certaines configurations de requtes (http://aixtal.blogspot.com/2005/02/web-le-mystre-des-pages-manquantes-de.html).
165
Les combinaisons boolennes ramnent un ensemble de rsultats qui prend en compte les variations dues aux changements darticle, comme dans lexemple :
"the American journalist" OR "an American journalist".
Lutilisation darticles dans les requtes du patron syntaxique
OM ADJECTIF permet
galement de rduire le problme de lambigut catgorielle. Par exemple, complete peut tre un adjectif (entier, complet, intgral, total) ou un verbe (parfaire, complter). La collocation complete restoration est ambigu. Lajout de larticle permet dliminer les cas o complete est un verbe.
6.8 Validation automatique

Afin de rduire le bruit, un filtre simple est appliqu aux traductions restantes. Nous ne conservons que celles dont la frquence sur le Web est au moins gale un dix-millme des occurrences du mot cible1. Prenons pour exemple2 messe de minuit et deux de ses traductions candidates midnight mass et mass of midnight :
Seuil_mass : 764 000 000 / 10 000 = 30400
La collocation midnight mass (avec une frquence de 336 000, donc suprieure au seuil limite pour le nom cible mass) est retenue, tandis que mass of midnight (avec une frquence de 65, donc infrieure au seuil limite pour le nom cible mass) est rejete. Ce filtre provoque videmment parfois des cas de silence. Notre approche favorise volontairement la prcision, car il sagit de complter le plus automatiquement possible des ressources existantes. Laugmentation du bruit obligerait un filtrage manuel des rsultats beaucoup plus long et coteux. Aprs le filtre automatique sur les frquences, 34.83% des traductions candidates sont conserves. Cette faible quantit sexplique par le fait que deux patrons
Frquences toujours limites aux pages Web en langue anglaise. Les rsultats de frquence prsentes pour cette exprience datent de juillet 2008.
166
morpho-syntaxiques sont tests pour le patron
OM-de(d)- OM, tandis quun seul ne peut
tre valid par unit lexicale source. Lorsque deux patrons morpho-syntaxiques sont valides pour une mme unit source, nous conservons la traduction la plus frquente :
cycle de vie > life cycle (13 100 000) cycle de vie > cycle of life (1 070 000)
Dans cet exemple, seule la traduction life cycle est conserve, bien que les deux aient t valides par le filtre automatique.
6.9 Analyse des rsultats
6.9.1 Proportion de traductions

Les traductions obtenues comptent pour 2.88% de nos units lexicales traduire. Parmi les units lexicales non polysmiques, 57.40% dentre elles obtiennent une traduction cette tape. Le tableau suivant prsente la proportion de traductions conserves aprs le filtre automatique.
Traductions gnres 29 40 10 79 Filtre automatique Filtre seuil frquence 20 68,97% 8 20,00% 3 30,00% 31 39,24%
OM ADJ OM DE OM OM D' OM TOTAL
Figure 62.
Rsultats de la validation des traductions
La figure 63 donne une illustration dunits lexicales traduites lors de cette phase :
167
PATRO OM ADJECTIF
U ITE LEXICALE SOURCE drame musical grange attenante psychologie sociale transition dmocratique vent favorable vie prive village typique
TRADUCTIO musical drama adjoining barn social psychology democratic transition favourable wind private life typical village medical vocabulary rice starch snow shower cycle of life date of manufacture cavalry squadron television journalist health questionnaire rice vinegar garlic butter identification code son of man
OM de OM
vocabulaire mdical amidon de riz averse de neige cycle de vie date de fabrication escadron de cavalerie journaliste de tlvision questionnaire de sant vinaigre de riz beurre d'ail code d'identification fils d'homme
OM d' OM
Figure 63.
Exemples de traductions obtenues avec la phase 1
La figure suivante montre la proportion de traductions obtenues ce stade de notre mthodologie, par catgorie, et la proportion de traductions restantes traduire. 2.60% des traductions sont traduites directement par notre dictionnaire, 3.60% sont traduites par le dictionnaire Google et 2.88% sont traduites par la phase1 de notre mthode, base sur les frquences sur le Web. A ce stade de notre mthode, nous obtenons pour 9.12% de traductions des units lexicales sources :
Collins Google Phase1 (Frquences) TOTAL
28 39 31 98
2,60% 3,63% 2,88% 9,12%
Traductions de dpart Traductions restantes
1075 977
Figure 64.
Proportion de traductions obtenues
168
2.60% Collins
3,63% Google 2,88% Phase1
90,88% Reste
Figure 65.
Rpartition des tapes
6.9.2
on validation
Dans cette section, nous analysons les causes de non validation des units lexicales sources qui correspondent cette tape.
Restrictions de slection
Certaines traductions candidates nont pas t valides pour des raisons de restriction de slection, comme dans lexemple :
bonheur perdu > * stray happiness
Dans ce cas, ladjectif happiness signifie perdu, mais il ne sapplique pas des entits gnrales tel que le bonheur :
animal perdu > stray animal
Un autre exemple concerne lunit lexicale retournement de veste :

retournement de veste > * upturn jacket
169
Dans cet exemple, le nom upturn sapplique la classe des vnements, mais pas la classe des vtements.
Les frquences sur le Web permettent de filtrer de faon efficace les difficults de restriction de slection, car les co-occurrences errones pour cette raison connaissent des faibles frquences. Cruse (1986) fait lhypothse dune directionnalit slecteur/slect, dans le cas de la construction syntaxique tte/modifieur. Ces constructions concernent les syntagmes nominaux endocentriques du type :
X < lectronique> X = <APPAREIL>
Le modifieur lectronique slectionnerait le nom (comme dans appareil < lectronique>, par exemple). Le modifieur est effaable. On peut parler dun appareil ou dun appareil lectronique. Nous nous interrogeons sur une telle directionnalit. Concernant les restrictions entre la tte et le modifieur, il nous semble que cest plutt la tte, et non le modifieur qui slectionne un lment. Il parat plus productif denvisager la collocation partir de la tte, comme nous la traitons dans notre base de donnes :
Appareil > X X = <mnager, numrique, lectrique, lectronique, etc.> Parc > X X = <naturel, aquatique, botanique, marin, etc.> Caisse > X X = <claire, centrale, fdrale, commune, etc.>
170
Traductions non compositionnelles

Certaines traductions candidates ne sont pas valides car elles sont non compositionnelles, cest--dire quil nest pas possible de traduire une unit lexicale complexe par la somme des traductions de ces constituants. Prenons lexemple suivant :
souris dagneau souris > mouse agneau > lamb souris dagneau > * lamb mouse
Dans cet exemple, la traduction de souris dagneau ne doit pas tre littrale, mais doit tre de la forme :
lamb shank lamb > agneau shank > jarret
La co-occurrence lexicale errone, mouse shank, napparat qu une frquence de 34 sur le Web, ce qui nous permet de ne pas la valider. Il en va de mme pour lunit lexicale chat de gouttire :
chat > cat gouttire > gutter chat de gouttire > * gutter cat
171
Un chat de gouttire qui signifie un chat qui nest pas de race doit tre traduit par ordinary cat (littralement chat ordinaire) :
ordinary > ordinaire cat > chat
Structure morpho-syntaxique
Certaines traductions nont pas t valides car leur structure morpho-syntaxique est incorrecte ou nest pas la plus adquate, comme par exemple :
* Actress of cinema * Window of cat
Choix lexical incorrect

Une autre cause concerne un choix lexical incorrect, quil sagisse de la tte smantique, comme par exemple :
Gestion communautaire > * communal management
Il peut galement sagir dun mauvais choix lexical au niveau du co-occurrent, comme par exemple :
Lait de croissance > * growth milk
Proportion des traductions rejetes (par catgorie)

Les deux figures suivantes prsentent la proportion de traductions rejetes au cours de la phase 1, par catgorie de non-validit. Une majorit des cas concerne un choix lexical incorrect, quil sagisse de la tte smantique (30%), ou du co-occurrent (5%). Un autre type de non validit concerne la non-compositionnalit (9%) et les restrictions de slection (7%).
172
Enfin, 19% des traductions non-valides constituent des fausses erreurs (silence). Il est prfrable de privilgier llimination du bruit, mme si les cas de silence sont augments. En effet, les cas de silence non valids au cours de la phase 1, par la mthode des frquences pourront tre valides au cours de la phase 2.
Silence Tte incorrecte Co-occurrent incorrect Structure morpho-syntaxique on-compositionnalit Restriction de slection
8 13 2 13 4 3
Figure 66.
ombre de traductions rejetes (par catgorie)
Restriction de slection Noncompositionnalit 7% 9% Silence 19%
Structure morphosyntaxique 30%
Tte incorrecte 30%
Co-occurrent incorrect 5%
Figure 67.
Proportion de traductions rejetes par catgories
7- Traductions compositionnelles polysmiques
173
Chapitre 7.
Traductions compositionnelles
polysmiques
7.1 Introduction
Les premires recherches en dsambigusation lexicale ont eu lieu dans un contexte de Traduction Automatique, ce qui montre limportance de la dsambigusation lexicale pour la traduction (Audibert, 2003). Ds 1949, Weaver (1949) aborde dans son Memorandum la ncessit dune phase de dsambigusation lexicale pour la traduction par lordinateur : il nest pas possible daccder au sens dun mot ambigu dnu de tout contexte, tandis que laccs au contexte (aussi bien le contexte gauche que le contexte droit) de ce mot permet den dsambiguser le sens. La question reste de dterminer la taille moyenne de la fentre de mots utile la dsambigusation (Audibert, 2003). Kaplan (1955) montre lors dune exprience avec sept traducteurs que prsenter deux mots gauche et droite du mot ambigu nest pas plus significatif que de prsenter la phrase entire (Audibert, 2003). La problmatique du contexte dun mot, dans le cadre des dbuts des recherches en traduction automatique est reprsentative des travaux qui suivront dans le domaine. Dans le chapitre prcdent, nous avons prsent une mthode de traduction, base sur la frquence sur le Web des traductions candidates, pour les traductions compositionnelles et non polysmiques.
174
Toutefois, la frquence ne permet pas de dsambiguser systmatiquement les cas de polysmie : lentourage lexical des collocations nest pas pris en compte. Les performances des systmes en recherche d'informations interlingues, tout comme celles des systmes en traduction automatique sont fortement freines par le problme de lambigut lexicale des mots polysmiques ou homographes. Ainsi, la traduction anglaise du terme franais caisse est diffrente selon que l'usage concerne, entre autres, lINSTRUMENT DE MUSIQUE (drum), la BA QUE (fund) ou la VALISE (case). Le manque de dsambigusation lexicale pour la traduction automatique conduit des rsultats qui gnent souvent considrablement la comprhension. Par exemple, le systme de traduction automatique Systran traduit le terme complexe caisse centrale par central case. Pourtant, la polysmie est rendue trs faible ds que l'on envisage les mots-cls selon leur co-occurrent (Yarowsky, 1993, Shtze, 1998, Vronis, 2003).
Nous prsentons la deuxime phase de notre mthodologie, base principalement sur une comparaison entre mondes lexicaux (ensemble de co-occurrents), partir du Web. Cette phase est une version amliore de Lon (2006), qui prsente une mthode de comparaison des mondes lexicaux partir du Web : Lon (2006) construit les mondes lexicaux des units lexicales complexes sur le Web, puis, gnre leurs traductions candidates via un dictionnaire bilingue lectronique. Les mondes lexicaux de toutes les traductions candidates sont constitus. Enfin, les mondes lexicaux franais et anglais sont compars, afin de valider la traduction adquate par filtres statistiques. Lvaluation de Lon (2006), sur 10 mots franais trs polysmiques montre que lexploitation des mondes lexicaux des units lexicales complexes sur le Web permet une acquisition automatique de traductions avec une excellente prcision. Nous distinguons deux phnomnes de reprsentation du contexte dun mot ou dune combinaison lexicale :
Les dpendances syntaxiques : il sagit de mots qui entretiennent une relation de dpendance syntaxique avec le mot cible : sujet/prdicat, prdicat/objet, modification, etc. Ce sont les units lexicales complexes que nous avons collectes.
Les co-occurrences, un niveau suprieur, qui sont dans le mme entourage lexical mais qui nentretiennent pas ncessairement une relation de dpendance syntaxique :
175
nous parlons de mondes lexicaux. Ces mondes lexicaux peuvent tre utiliss pour lever une ambigit lexicale. Lexploitation des mondes lexicaux a t exploit dans diffrents contextes applicatifs, sous des appellations diverses. Nous prsentons dans un premier temps les diffrentes notions thoriques et applicatives relatives aux mondes lexicaux (7.1), avant de prsenter notre deuxime phase de mthodologie (7.2).
7.2 Mondes lexicaux : notions thoriques et applicatives

Les mondes lexicaux ont fait lobjet de diffrentes tudes, sous des appellations et des applications diverses. Avant de prsenter notre mthodologie de dsambigisation lexicale pour la traduction, nous prsentons certains courants thoriques dont la problmatique est proche de la ntre : la thorie de lisotopie smantique (7.1.1), lutilisation de mots-cls thmatiques pour la classification thmatique (7.1.2), les vecteurs conceptuels (7.1.3), les signatures thmatiques (7.1.4), la prosodie smantique (7.1.5) et la cartographie lexicale (7.1.6).
7.2.1 Isotopie smantique et traduction

Lisotopie, en smantique structurale, est une notion introduite par Greimas (1986), puis reprise par Rastier (1987) qui en fait un concept central de la smantique interprtative (Tanguy, 1999). Lisotopie envisage le sens dune unit lexicale du point de vue des relations quelle entretient avec les autres units lexicales du lexique. Les signifis des mots du lexique sont nomms des smmes, dont le sens merge de leur structure relationnelle. Les relations smantiques que les smmes entretiennent sont appels des smes (les smes gnriques sont les lments de sens partags par des smmes1, tandis que les smes spcifiques sont ceux qui les diffrencient). La prsence dun thme se manifeste par une isotopie smantique, cest-dire la prsence rpte dun mme sme entre des mots employs dans une portion de texte (Rossignol et Sbillot, 2003). La dfinition dune isotopie passe donc par la dfinition de
1
La classe smantique qui runit les smmes est appele taxme.
176
classes smantiques laquelle on attribue des lments (Tanguy, 1999). Par exemple1, les cooccurrences de soldat, char, gnral et offensive rvlent la thmatique de la guerre, car tous les smmes de ces noms sont porteurs du sme /guerre/. Selon Rossignol et Sbillot (2003), dun point de vue informatique, lisotopie smantique nat dun ensemble limit de mots porteurs du sme indiquant la thmatique recherch, quils appellent mots-cls (7.1.2). Lanalyse des isotopies smantiques est formalise en TAL pour la traduction par Tanguy (1997) et Tanguy (1999). Leurs travaux portent sur un reprage de structures smantiques gnrales pour la vrification automatique de traductions. Le logiciel TRACER2 (Tanguy, 1999) est un module daide la vrification de traduction bas sur la comparaison des isotopies. La mthode se base sur diffrentes stratgies de vrification traditionnelles (module dalignement, lexiques bilingues, comparaison des caractristiques de surface) dont lun des modules, innovant, se fonde sur une comparaison des structures smantiques du texte source et du texte cible. La mthode est fonde sur une tude de corrlation entre classes de termes mettant en vidence les principaux thmes des textes. Voici un exemple de classes smantiques proches en franais et en anglais (Tanguy, 1999) lies au logiciel de traitement de texte. Ces classes sont identifies par leur sme (en gras) et ont t tablies par lutilisateur sur la base de ses connaissances gnrales et via un thesaurus :
Format (franais) : page, champ, police, marge, en-tte, pieds de page, interligne, gras, italique Formatting (anglais) : edit, format, page, field, case, typing, heading, margin, bold, italic, font Document (franais) : symbole, texte, ligne, paragraphe, caractre, phrase, document, lettre, mmo, rapport, graphique
Exemple cit par Rossignol et Sbillot (2003). Le logiciel sinscrit dans le projet IDOL (IRS-based Document Localisation), plate-forme daide la traduction
et la localisation pour le franais, langlais et larabe.
177
Document (anglais) : symbol, text, typos, document, letter, memo, character, text, page, paragraph
Selon Tanguy (1999), une isotopie est une notion plus large que les relations smantiques dfinies dans les thsaurus telles que la synonymie. Les classes dquivalences smantiques sont des notions plus larges dun point de vue smantique, et elles ne sont pas lies aux catgories grammaticales. Contrairement nous, une intervention humaine est effectue afin dassigner des noms aux diffrentes classes. En ce qui nous concerne, nous ne procdons pas un reprage thmatique : le contexte lexical est utilis en tant quindice pour une comparaison entre le franais et langlais.
7.2.2 Thme et mots-cls thmatiques

Les travaux de Pichon et Sbillot (1999a) et de Rossignol et Sbillot (2003) sappuient sur les aspects thoriques de la smantique interprtative (Rastier, 1987). Une mthode de dsambigusation lexicale communment admise consiste en lidentification du sens dun mot par laccs ses co-occurrents (Yarowsky, 1993, Schtze, 1998). Dans une optique proche, une exprience de Pichon et Sbillot (1999a) montre que la connaissance des thmes dans lesquels apparaissent les units lexicales, ainsi que laccs aux similarits et aux diffrences de voisinage permet une dsambigusation lexicale de ces units lexicales. La mthode est base sur le calcul dintersections et de diffrences ensemblistes entre les mots-cls constituant les contextes. Selon Pichon et Sbillot (1999a), un thme est le sujet abord dans les textes ou les segments de textes dun corpus . Cest aussi le niveau de structuration de lespace smantique de gnralit maximale tel que ne puisse y exister de polysmie (Rossignol et Sbillot, 2003). Ltude des mots-cls en corpus permet daccder aux diffrents thmes. Les mots-cls sont des mots dont lapparition dans un segment de texte est symptomatique de la prsence dun thme particulier (Rossignol et Sbillot, 2003). Lexprience de Pichon et Sbillot (1999a), partir dun corpus constitu darticles du journal LE MONDE DIPLOMATIQUE denviron 7,8 millions de mots, montre quil est possible de collecter des squences de mots ou blocs de contextes significatifs des diffrences de significations entre mots. Par exemple, lunit lexicale guerre est prsente dans deux thmes diffrents, TERRITOIRE et EGOCIATIO S. Les expriences de Pichon et Sbillot (1999a) permettent dune part de diffrencier les divers usages dune mme unit lexicale au sein du
178
corpus, comme dans lexemple de guerre, prsent dans les deux thmes TERRITOIRE et EGOCIATIO S, pour lesquels les co-occurrences sont diffrentes :
Figure 1. Mots-cls diffrentiels de guerre pour les thmes TERRITOIRE et EGOCIATIO S1 Dautre part, lextraction de mots-cls thmatiques permet de regrouper des units lexicales dont le thme est proche, comme dans les exemples de pouvoir, autorit et gouvernement, prsents sous les thmes de TERRITOIRE dune part et de occurrences sont fortement similaires pour chaque thme : EGOCIATIO S, dont les co-
Figure 2. Mots-cls similaires de pouvoir, autorit et gouvernement pour le thme TERRITOIRE2
Exemple prsent par Pichon et Sbillot (1999a). Exemple prsent par Pichon et Sbillot (1999a).
179
Figure 3. Mots-cls similaires de pouvoir, autorit et gouvernement pour le thme EGOCIATIO S1 Dans la mme ligne, Rossignol et Sbillot (2003) dcrivent un systme de dtection automatique de thmes partir dun corpus non spcialis, multithmatique, reposant sur la notion de mots-cls et de dcoupage du corpus en sous-corpus thmatiques, dans un objectif de dsambigusation lexicale. Les rsultats, obtenus partir dun corpus du Monde diplomatique montrent une prcision de 85% et un rappel de 63%.
7.2.3 Latent Semantic Indexing et Vecteurs conceptuels

Dans le cadre de la reprsentation du sens, lquipe Traitement Algorithmique des Langues (TAL) du LIRMM a dvelopp un systme danalyse thmatique base sur la notion de vecteur conceptuel (Schwab et al., 2004). Un vecteur conceptuel est la reprsentation dides associes des segments textuels (documents, paragraphes, syntagmes, etc.). Les vecteurs ont t utiliss en informatique pour la recherche dinformation (Salton, 1968) (Schwab et al., 2004). En ce qui concerne la reprsentation du sens, leur emploi a t utilis par le modle LSI (Latent Semantic Indexing)2 (Deerwester et al., 1990). Le modle LSI est un modle dindexation smantique qui vise tablir des relations entre les documents et les termes quils contiennent, par le biais de concepts. En linguistique, la notion est formalise par
1
Exemple prsent par Pichon et Sbillot (1999a). Analyse Smantique Latente, en franais.
180
Chauch (1990), dans le cadre des champs linguistiques dans un espace vectoriel. Dans Schwab et al. (2004), les vecteurs conceptuels en franais sont construits partir dun ensemble de notions lmentaires collectes a priori dans le Larousse (1992). Lorsquun terme est polysmique, il combine diffrents vecteurs correspondant aux diffrents sens. Contrairement nous, les concepts sont donns a priori et relis aux items textuels. En ce qui nous concerne, nous ne faisons pas appel des ressources externes pour la construction de mondes lexicaux : ils sont construits uniquement partir des mots-cls les plus frquents collects dans les donnes textuelles.
7.2.4 Signatures thmatiques et signatures pertinentes

Une notion trs proche des mots-cls thmatiques est celle de signature thmatique . Ce concept a t utilis dans diffrents domaines dapplication.
Rsums automatiques
SUMMARIST (Hovy et Lin, 1999, Lin et Hovy, 2000) est un systme de gnration automatique de rsums, qui sappuie sur une mthode dacquisition de signatures thmatiques ( topic signature en anglais) ou signatures conceptuelles ( concept signatures ) (Hovy et Lin, 1999). La tche de rsum automatique consiste en une reformulation du texte original afin den dcrire lessentiel du contenu, contrairement un extrait de textes qui consiste en des portions isoles du texte original sans reformulation. La mthode de SUMMARIST est base sur trois tapes principales : une phase didentification thmatique, une phase dinterprtation smantique et une phase de gnration de rsums. Une signature thmatique est dfinie par Lin et Hovy (2000) comme un vecteur de termes (units lexicales simples ou complexes) frquemment associs un concept, partir dun corpus donn, et qui dans la tche de rsum automatique, regroupe les occurrences des termes avec le concept. Voici un exemple de signatures thmatiques en anglais associes au concept restaurant (restaurant-visit en anglais) Lin et Hovy (2000) :
table, menu, waiter, order, cat, pay, tip
181
Un concept trs proche des signatures thmatiques est celui de signatures pertinentes ( relevancy signatures en anglais), concept introduit par (Riloff, 1996, Riloff et Lorenzen, 1999), dvelopp pour une tche de rsum automatique. La diffrence principale entre les signatures thmatiques et les signatures pertinentes est que ces dernires ncessitent un parser (Lin et Hovy, 2000), tandis que les signatures thmatiques se basent uniquement sur des calculs statistiques partir de corpus.
Dsambigisation lexicale
Les signatures thmatiques sont utiliss dans le domaine de la dsambigisation lexicale et de lenrichissement dontologies. Agirre et al. (2000b, 2001,), Agirre et Lopez (2003) et Agirre et Lopez (2004) utilisent le Web afin dacqurir les signatures thmatiques associes aux concepts de WordNet1, pour diverses taches de dsambigisation lexicale, denrichissement de la description smantique et des liens thmatiques qui relient les concepts. WordNet est un lexique disponible en ligne qui organise les units lexicales en fonction de leur sens et de leurs relations smantiques avec les autres units (synonymie, antonymie, etc.). Par exemple, le nom waiter compte deux usages dans WorNet (Agirre et al., 2000b) :
(1) waiter, server a person whose occupation is to serve at table (as in a restaurant) (2) waiter a person who waits or awaits
Pour chaque usage, les signatures thmatiques obtenues sont les suivantes (Agirre et al., 2000b) :
waiter(1) : restaurant, menu, waitress, dinner, lunch, counter, etc. waiter(2) : hospital, station, airport, boyfriend, girlfriend, cigarette, etc.
La mthode dacquisition de signatures thmatiques de Agirre et al. (2000b) passe par une acquisition de textes associs chaque concept de WordNet partir du Web. Les requtes
1
http://wordnet.princeton.edu/
182
sont construites partir des informations fournies par WordNet. Voici un exemple de requte, gnre pour le premier sens du nom boy (=male child, boy, child a younthful male person) (Agirre et al., 2000b) :
(boy A D (altar boy OR ball boy OR OR male person A D OT (man ORbroth of a boy OR #sense 2 son OR OR mamas boy OR #sense 3 nigger OR OR black) #sense 4
Les textes collects sont classs en fonction de chaque sens des concepts. Les mots-cls sont extraits pour chaque collection et sont compars avec ceux des autres collections. Les motscls qui ont une frquence significative dans une collection par rapport aux autres constituent les signatures thmatiques. Voici un extrait de signatures thmatiques obtenues pour le sens 1 de boy (Agirre et al., 2000b) :
child, Child, person, anything.com, Opportunities, Insurance, children, Girl, Person, Careguide, Spend, Wash, enriching, prizes, Scouts, Guides, Helps, Christmas, male, address, paid, age, mother
Des affinements de construction des signatures thmatiques sont apports dans Agirre et al. (2001) tels que le nombre de documents extraits par site, la prise en compte des lemmes, la restriction du contexte aux phrases, et lutilisation dun corpus de rfrence pour laide la validation des termes. Les travaux de Agirre et al. (2000b, 2001) et Santemaria et al. (2003) montrent que les signatures thmatiques sont efficaces pour lacquisition automatique de sens. Agirre et Lopez (2003) montrent quelles peuvent tre utilises pour une classification des sens des mots. Martinez et Agirre (2004) montrent quelles sont utiles pour une dsambigisation lexicale. Agirre et al. (2004) montrent quelles permettent de dtecter la similarit entre sens. Klapaftis et Manandhar (2005) dveloppent une mthode de dsambigisation de termes partir du Web, dans la mme ligne que Agirre et al. (2000b).
183
Chung et al. (2006) utilisent des signatures thmatiques pour la construction dontologies partir du Web. La mthode, nomme, WebSim, sappuie sur deux modles, lun de calcul dinformation mutuelle : lhypothse est que les co-occurrences de termes sont un indice de leur proximit smantique ; lautre sur ltude de similarit entre signatures thmatiques1. Voici un exemple de signatures thmatiques obtenues par WebSim :
Figure 68.
Signatures thmatiques
7.2.5 Cartographie lexicale

Ltude des co-occurrences de mots peut tre utile afin de dsambiguser les diffrents sens possibles dun mot, pour la recherche dinformation sur le Web (Vronis, 2003). Vronis (2003) propose un algorithme, HyperLex, qui permet de dterminer les diffrents usages dun mot dans une base textuelle, et de reprsenter graphiquement les thmatiques :
Lauteur nutilise pas la terminologie de signature thmatique , mais parle en anglais de features ou
encore de bag of words .
184
L'algorithme exploite la structure particulire des graphes de cooccurrences entre mots (mots qui apparaissent frquemment ensemble), qui forment des "petits mondes", un type de graphe qui fait depuis quelques annes l'objet de recherches intensives
Nous prsentons un exemple, pour le mot barrage :
Figure 69.
Cartographie hyperlexicale pour le mot barrage1
Un clic sur chacun des mots permet dexprimer de nouvelles requtes. Dans cet exemple, quatre mots apparaissent fortement en co-occurrence avec barrage : match, eau, frontire et routier. Ces quatre mots refltent quatre usages diffrents du mot barrage (ibid.). Tous les autres co-occurrents du mot ont toutes les chances dapparatre en contact avec lun de ces quatre mots-racine (ibid.) :
(1) EAU, construction, ouvrage, rivire (2) ROUTIER, vhicule, camion, membre
http://www.up.univ-mrs.fr/~veronis/demos/index.html (Vronis, 2003).
185
(3) FRO TIERE, Algrie, militaire, efficacit (4) MATCH, vainqueur, victoire
Dans la mme ligne, Vronis prsente loutil
buloscope, qui permet de visualiser sous
forme de nuage le monde lexical dune requte sur le Web francophone1, comme dans lexemple de barrage :
Figure 70.
Monde lexical du nom barrage
Dans nos travaux, nous parlons de monde lexical afin de dsigner les co-occurrences frquentes d'un mot ou dun terme complexe, la suite des travaux de (Vronis, 2003). De tels voisinages, plus larges que le co-occurrent immdiat, peuvent se situer au niveau du paragraphe, ou mme de la phrase. Toutefois, la diffrence de Vronis (2003), ces mondes lexicaux sont exploits dans un contexte de traduction et de comparaison entre le franais et langlais, pour la slection de traduction candidate.
7.3 Prsentation de lapproche

Dans le chapitre prcdent, nous avons montr quune mthode de traduction base sur la frquence sur le Web des traductions candidates, dans la ligne de travaux tels que Grefenstette (1999) et Cao et Li (2002) est satisfaisante pour la validation dunits lexicales
1
http://aixtal.blogspot.com/2006/01/outil-le-nbuloscope.html
186
non polysmiques. En revanche, la frquence ne permet pas de dsambiguser les cas de polysmie. Dans Lon (2006), nous montrons quune comparaison des mondes lexicaux permet de lever un grand nombre dambiguts lexicales. Par exemple, voici le monde lexical nominal de la requte appareil compact , retourne partir des rsums sur Yahoo :
reflex, gamme, zoom, bridge, produit, qualit, canon, photographie, capteur, mode, achat, catalogue, optique, objectif, flash, cran, botier, tlphone, affichage, rglage, quipement, traute, amateur, mesure, offre
Le monde lexical de sa traduction correcte, compact camera est trs proche :

lens, quality, image, case, film, range, price, market, photography, photo, zoom, size, product, resolution, design, equipment, tripod, line, flash, body, series, shop, technology, sensor, world
Lon (2006) prsente une mthode de traduction automatique dunits lexicales complexes, fonde sur une comparaison entre mondes lexicaux, partir du Web. Les mondes lexicaux des units lexicales complexes sources sont compars avec ceux des traductions candidates, dans une optique de dsambigusation lexicale. Une valuation sur 10 noms franais trs polysmiques1 montre que lexploitation des mondes lexicaux sur le Web permet une acquisition automatique de traductions avec une excellente prcision, de 100%. Ces mondes lexicaux peuvent la fois constituer des ressources en tant qu'aide la traduction, mais aussi tre exploits pour une organisation de la connaissance bilingue de type ontologique. Une limite de Lon (2006) est labsence danalyse morpho-syntaxique pour la construction de mondes lexicaux. Notre phase de traitement sappuie sur une version amliore de Lon (2006), prenant en compte les aspects morpho-syntaxiques des mondes lexicaux, intgrant des filtres additionnels aux mondes lexicaux et dont les tests seffectuent plus grande chelle.
Nous prenons pour point de dpart les 977 units lexicales complexes sources restantes traduire, aprs lapplication de la phase prcdente. Celles-ci comprennent les units lexicales
Le degr de polysmie a t valu sur le nombre de traductions candidates par nom au sein du dictionnaire
bilingue Collins Pocket.
187
polysmiques, ainsi que celles, non polysmiques qui nont pas t valides dans la section prcdente.
Les traductions candidates sont gnres par la mme mthode que celle dtaille en section (6.6). Les co-occurrents dont aucune traduction na t trouve dans notre dictionnaire sont recherchs dans le dictionnaire de Google, ce qui nous permet dacqurir les traductions de co-occurrents, pour 2.66% des traductions de dpart. Voici un exemple de traductions absentes de notre dictionnaire, recenses dans le dictionnaire de Google :
Franais alimentaire budgtaire dpartemental diffusion intractif panoramique pluridisciplinaire
Anglais food budget departmental broadcast interactive panoramic multidisciplinary
Figure 71.
Traductions de termes simples (Dictionnaire Google)
Le schma suivant prsente la quantit de traductions candidates gnres, par patron morpho-syntaxique. Les patrons OM DE OM et OM D OM ont un nombre moyen plus lev de traductions candidates, car deux patrons morpho-syntaxiques sont pris en compte en anglais, tandis quun seul nest possible pour le patron OM-ADJECTIF.
Traductions gnres OM ADJ OM DE OM OM D' OM TOTAL 5514 8397 4933 18844 Moyenne par unit lexicale complexe franaise 10 28 32 23
Figure 72.
Proportion de traductions candidates par patron morphosyntaxique
188
7.4 Filtres pralables
7.4.1 Web parallle ou partiellement parallle

Afin de rduire la quantit de traductions candidates et dliminer demble les plus bruites, nous utilisons un premier filtre, celui du Web partiellement parallle ou parallle . Nous avons montr dans le chapitre 5 que les documents multilingues, quils sagisse de documents intgralement traduits ou de traductions ponctuelles dans le corps dun document monolingue, sont nombreux sur le Web. Notre hypothse est quune traduction candidate correcte doit apparatre au moins une fois dans le mme document que lunit lexicale source. Afin de tester une ventuelle co-occurrence entre lunit source et sa traduction candidate, nous testons les couples de traduction par le biais de requtes, du type de :
U ITE LEXICALE SOURCE TRADUCTIO CA DIDATE " caisse centrale " " central fund "
Ce type de requte permet de cibler le contenu dun document parallle ou dun document partiellement parallle. Ce filtre ne garantit pas que le couple entre dans une relation directe de traduction. Par exemple, la requte suivante retourne 932 rsultats, ce qui est lev pour une requte mixte :
caisse claire kick drum
La traduction kick drum signifie grosse caisse, mais apparat frquemment dans des pages o caisse claire, smantiquement proche, est employ, comme dans lexemple :
189
Dune faon gnrale, le couple de traduction correct apparat de faon plus frquente, mais cet aspect nest pas systmatique et ne permet pas de slectionner la traduction adquate de faon crasante.
Afin dviter au maximum les cas de silence, nous tablissons un filtre de frquence faible : les couples de traduction doivent avoir une frquence suprieure ou gale 1. Les frquences des couples conserves sont classes par ordre dcroissant et nous ne conservons que les trois couples les plus frquents. Aprs cette tape, il reste 10,2 % des traductions candidates qui avaient t gnres. Il est dlicat dvaluer la pertinence exacte dun filtre bas sur le test du web parallle . En ce qui concerne le bruit, ce filtre est un filtre pralable, et le fait que des traductions errones soient conserves aprs ce filtre nest pas problmatique, puisque les filtres suivants permettront une validation plus prcise. En ce qui concerne dventuels cas de silence, les rsultats totaux que nous obtenons la fin du processus (82,51 % de traductions obtenues) montre que le silence est peu lev et nous conforte dans lide que lutilisation du filtre bas sur le web parallle nous offre lavantage dallger le processus de notre mthode car il serait trop coteux de construire un monde lexical pour toutes les traductions candidates gnres au dpart (nous en obtenons 18 844 avant filtres), sans pour autant que le silence ne soit lev (seules 17,49% des units lexicales complexes sources nont pas obtenu de traduction).
190
7.4.2 Rapport des frquences

Un deuxime filtre est appliqu aux traductions candidates restantes, celui du rapport entre la frquence sur le Web du terme complexe franais et celui des traductions candidates. Par exemple, caisse de retraite apparat 157000 fois. retirement case apparat 2850 fois, tandis que retirement fund apparat 1240000 fois. On exclut les traductions ayant une frquence infrieure au terme franais (le rapport entre le franais et langlais est denviron 1/20 sur Yahoo). Ce filtre est moins brutal que le prcdent. A la fin de cette tape, il reste 64,56% des traductions candidates.
7.5 Construction automatique de mondes lexicaux partir du Web

Nous constituons les mondes lexicaux sur le Web de chacune des combinaisons lexicales laide de requtes sur Yahoo. Puis, nous gnrons leurs traductions candidates via un dictionnaire bilingue lectronique et constituons les mondes lexicaux de toutes les traductions candidates, aprs diffrents filtres pralables. Nous comparons enfin les mondes lexicaux franais et anglais, par filtres statistiques, afin de valider la traduction adquate.
7.5.1 Construction automatique de mondes lexicaux en franais

Afin de construire les mondes lexicaux, nous utilisons les rsums descriptifs de pages Web retourns par les moteurs de recherche dans le cadre des requtes (voir figure 71). Ces rsums constituent des paragraphes courts qui permettent de dgager rapidement les mondes lexicaux dune requte, sans rcuprer les pages Web, ce qui constituerait une mthodologie nettement plus coteuse.
191
Figure 73.
Exemple de rsums retourns par Yahoo pour la requte caisse centrale
Le moteur de recherche Yahoo est interrog automatiquement par script via linterface de programmation dapplications API1 (Application Programming Interface) afin de rcuprer les 1000 premiers titres et rsums renvoys pour chaque requte des termes complexes. Ces dernires sont encadres par des guillemets afin d'tre considres comme une expression exacte, et sont largies leur forme au singulier et au pluriel, en limitant les rsultats la langue franaise, comme dans lexemple :
caisse centrale - caisses centrales caisses centrales - caisse centrale caisse centrale + caisses centrales
Les rsums sont nettoys automatiquement par script, afin de rtablir certains problmes de codage des caractres accentus ou de supprimer des adresses Internet, etc. Ils sont ensuite
1
http://developer.yahoo.net/
192
tiquets morpho-syntaxiquement avec le logiciel Treetagger, afin de filtrer la catgorie morpho-syntaxique des mots extraire : nous ne conservons dans un premier temps que les noms et les adjectifs, catgories morpho-syntaxiques les plus susceptibles de faire merger des champs thmatiques. Pour chaque unit lexicale complexe, nous slectionnons de faon automatique les cinquante noms et les cinquante adjectifs les plus frquents parmi les rsums. Ces mots constituent leur monde lexical. Le choix de longueur du monde lexical sest opr par observation, pour dterminer un seuil reprsentatif. Un anti-dictionnaire est utilis pour supprimer les mots non pertinents tels que des mots lis au Web (comme par exemple lien, blog, etc.), des verbes supports, etc. Voici pour illustration les mondes lexicaux de appareil compact et appareil militaire , assorties de leurs frquences absolues :
APPAREIL COMPACT OMS reflex (137), gamme (112), zoom (103), bridge (102), produit (101), qualit (93), canon (87), photographie (75), capteur (70), mode (69), achat (69), catalogue (50), optique (46), objectif (44), flash (44), cran (42), botier (40), tlphone (39), affichage (38), rglage (37) numrique (532), optique (84), automatique (70), reflex (56), argentique (54), lger (48), pratique (37), matriel (36), puissant (33), portable (33), technique (32), souple (28), classique (28), beau (28), professionnel (27), objectif (27), lgant (27), informatique (26), digital (26), idal (24)
ADJECTIFS
Figure 74.
Mondes lexicaux de appareil compact

APPAREIL MILITAIRE
OMS
pays (123), guerre (121), avion (120), scurit (108), membre (103), source (84), existence (77), socit (61), raction (61), vol (60), monde (46), technologie (45), esprit (44), conflit (44), libration (43), transport (42), aviation (42), supriorit (40), droit (39), intgration (38) civil (112), puissant (110), franais (90), tranger (89), amricain (78), politique (69), utilisateur (57), arien (56), mdiatique (54), national (40), majeur (40), rel (39), mauvais (39), conomique (33), ancien (32), mondial (27), social (26), iranien (26), francophone (26), arm (26)
ADJECTIFS
Figure 75.
Mondes lexicaux de appareil militaire
193
7.5.2 Construction automatique de mondes lexicaux anglais

A partir des traductions candidates, nous interrogeons le Web pour la langue anglaise. Voici un exemple de requte pour la traduction candidate de caisse centrale, central fund :
central fund - central funds central funds - central fund central fund + central funds
Le monde lexical des traductions candidates est cr de la mme faon que pour les rsums franais, dont voici des extraits pour des traductions relatives au nom appareil :
COMPACT CAMERA lens (141), quality (96), image (96), case (96), film (90), range (89), price (89), market (74), photography (64), photo (64), zoom (60), size (55), product (55), resoltion (53), design (51), equipment (47), tripod (46), line (44), flash (44), body (43) digital (733), optical (80), ultra (76), low (63), wide (53), stylish (50), photographic (50), available (50), top (43), light (39), advanced (35), underwater (33), manual (30), perfect (29), video (28), professional (28), waterproof (27), popular (27), leading (25), simple (24)
OMS
ADJECTIFS
Figure 76.
Monde lexical de compact camera
OMS
MILITARY PLA E crash (166), aircraft (165), air (141), world (77), fighter (69), time (64), transport (60), area (60), airport (60), security (52), missile (51), fire (49), airplane (49), aviation (46), war (45), pilot (43), jet (43), governement (41), airspace (40), cargo (38) russian (111), civilian (77), american (73), iranian (66), commercial (48), chinese (48), german (47), strategic (40), iraqi (38), international (37), french (35), least (34), foreign (34), vintage (32), venezuelan (32), free (32), added (31), political (30), turkish (29), regular (29)
ADJECTIFS
Figure 77.
Monde lexical de military plane
194
7.6 Comparaison des mondes de mots franais et anglais

Les mondes lexicaux franais et anglais sont compars, par matching via le dictionnaire bilingue. Pour chaque mot du nuage lexical franais, nous recherchons automatiquement si lune de ses traductions recenses dans le dictionnaire se trouve dans le nuage lexical anglais. Le nombre de mots communs entre les mondes lexicaux franais et anglais est comptabilis. Si une traduction nest pas trouve et si le mot franais et le mot anglais sont identiques, linformation est prise en compte, ce qui nous permet de prendre en compte des Entits Nommes comme dans lexemple, pour le couple appareil digital/digital camera :
canon, nikon
Les Entits Nommes tiennent une place importante parmi les mondes lexicaux. Toutefois, il nest pas possible de reprer leur quivalence en franais et en anglais, sauf lorsque la traduction est la mme.
Pour la comparaison des mondes lexicaux, nous utilisons le coefficient de Jacquard, qui mesure le degr de similitude entre deux ensembles. La formule est la suivante :
| inter(X,Y) | / | union (X,Y) |1
Etant donn les ensembles de termes des mondes lexicaux franais (A) et anglais (B), certains termes sont en commun et dautres nappartiennent qu lun ou lautre des mondes lexicaux. Le coefficient de Jacquard tablit le rapport entre lintersection des deux ensembles A et B et lunion de A et B : L'intersection de deux ensembles A et B est l'ensemble qui contient tous les lments qui appartiennent la fois A et B, et seulement ceux-l :
Les scores sont ensuite multiplis par mille afin dtre rendus plus lisibles.
195
Figure 78.
Intersection entre deux ensembles A et B1
Pour nous, lintersection concerne les termes qui apparaissent la fois dans le nuage lexical franais et dans le nuage lexical anglais.
Lunion de deux ensembles A et B est lensemble qui contient tous les lments appartenant soit A, soit B. Pour nous, lunion se rfre tous les termes appartenant au nuage lexical franais et tous les termes appartenant au nuage lexical anglais.
Nos calculs sont appliqus aux mondes lexicaux contenant les noms et aux mondes lexicaux contenant les adjectifs, de faon spare. Notre hypothse est quun couple de traduction contient un nombre significatif de noms en commun et un nombre significatif dadjectifs en commun. Lanalyse distincte de ces deux ensembles catgoriels permet dobtenir une analyse comparative plus fine. Nous appliquons plusieurs filtres aux coefficients de Jacquard : Le coefficient de Jacquard concernant les mondes lexicaux des noms doit tre suprieur ou gal 40. Le coefficient de Jacquard concernant les mondes lexicaux des adjectifs doit tre suprieur ou gal 30.
http://fr.wikipedia.org/wiki/Intersection_%28math%C3%A9matiques%29
196
La moyenne des coefficients de Jacquard pour les noms et pour les adjectifs doit tre suprieure ou gale 60.
Ces filtres ont t tablis de faon exprimentale, par observation des donnes. Nous avons constat que les couples de traduction pertinents ont un nombre significatif de noms et dadjectifs en commun : les noms sont plus indicateurs de thme que les adjectifs et les couples pertinents contiennent plus de noms en commun que dadjectifs. Voici un exemple de termes communs au couple appareil compact/compact camera :
APPAREIL COMPACT / COMPACT CAMERA botier/case, dimension/size, quipement/equipment, flash/flash, gamme/range, march/market, mmoire/memory, mesure/time, monde/world, objectif/lens, photographie/photography, produit/product, qualit/quality, sac/bag, srie/series, taille/size, technologie/technology, zoom/zoom
OMS
ADJECTIFS
automatique/automatic, digital/digital, tanche/waterproof, faible/low, idal/ideal, lger/light, manuel/manual, optique/optical, parfait/perfect, portable/portable, professionnel/professional, puissant/powerful, rapide/fast, rare/rare
Figure 79.
Termes communs pour appareil compact/compact camera
7.7.1 Proportion de traductions

Le tableau 80 montre la proportion de traductions aprs chaque filtre. A partir des 977 units lexicales complexes de dpart, 18 844 traductions candidates ont t gnres. Aprs le premier filtre, celui du web parallle , il reste 1919 traductions candidates. Aprs celui du rapport franais/anglais, il reste 1239 traductions candidates. Enfin, ltape de validation qui attribue une unique traduction par terme source, donne 674 traductions, savoir 69.98% des termes de dpart. Cette tape est celle qui offre le plus de traductions, savoir plus de la moiti de nos donnes de dpart).
197
Filtre automatique Units lexicales Traductions candidates Filtre Web Filtre Filtre restantes aprs la gnres parallle, rapport indice de phase 1 top 3 franais/ similarit anglais 977 18 844 1919 1239 674
Figure 80.
Etapes de validation
Les mondes lexicaux obtenus sont en eux-mmes intressants, et peuvent probablement tre exploits comme ressource bilingue. La figure 81 donne un exemple de traductions obtenues en phase 2, pour les trois patrons morpho-syntaxiques :
PATRO OM ADJECTIF U ITE LEXICALE SOURCE accident grave analyse financire crampe musculaire douleur physique clat naturel fumeur invtr histoire courte OM de OM immeuble rsidentiel caisse de dpt course de karting cours de morale disque de platine football de table laboratoire de recherche licence de psychologie mouvement de protestation consommation d'essence hall d'entre jet d'encre lettre d'acceptation manque d'amour mthode d'estimation TRADUCTIO serious accident financial analysis muscular cramp physical pain natural shine habitual smoker short tale residential building deposit fund karting race ethics class platinum record table soccer research laboratory psychology degree protest movement gasoline consumption entrance hall ink jet acceptance letter lack of love assessment system
OM d' OM
Figure 81.
Exemples de traductions obtenues avec la phase 1
198
Les schmas suivants montrent la proportion de traductions obtenues, pour chaque phase de la mthodologie, ainsi que la proportion de traductions restantes traduire :
2,60% Collins 28,19% Tra ductions manquantes
3,63% Google
2,88% Phase 1 2,42% Pha se 2 (Cooccuurents Google)
60,28% Pha se 2
Figure 82.
Proportions de traductions obtenues aprs la phase 2

28 39 31 26 648 772 2,60% 3,63% 2,88% 2,42% 60,28% 71,81%
Collins Google Phase1 (Frquences) Phase 2 (Mondes lexicaux_Co-occurrents Google) Phase 2 (Mondes lexicaux) TOTAL
1075 303
Figure 83.
Quantit de traductions obtenues
7.7.2 Reprsentativit des mondes lexicaux

La difficult de notre mthode de construction des mondes lexicaux concerne leur application la langue gnrale, ou plutt la non-limitation un domaine de spcialit donn. Lintrt dune telle approche est quelle nous permet de dsambigiser les diffrents usages dun nom polysmique, en fonction de sa co-occurrence au sein dune unit lexicale complexe, et dobtenir des mondes lexicaux cohrents pour chaque usage. Le fait de nous limiter un
199
unique domaine de spcialit amoindrirait lapport de cette phase de mthodologie. Toutefois, une difficult concerne les units lexicales complexes dont le sens est gnral et ne sinscrit pas dans un domaine de spcialit donn. Par exemple, le monde lexical de lunit lexicale complexe mois dabsence est htrogne, car cette unit nest pas reprsentative dun domaine de spcialit prcis :
MOIS D'ABSE CE OMS membre (28), srie (25), match (21), sport (19), musique (18), football (18), championnat (17), sant (16), monde (16), saison (15), foot (14), quipe (14), film (13), voyage (12), succs (12), journe (12), discussion (12), connexion (12), cinma (12), accueil (12) franais (19), beau (17), francophone (12), ivoirien (10), professionnel (9), jeune (9), bienvenu (9), politique (9), ancien (8), rapide (7), national (7), live (7), informatique (7), social (6), prsent (6), longue (6), virtuel (5), sportif (5), public (5), prochain (5)
ADJECTIFS
Figure 84.
Monde lexical de mois dabsence
Mme si ces cas sont peu nombreux, la construction des mondes lexicaux pour les units lexicales de sens gnral, ou en tout cas moins spcialis, posent la difficult de leur homognit. Il est toutefois dlicat dvaluer lhomognit dun monde lexical : cette notion, plutt intuitive, est difficilement formalisable de faon automatique, moins dtablir des comparaisons entre mondes lexicaux au sein de la langue source et de regrouper les units lexicales complexes en franais selon des grandes familles thmatiques. Nous reviendrons sur cette limite, due au recouvrement de nombreux domaines de spcialit, dans les perspectives (chapitre 10).
8. Traductions non compositionnelles et inconnues
200
Chapitre 8.
Traductions non-compositionnelles
et inconnues
8.1 Introduction
A ce stade de notre mthode, plusieurs difficults expliquent labsence de traduction des units lexicales manquantes :
1) La traduction nest pas compositionnelle, et la somme des traductions de chaque lment de lunit lexicale complexe ne permet pas dobtenir la traduction adquate, comme dans lexemple de :
caisse claire > snare drum (tambour pige)
Les ressources lexicales existantes contiennent peu dinformations sur ces phnomnes idiomatiques, recensant un nombre rduit de ces phnomnes, gnralement les plus figs. Le Web (rsums, pages Web) est une ressource utile afin dacqurir ce genre de traductions. 2) La base et/ou le co-occurrent est recens dans notre dictionnaire, mais lusage pertinent nest pas rpertori, comme pour :
caisse dpargne > savings bank
201
Dans cet exemple, lusage de caisse (BA QUE) nest pas rpertori dans notre dictionnaire. Ce phnomne est dissocier du prcdent, car ici, la traduction est compositionnelle, lune des traductions possibles de caisse est bank, mais cette traduction nest pas resence. 3) La base ou le co-occurrent est un terme technique non recens dans notre dictionnaire ni dans celui de Google, comme dans :
Appareil circulatoire
Dans cet exemple, la traduction de circulatoire est inconnue de nos ressources dictionnairiques. Etant donn que la liste des ttes smantiques a t gnre via notre dictionnaire bilingue, seule labsence de traduction des co-occurrents est concerne. Les cooccurrents dont les traductions sont absentes concernent 7.07% de notre chantillon de dpart, comme dans les exemples :
vasculaire fluorydrique
Les traductions absentes concernent gnralement des termes techniques appartenant un domaine de spcialit.
8.2 Problme de la non-compositionnalit
8.2.1
otion de compositionnalit
La notion de compositionnalit dsigne le fait que le sens global dune unit lexicale complexe est dcomposable en la somme de sens de ses constituants. Par exemple, lunit lexicale pluie forte est dcomposable en accumulant le sens de pluie et le sens de forte. Toutefois, il arrive que le sens des units lexicales complexes ne soit plus dcomposable,
202
parce quil forme un nouveau tout lexical . Cette notion rejoint la dfinition de mot compos (Grvisse, 1975):
Un mot, quoique form dlments graphiquement indpendants, est compos ds le moment o il voque dans lesprit, non les images distinctes rpondant chacun des mots composants, mais une image unique. Ainsi les composs htel de ville, pomme de terre, arc de triomphe veillent chacun dans lesprit une image unique, et non les images distinctes dhtel et de ville, de pomme et de terre, darc et de triomphe
Cette notion dimage unique , qui est lunicit du rfrent nest pas systmatiquement lie la notion de compositionnalit. Ainsi, une combinaison lexicale peut dsigner un rfrent unique, et tre transparente, comme lexemple :
barrage hydraulique
Au contraire, elle peut ne pas dsigner un rfrent unique et tre opaque, ou partiellement opaque, puisque le sens des constituants runis ne sera pas la somme du sens de chaque constituant pris sparment, comme dans le clbre exemple de peur bleue. Ainsi, il faut encore dsigner le figement de la compositionnalit.
Du point de vue de la traduction, la notion de compositionnalit est fondamentale, car cest elle qui dtermine en partie1 si la traduction peut tre littrale. Par exemple, la combinaison littrale barrage hydraulique est transparente et se traduit de faon littrale par hydraulic dam. En revanche, la combinaison lexicale peur bleue ne se traduit pas de faon littrale. Bien sr, vient se rajouter cette notion, laspect idiomatique qui fait quune combinaison lexicale compositionnelle peut sexprimer dune autre manire dans une autre langue, tandis quune combinaison lexicale non-compositionnelle peut conserver son opacit dune langue lautre. Dans ce chapitre, nous dcrivons une mthode permettant dacqurir les traductions dunits lexicales complexes qui ne peuvent pas tre traduites de faon transparente.
Rserves tant mises sur laspect idiomatique des combinaisons lexicales, et donc de la possibilit dune
traduction non littrale malgr une transparence monolingue.
203
8.2.2 Prsentation de la mthode

Notre dernire phase dacquisition de traductions vise palier deux difficults, le problme de la non-compositionnalit dune part, et celui de co-occurrents inconnus de nos ressources dictionnairiques, parce quils sont trop techniques ou rcents, dautre part. Le point commun de ces deux difficults est quune utilisation de nos ressources dictionnairiques ne peut pas tre adapte, quelle que soit la stratgie adopte. Le principe de ce module de traduction est de collecter directement les traductions dunits lexicales complexes, partir du Web, et plus prcisment partir de rsums mixtes sur le Web, dans la ligne de travaux tels que ceux de Nagata (2001). Notre hypothse de dpart est que les requtes en franais (langue source), recherches dans des pages en anglais (langue cible) ramnent certainement un grand nombre de pages linguistiquement mixtes , cest--dire contenant des termes dans les deux langues en question. Nous avons prsent dans le chapitre 5 les diffrents types de documents partiellement parallles sur le Web. Nous pensons quune requte en langue source dont les rsultats sont limits la langue cible est propice la collecte de ce type de document. Par exemple, voici le type de rsums retourns par la requte caisse claire limite aux rsultats de pages anglaises :
Figure 85.
Rsums mixtes associs caisse claire
Dans cet exemple, les rsums mixtes contiennent la fois le terme source, caisse claire et sa traduction snare drum. La stratgie consiste mettre en place des mthodes didentification automatique des traductions candidates au sein des rsums mixtes . Cette tche est dlicate car il nest pas possible dtiqueter morpho-syntaxiquement ces rsums, dune faon satisfaisante. Nous nous basons sur deux stratgies de collecte des traductions candidates, partir des rsums bruts : dans un premier temps, nous identifions les
204
cognates candidats des units lexicales sources, et dans un second temps, nous reprons les bigrammes les plus frquents. Ces deux tapes se prsentent de la mme faon que les tapes prcdentes, cest--dire quelles sont successives : nous recherchons dabord tous les cognates des units lexicales restant traduire. Nous passons ensuite par plusieurs filtres de validation. Les traductions non obtenues ce stade passent alors par le module des bigrammes frquents.
8.3 Liens morphologiques multilingues ou cognates
8.3.1 Acquisition de rsums mixtes

Pour chaque unit lexicale complexe restant traduire, nous rcoltons les rsums sur le Web qui leur sont associs, en limitant la recherche la seule langue anglaise. Le fait de limiter la langue anglaise des requtes franaises permet de collecter des textes mixtes crits principalement en anglais et contenant des syntagmes franais de faon ponctuelle dans le corps du document (prciss le plus souvent en tant que traductions). A partir des rsums mixtes collects, nous collectons tous les bigrammes. Etant donn que le texte contient plusieurs langues, il est dlicat de procder un tiquetage morpho-syntaxique. Nous conservons les textes bruts et rcoltons les bigrammes les plus frquents de ces textes. Nous nous centrons volontairement sur les bigrammes candidats, et ne prenons pas en compte les trigrammes, ce qui peut provoquer des cas de silence pour le reprage du patron OM-of-
OM. Nous ne traitons pas non plus le cas o une unit lexicale complexe source se traduirait par une unit lexicale simple en anglais. Toutefois, lanalyse de textes non tiquets est une tche dlicate et nous faisons le choix de nous centrer sur le patron morpho-syntaxique candidat le plus frquent. Un anti-dictionnaire est galement utilis. A partir des 303 units lexicales sources restantes traduire, 327 815 bigrammes diffrents sont gnrs.
Dans un premier temps, nous nous centrons sur le reprage de cognates, cest--dire de doccurrences qui sont identiques ou se ressemblent graphiquement (Vronis, 2000a). Il
205
peut sagir, par exemple de mots graphiquement apparents tels que langue et language (ibid.).
Nous nous appuyons sur lhypothse de Cartoni (2003) :

Des langues morphologiquement proches possdent des rgularits morphologiques exploitables
Cartoni (2003) parle galement de lien morphologique multilingue afin de dsigner :

Dans un cadre multilingue, nous dcrivons le lien morphologique comme linfrence dune langue par rapport une autre, existant grce un lien intuitif entre deux mots de deux langues proches historiquement
Les cognates peuvent tre de deux types :
Rgularits de formes identiques : lunit lexicale source et lunit lexicale cible sont identiques :
salle de chat > chat room extrait de code > code snippet
Rgularits de formes de bases communes : seule la racine des termes est identique :
astrologie vdique > vedic astrology
Nous comparons les quatre premires lettres du co-occurrent anglais (premier lment du bigramme) avec celui du co-occurrent franais (deuxime lment), comme dans lexemple de :
Appareil circulatoire > circulatory system
206
Nous nous appuyons sur les travaux de Simard (1992), qui propose de considrer comme cognates des mots qui ont les mmes quatre lettres initiales. Cette longueur peut parfois provoquer des cas de silence comme dans lexemple (Veronis, 2000a) :
gouvernement > government
Toutefois, le choix dune longueur de quatre lettres communes est un compromis afin de limiter des rsultats bruits (qui ne sont pas des cognates), susceptibles dtre plus levs avec un nombre plus rduit de lettres, tout en limitant au maximum le silence. Par exemple, tablir une comparaison partir de cinq lettres aurait provoqu des cas de silence, notamment pour le reprage de termes courts, comme dans lexemple :
agneau pascal > paschal lamb
Voici un exemple des cinq cognates candidats les plus frquents pour lunit lexicale acide fluorhydrique :
fluoridrico pharmacy fluorhydrique theretical fluo publication fluoric acid fluoride acide
A ce stade du traitement, les rsultats prsentent du bruit, tels que des termes franais ou des erreurs de rattachement comme dans :
fluorhydrique theretical
Toutefois, dautres filtres vont tre utiliss. Nous obtenons 8116 traductions avec cognates candidates. Parmi les bigrammes obtenus, nous conservons les 50 bigrammes les plus
207
frquents pour chaque collocation source, ce qui nous fait 5178 traductions candidates. La proportion de bigrammes candidats par unit lexicale franaise conserve cette tape est de 17.
8.3.2 Filtres des cognates candidats
Les traductions candidates restantes sont testes par le biais de requtes en couple sur le Web, de la mme faon que dans la phase prcdente, comme dans lexemple :
acide fluorhydrique fluoridrico pharmacy acide fluorhydrique fluorhydrique theretical acide fluorhydrique fluo publication acide fluorhydrique fluoric acid acide fluorhydrique fluoride acide
Nous obtenons 2210 traductions candidates restantes aprs ce filtre. Contrairement la mthode prcdente, nous conservons les dix couples les plus frquents. Les traductions candidates gnres cette tape sont plus bruites que celles de la phase prcdente qui taient gnres directement via le dictionnaire. Nous conservons plus de traductions afin de palier des cas de silence. Il nous reste 1287 traductions candidates.
Nous utilisons ensuite le filtre du rapport entre les frquences franaises et anglaises, comme dans la phase prcdente. Cette tape nous permet de filtrer un grand nombre de traductions candidates bruites, comme dans les exemples :
"pression osmotique" (47500) "osmotic pressure" (758000) "pression osmotique" (47500) "osmotique figure" (15) Valid on valid
208
"pression osmotique" (47500) "osmotique physique" (7)
on valid
Il nous reste, aprs tous les filtres, 292 traductions candidates. Les traductions candidates restantes sont ensuite testes par une comparaison des mondes lexicaux franais et anglais, par la mme mthode que pour la phase 2, prsente dans le chapitre 7. Les mmes filtres sont appliqus :
Le coefficient de Jacquard concernant les mondes lexicaux des noms doit tre suprieur ou gal 40.
Le coefficient de Jacquard concernant les mondes lexicaux des adjectifs doit tre suprieur ou gal 30.
Voici des exemples de mondes lexicaux en commun pour les couples accident vasculaire / vascular desease et parc thmatique / theme park :
OMS
ACCIDE T VASCULAIRE / VASCULAR DISEASE artre/artery, attaque/stroke, cerveau/brain, cur/heart, dcs/death, diabte/diabetes, diagnostic/diagnosis, tude/study, hypertension/hypertension, mort/death, patient/patient, prvention/prevention, risque/risk, sant/health, soin/care, soin/treatment, traitement/traitment cardiaque/cardiac, chronique/chronic, majeur/major, mdical/medical, patient/patient, prcoce/early
ADJECTIFS
Figure 86.
Mondes lexicaux communs de accident vasculaire/vascular disease
209
OMS
PARC THEMATIQUE / THEME PARK attraction/attraction, aventure/adventure, billet/ticket, eau/water, entre/admission, famille/family, film/movie, golf/golf, htel/hotel, industrie/industry, monde/world, vacance/vacation, visiste/visit, voyage/trip animal/animal, clbre/famous, excitant/exciting, historique/historical, national/national, populaire/popular, professionnel/professional, rgional/regional, spcial/special
ADJECTIFS
Figure 87.
Mondes lexicaux communs de parc thmatique/theme park
A lissue de cette tape, 89 traductions sont valides, soit 29.37% des units lexicales de dpart pour cette phase, et 8.27% de la totalit de nos donnes de dpart.
Voici un exemple de traductions obtenues par la mthode des cognates :
PATRO OM ADJECTIF
U ITE LEXICALE SOURCE accident vasculaire acide amin acide nuclique acteur conomique affection neurologique alimentation modulaire ambiance thermique
TRADUCTIO vascular disease amino acid nucleic acid economic actor neurological disease modular power thermal comfort gastric band consulting group toilet water protective helmet product manager protective cover execution platform excellence scholarships activation code ambient music
OM de OM
OM d' OM
anneau gastrique cabinet de conseil cabinet de toilette casque de protection chef de produit tui de protection agent d'excution bourse d'excellence code d'activation musique d'ambiance
Figure 88.
Traductions obtenues par la mthode des cognates
Le schma suivant rcapitule les tapes de filtres pour la mthode des cognates :
210
Filtre automatique Units lexicales Traductions candidates Filtre Web Filtre Filtre restantes aprs la gnres parallle, rapport indice de phase 2 top 10 franais/ similarit anglais 303 327 815 1287 292 89
8.4 Bigrammes frquents candidats

Pour chaque unit lexicale complexe restante traduire, nous collectons les bigrammes les plus frquents contenus dans les rsums mixtes. Sont exclus de la liste les cognates dj tests. Notre point de dpart est 201 256 bigrammes candidats. Nous conservons les 20 bigrammes les plus frquents, comme dans lexemple :
souris d'agneau "lamb shank" souris d'agneau "geneve pays" souris d'agneau "detail produit" souris d'agneau "lamb shanks" souris d'agneau "weekly letter" souris d'agneau "anglais discussion" souris d'agneau "zucchini recipe" souris d'agneau "weather forecast" souris d'agneau "username password" souris d'agneau "train station" souris d'agneau "touquet restaurant" souris d'agneau "themes developed" souris d'agneau "team keep" souris d'agneau "tapestry founded" souris d'agneau "station restaurant" souris d'agneau "soupe fruits" souris d'agneau "siran chocolate" souris d'agneau "several themes" souris d'agneau "scones biscuits" souris d'agneau "salted nuts"
Figure 89.
Bigrammes candidats pour souris dagneau
Aprs ce filtre, nous obtenons 4275 bigrammes candidats.
211
De la mme faon que prcdemment, les 20 bigrammes pour chaque unit lexicale source sont tests par le biais du Web parallle et par un filtre du calcul des frquences franaises et anglaises. Il nous reste 2424 traductions aprs le filtre du Web parallle. Nous ne conservons que les 3 couples les plus frquents, ce qui nous laisse 637 bigrammes.
Les rsums anglais des traductions candidates restantes sont collects et leurs mondes lexicaux sont compars avec les mondes lexicaux sources, comme dcrits prcdemment. Le filtre de Jacquard est toutefois beaucoup plus puissant que dans la mthode des cognates, car les traductions sont susceptibles dtre davantage bruites (laccs aux ressources dictionnairiques dans un premier temps, et le reprage des cognates dans un second temps constituaient des indices plus fiables que les simples bigrammes) :
Le coefficient de Jacquard concernant les mondes lexicaux des noms doit tre suprieur ou gal 110.
Le coefficient de Jacquard concernant les mondes lexicaux des adjectifs doit tre suprieur ou gal 100.
Voici deux exemples de mondes lexicaux obtenus pour lunit lexicale souris dagneau et sa traduction lamb shank :
SOURIS D'AG EAU OMS restaurant (257), recette (166), cuisine (162), salade (89), plat (66), carte (60), vin (43), lgume (43), canard (43), foie (42), tomate (34) chef (34), entre (32), saumon (31), sauce (31), cur (30), table (29), huile (28), gigot (28), filet (27) gras (48), confit (34), vert (30), gastronomique (23), beau (23), frais (21), traditionnel (20), blanc (19), fum (16), ancien (15), provenal (14), gourmand (12), chaleureux (12), franais (11), sec (10), original (10), rti (9), parisien (9), chaud (9), bienvenu (9)
ADJECTIFS
Figure 90.
Monde lexical de souris dagneau
212
LAMB SHA K OMS recipe (250), oil (203), salt (202), pepper (192), sauce (187), garlic (157), wine (153), meat (151), flour (117), leg (114), onion (109), tender (106), season (104), dish (104), beef (103), food (93), cup (98), tomato (86), bone (85), restaurant (82) ADJECTIFS olive (112), fresh (102), red (93), slow (81), brown (79), delicious (65), whole (51), white (50), grilled (43), dry (43), moroccan (42), black (40), seasoned (39), meaty (36), french (35), greek (34), special (33), rich (33), boneless (33), top (32)
Figure 91.
Monde lexical de lamb shank
Les mondes lexicaux en commun sont les suivants :
OMS
SOURIS D'AG EAU / LAMB SHA K ail/galic, carte/menu, chef/chef, cuisine/cooking, cuisine/food, huile/oil, lgume/vegetable, oignon/onion, plat/dish, recette/recipe, restaurant/restaurant, sauce/sauce, soupe/soup, tomate/tomato, viande/meat, vin/wine blanc/white, chaleureux/warm, chaud/hearty, chaud/warm, classique/classic, doux/sweet, frais/fresh, gras/fat, parfait/perfect, particulier/special, riche/rich, sec/cold, sec/dry, spcial/special, tide/warm, traditionnel/traditional, vert/green
ADJECTIFS
A lissue de cette tape, 26 traductions sont valides. Nous avons volontairement instaur des filtres plus puissants car cette tape gnre davantage de traductions bruites. Voici un exemple de traductions obtenues par la mthode des bigrammes frquents:
213
PATRO OM ADJECTIF
U ITE LEXICALE SOURCE antenne filaire appel vocal applique murale aurore borale caisse autonome effet indsirable esprit impur
TRADUCTIO wire antenna voice call wall lamp northern light social security side effect unclean spirit identification plate milk carton load factor processing industry chicken breasts power supply nitrogen oxide lamb shank
OM de OM
OM d' OM
plaque signaltique brique de lait facteur de charge industrie de transformation suprme de volaille bloc d'alimentation oxyde d'azote souris d'agneau
Figure 92.
Traductions obtenues avec la mthode des bigrammes frquents
Le schma suivant rcapitule les tapes de filtres pour la mthode des bigrammes frquents :
Filtre automatique Units lexicales Traductions candidates Filtre Web Filtre Filtre restantes aprs la gnres parallle, rapport indice de phase 3 (Cognats) top 3 franais/ similarit anglais 214 201 256 637 26
Figure 93.
Etapes de traitement de la mthode des bigrammes frquents
214
8.5.1 Typologie bilingue des units lexicales complexes

Nous adaptons la typologie monolingue de Tutin et Grossmann (2003) aux cas de la traduction des units lexicales complexes et proposons une typologie des units lexicales complexes, dun point de vue bilingue.
Traductions opaques
Les collocations opaques contiennent des collocatifs imprdictibles smantiquement, tandis que la base conserve son sens habituel. Dans le cadre de la traduction, plusieurs cas daltration smantique sont possibles :
- Sens altr de la tte smantique : il arrive que le co-occurrent conserve son sens habituel, mais que la tte smantique soit altre dans un contexte lexical prcis, comme dans lexemple de souris dagneau, ou souris ne peut pas tre traduit de faon littrale par mouse.
- Sens altr du co-occurrent : la base conserve une des traductions habituelles, mais le cooccurrent nest pas traduit de faon littrale comme dans lexemple suivant :
caisse noire > secret funds
Le sens de ladjectif noir, combin la tte smantique caisse ne dsigne pas la couleur, mais a le sens de secret.
- Sens altr des deux constituants : il arrive que le sens des deux constituants soit altr, comme dans lexemple :
cl des champs > free rein
215
Traductions transparentes
Les traductions transparentes comportent des collocatifs aisment interprtables, bien qutant imprdictibles dun point de vue lexical, comme dans lexemple :
pluie forte > heavy rain
Bien que lunit lexicale heavy rain soit interprtable, il nest pas possible daccder sa traduction de faon littrale, en traduisant fort.
Traductions rgulires
Les traductions rgulires sont des combinaisons dans lesquelles le sens global est dductible et prvisible, et la somme des traductions des constituants est satisfaisante :
allocation familiale > family allowance
Dans le cas des traductions rgulires, la difficult de lambigit lexicale des constituants reste toutefois prsente.
8.5.2 Proportions de traductions

Les deux figures suivantes prsentent la proportion de traductions obtenues de faon gnrale, dtailles par tapes. Nous obtenons 82,51% de traductions. La phase qui ramne la plus grande quantit de traductions est la phase 2, base sur une comparaison des mondes lexicaux. En effet, une majorit des units lexicales sont polysmiques. Le problme des traductions non transparentes ou inconnues concerne 10,7% des cas traduits (dont 8,28% sont des cognates).
216
Collins Google Phase1 (Frquences) Phase 2 (Mondes lexicaux_Co-occurrents Google) Phase 2 (Mondes lexicaux) Phase 3 (Cognats) Phase 3 (Bigrammes frquents) TOTAL
28 39 31 26 648 89 26 887
2,60% 3,63% 2,88% 2,42% 60,28% 8,28% 2,42% 82,51%
1075 188
Figure 94.
Proportion de traductions obtenues pour chaque tape
17,49% Traductions non obtenues 8,28% Phase 3 (Cognats)
2,60% Collins
3,63% 2,88% Google Phase 1
2,42% Phase 2 (Cooccurrents Google
60,28% Phase 2 2,42% Phase 3 (Bigrammes)
Figure 95.
Quantit de traductions obtenues
9. Evaluation
217
Chapitre 9.
Evaluation
9.1 Evaluation
Au sein de notre chantillon alatoire, nous valuons les 887 traductions obtenues. Nous avons opt pour une valuation manuelle, effectue par un locuteur bilingue1. Nous aurions pu comparer nos rsultats avec des systmes de Traduction Automatique tels que Systran ou Google, mais nous faisons le choix dune valuation humaine, plus fiable, afin de juger efficacement de nos ressources. Nous pourrons envisager lors de futures volutions une analyse quantitative compare de nos rsultats avec dautres systmes, mais dans un premier temps, notre objectif est de faire valuer un locuteur bilingue la qualit des ressources collectes automatiquement.
Pour chaque traduction obtenue, stocke dans un document de type Excel, nous utilisons le moteur de recherche Exalead2 afin de proposer une illustration contextuelle lvaluatrice. Le travail de lvaluatrice a consist valuer la qualit de traduction des units lexicales complexes, dans un sens unique de traduction, du franais vers langlais. Lvaluatrice a eu le
Lvaluatrice est Amanda Grey, traductrice professionnelle (http://www.amandagrey.com/). http://www.exalead.fr
9. Evaluation
218
choix entre trois apprciations de traduction, prciser pour chaque unit lexicale complexe traduite :
A : Bonne traduction ; B : Traduction acceptable ; C : Mauvaise traduction.
Les liens vers des requtes en franais puis en anglais vers le moteur de recherche Exalead sont prciss afin de rsoudre dventuels cas dambigits et doffrir un contexte demploi lexical des units sources et cibles. Toutefois, il ne sagit pas dvaluer la qualit des rsultats retourns par le moteur de recherche, mais uniquement les traductions que nous prsentons. Les liens hypertextes constituent une aide pour lvaluation mais ne sont pas valuer.
Voici un chantillon des vingt premires traductions qui ont t values :
Figure 96.
Extrait des valuations
Chaque lien hypertexte, intitul Recherche , ouvre une fentre divise en deux parties : dune part la recherche du terme complexe source, limite aux pages de langue franaise,
9. Evaluation
219
dautre part, la recherche de la traduction, limite aux pages de langue anglaise. Voici un exemple de fentre pour le couple absence temporaire/temporary absence :
Figure 97.
Recherches sur Exalead
La colonne Evaluation a t complte par lvaluatrice, pour les 887 traductions prsentes. Les rsultats obtenus montrent que 89,29% des traductions ont t considres comme correctes par lvaluatrice (catgorie A) et 5,07% ont t considres comme acceptables (B), soit en tout 94,36% de traductions juges comme tant non errones. Seulement 5,64% de traductions ont t juges errones, comme lillustrent les tableaux suivants :
Catgories d'valuation A B C ombre de traductions 792 45 50 Pourcentage
89,29% 5,07% 5,64%
Figure 98.
Proportion de traductions pour les trois catgories
9. Evaluation
220
Catgories d'valuation Acceptable on acceptable
ombre de traductions 837 50
Pourcentage
94,36% 5,64%
Figure 99.
Proportion de traductions acceptables
Ces rsultats sont particulirement satisfaisants puisquils montrent que plus de 94% des rsultats sont directement exploitables, sans aucune intervention humaine. Parmi elles, 89% sont totalement satisfaisantes et seulement 5% sont acceptables sans tre la traduction la plus satisfaisante.
9.2 Analyse des erreurs

Les erreurs que nous analysons ici concernent exclusivement celles qui ont t releves via la non acceptation de lvaluation de lexpert, savoir le bruit, et non pas celles qui ne sont pas valides (et qui feraient partie des 17,49%).
Nous recensons trois grandes catgories derreurs. Dune part, les erreurs lexicales qui consistent en un choix lexical erron (choix lexical proche mais non quivalent exact ou choix lexical erron). Dautre part, les erreurs morpho-syntaxiques qui consistent en un choix de structure morpho-syntaxique erron. Enfin, les erreurs idiomatiques , cest--dire dont le choix lexical est interprtable, mais non acceptable dun point de vue collocationnel . Nous analysons les types derreurs, catgories B (acceptable) et C (erron) confondues, mais nous signalons entre parenthse le type de catgorie.
9.2.1 Erreurs lexicales

Les erreurs lexicales dsignent un mauvais choix lexical dau moins un des constituants de lunit lexicale complexe. Parmi les erreurs lexicales, nous distinguons celles dont le choix lexical est proche dun point de vue thmatique mais non quivalent (il sagit parfois de la tte
9. Evaluation
221
smantique, parfois du co-occurrent ou de la totalit des lments), de celles dont le choix lexical est totalement erron, cest--dire que la dsambigisation lexicale na pas t correctement effectue (il sagit systmatiquement dun mauvais choix de la tte smantique).
Choix lexical thmatiquement proche (tte smantique errone)

Parmi les erreurs lexicales, certaines consistent en un choix lexical de la tte smantique non quivalent lunit lexicale complexe source, mais dont le sens reste proche ou du moins dans la mme thmatique, comme par exemple :
Villa provenale > provencal style (B)1 Expression orale > oral communication (B)
Dans ces exemples, le sens de la traduction (style provenal, communication orale) reste proche de lunit lexicale complexe source (villa provenale, expression orale), mais ne constitue pas un quivalent exact. Le sens global nest pas totalement altr mais lquivalence nest pas stricte. Pour nous, le sens dun choix lexical thmatiquement proche est proche de celui de la traduction attendue, contrairement un choix lexical totalement erron, dont le sens na aucune proximit. Bien que cette rpartition entre choix lexical proche et choix lexical erron ait t tablie via une apprciation humaine, de faon manuelle, nous pensons quelle est importante, car ces deux types derreurs ne doivent pas tre mis au mme niveau. Lorsque le choix lexical de la traduction est thmatiquement proche, un changement paradigmatique entre la traduction attendue et la traduction obtenue nentrave pas la comprhension globale dun texte : seules des nuances prcises smantiques sont altres, comme par exemple, un changement paradigmatique entre oral expression et oral communication. A linverse, lorsque le choix lexical est erron, comme dans lexemple :
Formation juridique > legal background (C)
La comprhension globale dun texte comportant la traduction errone serait entrave.

1
Ici, on attendrait plutt une combinaison de trois mots-plein telle que provencal style villa.
9. Evaluation
222
Voici dautres exemples de traductions dont le sens de la tte smantique est quelque peu altr, sans que cela ne nuise la comprhension gnrale de lunit lexicale complexe :
Apprentissage cognitif > cognitive strategy (B) Voie de dveloppement > developing country (B) Suprme de volaille > chicken breasts (B) Association locale > local society (B) Extrait de code > code snippet (B) Boulevard industriel > industry buisness (B) Agent dexcution > execution platform (B) Prestation supplmentaire > supplementary benefit (B) ote dapplication > industry note (B)
Ainsi, la traduction chicken breasts (blancs de poulet), par exemple, sans tre la meilleure traduction possible de suprme de volaille reste dans la mme thmatique et naltre pas la comprhension globale.
Dans la mme ligne, certains choix lexicaux restent dans une thmatique plus ou moins proche, avec un co-occurrent correctement traduit, mais le sens de la tte smantique est totalement altr, comme dans les exemples :
Alphabet arabe > arab world (C) Gestion communautaire > community wildlife (C) Profession de psychologue > psychological association (C)
9. Evaluation
223
Parc nuclaire > nuclear energy (C) Envie de chocolat > chocolate cake (C) Fiche de vocabulaire > vocabulary grammar (C) Accident vasculaire > vascular disease (C) Planification nationale > national economic (C) Lieu de vote > vote local (C) Ambition prsidentielle > presidential campaign (C)
Dans ces exemples, le co-occurrent est correctement traduit, mais les ttes smantiques ne correspondent pas, telles que respectivement alphabet/monde (world), gestion/vie sauvage (wildlife), profession/association (grammaire), (association), accident/disease parc/energy, (maladie), envie/cake (gteau),
fiche/grammar
planification/economic
(conomique), lieu/local (local) et ambition/campaign (campagne). Ces traductions sont considres comme incorrectes, mais la thmatique reste tout de mme relativement proche. Dans certains cas, lunit lexicale complexe est ambige en franais, et sa traduction peut tre acceptable en fonction de lusage retenu, comme dans lexemple :
Appareil militaire > military plane (B)
Dans cet exemple, la traduction concerne lusage AERIE , ce qui est acceptable, mais ne concerne pas le seul usage possible de appareil militaire.
Il arrive galement que la traduction obtenue pour la tte smantique soit ambige et offre un rsultat acceptable mais non totalement satisfaisant, comme dans lexemple :
Groupe de jeune > young party (B)
9. Evaluation
224
Ici, party signifie groupe, mais reste ambigu car lun des usages est FETE. La traduction young party est donc ambigu par rapport lunit lexicale source car elle peut aussi dsigner une fte organise par des jeunes , ce qui napparat pas dans lusage de dpart groupe de jeune.
Choix lexical thmatiquement proche (co-occurrent erron)

Il arrive que la tte smantique soit correctement traduite, mais que le co-occurrent soit erron, mme si lensemble de la traduction reste thmatiquement proche, comme dans les exemples :
Station de montagne > hill station (C)
Ici, le co-occurrent montagne est traduit par hill qui signifie colline. Le sens global est proche mais non totalement quivalent.
Un autre exemple de ce type derreur de traduction du co-occurrent concerne :

Rgime alimentaire > atkins diet (C)
La tte smantique est correctement traduite, mais alimentaire est traduit par atkins qui est une marque de mthode de rgime amincissant.
Un autre exemple de mauvaise traduction du co-occurrent est :

Appartement meubl > room apartment (C)
Ici, room apartment signifie pice dappartement.
Une traduction proche mais non compltement satisfaisante concerne lunit lexicale traduite par :
Right government (B)
9. Evaluation
225
Cette traduction reste ambigu car right peut signifier correct, acceptable. Ici, la traduction quivalente serait :
Right wing government
Une autre erreur concerne lunit lexicale gnral de brigade :

Team general (B)
Dans cet exemple, le nom brigade est traduit par team (quipe). Parfois, la traduction du cooccurrent est de sens trs proche, mais non parfaitement quivalent :
Groupe dtude > practice group (B)
Ici, practice nest pas lquivalent exact dtude, mme si le sens gnral nest pas altr. Un autre exemple particulier concerne lunit lexicale et sa traduction :
Ancien militaire > military past (B)
Dans ce cas, ladjectif ancien nest pas correctement traduit (nom past). Toutefois, notons que lunit lexicale source est une erreur dtiquetage entre ladjectif ancien et le nom ancien. Nous navons pas collect de structure de type ADJECTIF- OM, mais elle na pas t filtre car ladjectif ancien peut galement tre un nom. De plus, lambigit morpho-syntaxique concerne aussi le nom militaire qui peut galement tre un nom.
Choix lexical thmatiquement proche (ensemble de lunit lexicale)

Enfin, il arrive que le sens global reste relativement proche, mais que lensemble des traductions constituant lunit lexicale soit erron et non parfaitement quivalent, comme dans les exemples :
Ampoule conomique > energy saving (conomie dnergie) (B)
9. Evaluation
226
Village de caractre > holiday rental (location de vacances) (C) Qualit dauteur > intellectual property (proprit intellectuelle) (C) Projection numrique > films festivals (festival de films) (C) Chambre daccusation > right violation (violation des droits) (C) Chiffre daffaire > press release (communiqu de presse) (C) Enseignement de base > education system (systme ducatif) (C) Caisse autonome > social security (scurit sociale) (B) Bloc dalimentation > power supply (prise lectrique) (B)
Dans ces exemples, les traductions sont errones, mais appartiennent au mme champ lexical que lunit lexicale source.
Une majorit des erreurs concernant un mauvais choix lexical dans une thmatique proche sont relatives la phase 3 de notre mthodologie, qui collecte les traductions sans accs pralable une ressource dictionnairique. Les mondes lexicaux sont compars, ce qui nous garantit une proximit lexicale, mais les traductions de chaque constituant ne sont pas directement compars avec les constituants sources. Une perspective damlioration concerne la vrification dau moins un des constituants dans notre dictionnaire. Par exemple, pour lunit lexicale parc nuclaire, nous obtenons la traduction :
uclear energy
Nous pourrions vrifier si la traduction candidate nuclear park (dont nous connaissons la traduction de park) nest pas galement prsente, car elle aurait plus de probabilits dtre la traduction adquate.
9. Evaluation
227
Choix lexical erron

Dautres erreurs consistent en un choix lexical totalement erron, d une difficult dambigit lexicale non rsolue, comme dans les exemples :
Fond daide > help back (C)
Back sapplique un fond du type de lusage ARMOIRE.
Une autre erreur dambigit lexicale concerne le nom polysmique campagne dans les exemples :
Campagne agricole > agricultural country (C) Campagne publique > state country (C)
Ici, le nom campagne ne sapplique pas lusage
ATURE, mais lusage
POLITIQUE/PRESSE. La traduction attendue pour la tte smantique est campaign.
Un autre exemple concerne la traduction de accord par understanding :

Accord global > overall understanding (C) Accord mutuel > mutual understanding (C)
Understanding correspond lusage COMPREHE SIO .
Un autre exemple concerne lunit lexicale arbitre de touche traduite par :

Touch judge (C)
Ici, judge ne sapplique pas un arbitre dans lusage du sport.
9. Evaluation
228
Une autre erreur concerne la traduction de action nouvelle :

ew share (C)
Share sapplique une action dans le sens de PART, ce qui nest pas appropri dans ce contexte.
En ce qui concerne la traduction de plateau de fromage, la traduction obtenue reste acceptable :

Cheese set (B)
Toutefois, le choix lexical de la tte smantique nest pas le plus appropri. La traduction attendue serait :
Cheese board
Une autre erreur de dsambigisation lexicale concerne la traduction :

Prestation de conseil > consultant performance
Performance dsigne une prestation dans lusage de PRESTATIO (artiste, sportif).
Voici dautres exemples de mauvaise dsambigisation lexicale de la tte smantique :

Voie commerciale > commercial road (C) Histoire familiale > family story (C) Formation juridique > legal background (C)
Nous pourrons amliorer cette source derreurs en affinant nos filtres de comparaison des mondes lexicaux (filtres plus stricts, ajout danti-dictionnaires, etc.).
9. Evaluation
229
Dcoupage smantique diffrent

La traduction de terrain varie en fonction du type de terrain de sport (football, golf, basketball). Dans cet exemple derreur, field ne sapplique pas au terrain de basketball :
Terrain de basket > basketball field (C)
La traduction attendue serait :

Basketball court
9.2.2 Erreurs morpho-syntaxiques

Un autre type derreur concerne les cas de traductions ayant un choix lexical correct, mais une structure morpho-syntaxique errone. Les erreurs morpho-syntaxiques altrent moins la comprhension globale que les erreurs lexicales, comme dans lexemple :
Analyse de march > analysis of market (C)
Ici, la traduction attendue serait du type de :

Market analysis
Parmi les erreurs morpho-syntaxiques, nous distinguons deux cas pour la structure syntaxique source OM-DE- OM (du type de analyse de march). Dune part, certaines erreurs
consistent en un mauvais choix entre les structures de type roman ( OM- OM) et de type germanique ( OM OF OM). Dautre part, certaines erreurs consistent en une non prise en compte de la structure de type possessif , faisant intervenir le gnitif.
9. Evaluation
230
Structures de type roman et de type germanique

Une difficult consiste en un choix erron entre les deux structures morpho-syntaxiques possibles en anglais que nous prenons en compte pour la mme structure en franais OM-
DE- OM. Nous avons prsent dans le chapitre 6 ces deux types de structures. Par exemple, la traduction de lunit lexicale annuaire dannuaires est errone dun point de vue morphosyntaxique :
Directory directory (C)
La structure attendue ici serait :

Directory of directories
Cette unit lexicale est naturellement spcifique et dlicate traiter, puisquelle est redondante dans les deux lments lexicaux.
De mme, nous obtenons la traduction suivante pour lunit lexicale maison de cognac :
Cognac house (C)
Ici, le terme maison de cognac dsigne une socit qui commercialise du Cognac et la traduction attendue serait :
Cognac
Cette unit lexicale source est dlicate, car peu utilise dans un contexte anglophone.
Les erreurs de choix de structures entre le type roman et le type germanique concernent majoritairement un choix de type germanique alors que le type roman (cest--dire lordre dterminant-dtermin) serait attendu, comme dans les exemples :
Cycle de vie > cycle of life (B)
9. Evaluation
231
Effet de change > effect of exchange (B)
Dans ces exemples de type germanique , cest le type roman qui est correct :
Life cycle Exchange effect
Le type roman en anglais pose des difficults de reprage cause de problmes dambiguts de rattachement syntaxique. A lheure actuelle, nous neffectuons pas danalyse syntaxique des traductions candidates testes sur le Web. Une volution pourra tre dajouter un module danalyse morpho-syntaxique, lorsque nous testons les frquences sur le Web, par exemple (collecte des rsums et analyse morpho-syntaxique des rsultats).
Structures de type possessif

Nous avons volontairement omis la structure de type possessif , qui correspond au cas du gnitif. Le gnitif, qui constitue une relation dappartenance entre les deux lments est un cas particulier des constructions de reprage dun nom par rapport un autre nom. Cette structure concerne moins de cas et reste dlicate traiter. Par la suite, nous envisageons de la prendre en compte, puisque certaines erreurs morpho-syntaxiques concernent ce type de structure, comme dans les exemples :
Lait de femme > woman milk (C) Lait de maman > mummy milk (C) Justice de Dieu > god justice (C)
Dans ces exemples, cest une structure du type gnitif qui est souhaitable :
Womans milk Mummys milk
9. Evaluation
232
Gods justice
Dans ces exemples, le repre est un tre humain (ou un lment plus ou moins assimil) et le repr est un objet ou une proprit susceptible dappartenir ce repre (Chuquet et Paillard, 1987).
Ordre des mots

Un autre type derreur concerne un mauvais ordre des mots, comme dans lexemple :
Lac de garde > garda lake (C)
Cette unit lexicale prsente la particularit de dsigner un lieu. Contrairement la majorit des traductions du type roman (NOM-NOM), o le second nom correspond au dtermin , ici cest la traduction lake garda qui est attendue, cest--dire un ordre du type dtermin/dterminant.
on quivalence de longueur
Une difficult et source derreur concerne une non quivalence de longueur des constituants entre lunit lexicale source et sa traduction, comme dans lexemple de :
Mtier de vigneron > wine grower (B)
Ici les deux constituants wine grower correspondent au seul terme vigneron. Si le sens global reste comprhensible, lunit mtier nest pas traduite et devrait tre rajoute.
Absence de dterminant
Il arrive quun dterminant soit introduit au sein dune structure de type germanique , en anglais. Ainsi, nous obtenons la traduction errone :
9. Evaluation
233
Fruit de saison > season fruit (C)
Non seulement ce nest pas une structure de type roman qui est attendue ici, mais un dterminant doit tre introduit au sein de la structure :
Fruit of the season
Une perspective sera de prendre en compte un nombre plus lev de structures morphosyntaxiques possibles en langue cible.
9.2.3 Erreurs idiomatiques

Un autre type derreur concerne un choix lexical smantiquement pertinent, mais dont le caractre idiomatique nest pas pleinement satisfaisant, comme dans lexemple :
Fte danniversaire > anniversary party (B)
Bien que cette traduction soit considre comme acceptable et reste comprhensible, le choix lexical de anniversary ne correspond pas au choix le plus pertinent dun point de vue idiomatique. Ici, la traduction attendue serait :
Birthday party
Un autre exemple derreur idiomatique :

Mariage de princesse > marriage of princess (C)
Ici, le choix lexical attendu est wedding au lieu de marriage.
Une autre erreur, bien que la traduction reste acceptable, concerne lunit lexicale :
Balle de ping-pong > ping-pong table (B)
9. Evaluation
234
Une traduction prfrable serait :

Table tennis table
Une autre traduction acceptable mais non compltement idiomatique est celle de truc de fou :
Wild stuff (B)
Ici, une traduction plus idiomatique serait :

Crazy stuff
Une autre erreur de type idiomatique (ainsi que morpho-syntaxique) concerne lunit lexicale verre de whisky :
Whiskey chaser (B)
Ici, chaser nest pas la traduction la plus approprie pour le nom verre (cet usage insiste sur la pluralit des verres qui sont bus). La traduction la plus approprie serait :
Glass of whisky
9.3 Proportion des erreurs par catgorie

La figure suivante prsente la proportion derreurs par catgories dtailles. Une majorit des erreurs concerne un choix lexical de la tte smantique thmatiquement proche mais non exactement quivalent (32,63%). Cette difficult pourra tre amliore en utilisant une vrification au sein dune ressource dictionnairique pour au moins lun des constituants. Viennent ensuite les erreurs de structures morpho-syntaxiques (23,16%), qui pourront tre amliores en prenant en compte davantage de structures syntaxiques possibles en langue cible, telles que par exemple le gnitif. Enfin, le troisime type derreur la plus frquente concerne une mauvaise dsambigisation lexicale dun des constituants (14,74%). Cette
9. Evaluation
235
difficult pourra tre amliore en affinant davantage les comparaisons de mondes lexicaux (filtres supplmentaires, diffrentes mesures1, etc.).
Type d'erreurs
ombre de traductions 31 7 9 14 1 22 11
Pourcentage
Lexical proche(tte) Lexical proche(co-occurrent) Lexical proche (totalit) Dsambiguisation lexicale Dcoupage smantique Structure morpho-syntaxique Idiomatique
32,63% 7,37% 9,47% 14,74% 1,05% 23,16% 11,58%
Figure 100.
Typologie dtaille des erreurs
Nous rcapitulons les sources derreurs par grandes catgories (Figure 98). Une majorit des difficults est dordre lexical (thmatique proche mais non quivalente, dsambigisation lexicale), savoir plus de la moiti des cas derreurs (65,26%). Viennent ensuite les erreurs dordre morpho-syntaxique (mauvais choix de structure) (23,16%), suivies des erreurs de type idiomatique (11,58%).
Type d'erreurs
ombre de traductions 62 22 11
Pourcentage
Lexical Morpho-syntaxique Idiomatique
65,26% 23,16% 11,58%
Figure 101.
Typologie gnrale des erreurs
Nous catgorisons enfin les erreurs par phase de traitement :

Par exemple, nous avons utilis la mesure du coefficient de Jacquard, afin de mesurer le degr de similitude entre deux ensembles. Nous pourrions galement tester dautres mesures, telles que par exemple le Cosinus.
1
9. Evaluation
236
Phases
ombre de traductions 1 56 1 20 13 2 2
Pourcentage
Phase1 Phase2 Phase2_Cooc_Google Phase3_Cognats Phase3_Bigrammes Dico_Google Dico_Collins
1,05% 58,95% 1,05% 21,05% 13,68% 2,11% 2,11%
Figure 102.
ombre derreurs par phase de traitement
Un peu plus de la moiti des erreurs (58,95%) concerne la phase 2 (comparaison des mondes lexicaux). Cet ordre de grandeur sexplique par le fait quune majeure partie des traductions est traite par cette phase. Viennent ensuite les erreurs concernant la phase 3 (21,05% pour la mthode des cognates et 13,68% pour la mthode des bigrammes frquents). En effet, cette mthode, qui ne sappuie pas au pralable sur des ressources dictionnairiques, prsente la limite dextraire certaines traductions proches thmatiquement mais non parfaitement quivalente lunit lexicale source. La figure 100 rcapitule la proportions derreurs par grandes catgories de nos phases de traitement :
Phases
ombre de traductions 1 57 33 4
Pourcentage
Phase 1 Phase 2 Phase 3 Ressources
1,05% 60,00% 34,74% 4,21%
Figure 103.
ombre derreurs par grandes catgories de phases de traitement
10. Conclusion et perspectives
237
Chapitre 10. Conclusion et perspectives
10.1 Discussion
Notre travail a mis laccent sur trois types de problmatiques que nous avons menes conjointement. Dune part, nous nous sommes interroge, dun point de vue linguistique sur le statut des units lexicales complexes. Nous avons montr que, pour une mme structure morpho-syntaxique, le statut linguistique peut tre diffrent, ces diffrences ne sont pas binaires, mais graduelles. Le statut linguistique des units lexicales complexes peut tre envisag en rapport avec le signe, cest--dire avec le rfrent dsign par la globalit de lunit lexicale. Toutefois, le rapport entre lunit lexicale complexe et le rfrent auquel elle renvoie est un rapport complexe dont les frontires sont difficiles tablir. Les co-occurrents, en mme temps quils annoncent une caractristique de lobjet peuvent avoir simultanment une valeur typante, comme dans lexemple de caf noir, o noir dsigne la fois une proprit du caf et le place en mme temps dans une catgorie particulire de caf. Nous avons mis en relation ces rflexions thoriques avec la tche didentification automatique de ces units lexicales, tche mene trs vaste chelle, partir du Web. Nous avons collect environ 10 000 units lexicales complexes et notre base continue de saccrotre au quotidien.
238
Nous nous sommes galement intresse laspect interlingue des units lexicales complexes, ce qui nous permet denvisager le statut interlingue du signe : les diffrences dune langue lautre sont rvlatrices des diffrences de dcoupage smantique de la ralit . Nous avons montr que les aspects bilingues des units lexicales complexes taient varis : traductions compositionnelles ou non compositionnelles. Nous avons propos une analyse du comportement lexical du phnomne de traduction. Nous avons mis en rapport les aspects linguistiques de la traduction avec son acquisition automatique. Dans nos travaux, nous montrons quune analyse linguistique intrinsque des units lexicales complexes permet dapporter un traitement automatique adapt et daffiner ainsi les mthodes de traduction.
Nous avons galement propos une rflexion la fois thorique et technique sur lutilisation du Web dans le cadre dapplications linguistiques. Dun point de vue thorique, nous avons montr que le Web, bien quil ne constitue pas une ressource traditionnelle au mme titre que les corpus au sens propre, constitue un rservoir gigantesque qui bouleverse les mthodes de travail linguistiques relatives la comprhension des langues. La frquence des phnomnes linguistiques nest pas ncessairement une preuve de validit de la forme linguistique car certains usages valides sont peu usits. Toutefois, la frquence permet de collecter les phnomnes linguistiques les plus courants, ce qui est utile, non seulement afin de les analyser mais aussi afin de les collecter dans le cadre de la construction de vastes ressources lexicales telles que celle que nous construisons. Dun point de vue technique, nous avons mis en place une mthodologie dacquisition de ressources lexicales monolingues et bilingues, vaste chelle, qui prsente lintrt de pouvoir fonctionner en continu et de grossir de faon quotidienne. Nous avons analys, puis mis en pratique, les diffrentes facettes du Web bilingue , en proposant une mthode mixte de stratgies. Les ressources que nous avons collectes jusqu prsent sont de bonne qualit, avec une prcision de traduction trs satisfaisante, savoir 94,4% de traductions acceptables. Le rappel est galement particulirement lev, avec un taux de 82,5%.
Nous nous sommes galement centre sur ltude du contexte des units lexicales complexes et avons dfini la notion de mondes lexicaux . Nous avons observ ce phnomne vaste chelle, en collectant les mondes lexicaux directement partir du Web. Ces mondes lexicaux, en franais et en anglais, ont t exploits pour la dsambigisation lexicale pour la
239
traduction. Toutefois, ces ressources sont intressantes en elles-mmes et pourront certainement tre exploites par la suite pour la construction de ressources de type ontologiques.
10.2 Perspectives
Les vastes ressources dont nous disposons grce au Web nous offre des perspectives dvolution dun point de vue quantitatif dune part (laugmentation rgulire des donnes va nous permettre daffiner nos observations en obtenant de nombreux nouveaux cas) et dun point de vue qualitatif dautre part, tant donn que nous visons affiner diffrents aspects de notre mthode, savoir la prise en compte des thmatiques sur le Web (10.2.1), llargissement des structures morpho-syntaxiques tudies, ainsi que lajout de modules syntaxiques (10.2.2) et enfin la prise en compte de relations smantiques permettant de classer les units lexicales complexes en familles thmatiques et dorganiser les arguments qui constituent les units lexicales complexes selon des repres smantiques (10.2.3).
10.2.1 Thmatiques de recherche

Nous avons fait le choix de nextraire quune seule traduction par unit lexicale source. Il arrive toutefois que plusieurs traductions soient correctes. Nous pourrions par la suite nous intresser un recensement exhaustif de toutes les traductions possibles pour une mme unit lexicale source.
Dune faon plus prcise, nous pourrions nous intresser aux domaines de spcialit ou aux thmatiques particulires. Par exemple, une traduction satisfaisante en langue gnrale (lusage le plus courant) peut tre inadquat dans un domaine de spcialit. Considrons la traduction :
Appareil numrique > digital camera
240
Bien que lusage le plus courant soit lusage PHOTOGRAPHIE, la traduction digital camera est inapproprie dans certains domaines. Par exemple, dans le domaine mdical, la traduction attendue est digital device. Une volution ultrieure sera de nous intresser aux domaines de spcialit ou aux genres lis une thmatique sur le Web, afin de palier les limites lies lambigit lexicale. Par exemple, Wikio1 est un portail dinformation qui runit les rubriques de news partir de diffrents sites de presses et de blogs. Un alignement dunits lexicales complexes partir dun tel site nous permettrait de cibler des usages prcis. Un autre exemple est le site Wikipdia2, portail de recherche encyclopdique et multimdia qui contient de nombreux articles en diffrentes langues. Les pages traduites disponibles sur Wikipdia constitue un rservoir de pages partiellement parallles quil serait intressant dexploiter des fins dalignement. Voici un exemple de pages en franais pour lunit lexicale complexe source caisse claire3 :
Figure 104.
Description de caisse claire sur Wikipdia
http://www.wikio.fr/ http://fr.wikipedia.org/wiki/Accueil http://fr.wikipedia.org/wiki/Caisse_claire
241
A partir de la page en franais, un lien pointe vers la description du mme terme dans dautres langues, dont langlais, ce qui nous permet non seulement davoir accs la traduction de lunit lexicale (snare drum), mais galement de collecter des pages partiellement traduites afin daligner dautres termes traitant du mme domaine.
Enfin, un autre exemple de ressource thmatique pour la traduction concerne les forums lis une thmatique, comme par exemple la mdecine. Le fait de cibler sur une thmatique en particulier nous permettrait de palier les cas dambiguts lexicales.
10.2.2 Analyse morpho-syntaxique Elargissement des patrons morpho-syntaxiques sources

Une autre perspective concerne la prise en compte dautres patrons morpho-syntaxiques tels que VERBE-OBJET ou SUJET-VERBE. Les relations morpho-syntaxiques du type de VERBE-OBJET (que nous avions commenc tudi dans Lon et Millon (2005)) constituent des indices dsambiguisateurs forts, que nous pourrions exploiter de la mme faon que les units lexicales complexes. Voici des exemples de relations VERBE-OBJET obtenues dans Lon et Millon (2005) pour la co-occurrence source construire-barrage :
construire-barrage
to build-barrage to build-barricade to build-dam to build-roadblock to construct-dam to erect-barricade to erect-roadblock
Figure 105.
Exemples de traductions de la relation construire-barrage
242
Analyse syntaxique pour la traduction

Au-del de llargissement des structures morpho-syntaxiques, la base de donnes de traductions pourrait tre utile des systmes de traduction bass sur une analyse morphosyntaxique des divergences syntaxiques entre langues. Les patrons morpho-syntaxiques bilingues obtenus pourraient tre intgrs des systmes de traduction tels que SYGFtoE (Prince et Chauch, 2006 ; Bonnin et Prince, 2007), qui est un prototype de traduction, bas sur lanalyse des divergences syntaxiques et stylistiques entre la langue source et la langue cible. Le systme sappuie sur une analyse morpho-syntaxique, qui dtecte les dpendances de chaque phrase source et construit un arbre de dpendances. Un transfert syntaxique est effectu vers la langue cible, via des oprations locales de transformation (connaissance des rgles de transformation morpho-syntaxiques de la langue cible). Laccs aux traductions dunits lexicales complexes contenues dans notre base de donnes pourrait fournir une aide au systme deux niveaux : dune part, le possible reprage des squences lexicalises pourrait apporter une aide lanalyse de dpendances morpho-syntaxiques et aux rgles de transformations entre la langue source et la langue cible. Dautre part, notre base de donnes pourrait tre utile au transfert lexical qui doit tre effectu aprs le transfert syntaxique.
Traductions de taille diffrente de lunit lexicale complexe source

A lheure actuelle, notre systme ne dispose que dune possibilit afin de prendre en compte des traductions de taille diffrente de lunit lexicale complexe source. Nous recherchons au pralable si la traduction est recense dans nos ressources dictionnairiques. Une partie des traductions connues nest constitue que dune unit lexicale simple. Au-del de ces cas, nous ne prenons pas en compte les traductions de taille diffrente. Pourtant, la taille de la traduction peut tre diffrente, quil sagisse de mono-termes mais aussi de squences plus longues, comme dans lexemple (Morin et al., 2004) :
Essence dombre > shade tolerant species
Ici, une unit lexicale complexe de deux mots-plein est traduite par une squence de trois mots-plein. Afin de grer ce type dirrgularit de longueur entre la langue source et la langue
243
cible, nous ne pouvons pas nous appuyer sur ltape de gnration de traduction candidate via un dictionnaire existant. Nous faisons lhypothse que ces cas nobtiendront pas de traductions lors des phase 1 (utilisation des frquences) et des phase 2 (mondes lexicaux). La prise en compte de ce problme pourrait intervenir lors de la phase 3 (cognates et bigrammes frquents), lorsque nous collectons les traductions partir des rsums mixtes . Dans notre tude, nous nous sommes volontairement limite aux bigrammes, mais nous pourrions largir les traductions candidates collectes et prendre galement en compte les mono-termes et les trigrammes au sein des rsums mixtes .
10.2.3 Smantique lexicale Ajout de ressources externes

Prince et Chauch (2008) prsentent une mthode de traduction du franais vers langlais, base sur lexploitation de ressources de type ontologique. Chaque thesaurus utilis en anglais (English Roget Thesaurus) et en franais (Thesaurus Larousse) est exploit tel un espace vectoriel, dans lequel les entres monolingues forment un vecteur de concepts associs. Les entres franaises sont ensuite reprsentes sous la forme de leur quivalence dans lespace anglais. La tche de dsambigisation lexicale consiste slectionner le vecteur appropri au sein des vecteurs bilingues par comparaison avec un vecteur contextuel de la phrase source. Par exemple, voici un extrait des concepts anglais attribus lentre franaise course :
course : errand, journey, rush, race, racing, travel, stroke, flight path, passage, privateering, shopping
Ainsi, partir de la phrase source Les courses de chevaux ont lieu tous les mardis , le vecteur contextualis de course dans cette phrase est compar avec les 11 entres recenses. Une mesure base sur le cosinus est utilise afin de slectionner la traduction la plus adquate (race ou racing dans cet exemple). Lexploitation de ressources externes pour la dsambigisation lexicale pourrait tre combine notre mthode, afin de mler des connaissances encyclopdiques (telles que des thsaurus) des connaissances textuelles (telles que les mondes lexicaux construits partir de donnes textuelles).
244
Amlioration de la comparaison des mondes lexicaux

Il existe de nombreuses mesures afin de mesurer la distance entre deux textes (Brunet, 2003). La distance de Jacquard, qui est la mesure que nous utilisons afin de comparer les mondes lexicaux, permet dtablir le rapport entre les mots communs aux deux textes comparer et ceux qui nappartiennent qu lun des deux (ibid.). Une limite de cette mthode est de ne pas prendre en compte les ventuelles diffrences de frquences au sein de chaque texte. Ainsi, si le partage des frquences est ingal (par exemple, si lon trouve dans le texte franais une unit qui a une occurrence de 1 et que sa traduction dans le texte anglais a une occurrence de 19), la comparaison est moins efficace que si la rpartition des frquences tait quilibre (par exemple, une occurrence de 10 dans les textes, si lon imagine naturellement que les textes sont de mme longueur). Ainsi, cette mesure prsente le risque de privilgier la prise en compte dunits de faible occurrence au dtriment des units les plus frquentes. Afin damliorer notre comparaison des mondes lexicaux et palier cette limite, nous pourrions prendre en compte le poids (frquence) des units lexicales au sein de chaque monde lexical et obtenir ainsi une comparaison pondre. De nombreuses mthodes peuvent tre envisages afin de tenir compte de la frquence des units au sein des textes comparer1. Malgr tout, dans une discussion critique sur le choix dune mthode de mesure de comparaison entre deux textes, Brunet (2003) montre que quelque soit la mthode utilise, les rsultats ont tendance tre convergeants et que les diffrences sont peu sensibles.
En ce qui concerne une amlioration ultrieure de la comparaison entre les mondes lexicaux, les ressources dj obtenues pourraient tre exploites afin damliorer notre comparaison des mondes lexicaux, par la prise en compte dunits lexicales complexes. Par exemple, si une unit lexicale complexe source appartenant notre base de donnes apparat dans le monde lexical franais et si sa traduction apparat dans le monde lexical anglais, nous pourrions matcher ces quivalences et la comparaison des units porterait un niveau suprieur lunit lexicale simple (la comparaison des simples mono-termes constituant une limite).
Pour une description complte et dtaille des mesures permettant de comparer la proximit entre deux textes en prenant en compte les frquences des units, se rfrer Brunet (2003) et Labb et Labb (2003).
245
Notre systme serait alors bas sur un processus dapprentissage dont les donnes collectes seraient exploites afin damliorer le systme.
Interprtation automatique des composs nominaux anglais

Fabre et Sbillot (1996) proposent une description smantique de squences de composs nominaux anglais de la forme NOM NOM, dans un but daide la structuration et la lisibilit dun rseau de termes issus dune phase dextraction. La difficult de linterprtation des composs nominaux anglais provient de la relation implicite qui relie la simple juxtaposition des deux constituants. Fabre et Sbillot (1996) montrent quil est possible danalyser cette relation partir de linformation lexicale qui caractrise les constituants et dobtenir un calcul automatique et une reprsentation du sens de ces composs. La mthode est base sur une analyse des proprits des noms dverbaux (dots dune structure argumentale) et des noms rles (rle du constituant modifieur) ainsi que sur des informations relatives la classe smantique hirarchise des noms. Le calcul automatique passe dabord par une phase didentification de la structure argumentale du prdicat et ensuite par une identification du rle du second constituant. La mthode sappuie galement sur le constat selon lequel la relation entre un nom rle et son prdicat peut tre gnralise un ensemble de noms appartenant une classe smantique commune. Lutilisation de WordNet, combine un vaste corpus de noms composs est utilise afin de mettre en application lassociation entre un type smantique et une relation prdicative. De telles mthodes dinterprtation automatique, utilises en amont de nos rsultats de traduction, pourraient tre utiles afin daffiner notre base de donnes, grce une reprsentation formelle identique des units lexicales complexes en franais et en anglais. Une telle formalisation serait utile la vrification de nos traductions et ajouterait des informations smantiques associes aux units lexicales complexes.
246
10.2.4 Autres perspectives Amlioration du silence

Les cas de silence (17,49% des traductions nont pas t obtenues) peuvent correspondre plusieurs causes. Il peut sagir de traductions non compositionnelles qui ne sont pas prsentes au sein de nos rsums mixtes. En effet, la stratgie de la phase 3 qui consiste collecter des rsums mixtes via une requte franaise limite la langue anglaise ne garantit pas que la traduction soit prsente au sein des rsums. Une possibilit damlioration de ces difficults pourra tre dlargir notre collecte, tant quantitativement (en collectant par exemple les pages Web entires et non pas seulement les rsums) que qualitativement. Ainsi, nous pourrions ajouter dautres stratgies dacquisition de pages susceptibles de contenir la traduction adquate, telles que lexploitation des mondes lexicaux franais. Par exemple, nous pourrions gnrer les traductions des noms et adjectifs les plus frquents au sein des mondes lexicaux franais et utiliser ces traductions en tant que requte. Par exemple, les deux premiers noms1 du monde lexical franais de futur antrieur (dont nous navons pas obtenu de traduction) sont verbe et anthologie. Nous pourrions gnrer des requtes du type de :
verb +anthology
Ce type de requte nous permettrait de collecter des pages dont le monde lexical est proche du monde lexical source et dobtenir des pages comparables au sein desquelles nous pourrions extraire des traductions candidates, partir de patrons morpho-syntaxiques dfinis.
Il arrive galement que la traduction adquate soit prsente dans les rsums mixtes dj collects mais quelle ne soit pas valide au cours de lun des filtres de notre phase 3.
La longueur du nombre de mots-cl prendre en compte devra tre teste.
247
Parmi la totalit des cas de silence, nous avons valu environ 14% la proportion de traductions prsentes au sein des bigrammes collects dans les rsums mixtes, mais non valides au cours de lun de nos filtres1.
Il arrive que la traduction correcte soit contenu parmi les couples de traduction tests via le Web parallle, mais ne soient pas parmi les couples les plus frquents retenus, ce qui provoque quelques cas de silence, comme dans lexemple de cep de vigne, o la traduction correcte, wine growing napparat quau huitime rang parmi les couples les plus frquents. Les traductions correctes non retenues ce stade comptent pour environ 11% parmi tous les cas de traductions correctes non valides.
Il peut sagir dune non-validation de la traduction, par le filtre de comparaison entre la frquence de lunit lexicale franaise et celle de sa traduction. Il peut effectivement arriver que les frquences dusage dune expression ne soient pas proportionnelles entre le franais et langlais. Par exemple, la traduction postal bank (frquence de 144 000) a une frquence infrieure lunit lexicale source banque postale (frquence de 937 000). Il en va de mme pour lunit lexicale ballon dirigeable (frquence de 132 000), pour laquelle la traduction candidate dirigible balloon a une frquence de 27 500. Parmi les 14% de traductions correctes non valides, nous valuons environ 29% le nombre de traductions non valides ce filtre de frquence du couple franais/anglais.
Un certain nombre de traductions candidates correctes nont pas t valides ltape de comparaison des mondes lexicaux, pour plusieurs raisons. Il peut sagir du fait que notre filtre soit trop lev, mais ce seuil a t fix afin de palier au maximum le bruit, ce qui provoque naturellement des cas de silence. Par exemple, la traduction candidate licence plate pour lunit lexicale plaque dimmatriculation na pas t valide lors de la comparaison des mondes lexicaux. Enfin, il peut sagir dunits lexicales complexes trop gnrales pour gnrer un monde lexical homogne. Dans ce cas, mme un seuil de comparaison entre les
Nous valuons uniquement les traductions valides prsentes au sein des bigrammes collects. Notons quune traduction correcte peut toutefois tre prsente dans les rsums mixtes mais non collecte au sein des bigrammes ( cause de la non-prise en compte des trigrammes par exemple), mais lvaluation de ces cas serait plus dlicate.
248
mondes lexicaux moins strict naurait pas permis une validation. Par exemple, les units lexicales monde de douceur ou encore mois dabsence sont des units pouvant tre utilises dans de nombreux domaines et dont le monde lexical ne peut pas tre homogne. Nous avons valu environ 59% la proportion de traductions correctes qui nont pas t valides au stade de la comparaison des mondes lexicaux, parmi toutes les traductions correctes non valides. Nous avons parl dans la section 10.2.1 de prendre en compte des thmatiques et/ou des domaines de spcialits afin de limiter ce type de problme. Cette volution peut soprer grande chelle, partir de thmatiques varies. Le fait dinscrire une unit lexicale complexe au sein dune thmatique donne nous permettra de palier cette limite. Les deux figures suivantes illustrent la proportion de traductions correctes non valides qui taient disponibles parmi les bigrammes collects, classes par catgorie de rejet. Une majorit des cas concerne une non-validation lors de la comparaison des mondes lexicaux (59,26%). Vient ensuite un rejet lors du filtre de la frquence des couples (29,63%), puis lors du filtre du Web parallle (11,11%).
Monde lexical Comparaison des frquences Web parallle
16 8 3
59,26% 29,63% 11,11%
Figure 106.
Quantit de traductions correctes non valides
249
Web parallle 11%
Comparaison des frquences 30%
Monde lexical 59%
Figure 107.
Proportion de traductions correctes non valides, par catgorie
Ressource cooprative
Notre base de donnes lexicales nest pas, lheure actuelle, une ressource disponible en ligne, car nous voulions dans un premier temps tester de faon locale notre mthodologie. Toutefois, une de nos perspectives concerne la mise en ligne de notre base de donnes, avec une possibilit dinteraction avec les utilisateurs (corrections, ajout de ressources, etc.). Nous pourrions, par exemple, proposer une base lexicale cooprative, dans la ligne de projets tels que le projet PAPILLON qui permet aux utilisateurs de proposer de nouvelles ressources (ce projet est une base lexicale cooprative, construite partir de ressources dj existantes, contrairement nous), ou encore la recherche interlingue de Google, qui permet aux utilisateurs de suggrer dventuelles corrections pour les cas o les rsultats sont considres comme tant errons.
Construction de ressources ontologiques

Les mondes lexicaux pourraient tre exploits afin dorganiser les units lexicales complexes en familles thmatiques et construire un lexique bilingue structur de type ontologique. Par
250
exemple, les mondes lexicaux de appareil digital et de appareil compact sont proches. Nous pourrions systmatiser les comparaisons de mondes lexicaux entre les units lexicales complexes monolingues en franais dune part et en anglais dautre part, et les runir en grandes familles thmatiques. Par exemple, appareil digital et appareil compact pourraient appartenir une classe thmatique de type PHOTOGRAPHIE. Les mondes lexicaux pourraient tre exploits afin de construire ces classes thmatiques et les nommer, dans la ligne de travaux tels que ceux de Pichon et Sbillot (1999a) et Rossignol et Sbillot (2003), mais lchelle du Web, ainsi quen ajoutant la dimension bilingue, puisque les familles thmatiques seraient constitues pour le franais et pour langlais.
La classification thmatique nous permettrait dobtenir un rseau de termes hirarchiss, de type ontologique. Selon (Bourigault et Jacquemin, 2000), une ontologie dsigne :
INGNIERIE DES CONNAISSANCES. Ensemble des objets reconnus comme existant dans le domaine. Construire une ontologie, cest dcider de la manire dtre et dexister des objets.
En terminologie, lobjectif est de regrouper les concepts qui prsentent des caractristiques communes, et dobtenir ainsi un rseau hirarchis de concepts. De plus en plus de travaux visent obtenir ce type de reprsentation partir de donnes textuelles.
Au-del des grandes classes thmatiques qui regrouperaient les units lexicales complexes, nous pourrions proposer des repres smantiques aux sous-classes dobjets qui constituent les units lexicales complexes. Dans Lon (2003, 2004b), nous montrons que les co-occurrents des units lexicales complexes (tels que les objets des verbes, par exemple), peuvent tre runis en classes conceptuelles dont les combinaisons offrent des rgularits de slection, dans la ligne de travaux tels que Melcuk et Wanner (1996) et LHomme (1998). Nous avons port notre tude sur deux domaines de spcialit, la mtorologie (Lon, 2003) et le Traitement Automatique des Langues (Lon, 2004b). Par exemple, en mtorologie, les noms dcrivant un ELEME T ATUREL se combinent de faon rgulire avec des adjectifs
dcrivant un ETAT (Lon, 2003) :
251
ELEME T ATUREL > ETAT Ciel bleu clair couvert dgag gris nuageux orageux rouge
Air chaud doux frais froid glacial humide nuageux rchauff
252
satur sec
De mme, pour le domaine du Traitement Automatique des Langues, prenons les exemples des co-occurrences des verbes phontiser et traduire. Une majorit des arguments slectionns appartiennent la classe DO EES TEXTUELLES (Lon, 2004b) :
Phontiser > DO
ES TEXTUELLES
Corpus Forme Lexique Mot om Phrase Sigle Terme Texte Traduire > DO ES TEXTUELLES Corpus Document
253
Expression Forme Lexie Lexique Lexme Message Mot om Occurrence Phrase Segment
Nous pourrions appliquer ces analyses aux donnes que nous obtenons partir du Web, et voir sil est possible de systmatiser ces phnomnes sur de plus vastes donnes, et observer si ces rgularits sappliquent galement dun point de vue bilingue.
254
Bibliographie
Agirre (2000a). Exploring automatic word sense disambiguation with decision lists and the Web Proceedings of the COLING Workshop on Semantic Annotation and Intelligent Content, Luxembourg. Agirre, E., Olatz, A., Hovy, E., Martinez, D. (2000b). Enriching very large ontologies using the WWW. Ontology Construction of the European Conference of AI (ECAI), Berlin, Allemagne. Agirre, E., Lopez, O. (2004a). Publicly available topic signatures for all wordnet nominal senses. Proceedings of the 4rd International Conference on Language Resources and Evaluation (LREC), Lisbon, Portugal. Agirre, E., Alfonseca, E., Loper, O. (2004b). Approximating Hierarchy-Based Similarity for Word et ominal Synsets using Topic Signatures In Second International Wordnet Conference, Czech Republic, Brno. Almeida, J. J., Simoes, A. M., Castro, J. A. (2002). Grabbing parallel corpora from the Web. Sociedade Espanola para el Procesamiento del Lenguaje Natural. Atkins, B. T. S. (1990). "Corpus Lexicography : The Bilingual Dimension." Computational Lexicoglogy and Lexicography (Special issue dedicated to Bernard Quemada) VI. Audibert, L. (2003). Outils d'exploration de corpus et dsambigusation lexicale automatique. Thse de doctorat (Informatique), quipe DEscription Linguistique Informatise sur Corpus (DELIC). Aix-en-Provence, Universit d'Aix-Marseille I - Universit de Provence. Bally, C. (1909). Trait de stylistique franaise. Paris, Klincksieck. Bally, C. (1965, 1re dition 1932). Linguistique gnrale et linguistique franaise. Berne,
255
Francke. Bar-Hillel, Y. (1955). Idioms. Machine Translation of Languages, Fourteen Essays. W. N. Locke, Booth, A. Donald. Boston, MIT & John Wiley: 183-193. Baroni, M., Bernardini, S. (2004). BootCaT: Bootstrapping corpora and terms from the web. LREC 2004. Baroni, M., Vegnaduzzo, S. (2004). Identifying subjective adjectives through web-based mutual information. KONVENS 2004, Vienna: GAI. Baroni, M., Ueyama, M. (2004). Retrieving japanese specialized terms and corpora from the WWW. Proceedings of KONVENS 2004. Baroni, M., Bisi, S. (2004). Using cooccurrence statistics and the web to discover synonyms in a technical language. Proc. of the Fourth International Conference on Language Resources and Evaluation (LREC 2004). Baroni, M., Ueyama, M. (2006). Building general- and special-purpose corpora by Web crawling. Proceedings of the 13th NL International Symposium, Language Corpora : Their Compilation and Application. Baroni, M., Kilgarriff, A. (2006). Large linguistically-processed web corpora for multiple languages. EACL, Trento, Italie. Benson, M., Benson, E., Ilson, R. (1986). The BBI Combinatory Dictionary of English : A guide to Word Combinations. Amsterdam, John Benjamins. Benson, M. (1990). "Collocations and general-purpose dictionaries." International Journal of Lexicography 3(1): 23-35. Benveniste, E. (1966). "Formes nouvelles de la composition nominale." BSL 61: 82-95. Benveniste, E. (1967). "Fondements syntaxiques de la composition nominale." BSL 62: 15-31. Blank, I., Ed. (2000). Terminology extraction from parallel technical texts. Parallel Text Processing. Dordrecht, Kluwer. Bonnin, G., Prince, V. (2007). Emphasizing Syntax for French to German Machine Translation. SNLP'07: 7th International Symposium on Natural Language Processing, Chonburi, Thailande, Pattaya. Bouillon, P. (1998). Traitement automatique des langues naturelles. Paris, Bruxelles, AupelfUref Editions Duculot. Boulanger, J.-C. (1979). Commentaire de Jean-Claude Boulanger. Table ronde sur les problmes du dcoupage du 260 terme. Montral: 169-182.
256
Bourigault, D. (1994). LEXTER, un Logiciel dExtraction de TERminologie. Application lacquisition des connaissances partir de textes, Thse de doctorat, Ecole des hautes tudes en sciences sociales. Bourigault, D., Fabre C. (2000). "Approche linguistique pour l'analyse syntaxique de corpus." Cahiers de Grammaires, Universit Toulouse - Le Mirail 25: 131-151. Bourigault, D., Jacquemin, C., Ed. (2000). Construction de ressources terminologiques. Industrie des langues. Paris, Herms. Bourigault, D., Aussenac-Gilles, N., Charlet, J. (2004). "Construction de ressources terminologiques ou ontologiques partir de textes : un cadre unificateur pour trois tudes de cas." Revue dIntelligence Artificielle 18(1). Brown, P. F., Della Pietra, S., Della Pietra, V. J., Mercer, R. L. (1991a). Word sense disambiguation using statistical methods. Actes de 29th Annual Meeting of Association for Computational Linguistics, Berkeley, California. Brown, P. F., Lai, J. C., Mercer, R. L. (1991b). Aligning Sentences in Parallel Corpora. Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics, Berkeley. Brown, P. F., Della Pietra, S., Della Pietra, V. J., Mercer R. L. (1993). "The mathematics of statistical machine translation : parameter estimation." Computational Linguistics 19(2): 263311. Brunet, E. (2003). "Peut-on mesurer la distance entre deux textes ?" Corpus, La distance intertextuelle 2. Bunescu, R. (2003). Associative Anaphora Resolution: AWeb-Based Approach. Proceedings of the EACL-2003 Workshop on the Computational Treatment of Anaphora, Budapest, Hungary. Burnard, L. (1995). Users Reference Guide British University Computing Services. ational Corpus Version 1.0. Oxford,
Calvo, H., Gelbukh, A. (2003). Improving Disambiguation of Prepositional Phrase Attachments Using the Web as Corpus. CIARP, 2003 Cao, Y., Li, H. (2002). Base noun phrase translation using web data and the EM algorithm. International Conference of Computational Linguistics (COLING'02), Tapei, Tawan. Chauch, J. (1990). "Dtermination smantique en analyse structurelle : une exprience base sur une dfinition de distance." TAL Information: 17-24. Chen, J., Nie, J.-Y. (2000). Parallel Web Text Mining for Cross-Language IR. In Proceedings of RIAO 2000: Content-Based Multimedia Information Access Paris, France.
257
Cheng, P.-J., Teng, J.-W., Chen, R.-C., Wang, J.-H., Lu, W.-H., Chien, L.-F. (2004a). Translating unknown queries with web corpora for cross-language information retrieval. Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval Sheffield, United Kingdom Cheng, P.-J., Pan, Y.-C., Lu, W.-H., Chien, L.-F. (2004b). Creating multilingual translation lexicons with regional variations using web corpora. Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. Chklovski, T., Mihalcea, R. (2002). Building a sense tagged corpus with open mind word expert. Proceedings of the ACL-02 workshop on Word sense disambiguation: recent successes and future directions. Chomsky, N. (1957). Syntactic structures. La Hague, Mouton. Chomsky, N. (1962). The Logical Basis of Linguistic Theory. in Preprints of Papers from the 9th International Congress of Linguists, Cambridge, Mass. Choueka, Y., Conley, E. S., Dagan, I., Ed. (2000). A comprehensive bilingual word alignment system: Accommodating disparate languages: Hebrew and English. Parallel Text Processing. Dordrecht, Kluwer. Chung, S., Jun, J., McLeod, D. (2006). A Web-Based Ontology Learning -. OTM Conferences. ovel Term Similarity Framework for
Chuquet, H., Paillard, M. (1987). Approche linguistique des problemes de traduction anglais <-> franais. Gap, Paris, Ophrys. Church, K., Hanks, P. (1990). "Word association norms, mutual information, and lexicography." Computational Linguistics 16(1): 22-29. Church, K. (1993). Char_align: a program for aligning parallel texts at the character level. Proceedings of the 31st Annual Meeting of the Association for Computational Linguistics, Columbus, Ohio. Clas, A. (1994). "Collocations et langues de spcialit." Meta 39(4): 576-580. Clear, J., Ed. (1993). From Firth principles: Computational tools for the study of collocation. Text and technology: In honour of John Sinclair. Amsterdam, John Benjamins. Corbin, D., Ed. (1997). Locutions, composs, units polylexmatiques : lexicalisation et mode de construction. Cowie, A. (1981). "The treatment of Collocations end Idioms in Learner's Dictionaries." Applied Linguistics 2(3): 223-235. Cowie, A., Ed. (1998). Phraseology, Theory, Analysis, and Applications. Clarendon Press. Oxford.
258
Cruse, D. A. (1986). Lexical Semantics. Cambridge, Cambridge University Press. Dagan, I., Alon, Itai, Schwall Ulrike (1991). Two languages are more informative than one. Annual Meeting of the Association for Computationnal Linguistics (ACL), Berkeley, Californie. Dagan, I., Church, K. W. (1994). Termight : identifying and translating technical terminology. 4th Conference on Applied Natural Language Processing (ANLP94), University of Stuttgart, Germany. Daille, B. (1994). Approche mixte pour l'extraction automatique de terminologie : statistiques lexicales et filtres linguistiques, Universit Paris 7. Thse de Doctorat en Informatique Fondamentale. Daille, B. (1995). "Reprage et extraction de terminologie par une approche mixte statistique et linguistique." Revue TAL, Traitements probabilistes et corpus 36(n1-2): 101-118. Darmesteter, A. (1875). Trait de la formation des mots composs dans la langue franaise compare aux autres langues romanes et au latin. Paris, Honor Champion. David, S., Plante, P. (1990). "De la ncessit d'une approche morpho-syntaxique dans l'analyse de textes." Intelligence Artificielle et Sciences Cognitives au Qubec 3(3): 140-154. De Schryver, G.-M. (2002). "Web for/as Corpus: A Perspective for the African Languages." ordic Journal of African Studies 11(2) 11(2): 266-282. Debili, F., Sammouda E. (1992). Appariement des Phrases de Textes Bilingues. Proceedings of the 14th International Conference on Computational Linguistics (COLING92), Nantes. Deerwester, S. C., Dumais, S. T., Landauer, T. K., Furnas, G. W., Harshman, R. A. (1990). "Indexing by latent semantic analysis." Journal of the American Society of Information Science 41(6): 391-407. Djean, H., Gaussier, E. (2002). "Une nouvelle approche lextraction de lexiques bilingues partir de corpus comparables." Lexicometrica, numro spcial sur Alignement lexical dans les corpus multilingues: 1-22. Diab, M., Finch, S. (2000). A Statistical Word-Level Translation Model for Comparable Corpora. Proceedings of the Conference on Content-Based Multimedia Information Access (RIAO). Doan, A., Madhavan, J., Dhamankar, R.; Domingos, P., Halevy, A. (2003). "Learning to Match Ontologies on the Semantic Web." VLDB Journal 12: 303-319. Drouin, P. (2002). Acquisition automatique des termes : l'utilisation des pivots lexicaux spcialiss, Thse de doctorat, Universit de Montral.
259
Dubois, J. (1973). Dictionnaire de linguistique. Paris, Larousse. Dubois, J., Guespin, L., Giacomo, M., Marcellesi, C. et J.B., Mvel, J.-P. (1994). Dictionnaire de linguistique et des sciences du langage. Paris, Larousse. Dubreil, E. (2008). "Collocations : dfinitions et problmatiques." Texto XIII(1). Duclaye, F. (2003). Apprentissage automatique de relations d'quivalence smantique partir du Web, Ecole Nationale Suprieure des Tlcommunications. Dunning (1993). "Accurate Methods for the Statistics of Surprise and Coincidenc." Computational Linguistics 19(1). Enguehard, C. (1993). Acquisition de terminologie partir de gros corpus. Informatique & Langue Naturelle, ILN'93, Nantes. Enguehard, C., Panterra, L. (1995). "Automatic Natural Acquisition of a Terminology." Journal of quantitative linguistics 2(1): 27-32. Fabre, C., Sbillot, P. (1996). Interprtation automatique des composs nominaux anglais hors domaine : quelles solutions ? 10me Congrs Reconnaissance des Formes et Intelligence Artificielle (RFIA 96), Rennes. Felber, H. (1987). Manuel de terminologie. Paris, UNESCO. Firth, J. R., Ed. (1951). Modes of Meaning. Papers in Linguistics. Londres, Oxford University Press. Fletcher, W. (2002). Facilitating the Compilation and Dissemination of Ad-Hoc Web Corpora. Teaching and Language Corpora 2002. Fletcher, W. (2004). "Making the Web more useful as a source for linguistic corpora." LA GUAGE A D COMPUTERS. Fletcher, W. (2005). Towards an Independent Search Engine for Linguists: Issues and Solutions. Web as Corpus SSMILT Forl 2005. Fletcher, W. H. (2001). Concordancing the Web with KWiCFinder. Applied Corpus Linguistics 2001. Fontenelle, F. (1996). Rseaux smantiques et dictionnaires bilingues lectroniques. Lexicologies dictionnairiques. Actes du Colloque de Lyon 1995, Beyrouth/Montral, FMA / AUPELF-UREP. Fontenelle, T. (1997). Turning a Bilingual Dictionary into a Lexical-Semantic Database. Tbingen, Niemeyer. Fujii, A., Ishikawa, T. (2000). "Utilizing the world wide web as an encyclopedia : Extracting
260
term descriptions from semi-structured text." Association of Computational Linguistics (ACL): 488-495. Fung, P. (1995). Compiling bilingual lexicon entries from a non-parallel English-Chinese corpus. 3rd Annual Workshop on Very Large Corpora, Boston, Massachusetts. Fung, P., McKeown, K. (1997). Finding Terminology Translations from Corpora. Actes de Annual Workshop on Very Large Corpora. on-parallel
Fung, P., Yee, L. Y. (1998). An IR approach for translating new words for non-parallel, comparable texts. Actes de International Conference on Computational Linguistics (COLING). Fung, P., Ed. (2000). A Statistical View on Bilingual Lexicon Extraction: From Parallel Corpora to on-Parallel Corpora. Parallel Text Processing. Dordrecht, Kluwer. Gala, N., At-Mokhtar, S. (2003). Lexicalising a robust parser grammar using the WWW. Conference on Corpus Linguistics, Lancaster. Gala, N. (2003a). Un modle danalyseur syntaxique robuste fond sur la modularit et la lexicalisation de ses grammaires, Universit de Paris-Sud. Gala, N. (2003b). Une mthode non supervise d'apprentissage sur leWeb pour la rsolution d'ambiguts structurelles lies au rattachement prpositionnel. TALN. Gale, W., A., Church, K. W. (1993). "A program for aligning sentences in bilingual corpora." Computational Linguistics 19(3): 75-102. Gale, W. A., Church, K. W., Yarowsky, D. (1993). "A method for disambiguating word senses in a large corpus." Computers and the Humanities 26: 415-439. Gaussier, E., Lange, J.-M. (1995). "Modles statistiques pour lextraction de lexiques bilingues." Traitement Automatique des Langues 36(1-2): 133-155. Ghani, R., Jones, R. (2000). Learning a Monolingual Language Model from a Multilingual Text Database. Ninth International Conference on Information and Knowledge Management (CIKM-2000). Ghani, R., Jones, R., Mladenic, D. (2001a). Automatic Web Search Query Generation to Create Minority Language Corpora. Poster paper in proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2001). Ghani, R. (2001b). Building Minority Language Corpora by Learning to Generate Web Search Queries. Ghani, R., Jones, R., Mladenic, D. (2001c). On-line learning for Web query generation: finding documents matching a minority concept on the Web. Proceedings of the The First
261
Asia-Pacific Conference on Web Intelligence (WI-2001). Ghani, R., Jones, R., Mladenic, D. (2001d). Using the Web to Create Minority Language Corpora. 10th International Conference on Information and Knowledge Management (CIKM2001). Ghani, R., Jones, R., Mladenic, D. (2003). Building Minority L\anguage Corpora by Learning to Generate Web Search Queries. KAIS Knowledge and Information Systems. Gonzalo, J. C., I.; Verdejo, F. (2003). The web as a resource for WSD. 1st MEANING Worshop, Espagne. Granger, S., Ed. (1998). Prefabriqued Patterns in Andavnced EFL Writing : Collocations and Formulae. Phraseology : Theory, Analysis and Applications. Oxford, Oxford University Press. Grefenstette, G. (1999). The World Wide Web as a Resource for Example-Based Machine Translation Tasks. ASLIB "Translating and the Computer" conference, Londres, Angleterre. Greimas, A. (1986). Smantique structurale : recherche de mthode. Paris, PUF. Greimas, A. J. (1960). "Idiotismes, proverbes, dictions." Cahiers de lexicologie 2: 41-61. Grishman, R. (1994). Iterative alignment of syntactic structures for a bilingual corpus. Proceedings of the Second Annual Workshop on Very Large Corpora, Kyoto, Japan. Gross, G. (1996). Les expressions figes en franais. Paris, Ophrys. oms composs et autres locutions.
Grossmann, F., Tutin, A. (2003). "Quelques pistes pour le traitement des collocations." Travaux et recherches en linguistique applique. Grundy, V., Ed. (1996). Lutilisation dun corpus dans la rdaction du dictionnaire bilingue. Les dictionnaires bilingues. Louvain-la-Neuve, Duculot. Guilbert, L. (1965). La formation du vocabulaire de laviation. Paris, Librairie Larousse. Guillemin-Flescher, J. (1981). Syntaxe compare du franais et de langlais. Gap : Ophrys. Habert, B., Nazarenko, A., Salem, A. (1997). Les linguistiques de corpus. Paris, Armand Colin/Masson, U Linguistique. Habert, B. (2000). Linguistique sur corpus. Etudes et rflexions. Perpignan, Presses Universitaires de Perpignan. Harris, B. (1988). "Bi-text, a new concept in translation theory." Language Monthly 54: 8-10. Harris, Z. (1951). Methods in Structural Linguistics. Chicago, University of Chicago Press.
262
Harris, Z. (1991). A theory of language and information. A mathematical approach. Oxford, Oxford University Press. Hartmann, R. R. K. (1980). Contrastive Textology. Comparative Discourse Analysis in Applied Linguistics (Studies in Descriptive Linguistics 5). J. Gross. Heidelberg. Hausmann, F. J. (1979). "Un dictionnaire de collocations est-il possible ?" TraLili 17(1): 187195. Hausmann, F. J. (1989). Le dictionnaire de collocations. Wrterbcher : ein internationales Hadbuch zur Lexicographie. Dictionaries. Dictionnaires. R. Hausmann F. J., O.; Wiegand, H. E.; Zgusta, L. Berlin/New-York, De Gruyter: 1010-1019. Hausmann, F. J., Ed. (1997). Tout est idiomatique dans les langues. Langages, La Locution entre langues et usages. Fontenay Saint-Cloud, ENS Editions. Hiemstra, D. (1998). Multilingual domain modeling in Twenty-One: automatic creation of a bi-directional translation lexicon from a parallel corpus. Proceedings of the eighth CLIN meeting. Hovy, E., Lin C. Y. (1997). Automated Text Summarization in SUMMARIST. Workshop on Intelligent Scalable Text Summarization, Madrid, Espagne. Howarth, P., Ed. (1998). The Phraseology of Learners' Academic Writing. Phraseology : Theory, Analysis and Applications. Oxford, Oxford University Press. Huang, F., Zhang, Y., Vogel, S. (2005). Mining key phrase translations from Web Corpora. Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing, Vancouver, British Columbia, Canada. Imbs, P. (1971). Trsor de la Langue Franaise. Dictionnaire de la langue du XIX et du XX sicles (1789-1960). Paris, Editions du CNRS. Inkpen, D. Z., Hirst, G. (2002). Acquiring Collocations for Lexical Choice between earSynonyms. Proceedings of the ACL-02 workshop on Unsupervised lexical acquisition Volume 9, Philadelphia, Pennsylvania. Isabelle, P. (1992). "La bi-textualit : vers une nouvelle gnration d'aides la traduction et la terminologie." META 37(4): 721-737. Jacquemin, C. (1997). Variation terminologique : Reconnaissance et acquisition automatiques de termes et de leurs variantes en corpus. Mmoire d'habilitation diriger des recherches en informatique fondamentale, Universit de Nantes. Jacquemin, C., Bush, C. (2000b). Fouille du Web pour la collecte dEntits ommes. Actes de la 7eConfrence sur le Traitement Automatique des Langues Naturelles.
263
Jacquemin, C. B., C. (2000a). Combining Lexical and Formatting Cues for amed Entity Acquisition from the Web. Proceedings of the 2000 Joint SIGDAT conference on Empirical methods in natural language processing and very large corpora: held in conjunction with the 38th Annual Meeting of the Association for Computational Linguistics Hong Kong. Jalabert, F., Lafourcade, M. (2004). 2004, Toulouse. ommage sens l'aide de vecteurs conceptuels. RFIA
Johansson, S., Ebeling, J., Hofland, K. , Ed. (1993). Coding and aligning the Englishorwegian parallel corpus. Languages in Contrast, Papers from a Symposium on Text-based Cross-linguistic Studies. Lund, Lund University Press. Jones, D. B., Somers, H. L., Ed. (1997). Bilingual vocabulary estimation from noisy parallel corpora using variable bag estimation. Recent advances in natural language processing Amsterdam, John Benjamins. Jones, R., Ghani, R. (2000). Automatically Building a Corpus of a Minority Language from the Web. Kaji, H., Kida, Y., Morimoto, Y. (1992). Learning translation templates from bilingual text. Proceedings of the 14th International Conference on Computational Linguistics (COLING92), Nantes, France. Kaplan, A. (1950). "An experimental study of ambiguity in context." Mechanical Translation 1: 1-3. Katz, J. J., Fodor, J. A., Ed. (1964). The structure of a semantic theory. The Structure of Language, chapter 19. Kay, M., Rscheisen, M. (1988). Text-translation alignment, Technical Report. Xerox Palo Alto Research Center. Kehoe, A., Renouf, A. (2002). WebCorp: Applying the Web to linguistics and linguistics to the Web. WWW2002 Conference, Honolulu, Hawaii. Kehoe, A., Ed. (2006). Diachronic Linguistic Analysis on the Web with WebCorp. The Changing Face of Corpus Linguistics. Amsterdam, Rodopi. Kehoe, A., Gee, M. (2007) New corpora from the web: making web text more 'text-like'. Towards Multimedia in Corpus Studies, electronic publication, University of Helsinki, DOI: Keller, F., Lapata, M. (2003). "Using the Web to Obtain Frequencies for Unseen Bigrams." Computational Linguistics 23(3): 459-484. Kikui, G. (1998). Term-list Translation using Mono-lingual Word Co-occurrence Vectors. Actes de International Conference on Computational Linguistics (COLING). Kilgarriff, A., Grefenstette, G. (2003). "Introduction to the Special Issue on the Web as
264
Corpus." Computational Linguistics 29(3): 333-348. Kilgarriff, A., Rychly, P., Smrz, P., Tugwell, D. (2004). The Sketch Engine. EURALEX 2004, Lorient. Kjaersgaard, P. (1987). REFTEX. A context-based translation aid. 3rd conference of the European Chapter of the Association for Computational Linguistics, Copenhagen. Kjellmer, G. (1994). A dictionay of English Collocations. Oxford, Clarendon Press. Klapaftis, I., Manandhar, S. (2005). Google & Word et based Word Sense Disambiguation. 22 ndICML Workshop on Learning & Extending Ontologies. Kocourek, R. (1991). La langue franaise de la technique et de la science. Wiesbaden, Brandstetter Verlag. Kraaij, W., Nie, J-Y., Simard, M. (2003). "Embedding web-based statistical translation models in cross-language information retrieval " Computational Linguistics, Special issue on web as corpus 29(3): 381 - 419. Kupiec, J. (1993). An algorithm for finding noun phrase correspondences in bilingual corpora. 31st Annual Meeting of the Association for Computational Linguistics. LHomme, M.-C. (2001). ouvelles technologies et recherche terminologique. Techniques d'extraction des donnes terminologiques et leur impact sur le travail du terminographe. L'Impact des nouvelles technologies sur la gestion terminologique. LHomme, M. C. (1998). Caractrisation des combinaisons lexicales spcialises par rapport aux collocations de langue gnrale. Proceedings EURALEX '98, Universit de Liege : Liege. Labb, C. L., D. (2003). "La distance intertextuelle." Corpus, La distance intertextuelle 2. Lafourcade, M., Rodrigo, F., Schwab, D. (2004). Low Cost Automated Conceptual Vector Generation from Mono and Bilingual Resources. Actes de PAPILLON-2004. Langlais, P., El-Beze, M. (1997). Alignement de corpus bilingues : algorithmes et valuation. 1res Journes Scientifiques et Techniques du Rseau Francophone de l'Ingnierie de la langue de l'AUPELF-UREF (JST), Avignon. Lea, D. (2002). Oxford Collocations Dictionary for Students of English, Oxford University Press. Lebarb, T. (2002). Hirarchie inclusive des units linguistiques en analyse syntaxique cooprative: Universit de Caen. Leech, G. (1991). The state of the art in corpus linguistics. English corpus linguistics. A. K. A. B. London: Longman: 8-29.
265
Lon, J. (2001). "Conception du mot et dbuts de la traduction automatique." Histoire pistmologie Langage 23(1): 81-106. Lon, J., Ed. (2004a). Lexies, synapsies, synthmes : le renouveau des tudes lexicales en France au dbut des annes 1960. "History of Linguistics in Texts and Concepts" Geschichte der Sprachwissenschaft in Texten und Konzeptionen. Mnster, Nodus Publikationen. Lon, S. (2003). L'extraction automatique des collocations : Une mthode de regroupement par classes conceptuelles. Universit de Provence, Aix-en-Provence, Mmoire de matrise. Lon, S. (2004b). Extraction semi-automatique des relations verbe-objet partir d'un corpus spcialis : application la cration d'un lexique structur du TAL. Universit de Provence, Aix-en-Provence, Mmoire de DEA. Lon, S., Millon, C. (2005). Acquisition semi-automatique de relations lexicales bilingues (franais-anglais) partir du Web. Rencontre des Etudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL), Dourdan, France. Lon, S. (2006). Acquisition automatique de traductions de termes complexes par comparaison de mondes lexicaux sur le Web. Rencontre des Etudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2006), Louvain, Belgique. L'Homme, M.-C. (1998). Caractrisation des combinaisons lexicales spcialises par rapport aux collocations de langue gnrale. EURALEX '98, Liege. L'Homme, M.-C. (2001). ouvelles technologies et recherche terminologique. Techniques d'extraction des donnes terminologiques et leur impact sur le travail du terminographe. L'Impact des nouvelles technologies sur la gestion terminologique., Toronto, Universit de York. L'Homme, M.-C. (2002). What can Verbs and Adjectives can tell us about Terms? Terminology and Knowledge Proceedings, TKE 2002, Nancy. L'Homme, M.-C. (2005). "Sur la notion de terme." Meta 50(4): 1112-1132. Li, C., Cao, Y. (2002). Overcoming language barriers in the internet Era. A. F. L. R. A. system. Asia, Report MSR-TR-2002-91 Microsoft Research. Li, C., Li, H. (2004). Word translation disambiguation using bilingual bootstrapping. 40th Annual Meeting of the Association for Computational Linguistics. Li, H., Cao, Y., Li, C. (2003a). "English Reading Wizard : Mining and Ranking Translations Using Bilingual Data on the Web." IEEE intelligent systems & their applications 18(4): 5459. Li, H., Cao, Y., Li, C. (2003b). Using Bilingual Web Data To Mine and Rank Translations.
266
IEEE Intelligent Systems. Lin, C.-Y., Hovy, E. (2000). "The Automated Acquisition of Topic Signatures for Text Summarization." Actes de COLI G Conference. Liu, V., Curran, J. R. (2006). Web Text Corpus for atural Language Processing. Proceeding of EACL 2006, 1th Conference of the European Chapter of the Association for Computational Linguistics, Trento, Italy. Lu, W.-H., Chien, L.-F., Lee, H.-J. (2001). Anchor Text Mining for Translation of Web Queries. Proceedings of the 2001 IEEE International Conference on Data Mining. Lu, W.-H., Chien, L.-F., Lee, H.-J. (2002). "Translation of Web Queries Using Anchor Text Mining." ACM Transactions on Asian Language Information Processing (TALIP) 1(2): 159 172. Lu, W.-H., Chien, L.-F., Lee, H.-J. (2003). "Anchor Text Mining for Translation of Web Queries : A Transitive Translation Approach." ACM Transactions on Information Systems (TOIS) 22(2): 242 - 269. Ma, X., Liberman, M. (1999). Bits: A method for bilingual text search over the web. Machine Translation Summit VII, Singapour, Singapour. Macklovitch, E. (1992). Corpus-based tools for translators. 33rd Annual Conference of the American Translators Association, San Diego, California. Mangeot, M. (2002). Projet Papillon : intgration de dictionnaires existants et gestion des contributions. Actes de JST 2002, National Olympic Memorial Youth Center, Tokyo, Japon. Mangeot, M., Srasset, G., Lafourcade, M. (2003). "Construction collaborative de donnes lexicales multilingues, le projet Papillon." Revue TAL, dition spciale, Les dictionnaires lectroniques : pour les personnes, les machines ou pour les deux ? (Electronic dictionaries: for humans, machines or both?), Ed. Michael Zock & John Carroll 44(2): 151-176. Maniez, F. (2001a). Lambigut syntaxique due aux structures coordonnes en anglais mdical : analyse de la performance dun logiciel daide la traduction. TALN 2001, Tours. Maniez, F. (2001b). "Extraction d'une phrasologie bilingue en langue de spcialit : corpus parallles et corpus comparables." Meta 46(2): 552-563. Manning, C., Schtze, H. (1999). Foundations of statistical natural language processing, MIT Press. Martinet, A. (1960). Elments de linguistique gnrale. Paris, Armand Colin. Martinet, A. (1967). Syntagme et synthme. La linguistique. Paris, PUF. 2: 1-14. Martinet, A. (1968). "Mot et synthme." Lingua 21: 294-302.
267
Martinet, A. (1985). Syntaxe gnrale. Paris, Armand Colin. Martins-Baltar, M. (1997). La locution entre langue et usage. Fontenay, ENS Editions. Matsumoto, Y., Ishimoto, H., Utsuro, T., Nagao, M. (1993). Structural matching of parallel text. Proceedings of the 31st Annual Meeting of the Association for Computational Linguistics, Columbus, Ohio. Matsuo, Y., Sakaki, T., Uchiyama, K., Ishizuka, M. (2006). Graph-based Word Clustering using a Web Search Engine. 2006 Conference on Empirical Methods in Natural Language Processing (EMNLP 2006), Sydney, Association for Computational Linguistics. Mautner, G. (2005). "Time to get wired: Using web-corpora in critical discourse analysis." Discourse & Society 16(6): 809-828. McEnery, A., Lange, J.-M., Oakes, M., Vronis, J., Ed. (1997). The exploitation of multilingual annotated corpora for term extraction. Corpus Annotation: Linguistic Information from Computer Text Corpora London, Addison Wesley Longman. McEnery, A. M., Oakes, M.P. (1995). Sentence and word alignment in the CRATER project : methods and assessment. . EACL-SIGDAT Workshop, Dublin. McEnery, T., A. Wilson (1996). Corpus linguistics. Edinburgh, Edinburgh University Press. Melcuk, I. (1984, 1988, 1992, 1999). Dictionnaire explicatif et combinatoire du franais contemporain, Recherches lexico-smantiques. Montral, Presses de lUniversit de Montral. Melcuk, I., Wanner, L., Ed. (1996). Lexical Fonctions and Lexical Inheritance for Emotion Lexemes in German. Lexical Fonctions in Lexicography and Natural Language Processing. Amsterdam / Philadelphia, John Benjamins. Melcuk, I. (1997). Vers une linguistique Sens-Texte, Leon inaugurale (faite le Vendredi 10 janvier 1997), Collge de France, Chaire internationale. Melamed, I. D. (1997). Automatic discovery of non-compositional compounds in parallel data. Proceedings of the 2nd Conference on Empirical Methods in Natural Language Processing (EMNLP'97), Providence. Melamed, I. D., Ed. (2000). Bitext maps and alignments via pattern recognition. Parallel Text Processing. Kluwer, Dordrecht. Melamed, I. D. (2001). Empirical Methods for Exploiting Parallel Texts, MIT Press. Mel'cuk, I., Wanner, L., Ed. (1996). Lexical Fonctions and Lexical Inheritance for Emotion Lexemes in German. Lexical Fonctions in Lexicography and Natural Language Processing. Amsterdam, Benjamins.
268
Mel'cuk, I., Ed. (1998). Collocations and Lexical Functions Phraseology, Theory, Analysis and Applications. Oxford, Clarendon Press. Mel'cuk, I. (2003). "Collocations : dfinition, rle et utilit." Travaux et recherches en linguistique applique. Mel'cuk, I. A. C., Andr; Polgure A. (1995). Introduction la lexicologie explicative et combinatoire. Louvain, Editions Duculot. Mihalcea, R. (2002). Bootstrapping large sense tagged corpora. In Proceedings of the Third International Conference on Language Resources and Evaluation LREC 2002, Canary Islands, Spain. Mihalcea, R. M., D. I. (1999a). An automatic method for generating sense tagged corpora. 16th National Conference on Artificial Intelligence. Mihalcea, R. M., D. I. (1999b). A method for word sense disambiguation of unrestricted text. Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics, College Park, Maryland. Modjeska, N., Markert, K., Nissim, M. (2003). Proceedings of the 2003 conference on Empirical methods in natural language processing - Volume 10. Morin, E., Dufour-Kowalski, Samuel, Daille, Batrice (2004). Extraction de terminologies bilingues partir de corpus comparables. Actes de Traitement Automatique des Langues Naturelles (TALN), Fs. Morley, B., Renouf, A., Kehoe, A. (2003). Linguistic Research with the XML/RDF aware WebCorp Tool. WWW2003 Conference, Budapest. Morley, B., Ed. (2006). WebCorp: A Tool for Online Linguistic Information Retrieval and Analysis. The Changing Face of Corpus Linguistics. Amsterdam, Rodopi. Nagao, M., Ed. (1984). A framework of mechanical translation between Japanese and English by analogy principle. Artificial and human intelligence, Elsevier Science Publishers. Nagata, M. (2001). Using the Web as a bilingual dictionary. 39th ACL Worshop on DataDriven Methods in Machine Translation. Nakagawa, H. (2001). "Disambiguation of Single Noun Translations Extracted from Bilingual Comparable Corpora." Terminology 7(1): 6383. Nakov, P., Hearst, M. (2005a). Search engine statistics beyond the n-gram : Application to noun compound bracket. CoNLL 2005. Nakov, P., Hearst, M. (2005b). "Using the Web as an Implicit Training Set: Application to Structural Ambiguity Resolution."
269
Nerima, L., Seretan, V., Wehrli, E. (2003). "Creating a Multilingual Collocation Dictionary from Large Text Corpora." Nerima, L., Seretan, V., Wehrli, E. (2006). "Le problme des collocations en TAL." ouveaux cahiers de linguistique franaise 27: 95-115. Nie, J.-Y., Simard, M., Isabelle, P., Durand, R. (1999). Cross-Language Information Retrieval Based on Parallel Texts and Automatic Mining of Parallel Texts from the Web. ACM SIGIR'99. Nie, J.-Y., Cai, J. (2001). Filtering noisy parallel corpora of web pages. In IEEE Symposium on Natural Language Processing and Knowledge Engineering, pages, Tucson. Papageorgiou, H., Ed. (1997). Clause recognition in the framework of alignment. Recent advances in natural language processing. Amsterdam, John Benjamins. Patwardhan, S., Riloff, E. (2006). Learning Domain-Specific Information Extraction Patterns from the Web. Proceedings of the Workshop on Information Extraction beyond the Document (ACL-06). Pearce, D. (2001). Synonymy in collocation extraction. In Proceedings of the Workshop on WordNet and Other Lexical Resources, Second meeting of the North American Chapter of the Association for Computational Linguistic, Pittsburgh. Pearson (1998). Terms in Context. Amsterdam/Philadelphie, John Benjamins Publishing, . Picchi, E., Peters, C., Marinai, E. (1992). A translator's workstation. 14th International Conference on Computational Linguistics (COLING92), Nantes. Pichon, R., Sbillot, P. (1999a). Diffrencier les sens des mots laide du thme et du contexte de leurs occurrences : une exprience. Actes de Traitement Automatique des Langues Naturelles (TALN). Pichon, R., Sbillot, P., Ed. (1999b). From Corpus to lexicon: from contexts to semantic features. PALC'99: Practical Applications in Language Corpora, Peter Lang, Lodz studies in Language. Piperidis, S., Boutsis, S., Papageorgiou, H., Ed. (2000). From sentences to words and clauses. Parallel Text Processing. Dordrecht, Kluwer. Polgure, A. (2000a). "Une base de donnes lexicale du franais et ses applications possibles en franais." Revue de Linguistique et de Didactique des Langues 21: 75-97. Polgure, A. (2000b). Towards a theoretically-motivated general public dictionary of semantic derivations and collocations for French. Actes de EURALEX2000, Stuttgart. Polgure, A. (2003). Lexicologie et smantique lexicale. otions fondamentales, Les Presses de l'Universit de Montral.
270
Polgure, A. (2005). Typologie des entits lexicales dune base de donnes explicative et combinatoire. Journe dtude de lATALA Interface lexique-grammaire et lexiques syntaxiques et smantiques cole nationale suprieure des tlcommunications (ENST), Paris. Pottier, B. (1962a). Le mot, unit de comportement. Colloque ATALA Le mot pour la Traduction Automatique et la linguistique applique. Pottier, B. (1962b). "Introduction ltude des structures grammaticales fondamentales." la TA III(3): 63-91. Pottier, B. (1962c). "Les travaux lexicologiques prparatoires la traduction automatique." Cahiers de lexicologie 3: 200-206. Prince, V., Chauch, J. (2006). Translating through divergence : A application to french to english automatic translation. R. L. n. 12758. Prince, V., Chauch, J. (2008). Building a Bilingual Representation of the Roget Thesaurus for French to English Machine Translation Proceedings of the sixth international conference on Language REsources and Evaluation (LREC). Pu-Jen Cheng, P.-J., Pan, Y.-C.; Lu, W-H., Chien L.-F. (2004b). Creating multilingual translation lexicons with regional variations using web corpora. Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics, Barcelona, Spain. Rapp, R. (1995). Identifying Word Translations in on-Parallel Texts. Annual Meeting of the ACL archive, Proceedings of the 33rd annual meeting on Association for Computational Linguistics, Cambridge, Massachusetts, Association for Computational Linguistics Morristown, NJ, USA. Rapp, R. (1999). Automatic Identification of Word Translations from Unrelated English and German Corpora. Actes de Association for Computational Linguistics (ACL). Rastier, F. (1987). Smantique interprtative. Paris, Presses Universitaires de France. Renouf, A., Kehoe, A., Mezquiriz, D., Ed. (2003). The Accidental Corpus: issues involved in extracting linguistic information from the Web. Advances in Corpus Linguistics. Amsterdam, Rodopi. Renouf, A., Ed. (2003). WebCorp: providing a renewable data source for corpus linguists. Extending the scope of corpus-based research: new applications, new challenges. Amsterdam, Rodopi. Renouf, A., Kehoe, A., Banerjee, J. (2005). The WebCorp Search Engine: a holistic approach to Web text Search. University of Birmingham. Renouf, A., Kehoe, A., Banerjee, J., Ed. (2007). WebCorp: an integrated system for web text
271
search. Corpus Linguistics and the Web. Amsterdam, Rodopi. Resnik, P., Melamed, I.D. (1997). Semi-Automatic Acquisition of Domain-Specific Translation Lexicons. Proceedings of the Fifth Conference on Applied Natural Language, Processing (ANLP97), Washington, DC. Resnik, P. (1998). "Parallel Strands : A Preliminary Investigation into Mining the Web for Bilingual Text." Resnik, P. (1999). Mining the web for bilingual text. 37th Annual Meeting of the Association for Computational Linguistics. Resnik, P., Smith, N. A. (2003). "The Web as a parallel corpus." Computational Linguistics, Special issue on web as corpus 29(3): 349 - 380. Resnik, P. S. N. (2002). The Web as a parallel corpus. Technical Report UMIACS-TR-2002. Riloff "Extraction-based text categorization: generating domain-specific role relatonships automatically." Roberts, R. P., Montgomery, C. (1996). The Use of Corpora in Bilingual Lexicography. Actes d'EURALEX '96. Rossignol, M., Sbillot, P. (2003). "Extraction statistique sur corpus de classes de mots-cls thmatiques." TAL (Traitement automatique des langues) 44(3): 217-246. Rosso, P., Montes, M., Buscaldi, D., Pancardo, A., and Villaseor, A., (2005). Two Webbased approaches for oun Sense Disambiguation. Int. Conf. on Comput. Linguistics and Intelligent Text, Processing, CICLing-2005,, Mexico D.F., Mexico, Springer Verlag, LNCS (3406). Rundell (2000). "The biggest corpus of all." Humanising Language Teaching(3). Rundell, M., Ed. (2002). Macmillan English Dictionary for Advanced Learners, Macmillan. Rus, V., Ravi, S. (2006). "Towards a base noun phrase parser using web." Journal of Computing Sciences in Colleges 21(5): 162-169. Sadler, V. (1989). Translating with a simulated bilingual knowledge bank, Technical report. BSO/Research. Utrecht. Sajous, F., Tanguy, L. (2006). Reprage de crations lexicales sur le Web francophone. Journe d'tude de l'ATALA Paris. Salton, G. (1968). Automatic Information Organisation and Retrieval. New York, McGrawHill. Santamara, C., Gonzalo, J., Verdejo F. (2003). "Automatic Association of Web Directories
272
with Word Senses." Computational Linguistics 23(3): 485-502. Sato, S., Nagao, M. (1990). Toward memory-based translation. 12th International Conference on Computational Linguistics, COLING'90, Helsinki, Finland. Sato, S., Sasaki, Y. (2003). Automatic collection of related terms from the Web. Proceedings of the 41st Annual Meeting on Association for Computational Linguistics - Volume 2, Sapporo, Japan. Saussure, F. (1916). Cours de Linguistique gnrale, Payot. Schtze, H. (1998). "Automatic word sense discrimination." Computational Linguistics 24(1): 97-124. Schwab, S., Lafourcade, M., Prince, V. (2004). Hypothses pour la construction et l'exploitation conjointer d'une base lexicale smantique base sur les vecteurs conceptuels. JADT 2004, 7es Journes internationales d'Analyse statistique des Donnes Textuelles, Louvain-le-Neuve, Belgique. Sbillot, P., Pichon, R. (1997). Acquisition automatique d'informations lexicales partir de corpus : un bilan. I RIA. N. RR-3321. Sgula, P. (2001). Construction de modles de connaissances par analyse linguistique de relations lexicales dans les documents techniques, Universit de Toulouse : Thse de doctorat en informatique. Seretan, V., Nerima, L., Wehrli, E. (2004). Using the Web as a Corpus for the SyntacticBased Collocation Identification. International Conference on Language Resources and Evaluation (LREC 2004), Lisbonne, Portugal. Sharoff, S., Ed. (2006). Creating general-purpose corpora using automated search engine queries. Wacky! Working papers on the Web as Corpus. Bologna, GEDIT. Simard, M., Foster, G., Isabelle, P. (1992). Using cognates to align sentences in bilingual corpora. Proceedings of the Fourth International Conference on Theoretical and Methodological Issues in Machine Translation (TMI), Montral, Canada. Sinclair, J., Ed. (1987a). Looking up: An account of the COBUILD project in lexical computing. London, Collins. Sinclair, J., Ed. (1987b). Collocation : A Progress Report. Language Topics. Essays in Honour of Michael Halliday, Vol. 2. Amsterdam, John Benjamins. Sinclair, J. (1996). Preliminary recommandations on corpus typology. E. E. A. G. o. L. E. S. Technical report. Smadja, F., McKeown, K. (1991). "Using collocations for language generation." Computational Intelligence 7(4): 229 - 239.
273
Smadja, F. (1993). "Retrieving Collocations from Text : Xtract " Computational Linguistics 19(1). Smadja, F., McKeown, K.; Hatzivassiloglou, V. (1996). "Translating Collocations for Bilingual Lexicons: A Statistical Approach." Computational Linguistics 22(1): 1-38. Smarr, J., Grow, T. (2002). "GoogleLing: The Web as a Linguistic Corpus." Sta, J. D. (1995). "Comportement statistique des termes et acquisition terminologique partir de corpus." Revue TAL, Traitements probabilistes et corpus 36(1-2): 119-132. Sumita, E., Iida, H, Kohyama, H. (1990). Translating with examples : a new approach to machine translation. Actes de International Conference on Theoretical and Methodological Issues in Machine Translation of Natural Languages (TMI90), Austin, Texas. Tanguy, L. (1997). Traitement automatique de la langue naturelle et interprtation : contribution l'laboration informatique d'un modle de la smantique interprtative. Thse de doctorat, Ecole Nationale Suprieure des Tlcommunication de Bretagne Tanguy, L. (1999). Isotopies smantiques pour la vrification de traduction. Traitement Automatique des Langues Naturelles (TALN). Terra, E., Clarke, L. A. (2003). Frequency Estimates for Statistical Word Similarity Measures. HLT-NAACL 2003. Thoiron, P., Bjoint, H. (1989). "Pour un index volutif et cumulatif de cooccurrents en langue techno-scientifique sectorielle." Meta 34(4): 661-671. Tonoike, M. K., Utsuro, T. (2005). "Effect of domain-specific corpus in compositional translation estimation for technical terms." Turney, P., Littman, M. (2003). "Measuring Praise and Criticism: Inference of Semantic Orientation from Association." ACM Transactions on Information Systems. Turney, P. (2004). Word Sense Disambiguation by Web Mining for Word Co-occurrence Probabilities. Proc. SENSEVAL-3. Turney, P. D. (2001). Mining the Web for synonyms: PMI-IR versus LSA on TOEFL. Twelfth European Conference on Machine Learning Berlin: Springer-Verlag. Tutin, A., Grossmann, Francis (2002). "Collocations rgulires et irrgulires : esquisse de typologie du phnomne collocatif." Revue franaise de linguistique applique, Lexique : recherches actuelles VII: 7-25. Ueyama, Ed. (2006). Creation of general-purpose Japanese Web corpora with different search engine query strategies. WaCky! Working papers on the Web as corpus. Bologna, Gedit.
274
Van Der Eijk, P. (1993). Automating the Acquisition of Bilingual Terminology. Proceedings of the 6th Conference of the European Chapter of the Association for Computational Linguistics (EACL93), Utrecht. Vandeghinste, V. (2002). Resolving PP Attachment Ambiuguities Using the WWW. CLIN2002 Abstracts, Groningen. Verlinde, S., Selva, T., Binon, J., Ed. (2003). Les collocations dans les dictionnaires dapprentissage : reprage, prsentation et accs, dans Les collocations : analyse et traitement. Travaux et recherches en linguistique applique. Amsterdam, de Werelt. Vronis, J., Ed. (2000a). Parallel Text Processing: Alignment and Use of Translation Corpora. Dordrecht, Kluwer Academic Publishers. Vronis, J., Ed. (2000b). Annotation automatique de corpus : panorama et tat de la technique. Paris, France, Herms dition. Vronis, J. (2003). Cartographie lexicale pour la recherche dinformation. Actes de la Confrence Traitement Automatique des Langues (TALN'2003), Batz-sur-Mer, France, ATALA. Vronis, J. (2004). "HyperLex: lexical cartography for information retrieval." Computer Speech & Language 18(3): 223252. Volk, M. (2000). Scaling up. Using the WWW to resolve PP attachment ambiguities. Konvens-2000. Volk, M. (2001). Exploiting the www as a corpus to resolve pp attachment ambiguities. Corpus Linguistics 2001. Volk, M. (2002). "Using the web as a corpus for linguistic research." Catcher of the Meaning. A festschrift for Professor Haldur im(R. Pajusalu, & T. Hennoste (Eds)). Weaver, W. ([1949] 1955). Translation. Machine Translation of Languages, Fourteen Essays. W. N. Locke, Booth, A. Donald. Boston, MIT & John Wiley: 15-23. Wehmeir, N. W. (2004). Using web search for machine translation University of Leeds School of Computing Wehrli, E. (2004). Traduction, traduction de mots, traduction de phrases. TALN 2004, Fs. Wilks, Y. A., Ed. (1975). Preference Semantics. The Formal Semantics of Natural Language. Cambridge University Press. Williams, G. (1999). Les rseaux collocationnels dans la construction et l'exploitation d'un corpus dans le cadre d'une communaut de discours scientifique, Universit de Nantes.
275
Williams, G. (2001). Sur les caractristiques de la collocation. TALN 2001, Tours. Wu, D., Ed. (2000). Bracketing and aligning words and constituents in parallel text using stochastic inversion transduction grammars. Parallel Text Processing. Dordrecht, Kluwer. Wu, J.-C., Chang, J. S. (2007). Learning to find English to Chinese Transliterations on the Web. 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Prague. Wster, E., Ed. (1981). Ltude scientifique gnrale de la terminologie, zone frontalire entre la linguistique, la logique, lontologie, linformatique et les sciences des choses. Textes choisis de terminologie. I. Fondements thoriques de la terminologie. Qubec, GIRSTERM. Xu, J. L. (2000). Multilingual search on the World Wide Web. In Proceedings of the Hawaii International Conference on System Science (HICSS-33), Maui, Hawaii. Yang, C., Li, K.W. (2003). "Automatic construction of English/Chinese parallel corpora." Journal of the American Society for Information Science and Technology 54(8): 730 - 742. Yarowsky, D. (1993). One Sense per Collocation. Actes de ARPA Human Language Technology Workshop. Zhang, Y., Vines, P. (2004). Detection and translation of OOV terms prior to query time. Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval Sheffield, United Kingdom. Zhang, Y., Vines, P. (2005). Mining translations of OOV terms from the web through crosslingual query expansion. Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval, Salvador, Brazil. Zuraw, K. (2006). Using the Web as a phonological corpus : a case study from Tagalog. EACL-2006: Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics/Proceedings of the 2nd International Workshop on Web As Corpus.

Leon-These Corpus Web

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Leon-These Corpus Web

Uploaded by

Copyright:

Available Formats

AIX-MARSEILLE U IVERSITE ******** Universit de Provence N attribu par la bibliothque

THESE pour obtenir le grade de DOCTEUR DAIX-MARSEILLE U IVERSITE

Formation doctorale : Cognition, Langage, Education (mention Traitement Automatique)

Prsente et soutenue publiquement

le lundi 8 dcembre 2008

TITRE : ACQUISITION AUTOMATIQUE DE TRADUCTIONS DUNITES LEXICALES COMPLEXES A PARTIR DU WEB

A la mmoire de mon grand-pre Salvador et de ma tante Jeanine.

Table des matires

10.2.1 10.2.2 10.2.3 10.2.4

Bibliographie ...................................................................................................................................................... 254

1.2 Objectifs et mthodologie

Harris (1991) parle de sous-langage , qui est une notion proche.

diffrents courants dans le chapitre 7.

EXTRACTION AUTOMATIQUE PAGES WEB UNITES LEXICALES COMPLEXES SOURCES

TRADUCTIONS COMPOSITIONNELLES NON POLYSEMIQUES

TRADUCTIONS COMPOSITIONNELLES POLYSEMIQUES

TRADUCTIONS NON COMPOSITIONNELLES (OU INCONNUES)

BASE LEXICALE DE TRADUCTIONS

1.3 Domaines dapplication

1.3.1 Lexicographie et terminologie

1.3.2 Traduction automatique

1.3.3 Recherche dinformation multilingue

http://www.google.fr/language_tools?hl=fr La traduction attendue est lamb shank.

Recherche multilingue Google en anglais de souris dagneau

1.3.4 Dsambigusation lexicale

1.3.5 Didactique des langues

1.3.6 Linguistique comparative

1.3.7 Autres applications Gnration automatique de textes

Reconnaissance Optique des Caractres1

Dsambigusation syntaxique automatique

Optical Character Recognition, en anglais.

Rsums automatiques multilingues

1.4 Domaines et plan de la thse

proche. Nous reviendrons sur cette notion dans le chapitre 7.

2. Vers des units lexicales complexes pour la traduction

Vers des units lexicales complexes

2. Vers des units lexicales complexes pour la traduction

2. Vers des units lexicales complexes pour la traduction

Parfois, aucune transformation syntaxique nest possible :

Lastrisque indique que la squence est agrammaticale.

2. Vers des units lexicales complexes pour la traduction

2.2 Prmisses de la Traduction Automatique

2. Vers des units lexicales complexes pour la traduction

Extrait de la lettre de Warren Weaver orbert Wiener1

(Lon, 2001, 2004).

2. Vers des units lexicales complexes pour la traduction

Les rgles de transformations morpho-syntaxiques comme par exemple :

Les rgles de transformations idiomatiques :

en allemand est souhaitable.

2. Vers des units lexicales complexes pour la traduction

2. Vers des units lexicales complexes pour la traduction

2.3 Renouveau terminologique

La notion de lexie (Pottier)

2. Vers des units lexicales complexes pour la traduction

2. Vers des units lexicales complexes pour la traduction

La notion de synapsie (Benveniste)

La nature syntaxique des synapsies autorise les expansions (ibid.) :

2. Vers des units lexicales complexes pour la traduction

[ [gardien dasile] de nuit ]

La notion de synthme (Martinet)

ncessairement un segment isolable de lnonc.

2. Vers des units lexicales complexes pour la traduction

chaise longue (synthme) chaise plus longue (vs. chaise longue)

Le critre dinsparabilit nest pas obligatoire (Lon, 2001) :