Professional Documents
Culture Documents
|__|__|__|__|__|__|__|__|__|__|
Par
Stphanie LEON
Tome I
Directeur de thse : Jean VERONIS
JURY Mme Batrice DAILLE (Universit de Nantes, examinateur) Mme Violaine PRINCE (Universit de Montpellier 2, rapporteur) Mme Pascale SEBILLOT (INSA, Rennes, rapporteur) M. Jean VERONIS (Universit de Provence, directeur)
Remerciements
Cette thse est le fruit dun travail interdisciplinaire, mlant la fois une culture linguistique et informatique, qui mont t transmises au contact de personnes dont le panel vari des domaines de recherche ont constitu un ventail dchanges enrichissants.
Je pense mon directeur de thse, Jean Vronis, dont limplication et le soutien ont t sans limite, depuis mon arrive lUniversit de Provence. Cest grce sa passion et son enthousiasme pendant mes premiers cours de licence que je me suis oriente vers des tudes en traitement automatique de la smantique lexicale. Tout au long de mon parcours universitaire, il a su mapporter de prcieux conseils et ma transmis son exprience et sa rigueur du travail. Je le remercie galement pour son soutien psychologique tout au long de mes annes de thse et ses changes qui mont toujours stimule et remotive dans les moments de doute.
En ce qui concerne mon cadre de recherche, je remercie tous les membres de lancienne quipe DELIC (Description Linguistique Informatise sur Corpus), nouvellement TALEP (Traitement Automatique du Langage Ecrit et Parl), qui ma accueillie durant mes annes de thse, lUniversit de Provence. Je remercie Estelle Vronis, pour son amiti, son soutien et le partage de son exprience. Elle a toujours su tre lcoute et mapporter des conseils aviss lorsque jen ai eu besoin. Je pense Laure Brieussel pour son enthousiasme et ses conseils. Je remercie les autres doctorants avec qui jai eu le plaisir de travailler au quotidien, et de partager doutes, exprience et bonne humeur, Chrystel Millon pour sa complicit, Alice Carne, Rmi Bove, Emilie Chtelat et Loc Kervajean. Je pense enfin tous les autres membres de lquipe. Je remercie galement lquipe du LIRMM (Laboratoire d'Informatique, de Robotique et de Microlectronique de Montpellier), qui est mon quipe de recherche daccueil pour cette anne en cours, durant ma dernire anne dATER. Je remercie tout particulirement Violaine Prince pour son accueil trs chaleureux, pour son enthousiasme stimulant et pour sa participation active en tant que rapporteur au sein de mon jury de thse. Je pense galement
Mathieu Lafourcade dont laccueil et la passion pour la recherche ma apport un cadre de travail convivial. Je pense galement tous les autres membres de lquipe, qui mont rserv un accueil enthousiaste.
En ce qui concerne mon cadre denseignement, je remercie lquipe du CILSH (Centre Informatique pour les Lettres et Sciences Humaines) de lUniversit de Provence, qui a su mapporter une atmosphre de travail absolument remarquable, par sa bonne humeur et son soutien sans faille, durant mes trois annes de monitorat et ma premire anne dATER : Christophe Mathieu, pour son amiti et ses conseils toujours aviss et stimulants, Grard Della Ragione pour son prcieux soutien et son encadrement durant mes premires annes denseignement, Marie-Thrse Ponsonnet pour sa bonne humeur communicative, Jean-Luc Pris pour sa prsence chaleureuse, sans oublier tous les autres membres de lquipe. Jai galement une pense mue la mmoire dHenri Tournier.
Je remercie galement lquipe MIAp (Mathmatiques Informatique Appliques) de luniversit Montpellier III, o jai actuellement le plaisir denseigner, pour ma dernire anne dATER et dans laquelle jai t agrablement accueillie. Je remercie Christian Lavergne et Patrice Sbold qui mont permis de mintgrer dans le dpartement MIAp, pour leur accueil amical et chaleureux. Je pense naturellement mes collgues enseignants dinformatique, Sandra Bringay, Alexandre Pinlou, Sylvain Durand, Jol Quinqueton et Fabrice Philippe, dont la complicit et les nombreux conseils mont aid mintgrer rapidement, dans une chaleureuse ambiance, ainsi que tous les autres membres de lquipe, pour leur sympathique accueil.
Je remercie galement Christophe Rey, de lUniversit dAmiens, pour son amiti, ses discussions toujours avises et le partage de son exprience. Je pense aussi Louis-Jean Calvet, de lUniversit de Provence, avec qui jai le plaisir de travailler sur un autre domaine qui me passionne, celui de lanalyse linguistique des textes de chanson. Son exprience, sa passion, ainsi que son extraordinaire culture mont beaucoup enrichie et stimul, au cours de nos entrevues.
Je remercie naturellement Pascale Sbillot et Batrice Daille, davoir accept, avec Violaine Prince, de faire partie de mon jury de thse. Leur enthousiasme toutes les trois, ainsi que
leur exprience et leurs remarques toujours rigoureuses et pertinentes, mont offert un cadre particulirement stimulant pour terminer ma thse.
Je remercie galement Amanda Grey, qui a eu la grande amabilit de simpliquer dans lvaluation des traductions obtenues dans mon travail de thse. Sa rigueur et ses comptences mont permis de cibler avec prcision les caractristiques de traduction qui posent des difficults au traitement automatique et de porter un regard la fois quantitatif et qualitatif sur mes rsultats.
Enfin, je remercie ma famille et mes amis pour leur patience et leur soutien inconditionnel, tout particulirement mes parents, mon frre Sbastien et Lynda. Je remercie Alize pour tout ce quelle ma apport. Un clin dil L-Town et la plante Mars. Je remercie Bruno pour sa prsence et son soutien quotidien et sans limite.
Chapitre1. Introduction ....................................................................................................................................... 10 1.1 1.2 1.3 1.3.1 1.3.2 1.3.3 1.3.4 1.3.5 1.3.6 1.3.7 1.4 Chapitre 2. 2.1 2.2 2.3 2.4 2.4.1 2.4.2 2.4.3 2.5 2.5.1 2.5.2 2.5.3 2.5.4 2.6 2.6.1 2.6.2 2.6.3 2.6.4 Motivation......................................................................................................................................... 10 Objectifs et mthodologie ................................................................................................................ 12 Domaines dapplication ................................................................................................................... 17 Lexicographie et terminologie....................................................................................................... 17 Traduction automatique................................................................................................................. 17 Recherche dinformation multilingue............................................................................................ 18 Dsambigusation lexicale............................................................................................................. 19 Didactique des langues .................................................................................................................. 19 Linguistique comparative .............................................................................................................. 20 Autres applications ........................................................................................................................ 20 Domaines et plan de la thse ........................................................................................................... 22 Vers des units lexicales complexes pour la traduction ......................................................... 26 Introduction ...................................................................................................................................... 26 Prmisses de la Traduction Automatique ...................................................................................... 29 Renouveau terminologique.............................................................................................................. 33 Locutions et termes complexes ........................................................................................................ 38 Locutions ....................................................................................................................................... 38 Termes complexes ......................................................................................................................... 41 Critres dfinitoires ....................................................................................................................... 42 Collocations ...................................................................................................................................... 45 Approche statistique ...................................................................................................................... 46 Approche linguistique ................................................................................................................... 48 Critres dfinitoires ....................................................................................................................... 49 Recensement et formalisation ....................................................................................................... 51 Indices de figement .......................................................................................................................... 56 Opacit smantique ....................................................................................................................... 56 Proprits transformationnelles ..................................................................................................... 59 Critre rfrentiel (Libre actualisation) ......................................................................................... 61 Degr de figement ......................................................................................................................... 62
2.7 Chapitre 3. 3.1 3.2 3.2.1 3.2.2 3.2.3 3.3 3.3.1 3.3.2 3.3.3 3.4 Chapitre 4. 4.1 4.2 4.2.1 4.2.2 4.2.3 4.3 4.3.1 4.3.2 4.3.3 4.3.4 4.4 4.5 4.5.1 4.5.2 4.5.3 4.5.4 4.5.5 4.5.6 4.6 Chapitre 5. 5.1
Conclusion ........................................................................................................................................ 62 Traitement automatique des units lexicales complexes ........................................................ 65 Introduction ...................................................................................................................................... 65 Mthodes dextraction automatique ............................................................................................... 69 Mthodes statistiques .................................................................................................................... 70 Mthodes linguistiques .................................................................................................................. 70 Mthodes mixtes ........................................................................................................................... 72 Mthodes de traductions dunits lexicales complexes ................................................................. 74 Corpus parallles ........................................................................................................................... 74 Outils dalignement de termes ....................................................................................................... 78 Corpus comparables ...................................................................................................................... 80 Conclusion ........................................................................................................................................ 82 Le Web comme mga base lexicale ......................................................................................... 84 Introduction ...................................................................................................................................... 84 Le Web est-il un corpus ? ................................................................................................................ 85 Quappelle-t-on corpus ? ......................................................................................................... 85 Le rle du corpus dans la recherche linguistique .......................................................................... 87 Quel statut attribuer au Web ? ....................................................................................................... 88 Motivations ....................................................................................................................................... 90 Une gigantesque base lexicale ....................................................................................................... 90 Une base lexicale multilingue ....................................................................................................... 91 Une base lexicale volutive ........................................................................................................... 92 Limites de lutilisation du Web ..................................................................................................... 93 Construction de corpus partir du Web ....................................................................................... 94 Domaines dapplication de lutilisation du Web pour le TAL ................................................... 100 Dsambigusation syntaxique ...................................................................................................... 101 Lexicographie .............................................................................................................................. 102 Smantique .................................................................................................................................. 102 Dsambigusation lexicale........................................................................................................... 104 Acquisition de co-occurrences lexicales ..................................................................................... 104 Autres applications ...................................................................................................................... 105 Conclusion ...................................................................................................................................... 107 Mthodes dacquisition de traductions partir du Web....................................................... 109 Introduction .................................................................................................................................... 109
5.2 5.2.1 5.2.2 5.3 5.4 5.4.1 5.4.2 5.5 5.6 5.6.1 5.6.2 5.7 Chapitre 6. 6.1 6.2 6.2.1 6.2.2 6.2.3 6.2.4 6.3 6.4 6.5 6.6 6.7 6.8 6.9 6.9.1 6.9.2 Chapitre 7. 7.1 7.2 7.2.1 7.2.2
Acquisition de textes parallles partir du Web......................................................................... 110 Typologie des textes parallles sur le Web ................................................................................. 110 Mthodes dacquisition ............................................................................................................... 112 Approches bases sur les anchor textes .................................................................................. 119 Acquisition de textes partiellement parallles partir du Web ................................................. 121 Typologie des textes partiellement parallles sur le Web ..................................................... 123 Mthodes dacquisition ............................................................................................................... 125 Le Web, un corpus comparable .................................................................................................... 127 Les frquences sur le Web pour laide au choix lexical .............................................................. 129 Mthodes dacquisition ............................................................................................................... 129 Vracit vs. popularit................................................................................................................. 132 Conclusion ...................................................................................................................................... 132 Architecture et spcification du systme dacquisition des traductions ............................... 135 Introduction .................................................................................................................................... 135 Acquisition automatique dunits lexicales complexes partir du Web ................................... 138 Contraintes dacquisition monolingue ......................................................................................... 138 Collecte de pages Web et sous-corpus ........................................................................................ 141 Extraction dunits lexicales complexes ..................................................................................... 143 Analyse des units lexicales sources ........................................................................................... 149 Prsentation de lapproche de traduction .................................................................................... 152 Ressources pralables .................................................................................................................... 155 Dtection du degr de polysmie ................................................................................................... 159 Gnration de traductions candidates .......................................................................................... 160 Interrogation automatique du moteur de recherche Yahoo....................................................... 164 Validation automatique ................................................................................................................. 165 Analyse des rsultats ...................................................................................................................... 166 Proportion de traductions ............................................................................................................ 166 Non validation ............................................................................................................................. 168 Traductions compositionnelles polysmiques ....................................................................... 173 Introduction .................................................................................................................................... 173 Mondes lexicaux : notions thoriques et applicatives ................................................................. 175 Isotopie smantique et traduction ................................................................................................ 175 Thme et mots-cls thmatiques ................................................................................................. 177
8
7.2.3 7.2.4 7.2.5 7.3 7.4 7.4.1 7.4.2 7.5 7.5.1 7.5.2 7.6 7.7 7.7.1 7.7.2 Chapitre 8. 8.1 8.2 8.2.1 8.2.2 8.3 8.3.1 8.3.2 8.4 8.5 8.5.1 8.5.2 Chapitre 9. 9.1 9.2 9.2.1 9.2.2 9.2.3 9.3 Latent Semantic Indexing et Vecteurs conceptuels ..................................................................... 179 Signatures thmatiques et signatures pertinentes ............................................................ 180 Cartographie lexicale................................................................................................................... 183 Prsentation de lapproche ............................................................................................................ 185 Filtres pralables ............................................................................................................................ 188 Web parallle ou partiellement parallle ......................................................................... 188 Rapport des frquences ............................................................................................................... 190 Construction automatique de mondes lexicaux partir du Web .............................................. 190 Construction automatique de mondes lexicaux en franais ......................................................... 190 Construction automatique de mondes lexicaux anglais ............................................................... 193 Comparaison des mondes de mots franais et anglais ................................................................ 194 Analyse des rsultats ...................................................................................................................... 196 Proportion de traductions ............................................................................................................ 196 Reprsentativit des mondes lexicaux ......................................................................................... 198 Traductions non-compositionnelles et inconnues ................................................................ 200 Introduction .................................................................................................................................... 200 Problme de la non-compositionnalit .......................................................................................... 201 Notion de compositionnalit ....................................................................................................... 201 Prsentation de la mthode .......................................................................................................... 203 Liens morphologiques multilingues ou cognates ................................................................... 204 Acquisition de rsums mixtes .................................................................................................... 204 Filtres des cognates candidats ..................................................................................................... 207 Bigrammes frquents candidats.................................................................................................... 210 Analyse des rsultats ...................................................................................................................... 214 Typologie bilingue des units lexicales complexes ..................................................................... 214 Proportions de traductions ........................................................................................................... 215 Evaluation .............................................................................................................................. 217 Evaluation ....................................................................................................................................... 217 Analyse des erreurs ........................................................................................................................ 220 Erreurs lexicales .......................................................................................................................... 220 Erreurs morpho-syntaxiques ....................................................................................................... 229 Erreurs idiomatiques ................................................................................................................... 233 Proportion des erreurs par catgorie ........................................................................................... 234 Conclusion et perspectives ..................................................................................................... 237
Chapitre 10.
10.1 10.2
Discussion ....................................................................................................................................... 237 Perspectives .................................................................................................................................... 239 Thmatiques de recherche ...................................................................................................... 239 Analyse morpho-syntaxique ................................................................................................... 241 Smantique lexicale ................................................................................................................ 243 Autres perspectives ................................................................................................................. 246
1. Introduction
10
Chapitre1. Introduction
1.1 Motivation
Bien quelle ait t la premire application non-numrique de linformatique, la traduction automatique a connu des dbuts dcevants qui ont jet un discrdit sur cette technologie pendant plusieurs dcennies. Toutefois, des progrs considrables ont t accomplis au cours de ces dernires annes, en particulier cause de lexplosion du Web dans un contexte fortement multilingue. A lheure actuelle, les logiciels de traduction en ligne, accessibles au grand public, permettent de dchiffrer le thme et le contenu global de textes courants dans une autre langue. Des erreurs, parfois grossires, demeurent, et lon est trs loin de traductions de qualit professionnelle, mais les rsultats obtenus sont malgr tout intressants pour un large public souhaitant prendre connaissance dinformations dans des langues totalement inconnues, ou de professionnels cherchant dchiffrer rapidement des documents dans le cadre de la veille technologique ou stratgique. Ces progrs rcents sont essentiellement dus laccroissement trs important de la couverture des dictionnaires prsents dans les systmes, et la prise en compte dun nombre croissant dexpressions composes. Par exemple, le
1. Introduction
11
systme Systran1 traduit dsormais correctement du franais vers langlais des expressions figes telles que :
vol main arme > armed robbery vol la roulotte > stealing from parked vehicles vol la tire > pick-pocketing vol voile > gliding vol rgulier > scheduled flight
Malgr tout, ds que lon sort de ces listes dexpressions figes, on retombe rapidement dans des erreurs de traductions qui gnent considrablement la comprhension, et lui donnent mme parfois un caractre surraliste. Par exemple, Systran utilise la traduction la plus frquente du mot vol, cest--dire flight (usage VOL AERIE ), dans toutes les autres situations. Si vol arien est correctement traduit (air flight), vol de voitures est traduit par flight of cars, ce qui est totalement incomprhensible pour un anglophone. Pourtant, la cooccurrence vol-voitures est un indice dsambigusateur fort, qui, si elle tait correctement enregistre dans une base de donnes, pourrait servir gnrer des traductions correctes. La combinatoire est toutefois beaucoup plus ouverte quavec les expressions figes mentionnes plus haut et la constitution manuelle dune base de donnes de co-occurrences lexicales prfrentielles, trs grande chelle, est une tche peu prs impossible. Les dictionnaires bilingues se contentent dailleurs de rares indications ponctuelles sur la traduction des units lexicales complexes, se fiant au jugement du lecteur et sa connaissance du monde, que lon ne peut gure esprer dune machine.
En ce qui concerne lacquisition automatique de lexiques bilingues, nous distinguons les travaux sappuyant sur les corpus parallles ou aligns (Vronis, 2000a) de ceux, plus rcents,
http://www.systransoft.com/
1. Introduction
12
sappuyant sur les corpus comparables (Rapp, 1999, Fung et McKeown, 1997, Fung et Yee, 1998, Morin et al., 2004). Les corpus parallles souffrent dun manque de disponibilit. Les corpus comparables, plus accessibles, se limitent gnralement un domaine de spcialit, ce qui restreint la diversit des usages. Le Web, qui gnre des besoins considrables en traduction, offre en mme temps un rservoir gigantesque de donnes qui peut tre exploit par des moyens automatiques, en particulier grce des moteurs de recherche tels que Google1 ou Yahoo2. Le Web permet de palier les limites des corpus parallles et comparables : il constitue une base lexicale gigantesque, accessible librement, pour une multitude de domaines et de langues (Kilgarriff et Grefenstette, 2003). Lutilisation du Web permet un changement dchelle dont les rpercussions peuvent tre fondamentales pour la comprhension des langues. Toutefois, son utilisation constitue un phnomne rcent, non compltement matris et ncessite des rflexions thoriques et pratiques sur son statut, ses caractristiques et ses limites pour la recherche linguistique.
http://www.google.com/ http://www.yahoo.com/
Concernant la combinatoire lexicale, la littrature prsente une terminologie disparate et souvent floue. Certains parlent de prfrences lexicales (Wilks, 1975), de restrictions de slection (Katz et Fodor, 1964), de termes complexes (Daille, 1994) ou encore de collocations (Benson, 1990, Smadja, 1993, Cruse, 1986). Afin de dsigner ce phnomne, nous employons ici le terme dunit lexicale complexe, plus neutre, dfini comme une cooccurrence lexicale entre deux lexmes lis syntaxiquement.
1. Introduction
13
type dictionnairique, elle ne vise pas lexhaustivit et la description du lexique. Elle constitue un recensement non exhaustif et non ferm, dont lobjectif est une augmentation croissante et quotidienne.
Etant donn lampleur du phnomne, nous nous centrons sur un couple de langue (franaisanglais), sur une direction de traduction (du franais vers langlais)1, et sur deux relations de dpendances syntaxiques en franais (limites deux mots-pleins 2) :
OM ADJ appareil digital OM DE(D) OM appareil de musculation
Ces champs dinvestigation peuvent tre largis par la suite. Nous prenons pour point de dpart des units lexicales complexes en franais collectes partir dun vaste corpus de pages Web et nous proposons une mthodologie par traitements modulaires, chaque phase tant cible sur des caractristiques particulires de traduction (compositionnalit ou noncompositionnalit, polysmie des units lexicales, etc.). Nous tudions la langue gnrale dans son ensemble, celle-ci incluant les domaines de spcialit3.
Nous esprons apporter modestement quelques techniques afin de construire de faon automatique un vaste lexique bilingue dunits lexicales complexes attestes, partir de la base de textes du Web. Nous visons la construction dun lexique ayant un champ tendu de traitement, tant quantitativement, quen matire de diversit des domaines. Ce lexique
Nous parlons de langue source afin de dsigner la langue traduire (pour nous, le franais) et de langue cible afin de parler de la langue de traduction (pour nous, langlais). Dans le dcompte des mots-pleins, les prpositions telles que de ou d ne sont pas prises en compte, cest--dire que appareil numrique contient deux mots-pleins, tout comme appareil de musculation ou cachet daspirine (Daille, 1994).
3 2 1
1. Introduction
14
fonctionne en continu, partir de donnes sources traduire, le lexicographe pouvant tout moment valider ou modifier les donnes obtenues, ainsi que rajouter de nouvelles donnes traduire, mme si celles-ci constituent des nologismes, ou des termes spcialiss, le Web nous permettant un accs aux usages en temps rel et de faon quantitative. Notre mthodologie exploite les caractristiques du Web pour la rsolution de difficults de traduction, ces difficults tant gres de faon modulaire : partir dune liste traduire, les traductions obtenues dans la premire phase sont limines de la liste de dpart, et ainsi de suite jusqu notre troisime et dernire phase. Dans un premier temps, nous prsentons une mthode de validation de traductions candidates base sur ltude des frquences sur le Web, dans la ligne de travaux tels que Grefenstette (1999), Cao et Li (2002) et Lon et Millon (2005). Lhypothse est que les traductions candidates errones apparaissent une faible frquence sur le Web, contrairement aux traductions correctes. Pour revenir notre exemple de vol de voitures, la traduction flight of cars apparat seulement une frquence de 4 sur le moteur de recherche Google1, tandis que theft of cars apparat 36 600 fois. Les rsultats de frquences slectionnent de faon crasante la traduction correcte (Lon et Millon, 2005).
Malgr tout, labsence de prise en compte du contexte lexical constitue une limite, car la mthode des frquences ne vrifie pas lquivalence entre lunit lexicale source et sa traduction, ce qui peut constituer des erreurs pour les cas fortement polysmiques. Par exemple, group rate, qui signifie tarif de groupe serait une traduction candidate de cours de formation par le jeu des multiples polysmies de cours et de formation (Lon et Millon, 2005). Si les frquences permettent de vrifier lexistence dune traduction et sont efficaces pour les cas non polysmiques, elles ne sont pas satisfaisantes pour les cas dambigit lexicale. Notre mthode se base sur une dtection du degr de polysmie des units lexicales et propose un module de dsambigisation lexicale pour les cas polysmiques. Notre technique se base principalement sur la notion de mondes lexicaux partir du Web. Pour nous, un monde lexical dsigne les co-occurrences frquentes d'une unit lexicale (simple ou complexe) au sein dune collection de textes2 (Vronis, 2003, 2004). De tels voisinages, plus larges que le co-occurrent immdiat, peuvent se situer au niveau de la phrase, ou mme du
1
Google, aot 2008. En loccurrence, les rsums retourns par le moteur de recherche Yahoo, en ce qui nous concerne.
1. Introduction
15
paragraphe. Par exemple, le monde lexical de la requte caisse centrale sur Yahoo (agricole, social, mutualit, crdit, banque, assurance, gestion, etc.) est proche de celui de sa traduction correcte central fund (money, pay, budget, insurance, management, social, etc.), contrairement la traduction errone central case (study, law, policy, enterprise, university, etc.). Notre hypothse est quune comparaison des mondes lexicaux permet de lever un grand nombre dambiguts lexicales (Lon, 2006). Certains travaux ont montr que lexploitation des mondes lexicaux1 permet une dsambigusation lexicale dun point de vue monolingue (Sbillot et Pichon, 1997, Pichon et Sbillot, 1999a, Pichon et Sbillot, 1999b, Rossignol et Sbillot, 2003, Vronis, 2003, Vronis, 2004). En traduction, des recherches ont soulign que les co-occurrences immdiates dun mot cible sont les mmes d'une langue l'autre (entres autres (Rapp, 1999)), mais aussi un entourage linguistique plus large (Fung et Yee, 1998, Kikui, 1998, Tanguy, 1999). Ces stratgies ont t appliques essentiellement sur des corpus terminologiques, ce qui offre une faible diversit des usages dun mot, partir de corpus parallles ou comparables, ce qui limite la quantit des observations. De plus, ils concernent majoritairement des termes simples, tandis que nous nous intressons aux units lexicales complexes. Nos travaux prsentent des similitudes avec ceux de Lafourcade et al. (2004) qui crent des ressources monolingues et bilingues par la construction de vecteurs conceptuels : la dmarche adopte est onomasiologique, cest--dire que les concepts sont donns a priori via des thesaurus et sont relis des items lexicaux. Pour nous, le monde lexical est construit uniquement partir de donnes textuelles. Notre dmarche est smasiologique : nous partons des termes pour nous intresser leur signification et leur traduction. A notre connaissance, aucune exprience sur la comparaison des mondes lexicaux na t mene en langue gnrale, sur limmense base de donnes que constitue le Web.
Les stratgies prsentes, qui constituent les deux premires tapes de notre mthode, lune pour les units lexicales non polysmiques, lautre pour celles qui sont polysmiques se fonde sur une reprsentation compositionnelle de la traduction : la combinaison des traductions de chaque lment permet daccder au sens global. Toutefois, il arrive quune traduction ne soit pas transparente. Par exemple, le co-occurrent de caisse dans caisse claire se traduit par snare
1
La terminologie relative aux mondes lexicaux varie selon les courants thoriques. Nous prsentons ces
1. Introduction
16
qui signifie littralement pige. Une traduction littrale, partir dun dictionnaire ne peut tre satisfaisante. De plus, certaines units lexicales sont trs techniques ou rcentes et ne sont pas recenses dans les ressources dictionnairiques. Notre troisime phase de traduction propose une mthode afin de rsoudre ces difficults. La mthode se fonde sur une acquisition de pages partiellement parallles sur le Web (Nagata, 2001) et sur un reprage de cognates et de bigrammes frquents. Cette dernire tape permet de combler les lacunes dictionnairiques et de grer les problmes de traductions non transparentes. Le schma ci-dessous rcapitule les tapes de traitement de notre mthodologie :
Figure 1.
Etapes de traitement
1. Introduction
17
1. Introduction
18
des outils informatiss et dautre part, la traduction automatique assiste par lhomme, tels que des systmes daide la lecture et la rdaction par exemple (Li et Cao, 2002, Li et al., 2003a). Tout au long de ce continuum, les bases de traductions dunits lexicales complexes sont utiles afin de complter et damliorer les ressources traditionnelles. Les systmes de mmoire de traduction (Kjaersgaard, 1987, Isabelle, 1992, Macklovich, 1992, Picchi et al., 1992) sont bass sur lide, propose par Kay, en 1980, de raliser une approche progressive de la traduction automatique, dont ltape de dpart serait de sappuyer sur des exemples de textes (Vronis, 2000a). Le courant de la traduction automatique base sur la mmoire (ou sur les exemples) (Nagao, 1984, Sadler, 1989, Sato et Nagao, 1990, Sumita et al., 1990) avance lide dexploitation de fragments similaires aux portions du texte traduire et de combinaison de faon adquate (Vronis, 2000a). La base de donnes de traductions que nous constituons pourrait tre utilise par des systmes de mmoire de traductions. Les traductions dunits lexicales complexes peuvent tre rutilises dans diffrents contextes. De plus, les mondes lexicaux offrent des informations sur leur contexte qui pourraient tre utiles.
1. Introduction
19
Figure 2.
Laccs des bases de donnes lexicales de traductions dunits lexicales complexes pourrait tre utile afin damliorer la qualit de traductions de telles requtes.
Au-del des traductions dunits lexicales complexes, nous prsentons laccs au monde lexical de ces units,
qui peut galement constituer une aide prcieuse pour la dsambigisation lexicale.
1. Introduction
20
didactique des langues trangres, pour laide la matrise dune langue, tant pour laide la production (rdaction, production orale) que pour la comprhension de textes. Lobservation de lutilisation des mots en contexte (par les mondes lexicaux) peut complter efficacement les outils classiques tels que les dictionnaires et les grammaires (Vronis, 2000a).
Ces blocs peuvent tre considrs comme des produits semi-finis (Hausmann, 1979) et rutiliss tels quels des fins de gnration automatique. Par exemple, Smadja et McKweown (1991) ont ralis un programme de gnration automatique de phrases, Cook, dans le domaine de la bourse, en anglais, bas sur une utilisation des units lexicales complexes.
1. Introduction
21
Dans le contexte (1), accompagn rgulirement de federal credit, nous aurons le terme form, tandis que le contexte (2) (some of) se rencontre plus frquemment avec farm.
Ladjectif weight-reducing ne sapplique quau premier nom diet. Lambigut vient du fait quune analyse pourrait appliquer la distributivit la coordination. La dsambigusation du dcoupage de ces structures peut tre apporte grce un recensement des units lexicales
1
1. Introduction
22
complexes (dans lexemple cit, lunit lexicale complexe serait de la forme syntaxique ADJECTIF- OM).
En ce qui concerne la smantique lexicale, nous nous intressons aux aspects lexicologiques des units lexicales complexes et leurs critres dfinitoires. Nous proposons une analyse de diffrents types dunits lexicales complexes telles que les locutions (et les termes complexes) comme par exemple caisse claire et les collocations, comme par exemple pluie forte. Nous nous intressons la notion de figement et aux aspects comparatifs des phnomnes de combinatoires lexicales. Nous posons la problmatique des rapports entre les units lexicales complexes repres dans les textes, les concepts et leurs quivalences dans une langue cible. Nous nous centrons galement sur les mondes lexicaux dun point de vue interlingue et de leur utilit pour la dsambigisation lexicale en traduction.
Hovy et Lin (1997) parlent de signatures thmatiques ( topic signature en anglais), qui est une notion
1. Introduction
23
Du point de vue du Traitement Automatique des Langues, nous nous intressons aux aspects techniques de lidentification automatique des units lexicales complexes partir de vastes donnes textuelles. Nous mettons en place une procdure dacquisition automatique dunits lexicales et de leurs traductions partir du Web. Nous proposons une rflexion sur le statut du Web pour la recherche linguistique. Nous dtaillons et utilisons les diffrentes caractristiques du Web bilingue pour son utilisation en traduction.
Outre lintroduction et la conclusion, notre thse se divise en huit chapitres, dont les quatre premiers sont un tat de lart des champs qui recoupent notre sujet. Ce dernier se situe michemin entre plusieurs domaines que nous tudions de faon conjointe : les units lexicales complexes (aspects thoriques et traitement automatique monolingue et bilingue), lutilisation du Web pour les recherches linguistiques, lacquisition de traductions partir du Web. Les quatre derniers chapitres prsentent notre mthodologie dacquisition de traductions dunits lexicales complexes partir du web, analysent les rsultats et prsentent lvaluation.
Le deuxime chapitre prsente les aspects thoriques et dfinitoires des units lexicales complexes. Aprs une mise en perspective des dbuts des recherches en Traduction Automatique avec le traitement des units lexicales complexes, nous montrons quil existe plusieurs phnomnes : les locutions (ou les termes complexes) et les collocations. Nous analysons les caractristiques de ces phnomnes puis les considrons de faon comparative, en montrant que les diffrences se situent sur un continuum dont les frontires sont floues.
Le troisime chapitre prsente les mthodes traditionnelles de traitement automatique des units lexicales complexes, dabord dans une perspective monolingue, puis dans une perspective bilingue. Nous prsentons les limites des mthodes traditionnelles de traduction et montrons que le Web est un outil dont les caractristiques permettent de palier ces limites.
Le quatrime chapitre prsente un tat de lart de lutilisation du Web pour les recherches en Traitement Automatique des Langues (TAL). Nous proposons quelques rflexions thoriques sur les rapports entre lutilisation de corpus en linguistique et lutilisation du Web. Nous montrons que malgr une utilisation rcente, il existe un panel trs vari et prolifique de travaux qui utilisent le Web pour leurs applications.
1. Introduction
24
Le cinquime chapitre prsente les diffrentes mthodes dacquisition automatique de traductions, partir du web, quil sagisse de construction de corpus parallles ou dextraction dinformations partir du Web.
Le sixime chapitre correspond notre premire phase de traduction, celle des combinaisons lexicales compositionnelles non polysmiques, du type de :
guitare lectrique > electric guitar
Cette phase est base sur la prise en compte des frquences des traductions candidates sur le Web.
Le septime chapitre dcrit la phase suivante de notre mthodologie, qui traite des traductions compositionnelles polysmiques, comme dans lexemple :
appareil mnager > household appliance
Cette phase est principalement base sur la comparaison de mondes lexicaux sur le Web. Nous prsentons dabord les diffrents aspects thoriques lis la construction de mondes lexicaux (isotopie smantique, reprage thmatique, etc.), puis nous dtaillons notre mthodologie.
Le huitime chapitre constitue la dernire phase de notre mthodologie, qui concerne la traduction de combinaisons lexicales non compositionnelles et de mots techniques non recenss dans des ressources dictionnairiques traditionnelles, comme dans les exemples respectifs :
acide folique > folic acid caisse claire > snare drum
Aprs quelques rflexions thoriques sur la notion de compositionnalit, nous dtaillons cette dernire phase.
1. Introduction
25
Enfin, le neuvime chapitre consiste en une valuation dtaille des rsultats, de faon quantitative (en nombre de combinaisons correctes obtenues), et qualitative, en termes de difficults de traduction et de problmes rsolus. Nous faisons enfin le point sur les apports constats de notre mthode ainsi que de lutilisation du Web au sein de notre tude et nous parlons galement des limites et des perspectives dvolution.
26
Chapitre 2.
pour la traduction
2.1 Introduction
La notion de mot est une notion empirique dont les contours sont flous et difficiles dfinir, au-del du critre graphique. Les tentatives de thorisation du mot ont suscit (et suscitent encore) de vifs intrts chez les linguistes qui lont rejet au profit dautres termes (Lon, 2001). Dun point de vue pratique, les applications en Traitement Automatique des Langues qui ncessitent lidentification dunits lexicales doivent envisager des units qui ont une valeur syntaxique et smantique. Le domaine de laide la Traduction Automatique nchappe pas la rgle. Un aspect majeur consiste en lidentification des units lexicales, dont le reprage de mots spars par un espace nest pas satisfaisant. Une reconnaissance errone dune association idiomatique par le systme conduit des rsultats qui gnent la comprhension, provoquant parfois des contre-sens. Ainsi, le traducteur en ligne Systran1 propose la traduction anglaise littrale de feu rouge :
(1) feu rouge > red light
http://www.systransoft.com/
27
Cette traduction est incomprhensible pour un anglophone, parce quelle ne doit pas tre compositionnelle : la traduction correcte est traffic light (littralement feu de lumire). Audel des phnomnes idiomatiques, la polysmie1 ou lhomonymie des units lexicales constitue une difficult centrale en Traduction Automatique. Par exemple, le nom appareil est fortement polysmique2. La slection du nom cible ne peut tre effectue sans connatre son usage. Pour revenir Systran, de nombreuses erreurs en Traduction Automatique sont dues une absence de dsambigusation lexicale :
(2) appareil mnager > domestic machine (3) appareil digital > digital apparatus
Pourtant, les co-occurrents (ici mnager et digital) sont un indice dsambiguisateur fort qui pourrait tre exploit pour gnrer la traduction adquate. Une solution aux problmes didiomatisme et dambigit lexicale, consiste en la cration de vastes lexiques dquivalences bilingues du type de3 :
(1) feu rouge > traffic light (2) appareil mnager > household appliance (3) appareil digital > digital camera
La polysmie dsigne le fait quune unit lexicale ait plusieurs sens, entre lesquels il existe un lien tymologique. Dans le cas de lhomonymie, diffrents sens sont attribus la mme forme graphique, mais il nexiste pas de lien. Dans le cadre de nos travaux, nous ne prenons pas en compte cette distinction, et parlons de polysmie de faon indiffrencie. Dans notre dictionnaire bilingue Collins Pocket, 12 traductions de appareil sont recenses, ce qui montre que ce terme est polysmique (Dagan et al., 1991).
3 2
Ce problme a t abord ds les dbuts des recherches en Traduction Automatique (Bar-Hillel, 1955, Pottier, 1962c), mais les moyens informatiques sommaires de lpoque ne permettaient pas de traiter le nombre de donnes que nous pouvons envisager de nos jours.
28
Les units lexicales complexes forment une unit syntaxique. Les transformations syntaxiques sont limites, mais toutes les units lexicales complexes ne sont pas compltement figes et contiges, ce qui accroit la difficult de leur traitement automatique :
(1) feu rouge > *feu trs rouge1 feu rouge > le feu est rouge
Ces units lexicales complexes forment une unit smantique, car elles renvoient, le plus souvent, un rfrent unique et le sens nest pas dcomposable. Elles doivent tre envisages dans leur globalit et tre recenses en tant quunits de la langue. Il existe des milliers dunits lexicales complexes au sein de chaque langue, et une tche manuelle est impossible, il faut proposer des moyens dextraction automatique. Malgr une littrature abondante sur la combinatoire lexicale, les contours restent flous et la terminologie disparate. Les units lexicales complexes posent des problmes dfinitoires, de par leurs caractristiques fluctuantes. Les critres dfinitoires ne font pas lunanimit et des exemples prototypiques sont envisags (Williams, 2001). Nous distinguons deux types dunits lexicales complexes, les locutions (ou termes complexes) qui sont des units lexicales figes telles que appareil mnager et les collocations, qui sont semi-figes telles que caf noir. Cette distinction ntablit pas des frontires nettes et les critres de dfinition ne sont pas gnralisables lensemble de chaque classe.
Ce chapitre prsente un tour dhorizon des aspects thoriques du traitement des units lexicales complexes, dans une perspective de traduction. Aux Etats-Unis, dans les annes 1950-1960, les recherches en Traduction Automatique nont pas mis laccent sur lanalyse des
1
29
combinaisons lexicales (Lon, 2001). Certains travaux ont toutefois nonc le problme dun traitement dunits lexicales complexes. Malgr la place dominante de linformatique, les proccupations de Bar-Hillel, premier chercheur en Traduction Automatique, sintresse la traduction dunits lexicales complexes et montre les prmisses de proccupations lexicologiques (2.2). Par exemple, une unit lexicale complexe peut se traduire par une unit lexicale simple :
(4) appareil photographique > camera (5) pomme de terre > potatoe
Les recherches en Traduction Automatique en France, plus tardives, ont conduit des linguistes dfinir des units lexicales. Ces proccupations tant pour la mcanisation du vocabulaire que pour la Traduction Automatique, ont fait merger une terminologie nouvelle, disparate, mais rvlatrice de questionnements fondamentaux pour lautomatisation de la traduction (Lon, 2001, 2004) (2.3). Aprs un aperu des recherches en Traduction Automatique dans les annes 1950-1960, pour les traditions amricaine et franaise, sous langle des proccupations du traitement dunits lexicales, nous dfinissons notre terminologie. Nous dcrivons le phnomne des locutions et des termes complexes (2.4). Au-del du figement complet, les units lexicales prfrentielles constituent une aide pour la dsambigusation lexicale en traduction, nous abordons les collocations (2.5). Les frontires entre les deux phnomnes restent floues et nous concluons par une approche comparative et graduelle (2.6). Malgr les diffrences de critres dfinitoires, il arrive que nous ayons parler des deux catgories de faon indiffrencie. Nous parlons dunit lexicale complexe, comme catgorie hyperonyme regroupant les classes des locutions et des collocations.
30
linformatique (ibid.). Lapproche est influence par le contexte de la seconde guerre mondiale, o des efforts avaient dus tre fournis en cryptographie. En 1947, Waever compare le processus de traduction un processus de chiffrement. Un texte traduit en russe est vu comme un chiffrage de sa version anglaise laide dun code particulier :
Also knowing nothing official about, but having guessed and inferred considerable about, powerful new mechanized methods in cryptography methods which I believe succeed even when does not know what language had been coded one naturally wonders if the problem of translation could conceivably be treated as a problem of cryptography. When I look at an article in Russian, I say : This is really written in English, but it has been coded in some strange symbols. I will now proceed to decode.
Figure 3.
Bar-Hillel, philosophe logicien, premier chercheur en Traduction Automatique au MIT (Massachusetts Institute of Technology), en 1951, constitue une exception. Dans le premier recueil de travaux en Traduction Automatique de 1955, il sintresse aux units lexicales complexes dont la traduction ne peut tre littrale et propose une dfinition de la notion d idiome . Il cite lexemple de red herring en anglais qui se traduit par une forme graphique en allemand, Finte2. Selon lui, un idiome est un bloc de mots qui fonctionne comme une unit et dont la traduction ne peut tre littrale3 :
An expression in a given language L is idiomatic within L, with respect to a given monolingual dictionary and a given list of grammatical rules if, and only if, none of the word sequences correlated to the given expression by the dictionary and the list of rules is (sufficiently) synonymous with it.
4 mars 1947. Fausse piste en franais. Greimas (1960) se rfrera Bar-Hillel au sujet de la problmatique de traduction des expressions idiomatiques
31
Les squences ne pouvant tre traduites de faon littrale, malgr des rgles de transformations morpho-syntaxiques, sont des idiomes qui doivent tre recenses. Bar-Hillel (1955) envisage lajout dun dictionnaire dquivalences didiomes au sein des systmes de Traduction Automatique, en amont des dictionnaires traditionnels. Les rgles
transformationnelles insrer dans les systmes selon Bar-Hillel (1955) seraient de deux ordres :
Bar-Hillel (1955) aborde les prmisses du problme des connaissances smantiques et pragmatiques pour la traduction, qui fera lobjet dun rapport quelques annes plus tard. Pour reprendre lexemple de red herring, il y a un usage en allemand o la traduction nest pas finte mais roter Hering (traduction littrale), savoir lusage UVRE dART2. Afin de connatre lusage de red herring et la traduction adquate, il faut disposer de connaissances smantiques et pragmatiques que lon ne peut esprer dune machine. Le problme de lambigit lexicale pour la traduction a t soulev tt. En 1949, Waever introduit le besoin de dsambigusation lexicale pour la tche automatise de traduction. Il est impossible pour un lecteur daccder au sens dun mot lorsquil est dnu de tout contexte. Lorsquon lui donne accs son voisinage, lambigut lexicale nest plus prsente. Il prconise un processus qui dtermine le sens dun mot, en prenant en compte son contexte immdiat, dans
Il sagit de la traduction littrale, en allemand, de langlais, red herring. Cette usage fait rfrence une peinture de Marc Chagall, red herring. Dans cet usage, une traduction littrale
32
une fentre de deux mots (contexte gauche et contexte droit). Dans son Memorandum, il envisage un recensement de toutes les squences possibles de digrammes ou de trigrammes. Hormis quelques exprimentations (Kaplan, 1950), la mthode prsente par Weaver na pas obtenu de succs cause des moyens techniques sommaires de lpoque, problme reconnu par Weaver (1955) (Lon, 2001) :
It would hardly be practical to do this by means of a generalized dictionary which contains all possible phases 2N +1 words long : for the number of such phases is horrifying, even to a modern electronic computer.
Ces problmes nont pu tre surmonts lpoque. En 1960, Bar-Hillel publie un rapport qui met en lumire les difficults que pose la traduction, tant sur le plan technologique (la technologie informatique de lpoque tait trs sommaire) que linguistique. Dans son rapport, il met en avant la sous-estimation des connaissances contextuelles et encyclopdiques mises en jeu dans la traduction. Le clbre exemple concerne le terme polysmique anglais pen dans les deux phrases :
(1) The box is in the pen (la bote est dans lenclos) (2) The pen is in the box (le stylo est dans la bote)
Afin de traduire le terme pen, il faut disposer de connaissances gnrales sur le monde et cette difficult avait t sous-estime. Cette valuation, venant du premier chercheur recrut dans le domaine, aura un fort impact ngatif dans la communaut scientifique. En 1964, ladministration amricaine commande un rapport, le rapport ALPAC (Automatic Language Processing Advisory Commitee) qui tablit un constat dchec sur les recherches en Traduction Automatique et met fin aux financements et une majeure partie des recherches dans le domaine.
33
Lexies simples :
pierre chaise
Nous parlons uniquement des principaux courants thoriques mis en rapport avec les dbuts de lautomatisation
du langage en France.
34
Lexies composes :
bateau-mouche sous-chef cheval-vapeur
Lexies complexes :
chemin de fer pomme de terre prendre la mouche
Les critres didentification sont de divers ordres. Dun point de vue smantique, le rfrent est stable et unique. Dun point de vue syntaxique1, aucune modification nest possible. Du point de vue interlingue, une lexie simple peut tre traduite par une lexie complexe ou inversement2. Seule lidentification des lexies complexes pose une difficult pour la Traduction Automatique, puisquelles ne sont pas reprables par un indice graphique (Lon, 2004a). La distinction automatique dune lexie complexe davec un syntagme libre est une tche complique, car les aspects formels sont les mmes, comme dans les exemples :
(1) cheval de Jean (2) cheval de course
Lanalyse des lexies chez Pottier laisse merger un dbut de traitement syntaxique, en proposant une
catgorisation qui sapparente la notion de tte en grammaire syntagmatique (Lon, 2004a). Par exemple, plaque tournante est considre comme un substantif parce que cest la catgorie hirarchiquement suprieure (ibid.).
2
Nous retrouvons la problmatique initialement souleve par Bar-Hillel (1955) aborde dans la section 2.1.
35
Dun point de vue morpho-syntaxique, les exemples (1) et (2) sont quivalents ( OM-PREPOM). Pourtant, lexemple (1) constitue une association libre, tandis que lexemple (2) est une lexie complexe. A mi-chemin entre ces deux types de combinaisons, il existe des zones dincertitude sur lesquelles nous reviendrons (ibid.). Selon Pottier, des critres statistiques permettent de dterminer un degr de lexicalisation (ibid.)1.
Toutefois, pour Benveniste, les synapsies telles que machine coudre sont diffrencier des formes graphiquement soudes, quil nomme conglomrs (du type de justaucorps), ces conglomrs incluant galement les mots-composs au sens traditionnel (timbre-poste) (ibid.). Les synapsies sont proches des lexies de Pottier, mais laccent est davantage port sur la structure syntaxique interne des synapsies (Lon, 2004a). Une synapsie est considre comme la conversion nominale dun nonc prdicatif (ibid.) :
il garde un asile de nuit > gardien dasile de nuit 2
La question de la lexicalisation avait dj t aborde par Bally (1932) (Lon, 2004a). Cette proposition avait dj t aborde dans le Trait de la formation des mots composs de Darmesteter
(1875).
36
Benveniste (1966) dcrit la liste des traits caractristiques des synapsies (Drouin, 2002) :
Ce qui caractrise la synapsie est un ensemble de traits dont les principaux sont : 1 la nature syntaxique (non morphologique) de la liaison entre les membres; 2 lemploi de joncteurs cet effet, notamment de et ; 3 lordre dtermin + dterminant des membres; 4 leur forme lexicale pleine, et le choix de tout substantif ou adjectif; 5 labsence darticle devant le dterminant; 6 la possibilit dexpansion pour lun ou lautre membre; 7 le caractre unique et constant du signifi.
Les monmes sont dits libres dans un syntagme, conjoints dans un synthme. Les constituants du synthme ne peuvent pas recevoir de dtermination, comme dans lexemple (Martinet, 1968) :
1
Selon la terminologie de Martinet, un monme est une unit significative minimale, qui nest pas
37
Martinet (1968) aborde des cas o la distinction entre syntagme et synthme pose une difficult. Il cite un exemple qui nappartient pas la mme catgorie en fonction de son emploi :
(1) de jeunes filles sont arrives (2) des jeunes filles sont arrives
Dans la squence (1), jeune fille correspond un syntagme, dans lequel ladjectif jeune modifie le nom fille. Dans la squence (2), il sagit dun synthme, cest--dire un substantif compos (Martinet, 1968)1.
Nous proposons le tableau rcapitulatif, inspir de Lon (2004a) afin de montrer les similitudes et les divergences entre ces courants thoriques. Les lexies de Pottier et les
Martinet (1967) montre que larticle indfini pluriel est de devant un pithte, et des devant un
substantif.
38
synapsies de Benveniste sont proches, tandis que le synthme de Martinet est une notion plus large :
Indsirable
Pomme de terre
Mur du son
Ministre du commerce
Benveniste
Synapsie
Martinet
Synthme
Synthme
Synthme
Synthme
Figure 4.
2.4
2.4.1 Locutions
Si la notion de mot est rejete par les linguistes, cest parce que ses contours sont difficiles cerner. Dune part, doit-on considrer que les formes suis, es, et est constituent trois mots (Polgure, 2003)? Dautre part, il existe des expressions linguistiques complexes qui, bien que constitues de plusieurs units graphiques, forment une unit lexicale, comme pomme de terre qui renvoie un rfrent. Dun point de vue diachronique, pomme de terre provient de trois units productives mais ces units connaissent un figement lexical. Sur laxe paradigmatique, pomme de terre peut commuter avec une unit lexicale simple telle que patate. La terminologie qui dsigne les units lexicales complexes figes est disparate et a connu un dveloppement foisonnant :
39
Expression fige, Expression idiomatique, Figement, Unit polylexicale, Mot compos, Lexie complexe, Locution, Unit phrasologique (Bally, 1909), Synapsie (Benveniste, 1967), Phrasme complet (Melcuk, et al., 1998), Unit polylexmatique (Corbin, 1997)1
Nous empruntons la terminologie de Polgure (2003) et parlons de locution afin de dfinir les units lexicales complexes figes, en langue gnrale. Selon Polgure (2003), une locution dsigne une lexie2 compose d expressions linguistiques complexes :
Une locution est une lexie regroupant des expressions linguistiques complexes que seule distingue la flexion.
Une locution forme un tout lexical et les lments qui la constituent perdent leur autonomie de fonctionnement : il est impossible dinsrer de nouveaux lments au sein dune locution (ibid.). Polgure (2003) recense les types de locutions :
Voir Martins-Baltar (1997) pour une tude de la terminologie des expressions figes (Grossmann et Tutin,
2003).
2
Pour Polgure (2003), une lexie aussi appele unit lexicale, est un regroupement 1) de mots-formes ou 2) de
constructions linguistiques que seule distingue la flexion. Dans le premier cas, il sagit de lexmes, dans le second cas, de locutions .
40
Les locutions sont dotes dune autonomie de fonctionnement et dun degr de cohsion (toutefois variable en fonction du type de locution) (ibid.). Du point de vue de linterprtation smantique, le sens global de la locution ne correspond pas la somme des sens des lments qui la constituent (non-compositionnalit) comme dans lexemple de (ibid.) :
fruit de mer
Mme si le sens peut tre interprt de faon mtaphorique, il ne sagit pas dun fruit qui pousse dans la mer (ibid.). La non-compositionnalit est dautant plus perceptible que lon confronte les locutions au phnomne de traduction. Souvent, la traduction dune locution nest pas littrale (ibid.) :
fruit de mer > seafood
Une locution est associe un sens donn, au mme titre quune unit lexicale simple, et doit bnficier du statut dunit (ibid) :
41
Units lexicales
Figure 5.
La thorie gnrale (ou traditionnelle) de la terminologie a t fonde par Wster, ingnieur autrichien, la fin des annes trente, dans la mouvance du Cercle de Vienne. Elle dfinit le terme comme le reprsentant linguistique dun concept dans un domaine de connaissances (Felber, 1987) (Bourigault et Jacquemin, 2000). La vision adopte est normalisatrice et prsente quelques limites (Drouin, 2002). Elle pose une relation biunivoque avec la notion quil dsigne, cest--dire quun terme ne correspondrait qu une seule notion et que chaque notion ne pourrait tre dsigne que par un seul terme. La biunivocit est une utopie : il existe des phnomnes de polysmie et de synonymie qui la remettent en cause. Lorsquun terme est polysmique, il renvoie plusieurs rfrents, y compris au sein dun mme domaine. Par
42
exemple1, dans le domaine de lagriculture, le terme agneau peut dsigner lanimal sur pied ou la viande dagneau . Un terme peut connatre des synonymes, et dautres termes peuvent renvoyer une mme notion. Par exemple1, dans le domaine de linformatique, les termes logiciel, programme et software peuvent tre considrs comme synonymes. Pour la thorie gnrale de la terminologie, les notions sont considres comme des entits conceptuelles, et cet aspect prime sur leur reprsentation linguistique par le biais des termes, considrs comme de simples variables (Wster, 1981) (Drouin , 2002). La dmarche adopte est onomasiologique : elle consiste partir de la notion pour trouver le terme qui lui correspond. Nous prfrons favoriser laspect textuel des termes (dmarche smasiologique). Enfin, lanalyse se situe traditionnellement au niveau du terme seul. Cette vision semble rductrice, car elle ne sintresse pas au niveau syntaxique se situant au-del du mono-terme. Dans nos travaux, nous montrons que les units lexicales complexes sont fondamentales.
http://wall.jussieu.fr/~cjuilliard/cours3_deb.htm
43
Les phrases (1) et (2) contiennent la mme structure syntaxique ( OM-PREP- OM), mais seule la phrase (1) contient un terme complexe. Les limites de dcoupage ne sont pas toujours videntes identifier. A la gauche du terme complexe, la prsence dun dterminant constitue un indice de limite efficace. Mais la limite reste plus dlicate fixer du ct droit (Guilbert, 1965, Boulanger, 1979, Drouin, 2002). Les structures syntaxiques sont parfois rcursives et il nest pas possible de dcrire dune faon exhaustive de tels phnomnes de rcursivit. Une autre difficult concerne les ambiguts de dcoupage. Considrons le syntagme suivant (Kocourek, 1991) (Drouin, 2002):
Gardien dasile de nuit
Les critres formels ne permettent pas de pallier ce type dambigut. Un indice pourrait tre des caractristiques graphiques, telles que la prsence de guillemets, ou encore typographiques (gras, italique, etc.). Toutefois, ces indices sont faiblement prsents par rapport aux cas dambigut.
44
lexicalisation : il nest pas possible dinsrer un nouvel lment au sein des termes complexes (Guilbert, 1965) (Drouin, 2002).
Critre quantitatif
Un autre critre concerne la frquence dapparition de loccurrence dans les textes. Les calculs de frquence doivent prendre en considration non seulement la frquence de loccurrence, mais lenvisager en fonction de sa rpartition dans lensemble des textes.
Critre pragmatique
Certains auteurs proposent de dcrire le terme en apprhendant sa caractristique pragmatique : un terme napparat que dans des contextes prcis, gnralement dans des textes de spcialit (Drouin, 2002). Selon Pearson (1998), les termes sont utiliss dans certaines situations de communication (Drouin, 2002) :
(1) expert/expert (2) expert/initi (3) pseudo-expert/non initi (4) enseignant/lve
De tels contextes sont propices lutilisation dune terminologie relativement stable (ibid.).
Nous empruntons Daille (1995) un rcapitulatif des critres didentification du terme complexe :
Dun point de vue formel, il doit appartenir une structure morpho-syntaxique prcise.
technique.
45
Dun point de vue statistique, il doit apparatre dans les documents textuels un nombre
significatif de fois.
Aucun des critres ne permet dtre compltement systmatis. Ils doivent tre envisags dans leur globalit (Drouin, 2002), mais le statut terminologique de lunit ne peut jamais tre une certitude, sans une tape de validation humaine. Le critre essentiel semble tre la relation univoque du terme avec lobjet (Bourigault, 1994). Nous mettrons par la suite ces critres en confrontation avec un autre phnomne de combinaison lexicale prfrentielle dont les caractristiques sont proches, les collocations.
2.5 Collocations
Certains mots prsentent des affinits et apparaissent frquemment ensemble, sans constituer des locutions figes. Nous parlons de caf fort en franais, de strong coffee en anglais. Ces combinaisons lexicales, bien que prfrentielles, ne sont pas totalement figes et peuvent parfois subir des modifications syntaxiques :
Un caf trs fort Ce caf est fort
Ce type daffinit constitue un phnomne idiomatique, qui nest pas uniquement dtermin par le smantisme des constituants et qui varie dune langue lautre. Afin dexprimer le mme sens, nous ne pouvons pas employer une autre combinaison lexicale dont le smantisme correspondrait :
* powerful coffee
46
La co-occurrence nest pas acceptable dun point de vue idiomatique. Les collocations1 constituent un phnomne non ncessairement contigu, avec un degr de figement lexical moins contraint que pour les locutions. Si les locutions doivent avoir le mme statut syntagmatique quune lexie simple, il nen va pas de mme pour les collocations, qui doivent tre recenses partir de la tte smantique (on parle de la base dune collocation et de collocatif pour son co-occurrent, pour reprendre la terminologie dHausmann (1989, 1997)). Il est parfois possible de substituer un lment dune collocation par un synonyme, mais la combinaison est ressentie comme moins (ou pas du tout) approprie (Nerima et al., 2006) :
exercer vs. pratiquer une profession
Les collocations constituent un intermdiaire entre les expressions figes et les combinaisons libres (Tutin et Grossmann, 2002)2. Elles sont souvent considres comme transparentes en rception (le sens se devine ) alors que pour un locuteur non-natif, le choix des termes produire ne va pas de soi (ibid.). Avant danalyser les critres dfinitoires des collocations, nous introduisons les deux tendances principales qui envisagent le phnomne.
Le terme de collocation est dusage courant en anglais, mais dutilisation rcente en franais (Grossmann et
Tutin, 2003). La littrature prsente une terminologie disparate et souvent floue. Certains parlent de prfrences lexicales (Wilks, 1975), de restrictions de slection (Katz et Fodor, 1964), de semi-phrasme (Melcuk et al., 1995, Melcuk, 1998) ou encore de collocations (Benson, 1990, Smadja, 1993, Cruse, 1986).
2
Melcuk (2003) parle galement de locution semi-fige afin de mettre en valeur cet aspect
intermdiaire .
47
Ce phnomne a t tudi dans le cadre dune premire approche, contextualiste : le sens dun mot doit tre tudi en fonction des mots avec lesquels ils co-occurrent. Cette approche suit la tradition de Firth, puis de fonctionnalistes anglais tels que Halliday et Sinclair. La notion de co-occurrence habituelle nest toutefois pas sans poser des difficults. Que doit-on entendre par habituel, frquent (Williams, 2001) ? Le critre de la frquence se mesure dans de nombreux travaux par lapplication de formules statistiques partir de vastes corpus, favorise par la disponibilit de textes au format lectronique (Church et Hanks, 1990, Smadja et McKweown, 1991, Smadja, 1993). Lide est de collecter les combinaisons lexicales qui apparaissent ensemble plus frquemment que par pur hasard (Smadja, 1993). Il existe de nombreuses mesures dassociation permettant didentifier les co-occurrences les plus frquentes dans une collection de textes1. Les deux courants les plus employs sont le tscore et linformation mutuelle. Lalgorithme t-score mesure le degr dassociation entre deux lments, en faisant merger les combinaisons de frquence leve (Clear 1993, Dubreil, 2008) :
by identifying frequent and very reliable collocations, offers the lexicographer a semantic profile of the node word and a set of particular fixed phrases, grammatical frames and typical stereotyped combinations
Linformation mutuelle fait merger des co-occurrences aux frquences plus faibles (Church et Hanks, 1990, Dubreil, 2008) :
compares the probability of observing x and y together (the joint probability) with the probabilities of observing x and y independently (chance)
Mme si des outils statistiques peuvent tre utiles pour lextraction automatique, le seul critre statistique est discut afin de dcrire le phnomne collocatif. Les rsultats sont dpendants de paramtres tels que la taille du corpus (Nerima et al., 2006) ou le type de mesure adopt (Williams, 2001). Certaines collocations napparaissent quun nombre rduit de fois dans les corpus (Thoiron et Bjoint, 1989). A lchelle du Web, la collocation lire un
Daille (1994) tablit une liste des diffrents types de mesures adoptes.
48
livre apparat 227 000 fois dans les pages franaises indexes par le moteur de recherche Yahoo1. La collocation lire une revue apparat 2140 fois. Doit-on conclure que lire un livre est plus remarquable? Mme si le critre de la frquence est important, il nest pas suffisant afin danalyser les contraintes lexicales. Selon Williams (2001), les mesures statistiques permettent de collecter des collocations candidats qui doivent ensuite passer par une validation humaine. Haussman (1997) dclare que tout est idiomatique , parce quil est dlicat de fixer une limite entre les combinaisons significatives et les combinaisons banales et que cette limite se situe certainement sur un continuum (Williams, 2001). Si Clas (1994) affirme quune collocation est une unit de la langue , cest parce quil existe des affinits smantiques entre les mots que le seul critre de frquence ne dcrit pas.
Cette approche met laccent sur les paramtres syntaxiques et smantiques des collocations. Tutin et Grossmann (2002) montrent que cette dfinition ne permet pas de rsoudre le
49
caractre htrogne des phnomnes collocatifs et proposent une typologie plus fine que nous dcrivons dans la section (2.6).
Critre de larbitraire
Benson (1990) parle d An arbitrary and reccurrent word combination , afin de souligner le caractre arbitraire des collocations. Selon Mel'cuk et al. (1995), il sagit dune association de mots conventionnelle qui doit tre apprise telle quelle, et quil nest pas possible de prvoir partir du sens des mots qui la composent. Malgr le caractre transparent de certaines collocations, ainsi quune part de motivation smantique1, les collocations ne sont pas prdictibles2. Par exemple, la pluie est torrentielle, tandis que les prcipitations ne le sont pas (Tutin et Grossmann, 2002), la preuve en est la diffrence entre les langues. Ce nest quen les comparant que nous saisissons lampleur du phnomne (Hausmann, 1989) : le sens des constituants est altr dans des contextes lexicaux prcis. Par exemple, la pluie est forte en franais, mais lourde (=heavy rain) en anglais (Melcuk, 1997). Cette caractristique met en vidence limportance dun recensement des collocations : un apprenant qui ne matrise pas une langue trangre ne dispose daucun moyen pour prdire ces dernires. Il en va de mme pour la Traduction Automatique : on ne peut gure esprer de telles connaissances
1
Certains travaux ont montr quil est possible de gnraliser des contraintes de slection des ensembles de
Il faut exclure du caractre arbitraire laspect syntaxique, car les collocations suivent des patrons morpho-
syntaxiques prcis.
50
idiomatiques dune machine. Laspect arbitraire est un indice quant au degr de signification des collocations, et permet de distinguer celles qui se traduisent librement, de celles qui ncessitent une connaissance idiomatique. Les slections de restriction collocationnelles peuvent varier dune langue lautre, et une collocation dans une langue peut tre un syntagme libre dans une autre (Williams, 2001).
Critre de la transparence
Malgr le caractre arbitraire des collocations, le sens reste interprtable (Cruse, 1986, Hausmann, 1989). Cet aspect ne peut pas tre gnralis tous les cas. Certaines collocations ne sont pas totalement transparentes telles que peur bleue ou colre noire (Tutin et Grossmann, 2002). Les collocations ne conserveraient pas une totale autonomie de sens et seraient majoritairement semi-compositionnelles : le sens du mot-cl reste le mme, mais le co-occurrent acquiert un sens diffrent (LHomme, 1998). Il est prfrable de dissocier la production et la rception dune collocation : le sens se devine , tandis quil est impossible pour un locuteur non-natif de produire la collocation adquate. Pour la Traduction Automatique, ce critre compositionnel est essentiel. Par exemple, peur bleue ne peut pas tre traduite de faon littrale, mais se traduit par bad fright ou bad scare.
Critre binaire
Les collocations sont considres, le plus souvent, comme tant constitues de deux lments, dont le statut nest pas le mme : il y a collocation lorsquun locuteur, voulant produire un sens donn, va slectionner un co-occurrent de faon non libre, partir dune base donne.
51
nest pas libre, mais apparat comme une co-occurrence restreinte. A partir du choix de la base, seuls certains co-occurrents peuvent se combiner. Ainsi, pour produire le sens intense , associe la lexie peur, le co-occurrent va tre bleue.
la collocation grammaticale (ou colligation) est dfinie comme la co-occurrence dun terme dominant, tel quun nom, adjectif, participe ou verbe, et dune prposition, comme par exemple (Williams, 1999) :
depend on dependence on
Les collocations lexicales combinent plusieurs mots pleins . Elles peuvent se prsenter sous diffrentes structures syntaxiques : verbe et nom, adjectif et nom, nom et verbe, nom et nom, adverbe et adjectif, adverbe et verbe.
52
Zone phonologique
Zone smantique
Zone de combinatoire :
Syntaxique ;
Lexicale restreinte : le DEC indique les substitutions smantiques possibles sur le plan paradigmatique (synonymes, antonymes, etc.). La modlisation de ces informations smantiques sappuie sur la notion de Fonction Lexicale (FL) propose par (Melcuk, 1997) :
Lexpression [dun] sens peut tre dcrite par une fonction (au sens mathmatique du terme) f qui associe, tout x pour lequel ce sens peut tre exprim, tous les y possibles : f(x) = y.
Par exemple, pour la fonction intensit (trs), nous prsentons trois lexies x laquelle sont associes des co-occurrents :
53
tres(malade) = {trs, gravement} tres(pleurer) = {amrement, chaudes larmes, comme une madeleine} tres(pluie) = {grosse, diluvienne, violente}
La lexie x est nomme largument de f, et lensemble de ses co-occurrents constitue sa valeur. Dans lexemple cit, la Fonction Lexicale est modlise par trs. Les arguments sont malade, pleurer et pluie. Les valeurs sont trs, gravement, amrement, chaudes larmes, etc. Dans la thorie Sens-Texte, Melcuk (1997) propose un modle formel de la description smantique dune langue. Il distingue deux niveaux de modlisation des phnomnes smantiques :
- Choix lexicaux paradigmatiques : Melcuk (1997) dcompose le sens des lexies. Prenons la phrase suivante :
Je crois que Pierre est venu, mais je nen suis pas certain.
Ces rgles formelles constituent des dfinitions lexicographiques des lexies cites, ce sont des dcompositions smantiques, ou des formules molculaires du sens (ibid.).
- Choix lexicaux syntagmatiques : il sagit des collocations. La lexicographie explicative et combinatoire sappuie sur lide que les phnomnes de co-occurrence font appel un nombre restreint de sens gnralisables. Par exemple, le sens bon (tel que le locuteur lapprouve) ne sexprime pas dune faon libre, mais dpend de la lexie utilise (ibid.) :
Bon(conseil) = prcieux Bon(temps) = beau
54
Toutes les expressions qui slectionnent cette notion smantique connaissent des contraintes qui en font des collocations. Ces sens gnraux constituent des FL. Les FL prsentent deux proprits essentielles (ibid.) : elles sont peu nombreuses (une soixantaine) et elles sont universelles , car elles existent dans toutes les langues. Par ailleurs, lanalyse smantique ne doit pas tre trop pousse , trop nuance ( Melcuk, 1988) :
Le rglage de cet instrument, cest--dire le degr de prcision ou de rsolution exig, doit tre appropri la tche ; cela veut dire, entre autres, que le chercheur ne doit pas tre trop prcis dans sa recherche des nuances smantiques.
La thorie de Melcuk (1997) prsente nanmoins certaines limites. Bien que certaines FL soient gnralises, il nen va pas de mme en ce qui concerne les langues de spcialit, et certains cas semblent plus isols et de fait, moins efficaces . Fontenelle (1996) souligne que :
Pour formaliser le discours spcialis utilis pour parler dun terme donn, les thories de Melcuk ne sont probablement pas les plus appropries parce quelles ne permettent de coder que les relations standard de la langue gnrale et les langues de spcialit ont le plus souvent recours des relations trs spcifiques.
Ensuite, cette classification peut se prsenter utile dun point de vue scientifique, mais elle ne se rvle pas trs accessible pour un utilisateur. Cest pour cette raison que deux versions simplifies telles que le DAFLES (Verlinde et al., 2003) et DiCo (Polgure, 2000a, 2003, 2005) ont t proposes. Dans cette ligne, le projet intitul le Lexique Actif du Franais (LAF) (Polgure, 2000b) vise une vulgarisation du DEC pour le grand public.
55
Projet Papillon
Le projet Papillon1 est une ressource collaborative qui vise crer un environnement multilingue de recherche dictionnairique en ligne, comprenant entre autres l'anglais, le franais, le japonais, le malais, le lao, le tha et le vietnamien. Il sappuie sur des ressources existantes, lobjectif tant de rassembler un maximum de ressources de faon cooprative. La base lexicale distingue trois niveaux diffrents pour la gestion des dictionnaires existants : les limbes, le purgatoire et le paradis (Mangeot, 2002). Les limbes sont constitues de dictionnaires stocks dans leur format original. Le purgatoire ne contient que des dictionnaires au format XML mais ayant leur structure dorigine. Le paradis contient les volumes consituant le dictionnaire Papillon. La macrostructure du dictionnaire est une structure pivot avec un volume monolingue pour chaque langue et un volume pivot au centre (Mangeot et al., 2003). La microstructure des articles est base sur la lexicographie explicative et combinatoire issue de la thorie sens-texte (Melcuk, 1997) (ibid.). Voici un exemple de traductions de collocations pour lentre appareil du franais vers langlais :
Figure 6.
http://www.papillon-dictionary.org/
56
Les deux principaux degrs de figement entre les locutions et les collocations ont t mis en vidence pour la premire fois par Bally (1909), sous lappellation d units phrasologiques (locutions) et de groupements usuels (collocations) (Grossmann et Tutin, 2003). Au-del de cette distinction, Tutin et Grossman (2002) montrent que les critres dfinitoires ne sappliquent pas toute la classe collocationnelle et proposent une typologie plus fine. Les units lexicales complexes doivent tre envisages sur un continuum, plutt que de considrer des frontires nettes pour chaque catgorie. Nous proposons une analyse contrastive de ces phnomnes, en esprant, sinon tablir des frontires nettes, du moins claircir les diffrentes ralits de combinatoire lexicale et proposer une typologie plus fine en fonction des critres de figement et envisager des traitements de traduction adapts.
Lopacit peut-tre totale, cest--dire quaucun des constituants ne conserve son sens habituel (Gross, 1996) :
57
cl des champs
Lopacit peut tre partielle, cest--dire que seul lun des deux constituants perd son sens habituel (ibid.) :
cl anglaise
Les units lexicales complexes ne sont pas, le plus souvent, interprtables en dcomposant le sens habituel de ses lments, mais les caractristiques sont variables. En ce qui concerne les locutions, la combinaison nest jamais totalement transparente, mais il arrive que le sens soit mtaphorique. En ce qui concerne les collocations, Tutin et Grossmann (2002) proposent une typologie en fonction de leur degr de figement et du paramtre de la compositionnalit. Nous empruntons Grossmann et Tutin (2003) une typologie des locutions et des collocations du plus au moins fig.
Dans cette combinaison aucun des lments na conserv son sens habituel.
58
Collocations opaques
Les collocations opaques sont celles dans lesquelles le sens du collocatif prend un sens diffrent que son sens habituel. Lassociation est arbitraire, et seule la base conserve son sens habituel. Sur le plan smantique, la collocation est non transparente (Tutin et Grossmann, 2002) :
peur bleue
Ici, ladjectif bleu ne dsigne pas une couleur mais marque lintensit de la peur (Tutin et Grossmann, 2002). Les collocations opaques sont celles qui sont les plus proches des locutions du point de vue du figement.
Collocations transparentes
En ce qui concerne les collocations transparentes, le sens est interprtable, mais le codage de la collocation nest pas prdictible, comme par exemple (Tutin et Grossmann, 2002) :
faim de loup
59
Mme si le sens de faim de loup est interprtable, une connaissance idiomatique est ncessaire pour produire cette collocation.
Collocations rgulires
Dans le cas des collocations dites rgulires , lassociation est motive et transparente. En gnral, le collocatif inclut le sens de la base ou a un sens trs gnrique, comme par exemple (Tutin et Grossmann, 2002) :
grande tristesse
Les collocations rgulires sont celles qui sont les plus proches des expressions libres. Du point de vue de la traduction automatique, cette typologie peut constituer une aide la classification des phnomnes. Mme si le critre dopacit nest pas le mme entre les langues, il doit tre pris en compte, en intgrant des caractristiques interlingues cette typologie. Cest ce que nous proposons dans notre mthodologie.
60
Le cas des collocations est moins gnralisable et les critres de transformation ne peuvent pas sappliquer lensemble de la classe. Certaines collocations autorisent des transformations syntaxiques proches des syntagmes libres :
Une grande tristesse La grandeur de cette tristesse Cette tristesse est grande
Enfin, certaines collocations nautorisent aucune transformation et sont proches du fonctionnement des locutions :
Une peur bleue *Le bleu de cette peur *Cette peur est bleue
61
Ladjectif pithte bleu modifie le nom pull-over et lui apporte une caractrisation. En revanche, lorsque la squence est fige, elle fonctionne comme un tout et le co-occurrent ne constitue pas une modification. Le critre rfrentiel est un critre dfinitoire qui sapplique lensemble de la classe des locutions. Les locutions ont une dtermination globale, et chaque lment ne peut pas tre dtermin sparment (Gross, 1996). Pour reprendre lexemple de cordon bleu, le rfrent auquel renvoie la locution nest pas un cordon auquel on apporte une modification, mais lensemble de la locution fait rfrence au signifi cordon bleu .
Si la non possibilit de libre actualisation concerne lensemble de la classe des locutions, il nen va pas de mme pour les collocations, o seulement une partie de la classe rpond au critre, qui est plus dlicat utiliser (Tutin et Grossmann, 2002). Tous les collocatifs nattribuent pas la mme valeur rfrentielle la collocation (ibid.). Certains collocatifs ont une valeur qualifiante, comme dans lexemple de (ibid.). :
clibataire endurci
Ladjectif endurci qualifie le substantif clibataire et la valeur rfrentielle de lensemble de la collocation est opposer celle dune locution. Toutefois, il arrive que certains collocatifs aient une valeur typante (ibid.). Reprenons lexemple suivant (ibid.) :
caf noir
Le collocatif noir, bien quil indique une proprit du caf, fait aussi rfrence un type particulier de caf. De telles collocations peuvent tre perues comme des units rfrentielles tandis quelles sont semi-compositionnelles dun point de vue smantique (ibid.).
62
Ces locutions connaissent une opacit smantique, mais une prdication nest pas possible. Dautres locutions connaissent un sens transparent, comme dans le cas de (Gross, 1996) :
fait historique
2.7 Conclusion
Malgr limportance des units lexicales complexes et malgr labondance de la littrature traitant du phnomne, les critres de dfinition des locutions et des collocations ne sont pas gnralisables. Afin de dissocier une collocation dune locution, le degr de figement doit tre envisag sur un continuum. Aux extrmits de ce continuum, deux ples doivent tre distingus :
63
une collocation est constitue dun terme, accompagne dun co-occurrent qui le
Le nom pluie dsigne une notion en mtorologie, quon qualifie comme tant diluvienne.
Ici autan blanc renvoie une seule notion ( savoir le vent ), et ladjectif ne caractrise en rien la couleur du vent mais fait partie intgrante du terme. Toutefois, au-del des cas extrmes , les frontires entre les locutions et les collocations restent floues et il est prfrable denvisager les deux phnomnes sur un continuum, du plus au moins fig :
Locutions
(Zone dincertitude)
Collocations
(Zone dincertitude)
Syntagmes libres
Entre chacune des notions, des zones dincertitude sont prsentes. Une typologie plus fine au sein de chaque classe est ncessaire pour proposer des traitements adapts. Considrons sur un axe les diffrents types de locutions et de collocations en fonction du critre de lopacit smantique, du plus au moins opaque :
64
Le figement et lopacit des units lexicales complexes va constituer un critre essentiel dans notre mthodologie de traduction. Dans le chapitre suivant, nous prsentons les travaux traditionnels de traitement automatique des units lexicales complexes.
65
Chapitre 3.
lexicales complexes
3.1 Introduction
Lacquisition automatique de traductions dunits lexicales complexes se heurtent diffrentes difficults (Morin et al., 2004).
66
Idiosyncrasie
Les collocations, mme lorsquelles conservent une part de motivation smantique, se situent principalement du ct des aspects idiosyncrasiques de la langue, plutt que de celui des rgularits (Grossmann et Tutin, 2003).
Un terme complexe en franais peut tre traduit par un terme simple en anglais, ou inversement :
coup de pied > kick appareil photographique > camera
Parmi les termes complexes, la longueur peut varier (Morin et al., 2004) :
67
Cette difficult est dcrite sous le terme de fertilit dans les travaux de (Brown et al., 1993). Cette caractristique est rarement prise en compte dans les travaux de traduction de termes complexes, une traduction mot mot tant la plus souvent adopte (Morin et al., 2004).
on compositionnalit
La traduction dune unit lexicale complexe nest pas systmatiquement traduite par la somme de ses composants (Melamed, 2001). Par exemple, caisse claire est traduite par kick drum, ou kick nest pas la traduction littrale de claire.
Variations linguistiques
Une mme combinaison lexicale peut se prsenter sous diffrentes formes suite des variations morphologiques, syntaxiques ou smantiques, et doivent tre prises en compte dans le processus de traduction (Morin et al., 2004). Par exemple, les termes complexes amnagement de la fort et amnagement forestier sont traduits par le mme terme anglais forest management.
Trous lexicaux
Il arrive quune unit lexicale au sein dune langue source nait pas une quivalence exacte en langue cible. Par exemple, en anglais, il nexiste pas une traduction littrale de forcer un barrage, la traduction dpend du contexte situationnel :
to drive through a roadblock to run through a roadblock, etc.
68
une extraction monolingue des units lexicales complexes en langue source dune part et en langue cible dautre part.
Dans un premier temps, nous prsentons les techniques dextraction de terminologie monolingue, les principaux courants et les travaux existants (3.2). Si la frontire entre les locutions et les collocations nest pas nette et doit tre envisage sur un continuum, il en va de mme pour la tche dextraction automatique. Les mthodes didentification automatique de locutions et de collocations restent sensiblement les mmes (LHomme, 2001) :
Notons que les cloisons entre extracteurs de collocations et extracteurs de termes ne sont pas tanches : les extracteurs de collocations relvent des termes complexes ; les extracteurs de termes complexes relvent forcment des collocations.
Nous dcrivons ensuite les techniques dalignement, quil sagisse de mthodes partir de corpus parallles ou partir de corpus comparables. Malgr des techniques bien rodes, les corpus parallles restent des ressources rares. Les corpus comparables, plus faciles daccs, prsentent plus de difficults pour mettre les termes en correspondance. Nous prsentons ces mthodes traditionnelles (3.3), avant den montrer les limites et de proposer dans le chapitre suivant une gigantesque base de donnes lexicales exploitable pour lacquisition automatique de traductions, le Web.
69
Parmi les groupes nominaux, des filtres linguistiques et/ou statistiques permettent de dgager un ensemble de candidats-termes. Ces premiers rsultats contiennent du bruit, seul un certain nombre est pertinent :
Groupes nominaux
Candidats termes
Termes
Figure 7.
Les logiciels dextraction terminologique sappuient sur diverses mthodes : on distingue ceux qui sappuient sur des critres statistiques (3.3.1), de ceux bass sur des critres morphosyntaxiques (3.3.2). Nous parlons enfin des mthodes dites mixtes, qui ont recours la fois ces deux critres (3.3.3)2.
Schma de Sta (1995). Nous prsentons les principaux logiciels dextraction automatique de terminologie en franais, mais nous ne
70
Le logiciel MA TEX (Oueslati, 1999, Rousselot et al., 1996) est un outil dextraction terminologique qui sappuie sur le reprage de segments rpts, partir de textes non tiquets.
Les mthodes purement statistiques prsentent toutefois certaines limites (Daille, 1994, Vronis, 2000a). La raret dunits lexicales complexes rend les choix de statistiques dlicats. De plus, les units lexicales complexes semi-figes autorisent des transformations linguistiques qui posent les limites de modles statistiques simples.
connaissance du domaine.
71
sagit gnralement dun nom modifi par un autre terme. Les structures syntaxiques principales sont les suivantes (ibid.) :
Structures syntaxiques Nom + Adjectif Syntagme Prpositionnel (avec nom) Syntagme Prpositionnel (avec verbe) Nom + Nom Combinaison des squences ci-dessus Figure 8.
Exemples Intelligence artificielle Robinet de commande Machine coudre Page Web Temps de conduction auriculaire
Loutil TERMI O est une application pionnire de lacquisition automatique de termes (David et Plante, 1990) (en franais ou en anglais). Ce logiciel est bas sur le reprage de syntagmes nominaux qui constituent des candidats termes. La dfinition des termes se fonde sur les synapsies de Benveniste (1966). Les candidats-termes sont gnrs partir des dpendances entre tte et complment au sein de la structure des syntagmes nominaux extraits par lanalyseur.
FASTR (Filtrage et Acquisition Syntaxique de TeRmes) (Jacquemin, 1997) est un analyseur syntaxique permettant lidentification de variantes de termes partir de corpus, laide dune liste de termes valides fournie en entre. Les variations sont classes selon trois catgories :
LHomme (2001).
72
Variantes syntaxiques :
Mesure de volume et de flux / Mesure de flux
Variantes morpho-syntaxiques :
Flux de sve mesurs / Mesure quotidiennement le flux
Variantes smantico-syntaxiques :
Evaluation du flux / Mesure de flux
SYMO TOS (Velardi et al., 2001) est un environnement proposant des outils afin de reprer des termes simples et complexes partir de corpus, et proposer des concepts associs (Bourigault et al., 2004). Le logiciel SY TEX1 (initialement Lexter) (Bourigault, 1994, Bourigault et Fabre, 2000) est un outil dextraction terminologique qui extrait des candidats termes, partir dun corpus tiquet et dsambigis. Il effectue une analyse syntaxique de surface ddie au reprage et lanalyse de syntagmes nominaux. Les candidats termes extraits se prsentent sous la forme dun rseau.
Lintroduction de connaissances linguistiques est toutefois relativement coteuse, et nest pas indpendante des langues. Divers auteurs ont prsent des approches mixtes, mlant les stratgies statistiques et linguistiques.
http://w3.univ-tlse2.fr/erss/textes/pagespersos/bourigault/syntex.html
73
Le logiciel ACABIT (Automatic Corpus-based Aquisition of BInary Terms) extrait des candidats termes partir dun corpus pralablement tiquet et dsambigis (Daille, 1994, 1999). La mthode est base sur des traitements linguistiques associs des filtres statistiques :
Analyse linguistique : des squences nominales sont extraites du corpus tiquet et sont regroupes sous la forme de candidats termes binaires. Par exemple, rseau de transit satellite constitue deux candidats termes binaires, rseau de transit et rseau satellite. Les termes extraits doivent tre conformes un nombre limit de patrons syntaxiques, du type :
om-Adjectif > Emballage biodgradable om1- om2> Diode tunnel om1 (Det) om2> Assignation la demande om1 de (Det) om2> Protine de poissons om1-Prep(Det)- om2 > Multiplexage en frquence om1 Vinf > Viandes griller
Filtre statistique : les candidats termes sont filtrs au moyen dun calcul statistique, le log-likehood ratio (Dunning, 1993).
XTRACT (Smadja, 1993) est un logiciel dextraction automatique de collocations bas sur des calculs statistiques, ainsi que sur un filtrage linguistique. Loutil est compos de trois modules :
Collocations binaires : une premire phase extrait des couples de mots dont la frquence est leve et dont la distance est fixe.
74
Expansion des collocations : ltape prcdente est rpte de faon itrative afin dacqurir des collocations de plus grande longueur.
Smadja (1993) distingue trois types de collocations : les collocations prdicatives (predicative relations en anglais) du type de make/decision, les syntagmes figs (rigid noun phrases en anglais) comme foreign exchange et les phrases trous (phrasal templates), comme dans lexemple :
Temperatures indicate days high and overnight low to 8 a. m.
FipsCo (Goldman et al., 2001), (Nerima et al., 2003), (Seretan et al., 2004) est un extracteur de collocations bas sur un systme danalyse syntaxique, le systme Fips, dvelopp au LATL (Laenzlinger et Wehrli, 1991), (Wehrli, 1997). La mthode sappuie la fois sur des critres statistiques (le likelihood ratio) et sur une analyse syntaxique, qui permet le reprage de collocations dont les lments ne sont pas contigus.
75
Les documents parallles peuvent tre des ressources externes, comme par exemple des manuels techniques traduits, des ouvrages traduits (textes religieux, etc.) ou des dbats multilingues. Certains travaux ont galement recours des mthodes dalignement automatique de textes traduits. Nous empruntons Vronis (2000a) un tat de lart des techniques dalignement (pour un tat exhaustif, se rfrer lui).
Alignement de phrases
On distingue gnralement deux courants de mthodes dalignement, lun drivant de Kay et Rscheisen (1988) qui sappuie sur un ancrage lexical, lautre drivant de Gale et Church (1993) et de Brown et al. (1991b), qui utilisent des mthodes de corrlations de longueurs des phrases. Malgr des mthodes diffrentes, certaines hypothses sont proches. Les hypothses dalignement sappuient sur les prsupposs suivants (Vronis, 2000a) :
Lordre des phrases du texte source et du texte cible sont identiques ou proches.
Le courant issu de Kay et Rscheisen (1988) est fond sur une mthode dancrage lexical. Lhypothse de base de Kay et Rscheisen (1988) est quun couple de phrases ne peut tre en correspondance que si les mots qui la composent le sont aussi. Les informations utilises ne
1
76
sont extraites que des textes aligner, sans autre ressource externe. La mthode prend pour point de dpart des phrases candidates avec une probabilit raisonnable de correspondance pour la premire et la dernire phrase. Les phrases intermdiaires sont certainement en correspondance dans un couloir diagonal plus ou moins troit. La mthode compare ensuite la distribution des mots, en partant de lhypothse que si un couple de mots a des distributions similaires, la probabilit quils soient une traduction lun de lautre est forte. Les mots aligns forment des points dancrage permettant daffiner lalignement des phrases de dpart. Une itration de la procdure permet dobtenir un alignement maximal. Kay et Rcheisen (1988) montrent que mme si un alignement en mots est une tache difficile, un alignement en mots mme grossier peut conduire un alignement en phrases satisfaisant.
Les courants issus de Gale et Church (1993) et de Brown et al. (1991b) sappuient sur une mthode de corrlation des longueurs de phrases. Gale et Church (1993) utilisent une mthode dalignement qui sappuie galement sur une information extraite des textes. La mthode est fonde sur une comparaison de la longueur des phrases dans le texte source et dans le texte cible. Lhypothse est que si deux phrases sont la traduction lune de lautre, leur longueur doit tre proche. La mthode sappuie sur lhypothse dun rapport constant de longueur de phrases en terme de nombre de caractres. Il est admis que le rapport de longueur de caractres entre deux langues est relativement stable, comme par exemple le fait quun texte franais a tendance tre plus long que sa traduction anglaise (Vronis, 2000a). Des algorithmes permettent deffectuer des mesures de dissimilarit entre les phrases du texte source et du texte cible, prenant en compte les phnomnes dalignement attendus tels que des cas domission, daddition ou de fusion. Brown et al. (1991b) applique une mthode qui sappuie sur le mme type dhypothses de longueurs de phrases.
De nombreuses mthodes dalignement de phrases sappuient sur ces deux hypothses, une majorit combinant les deux ides. Debili et Sammouda (1992) effectuent un alignement de phrases bas sur un ancrage lexical via un dictionnaire bilingue. Simard et al. (1992), Church (1993), Johansson et al. (1993) et McEnery et Oakes (1995) ont recours un ancrage lexical bas sur le reprage de cognates, combin une mthode dans la ligne de Gale et Church. Lancrage lexical sappuie sur le reprage de cognates, cest--dire dunits qui sont identiques en langue source et en langue cible ou qui sont graphiquement proches, comme par
77
exemple language en anglais et langue en franais (Vronis, 2000a). Lutilisation de cognates est surtout prconis dans le cadre de langues apparentes. Langlais et El-Beze (1997) et Melamed (2000) montrent la ncessit de combiner diffrents types de critres, tels que par exemple le lexique, les cognates, la longueur des phrases.
78
Papageorgiou (1997). Piperidis (2000) et Wu (2000) prsentent ltat davancement de ce type de techniques.
Acquisition monolingue : les textes des langues source et cible sont extraits sur la base de patrons catgoriels.
Acquisition bilingue : les termes extraits sont aligns par une mthode danalyse des statistiques de cooccurences des termes dans les phrases alignes.
Termight (Dagan et Church, 1994) est un logiciel dacquisition de terminologie bilingue, pour le franais et langlais. Il passe galement par deux phases dacquisition : Acquisition monolingue : lors de lacquisition monolingue, le reprage se fait laide des patrons morpho-syntaxiques dunits lexicales simples et complexes, partir du texte tiquet. Les units lexicales sont regroupes partir de leur tte smantique. Une interface de validation permet de visualiser le contexte de chaque terme au sein du corpus source et une phase de validation manuelle filtre les candidats-termes. Alignement bilingue : la mise en correspondance des termes est ralis partir dun algorithme dalignement au niveau des mots. TwiC (Translation of words in context) (Wehrli, 2004) est un outil dassistance la lecture de documents en langues trangres, par le biais de traduction de mots et dexpression en contexte, bas sur une analyse syntaxique. TwiC traite les units lexicales complexes telles
79
que les mots-composs, les locutions et les collocations. Voici un exemple dinterface graphique, pour lanalyse de la phrase1 :
A natural language interface was developed.
Figure 10.
- Extracteur de phrases : le reprage des phrases seffectue par le biais dindices typographiques, ainsi que des indices de balises HTML.
- Identificateur de langue : un systme de tri-grammes est utilis afin didentifier la langue du document.
- Analyseur linguistique : une analyse morpho-syntaxique avec lanalyseur Fips est effectue. Elle permet de dterminer lunit lexicale recherche.
- Base de donnes bilingue : une base de donnes bilingue dquivalences dunits lexicales simples et complexes est utilise.
80
- Interface graphique : enfin une interface graphique permet dafficher les rsultats de la requte.
Champollion (Smadja et al., 1996) est un outil dextraction de traductions de collocations partir dun corpus parallle align au niveau des phrases. Dans un premier temps, Champollion prend en entre une collocation en anglais et repre tous les mots qui lui sont fortement associs dans la partie franaise, laide du coefficient de Dice. Lhypothse est que la traduction de la collocation source se trouve dans la liste prcdemment constitue. Toutes les combinaisons possibles des couples de mots de la listes sont gnres et les couples les plus significatifs sont extraits (coefficient de Dice). Les tapes sont rptes de la mme faon pour des triplets significatifs, puis pour les squences de quatre mots, et ainsi de suite. Le logiciel sarrte lorsque plus aucune squence ne dpasse le seuil du coefficient de Dice.
81
Deux corpus de deux langues L1 et L2 sont dits comparables sil existe une sous-partie non ngligeable du vocabulaire du corpus de langue L1, respectivement L2, dont la traduction se trouve dans le corpus de langue L2, respectivement L1 .
Lhypothse sous-jacente des travaux dacquisition de traductions partir de corpus comparables est bas sur le principe de la smantique distributionnelle qui sattache dcrire le sens des mots, partir de sa distribution dans un ensemble de contextes (ibid.). Si, partir des corpus parallles, lespace de recherche de lunit lexicale cible se rduit le plus souvent la phrase, il nen va pas de mme pour les corpus comparables, pour lesquels la traduction recherche peut se trouver nimporte quel endroit (ibid.). Les mthodes partir de corpus comparables consistent gnralement collecter lensemble des contextes (appels vecteurs de contexte ) de chaque unit lexicale, pour les corpus en langue source et en langue cible. Des ressources existantes sont ensuite exploites afin de traduire les vecteurs de contexte de chaque unit lexicale et de les comparer entre la langue source et la langue cible. Les hypothses sont les suivantes (Djean et Gaussier, 2002) :
(1) Les mots de la langue L1 dont les distributions normalises sont les plus similaires la distribution dun mot donn de la langue L2, sont, avec une forte probabilit, traduction de ce mot. (2) Deux mots de L1 et L2 sont, avec une forte probabilit, traduction lun de lautre si leurs similarits avec les entres des ressources bilingues disponibles sont proches.
Une majorit des travaux dacquisition de terminologie bilingue partir de corpus comparables ont port sur des termes simples (Morin et al., 2004). Nous pouvons mentionner les travaux de (Fung, 1998) qui extraient des termes simples anglais/chinois, avec une prcision de 76% sur les 20 premiers candidats. Les corpus exploits sont le Wall Street Journal et le quotidien japonais Nikkei Financial News. Les travaux de (Rapp, 1999) obtiennent une prcision de 89% sur lextraction des 10 premiers candidats, pour des termes simples anglais/allemand, partir dun corpus journalistique. (Djean et Gaussier, 2002) obtiennent une prcision de 84% sur les 10 premiers candidats de couples anglais/allemand, partir dun corpus mdical.
82
Toutefois, les travaux dacquisition de termes complexes, partir de corpus comparables sont peu courants1. En ce qui concerne la traduction de termes complexes en langue de spcialit, (Morin et al., 2004) prsentent une mthode, comportant la revue internationale Unasylva, consacre aux forts et aux industries forestires. Cette approche est une mthode mixte, qui identifie initialement les termes complexes pour chaque langue avec une mthode linguistique (utilisation du logiciel ACABIT (Daille, 1994)), et procde ensuite un alignement via des mthodes statistiques bases sur le contexte des termes. Le traitement statistique est proche de la mthode propose par (Djean et Gaussier, 2002) pour les termes simples. Lide sousjacente consiste en la traduction des termes qui sont proches du terme traduire. Lvaluation de la mthode a t ralise de faon automatique, via plusieurs lexiques de rfrence traitant du domaine de spcialit. A partir de ces lexiques, 300 termes franais ont t slectionns automatiquement, chacun de ces termes devant tre prsent au moins cinq fois dans le corpus comparable. Les rsultats montrent que les termes complexes dont la traduction est compositionnelle sont relativement bien reprs et apparaissent le plus souvent dans les 20 meilleurs candidats. Par contre, les autres termes sont moyennement reprs et napparaissent que rarement dans les 20 premiers candidats, bien que les traductions proposes se situent le plus souvent dans le mme champ smantique.
3.4 Conclusion
Nous avons prsent les mthodes traditionnelles de traitement automatique de la terminologie monolingue et bilingue. En ce qui concerne lacquisition de terminologie bilingue, les techniques dalignement prsentent des rsultats qui montrent un certain succs (Daille, 1994, Smadja et al., 1996, McEnery et al., 1997, Blanck, 2000, Piperidis, 2000). Toutefois, les mthodes dalignement sont coteuses et laccs des textes traduits est rare, surtout pour des langues autres que langlais. La taille des corpus parallles est pour linstant modeste par rapport aux corpus monolingues (Vronis, 2000a). De plus, les corpus parallles sont ncessairement biaiss dans leur reprsentativit , car les textes traduits disponibles
Dautres travaux tels que ceux de Cao et Li (2002) ont recours au Web afin dacqurir des traductions de
termes complexes. Nous parlons des stratgies utilisant le Web pour la traduction dans le chapitre 5.
83
relvent de domaines particuliers (textes lgaux, textes techniques, textes religieux (Resnik et Melamed, 1997), etc.). Certains genres sont peu reprsents, comme par exemple les conversations, les missions radiophoniques, etc. (Vronis, 2000a).
Les textes parallles ne constituent pas de vritables actes de discours, puisquil sagit de traductions et sont perues comme des artefacts (Vronis, 2000a). Des textes originaux sont supposs offrir une phrasologie plus riche que celle dune langue traduite, que certains nomment translationese afin den souligner le caractre non idiomatique (Maniez, 2001b). Bien que le lien entre les traductions soit moins vident au sein dun corpus comparable, puisque la prsence dune traduction nest pas assure comme dans les corpus parallles, laccs des corpus comparables reste plus ais que laccs un corpus parallle de bonne qualit (Fung et Yee, 1998). Les techniques sont toutefois plus rcentes et ont moins fait leurs preuves pour lacquisition dunits lexicales complexes, se centrant sur lacquisition de traductions de termes simples. Les travaux se centrent gnralement sur des domaines de spcialit (Rapp, 1995, 1999, Fung, 1995, Fung et McKeown, 1997, Fung et Yee, 1998, Diab et Finch, 2000, Morin et al., 2004), ce qui ne favorise pas ltendue de diversit lexicale que nous recherchons. Dans le chapitre suivant, nous prsentons une nouvelle ressource lexicale, le Web, dont les applications en Traitement Automatique des Langues et en acquisition de traduction, bien que rcentes, sont de plus en plus nombreuses et prsentent un certain succs au vue des avantages quil offre, en comparaison avec les ressources traditionnelles.
84
Chapitre 4.
4.1 Introduction
Le Web constitue un vaste rservoir de donnes lexicales, qui peut tre exploit par des moyens automatiques, par le biais de moteurs de recherche tels que Google1 ou Yahoo2. Bien que plus bruit que les corpus traditionnels, le Web reprsente un gigantesque panel d'exemples linguistiques attests, de genres diffrents (domaines terminologiques, registres de langues, etc.). Il est le plus vaste et le plus vari des corpus et son multilinguisme est ingalable (Kilgarriff et Grefenstette, 2003). Ses caractristiques reprsentent un bouleversement mthodologique pour la linguistique empirique. Malgr la prolifration de travaux qui ont recours au Web depuis la dernire dcennie, il est un phnomne nouveau dont les contours restent mconnus, et sort des cadres habituels dacquisition de terminologie monolingue et bilingue. Il convient de sinterroger sur la place du Web en linguistique, par rapport aux corpus traditionnels (4.2), ainsi que danalyser ses atouts et ses limites (4.3). Face
1
http://www.google.fr/ http://www.yahoo.fr/
85
la quantit de travaux qui ont recours au Web, nous prsentons un tour dhorizon non exhaustif des principaux domaines du Traitement Automatique des Langues (4.4). Les travaux en acquisition automatique de traductions partir du Web, galement prolifiques, feront loffice du chapitre suivant (Chapitre 5).
La premire notion est celle de la reprsentativit. En fonction des textes slectionns, un corpus peut-tre reprsentatif dun tat de langue ou de situations linguistiques particulires en vue de leur tude (Duclaye, 2003). Le critre de reprsentativit est toutefois une notion problmatique : de quoi le corpus doit-il tre reprsentatif (Kilgarriff et Grefenstette, 2003) ? Hormis des domaines de spcialit prcis, la reprsentativit de la langue nest pas concluante, car cette dernire prsente des variables quil nest pas possible de prendre en compte dans un corpus (Kilgarriff et Grefenstette, 2003) :
86
Une notion proche de la reprsentativit est celle de corpus de rfrence . Selon Sinclair (1996), un corpus de rfrence a pour objectif de reprsenter toutes les varits pertinentes dune langue afin de constituer une base danalyse linguistique. Citons le Brown Corpus, en anglais, qui regroupe 15 genres diffrents, ou le British ational Corpus, qui contient 90% de textes crits diviss en catgories et 10% de texte parl. Lide dun corpus de rfrence prsente des limites proches de celles de la reprsentativit.
Un corpus peut-tre une slection de textes organiss selon des critres prcis (Sinclair, 1995) :
a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of language.
La slection des textes repose sur des critres explicites en fonction des objectifs de la recherche. Selon Habert (2000), des critres extra-linguistiques doivent tre ajouts aux critres linguistiques, permettant dobtenir les emplois dtermins dune langue (Duclaye, 2003). Lavnement de textes au format lectronique fait merger une dfinition, plus vague, celle de corpus lectronique . Le corpus serait une collection quelconque de textes, au format lectronique (Manning et Schtze, 1999) :
87
In Statistical NLP, one commonly receives as a corpus a certain amount of data from a certain domain of interest, without having any say in how it is constructed. In such cases, having more training data is normally more useful that any concerns of balance, and onde should simply use all the text that is available.
Un regroupement de textes sans critre prcis nest pas un corpus au sens strict, mais peut tre satisfaisant lorsque la ncessit premire est la quantit de donnes. Aprs avoir fait un tour dhorizon sur la place du corpus en linguistique (4.2.2), nous nous demandons si le Web est un corpus (4.2.3).
Selon Popper, une collection d'observations ne permet pas d'induire de faon logique une proposition gnrale. Pour reprendre son clbre exemple, le fait de ne voir passer que des cygnes blancs ne permet pas davoir la certitude quil nexiste pas de cygnes noirs. Popper critique une dmarche inductive dans le domaine des sciences et prconise un procd dductif de mise lpreuve des thories. Ce processus passe par un mcanisme de prdiction et de rfutation. Dans ce contexte, un corpus en linguistique est un rservoir dexemples permettant de construire des hypothses puisquon admet que lintuition nest pas
88
satisfaisante. Il constitue un banc de test, qui ne forme pas un ensemble clos et dont de nouveaux exemples peuvent rfuter les thories.
Depuis une vingtaine dannes, la recherche linguistique a pris un tournant empirique avec lutilisation de plus en plus systmatique de corpus (Leech, 1991, McEnery et Wilson, 1996). La linguistique descriptive tudie les faits linguistiques quon retrouve frquemment dans les donnes relles, quelque soit le type de donnes (mme si les textes ne correspondent pas une norme standard). Elle a permis la linguistique gnrale dtendre son champ dinvestigation et de concevoir de nouvelles approches de la langue et de la notion de norme. Pour la linguistique empirique, tudier une langue, cest runir un ensemble dnoncs, aussi varis que possible, effectivement mis par des locuteurs de cette langue, une poque donne. Il sagit danalyser ces noncs, et dventuellement faire apparatre des rgularits dans les faits. Lapparition de donnes massives a permis au Traitement Automatique des Langues de mettre en place des techniques dapprentissage.
89
dchelle qui ncessitent de sinterroger sur ces capacits. Une limite du Web concerne sa non-reprsentativit . Selon Rundell (2000), les types de textes sont htrognes : les documents journalistiques et scientifiques sont majoritaires (Duclaye, 2003). Kilgarriff et Grefenstette (2003) montrent que le Web nest certes pas reprsentatif, mais les corpus traditionnels ne le sont pas plus :
We define a corpus simply as a collection of texts . If that seems too broad, the one qualification we allow relates to the domains and contexts in which the word is used rather its denotation : a corpus is a collection of texts when considered as an object of language or literary study. The answer to the question Is the web a corpus? is yes.
La quantit des donnes offre une varit de genre plus vaste quun corpus traditionnel. Mme si le Web ne rpond pas aux dfinitions standard et que les donnes sont moins contrles, elles permettent un changement dont les rpercussions peuvent tre fondamentales pour la comprhension des langues, condition de disposer d'instruments dobservation adquats. Le Web peut tre considr comme un outil dobservation des usages pour le linguiste, en termes la fois qualitatif (il dispose du contexte rel dun grand nombre de formes) et quantitatif. Nous parlons la suite de Habert (2000) de base de textes ou de base lexicale, plutt que de corpus. Divers phnomnes linguistiques sont observables partir du Web : la quantit des donnes permet dobserver des phnomnes que des corpus rduits ne permettraient pas danalyser. Sa dimension considrable vient palier le problme du bruit (Grefenstette, 1999). Pareille la position du clbre astronome et physicien Galile, qui basait ses recherches sur la pratique et lexprience, le linguiste doit observer le ciel linguistique par le biais dinstruments adapts, cest--dire qui permettent de rapprocher lobservation le plus possible de la ralit. Lutilisation du Web dans un cadre linguistique conduit r-apprhender la question du rle du corpus. Pour nous, le Web est un rservoir dexemples afin de construire des hypothses sur la traduction. Les phnomnes de traduction sont des phnomnes complexes et les units lexicales complexes observer prolifrent. Les caractristiques du Web sont adaptes nos besoins. Un fait langagier isol sur le Web ne permet pas de tirer des conclusions. En revanche, nous attribuons un fait rcurrent une valeur linguistique.
90
4.3 Motivations
medical treatment prostate cancer deep breath acrylic paint perfect balance electromagnetic radiation powerful force concrete pipe upholstery fabric vital organ
Figure 12.
Mme si les frquences retournes par les moteurs de recherche ne sont que des estimations, elles montrent que les contextes dtude dune unit lexicale prolifrent sur le Web alors
1
Exemple de Grefenstette (1999), mis jour pour les frquences dInternet. Frquences obtenues partir du moteur de recherche Yahoo. Lutilisation des guillemets est utilis pour une
requte littrale.
91
quils sont trs rduits dans un corpus traditionnel, mme vaste . Keller et Lapata (2003) montrent que des modles probabilistes appliqus diverses applications du TAL prsentent de meilleurs rsultats lorsquils sont appliqus sur de vastes donnes, mme si les donnes sont bruites .
Language Albanian Breton Welsh Lithuanian Latvian Icelandic Basque Latin Esperanto Roumanian Irish Estonian Slovenian Croatian Malay Turkish
Web 10,332,000 12,705,000 14,993,000 35,426,000 39,679,000 53,941,000 55,340,000 55,943,000 57,154,000 86,392,000 88,283,000 98,066,000 119,153,000 136,073,000 157,241,000 187,356,000
Language Catalan Slovakian Polish Finnish Danish Hungarian Czech Norwegian Swedish Dutch Portuguese Italian Spanish French German English
Web 203,592,000 216,595,000 322,283,000 326,379,000 346,945,000 457,522,000 520,181,000 609,934,000 1,003,075,000 1,063,012,000 1,333,664,000 1,845,026,000 2,658,631,000 3,836,874,000 7,035,850,000 76,598,718,000
Figure 13.
92
Malgr la prdominance de langlais sur le Web, le multilinguisme de ce dernier offre des perspectives nouvelles pour la comparaison des langues, certaines langues prsentes sur le Web ntant dailleurs pas (ou trs peu) disponibles en corpus. Par exemple, De Schryver (2002) montre les perspectives quoffre le Web pour ltude de langues africaines.
Les Entits Nommes candidates sont extraites partir des pages Web et un filtre permet dliminer les rsultats bruits.
Les Entits Nommes sont une appellation gnrique afin de dsigner des noms propres rfrant des
Les indices linguistiques choisis sont ceux qui amorcent les collections.
93
Les donnes textuelles du Web renferment des biais (ou bizarreries) langagiers mis par des locuteurs non natifs de la langue cible ou des locuteurs non-spcialistes de la langue spcialise. Ces combinatoires lexicales errones, comme fumeur lourd au lieu de gros fumeur ou grand fumeur, non utilises par les locuteurs aguerris, "bruitent" le Web en tant que base de donnes textuelles et doivent tre cartes. Grce la frquence de leurs occurrences, des mthodes statistiques permettront d'liminer (ou rduire) automatiquement celles-ci. Par exemple, la co-occurrence lexicale errone, en franais, de fumeur lourd, traduction littrale de langlais heavy smoker napparat qu une frquence de 73, sur le moteur de recherche Google, contrairement gros fumeur (20 700)1.
D'autre part, les donnes textuelles du Web sont "brutes", c'est--dire qu'aucune information linguistique n'est adjointe. Or, les diffrents types d'tiquetages (Vronis, 2000b, pour un panorama) appliqus sur les corpus (ou bases textuelles) offrent une aide non ngligeable pour le traitement automatique des langues. L'tiquetage morpho-syntaxique dtermine la partie du discours (adjectif, nom, verbe, adverbe, etc.) et la morphologie des items textuels (genre et nombre pour les noms et les adjectifs, flexions pour les verbes). Ce processus permet notamment de rduire les ambiguts catgorielles. La forme ferme, par exemple, peut tre un nom, un verbe ou un adjectif. Dans de nombreux cas, l'ambigut peut tre leve grce au contexte textuel :
La ferme de mon cousin ( OM) Un fromage ferme (ADJECTIF)
94
L'tiquetage morpho-syntaxique autorise une catgorisation des units lexicales en cadres syntaxiques de type OM-ADJECTIF, OM-VERBE, ADVERBE-ADJECTIF, etc. La
lemmatisation est un processus qui assigne chaque occurrence des items textuels sa forme non marque : la forme masculin singulier pour les adjectifs, le singulier pour les noms, l'infinitif pour les verbes, etc. La lemmatisation permet de rassembler au sein d'une mme forme lexicale toutes les variantes morphologiques des lexmes. Dans notre tude, nous utilisons les deux processus, dtiquetage morpho-synatxique et de lemmatisation, afin dextraire les units lexicales complexes.
Concordances : un systme de concordances permet daccder aux contextes du motcl. Les requtes peuvent tre effectues partir du lemme, afin dobtenir les formes
http://www.sketchengine.co.uk/ Les langues disponibles sont entre autres le chinois, langlais, le franais, lallemand, litalien, le japonais, le
95
associes ou partir dune forme unique. La catgorie morpho-syntaxique peut tre spcifie. Voici un extrait de concordances pour la requte barrage en franais :
Figure 14.
Une requte peut-tre affine en spcifiant son contexte droit et/ou son contexte gauche, sur une fentre maximale de dix lments. Il est possible de limiter la recherche une sous-partie du corpus, comme par exemple livres et priodiques ou texte oral, gouvernement .
Word Sketch : le Word Sketch a t utilis pour la premire fois pour la production du Macmillan English Dictionary (Rundell, 2002). Il fournit la liste des dpendances syntaxiques et des collocations dans lesquelles entre le terme, comme lexemple des relations de modifieurs et dobjet pour barrage :
Figure 15.
96
Thesaurus : les mots entrant dans une distribution similaire du mot-cl sont prciss, ce qui offre des classes smantiques, ici un extrait des mots associs barrage :
Figure 16. -
Comparaison des co-occurrences : partir de deux mots-cls, il est possible dobtenir leurs relations syntaxiques communes et celles qui leur sont exclusives, comme dans lexemple de barrage et barrire :
Figure 17.
97
Figure 18.
Le systme WebBootCat1 (Baroni et Bernardini, 2004) est un outil qui collecte des pages Web via lAPI Google, pour la construction dun corpus spcialis et dune acquisition terminologique. Loutil prend un ensemble de mots-cibles en entre (reprsentatifs du domaine) et collecte les pages Web associes2. Une extraction terminologique permet dlargir les requtes et le corpus de faon itrative. La collecte de nouveaux mono-termes se fait par une comparaison des frquences au sein du corpus avec celles dun corpus de rfrence. Les termes complexes sont ensuite collects. Les tapes sont les suivantes3 :
http://sslmit.unibo.it/~baroni/bootcat.html Les langues prises en charge sont au nombre dune trentaine. Schma (initialement en anglais) propos par Baroni et Bernardini (2004).
98
Mots-cls de dpart
Gnration de requtes
Collecte de corpus
Extraction de mono-termes
Figure 19.
Loutil a t appliqu par Baroni et Bernardini (2004) pour la construction de deux corpus en anglais et en italien, dans le domaine de la psychiatrie. Baroni et Ueyama (2004) utilisent BootCat pour la collecte de termes spcialiss en japonais, puis pour la construction dun corpus gnral en italien et dun corpus spcialis ( partir de blogs) en japonais (Baroni et Ueyama, 2006). Le systme CorpusBuilder1 dvelopp par Ghani, Jones et Mladenic est un systme qui permet une acquisition automatique de corpus partir du Web, pour des langues minoritaires telles que le slovne, ou le tagalog, par exemple. La mthode est base sur lanalyse de deux ensembles de documents fournis en entre, lun pertinent pour le corpus construire, lautre non pertinent. Les mots-cls pertinents et non pertinents extraits sont respectivement utiliss de faon inclusive ou exclusive pour la gnration de requtes. Les rsultats sont utiliss afin de rpter la mthode de faon itrative. Ghani et Jones (2000) et Jones et Ghani (2000)
1
http://www.cs.cmu.edu/~TextLearning/corpusbuilder/
99
construisent un corpus en tagalog, partir de mots-cls pertinents. Ghani et al. (2001c) construisent un corpus de slovnien. Ghani et al. (2001a, 2001b, 2001d, 2003) appliquent la mthode diffrentes langues telles que le slovnien, le croate, le tchque et le tagalog. WebCorp1 (Kehoe et Renouf, 2002, Morley et al., 2003, Renouf, 2003, Renouf et al., 2003, Renouf et al., 2005, Morley, 2006, Renouf et al., 2007, Kehoe et Gee, 2007) est une interface de recherche linguistique vers diffrents moteurs de recherche (Google, Altavista, etc.). Les rsultats se prsentent sous la forme dun concordancier (contextes et collocations). Il permet de faire des recherches prcises telles que la distinction de la casse ou des alternatives de lettres au sein dun mot (requtes de sous-chanes telles que r[u|a]n)2. A partir dune requte, les pages sont collectes, nettoyes et les occurrences sont extraites, offrant un contexte dune fentre maximale de 50 termes gauche et droite du terme cible. Les collocations associes la requte sont galement prsentes, comme dans lexemple de surgery (Kehoe et Renouf, 2002) :
Figure 20.
http://www.webcorp.org.uk/ Des requtes partir des catgories morpho-syntaxiques ne sont pas possibles.
100
Dans la mme ligne, KWiCFinder (Key Word in Context Web Concordancer)1 (Fletcher, 2001, 2002, 2004, 2005, 2007) est un outil qui offre le mme type doptions que WebCorp. GoogleLing (Smarr et Grow, 2002) est galement un outil permettant dintgrer des critres de catgories grammaticales, partir de diffrents moteurs de recherche. La mthode de GoogleLing est base sur une conversion de la requte linguistique en requte gnrale adapte au moteur de recherche (Google). Par exemple, si la catgorie grammaticale recherche est un verbe, il peut sagir dajouter des inflexions de verbes. Les pages Web sont ensuite collectes via lAPI Google, nettoyes et tiquetes. La requte est ensuite identifie partir des pages Web collectes. La figure 21 montre le processus gnral de GoogleLing.
Figure 21.
http://www.kwicfinder.com/KWiCFinder.html
101
diffrents domaines (Volk, 2002). Nos explications sont volontairement simplifies, car nous prsentons une mise en perspective gnrale des domaines qui ont recours au Web.
La tche automatique est confronte au problme de lambigut syntaxique de rattachement prpositionnel. Dans la phrase (1), le syntagme prpositionnel (about computers) est un attribut du nom book, tandis que dans la phrase (2), (in the subway) doit tre rattach au verbe (ibid.). Une stratgie consiste utiliser le Web afin de comparer les frquences de chaque cooccurrence verbe / prposition / nom2 ( read, about, computer ) avec nom 1 / prposition/ nom 2 ( book, about, computer )1 et de voir lesquelles sont les plus frquentes Volk (2000, 2001). Ces frquences doivent tre mises en rapport avec celles du verbe et du nom lorsquils napparaissent pas avec la prposition (ibid.). Une telle mthode ncessite un grand nombre de donnes, et serait difficilement ralisable sans lapport du Web. Dans le domaine de la dsambigusation syntaxique lie au rattachement prpositionnel partir du Web, les travaux de Volk (2000, 2001) ont t appliqus lallemand. Vandeghinste (2002) applique la mme stratgie pour le nerlandais. Calvo et Gelbukh (2003) appliquent le mme type mthode pour lespagnol. Lebarb (2002) utilise galement le Web pour lamlioration dune mthode de dsambigisation syntaxique. Gala (2003a, 2003b) et Gala et At-Mokhtar (2003) prsentent une mthode non supervise dapprentissage sur le Web, permettant damliorer la dsambigusation du rattachement prpositionnel. Contrairement
1
Volk (2001) montre quil est plus judicieux dobtenir les frquences des trigrammes plutt que des bigrammes
102
Volk (2000, 2001) qui calcule les frquences directement partir dun moteur de recherche, Gala (2003a, 2003b) collecte un premier corpus partir du Web qui contient les rattachements ambigus. Ceux-ci sont extraits dune premire analyse et sont gnrs en tant que requtes sur le Web, pour la collecte dun corpus, dont le but est dextraire automatiquement des informations lexicales (patrons de co-occurrences) et statistiques (poids de cooccurrence statistique) sur ces rattachements. Ces informations sont ensuite utilises afin de lever les ambiguts de rattachement. (Nakov et Hearst, 2005a, 2005b) exploitent le Web pour la dsambigusation syntaxique de rattachements prpositionnels et de rattachements de syntagmes nominaux, partir de statistiques drives du Web. Rus et Ravi (2006) ont galement recours une approche statistique partir du Web pour le reprage de syntagmes nominaux dans la tche de dsambigusation syntaxique.
4.5.2 Lexicographie
Fujii et Ishikawa (2000) collectent des descriptions encyclopdiques de termes techniques en japonais, partir du Web. La mthode est base sur un reprage de patrons linguistiques et de structures HTML susceptibles dintroduire des dfinitions de termes. Par exemple, la squence suivante introduit la dfinition du terme anglais data mining :
data mining is a process that collects data for a certain task, and retrieves relations latent in the data
Le reprage de la structure X is Y permet dassocier la dfinition Y au terme X. Lacquisition de patrons linguistiques de description est opre partir dune ressource encyclopdique lectronique.
4.5.3 Smantique
Turney et Littman (2003) prsentent une mthode de dtection de lorientation smantique (positive ou ngative) dun ensemble dunits lexicales de type subjectif, partir du Web. La mthode est base sur le calcul des co-occurrences des termes avec un paradigme de termes
103
positifs et ngatifs. Lhypothse est que les termes ayant les mmes connotations apparaissent frquemment ensemble : les termes recenses comme ayant une connotation donne permettent den reprer de nouveaux, par leur contexte lexical (Turney et Littman, 2003). Dans la mme ligne, Baroni et Vegnaduzzo (2004) prsentent une mthode didentification dadjectifs subjectifs partir du Web, en partant dune courte liste dadjectifs subjectifs slectionns manuellement. Le Web est exploit afin de collecter les adjectifs qui cooccurrent avec la courte liste cre de faon manuelle (mesure dinformation mutuelle).
Turney (2001) prsente un algorithme, nomm PMI-IR, pour la dtection de synonymes partir du Web. La mthode est base sur un calcul dinformation mutuelle, partir des frquences de couples de termes sur le Web. Les rsultats montrent que les termes obtenant les plus hauts scores de co-occurrence ont tendance tre des synonymes. Sato et Sasaki (2003) prsentent une mthode dacquisition de termes thmatiquement associs partir de termes sources, en japonais, partir du Web. Un corpus contenant les mots cibles est collect. Les termes associs sont extraits par une mthode dacquisition terminologique, et filtrs. Dans la mme ligne, Baroni et Bisi (2004) ont recours linformation mutuelle sur le Web pour la tche de dtection de synonymes au sein dun domaine de spcialit, laronautique. Terra et Clarke (2003) prsentent galement une mesure de similarit entre termes, par comparaison de leurs co-occurrences, partir du Web.
(Matsuo et al., 2006) prsentent une mthode de classification smantique de termes, partir de graphes, nomme ewman, qui est base sur une mesure de similarit partir de
frquences des vecteurs de co-occurrences sur le Web. Doan et al. (2003) proposent un systme, le systme GLUE, bas sur un reprage dinformations disponibles en ligne par dautres ontologies pour le reprage de similarit entre termes pour la construction dune ontologie. Dautres travaux ont recours au Web pour la construction ou lenrichissement dontologies (Agirre et al., 2000a, 2000b, 2004a, 2004b, Santamaria et al., 2003, Chung et al., 2006). La mthode tant base sur lutilisation de topic signatures , nous reviendrons sur ces mthodes dans notre chapitre 7.
104
105
occurrence lexicale non acceptable1 daunting duty napparat que 660 fois, ce qui est trs peu lchelle du Web. Le smantisme nest pas une caractristique pour juger de lacceptabilit dunits lexicales complexes idiomatiques : les frquences sur Web sont un indice rvlateur. Lhypothse est que les co-occurrences non correctes apparaissent peu en comparaison avec les co-occurrences significatives. Certains travaux ont recours au Web pour valuer de l aspect collocationnel de co-occurrences lexicales collectes ou pour acqurir des collocations partir du Web. Inkpen et Hirst ( 2002) valuent l aspect collocationnel de co-occurrences lexicales, entre synonymes proches. Les collocations sont extraites partir du corpus BNC. Le Web est utilis afin dvaluer leur aspect collocationnel . Trois types de collocations sont distingues : les co-occurrences frquentes, les faibles co-occurrences (qui restent acceptables) et les co-occurrences impossibles ( anti-collocations ). Keller et Lapata (2003) collectent des bigrammes de type ADJECTIF- OM, OM- OM et VERBE-OBJET, partir de diffrents corpus (BNC et NANTC2). Le Web est utilis pour tester leur frquence. Les rsultats montrent que les frquences sur le Web sont corrles avec celles des corpus tudis et avec le jugement dvaluateurs humains. Seretan et al. (2004) collectent des relations syntaxiques de co-occurrences partir des rsums retourns sur le Web, par des mesures dassociation lexicale. Les calculs statistiques sont associs un filtre syntaxique. Ces travaux collectent un corpus partir du Web via des noms sources partir desquels sont extraits les co-occurrents dans des relations de dpendance. Patwardhan et Riloff (2006) collectent des patrons de dpendances syntaxiques relatives un domaine de spcialit, partir du Web.
Pearce (2001) a introduit le terme d anti-collocation afin de dsigner des co-occurrences lexicales non
106
A partir dun ensemble derreurs frquentes ( confusion set ), la tche de correction peut tre traite en terme de dsambigisation : il sagit de slectionner le terme adquat en fonction de son contexte. Liu et Curran (2006) montre que le Web est adapt ce type de travaux, qui ncessite un grand nombre de donnes.
Le Web peut tre utilis pour observer les volutions linguistiques dun point de vue diachronique (Volk, 2002). Par exemple1, en suisse allemand, la compagnie de tlphone suisse Swisscom a lanc un tlphone portable nomm atel. A la mme priode, les
tlphones portables en Allemagne sont nomms Handy. En Suisse, ces deux units lexicales ont t en comptition. Volk (2002) a compar les frquences de ces deux units lexicales avant et aprs janvier 2000 et a constat que les frquences retournes par atel avant janvier 2000 taient peu prs le double de celles de Handy. Aprs janvier 2000, les frquences de ces deux units lexicales ont t peu prs similaires. Ces rsultats montrent que lusage du terme handy a nettement augment (ibid.). Kehoe (2006) utilise WebCorp dans une perspective dtude diachronique. Les moteurs de recherches traditionnels permettent une recherche avance, en spcifiant la date du document, mais les options sont fortement limites. Kehoe (2006) montre que la prise en compte des informations de dernire modification constitue une perspective de technique pour la diachronie2. A partir de cette information, WebCorp permet de spcifier la date de modification des documents lors dune requte, soit en indiquant le dlai de modification des pages, soit en prcisant un intervalle de date. Les rsultats sont alors classs en fonction de la date de modification des documents (ibid.):
Exemple cit par Volk (2002). La limite de cette approche est que la date de dernire modification du document ne concide pas
ncessairement avec sa mise en ligne (Kehoe, 2006). Dautres repres temporels sont proposs tels que la spcification de la dernire rvision du document directement dans la page, une prcision de la date de copyright, ou la date insre dans lURL. Mais ces informations sont faiblement reprsentes.
107
Figure 22.
Concordances de la requte shock and awe classes par date par WebCorp
Une tude de Kehoe (2006) sur le mot anglais alcopops montre que les perspectives quoffre le Web pour les tudes diachroniques restent intressantes, en analysant que ce mot est de plus en plus frquemment employ depuis 1999, alors que son utilisation tait peu courante.
Mautner (2005) montre que les caractristiques du Web offrent des perspectives pour des tudes en analyse du discours. Zuraw (2006) utilise le Web tel un corpus phonologique pour ltude du Tagalog. Modjeska et al. (2003) et Bunescu (2003) ont recours au Web dans le cadre de la rsolution danaphores.
4.6 Conclusion
Les caractristiques du Web placent cette gigantesque base lexicale au cur de domaines trs varis en linguistique et en Traitement Automatique des Langues. Mme sil nest pas un corpus au sens strict, il offre des ressources et des perspectives que le linguiste se doit danalyser. Il permet de collecter de grandes quantits de textes pour la construction de corpus, ou dacqurir des informations utiles pour la dsambigisation syntaxique, la lexicographie, la smantique, la dsambigisation lexicale, la construction de lexiques monolingues et bien dautres applications dont nous avons cites les plus communes. Le domaine de lacquisition de traductions nchappe pas au phnomne. Outre sa taille, son multilinguisme le place au cur de diffrentes mthodes pour lacquisition de donnes
108
bilingues. Le chapitre suivant aborde les possibilits quoffre le Web pour la traduction et prsente les diffrentes techniques employes, telles que lacquisition de corpus parallles ou comparables, partir du Web, ou la collecte dinformations (comme par exemple les frquences), pour laide la traduction.
109
Chapitre 5.
Mthodes dacquisition de
5.1 Introduction
Le caractre multilingue du Web le place au cur dun courant particulirement prolifique, celui de lacquisition de traductions partir du Web. Les mthodes dutilisation du Web dans un contexte dacquisition de traductions sont varies. Nous distinguons cinq grands courants. Dune part, certains travaux prsentent des mthodes dacquisition de corpus parallles partir du Web (5.2). Certaines mthodes ont recours aux anchor textes (5.3). Dautres utilisent le Web tel un corpus partiellement bilingue et exploitent des documents linguistiquement mixtes pour le reprage de traductions (5.4). Le Web peut galement tre considr comme un corpus comparable (5.5). Enfin, certains travaux exploitent les frquences sur le Web pour laide au choix lexical (5.6).
110
Figure 23.
Nous empruntons Resnik (1998) une typologie des principaux documents parallles prsents sur le Web.
Il ne sagit pas dun corpus au sens propre : les pages Web peuvent tre courtes et ne sont pas
ncessairement alignes.
2
111
Pages parentes1
Une page parente est un document sur le Web contenant au moins deux liens qui pointent vers des pages qui sont des traductions les unes des autres :
Figure 24.
Dans lexemple ci-dessus, la page parente constitue laccueil du site Academy of American and British English . Il sagit dun site multilingue, la version est disponible en six langues. Des moyens automatiques peuvent tre utiliss pour reprer des pages parentes, par une analyse des liens hypertextes qui pointent vers des langues diffrentes. Laccs aux pages traduites permet dacqurir un corpus parallle.
Pages surs 3
Une page sur est un document monolingue dans une langue donne qui contient un lien hypertexte vers sa traduction. Dans lexemple suivant, un lien hypertexte indique explicitement la traduction anglaise ( this page in english ) :
Parent page en anglais (Resnik, 1998). Schma propos par Resnik (1998). (http://www.academyofenglish.com) Sibling page en anglais (Resnik, 1998).
112
Figure 25.
Les liens hypertextes sont analysables afin daligner la page sur avec sa traduction. Le plus souvent, le lien de traduction est biunivoque (mais pas de faon systmatique) :
Page source
Page cible
Figure 26.
Une majorit des textes parallles sur le Web sont des pages parentes ou des pages surs (Resnik, 1999) : Pages parentes Pages surs
Figure 27.
http://lrs.linbox.org/
113
filtre des sites candidats. Nous prsentons ces phases de faon gnrale, mais les mthodes existantes nutilisent pas de faon systmatique toutes les caractristiques prsentes.
Analyse des liens hypertextes : un reprage de liens hypertextes qui pointent vers des pages traduites peut tre effectu (Resnik, 1998, 1999, Resnik et Smith, 2003, Nie et al., 1999, Chen et Nie, 2000, Almeida et al., 2002). Les pages parallles ont pour point commun de contenir des liens hypertextes qui pointent vers la (ou les) traduction(s) de documents. La formulation de diffrents types de requtes permet de collecter ce type de documents. Par exemple, la requte suivante permet dobtenir des pages parentes contenant deux liens hypertextes pointant sur deux pages traduites (en anglais et en franais) (Resnik, 1998) :
anchor : language1 A D anchor : language2 (anchor : english OR anchor: anglais) A D (anchor : french OR anchor : franais)
Ce type de requte permet de collecter des pages qui pointent sur diffrentes traductions dune page parente : Page parente Anchor : anglais Anglais Anchor : franais Franais
Figure 28.
114
Un autre type de pages parallles repres concerne les pages soeurs ( sibling pages ). Par exemple, les pages franaises retournes par la requte anchor : english OR anchor : anglais sont des documents contenant un lien vers une page en anglais :
Figure 29.
Des indications textuelles telles que this page in english peuvent apparaitre et constituer des indices supplmentaires de paralllisme.
Exploitation du domaine des sites : le systme BITS (Ma et Liberman, 1999) gnre une liste de sites Web candidats, fortement susceptibles dtre bilingues en utilisant comme indices les domaines des sites. Par exemple, certains domaines sont susceptibles de contenir des paires de langues donnes. Ainsi, pour le couple allemand/anglais, les domaines de (Allemagne), au (Australie) et lu (Luxembourg) sont plus susceptibles de contenir des sites bilingues faisant intervenir les langues cibles.
Reprage dURLS similaires : une phase de normalisation des URLS peut tre effectue afin daccder la traduction dun document, comme dans lexemple (Almeida et al., 2002) :
http://www.ex.pt/index_pt.html http://www.ex.pt/index_en.html
Dans cet exemple, lextension pt indique que le premier lien est en portugais, tandis que lextension en indique que le second lien est en anglais. Lorsque les URLS sont identiques, lexception de lextension de la langue, il est probable que les pages soient des traductions lune de lautre (Almeida et al., 2002, Chen et al., 2004) .
115
Comparaison du contenu smantique des documents : Chen et al. (2004) sappuie sur une comparaison du contenu smantique des documents aligner. La comparaison est fonde sur une liste de termes bilingues, permettant de comparer les termes sources et cibles contenus dans chaque document. Le coefficient de Jacquard, qui mesure le degr de similarit entre deux ensembles, est utilis afin de comparer les contenus smantiques.
Comparaison des extensions de noms de fichiers : les noms de fichiers peuvent tre des indices de contenus parallles tels que par exemple file-fr.html et fileen.html , ou fr et en indique que les documents sont respectivement en franais et en anglais (Nie et al, 1999, Chen et Nie, 2000, Almeida et al., 2002).
Comparaison de la structure HTML: il sagit de reprer les documents ayant une structure proche (Resnik, 1998, 1999, Resnik et Smith, 2003, Nie et al, 1999). Lide est que les pages parallles doivent avoir une structure HTML trs proche. Il est galement possible de comparer les lments non textuels (images, liens, etc.) (Almeida et al., 2002). Ce type de stratgie permet un alignement de squences plus fines, comme dans lexemple (Resnik, 1998) :
Figure 30.
116
Comparaison de la longueur des textes : une comparaison entre la longueur des textes en langue source et en langue cible peut tre un indice de traduction. Lhypothse est que les pages traduites ont une longueur textuelle relativement proche (Resnik, 1998, 1999, 2002, Nie et al., 1999, Chen et Nie, 2000). Resnik (1998, 1999) et Resnik et Smith (2003) procdent une comparaison de longueur des textes par alignement de segments.
Comparaison du poids des fichiers : Almeida et al. (2002) procde une comparaison de poids entre le fichier source et le fichier cible.
Comparaison de similarit des chanes de caractres : Almeida et al. (2002) dispose dun module de comparaison des chanes de caractres entre le fichier source et le fichier cible.
Identification de la langue des documents : si les modules prcdents sont indpendants de la langue, certains travaux ont galement recours un module didentification de la langue, afin de filtrer les documents qui ne sont pas dans la langue souhaite (Resnik, 1999, 2003, Ma et Liberman, 1999, Chen et Nie, 2000, Almeida et al., 2002). Resnik (1999) et Resnik et Smith (2003) proposent un reprage automatique de la langue du document bas sur une mthode statistique de comptage des frquences de caractres, qui permet dliminer les pages collectes qui ne sont pas dans la langue attendue. Ma et Liberman (1999) tudient les proprits linguistiques des sites afin de dtecter si le site est monolingue ou multilingue et didentifier les langues impliques1. Les sites exclusivement monolingues sont supprims de la liste.
Si plus dune langue est implique dans les 3 ou 4 premiers niveaux dun site, alors il est admis que le site est
au moins bilingue.
117
Resnik (1998, 1999) et Resnik et Smith (2003) prsentent une mthode dacquisition automatique de documents parallles partir du Web3, le modle STRAND (Structural Translation Recognition for Acquiring atural Data). Resnik (1998, 1999) value la mthode partir des couples de langues anglais/espagnol et franais/anglais. Une version amliore de STRAND a t applique au couple de langues anglais/chinois (Resnik et Smith, 2003). Le schma rsume les tapes du modle STRAND (Resnik, 1998) :
Figure 31.
1
Paragraph Markup Language. IMS Corpus Workbench, (1994-2002) Le moteur de recherche utilis pour cette tude tait le moteur Altavista.
118
Dans la mme ligne, Nie et al. (1999) proposent galement une mthode d'extraction automatique de documents parallles sur le Web en anglais et en franais, pour une tche de recherche dinformation multilingue. Les rsultats montrent que lexploitation dun corpus parallle issu du Web permet damliorer les performances de systmes de recherche dinformations multilingues. Ma et Liberman (1999) proposent le systme BITS (Bilingual Internet Text Search) pour lacquisition de textes parallle multilingue, partir du Web. La mthode, base sur le couple de langue allemand/anglais1, collecte des pages Web qui contiennent des paires de traduction et les stocke dans une base de donnes. Les expriences menes avec des paires en allemand et anglais montrent que la mthode offre des rsultats satisfaisants, avec un rappel de 97,1% et une prcision de 99, 1%. Dans le domaine de la recherche dinformation inter-lingue, Chen et Nie (2000) et Kraaij et al. (2003) proposent un algorithme, le systme PTMiner (Parallel Text Miner), dont le but est dextraire un corpus parallle partir du Web. La prcision de Chen et Nie (2000) pour le corpus obtenu en anglais/franais est de 95% et celle pour le corpus anglais/chinois est de 90%. Dans la mme ligne, Nie et Cai (2001) proposent une mthode de nettoyage de corpus parallle, partir dun corpus anglais/chinois, afin dliminer les pages Web non-parallles restantes dans le corpus. Almeida et al. (2002) proposent une mthode dextraction de pages parallles partir du Web, par lutilisation dune srie de modules qui exploitent le Web bilingue . Une exprience dvaluation, base sur lalignement de pages en portugais et en anglais, donne une prcision de 85%, avec un rappel de 92% (Almeida et al., 2002). Yang et Li (2003) prsentent galement une mthode de construction de corpus parallles partir du Web, pour langlais et le chinois, dont la prcision de de 99,5% et le rappel de 80,96%. Chen et al. (2004) propose le systme PTI (Parallel Text Identification System) qui dtecte des pages parallles partir de la comparaison des noms de fichiers et du contenu smantique des documents. Lvaluation, partir dun site gouvernemental multilingue, en anglais et en chinois, offre une prcision de 0.93% et un rappel de 0.96%. Le schma suivant prsente larchitecture de PTI (ibid.) :
119
Figure 32.
Dans cet exemple, lanchor texte est Wikipdia. Les anchor textes sont utiliss par les moteurs de recherche dans la tche dindexation. Le contenu des anchor textes peut varier, il peut sagir de titres, de phrases multilingues, de textes courts, dacronymes ou mme dURLs (Lu et al., 2001, 2002, 2003). La figure 33 illustre diffrents anchor textes en de multiples langues qui pointent vers le site du moteur de recherche Yahoo :
Le terme anglais est anchor text . Il nexiste pas dquivalent strictement franais, bien quon puisse parler
dancrage. Nous employons le terme de anchor texte, plus proche du terme anglais.
120
Figure 33.
Les anchor textes sont propices la dtection dunits lexicales traduites et peuvent tre considrs comme des corpus comparables (ibid.). Dans cet exemple, les alias rgionaux de lEntit Nomme Yahoo peuvent tre dtects par des moyens automatiques. Lobjectif de lapproche de Lu et al. (2001, 2002, 2003) est de dterminer des stratgies permettant didentifier automatiquement la traduction dune requte, partir des anchor textes qui lui sont associs. Le but est dextraire les traductions candidates qui co-occurrent frquemment avec la requte source, au sein dun mme anchor texte. Toutefois, les termes qui co-occurrent peuvent tre bruites et le reprage de traductions effectives est une tche dlicate.
Lhypothse de Lu et al. (2001, 2002, 2003) est que les anchor textes qui pointent vers les mmes pages contiennent certainement des termes proches. Parmi ces termes, certains sont crits dans des langues diffrentes et sont susceptibles dtre des traductions lun de lautre. Une approche probabiliste est utilise pour lidentification des traductions. Les expriences de Lu et al. (2001) ont montr que 57% des termes tests en requte obtiennent une traduction correcte en chinois dans le top1 des traductions candidates, et 91% dans le top10. Lu et al. (2003) ajoute un module qui fait appel une langue intermdiaire lorsque les traductions ne peuvent pas tre extraites de faon directe. Par exemple, afin dobtenir la traduction du terme
121
anglais Sony, en chinois simplifi, la traduction est dabord extraite en chinois traditionnel (Lu et al., 2003) :
Figure 34.
Figure 35.
122
Le Web est riche dun grand nombre de documents partiellement bilingues dont les caractristiques peuvent tre varies. Par exemple, la traduction dun terme peut tre prsente de faon ponctuelle dans le corps dun document essentiellement monolingue (ibid.) :
Further support was guaranteed [], the Saudi Fund, France's Central Fund for Economic Cooperation (Caisse Centrale de Coopration Economique--CCCE).
Dans ce type de documents, il est possible dinfrer que le texte entre parenthses est une traduction du segment prcdent (sans occulter dventuelles difficults de segmentation). Ces caractristiques peuvent tre exploites par des moyens automatiques afin de collecter de nouvelles traductions de termes. De plus, le contexte de lusage est galement disponible (ibid.). Ces textes partiellement parallles sont le plus souvent des documents techniques, dans lesquels la traduction dun terme technique est prcis, le plus souvent entre parenthses, la suite du terme source (ibid.). Cette caractristique peut tre exploite afin dextraire des traductions partir du Web, notamment des traductions absentes de ressources dictionnairiques, parce quelles sont trop techniques ou trop rcentes (Nagata, 2001).
Il est difficile dvaluer la quantit de textes partiellement bilingues sur le Web. Cette quantit est dpendante des langues sources et cibles, et varie galement en fonction des genres de documents. De plus, il faudrait distinguer lors de lvaluation entre les termes simples et les termes complexes. Nagata (2001) propose une mesure dvaluation de la quantit de textes partiellement parallles pour le couple de langues japonais/anglais, en fonction de diffrents domaines de spcialit. A partir dun dictionnaire bilingue1, class selon 19 catgories (telles que laronautique, lcologie, etc ), 30 paires de termes japonais et anglais (simples et complexes) ont t slectionns pour chaque catgorie, et ont t tests en tant que requte sur le moteur de recherche Google. Les rsultats ont montr que 42% des requtes ont retournes au moins un document (ibid.), ce qui montre que la quantit de textes partiellement parallles nest pas ngligeable.
123
Paragraphes aligns1
Les paragraphes aligns sont des documents comportant des paragraphes traduits dans une langue cible. Chaque paragraphe est compltement monolingue, et les paragraphes traduits succdent les paragraphes sources. Ce type de documents concerne frquemment des documents officiels destins tre lus par des locuteurs non natifs, ou des articles scientifiques dans lesquels seuls les titres et les rsums sont traduits :
Figure 36.
Tables
Le document se prsente sous la forme dune table comprenant des paires dquivalences de termes. Il sagit le plus souvent de glossaires bilingues :
124
Figure 37.
Texte plein
Les termes en langue cible sont prciss de faon ponctuelle dans le corps dun document monolingue en langue source :
Figure 38.
http://www.glossaire.be/english_french/glossaire_multimedia_anglais_francais.htm http://www.jerrock.com/66/node/154
125
Une majorit des documents bilingues sur le Web rpondent cette catgorie (ibid.). La figure rcapitule les diffrents types de textes partiellement parallles :
Paragraphes aligns
Tables
Texte plein
Figure 39.
126
Cheng et al. (2004a) prsente une mthode de traduction pour langlais et le chinois, partir de requtes en langue source dont les rsultats sont limits la langue cible. Lhypothse est que la prsence de termes en langue source au sein de pages crites en langue cible peut tre un indice de reprage de documents mixtes. Les tapes de traitement partir des documents mixtes sont tout dabord une extraction terminologique, puis un alignement des traductions candidates avec le terme source. Lalignement des traductions est base sur deux stratgies complmentaires : lune mesure le taux de co-occurrence sur le Web entre le terme source et la traduction candidate, lautre compare la similarit des vecteurs de co-occurrences sur le Web entre le terme source et la traduction candidate. Une valuation, dans le cadre de la recherche multilingue, offre une prcision de 46% sur la premire traduction candidate pour les requtes les plus populaires et 58% pour le top 5. En ce qui concerne des requtes alatoires, la prcison est de 40% pour le top 1 et de 60% pour le top 5. Dans la mme ligne, Cheng et al. (2004b) proposent une approche base sur une utilisation partiellement multilingue du Web (pages contenant la fois de langlais et des langues asiatiques) afin de construire des lexiques multilingues prenant en compte des variations rgionales pour la langue chinoise.
Huang et al. (2005) prsentent une mthode dacquisition de traductions chinois/anglais dEntits Nommes partir du Web, en exploitant des documents partiellement bilingues. La mthode est base sur le reprage de traductions au sein de rsums mixtes, partir de requtes interlingues enrichies , cest--dire associant le terme source aux traductions de mots-cls apparents. Par exemple, le mot-source Faust en japonais constitue dabord une premire requte. A partir des rsums retourns, une liste de mots-cls est constitue selon diffrents critres tels que le taux de co-occurrence du mot source et du mot-cl thmatique sur le Web, le recensement de la traduction du mot-cl thmatique dans des ressources prexistantes, la faible quantit de traductions candidates possibles du mot-cl thmatique, le fait que le mot-cl thmatique soit un nom ou un syntagme nominal. Les mots-cls les plus significatifs sont traduits en anglais (langue cible) et sont gnres des requtes enrichies du type de Faust(en japonais) Goethe, comme lillustre le schma (Huang et al., 2005) :
127
Figure 40.
Des critres phontiques, smantiques et statistiques (mesure de la distance entre le mot source et le mot cible au sein des rsums) sont ensuite appliqus lextraction des rsums mixtes retourns par ce type de requtes. Les rsultats de traduction offrent une prcision de 46% en utilisant les 10 premiers rsums retourns, et de 80% en utilisant 165 rsums. Zhuang et Vines (2004, 2005) utilisent une mthode similaire de traduction chinois/anglais pour la dtection de termes inconnus1. Wu et Chang (2007) prsentent le systme TermMine, systme dacquisition de translitrations de langlais vers le chinois. La mthode est base sur lexpansion de requtes et la collecte de rsums mixtes sur le Web.
128
En partant du constat quun mot est fortement associ dautres mots dans un contexte donn (Rapp, 1995, Fung, McKeown, 1997), la mthode est base sur une mesure de similarit entre vecteurs de mots : les contextes dun mot source et dun mot cible. La mesure calcule le nombre de mots en commun en contextes sources et cibles. Dans un contexte bilingue, les mots communs consistent en une paire bilingue de mots. Les contextes des mots en langue source et en langue cible sont reprsents sous la forme de vecteurs de mots. Chaque mot est associ sa mesure de poids dans le corpus (la mesure utilise est le TF/IDF).
La mthode dacquisition automatique de traductions compositionnelles de termes techniques de Tonoike et al. (2005) est base sur la collecte de corpus spcialiss partir du Web, partir de termes techniques complexes sources. Le corpus est utilis afin de valider des traductions candidates gnres par la concatnation des traductions (contenues au sein dune ressource existante) de chaque lment formant un terme complexe. Les termes techniques sources sont catgoriss selon trois groupes, en fonction du nombre de traductions candidates de chaque constituant du terme complexe disponibles au sein dune ressource bilingue existante (Tonoike et al., 2005). Les trois catgories sont les suivantes :
Les termes complexes dont les traductions candidates de chaque constituant sont gales un.
Les termes complexes dont les traductions candidates de chaque constituant sont suprieures un : la tche consiste slectionner la traduction approprie parmi les traductions candidates. La mthode de Tonoike et al. (2005) consiste slection la combinaison des traductions candidates formant un terme complexe cible la plus frquente au sein du corpus collect.
Ceux dont les traductions candidates ne sont pas recenss au sein du lexique bilingue : la tche consiste gnrer ces traductions.
129
Figure 41.
Figure 42.
Le principe de vrification lexicale partir dun moteur de recherche ne se limite pas la vrification orthographique. Le mme type de stratgie peut tre appliqu la vrification de traduction, lorsque plusieurs choix lexicaux sont candidats.
Grefenstette (1999) est l'un des premiers avoir mis en rapport lutilisation des frquences sur le Web avec le choix lexical pour la traduction. A partir dunits lexicales complexes (de type OM- OM) extraites dun lexique bilingue existant, pour les couples allemand/anglais et espagnol/anglais, dont la traduction est compositionnelle, les traductions de chaque lment sont combines et les frquences de chaque traduction candidate sont testes. Prenons pour exemple lunit lexicale groupe de travail. Les traductions candidates de groupe sont les suivantes (Grefenstette, 1999) :
130
groupe > cluster groupe > group groupe > grouping groupe > concern groupe > collective
Les requtes de chaque traduction candidate donnent les rsultats suivants (ibid.) :
131
Figure 43.
Les rsultats de frquences sur le Web permettent de slectionner la traduction adquate (ici work group). Les rsultats montrent une prcision de 86-87% pour des dcisions gnres via le plus grand nombre d'occurrences retournes pour chaque traduction candidate sur le moteur de recherche Altavita. Les tests de Grefenstette (1999) sont limits des combinaisons lexicales contraintes dj traduites au sein dun dictionnaire, en vue de tester lutilit du Web pour ce type de tches dacquisition de traductions. Wehmeier (2004) propose un outil bas sur une mthode qui se situe dans la mme ligne que Grefenstette (1999), pour la catgorie nom-adjectif en allemand et en anglais. La mthode de validation est base sur les rsultats de la frquence la plus leve pour toutes les traductions candidates, partir du moteur de recherche Google. Les collocations sources ont t extraites partir dun chantillon du British ational Corpus. Une valuation indpendante des ressources teste partir dun
chantillon de 100 collocations donne une prcision de 67,75 % pour une parfaite intelligibilit et de 82,5% pour une comprhension gnrale. Contrairement nous, Grefenstette (1999) et Wehmeier (2004) exploitent des collocations source non issues du Web. Dans la mme ligne, Cao et Li (2002) proposent une mthode mixte, dans laquelle les frquences sur le Web de combinaisons lexicales contraintes candidates sont galement exploites en tant quindice de validation. Leur exprimentation est base sur la traduction de phrases nominales de langlais vers le chinois. A partir dune unit lexicale complexe, les traductions candidates sont recherches sur le Web et des calculs statistiques sont employes pour la validation. Li et al. (2003) dveloppe un systme, le English Reading Wizard utilis pour laide la lecture et la comprhension, bas sur la mme mthode que Cao et Li (2002).
132
5.7 Conclusion
Notre mthode est un systme modulaire, qui sappuie sur diffrentes stratgies dutilisation du Web bilingue , en fonction des caractristiques des units lexicales complexes :
Utilisation du Web parallle et partiellement parallle : les caractristiques du Web parallle et partiellement parallle sont exploites dans notre mthode afin de filtrer au pralable les nombreuses traductions candidates gnres automatiquement (phase 2, chapitre 7 et phase 3, chapitre 8). Notre hypothse est quune traduction valide doit apparatre au moins une fois en co-occurrence avec lunit lexicale complexe source au sein dun mme document.
133
Le Web partiellement parallle intervient galement lorsque notre systme collecte des rsums mixtes (phase 3, chapitre 8). Ces derniers sont utiliss afin de reprer des traductions non compositionnelles ou inconnues des dictionnaires.
Utilisation du Web en tant que corpus comparable : les caractristiques du Web comparables sont exploites lors de notre acquisition automatique de mondes lexicaux en langue source et en langue cible (phase 2, chapitre 7). Notre hypothse est quune traduction candidate valide doit avoir un environnement textuel sur le Web ( monde lexical ) proche de celui de lunit lexicale complexe source.
Utilisation des frquences sur le Web : les frquences sur le Web sont exploites dans une seule tape de notre phase, celle qui concerne les traductions compositionnelles non polysmiques (phase 1, chapitre 6). Les frquences sont utilises afin de prendre une dcision de validation ou de non validation lorsquun unique choix de traduction candidate ne se prsente.
Loriginalit de notre approche est, dune part, de combiner ces diffrentes stratgies de faon modulaire et dautre part, dadapter les traitements en fonction des caractristiques des units lexicales complexes sources (compositionnalit, traduction des constituants inconnue de notre dictionnaire, etc.). Notre mthodologie est base sur des prises de dcision, dont les rsultats obtenus chaque tape sont limins des units lexicales restantes traduire. Nous prenons pour point de dpart les seules informations de traduction des constituants (base et cooccurrent) contenues dans notre dictionnaire. La premire prise de dcision du systme est base sur le nombre de traductions candidates possibles pour chaque constituant. Si chaque constituant na quune traduction candidate, le traitement consiste dcider si la traduction candidate est valide. En revanche, si chaque constituant connat plus dune traduction candidate, il sagit deffectuer un choix lexical entre les traductions candidates avant de juger si la combinaison est correcte. Enfin, si aucune des combinaisons traduites candidates na t valide, une autre mthode sera employe afin de rsoudre lune des deux difficults restantes :
134
la combinaison traduite est compositionnelle, mais il nous manque lune (ou les deux) traductions adquates pour les constituants ;
la combinaison nest pas compositionnelle, et il nous faut alors obtenir la traduction adquate sans passer par une phase de traduction littrale.
135
Chapitre 6.
Architecture et spcification du
6.1
Introduction
Notre mthodologie passe par deux grandes phases, lune dacquisition dunits lexicales complexes monolingues, lautre de traduction. La phase dacquisition monolingue consiste en la construction dun trs vaste corpus de pages Web, en franais dont sont extraites les units lexicales complexes sources. La phase de traduction est compose dune architecture modulaire, qui analyse les proprits des units traduire et les regroupe dans le module de traitement adapt. Nous prsentons chaque module de traduction dans un chapitre individuel. Ce chapitre traite de notre premire phase de traduction, celle qui concerne les units lexicales non polysmiques. Nous prsentons dabord notre mthode dacquisition dunits lexicales complexes sources (en franais), partir dun vaste corpus de pages Web (6.2). Nous dcrivons ensuite le premier module de traduction, qui dtecte et traduit les units lexicales compositionnelles non polysmiques (6.3 6.7). Nous analysons enfin les rsultats de cette tape (6.8). Notre mthodologie de traduction1 rpond deux spcificits, le fait dtre constitue dune architecture modulaire adapte aux caractristiques des units lexicales, et le
1
Toutes les expriences rapportes dans cette thse ont t ralises sous environnement Linux, par la ralisation
136
fait de procder par limination successive, cest--dire que les units non traduites dans un module sont relgues au module suivant.
Architecture modulaire
Notre mthodologie dacquisition de traductions est adapte aux caractristiques linguistiques des units traduire. Chaque module est spcifique une caractristique donne. Nous nous centrons sur le degr de polysmie des units lexicales sources, ainsi que sur leur caractre compositionnel ou non-compositionnel. Notre hypothse est que la tche de traduction est dpendante de ces deux critres :
Degr de polysmie : lorsquau moins un des constituants de lunit lexicale complexe est polysmique, la tche de traduction consiste slectionner lunit lexicale cible adquate parmi toutes les traductions candidates. Ce choix implique une dsambigisation lexicale de lunit source. Par exemple, afin de valider la traduction candidate central fund, pour caisse centrale, il faut connatre lusage de caisse (BA QUE) et le slectionner parmi de nombreux choix dusages possibles (TAMBOUR drum, VALISE case, etc.). En revanche, lorsque les deux
constituants de lunit lexicale complexe ne sont pas polysmiques, la tche de traduction ne consiste plus en un choix lexical, mais en une dcision de validation ou de non validation. Il sagit de juger de l aspect collocationnel de la traduction candidate.
Compositionnalit : nous avons montr que certaines units lexicales complexes sont transparentes du point de vue du sens, et dautres ne le sont pas. La tche de traduction doit sinterroger sur le caractre transparent ou non transparent de la traduction. Si la traduction est transparente, une simple combinaison de la traduction de chaque constituant est satisfaisante, partir de ressources dictionnairiques. En revanche, si la traduction nest pas transparente, nous utilisons le Web pour collecter la traduction adquate.
137
Eliminations successives
Le traitement modulaire fonctionne galement par filtres successifs, cest--dire que les units lexicales complexes non traduites dans un module sont relgues au module suivant. Les modules ne fonctionnent donc pas en parallle, mais de faon successive. Chaque module a accs aux informations de non validation des units prcdentes et les traite de la mme faon que les autres units lexicales qui lui sont attribues doffice, par leurs caractristiques. A partir dune liste dunits sources, celles qui sont valides dans la premire phase sont limines de la liste. Les units restantes sont traites ltape suivante, et ainsi de suite.
EXTRACTION AUTOMATIQUE
RESSOURCES EXISTANTES (6.23%) PHASE 1 Frquences sur le Web (2.88%) PHASE 2 Mondes lexicaux (62.70%) PHASE 3 Cognates et bigrammes frquents (10.70%)
Figure 44.
Etapes de traitements
138
Dans une premire tape, nous collectons des units lexicales sources, en franais, partir dun vaste corpus de pages Web.
Nous gnrons ensuite toutes les traductions candidates via nos ressources dictionnairiques. Les traductions candidates sont analyses et leurs caractristiques sont utilises afin daffecter chaque unit lexicale source dans le module adapt.
Si aucun constituant de lunit lexicale complexe nest polysmique, nous appliquons une mthode base sur les frquences sur le Web. Les units lexicales complexes non traduites sont rejetes ltape suivante.
Si au moins un des lments est polysmique, nous procdons une comparaison des mondes lexicaux en franais et en anglais sur le Web, qui vise une dsambigisation lexicale pour la traduction. Les units lexicales complexes non traduites sont nouveau rejetes ltape suivante. Nous faisons lhypothse quun certain nombre des units non traduites sont non compositionnelles, car aucune des traductions candidates dont nous disposions via le dictionnaire na t valide ce stade.
Si la traduction est non compositionnelle, ou si lun des constituants est inconnu de notre dictionnaire, nous appliquons une mthode base sur une collecte de rsums mixtes sur le Web.
139
usages des termes polysmiques varis. Nos contraintes dacquisition dunits lexicales sources sont les suivantes :
Lorsquun nom source est polysmique, les units lexicales complexes doivent sinscrire dans diffrents usages. Par exemple, pour le nom source appareil, nous souhaitons obtenir des usages tels que PHOTOGRAPHIQUE, ME AGER, etc. Nous ne visons pas lexhaustivit, mais le banc de test prsent doit tre difficile.
Nous visons la construction dune base lexicale de bonne qualit, avec une totale automatisation : les donnes tant nombreuses, une tche de validation manuelle serait trop coteuse.
Nous visons la construction dun lexique quantitativement tendu et volutif, qui puisse grossir de faon continue.
Devant la complexit des phnomnes de traduction des units lexicales, nous nous centrons sur un nombre rduit de relations syntaxiques :
OM-ADJECTIF OM-de (d)- OM
Une volution ultrieure sera dintgrer de nouveaux patrons morpho-syntaxiques au systme. Nous laissons volontairement de ct le patron morpho-syntaxique ADJECTIF- OM. Nous faisons lhypothse que les units lexicales de ce type restent souvent ambigus lexicalement, contrairement aux patrons tudis. Par exemple, si grosse caisse est une unit terminologique dont le sens de caisse est dsambigis, petite caisse ne permet pas de dsambigiser caisse.
Dans Lon (2006), nous testons un aspect de notre mthodologie dont les donnes sources sont les termes associs retourns par le moteur de recherche Exalead, cest--dire les squences polylexicales qui sont en co-occurrence frquente avec la requte. Lintrt de cette
140
fonctionnalit est de pouvoir affiner les requtes en incluant et/ou excluant des usages. Voici deux exemples de termes associs, les uns au terme appareil, les autres au terme caisse :
Figure 45.
Figure 46.
Les usages sont trs peu diversifis. Par exemple, pour la requte appareil, seul un usage est reprsent (PHOTOGRAPHIQUE), ce qui est trs faible pour un nom fortement polysmique.
La quantit de termes associs nest pas leve (une dizaine dans nos exemples).
141
Les termes associs ne sont pas ncessairement composs du terme cherch, comme par exemple grand angle, pour appareil, ce qui limite encore la quantit dunits lexicales complexes associes un terme simple.
Les patrons morpho-syntaxiques ne sont pas tous pertinents pour notre tude, ce qui rduirait davantage notre filtre.
Afin dobtenir une liste qui rponde nos critres et qui puisse grossir de faon volutive, nous optons pour la constitution dun trs vaste corpus de pages Web, collect partir de noms simples (ttes smantiques), en franais, partir duquel nous rcoltons les units lexicales complexes associes.
Seule la catgorie grammaticale des noms est conserve. Les noms constituent les ttes smantiques des units lexicales complexes extraites.
Les noms composs (typographiquement spars par un trait dunion) ne sont pas conservs, comme par exemple :
abat-jour vide-poches
142
Les noms composs forment une unit lexicale complexe en eux-mme, ce qui conduirait prendre en compte des units lexicales complexes de longueur plus leve que lobjectif dfini dans le cadre de nos travaux.
Nous supprimons les units lexicales complexes qui forment une entre lexicale en elle-mme, pour les mmes raisons que prcdemment, comme dans lexemple de :
compte rendu bret basque
Enfin nous ne tenons pas compte des Entits Nommes (critre typographique dune majuscule au dbut du terme), ce qui limine des termes du type de :
Alsace Yougoslavie
Pour chaque mono-terme, nous rcoltons les pages Web associes par le biais de requtes, via lAPI Yahoo1. Les requtes sont formules au singulier et au pluriel, uniquement pour les pages en franais. Elles sont sous la forme dexclusion du singulier ou du pluriel, afin dlargir les rsultats et se prsentent en trois temps pour un mme nom, comme dans lexemple suivant :
appareil -appareils appareils -appareil appareil +appareils
Nous collectons les mille premiers rsultats de chaque type de requte, ce qui donne environ 2500 pages de rsultats par nom simple, quantit variable selon la frquence demploi du nom
1
http://developer.yahoo.com/
143
sur le Web. Les pages Web sont ensuite nettoyes automatiquement par le biais de scripts afin dliminer le bruit, li aux caractristiques des pages Web (rtablissement de caractres d au codages, lignes vides, adresses Internet, images, PDF, etc.). Les pages Web sont ensuite tiquetes laide du logiciel dtiquetage morpho-syntaxique Treetagger1 . Nous constituons le sous-corpus tiquet de chaque mono-terme, en rcoltant son contexte de plus ou moins dix termes. Le rsultat constitue un sous-corpus des noms sources, qui se prsente sous la forme de trois colonnes, avec un terme par ligne et les informations de lemme, de forme et de catgorie grammaticale sur chaque colonne :
Figure 47.
Naturellement, les rsultats peuvent contenir une part de bruit. Toutefois, nous mettons en place une srie de filtres automatiques afin dliminer au maximum dventuelles units lexicales complexes errones. Nous partageons lide selon laquelle lextraction dunits lexicales complexes doit se baser sur des critres linguistiques et sur des critres de frquence (Daille, 1994) : une unit lexicale complexe est une co-occurrence prfrentielle de termes (donc relativement frquente), mais surtout elle entre dans une relation de dpendance
1
http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/
144
syntaxique. Pour nous, laspect de relation restreinte de dpendance syntaxique est le plus important, car le critre de frquence est un critre dlicat. Notre hypothse est que le Web peut tre utilis afin dvaluer l aspect collocationnel de dpendances syntaxiques pralablement collectes. Nous prsentons les critres didentification des units lexicales complexes, les critres morpho-syntaxiques dans un premier temps, et les critres de frquence dans un second temps.
Critres morpho-syntaxiques
A partir des sous-corpus tiquets, nous dfinissons les patrons morpho-syntaxiques rpondant aux relations de dpendances syntaxiques recherches. Notre mthode se base sur la dfinition de rgles filtrant des lments catgoriels avant et aprs lunit lexicale cible, afin dviter des ambigits de rattachement. Les rgles tablies nextraient que des units lexicales complexes contiges, ce qui prsente la limite dextraire des combinaisons principalement figes et dobtenir du silence dans le cas de certaines constructions syntaxiques. Dans Lon (2004b), nous avons ralis un extracteur dunits lexicales complexes en dfinissant des rgles de patrons catgoriels prenant en compte des lments non contigus, comme par exemple :
Le vent est fort (adjectif attribut) Le vent, qui est fort (proposition relative)
A partir de ces constructions syntaxiques, Lon (2004b) extrait lunit lexicale vent fort. Toutefois, nous optons volontairement ici pour un filtre simple, afin dviter au maximum des problmes de bruit et dobtenir une ressource lexicale de trs bonne qualit. Lon (2004b) sest appuy sur un corpus terminologique dont la contrainte premire est lexhaustivit des termes complexes collects, une phase manuelle permettant ensuite de valider les rsultats. Dans le cadre de cette thse, lextraction porte sur des donnes beaucoup plus vastes et nous prfrons favoriser la qualit des ressources monolingues afin de permettre une totale automatisation et nous centrer sur les mthodes de traduction. Notre hypothse est que lextraction de squences contiges est moins susceptible dtre bruite quune extraction de
145
dpendances non contiges. Nous prsentons les rgles morpho-syntaxiques et les contraintes associes1. OM ADJECTIF : nous collectons les patrons morpho-syntaxiques du type de OMADJECTIF, comme dans les exemples :
OM ADJECTIF appareil mnager caisse claire parc naturel
Les contraintes associes ce patron sont les suivantes : (1) Le syntagme ne doit pas tre suivi par un nom afin dviter des erreurs de rattachement du type de :
OM ADJECTIF OM abonnement haut dbit
Dans cet exemple, le syntagme collecterait le syntagme abonnement haut, ce qui nest pas pertinent.
(2) Le syntagme OM ADJECTIF ne doit pas tre suivi par une prposition suivie dun nom, comme dans lexemple :
OM ADJECTIF PREPOSITIO OM
Notre mthodologie peut tre victime dventuelles erreurs dtiquetage morpho-syntaxique du logiciel
Treetagger, mais aucun logiciel tiquetage ne prsente aucun bruit dans ses rsultats.
146
OM PREPOSITIO
que sur son extension d. Le nom cible peut apparatre en position 1 ou en position 2, comme dans les deux exemples pour le nom caisse :
OM PREPOSITIO Logiciel de caisse Caisse de retraite OM
(1) Le syntagme ne doit pas tre suivi par une prposition suivie dun nom :
OM DE(D) OM-PREPOSITIO - OM amour de cours de recration
147
Un anti-dictionnaire est appliqu aux patrons obtenus afin dliminer des mots gnraux ou non pertinents tels que divers, autre, diffrent, etc. Le schma suivant prsente un graphe de dcision appliqu aux patrons morpho-syntaxiques traits :
NOM appareil
Figure 48.
Graphe de dcision des patrons syntaxiques pour lidentification des termes complexes
Critres de frquence
Parmi les patrons morpho-syntaxiques collects, nous posons plusieurs filtres de frquence. Ces filtres sont considrs comme une valuation de l aspect collocationnel des relations
148
de dpendance syntaxique collectes. Ils permettent galement de filtrer dventuelles erreurs lies ltiquetage morpho-syntaxique.
La frquence de lunit lexicale complexe au sein des pages Web relies au nomsource correspondant doit tre suprieure ou gale 10. Ce filtre est volontairement peu lev car notre hypothse est que les units lexicales complexes peuvent apparatre un nombre rduit de fois dans les corpus envisags.
Les frquences des units lexicales complexes sont ensuite testes sur le Web, afin dvaluer leur aspect collocationnel . Nous posons deux critres de frquences, simples, partir du Web :
La frquence de lunit lexicale sur le Web doit tre suprieure ou gale 10000.
La frquence de lunit lexicale, prcde par un article (dfini ou indfini), sur le Web doit tre suprieure ou gale 1000. Les requtes sont du type de :
lappareil mnager OR un appareil mnager
Notre hypothse est que les units lexicales pertinentes sont certainement employes avec un article de faon significative. Par exemple, la requte lappareil mnager OR un appareil mnager compte une frquence de 43 500, tandis que la requte un style descalade OR le style descalade apparat 358 fois. Le choix des valeurs a t dtermin de faon empirique, par observation des donnes. Ce filtre peut provoquer du silence dans certains cas, mais nous posons volontairement un filtre lev afin dobtenir des ressources de trs bonne qualit. Cette difficult est lie la zone dincertitude des units lexicales complexes aborde dans le chapitre 2. Un filtre moins lev aurait gnr des units lexicales complexes dont le statut collocationnel est susceptible dtre moins significatif.
149
Patron morpho-syntaxique Total OM ADJECTIF OM-DE- OM OM-D- OM TOTAL Figure 49. 5166 2934 1564 9664
Le patron morpho-syntaxique
concerne plus de la moiti des cas (53.45%). Le patron OM-DE- OM concerne, lui, 30.36% des cas, suivi du patron OM-d- OM pour 16.18% des cas. Voici un exemple dunits
d' de de OM-ADJ
allocation, amortissement, assurance, pargne bas, logiciel, ticket compensation, dpt, garantie, mutualit, pension, prvoyance, rsonance, retraite, scurit autonome, centrale, claire, commune, fdrale, nationale, noire, populaire, primaire, rgionale
Figure 50.
Lobjectif de notre extraction dunits lexicales complexes nest pas dobtenir une liste exhaustive de co-occurrents pour chaque nom, mais dobtenir ses co-occurrences les plus
150
significatives, tout en obtenant des usages varis pour les noms polysmiques. Les exemples montrent que les usages sont diversifis, puisquon obtient entre autres, pour caisse, les usages MUSIQUE, BA QUE, VOITURE, etc. Voici les units lexicales associes au monoterme appareil :
d' d' de
tat, imagerie, catgorie chauffage, contrle, cuisson, mesure, poche, production, protection OM-ADJ administratif, argentique, auditif,circulatoire, compact, critique, dentaire, digestif, lectrique, lectromnager, lectronique, tatique, gnital, gouvernemental, judiciaire, locomoteur, mnager, militaire, mobile, numrique, photo, photographique, politique, portable, productif, rflex, rpressif, reproducteur, respiratoire, urinaire
appareil ADJECTIF
Figure 51.
d' de de OM-ADJ
activit, attraction, aventure, exposition gestion, place, projet bagatelle, loisirs, production, stationnement, verdure actuel, aquatique, arbor, archologique, automobile, bois, botanique, communal, dpartemental, olien, ferm, fleuri, floral, forestier, franais, historique, htelier, immobilier, industriel, informatique, linaire, locatif, marin, matriel, municipal, national, naturel, nuclaire, olympique, ornithologique, paysag, paysager, priv, provincial, public, rgional, rsidentiel, scientifique, social, technologique, thmatique, tropical, urbain, verdoyant, zoologique
Figure 52.
151
rapport OM2
d'
de de
activit, analyse, audit, autopsie, avancement, enqute, erreur, tape, tude, valuation, expert, expertise, information, vraisemblance formulaire, immeuble, modle, projet contraste, contrle, force, gestion, mission, police, projet, recherche, situation, stage, suivi, synthse
OM-ADJ annuel, conjoint, dfinitif, conomique, troit, explicatif, final, financier, global, hebdomadaire, indiqu, intgral, intrimaire, interne, mdical, mensuel, mondial, moral, national, officiel, parlementaire, priodique, prcdent, public, quotidien, scientifique, semestriel, sexuel, social, sommaire, statistique, technique, trimestriel
Figure 53.
d' de de
tour ADJECTIF
angle, argent, honneur, horizon, ivoire quart babel, chant, chauffe, cochon, contrle, cou, force, garde, guet, jeu, lit, magie, main, mange, passe, passe-passe, piste, poitrine, scrutin, table, taille, ville, vis OM-ADJ cycliste, final, prcdent, rapide
Figure 54.
Afin de tester notre mthode de traduction, nous ralisons un chantillon alatoire parmi les units lexicales complexes obtenues. Le sondage alatoire est un principe statistique simple qui nous laisse supposer quil est reprsentatif des rsultats que nous pourrions obtenir sur un autre chantillon ou sur la totalit de nos units lexicales complexes. Naturellement, les rsultats ne seraient pas compltement les mmes, mais le sondage alatoire est une mesure communment admise pour tre reprsentative dune population donne. Cet chantillon comporte 1075 units lexicales complexes, soit 11.12% de la totalit de notre base. La section suivante dtaille la premire phase de notre mthodologie.
152
lexicales complexes en franais, Lon et Millon (2005) gnrent toutes leurs traductions candidates grce un dictionnaire lectronique. Ces traductions sont automatiquement filtres partir des rsultats de leurs frquences, sur le moteur de recherche Google. Lvaluation porte sur 10 mots franais trs polysmiques (barrage, dtention, formation, lancement, organe, passage, restauration, solution, station et vol) qui avaient t jugs comme les plus polysmiques parmi 200 noms de frquence quivalente, lors du projet Senseval (Vronis, 1998) et constituent un banc de test difficile, qui a t utilis par la suite dans divers travaux. Prenons les co-occurrences lexicales suivantes :
commettre un vol rserver un vol
En combinant les traductions de chaque lment, les frquences constituent une aide pour le choix lexical des units cibles, ici entre theft (usage DELIT) et flight (usage AERIE ), par exemple. Google permet de valider les traductions correctes, grce leur nombre doccurrences. Par exemple, la requte [commit a flight OR commit the flight] retourne seulement 13 rsultats. La requte [commit a theft OR commit the theft] retourne quant elle 5110 rsultats. Parmi ces deux traductions candidates, les rsultats slectionnent de faon crasante la traduction satisfaisante (to commit-theft), dans la ligne des travaux de Grefenstette (1999) et de Cao et Li (2002) :
Effectifs absolus flight commit reserve 13 33 500 theft 5510 3 Effectifs par million flight 0 592 theft 306 0
Figure 55.
153
Lvaluation de la mthode de Lon et Millon (2005) montre que le Web permet de constituer ou complter des bases de donnes lexicales multilingues de bonne qualit, de faon automatique, partir des frquences sur le Web. Les rsultats sont particulirement intressants pour les patrons syntaxiques de type OM ADJECTIF (prcision de 97,1 %) et
VERBE OM(objet) (prcision de 88,9 %). La mthode reste imparfaite pour le patron OM1 DE OM2, mais le taux de prcision est honorable (76,9%), surtout tant donn la difficult volontaire du banc de test choisi (mots trs polysmiques). La limite principale de la mthode de Lon et Millon (2005) est dordre lexical. Elle concerne lacquisition de traductions valides, mais non correspondantes lunit lexicale source, comme dans lexemple :
cours de formation > group rate
Ici, lune des traductions candidates du nom polysmique cours est rate (usage FI A CE), tandis que lune des traductions candidates du nom polysmique formation est group (usage COLLECTIVITE). Bien que ces deux choix lexicaux soient incorrects, la mthode valide cette traduction car group rate est une unit lexicale existante, qui signifie tarif de groupe. Pourtant, la prise en compte du contexte lexical de lunit lexicale source, cours de formation dans notre exemple et de sa traduction candidate errone group rate est un indice dsambiguisateur fort : notre hypothse est que les mondes lexicaux franais et anglais doivent tre proches entre une unit lexicale source et sa traduction adquate, tandis quils doivent tre diffrents lorsque la traduction est errone. Une observation des rsums retourns par le moteur de recherche Yahoo, par exemple, permet daccder au contexte lexical et de comparer les mondes lexicaux. Comparons par exemple les rsums retourns pour cours de formation et sa traduction correcte, training course :
154
Figure 56.
Figure 57.
Laccs aux contextes lexicaux permet une comparaison des mondes lexicaux en franais et en anglais : nous observons que la thmatique est proche. En revanche, le contexte lexical de la traduction errone, group rate est diffrent :
155
Figure 58.
Dans le chapitre suivant, nous montrons que les mondes lexicaux retourns par les rsums des requtes sur un moteur de recherche permettent une dsambigisation lexicale pour la traduction. Toutefois, certaines units lexicales complexes ne sont pas polysmiques et la tche de traduction ne consiste pas en un choix lexical, mais en une simple valuation de l aspect collocationnel de la traduction candidate. Notre hypothse est quune mthode base sur les frquences sur le Web est satisfaisante pour des units lexicales non polysmiques, tandis quelle ne permet pas de palier tous les cas dambigit lexicale. Dans notre travail de thse, notre premire phase consiste traiter les units lexicales non polysmiques, par une mthode proche de Lon et Millon (2005). Nous valuons le degr de polysmie des units lexicales et nous nappliquons cette phase de mthodologie quaux units non polysmiques. La section suivante dtaille premirement lutilisation de ressources lexicales existantes pour les traductions dj rpertories (6.4), et deuximement, elle dcrit notre mthode de traduction des units lexicales non polysmiques (6.5 6.8).
156
agence matrimoniale > matrimonial marriage bain moussant > bubble bath. cordon ombilical > umbilical cord
Lorsque le dictionnaire propose une traduction, nous ne gnrons pas de traduction supplmentaire. Un avantage de cette phase est de traiter certains cas dunits lexicales complexes qui se traduisent en anglais par une unit lexicale simple :
coup de balai > sweep gant de toilette > flannel
Le plus souvent, ces units lexicales napparaissent que dans un sens de traduction, celui de langlais vers le franais. Afin dlargir au maximum notre collecte, nous prenons en compte les deux sens de traduction. La figure 59 donne un exemple de traductions directement recenses dans notre dictionnaire.
157
PATRO OM ADJECTIF
U ITE LEXICALE SOURCE agence matrimoniale bain moussant carte postale corde raide cordon ombilical escalier roulant homicide involontaire
TRADUCTIO matrimonial marriage bubble bath postcard tightrope umbilical cord escalator manslaughter vine rosebud sweep heatstroke night porter football player emergency exit groundsheet table wine water main tank waiting list aluminium foil filling station
OM de OM
OM d' OM
plante grimpante bouton de rose coup de balai coup de chaleur gardien de nuit joueur de football sortie de secours tapis de sol vin de table canalisation d'eau char d'assaut liste d'attente papier d'aluminium station d'essence
Figure 59.
Il arrive que plusieurs traductions soient proposes pour une mme unit lexicale source. Dans ce cas, nous slectionnons celle qui a la frquence la plus haute sur le moteur de recherche Yahoo, pour la seule langue anglaise. Par exemple, les traductions suivantes sont recenses pour coup de soleil :
sunburn (Frquence : 21 800 000) sunstroke (Frquence : 1 980 000)
La traduction sunburn est slectionne. Notre objectif est de ne proposer quune traduction par unit source afin dvaluer de faon efficace les cas de dsambigisation lexicale lorsquun nom est polysmique (tape suivante). Nous appliquons le mme principe de choix unique tout notre lexique.
158
Le dictionnaire en ligne de Google1 propose, quant lui, pour 3.62% de traductions des units lexicales sources traduire. Nous collectons les traductions existantes. La Figure 60 illustre des traductions obtenues avec le dictionnaire de Google.
PATRO OM ADJECTIF
U ITE LEXICALE SOURCE animal domestique an prochain antenne parabolique carte bleue formation continue fromage rp reprise conomique
TRADUCTIO pet next year satellite dish credit card continuing education grated cheese economic recovery bill of sale engagement ring corn starch sea front tummy ache vine shower curtain dealer
OM de OM
acte de vente bague de fianailles farine de mas front de mer mal de ventre pied de vigne rideau de douche trafiquant de drogue
Figure 60.
Les traductions obtenues lissue de ces deux tapes sont stockes dans notre base de rsultat et sont limines des traductions restant traduire. Le dictionnaire Google est galement pralablement test afin de collecter les traductions de co-occurrents inconnus de notre dictionnaire : aucun nayant t obtenu pour cette phase, nous aborderons ce sujet dans le chapitre suivant.
Automatique et du service de recherche interlingue. Nous ne nous rfrons qu des ressources lexicales dont les rsultats ne sont pas gnrs de faon automatique, afin de ne pas bruiter nos rsultats avec des rsultats gnrs par dautres systmes automatiques.
159
Pour chaque unit lexicale source, nous comptabilisons le nombre de traductions recenses pour ses constituants. Nous ne conservons pour cette phase que celles dont les constituants ne comptent quune traduction candidate1. Par exemple, ambiance musicale est
Les units lexicales dont au moins lun des constituants compte plus dune traduction ne sont pas conserves. Par exemple, abandon de poste nest pas conserv pour cette phase : abandon compte cinq traductions et poste en compte huit. Lorsque la traduction dau moins lun des constituants est inconnu, lunit lexicale nest pas traite dans cette tape, comme dans lexemple :
Nous nous basons sur le dictionnaire que nous utilisons, mme si nous avons conscience que certaines
160
acide folique
La traduction du co-occurrent folique nest pas recense car ce terme est trop technique. La dtection de traductions inconnues est traite dans une phase cet effet.
Les units lexicales non polysmiques constituent 5.02% de notre chantillon. Dans cette phase, lobjectif nest pas de slectionner une traduction valide parmi des traductions candidates, mais de dterminer si lunique traduction1 est valide ou pas.
OM1 DE
roman , caractris par lordre dtermin-dterminant (bleu fonc, point de vue) du type germanique , caractris par lordre dterminant-dtermin (dark blue, viewpoint) (Chuquet et Paillard, 1987). Ainsi, le patron syntaxique OM1 DE OM2 en franais peut
tre traduit par diffrentes structures en anglais selon la relation smantique considre entre les deux objets. Selon Tournier (1985), le type roman
1
Pour le patron
OM-de-(d)- OM, deux traductions candidates sont proposes car nous prenons en compte
deux patrons syntaxiques cibles. Toutefois, il nexiste quun choix lexical, qui se manifeste dans deux constructions syntaxiques.
161
le patron OM2 OM1 en anglais marque une relation troite entre les deux noms. Nous posons la rgle de transformation :
OM1 DE(D) OM2 > OM2 OM1 caisse de retraite > pension fund
Le processus de composition offre une grande souplesse en anglais et la juxtaposition des composants peut faire intervenir des relations syntactico-smantiques varies (ibid.) :
Sujet/Verbe ou Verbe/Sujet :
sunshine (the sun shines)
Objet/Verbe ou Verbe/Objet :
taxi driver (X drives the car)
Identification :
handlebar (the bar is handle)
Intrumental :
searchlight (X searches with the light)
Locatif :
call box (X calls from the box)
162
Le franais exploite moins cette diversit : les composs par juxtaposition, peu nombreux, correspondent presque exclusivement soit une relation de localisation (coin cuisine), soit la relation verbe/objet (portefeuille). Les composs en anglais posent une difficult dambigut structurale, quant la porte de chacun des termes sur les autres, comme dans lexemple (ibid.) :
[ [ modern history ] section ]
Ce type de structure explicite la relation entre les deux lments, par le biais de la prposition (ibid.). Cette explicitation est efface dans la structure OM- OM.
Le patron syntaxique
OM, puisque
Le cas du gnitif (NOM1s NOM2) nest pas pris en compte dans le cadre de notre tude. Nous aurions pu galement tester le patron morphosyntaxique NOM2NOM1 accols, mais nous faisons le choix de ne pas traiter ce patron, plus dlicat, de par sa structure particulire dunit lexicale simple. Une volution ultrieure sera dajouter ces deux patrons morphosyntaxiques candidats. Notons que, parmi les erreurs de traduction de type morpho-syntaxique que nous analysons dans nos rsultats (chapitre 9), certaines sont dues une absence du gnitif, mais aucune na t rpertorie pour labsence du patron NOM2NOM1.
163
Dun point de vue smantique, notre hypothse est quun certain nombre dunits lexicales complexes sont transparentes du point de vue de la traduction, cest--dire que la somme des traductions permet dobtenir la traduction adquate, comme dans lexemple :
psychologie sociale > social psychology
Si la traduction rpond cette hypothse, notre filtre automatique la validera. En revanche, si la traduction nest pas transparente, ou si nos ressources dictionnairiques ne sont pas adquates (usage non recens), elle ne sera pas valide et sera soumise ltape de traitement suivant. Nous gnrons automatiquement toutes les traductions candidates via le Collins Pocket selon la mthode de Lon et Millon (2005) et Lon (2006), qui consiste gnrer toutes les combinaisons possibles des traductions des lments simples. Prenons pour exemple :
institut de psychologie
Le Collins Pocket donne les traductions suivantes pour les units lexicales sources institut et psychologie (unit lexicale source vers unit lexicale cible) :
institut > institute psychologie > psychology
Notre programme gnre la combinatoire en appliquant les rgles de transformation syntaxique. Deux traductions candidates sont obtenues pour le patron OM-de- OM :
institut de psychologie > institute of psychology institut de psychologie > psychology institute
164
Afin davoir un ensemble de traductions le plus exhaustif possible, nous recensons galement les traductions inverses des units lexicales franaises, en recherchant ces dernires lorsquelles apparaissent en tant que traduction dans la version English-French, ce qui rajoute parfois des traductions supplmentaires, comme pour vol :
larceny, robbery, snatch vol
Figure 61.
http://developer.yahoo.com/search/ Des diffrences ont t remarques entre le nombre de rsultats renvoys par lAPI et par linterface Web. Le choix dutilisation du moteur de recherche Yahoo plutt que Google sexplique par lobservation de
rsultats de frquences de Google peu fiables dans le cadre de certaines configurations de requtes (http://aixtal.blogspot.com/2005/02/web-le-mystre-des-pages-manquantes-de.html).
165
Les combinaisons boolennes ramnent un ensemble de rsultats qui prend en compte les variations dues aux changements darticle, comme dans lexemple :
"the American journalist" OR "an American journalist".
OM ADJECTIF permet
galement de rduire le problme de lambigut catgorielle. Par exemple, complete peut tre un adjectif (entier, complet, intgral, total) ou un verbe (parfaire, complter). La collocation complete restoration est ambigu. Lajout de larticle permet dliminer les cas o complete est un verbe.
La collocation midnight mass (avec une frquence de 336 000, donc suprieure au seuil limite pour le nom cible mass) est retenue, tandis que mass of midnight (avec une frquence de 65, donc infrieure au seuil limite pour le nom cible mass) est rejete. Ce filtre provoque videmment parfois des cas de silence. Notre approche favorise volontairement la prcision, car il sagit de complter le plus automatiquement possible des ressources existantes. Laugmentation du bruit obligerait un filtrage manuel des rsultats beaucoup plus long et coteux. Aprs le filtre automatique sur les frquences, 34.83% des traductions candidates sont conserves. Cette faible quantit sexplique par le fait que deux patrons
Frquences toujours limites aux pages Web en langue anglaise. Les rsultats de frquence prsentes pour cette exprience datent de juillet 2008.
166
tre valid par unit lexicale source. Lorsque deux patrons morpho-syntaxiques sont valides pour une mme unit source, nous conservons la traduction la plus frquente :
cycle de vie > life cycle (13 100 000) cycle de vie > cycle of life (1 070 000)
Dans cet exemple, seule la traduction life cycle est conserve, bien que les deux aient t valides par le filtre automatique.
Figure 62.
La figure 63 donne une illustration dunits lexicales traduites lors de cette phase :
167
PATRO OM ADJECTIF
U ITE LEXICALE SOURCE drame musical grange attenante psychologie sociale transition dmocratique vent favorable vie prive village typique
TRADUCTIO musical drama adjoining barn social psychology democratic transition favourable wind private life typical village medical vocabulary rice starch snow shower cycle of life date of manufacture cavalry squadron television journalist health questionnaire rice vinegar garlic butter identification code son of man
OM de OM
vocabulaire mdical amidon de riz averse de neige cycle de vie date de fabrication escadron de cavalerie journaliste de tlvision questionnaire de sant vinaigre de riz beurre d'ail code d'identification fils d'homme
OM d' OM
Figure 63.
La figure suivante montre la proportion de traductions obtenues ce stade de notre mthodologie, par catgorie, et la proportion de traductions restantes traduire. 2.60% des traductions sont traduites directement par notre dictionnaire, 3.60% sont traduites par le dictionnaire Google et 2.88% sont traduites par la phase1 de notre mthode, base sur les frquences sur le Web. A ce stade de notre mthode, nous obtenons pour 9.12% de traductions des units lexicales sources :
28 39 31 98
1075 977
Figure 64.
168
2.60% Collins
90,88% Reste
Figure 65.
6.9.2
on validation
Dans cette section, nous analysons les causes de non validation des units lexicales sources qui correspondent cette tape.
Restrictions de slection
Certaines traductions candidates nont pas t valides pour des raisons de restriction de slection, comme dans lexemple :
bonheur perdu > * stray happiness
Dans ce cas, ladjectif happiness signifie perdu, mais il ne sapplique pas des entits gnrales tel que le bonheur :
animal perdu > stray animal
169
Dans cet exemple, le nom upturn sapplique la classe des vnements, mais pas la classe des vtements.
Les frquences sur le Web permettent de filtrer de faon efficace les difficults de restriction de slection, car les co-occurrences errones pour cette raison connaissent des faibles frquences. Cruse (1986) fait lhypothse dune directionnalit slecteur/slect, dans le cas de la construction syntaxique tte/modifieur. Ces constructions concernent les syntagmes nominaux endocentriques du type :
X < lectronique> X = <APPAREIL>
Le modifieur lectronique slectionnerait le nom (comme dans appareil < lectronique>, par exemple). Le modifieur est effaable. On peut parler dun appareil ou dun appareil lectronique. Nous nous interrogeons sur une telle directionnalit. Concernant les restrictions entre la tte et le modifieur, il nous semble que cest plutt la tte, et non le modifieur qui slectionne un lment. Il parat plus productif denvisager la collocation partir de la tte, comme nous la traitons dans notre base de donnes :
Appareil > X X = <mnager, numrique, lectrique, lectronique, etc.> Parc > X X = <naturel, aquatique, botanique, marin, etc.> Caisse > X X = <claire, centrale, fdrale, commune, etc.>
170
Dans cet exemple, la traduction de souris dagneau ne doit pas tre littrale, mais doit tre de la forme :
lamb shank lamb > agneau shank > jarret
La co-occurrence lexicale errone, mouse shank, napparat qu une frquence de 34 sur le Web, ce qui nous permet de ne pas la valider. Il en va de mme pour lunit lexicale chat de gouttire :
chat > cat gouttire > gutter chat de gouttire > * gutter cat
171
Un chat de gouttire qui signifie un chat qui nest pas de race doit tre traduit par ordinary cat (littralement chat ordinaire) :
ordinary > ordinaire cat > chat
Structure morpho-syntaxique
Certaines traductions nont pas t valides car leur structure morpho-syntaxique est incorrecte ou nest pas la plus adquate, comme par exemple :
* Actress of cinema * Window of cat
Il peut galement sagir dun mauvais choix lexical au niveau du co-occurrent, comme par exemple :
Lait de croissance > * growth milk
172
Enfin, 19% des traductions non-valides constituent des fausses erreurs (silence). Il est prfrable de privilgier llimination du bruit, mme si les cas de silence sont augments. En effet, les cas de silence non valids au cours de la phase 1, par la mthode des frquences pourront tre valides au cours de la phase 2.
Silence Tte incorrecte Co-occurrent incorrect Structure morpho-syntaxique on-compositionnalit Restriction de slection
8 13 2 13 4 3
Figure 66.
Co-occurrent incorrect 5%
Figure 67.
173
Chapitre 7.
Traductions compositionnelles
polysmiques
7.1 Introduction
Les premires recherches en dsambigusation lexicale ont eu lieu dans un contexte de Traduction Automatique, ce qui montre limportance de la dsambigusation lexicale pour la traduction (Audibert, 2003). Ds 1949, Weaver (1949) aborde dans son Memorandum la ncessit dune phase de dsambigusation lexicale pour la traduction par lordinateur : il nest pas possible daccder au sens dun mot ambigu dnu de tout contexte, tandis que laccs au contexte (aussi bien le contexte gauche que le contexte droit) de ce mot permet den dsambiguser le sens. La question reste de dterminer la taille moyenne de la fentre de mots utile la dsambigusation (Audibert, 2003). Kaplan (1955) montre lors dune exprience avec sept traducteurs que prsenter deux mots gauche et droite du mot ambigu nest pas plus significatif que de prsenter la phrase entire (Audibert, 2003). La problmatique du contexte dun mot, dans le cadre des dbuts des recherches en traduction automatique est reprsentative des travaux qui suivront dans le domaine. Dans le chapitre prcdent, nous avons prsent une mthode de traduction, base sur la frquence sur le Web des traductions candidates, pour les traductions compositionnelles et non polysmiques.
174
Toutefois, la frquence ne permet pas de dsambiguser systmatiquement les cas de polysmie : lentourage lexical des collocations nest pas pris en compte. Les performances des systmes en recherche d'informations interlingues, tout comme celles des systmes en traduction automatique sont fortement freines par le problme de lambigut lexicale des mots polysmiques ou homographes. Ainsi, la traduction anglaise du terme franais caisse est diffrente selon que l'usage concerne, entre autres, lINSTRUMENT DE MUSIQUE (drum), la BA QUE (fund) ou la VALISE (case). Le manque de dsambigusation lexicale pour la traduction automatique conduit des rsultats qui gnent souvent considrablement la comprhension. Par exemple, le systme de traduction automatique Systran traduit le terme complexe caisse centrale par central case. Pourtant, la polysmie est rendue trs faible ds que l'on envisage les mots-cls selon leur co-occurrent (Yarowsky, 1993, Shtze, 1998, Vronis, 2003).
Nous prsentons la deuxime phase de notre mthodologie, base principalement sur une comparaison entre mondes lexicaux (ensemble de co-occurrents), partir du Web. Cette phase est une version amliore de Lon (2006), qui prsente une mthode de comparaison des mondes lexicaux partir du Web : Lon (2006) construit les mondes lexicaux des units lexicales complexes sur le Web, puis, gnre leurs traductions candidates via un dictionnaire bilingue lectronique. Les mondes lexicaux de toutes les traductions candidates sont constitus. Enfin, les mondes lexicaux franais et anglais sont compars, afin de valider la traduction adquate par filtres statistiques. Lvaluation de Lon (2006), sur 10 mots franais trs polysmiques montre que lexploitation des mondes lexicaux des units lexicales complexes sur le Web permet une acquisition automatique de traductions avec une excellente prcision. Nous distinguons deux phnomnes de reprsentation du contexte dun mot ou dune combinaison lexicale :
Les dpendances syntaxiques : il sagit de mots qui entretiennent une relation de dpendance syntaxique avec le mot cible : sujet/prdicat, prdicat/objet, modification, etc. Ce sont les units lexicales complexes que nous avons collectes.
Les co-occurrences, un niveau suprieur, qui sont dans le mme entourage lexical mais qui nentretiennent pas ncessairement une relation de dpendance syntaxique :
175
nous parlons de mondes lexicaux. Ces mondes lexicaux peuvent tre utiliss pour lever une ambigit lexicale. Lexploitation des mondes lexicaux a t exploit dans diffrents contextes applicatifs, sous des appellations diverses. Nous prsentons dans un premier temps les diffrentes notions thoriques et applicatives relatives aux mondes lexicaux (7.1), avant de prsenter notre deuxime phase de mthodologie (7.2).
176
classes smantiques laquelle on attribue des lments (Tanguy, 1999). Par exemple1, les cooccurrences de soldat, char, gnral et offensive rvlent la thmatique de la guerre, car tous les smmes de ces noms sont porteurs du sme /guerre/. Selon Rossignol et Sbillot (2003), dun point de vue informatique, lisotopie smantique nat dun ensemble limit de mots porteurs du sme indiquant la thmatique recherch, quils appellent mots-cls (7.1.2). Lanalyse des isotopies smantiques est formalise en TAL pour la traduction par Tanguy (1997) et Tanguy (1999). Leurs travaux portent sur un reprage de structures smantiques gnrales pour la vrification automatique de traductions. Le logiciel TRACER2 (Tanguy, 1999) est un module daide la vrification de traduction bas sur la comparaison des isotopies. La mthode se base sur diffrentes stratgies de vrification traditionnelles (module dalignement, lexiques bilingues, comparaison des caractristiques de surface) dont lun des modules, innovant, se fonde sur une comparaison des structures smantiques du texte source et du texte cible. La mthode est fonde sur une tude de corrlation entre classes de termes mettant en vidence les principaux thmes des textes. Voici un exemple de classes smantiques proches en franais et en anglais (Tanguy, 1999) lies au logiciel de traitement de texte. Ces classes sont identifies par leur sme (en gras) et ont t tablies par lutilisateur sur la base de ses connaissances gnrales et via un thesaurus :
Format (franais) : page, champ, police, marge, en-tte, pieds de page, interligne, gras, italique Formatting (anglais) : edit, format, page, field, case, typing, heading, margin, bold, italic, font Document (franais) : symbole, texte, ligne, paragraphe, caractre, phrase, document, lettre, mmo, rapport, graphique
Exemple cit par Rossignol et Sbillot (2003). Le logiciel sinscrit dans le projet IDOL (IRS-based Document Localisation), plate-forme daide la traduction
177
Document (anglais) : symbol, text, typos, document, letter, memo, character, text, page, paragraph
Selon Tanguy (1999), une isotopie est une notion plus large que les relations smantiques dfinies dans les thsaurus telles que la synonymie. Les classes dquivalences smantiques sont des notions plus larges dun point de vue smantique, et elles ne sont pas lies aux catgories grammaticales. Contrairement nous, une intervention humaine est effectue afin dassigner des noms aux diffrentes classes. En ce qui nous concerne, nous ne procdons pas un reprage thmatique : le contexte lexical est utilis en tant quindice pour une comparaison entre le franais et langlais.
178
corpus, comme dans lexemple de guerre, prsent dans les deux thmes TERRITOIRE et EGOCIATIO S, pour lesquels les co-occurrences sont diffrentes :
Figure 1. Mots-cls diffrentiels de guerre pour les thmes TERRITOIRE et EGOCIATIO S1 Dautre part, lextraction de mots-cls thmatiques permet de regrouper des units lexicales dont le thme est proche, comme dans les exemples de pouvoir, autorit et gouvernement, prsents sous les thmes de TERRITOIRE dune part et de occurrences sont fortement similaires pour chaque thme : EGOCIATIO S, dont les co-
Exemple prsent par Pichon et Sbillot (1999a). Exemple prsent par Pichon et Sbillot (1999a).
179
Figure 3. Mots-cls similaires de pouvoir, autorit et gouvernement pour le thme EGOCIATIO S1 Dans la mme ligne, Rossignol et Sbillot (2003) dcrivent un systme de dtection automatique de thmes partir dun corpus non spcialis, multithmatique, reposant sur la notion de mots-cls et de dcoupage du corpus en sous-corpus thmatiques, dans un objectif de dsambigusation lexicale. Les rsultats, obtenus partir dun corpus du Monde diplomatique montrent une prcision de 85% et un rappel de 63%.
Exemple prsent par Pichon et Sbillot (1999a). Analyse Smantique Latente, en franais.
180
Chauch (1990), dans le cadre des champs linguistiques dans un espace vectoriel. Dans Schwab et al. (2004), les vecteurs conceptuels en franais sont construits partir dun ensemble de notions lmentaires collectes a priori dans le Larousse (1992). Lorsquun terme est polysmique, il combine diffrents vecteurs correspondant aux diffrents sens. Contrairement nous, les concepts sont donns a priori et relis aux items textuels. En ce qui nous concerne, nous ne faisons pas appel des ressources externes pour la construction de mondes lexicaux : ils sont construits uniquement partir des mots-cls les plus frquents collects dans les donnes textuelles.
Rsums automatiques
SUMMARIST (Hovy et Lin, 1999, Lin et Hovy, 2000) est un systme de gnration automatique de rsums, qui sappuie sur une mthode dacquisition de signatures thmatiques ( topic signature en anglais) ou signatures conceptuelles ( concept signatures ) (Hovy et Lin, 1999). La tche de rsum automatique consiste en une reformulation du texte original afin den dcrire lessentiel du contenu, contrairement un extrait de textes qui consiste en des portions isoles du texte original sans reformulation. La mthode de SUMMARIST est base sur trois tapes principales : une phase didentification thmatique, une phase dinterprtation smantique et une phase de gnration de rsums. Une signature thmatique est dfinie par Lin et Hovy (2000) comme un vecteur de termes (units lexicales simples ou complexes) frquemment associs un concept, partir dun corpus donn, et qui dans la tche de rsum automatique, regroupe les occurrences des termes avec le concept. Voici un exemple de signatures thmatiques en anglais associes au concept restaurant (restaurant-visit en anglais) Lin et Hovy (2000) :
table, menu, waiter, order, cat, pay, tip
181
Un concept trs proche des signatures thmatiques est celui de signatures pertinentes ( relevancy signatures en anglais), concept introduit par (Riloff, 1996, Riloff et Lorenzen, 1999), dvelopp pour une tche de rsum automatique. La diffrence principale entre les signatures thmatiques et les signatures pertinentes est que ces dernires ncessitent un parser (Lin et Hovy, 2000), tandis que les signatures thmatiques se basent uniquement sur des calculs statistiques partir de corpus.
Dsambigisation lexicale
Les signatures thmatiques sont utiliss dans le domaine de la dsambigisation lexicale et de lenrichissement dontologies. Agirre et al. (2000b, 2001,), Agirre et Lopez (2003) et Agirre et Lopez (2004) utilisent le Web afin dacqurir les signatures thmatiques associes aux concepts de WordNet1, pour diverses taches de dsambigisation lexicale, denrichissement de la description smantique et des liens thmatiques qui relient les concepts. WordNet est un lexique disponible en ligne qui organise les units lexicales en fonction de leur sens et de leurs relations smantiques avec les autres units (synonymie, antonymie, etc.). Par exemple, le nom waiter compte deux usages dans WorNet (Agirre et al., 2000b) :
(1) waiter, server a person whose occupation is to serve at table (as in a restaurant) (2) waiter a person who waits or awaits
Pour chaque usage, les signatures thmatiques obtenues sont les suivantes (Agirre et al., 2000b) :
waiter(1) : restaurant, menu, waitress, dinner, lunch, counter, etc. waiter(2) : hospital, station, airport, boyfriend, girlfriend, cigarette, etc.
La mthode dacquisition de signatures thmatiques de Agirre et al. (2000b) passe par une acquisition de textes associs chaque concept de WordNet partir du Web. Les requtes
1
http://wordnet.princeton.edu/
182
sont construites partir des informations fournies par WordNet. Voici un exemple de requte, gnre pour le premier sens du nom boy (=male child, boy, child a younthful male person) (Agirre et al., 2000b) :
(boy A D (altar boy OR ball boy OR OR male person A D OT (man ORbroth of a boy OR #sense 2 son OR OR mamas boy OR #sense 3 nigger OR OR black) #sense 4
Les textes collects sont classs en fonction de chaque sens des concepts. Les mots-cls sont extraits pour chaque collection et sont compars avec ceux des autres collections. Les motscls qui ont une frquence significative dans une collection par rapport aux autres constituent les signatures thmatiques. Voici un extrait de signatures thmatiques obtenues pour le sens 1 de boy (Agirre et al., 2000b) :
child, Child, person, anything.com, Opportunities, Insurance, children, Girl, Person, Careguide, Spend, Wash, enriching, prizes, Scouts, Guides, Helps, Christmas, male, address, paid, age, mother
Des affinements de construction des signatures thmatiques sont apports dans Agirre et al. (2001) tels que le nombre de documents extraits par site, la prise en compte des lemmes, la restriction du contexte aux phrases, et lutilisation dun corpus de rfrence pour laide la validation des termes. Les travaux de Agirre et al. (2000b, 2001) et Santemaria et al. (2003) montrent que les signatures thmatiques sont efficaces pour lacquisition automatique de sens. Agirre et Lopez (2003) montrent quelles peuvent tre utilises pour une classification des sens des mots. Martinez et Agirre (2004) montrent quelles sont utiles pour une dsambigisation lexicale. Agirre et al. (2004) montrent quelles permettent de dtecter la similarit entre sens. Klapaftis et Manandhar (2005) dveloppent une mthode de dsambigisation de termes partir du Web, dans la mme ligne que Agirre et al. (2000b).
183
Chung et al. (2006) utilisent des signatures thmatiques pour la construction dontologies partir du Web. La mthode, nomme, WebSim, sappuie sur deux modles, lun de calcul dinformation mutuelle : lhypothse est que les co-occurrences de termes sont un indice de leur proximit smantique ; lautre sur ltude de similarit entre signatures thmatiques1. Voici un exemple de signatures thmatiques obtenues par WebSim :
Figure 68.
Signatures thmatiques
Lauteur nutilise pas la terminologie de signature thmatique , mais parle en anglais de features ou
184
L'algorithme exploite la structure particulire des graphes de cooccurrences entre mots (mots qui apparaissent frquemment ensemble), qui forment des "petits mondes", un type de graphe qui fait depuis quelques annes l'objet de recherches intensives
Figure 69.
Un clic sur chacun des mots permet dexprimer de nouvelles requtes. Dans cet exemple, quatre mots apparaissent fortement en co-occurrence avec barrage : match, eau, frontire et routier. Ces quatre mots refltent quatre usages diffrents du mot barrage (ibid.). Tous les autres co-occurrents du mot ont toutes les chances dapparatre en contact avec lun de ces quatre mots-racine (ibid.) :
(1) EAU, construction, ouvrage, rivire (2) ROUTIER, vhicule, camion, membre
185
(3) FRO TIERE, Algrie, militaire, efficacit (4) MATCH, vainqueur, victoire
forme de nuage le monde lexical dune requte sur le Web francophone1, comme dans lexemple de barrage :
Figure 70.
Dans nos travaux, nous parlons de monde lexical afin de dsigner les co-occurrences frquentes d'un mot ou dun terme complexe, la suite des travaux de (Vronis, 2003). De tels voisinages, plus larges que le co-occurrent immdiat, peuvent se situer au niveau du paragraphe, ou mme de la phrase. Toutefois, la diffrence de Vronis (2003), ces mondes lexicaux sont exploits dans un contexte de traduction et de comparaison entre le franais et langlais, pour la slection de traduction candidate.
http://aixtal.blogspot.com/2006/01/outil-le-nbuloscope.html
186
non polysmiques. En revanche, la frquence ne permet pas de dsambiguser les cas de polysmie. Dans Lon (2006), nous montrons quune comparaison des mondes lexicaux permet de lever un grand nombre dambiguts lexicales. Par exemple, voici le monde lexical nominal de la requte appareil compact , retourne partir des rsums sur Yahoo :
reflex, gamme, zoom, bridge, produit, qualit, canon, photographie, capteur, mode, achat, catalogue, optique, objectif, flash, cran, botier, tlphone, affichage, rglage, quipement, traute, amateur, mesure, offre
Lon (2006) prsente une mthode de traduction automatique dunits lexicales complexes, fonde sur une comparaison entre mondes lexicaux, partir du Web. Les mondes lexicaux des units lexicales complexes sources sont compars avec ceux des traductions candidates, dans une optique de dsambigusation lexicale. Une valuation sur 10 noms franais trs polysmiques1 montre que lexploitation des mondes lexicaux sur le Web permet une acquisition automatique de traductions avec une excellente prcision, de 100%. Ces mondes lexicaux peuvent la fois constituer des ressources en tant qu'aide la traduction, mais aussi tre exploits pour une organisation de la connaissance bilingue de type ontologique. Une limite de Lon (2006) est labsence danalyse morpho-syntaxique pour la construction de mondes lexicaux. Notre phase de traitement sappuie sur une version amliore de Lon (2006), prenant en compte les aspects morpho-syntaxiques des mondes lexicaux, intgrant des filtres additionnels aux mondes lexicaux et dont les tests seffectuent plus grande chelle.
Nous prenons pour point de dpart les 977 units lexicales complexes sources restantes traduire, aprs lapplication de la phase prcdente. Celles-ci comprennent les units lexicales
Le degr de polysmie a t valu sur le nombre de traductions candidates par nom au sein du dictionnaire
187
polysmiques, ainsi que celles, non polysmiques qui nont pas t valides dans la section prcdente.
Les traductions candidates sont gnres par la mme mthode que celle dtaille en section (6.6). Les co-occurrents dont aucune traduction na t trouve dans notre dictionnaire sont recherchs dans le dictionnaire de Google, ce qui nous permet dacqurir les traductions de co-occurrents, pour 2.66% des traductions de dpart. Voici un exemple de traductions absentes de notre dictionnaire, recenses dans le dictionnaire de Google :
Figure 71.
Le schma suivant prsente la quantit de traductions candidates gnres, par patron morpho-syntaxique. Les patrons OM DE OM et OM D OM ont un nombre moyen plus lev de traductions candidates, car deux patrons morpho-syntaxiques sont pris en compte en anglais, tandis quun seul nest possible pour le patron OM-ADJECTIF.
Traductions gnres OM ADJ OM DE OM OM D' OM TOTAL 5514 8397 4933 18844 Moyenne par unit lexicale complexe franaise 10 28 32 23
Figure 72.
188
Ce type de requte permet de cibler le contenu dun document parallle ou dun document partiellement parallle. Ce filtre ne garantit pas que le couple entre dans une relation directe de traduction. Par exemple, la requte suivante retourne 932 rsultats, ce qui est lev pour une requte mixte :
caisse claire kick drum
La traduction kick drum signifie grosse caisse, mais apparat frquemment dans des pages o caisse claire, smantiquement proche, est employ, comme dans lexemple :
189
Dune faon gnrale, le couple de traduction correct apparat de faon plus frquente, mais cet aspect nest pas systmatique et ne permet pas de slectionner la traduction adquate de faon crasante.
Afin dviter au maximum les cas de silence, nous tablissons un filtre de frquence faible : les couples de traduction doivent avoir une frquence suprieure ou gale 1. Les frquences des couples conserves sont classes par ordre dcroissant et nous ne conservons que les trois couples les plus frquents. Aprs cette tape, il reste 10,2 % des traductions candidates qui avaient t gnres. Il est dlicat dvaluer la pertinence exacte dun filtre bas sur le test du web parallle . En ce qui concerne le bruit, ce filtre est un filtre pralable, et le fait que des traductions errones soient conserves aprs ce filtre nest pas problmatique, puisque les filtres suivants permettront une validation plus prcise. En ce qui concerne dventuels cas de silence, les rsultats totaux que nous obtenons la fin du processus (82,51 % de traductions obtenues) montre que le silence est peu lev et nous conforte dans lide que lutilisation du filtre bas sur le web parallle nous offre lavantage dallger le processus de notre mthode car il serait trop coteux de construire un monde lexical pour toutes les traductions candidates gnres au dpart (nous en obtenons 18 844 avant filtres), sans pour autant que le silence ne soit lev (seules 17,49% des units lexicales complexes sources nont pas obtenu de traduction).
190
191
Figure 73.
Le moteur de recherche Yahoo est interrog automatiquement par script via linterface de programmation dapplications API1 (Application Programming Interface) afin de rcuprer les 1000 premiers titres et rsums renvoys pour chaque requte des termes complexes. Ces dernires sont encadres par des guillemets afin d'tre considres comme une expression exacte, et sont largies leur forme au singulier et au pluriel, en limitant les rsultats la langue franaise, comme dans lexemple :
caisse centrale - caisses centrales caisses centrales - caisse centrale caisse centrale + caisses centrales
Les rsums sont nettoys automatiquement par script, afin de rtablir certains problmes de codage des caractres accentus ou de supprimer des adresses Internet, etc. Ils sont ensuite
1
http://developer.yahoo.net/
192
tiquets morpho-syntaxiquement avec le logiciel Treetagger, afin de filtrer la catgorie morpho-syntaxique des mots extraire : nous ne conservons dans un premier temps que les noms et les adjectifs, catgories morpho-syntaxiques les plus susceptibles de faire merger des champs thmatiques. Pour chaque unit lexicale complexe, nous slectionnons de faon automatique les cinquante noms et les cinquante adjectifs les plus frquents parmi les rsums. Ces mots constituent leur monde lexical. Le choix de longueur du monde lexical sest opr par observation, pour dterminer un seuil reprsentatif. Un anti-dictionnaire est utilis pour supprimer les mots non pertinents tels que des mots lis au Web (comme par exemple lien, blog, etc.), des verbes supports, etc. Voici pour illustration les mondes lexicaux de appareil compact et appareil militaire , assorties de leurs frquences absolues :
APPAREIL COMPACT OMS reflex (137), gamme (112), zoom (103), bridge (102), produit (101), qualit (93), canon (87), photographie (75), capteur (70), mode (69), achat (69), catalogue (50), optique (46), objectif (44), flash (44), cran (42), botier (40), tlphone (39), affichage (38), rglage (37) numrique (532), optique (84), automatique (70), reflex (56), argentique (54), lger (48), pratique (37), matriel (36), puissant (33), portable (33), technique (32), souple (28), classique (28), beau (28), professionnel (27), objectif (27), lgant (27), informatique (26), digital (26), idal (24)
ADJECTIFS
Figure 74.
OMS
pays (123), guerre (121), avion (120), scurit (108), membre (103), source (84), existence (77), socit (61), raction (61), vol (60), monde (46), technologie (45), esprit (44), conflit (44), libration (43), transport (42), aviation (42), supriorit (40), droit (39), intgration (38) civil (112), puissant (110), franais (90), tranger (89), amricain (78), politique (69), utilisateur (57), arien (56), mdiatique (54), national (40), majeur (40), rel (39), mauvais (39), conomique (33), ancien (32), mondial (27), social (26), iranien (26), francophone (26), arm (26)
ADJECTIFS
Figure 75.
193
Le monde lexical des traductions candidates est cr de la mme faon que pour les rsums franais, dont voici des extraits pour des traductions relatives au nom appareil :
COMPACT CAMERA lens (141), quality (96), image (96), case (96), film (90), range (89), price (89), market (74), photography (64), photo (64), zoom (60), size (55), product (55), resoltion (53), design (51), equipment (47), tripod (46), line (44), flash (44), body (43) digital (733), optical (80), ultra (76), low (63), wide (53), stylish (50), photographic (50), available (50), top (43), light (39), advanced (35), underwater (33), manual (30), perfect (29), video (28), professional (28), waterproof (27), popular (27), leading (25), simple (24)
OMS
ADJECTIFS
Figure 76.
OMS
MILITARY PLA E crash (166), aircraft (165), air (141), world (77), fighter (69), time (64), transport (60), area (60), airport (60), security (52), missile (51), fire (49), airplane (49), aviation (46), war (45), pilot (43), jet (43), governement (41), airspace (40), cargo (38) russian (111), civilian (77), american (73), iranian (66), commercial (48), chinese (48), german (47), strategic (40), iraqi (38), international (37), french (35), least (34), foreign (34), vintage (32), venezuelan (32), free (32), added (31), political (30), turkish (29), regular (29)
ADJECTIFS
Figure 77.
194
Les Entits Nommes tiennent une place importante parmi les mondes lexicaux. Toutefois, il nest pas possible de reprer leur quivalence en franais et en anglais, sauf lorsque la traduction est la mme.
Pour la comparaison des mondes lexicaux, nous utilisons le coefficient de Jacquard, qui mesure le degr de similitude entre deux ensembles. La formule est la suivante :
| inter(X,Y) | / | union (X,Y) |1
Etant donn les ensembles de termes des mondes lexicaux franais (A) et anglais (B), certains termes sont en commun et dautres nappartiennent qu lun ou lautre des mondes lexicaux. Le coefficient de Jacquard tablit le rapport entre lintersection des deux ensembles A et B et lunion de A et B : L'intersection de deux ensembles A et B est l'ensemble qui contient tous les lments qui appartiennent la fois A et B, et seulement ceux-l :
Les scores sont ensuite multiplis par mille afin dtre rendus plus lisibles.
195
Figure 78.
Pour nous, lintersection concerne les termes qui apparaissent la fois dans le nuage lexical franais et dans le nuage lexical anglais.
Lunion de deux ensembles A et B est lensemble qui contient tous les lments appartenant soit A, soit B. Pour nous, lunion se rfre tous les termes appartenant au nuage lexical franais et tous les termes appartenant au nuage lexical anglais.
Nos calculs sont appliqus aux mondes lexicaux contenant les noms et aux mondes lexicaux contenant les adjectifs, de faon spare. Notre hypothse est quun couple de traduction contient un nombre significatif de noms en commun et un nombre significatif dadjectifs en commun. Lanalyse distincte de ces deux ensembles catgoriels permet dobtenir une analyse comparative plus fine. Nous appliquons plusieurs filtres aux coefficients de Jacquard : Le coefficient de Jacquard concernant les mondes lexicaux des noms doit tre suprieur ou gal 40. Le coefficient de Jacquard concernant les mondes lexicaux des adjectifs doit tre suprieur ou gal 30.
http://fr.wikipedia.org/wiki/Intersection_%28math%C3%A9matiques%29
196
La moyenne des coefficients de Jacquard pour les noms et pour les adjectifs doit tre suprieure ou gale 60.
Ces filtres ont t tablis de faon exprimentale, par observation des donnes. Nous avons constat que les couples de traduction pertinents ont un nombre significatif de noms et dadjectifs en commun : les noms sont plus indicateurs de thme que les adjectifs et les couples pertinents contiennent plus de noms en commun que dadjectifs. Voici un exemple de termes communs au couple appareil compact/compact camera :
APPAREIL COMPACT / COMPACT CAMERA botier/case, dimension/size, quipement/equipment, flash/flash, gamme/range, march/market, mmoire/memory, mesure/time, monde/world, objectif/lens, photographie/photography, produit/product, qualit/quality, sac/bag, srie/series, taille/size, technologie/technology, zoom/zoom
OMS
ADJECTIFS
automatique/automatic, digital/digital, tanche/waterproof, faible/low, idal/ideal, lger/light, manuel/manual, optique/optical, parfait/perfect, portable/portable, professionnel/professional, puissant/powerful, rapide/fast, rare/rare
Figure 79.
197
Filtre automatique Units lexicales Traductions candidates Filtre Web Filtre Filtre restantes aprs la gnres parallle, rapport indice de phase 1 top 3 franais/ similarit anglais 977 18 844 1919 1239 674
Figure 80.
Etapes de validation
Les mondes lexicaux obtenus sont en eux-mmes intressants, et peuvent probablement tre exploits comme ressource bilingue. La figure 81 donne un exemple de traductions obtenues en phase 2, pour les trois patrons morpho-syntaxiques :
PATRO OM ADJECTIF U ITE LEXICALE SOURCE accident grave analyse financire crampe musculaire douleur physique clat naturel fumeur invtr histoire courte OM de OM immeuble rsidentiel caisse de dpt course de karting cours de morale disque de platine football de table laboratoire de recherche licence de psychologie mouvement de protestation consommation d'essence hall d'entre jet d'encre lettre d'acceptation manque d'amour mthode d'estimation TRADUCTIO serious accident financial analysis muscular cramp physical pain natural shine habitual smoker short tale residential building deposit fund karting race ethics class platinum record table soccer research laboratory psychology degree protest movement gasoline consumption entrance hall ink jet acceptance letter lack of love assessment system
OM d' OM
Figure 81.
198
Les schmas suivants montrent la proportion de traductions obtenues, pour chaque phase de la mthodologie, ainsi que la proportion de traductions restantes traduire :
3,63% Google
60,28% Pha se 2
Figure 82.
Collins Google Phase1 (Frquences) Phase 2 (Mondes lexicaux_Co-occurrents Google) Phase 2 (Mondes lexicaux) TOTAL
1075 303
Figure 83.
199
unique domaine de spcialit amoindrirait lapport de cette phase de mthodologie. Toutefois, une difficult concerne les units lexicales complexes dont le sens est gnral et ne sinscrit pas dans un domaine de spcialit donn. Par exemple, le monde lexical de lunit lexicale complexe mois dabsence est htrogne, car cette unit nest pas reprsentative dun domaine de spcialit prcis :
MOIS D'ABSE CE OMS membre (28), srie (25), match (21), sport (19), musique (18), football (18), championnat (17), sant (16), monde (16), saison (15), foot (14), quipe (14), film (13), voyage (12), succs (12), journe (12), discussion (12), connexion (12), cinma (12), accueil (12) franais (19), beau (17), francophone (12), ivoirien (10), professionnel (9), jeune (9), bienvenu (9), politique (9), ancien (8), rapide (7), national (7), live (7), informatique (7), social (6), prsent (6), longue (6), virtuel (5), sportif (5), public (5), prochain (5)
ADJECTIFS
Figure 84.
Mme si ces cas sont peu nombreux, la construction des mondes lexicaux pour les units lexicales de sens gnral, ou en tout cas moins spcialis, posent la difficult de leur homognit. Il est toutefois dlicat dvaluer lhomognit dun monde lexical : cette notion, plutt intuitive, est difficilement formalisable de faon automatique, moins dtablir des comparaisons entre mondes lexicaux au sein de la langue source et de regrouper les units lexicales complexes en franais selon des grandes familles thmatiques. Nous reviendrons sur cette limite, due au recouvrement de nombreux domaines de spcialit, dans les perspectives (chapitre 10).
200
Chapitre 8.
Traductions non-compositionnelles
et inconnues
8.1 Introduction
A ce stade de notre mthode, plusieurs difficults expliquent labsence de traduction des units lexicales manquantes :
1) La traduction nest pas compositionnelle, et la somme des traductions de chaque lment de lunit lexicale complexe ne permet pas dobtenir la traduction adquate, comme dans lexemple de :
caisse claire > snare drum (tambour pige)
Les ressources lexicales existantes contiennent peu dinformations sur ces phnomnes idiomatiques, recensant un nombre rduit de ces phnomnes, gnralement les plus figs. Le Web (rsums, pages Web) est une ressource utile afin dacqurir ce genre de traductions. 2) La base et/ou le co-occurrent est recens dans notre dictionnaire, mais lusage pertinent nest pas rpertori, comme pour :
caisse dpargne > savings bank
201
Dans cet exemple, lusage de caisse (BA QUE) nest pas rpertori dans notre dictionnaire. Ce phnomne est dissocier du prcdent, car ici, la traduction est compositionnelle, lune des traductions possibles de caisse est bank, mais cette traduction nest pas resence. 3) La base ou le co-occurrent est un terme technique non recens dans notre dictionnaire ni dans celui de Google, comme dans :
Appareil circulatoire
Dans cet exemple, la traduction de circulatoire est inconnue de nos ressources dictionnairiques. Etant donn que la liste des ttes smantiques a t gnre via notre dictionnaire bilingue, seule labsence de traduction des co-occurrents est concerne. Les cooccurrents dont les traductions sont absentes concernent 7.07% de notre chantillon de dpart, comme dans les exemples :
vasculaire fluorydrique
Les traductions absentes concernent gnralement des termes techniques appartenant un domaine de spcialit.
8.2.1
otion de compositionnalit
La notion de compositionnalit dsigne le fait que le sens global dune unit lexicale complexe est dcomposable en la somme de sens de ses constituants. Par exemple, lunit lexicale pluie forte est dcomposable en accumulant le sens de pluie et le sens de forte. Toutefois, il arrive que le sens des units lexicales complexes ne soit plus dcomposable,
202
parce quil forme un nouveau tout lexical . Cette notion rejoint la dfinition de mot compos (Grvisse, 1975):
Un mot, quoique form dlments graphiquement indpendants, est compos ds le moment o il voque dans lesprit, non les images distinctes rpondant chacun des mots composants, mais une image unique. Ainsi les composs htel de ville, pomme de terre, arc de triomphe veillent chacun dans lesprit une image unique, et non les images distinctes dhtel et de ville, de pomme et de terre, darc et de triomphe
Cette notion dimage unique , qui est lunicit du rfrent nest pas systmatiquement lie la notion de compositionnalit. Ainsi, une combinaison lexicale peut dsigner un rfrent unique, et tre transparente, comme lexemple :
barrage hydraulique
Au contraire, elle peut ne pas dsigner un rfrent unique et tre opaque, ou partiellement opaque, puisque le sens des constituants runis ne sera pas la somme du sens de chaque constituant pris sparment, comme dans le clbre exemple de peur bleue. Ainsi, il faut encore dsigner le figement de la compositionnalit.
Du point de vue de la traduction, la notion de compositionnalit est fondamentale, car cest elle qui dtermine en partie1 si la traduction peut tre littrale. Par exemple, la combinaison littrale barrage hydraulique est transparente et se traduit de faon littrale par hydraulic dam. En revanche, la combinaison lexicale peur bleue ne se traduit pas de faon littrale. Bien sr, vient se rajouter cette notion, laspect idiomatique qui fait quune combinaison lexicale compositionnelle peut sexprimer dune autre manire dans une autre langue, tandis quune combinaison lexicale non-compositionnelle peut conserver son opacit dune langue lautre. Dans ce chapitre, nous dcrivons une mthode permettant dacqurir les traductions dunits lexicales complexes qui ne peuvent pas tre traduites de faon transparente.
Rserves tant mises sur laspect idiomatique des combinaisons lexicales, et donc de la possibilit dune
203
Figure 85.
Dans cet exemple, les rsums mixtes contiennent la fois le terme source, caisse claire et sa traduction snare drum. La stratgie consiste mettre en place des mthodes didentification automatique des traductions candidates au sein des rsums mixtes . Cette tche est dlicate car il nest pas possible dtiqueter morpho-syntaxiquement ces rsums, dune faon satisfaisante. Nous nous basons sur deux stratgies de collecte des traductions candidates, partir des rsums bruts : dans un premier temps, nous identifions les
204
cognates candidats des units lexicales sources, et dans un second temps, nous reprons les bigrammes les plus frquents. Ces deux tapes se prsentent de la mme faon que les tapes prcdentes, cest--dire quelles sont successives : nous recherchons dabord tous les cognates des units lexicales restant traduire. Nous passons ensuite par plusieurs filtres de validation. Les traductions non obtenues ce stade passent alors par le module des bigrammes frquents.
OM. Nous ne traitons pas non plus le cas o une unit lexicale complexe source se traduirait par une unit lexicale simple en anglais. Toutefois, lanalyse de textes non tiquets est une tche dlicate et nous faisons le choix de nous centrer sur le patron morpho-syntaxique candidat le plus frquent. Un anti-dictionnaire est galement utilis. A partir des 303 units lexicales sources restantes traduire, 327 815 bigrammes diffrents sont gnrs.
Dans un premier temps, nous nous centrons sur le reprage de cognates, cest--dire de doccurrences qui sont identiques ou se ressemblent graphiquement (Vronis, 2000a). Il
205
peut sagir, par exemple de mots graphiquement apparents tels que langue et language (ibid.).
Rgularits de formes identiques : lunit lexicale source et lunit lexicale cible sont identiques :
salle de chat > chat room extrait de code > code snippet
Rgularits de formes de bases communes : seule la racine des termes est identique :
astrologie vdique > vedic astrology
Nous comparons les quatre premires lettres du co-occurrent anglais (premier lment du bigramme) avec celui du co-occurrent franais (deuxime lment), comme dans lexemple de :
Appareil circulatoire > circulatory system
206
Nous nous appuyons sur les travaux de Simard (1992), qui propose de considrer comme cognates des mots qui ont les mmes quatre lettres initiales. Cette longueur peut parfois provoquer des cas de silence comme dans lexemple (Veronis, 2000a) :
gouvernement > government
Toutefois, le choix dune longueur de quatre lettres communes est un compromis afin de limiter des rsultats bruits (qui ne sont pas des cognates), susceptibles dtre plus levs avec un nombre plus rduit de lettres, tout en limitant au maximum le silence. Par exemple, tablir une comparaison partir de cinq lettres aurait provoqu des cas de silence, notamment pour le reprage de termes courts, comme dans lexemple :
agneau pascal > paschal lamb
Voici un exemple des cinq cognates candidats les plus frquents pour lunit lexicale acide fluorhydrique :
fluoridrico pharmacy fluorhydrique theretical fluo publication fluoric acid fluoride acide
A ce stade du traitement, les rsultats prsentent du bruit, tels que des termes franais ou des erreurs de rattachement comme dans :
fluorhydrique theretical
Toutefois, dautres filtres vont tre utiliss. Nous obtenons 8116 traductions avec cognates candidates. Parmi les bigrammes obtenus, nous conservons les 50 bigrammes les plus
207
frquents pour chaque collocation source, ce qui nous fait 5178 traductions candidates. La proportion de bigrammes candidats par unit lexicale franaise conserve cette tape est de 17.
Les traductions candidates restantes sont testes par le biais de requtes en couple sur le Web, de la mme faon que dans la phase prcdente, comme dans lexemple :
acide fluorhydrique fluoridrico pharmacy acide fluorhydrique fluorhydrique theretical acide fluorhydrique fluo publication acide fluorhydrique fluoric acid acide fluorhydrique fluoride acide
Nous obtenons 2210 traductions candidates restantes aprs ce filtre. Contrairement la mthode prcdente, nous conservons les dix couples les plus frquents. Les traductions candidates gnres cette tape sont plus bruites que celles de la phase prcdente qui taient gnres directement via le dictionnaire. Nous conservons plus de traductions afin de palier des cas de silence. Il nous reste 1287 traductions candidates.
Nous utilisons ensuite le filtre du rapport entre les frquences franaises et anglaises, comme dans la phase prcdente. Cette tape nous permet de filtrer un grand nombre de traductions candidates bruites, comme dans les exemples :
"pression osmotique" (47500) "osmotic pressure" (758000) "pression osmotique" (47500) "osmotique figure" (15) Valid on valid
208
on valid
Il nous reste, aprs tous les filtres, 292 traductions candidates. Les traductions candidates restantes sont ensuite testes par une comparaison des mondes lexicaux franais et anglais, par la mme mthode que pour la phase 2, prsente dans le chapitre 7. Les mmes filtres sont appliqus :
Le coefficient de Jacquard concernant les mondes lexicaux des noms doit tre suprieur ou gal 40.
Le coefficient de Jacquard concernant les mondes lexicaux des adjectifs doit tre suprieur ou gal 30.
La moyenne des coefficients de Jacquard pour les noms et pour les adjectifs doit tre suprieure ou gale 60.
Voici des exemples de mondes lexicaux en commun pour les couples accident vasculaire / vascular desease et parc thmatique / theme park :
OMS
ACCIDE T VASCULAIRE / VASCULAR DISEASE artre/artery, attaque/stroke, cerveau/brain, cur/heart, dcs/death, diabte/diabetes, diagnostic/diagnosis, tude/study, hypertension/hypertension, mort/death, patient/patient, prvention/prevention, risque/risk, sant/health, soin/care, soin/treatment, traitement/traitment cardiaque/cardiac, chronique/chronic, majeur/major, mdical/medical, patient/patient, prcoce/early
ADJECTIFS
Figure 86.
209
OMS
PARC THEMATIQUE / THEME PARK attraction/attraction, aventure/adventure, billet/ticket, eau/water, entre/admission, famille/family, film/movie, golf/golf, htel/hotel, industrie/industry, monde/world, vacance/vacation, visiste/visit, voyage/trip animal/animal, clbre/famous, excitant/exciting, historique/historical, national/national, populaire/popular, professionnel/professional, rgional/regional, spcial/special
ADJECTIFS
Figure 87.
A lissue de cette tape, 89 traductions sont valides, soit 29.37% des units lexicales de dpart pour cette phase, et 8.27% de la totalit de nos donnes de dpart.
PATRO OM ADJECTIF
U ITE LEXICALE SOURCE accident vasculaire acide amin acide nuclique acteur conomique affection neurologique alimentation modulaire ambiance thermique
TRADUCTIO vascular disease amino acid nucleic acid economic actor neurological disease modular power thermal comfort gastric band consulting group toilet water protective helmet product manager protective cover execution platform excellence scholarships activation code ambient music
OM de OM
OM d' OM
anneau gastrique cabinet de conseil cabinet de toilette casque de protection chef de produit tui de protection agent d'excution bourse d'excellence code d'activation musique d'ambiance
Figure 88.
Le schma suivant rcapitule les tapes de filtres pour la mthode des cognates :
210
Filtre automatique Units lexicales Traductions candidates Filtre Web Filtre Filtre restantes aprs la gnres parallle, rapport indice de phase 2 top 10 franais/ similarit anglais 303 327 815 1287 292 89
souris d'agneau "lamb shank" souris d'agneau "geneve pays" souris d'agneau "detail produit" souris d'agneau "lamb shanks" souris d'agneau "weekly letter" souris d'agneau "anglais discussion" souris d'agneau "zucchini recipe" souris d'agneau "weather forecast" souris d'agneau "username password" souris d'agneau "train station" souris d'agneau "touquet restaurant" souris d'agneau "themes developed" souris d'agneau "team keep" souris d'agneau "tapestry founded" souris d'agneau "station restaurant" souris d'agneau "soupe fruits" souris d'agneau "siran chocolate" souris d'agneau "several themes" souris d'agneau "scones biscuits" souris d'agneau "salted nuts"
Figure 89.
211
De la mme faon que prcdemment, les 20 bigrammes pour chaque unit lexicale source sont tests par le biais du Web parallle et par un filtre du calcul des frquences franaises et anglaises. Il nous reste 2424 traductions aprs le filtre du Web parallle. Nous ne conservons que les 3 couples les plus frquents, ce qui nous laisse 637 bigrammes.
Les rsums anglais des traductions candidates restantes sont collects et leurs mondes lexicaux sont compars avec les mondes lexicaux sources, comme dcrits prcdemment. Le filtre de Jacquard est toutefois beaucoup plus puissant que dans la mthode des cognates, car les traductions sont susceptibles dtre davantage bruites (laccs aux ressources dictionnairiques dans un premier temps, et le reprage des cognates dans un second temps constituaient des indices plus fiables que les simples bigrammes) :
Le coefficient de Jacquard concernant les mondes lexicaux des noms doit tre suprieur ou gal 110.
Le coefficient de Jacquard concernant les mondes lexicaux des adjectifs doit tre suprieur ou gal 100.
La moyenne des coefficients de Jacquard pour les noms et pour les adjectifs doit tre suprieure ou gale 130.
Voici deux exemples de mondes lexicaux obtenus pour lunit lexicale souris dagneau et sa traduction lamb shank :
SOURIS D'AG EAU OMS restaurant (257), recette (166), cuisine (162), salade (89), plat (66), carte (60), vin (43), lgume (43), canard (43), foie (42), tomate (34) chef (34), entre (32), saumon (31), sauce (31), cur (30), table (29), huile (28), gigot (28), filet (27) gras (48), confit (34), vert (30), gastronomique (23), beau (23), frais (21), traditionnel (20), blanc (19), fum (16), ancien (15), provenal (14), gourmand (12), chaleureux (12), franais (11), sec (10), original (10), rti (9), parisien (9), chaud (9), bienvenu (9)
ADJECTIFS
Figure 90.
212
LAMB SHA K OMS recipe (250), oil (203), salt (202), pepper (192), sauce (187), garlic (157), wine (153), meat (151), flour (117), leg (114), onion (109), tender (106), season (104), dish (104), beef (103), food (93), cup (98), tomato (86), bone (85), restaurant (82) ADJECTIFS olive (112), fresh (102), red (93), slow (81), brown (79), delicious (65), whole (51), white (50), grilled (43), dry (43), moroccan (42), black (40), seasoned (39), meaty (36), french (35), greek (34), special (33), rich (33), boneless (33), top (32)
Figure 91.
OMS
SOURIS D'AG EAU / LAMB SHA K ail/galic, carte/menu, chef/chef, cuisine/cooking, cuisine/food, huile/oil, lgume/vegetable, oignon/onion, plat/dish, recette/recipe, restaurant/restaurant, sauce/sauce, soupe/soup, tomate/tomato, viande/meat, vin/wine blanc/white, chaleureux/warm, chaud/hearty, chaud/warm, classique/classic, doux/sweet, frais/fresh, gras/fat, parfait/perfect, particulier/special, riche/rich, sec/cold, sec/dry, spcial/special, tide/warm, traditionnel/traditional, vert/green
ADJECTIFS
A lissue de cette tape, 26 traductions sont valides. Nous avons volontairement instaur des filtres plus puissants car cette tape gnre davantage de traductions bruites. Voici un exemple de traductions obtenues par la mthode des bigrammes frquents:
213
PATRO OM ADJECTIF
U ITE LEXICALE SOURCE antenne filaire appel vocal applique murale aurore borale caisse autonome effet indsirable esprit impur
TRADUCTIO wire antenna voice call wall lamp northern light social security side effect unclean spirit identification plate milk carton load factor processing industry chicken breasts power supply nitrogen oxide lamb shank
OM de OM
OM d' OM
plaque signaltique brique de lait facteur de charge industrie de transformation suprme de volaille bloc d'alimentation oxyde d'azote souris d'agneau
Figure 92.
Le schma suivant rcapitule les tapes de filtres pour la mthode des bigrammes frquents :
Filtre automatique Units lexicales Traductions candidates Filtre Web Filtre Filtre restantes aprs la gnres parallle, rapport indice de phase 3 (Cognats) top 3 franais/ similarit anglais 214 201 256 637 26
Figure 93.
214
Traductions opaques
Les collocations opaques contiennent des collocatifs imprdictibles smantiquement, tandis que la base conserve son sens habituel. Dans le cadre de la traduction, plusieurs cas daltration smantique sont possibles :
- Sens altr de la tte smantique : il arrive que le co-occurrent conserve son sens habituel, mais que la tte smantique soit altre dans un contexte lexical prcis, comme dans lexemple de souris dagneau, ou souris ne peut pas tre traduit de faon littrale par mouse.
- Sens altr du co-occurrent : la base conserve une des traductions habituelles, mais le cooccurrent nest pas traduit de faon littrale comme dans lexemple suivant :
caisse noire > secret funds
Le sens de ladjectif noir, combin la tte smantique caisse ne dsigne pas la couleur, mais a le sens de secret.
- Sens altr des deux constituants : il arrive que le sens des deux constituants soit altr, comme dans lexemple :
cl des champs > free rein
215
Traductions transparentes
Les traductions transparentes comportent des collocatifs aisment interprtables, bien qutant imprdictibles dun point de vue lexical, comme dans lexemple :
pluie forte > heavy rain
Bien que lunit lexicale heavy rain soit interprtable, il nest pas possible daccder sa traduction de faon littrale, en traduisant fort.
Traductions rgulires
Les traductions rgulires sont des combinaisons dans lesquelles le sens global est dductible et prvisible, et la somme des traductions des constituants est satisfaisante :
allocation familiale > family allowance
Dans le cas des traductions rgulires, la difficult de lambigit lexicale des constituants reste toutefois prsente.
216
Collins Google Phase1 (Frquences) Phase 2 (Mondes lexicaux_Co-occurrents Google) Phase 2 (Mondes lexicaux) Phase 3 (Cognats) Phase 3 (Bigrammes frquents) TOTAL
28 39 31 26 648 89 26 887
1075 188
Figure 94.
2,60% Collins
Figure 95.
9. Evaluation
217
Chapitre 9.
Evaluation
9.1 Evaluation
Au sein de notre chantillon alatoire, nous valuons les 887 traductions obtenues. Nous avons opt pour une valuation manuelle, effectue par un locuteur bilingue1. Nous aurions pu comparer nos rsultats avec des systmes de Traduction Automatique tels que Systran ou Google, mais nous faisons le choix dune valuation humaine, plus fiable, afin de juger efficacement de nos ressources. Nous pourrons envisager lors de futures volutions une analyse quantitative compare de nos rsultats avec dautres systmes, mais dans un premier temps, notre objectif est de faire valuer un locuteur bilingue la qualit des ressources collectes automatiquement.
Pour chaque traduction obtenue, stocke dans un document de type Excel, nous utilisons le moteur de recherche Exalead2 afin de proposer une illustration contextuelle lvaluatrice. Le travail de lvaluatrice a consist valuer la qualit de traduction des units lexicales complexes, dans un sens unique de traduction, du franais vers langlais. Lvaluatrice a eu le
9. Evaluation
218
choix entre trois apprciations de traduction, prciser pour chaque unit lexicale complexe traduite :
Les liens vers des requtes en franais puis en anglais vers le moteur de recherche Exalead sont prciss afin de rsoudre dventuels cas dambigits et doffrir un contexte demploi lexical des units sources et cibles. Toutefois, il ne sagit pas dvaluer la qualit des rsultats retourns par le moteur de recherche, mais uniquement les traductions que nous prsentons. Les liens hypertextes constituent une aide pour lvaluation mais ne sont pas valuer.
Figure 96.
Chaque lien hypertexte, intitul Recherche , ouvre une fentre divise en deux parties : dune part la recherche du terme complexe source, limite aux pages de langue franaise,
9. Evaluation
219
dautre part, la recherche de la traduction, limite aux pages de langue anglaise. Voici un exemple de fentre pour le couple absence temporaire/temporary absence :
Figure 97.
La colonne Evaluation a t complte par lvaluatrice, pour les 887 traductions prsentes. Les rsultats obtenus montrent que 89,29% des traductions ont t considres comme correctes par lvaluatrice (catgorie A) et 5,07% ont t considres comme acceptables (B), soit en tout 94,36% de traductions juges comme tant non errones. Seulement 5,64% de traductions ont t juges errones, comme lillustrent les tableaux suivants :
Catgories d'valuation A B C ombre de traductions 792 45 50 Pourcentage
Figure 98.
9. Evaluation
220
Pourcentage
94,36% 5,64%
Figure 99.
Ces rsultats sont particulirement satisfaisants puisquils montrent que plus de 94% des rsultats sont directement exploitables, sans aucune intervention humaine. Parmi elles, 89% sont totalement satisfaisantes et seulement 5% sont acceptables sans tre la traduction la plus satisfaisante.
Nous recensons trois grandes catgories derreurs. Dune part, les erreurs lexicales qui consistent en un choix lexical erron (choix lexical proche mais non quivalent exact ou choix lexical erron). Dautre part, les erreurs morpho-syntaxiques qui consistent en un choix de structure morpho-syntaxique erron. Enfin, les erreurs idiomatiques , cest--dire dont le choix lexical est interprtable, mais non acceptable dun point de vue collocationnel . Nous analysons les types derreurs, catgories B (acceptable) et C (erron) confondues, mais nous signalons entre parenthse le type de catgorie.
9. Evaluation
221
smantique, parfois du co-occurrent ou de la totalit des lments), de celles dont le choix lexical est totalement erron, cest--dire que la dsambigisation lexicale na pas t correctement effectue (il sagit systmatiquement dun mauvais choix de la tte smantique).
Dans ces exemples, le sens de la traduction (style provenal, communication orale) reste proche de lunit lexicale complexe source (villa provenale, expression orale), mais ne constitue pas un quivalent exact. Le sens global nest pas totalement altr mais lquivalence nest pas stricte. Pour nous, le sens dun choix lexical thmatiquement proche est proche de celui de la traduction attendue, contrairement un choix lexical totalement erron, dont le sens na aucune proximit. Bien que cette rpartition entre choix lexical proche et choix lexical erron ait t tablie via une apprciation humaine, de faon manuelle, nous pensons quelle est importante, car ces deux types derreurs ne doivent pas tre mis au mme niveau. Lorsque le choix lexical de la traduction est thmatiquement proche, un changement paradigmatique entre la traduction attendue et la traduction obtenue nentrave pas la comprhension globale dun texte : seules des nuances prcises smantiques sont altres, comme par exemple, un changement paradigmatique entre oral expression et oral communication. A linverse, lorsque le choix lexical est erron, comme dans lexemple :
Formation juridique > legal background (C)
Ici, on attendrait plutt une combinaison de trois mots-plein telle que provencal style villa.
9. Evaluation
222
Voici dautres exemples de traductions dont le sens de la tte smantique est quelque peu altr, sans que cela ne nuise la comprhension gnrale de lunit lexicale complexe :
Apprentissage cognitif > cognitive strategy (B) Voie de dveloppement > developing country (B) Suprme de volaille > chicken breasts (B) Association locale > local society (B) Extrait de code > code snippet (B) Boulevard industriel > industry buisness (B) Agent dexcution > execution platform (B) Prestation supplmentaire > supplementary benefit (B) ote dapplication > industry note (B)
Ainsi, la traduction chicken breasts (blancs de poulet), par exemple, sans tre la meilleure traduction possible de suprme de volaille reste dans la mme thmatique et naltre pas la comprhension globale.
Dans la mme ligne, certains choix lexicaux restent dans une thmatique plus ou moins proche, avec un co-occurrent correctement traduit, mais le sens de la tte smantique est totalement altr, comme dans les exemples :
Alphabet arabe > arab world (C) Gestion communautaire > community wildlife (C) Profession de psychologue > psychological association (C)
9. Evaluation
223
Parc nuclaire > nuclear energy (C) Envie de chocolat > chocolate cake (C) Fiche de vocabulaire > vocabulary grammar (C) Accident vasculaire > vascular disease (C) Planification nationale > national economic (C) Lieu de vote > vote local (C) Ambition prsidentielle > presidential campaign (C)
Dans ces exemples, le co-occurrent est correctement traduit, mais les ttes smantiques ne correspondent pas, telles que respectivement alphabet/monde (world), gestion/vie sauvage (wildlife), profession/association (grammaire), (association), accident/disease parc/energy, (maladie), envie/cake (gteau),
fiche/grammar
planification/economic
(conomique), lieu/local (local) et ambition/campaign (campagne). Ces traductions sont considres comme incorrectes, mais la thmatique reste tout de mme relativement proche. Dans certains cas, lunit lexicale complexe est ambige en franais, et sa traduction peut tre acceptable en fonction de lusage retenu, comme dans lexemple :
Appareil militaire > military plane (B)
Dans cet exemple, la traduction concerne lusage AERIE , ce qui est acceptable, mais ne concerne pas le seul usage possible de appareil militaire.
Il arrive galement que la traduction obtenue pour la tte smantique soit ambige et offre un rsultat acceptable mais non totalement satisfaisant, comme dans lexemple :
Groupe de jeune > young party (B)
9. Evaluation
224
Ici, party signifie groupe, mais reste ambigu car lun des usages est FETE. La traduction young party est donc ambigu par rapport lunit lexicale source car elle peut aussi dsigner une fte organise par des jeunes , ce qui napparat pas dans lusage de dpart groupe de jeune.
Ici, le co-occurrent montagne est traduit par hill qui signifie colline. Le sens global est proche mais non totalement quivalent.
La tte smantique est correctement traduite, mais alimentaire est traduit par atkins qui est une marque de mthode de rgime amincissant.
Une traduction proche mais non compltement satisfaisante concerne lunit lexicale traduite par :
Right government (B)
9. Evaluation
225
Cette traduction reste ambigu car right peut signifier correct, acceptable. Ici, la traduction quivalente serait :
Right wing government
Dans cet exemple, le nom brigade est traduit par team (quipe). Parfois, la traduction du cooccurrent est de sens trs proche, mais non parfaitement quivalent :
Groupe dtude > practice group (B)
Ici, practice nest pas lquivalent exact dtude, mme si le sens gnral nest pas altr. Un autre exemple particulier concerne lunit lexicale et sa traduction :
Ancien militaire > military past (B)
Dans ce cas, ladjectif ancien nest pas correctement traduit (nom past). Toutefois, notons que lunit lexicale source est une erreur dtiquetage entre ladjectif ancien et le nom ancien. Nous navons pas collect de structure de type ADJECTIF- OM, mais elle na pas t filtre car ladjectif ancien peut galement tre un nom. De plus, lambigit morpho-syntaxique concerne aussi le nom militaire qui peut galement tre un nom.
9. Evaluation
226
Village de caractre > holiday rental (location de vacances) (C) Qualit dauteur > intellectual property (proprit intellectuelle) (C) Projection numrique > films festivals (festival de films) (C) Chambre daccusation > right violation (violation des droits) (C) Chiffre daffaire > press release (communiqu de presse) (C) Enseignement de base > education system (systme ducatif) (C) Caisse autonome > social security (scurit sociale) (B) Bloc dalimentation > power supply (prise lectrique) (B)
Dans ces exemples, les traductions sont errones, mais appartiennent au mme champ lexical que lunit lexicale source.
Une majorit des erreurs concernant un mauvais choix lexical dans une thmatique proche sont relatives la phase 3 de notre mthodologie, qui collecte les traductions sans accs pralable une ressource dictionnairique. Les mondes lexicaux sont compars, ce qui nous garantit une proximit lexicale, mais les traductions de chaque constituant ne sont pas directement compars avec les constituants sources. Une perspective damlioration concerne la vrification dau moins un des constituants dans notre dictionnaire. Par exemple, pour lunit lexicale parc nuclaire, nous obtenons la traduction :
uclear energy
Nous pourrions vrifier si la traduction candidate nuclear park (dont nous connaissons la traduction de park) nest pas galement prsente, car elle aurait plus de probabilits dtre la traduction adquate.
9. Evaluation
227
Une autre erreur dambigit lexicale concerne le nom polysmique campagne dans les exemples :
Campagne agricole > agricultural country (C) Campagne publique > state country (C)
9. Evaluation
228
Share sapplique une action dans le sens de PART, ce qui nest pas appropri dans ce contexte.
Toutefois, le choix lexical de la tte smantique nest pas le plus appropri. La traduction attendue serait :
Cheese board
Nous pourrons amliorer cette source derreurs en affinant nos filtres de comparaison des mondes lexicaux (filtres plus stricts, ajout danti-dictionnaires, etc.).
9. Evaluation
229
Parmi les erreurs morpho-syntaxiques, nous distinguons deux cas pour la structure syntaxique source OM-DE- OM (du type de analyse de march). Dune part, certaines erreurs
consistent en un mauvais choix entre les structures de type roman ( OM- OM) et de type germanique ( OM OF OM). Dautre part, certaines erreurs consistent en une non prise en compte de la structure de type possessif , faisant intervenir le gnitif.
9. Evaluation
230
DE- OM. Nous avons prsent dans le chapitre 6 ces deux types de structures. Par exemple, la traduction de lunit lexicale annuaire dannuaires est errone dun point de vue morphosyntaxique :
Directory directory (C)
Cette unit lexicale est naturellement spcifique et dlicate traiter, puisquelle est redondante dans les deux lments lexicaux.
De mme, nous obtenons la traduction suivante pour lunit lexicale maison de cognac :
Cognac house (C)
Ici, le terme maison de cognac dsigne une socit qui commercialise du Cognac et la traduction attendue serait :
Cognac
Cette unit lexicale source est dlicate, car peu utilise dans un contexte anglophone.
Les erreurs de choix de structures entre le type roman et le type germanique concernent majoritairement un choix de type germanique alors que le type roman (cest--dire lordre dterminant-dtermin) serait attendu, comme dans les exemples :
Cycle de vie > cycle of life (B)
9. Evaluation
231
Dans ces exemples de type germanique , cest le type roman qui est correct :
Life cycle Exchange effect
Le type roman en anglais pose des difficults de reprage cause de problmes dambiguts de rattachement syntaxique. A lheure actuelle, nous neffectuons pas danalyse syntaxique des traductions candidates testes sur le Web. Une volution pourra tre dajouter un module danalyse morpho-syntaxique, lorsque nous testons les frquences sur le Web, par exemple (collecte des rsums et analyse morpho-syntaxique des rsultats).
Dans ces exemples, cest une structure du type gnitif qui est souhaitable :
Womans milk Mummys milk
9. Evaluation
232
Gods justice
Dans ces exemples, le repre est un tre humain (ou un lment plus ou moins assimil) et le repr est un objet ou une proprit susceptible dappartenir ce repre (Chuquet et Paillard, 1987).
Cette unit lexicale prsente la particularit de dsigner un lieu. Contrairement la majorit des traductions du type roman (NOM-NOM), o le second nom correspond au dtermin , ici cest la traduction lake garda qui est attendue, cest--dire un ordre du type dtermin/dterminant.
on quivalence de longueur
Une difficult et source derreur concerne une non quivalence de longueur des constituants entre lunit lexicale source et sa traduction, comme dans lexemple de :
Mtier de vigneron > wine grower (B)
Ici les deux constituants wine grower correspondent au seul terme vigneron. Si le sens global reste comprhensible, lunit mtier nest pas traduite et devrait tre rajoute.
Absence de dterminant
Il arrive quun dterminant soit introduit au sein dune structure de type germanique , en anglais. Ainsi, nous obtenons la traduction errone :
9. Evaluation
233
Non seulement ce nest pas une structure de type roman qui est attendue ici, mais un dterminant doit tre introduit au sein de la structure :
Fruit of the season
Une perspective sera de prendre en compte un nombre plus lev de structures morphosyntaxiques possibles en langue cible.
Bien que cette traduction soit considre comme acceptable et reste comprhensible, le choix lexical de anniversary ne correspond pas au choix le plus pertinent dun point de vue idiomatique. Ici, la traduction attendue serait :
Birthday party
Une autre erreur, bien que la traduction reste acceptable, concerne lunit lexicale :
Balle de ping-pong > ping-pong table (B)
9. Evaluation
234
Une autre traduction acceptable mais non compltement idiomatique est celle de truc de fou :
Wild stuff (B)
Une autre erreur de type idiomatique (ainsi que morpho-syntaxique) concerne lunit lexicale verre de whisky :
Whiskey chaser (B)
Ici, chaser nest pas la traduction la plus approprie pour le nom verre (cet usage insiste sur la pluralit des verres qui sont bus). La traduction la plus approprie serait :
Glass of whisky
9. Evaluation
235
difficult pourra tre amliore en affinant davantage les comparaisons de mondes lexicaux (filtres supplmentaires, diffrentes mesures1, etc.).
Type d'erreurs
ombre de traductions 31 7 9 14 1 22 11
Pourcentage
Lexical proche(tte) Lexical proche(co-occurrent) Lexical proche (totalit) Dsambiguisation lexicale Dcoupage smantique Structure morpho-syntaxique Idiomatique
Figure 100.
Nous rcapitulons les sources derreurs par grandes catgories (Figure 98). Une majorit des difficults est dordre lexical (thmatique proche mais non quivalente, dsambigisation lexicale), savoir plus de la moiti des cas derreurs (65,26%). Viennent ensuite les erreurs dordre morpho-syntaxique (mauvais choix de structure) (23,16%), suivies des erreurs de type idiomatique (11,58%).
Type d'erreurs
ombre de traductions 62 22 11
Pourcentage
Figure 101.
9. Evaluation
236
Phases
ombre de traductions 1 56 1 20 13 2 2
Pourcentage
Figure 102.
Un peu plus de la moiti des erreurs (58,95%) concerne la phase 2 (comparaison des mondes lexicaux). Cet ordre de grandeur sexplique par le fait quune majeure partie des traductions est traite par cette phase. Viennent ensuite les erreurs concernant la phase 3 (21,05% pour la mthode des cognates et 13,68% pour la mthode des bigrammes frquents). En effet, cette mthode, qui ne sappuie pas au pralable sur des ressources dictionnairiques, prsente la limite dextraire certaines traductions proches thmatiquement mais non parfaitement quivalente lunit lexicale source. La figure 100 rcapitule la proportions derreurs par grandes catgories de nos phases de traitement :
Phases
ombre de traductions 1 57 33 4
Pourcentage
Figure 103.
237
10.1 Discussion
Notre travail a mis laccent sur trois types de problmatiques que nous avons menes conjointement. Dune part, nous nous sommes interroge, dun point de vue linguistique sur le statut des units lexicales complexes. Nous avons montr que, pour une mme structure morpho-syntaxique, le statut linguistique peut tre diffrent, ces diffrences ne sont pas binaires, mais graduelles. Le statut linguistique des units lexicales complexes peut tre envisag en rapport avec le signe, cest--dire avec le rfrent dsign par la globalit de lunit lexicale. Toutefois, le rapport entre lunit lexicale complexe et le rfrent auquel elle renvoie est un rapport complexe dont les frontires sont difficiles tablir. Les co-occurrents, en mme temps quils annoncent une caractristique de lobjet peuvent avoir simultanment une valeur typante, comme dans lexemple de caf noir, o noir dsigne la fois une proprit du caf et le place en mme temps dans une catgorie particulire de caf. Nous avons mis en relation ces rflexions thoriques avec la tche didentification automatique de ces units lexicales, tche mene trs vaste chelle, partir du Web. Nous avons collect environ 10 000 units lexicales complexes et notre base continue de saccrotre au quotidien.
238
Nous nous sommes galement intresse laspect interlingue des units lexicales complexes, ce qui nous permet denvisager le statut interlingue du signe : les diffrences dune langue lautre sont rvlatrices des diffrences de dcoupage smantique de la ralit . Nous avons montr que les aspects bilingues des units lexicales complexes taient varis : traductions compositionnelles ou non compositionnelles. Nous avons propos une analyse du comportement lexical du phnomne de traduction. Nous avons mis en rapport les aspects linguistiques de la traduction avec son acquisition automatique. Dans nos travaux, nous montrons quune analyse linguistique intrinsque des units lexicales complexes permet dapporter un traitement automatique adapt et daffiner ainsi les mthodes de traduction.
Nous avons galement propos une rflexion la fois thorique et technique sur lutilisation du Web dans le cadre dapplications linguistiques. Dun point de vue thorique, nous avons montr que le Web, bien quil ne constitue pas une ressource traditionnelle au mme titre que les corpus au sens propre, constitue un rservoir gigantesque qui bouleverse les mthodes de travail linguistiques relatives la comprhension des langues. La frquence des phnomnes linguistiques nest pas ncessairement une preuve de validit de la forme linguistique car certains usages valides sont peu usits. Toutefois, la frquence permet de collecter les phnomnes linguistiques les plus courants, ce qui est utile, non seulement afin de les analyser mais aussi afin de les collecter dans le cadre de la construction de vastes ressources lexicales telles que celle que nous construisons. Dun point de vue technique, nous avons mis en place une mthodologie dacquisition de ressources lexicales monolingues et bilingues, vaste chelle, qui prsente lintrt de pouvoir fonctionner en continu et de grossir de faon quotidienne. Nous avons analys, puis mis en pratique, les diffrentes facettes du Web bilingue , en proposant une mthode mixte de stratgies. Les ressources que nous avons collectes jusqu prsent sont de bonne qualit, avec une prcision de traduction trs satisfaisante, savoir 94,4% de traductions acceptables. Le rappel est galement particulirement lev, avec un taux de 82,5%.
Nous nous sommes galement centre sur ltude du contexte des units lexicales complexes et avons dfini la notion de mondes lexicaux . Nous avons observ ce phnomne vaste chelle, en collectant les mondes lexicaux directement partir du Web. Ces mondes lexicaux, en franais et en anglais, ont t exploits pour la dsambigisation lexicale pour la
239
traduction. Toutefois, ces ressources sont intressantes en elles-mmes et pourront certainement tre exploites par la suite pour la construction de ressources de type ontologiques.
10.2 Perspectives
Les vastes ressources dont nous disposons grce au Web nous offre des perspectives dvolution dun point de vue quantitatif dune part (laugmentation rgulire des donnes va nous permettre daffiner nos observations en obtenant de nombreux nouveaux cas) et dun point de vue qualitatif dautre part, tant donn que nous visons affiner diffrents aspects de notre mthode, savoir la prise en compte des thmatiques sur le Web (10.2.1), llargissement des structures morpho-syntaxiques tudies, ainsi que lajout de modules syntaxiques (10.2.2) et enfin la prise en compte de relations smantiques permettant de classer les units lexicales complexes en familles thmatiques et dorganiser les arguments qui constituent les units lexicales complexes selon des repres smantiques (10.2.3).
Dune faon plus prcise, nous pourrions nous intresser aux domaines de spcialit ou aux thmatiques particulires. Par exemple, une traduction satisfaisante en langue gnrale (lusage le plus courant) peut tre inadquat dans un domaine de spcialit. Considrons la traduction :
Appareil numrique > digital camera
240
Bien que lusage le plus courant soit lusage PHOTOGRAPHIE, la traduction digital camera est inapproprie dans certains domaines. Par exemple, dans le domaine mdical, la traduction attendue est digital device. Une volution ultrieure sera de nous intresser aux domaines de spcialit ou aux genres lis une thmatique sur le Web, afin de palier les limites lies lambigit lexicale. Par exemple, Wikio1 est un portail dinformation qui runit les rubriques de news partir de diffrents sites de presses et de blogs. Un alignement dunits lexicales complexes partir dun tel site nous permettrait de cibler des usages prcis. Un autre exemple est le site Wikipdia2, portail de recherche encyclopdique et multimdia qui contient de nombreux articles en diffrentes langues. Les pages traduites disponibles sur Wikipdia constitue un rservoir de pages partiellement parallles quil serait intressant dexploiter des fins dalignement. Voici un exemple de pages en franais pour lunit lexicale complexe source caisse claire3 :
Figure 104.
241
A partir de la page en franais, un lien pointe vers la description du mme terme dans dautres langues, dont langlais, ce qui nous permet non seulement davoir accs la traduction de lunit lexicale (snare drum), mais galement de collecter des pages partiellement traduites afin daligner dautres termes traitant du mme domaine.
Enfin, un autre exemple de ressource thmatique pour la traduction concerne les forums lis une thmatique, comme par exemple la mdecine. Le fait de cibler sur une thmatique en particulier nous permettrait de palier les cas dambiguts lexicales.
construire-barrage
Figure 105.
242
Ici, une unit lexicale complexe de deux mots-plein est traduite par une squence de trois mots-plein. Afin de grer ce type dirrgularit de longueur entre la langue source et la langue
243
cible, nous ne pouvons pas nous appuyer sur ltape de gnration de traduction candidate via un dictionnaire existant. Nous faisons lhypothse que ces cas nobtiendront pas de traductions lors des phase 1 (utilisation des frquences) et des phase 2 (mondes lexicaux). La prise en compte de ce problme pourrait intervenir lors de la phase 3 (cognates et bigrammes frquents), lorsque nous collectons les traductions partir des rsums mixtes . Dans notre tude, nous nous sommes volontairement limite aux bigrammes, mais nous pourrions largir les traductions candidates collectes et prendre galement en compte les mono-termes et les trigrammes au sein des rsums mixtes .
Ainsi, partir de la phrase source Les courses de chevaux ont lieu tous les mardis , le vecteur contextualis de course dans cette phrase est compar avec les 11 entres recenses. Une mesure base sur le cosinus est utilise afin de slectionner la traduction la plus adquate (race ou racing dans cet exemple). Lexploitation de ressources externes pour la dsambigisation lexicale pourrait tre combine notre mthode, afin de mler des connaissances encyclopdiques (telles que des thsaurus) des connaissances textuelles (telles que les mondes lexicaux construits partir de donnes textuelles).
244
En ce qui concerne une amlioration ultrieure de la comparaison entre les mondes lexicaux, les ressources dj obtenues pourraient tre exploites afin damliorer notre comparaison des mondes lexicaux, par la prise en compte dunits lexicales complexes. Par exemple, si une unit lexicale complexe source appartenant notre base de donnes apparat dans le monde lexical franais et si sa traduction apparat dans le monde lexical anglais, nous pourrions matcher ces quivalences et la comparaison des units porterait un niveau suprieur lunit lexicale simple (la comparaison des simples mono-termes constituant une limite).
Pour une description complte et dtaille des mesures permettant de comparer la proximit entre deux textes en prenant en compte les frquences des units, se rfrer Brunet (2003) et Labb et Labb (2003).
245
Notre systme serait alors bas sur un processus dapprentissage dont les donnes collectes seraient exploites afin damliorer le systme.
246
Ce type de requte nous permettrait de collecter des pages dont le monde lexical est proche du monde lexical source et dobtenir des pages comparables au sein desquelles nous pourrions extraire des traductions candidates, partir de patrons morpho-syntaxiques dfinis.
Il arrive galement que la traduction adquate soit prsente dans les rsums mixtes dj collects mais quelle ne soit pas valide au cours de lun des filtres de notre phase 3.
247
Parmi la totalit des cas de silence, nous avons valu environ 14% la proportion de traductions prsentes au sein des bigrammes collects dans les rsums mixtes, mais non valides au cours de lun de nos filtres1.
Il arrive que la traduction correcte soit contenu parmi les couples de traduction tests via le Web parallle, mais ne soient pas parmi les couples les plus frquents retenus, ce qui provoque quelques cas de silence, comme dans lexemple de cep de vigne, o la traduction correcte, wine growing napparat quau huitime rang parmi les couples les plus frquents. Les traductions correctes non retenues ce stade comptent pour environ 11% parmi tous les cas de traductions correctes non valides.
Il peut sagir dune non-validation de la traduction, par le filtre de comparaison entre la frquence de lunit lexicale franaise et celle de sa traduction. Il peut effectivement arriver que les frquences dusage dune expression ne soient pas proportionnelles entre le franais et langlais. Par exemple, la traduction postal bank (frquence de 144 000) a une frquence infrieure lunit lexicale source banque postale (frquence de 937 000). Il en va de mme pour lunit lexicale ballon dirigeable (frquence de 132 000), pour laquelle la traduction candidate dirigible balloon a une frquence de 27 500. Parmi les 14% de traductions correctes non valides, nous valuons environ 29% le nombre de traductions non valides ce filtre de frquence du couple franais/anglais.
Un certain nombre de traductions candidates correctes nont pas t valides ltape de comparaison des mondes lexicaux, pour plusieurs raisons. Il peut sagir du fait que notre filtre soit trop lev, mais ce seuil a t fix afin de palier au maximum le bruit, ce qui provoque naturellement des cas de silence. Par exemple, la traduction candidate licence plate pour lunit lexicale plaque dimmatriculation na pas t valide lors de la comparaison des mondes lexicaux. Enfin, il peut sagir dunits lexicales complexes trop gnrales pour gnrer un monde lexical homogne. Dans ce cas, mme un seuil de comparaison entre les
Nous valuons uniquement les traductions valides prsentes au sein des bigrammes collects. Notons quune traduction correcte peut toutefois tre prsente dans les rsums mixtes mais non collecte au sein des bigrammes ( cause de la non-prise en compte des trigrammes par exemple), mais lvaluation de ces cas serait plus dlicate.
248
mondes lexicaux moins strict naurait pas permis une validation. Par exemple, les units lexicales monde de douceur ou encore mois dabsence sont des units pouvant tre utilises dans de nombreux domaines et dont le monde lexical ne peut pas tre homogne. Nous avons valu environ 59% la proportion de traductions correctes qui nont pas t valides au stade de la comparaison des mondes lexicaux, parmi toutes les traductions correctes non valides. Nous avons parl dans la section 10.2.1 de prendre en compte des thmatiques et/ou des domaines de spcialits afin de limiter ce type de problme. Cette volution peut soprer grande chelle, partir de thmatiques varies. Le fait dinscrire une unit lexicale complexe au sein dune thmatique donne nous permettra de palier cette limite. Les deux figures suivantes illustrent la proportion de traductions correctes non valides qui taient disponibles parmi les bigrammes collects, classes par catgorie de rejet. Une majorit des cas concerne une non-validation lors de la comparaison des mondes lexicaux (59,26%). Vient ensuite un rejet lors du filtre de la frquence des couples (29,63%), puis lors du filtre du Web parallle (11,11%).
16 8 3
Figure 106.
249
Figure 107.
Ressource cooprative
Notre base de donnes lexicales nest pas, lheure actuelle, une ressource disponible en ligne, car nous voulions dans un premier temps tester de faon locale notre mthodologie. Toutefois, une de nos perspectives concerne la mise en ligne de notre base de donnes, avec une possibilit dinteraction avec les utilisateurs (corrections, ajout de ressources, etc.). Nous pourrions, par exemple, proposer une base lexicale cooprative, dans la ligne de projets tels que le projet PAPILLON qui permet aux utilisateurs de proposer de nouvelles ressources (ce projet est une base lexicale cooprative, construite partir de ressources dj existantes, contrairement nous), ou encore la recherche interlingue de Google, qui permet aux utilisateurs de suggrer dventuelles corrections pour les cas o les rsultats sont considres comme tant errons.
250
exemple, les mondes lexicaux de appareil digital et de appareil compact sont proches. Nous pourrions systmatiser les comparaisons de mondes lexicaux entre les units lexicales complexes monolingues en franais dune part et en anglais dautre part, et les runir en grandes familles thmatiques. Par exemple, appareil digital et appareil compact pourraient appartenir une classe thmatique de type PHOTOGRAPHIE. Les mondes lexicaux pourraient tre exploits afin de construire ces classes thmatiques et les nommer, dans la ligne de travaux tels que ceux de Pichon et Sbillot (1999a) et Rossignol et Sbillot (2003), mais lchelle du Web, ainsi quen ajoutant la dimension bilingue, puisque les familles thmatiques seraient constitues pour le franais et pour langlais.
La classification thmatique nous permettrait dobtenir un rseau de termes hirarchiss, de type ontologique. Selon (Bourigault et Jacquemin, 2000), une ontologie dsigne :
INGNIERIE DES CONNAISSANCES. Ensemble des objets reconnus comme existant dans le domaine. Construire une ontologie, cest dcider de la manire dtre et dexister des objets.
En terminologie, lobjectif est de regrouper les concepts qui prsentent des caractristiques communes, et dobtenir ainsi un rseau hirarchis de concepts. De plus en plus de travaux visent obtenir ce type de reprsentation partir de donnes textuelles.
Au-del des grandes classes thmatiques qui regrouperaient les units lexicales complexes, nous pourrions proposer des repres smantiques aux sous-classes dobjets qui constituent les units lexicales complexes. Dans Lon (2003, 2004b), nous montrons que les co-occurrents des units lexicales complexes (tels que les objets des verbes, par exemple), peuvent tre runis en classes conceptuelles dont les combinaisons offrent des rgularits de slection, dans la ligne de travaux tels que Melcuk et Wanner (1996) et LHomme (1998). Nous avons port notre tude sur deux domaines de spcialit, la mtorologie (Lon, 2003) et le Traitement Automatique des Langues (Lon, 2004b). Par exemple, en mtorologie, les noms dcrivant un ELEME T ATUREL se combinent de faon rgulire avec des adjectifs
251
ELEME T ATUREL > ETAT Ciel bleu clair couvert dgag gris nuageux orageux rouge
252
satur sec
De mme, pour le domaine du Traitement Automatique des Langues, prenons les exemples des co-occurrences des verbes phontiser et traduire. Une majorit des arguments slectionns appartiennent la classe DO EES TEXTUELLES (Lon, 2004b) :
Phontiser > DO
ES TEXTUELLES
Corpus Forme Lexique Mot om Phrase Sigle Terme Texte Traduire > DO ES TEXTUELLES Corpus Document
253
Expression Forme Lexie Lexique Lexme Message Mot om Occurrence Phrase Segment
Nous pourrions appliquer ces analyses aux donnes que nous obtenons partir du Web, et voir sil est possible de systmatiser ces phnomnes sur de plus vastes donnes, et observer si ces rgularits sappliquent galement dun point de vue bilingue.
254
Bibliographie
Agirre (2000a). Exploring automatic word sense disambiguation with decision lists and the Web Proceedings of the COLING Workshop on Semantic Annotation and Intelligent Content, Luxembourg. Agirre, E., Olatz, A., Hovy, E., Martinez, D. (2000b). Enriching very large ontologies using the WWW. Ontology Construction of the European Conference of AI (ECAI), Berlin, Allemagne. Agirre, E., Lopez, O. (2004a). Publicly available topic signatures for all wordnet nominal senses. Proceedings of the 4rd International Conference on Language Resources and Evaluation (LREC), Lisbon, Portugal. Agirre, E., Alfonseca, E., Loper, O. (2004b). Approximating Hierarchy-Based Similarity for Word et ominal Synsets using Topic Signatures In Second International Wordnet Conference, Czech Republic, Brno. Almeida, J. J., Simoes, A. M., Castro, J. A. (2002). Grabbing parallel corpora from the Web. Sociedade Espanola para el Procesamiento del Lenguaje Natural. Atkins, B. T. S. (1990). "Corpus Lexicography : The Bilingual Dimension." Computational Lexicoglogy and Lexicography (Special issue dedicated to Bernard Quemada) VI. Audibert, L. (2003). Outils d'exploration de corpus et dsambigusation lexicale automatique. Thse de doctorat (Informatique), quipe DEscription Linguistique Informatise sur Corpus (DELIC). Aix-en-Provence, Universit d'Aix-Marseille I - Universit de Provence. Bally, C. (1909). Trait de stylistique franaise. Paris, Klincksieck. Bally, C. (1965, 1re dition 1932). Linguistique gnrale et linguistique franaise. Berne,
255
Francke. Bar-Hillel, Y. (1955). Idioms. Machine Translation of Languages, Fourteen Essays. W. N. Locke, Booth, A. Donald. Boston, MIT & John Wiley: 183-193. Baroni, M., Bernardini, S. (2004). BootCaT: Bootstrapping corpora and terms from the web. LREC 2004. Baroni, M., Vegnaduzzo, S. (2004). Identifying subjective adjectives through web-based mutual information. KONVENS 2004, Vienna: GAI. Baroni, M., Ueyama, M. (2004). Retrieving japanese specialized terms and corpora from the WWW. Proceedings of KONVENS 2004. Baroni, M., Bisi, S. (2004). Using cooccurrence statistics and the web to discover synonyms in a technical language. Proc. of the Fourth International Conference on Language Resources and Evaluation (LREC 2004). Baroni, M., Ueyama, M. (2006). Building general- and special-purpose corpora by Web crawling. Proceedings of the 13th NL International Symposium, Language Corpora : Their Compilation and Application. Baroni, M., Kilgarriff, A. (2006). Large linguistically-processed web corpora for multiple languages. EACL, Trento, Italie. Benson, M., Benson, E., Ilson, R. (1986). The BBI Combinatory Dictionary of English : A guide to Word Combinations. Amsterdam, John Benjamins. Benson, M. (1990). "Collocations and general-purpose dictionaries." International Journal of Lexicography 3(1): 23-35. Benveniste, E. (1966). "Formes nouvelles de la composition nominale." BSL 61: 82-95. Benveniste, E. (1967). "Fondements syntaxiques de la composition nominale." BSL 62: 15-31. Blank, I., Ed. (2000). Terminology extraction from parallel technical texts. Parallel Text Processing. Dordrecht, Kluwer. Bonnin, G., Prince, V. (2007). Emphasizing Syntax for French to German Machine Translation. SNLP'07: 7th International Symposium on Natural Language Processing, Chonburi, Thailande, Pattaya. Bouillon, P. (1998). Traitement automatique des langues naturelles. Paris, Bruxelles, AupelfUref Editions Duculot. Boulanger, J.-C. (1979). Commentaire de Jean-Claude Boulanger. Table ronde sur les problmes du dcoupage du 260 terme. Montral: 169-182.
256
Bourigault, D. (1994). LEXTER, un Logiciel dExtraction de TERminologie. Application lacquisition des connaissances partir de textes, Thse de doctorat, Ecole des hautes tudes en sciences sociales. Bourigault, D., Fabre C. (2000). "Approche linguistique pour l'analyse syntaxique de corpus." Cahiers de Grammaires, Universit Toulouse - Le Mirail 25: 131-151. Bourigault, D., Jacquemin, C., Ed. (2000). Construction de ressources terminologiques. Industrie des langues. Paris, Herms. Bourigault, D., Aussenac-Gilles, N., Charlet, J. (2004). "Construction de ressources terminologiques ou ontologiques partir de textes : un cadre unificateur pour trois tudes de cas." Revue dIntelligence Artificielle 18(1). Brown, P. F., Della Pietra, S., Della Pietra, V. J., Mercer, R. L. (1991a). Word sense disambiguation using statistical methods. Actes de 29th Annual Meeting of Association for Computational Linguistics, Berkeley, California. Brown, P. F., Lai, J. C., Mercer, R. L. (1991b). Aligning Sentences in Parallel Corpora. Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics, Berkeley. Brown, P. F., Della Pietra, S., Della Pietra, V. J., Mercer R. L. (1993). "The mathematics of statistical machine translation : parameter estimation." Computational Linguistics 19(2): 263311. Brunet, E. (2003). "Peut-on mesurer la distance entre deux textes ?" Corpus, La distance intertextuelle 2. Bunescu, R. (2003). Associative Anaphora Resolution: AWeb-Based Approach. Proceedings of the EACL-2003 Workshop on the Computational Treatment of Anaphora, Budapest, Hungary. Burnard, L. (1995). Users Reference Guide British University Computing Services. ational Corpus Version 1.0. Oxford,
Calvo, H., Gelbukh, A. (2003). Improving Disambiguation of Prepositional Phrase Attachments Using the Web as Corpus. CIARP, 2003 Cao, Y., Li, H. (2002). Base noun phrase translation using web data and the EM algorithm. International Conference of Computational Linguistics (COLING'02), Tapei, Tawan. Chauch, J. (1990). "Dtermination smantique en analyse structurelle : une exprience base sur une dfinition de distance." TAL Information: 17-24. Chen, J., Nie, J.-Y. (2000). Parallel Web Text Mining for Cross-Language IR. In Proceedings of RIAO 2000: Content-Based Multimedia Information Access Paris, France.
257
Cheng, P.-J., Teng, J.-W., Chen, R.-C., Wang, J.-H., Lu, W.-H., Chien, L.-F. (2004a). Translating unknown queries with web corpora for cross-language information retrieval. Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval Sheffield, United Kingdom Cheng, P.-J., Pan, Y.-C., Lu, W.-H., Chien, L.-F. (2004b). Creating multilingual translation lexicons with regional variations using web corpora. Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. Chklovski, T., Mihalcea, R. (2002). Building a sense tagged corpus with open mind word expert. Proceedings of the ACL-02 workshop on Word sense disambiguation: recent successes and future directions. Chomsky, N. (1957). Syntactic structures. La Hague, Mouton. Chomsky, N. (1962). The Logical Basis of Linguistic Theory. in Preprints of Papers from the 9th International Congress of Linguists, Cambridge, Mass. Choueka, Y., Conley, E. S., Dagan, I., Ed. (2000). A comprehensive bilingual word alignment system: Accommodating disparate languages: Hebrew and English. Parallel Text Processing. Dordrecht, Kluwer. Chung, S., Jun, J., McLeod, D. (2006). A Web-Based Ontology Learning -. OTM Conferences. ovel Term Similarity Framework for
Chuquet, H., Paillard, M. (1987). Approche linguistique des problemes de traduction anglais <-> franais. Gap, Paris, Ophrys. Church, K., Hanks, P. (1990). "Word association norms, mutual information, and lexicography." Computational Linguistics 16(1): 22-29. Church, K. (1993). Char_align: a program for aligning parallel texts at the character level. Proceedings of the 31st Annual Meeting of the Association for Computational Linguistics, Columbus, Ohio. Clas, A. (1994). "Collocations et langues de spcialit." Meta 39(4): 576-580. Clear, J., Ed. (1993). From Firth principles: Computational tools for the study of collocation. Text and technology: In honour of John Sinclair. Amsterdam, John Benjamins. Corbin, D., Ed. (1997). Locutions, composs, units polylexmatiques : lexicalisation et mode de construction. Cowie, A. (1981). "The treatment of Collocations end Idioms in Learner's Dictionaries." Applied Linguistics 2(3): 223-235. Cowie, A., Ed. (1998). Phraseology, Theory, Analysis, and Applications. Clarendon Press. Oxford.
258
Cruse, D. A. (1986). Lexical Semantics. Cambridge, Cambridge University Press. Dagan, I., Alon, Itai, Schwall Ulrike (1991). Two languages are more informative than one. Annual Meeting of the Association for Computationnal Linguistics (ACL), Berkeley, Californie. Dagan, I., Church, K. W. (1994). Termight : identifying and translating technical terminology. 4th Conference on Applied Natural Language Processing (ANLP94), University of Stuttgart, Germany. Daille, B. (1994). Approche mixte pour l'extraction automatique de terminologie : statistiques lexicales et filtres linguistiques, Universit Paris 7. Thse de Doctorat en Informatique Fondamentale. Daille, B. (1995). "Reprage et extraction de terminologie par une approche mixte statistique et linguistique." Revue TAL, Traitements probabilistes et corpus 36(n1-2): 101-118. Darmesteter, A. (1875). Trait de la formation des mots composs dans la langue franaise compare aux autres langues romanes et au latin. Paris, Honor Champion. David, S., Plante, P. (1990). "De la ncessit d'une approche morpho-syntaxique dans l'analyse de textes." Intelligence Artificielle et Sciences Cognitives au Qubec 3(3): 140-154. De Schryver, G.-M. (2002). "Web for/as Corpus: A Perspective for the African Languages." ordic Journal of African Studies 11(2) 11(2): 266-282. Debili, F., Sammouda E. (1992). Appariement des Phrases de Textes Bilingues. Proceedings of the 14th International Conference on Computational Linguistics (COLING92), Nantes. Deerwester, S. C., Dumais, S. T., Landauer, T. K., Furnas, G. W., Harshman, R. A. (1990). "Indexing by latent semantic analysis." Journal of the American Society of Information Science 41(6): 391-407. Djean, H., Gaussier, E. (2002). "Une nouvelle approche lextraction de lexiques bilingues partir de corpus comparables." Lexicometrica, numro spcial sur Alignement lexical dans les corpus multilingues: 1-22. Diab, M., Finch, S. (2000). A Statistical Word-Level Translation Model for Comparable Corpora. Proceedings of the Conference on Content-Based Multimedia Information Access (RIAO). Doan, A., Madhavan, J., Dhamankar, R.; Domingos, P., Halevy, A. (2003). "Learning to Match Ontologies on the Semantic Web." VLDB Journal 12: 303-319. Drouin, P. (2002). Acquisition automatique des termes : l'utilisation des pivots lexicaux spcialiss, Thse de doctorat, Universit de Montral.
259
Dubois, J. (1973). Dictionnaire de linguistique. Paris, Larousse. Dubois, J., Guespin, L., Giacomo, M., Marcellesi, C. et J.B., Mvel, J.-P. (1994). Dictionnaire de linguistique et des sciences du langage. Paris, Larousse. Dubreil, E. (2008). "Collocations : dfinitions et problmatiques." Texto XIII(1). Duclaye, F. (2003). Apprentissage automatique de relations d'quivalence smantique partir du Web, Ecole Nationale Suprieure des Tlcommunications. Dunning (1993). "Accurate Methods for the Statistics of Surprise and Coincidenc." Computational Linguistics 19(1). Enguehard, C. (1993). Acquisition de terminologie partir de gros corpus. Informatique & Langue Naturelle, ILN'93, Nantes. Enguehard, C., Panterra, L. (1995). "Automatic Natural Acquisition of a Terminology." Journal of quantitative linguistics 2(1): 27-32. Fabre, C., Sbillot, P. (1996). Interprtation automatique des composs nominaux anglais hors domaine : quelles solutions ? 10me Congrs Reconnaissance des Formes et Intelligence Artificielle (RFIA 96), Rennes. Felber, H. (1987). Manuel de terminologie. Paris, UNESCO. Firth, J. R., Ed. (1951). Modes of Meaning. Papers in Linguistics. Londres, Oxford University Press. Fletcher, W. (2002). Facilitating the Compilation and Dissemination of Ad-Hoc Web Corpora. Teaching and Language Corpora 2002. Fletcher, W. (2004). "Making the Web more useful as a source for linguistic corpora." LA GUAGE A D COMPUTERS. Fletcher, W. (2005). Towards an Independent Search Engine for Linguists: Issues and Solutions. Web as Corpus SSMILT Forl 2005. Fletcher, W. H. (2001). Concordancing the Web with KWiCFinder. Applied Corpus Linguistics 2001. Fontenelle, F. (1996). Rseaux smantiques et dictionnaires bilingues lectroniques. Lexicologies dictionnairiques. Actes du Colloque de Lyon 1995, Beyrouth/Montral, FMA / AUPELF-UREP. Fontenelle, T. (1997). Turning a Bilingual Dictionary into a Lexical-Semantic Database. Tbingen, Niemeyer. Fujii, A., Ishikawa, T. (2000). "Utilizing the world wide web as an encyclopedia : Extracting
260
term descriptions from semi-structured text." Association of Computational Linguistics (ACL): 488-495. Fung, P. (1995). Compiling bilingual lexicon entries from a non-parallel English-Chinese corpus. 3rd Annual Workshop on Very Large Corpora, Boston, Massachusetts. Fung, P., McKeown, K. (1997). Finding Terminology Translations from Corpora. Actes de Annual Workshop on Very Large Corpora. on-parallel
Fung, P., Yee, L. Y. (1998). An IR approach for translating new words for non-parallel, comparable texts. Actes de International Conference on Computational Linguistics (COLING). Fung, P., Ed. (2000). A Statistical View on Bilingual Lexicon Extraction: From Parallel Corpora to on-Parallel Corpora. Parallel Text Processing. Dordrecht, Kluwer. Gala, N., At-Mokhtar, S. (2003). Lexicalising a robust parser grammar using the WWW. Conference on Corpus Linguistics, Lancaster. Gala, N. (2003a). Un modle danalyseur syntaxique robuste fond sur la modularit et la lexicalisation de ses grammaires, Universit de Paris-Sud. Gala, N. (2003b). Une mthode non supervise d'apprentissage sur leWeb pour la rsolution d'ambiguts structurelles lies au rattachement prpositionnel. TALN. Gale, W., A., Church, K. W. (1993). "A program for aligning sentences in bilingual corpora." Computational Linguistics 19(3): 75-102. Gale, W. A., Church, K. W., Yarowsky, D. (1993). "A method for disambiguating word senses in a large corpus." Computers and the Humanities 26: 415-439. Gaussier, E., Lange, J.-M. (1995). "Modles statistiques pour lextraction de lexiques bilingues." Traitement Automatique des Langues 36(1-2): 133-155. Ghani, R., Jones, R. (2000). Learning a Monolingual Language Model from a Multilingual Text Database. Ninth International Conference on Information and Knowledge Management (CIKM-2000). Ghani, R., Jones, R., Mladenic, D. (2001a). Automatic Web Search Query Generation to Create Minority Language Corpora. Poster paper in proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2001). Ghani, R. (2001b). Building Minority Language Corpora by Learning to Generate Web Search Queries. Ghani, R., Jones, R., Mladenic, D. (2001c). On-line learning for Web query generation: finding documents matching a minority concept on the Web. Proceedings of the The First
261
Asia-Pacific Conference on Web Intelligence (WI-2001). Ghani, R., Jones, R., Mladenic, D. (2001d). Using the Web to Create Minority Language Corpora. 10th International Conference on Information and Knowledge Management (CIKM2001). Ghani, R., Jones, R., Mladenic, D. (2003). Building Minority L\anguage Corpora by Learning to Generate Web Search Queries. KAIS Knowledge and Information Systems. Gonzalo, J. C., I.; Verdejo, F. (2003). The web as a resource for WSD. 1st MEANING Worshop, Espagne. Granger, S., Ed. (1998). Prefabriqued Patterns in Andavnced EFL Writing : Collocations and Formulae. Phraseology : Theory, Analysis and Applications. Oxford, Oxford University Press. Grefenstette, G. (1999). The World Wide Web as a Resource for Example-Based Machine Translation Tasks. ASLIB "Translating and the Computer" conference, Londres, Angleterre. Greimas, A. (1986). Smantique structurale : recherche de mthode. Paris, PUF. Greimas, A. J. (1960). "Idiotismes, proverbes, dictions." Cahiers de lexicologie 2: 41-61. Grishman, R. (1994). Iterative alignment of syntactic structures for a bilingual corpus. Proceedings of the Second Annual Workshop on Very Large Corpora, Kyoto, Japan. Gross, G. (1996). Les expressions figes en franais. Paris, Ophrys. oms composs et autres locutions.
Grossmann, F., Tutin, A. (2003). "Quelques pistes pour le traitement des collocations." Travaux et recherches en linguistique applique. Grundy, V., Ed. (1996). Lutilisation dun corpus dans la rdaction du dictionnaire bilingue. Les dictionnaires bilingues. Louvain-la-Neuve, Duculot. Guilbert, L. (1965). La formation du vocabulaire de laviation. Paris, Librairie Larousse. Guillemin-Flescher, J. (1981). Syntaxe compare du franais et de langlais. Gap : Ophrys. Habert, B., Nazarenko, A., Salem, A. (1997). Les linguistiques de corpus. Paris, Armand Colin/Masson, U Linguistique. Habert, B. (2000). Linguistique sur corpus. Etudes et rflexions. Perpignan, Presses Universitaires de Perpignan. Harris, B. (1988). "Bi-text, a new concept in translation theory." Language Monthly 54: 8-10. Harris, Z. (1951). Methods in Structural Linguistics. Chicago, University of Chicago Press.
262
Harris, Z. (1991). A theory of language and information. A mathematical approach. Oxford, Oxford University Press. Hartmann, R. R. K. (1980). Contrastive Textology. Comparative Discourse Analysis in Applied Linguistics (Studies in Descriptive Linguistics 5). J. Gross. Heidelberg. Hausmann, F. J. (1979). "Un dictionnaire de collocations est-il possible ?" TraLili 17(1): 187195. Hausmann, F. J. (1989). Le dictionnaire de collocations. Wrterbcher : ein internationales Hadbuch zur Lexicographie. Dictionaries. Dictionnaires. R. Hausmann F. J., O.; Wiegand, H. E.; Zgusta, L. Berlin/New-York, De Gruyter: 1010-1019. Hausmann, F. J., Ed. (1997). Tout est idiomatique dans les langues. Langages, La Locution entre langues et usages. Fontenay Saint-Cloud, ENS Editions. Hiemstra, D. (1998). Multilingual domain modeling in Twenty-One: automatic creation of a bi-directional translation lexicon from a parallel corpus. Proceedings of the eighth CLIN meeting. Hovy, E., Lin C. Y. (1997). Automated Text Summarization in SUMMARIST. Workshop on Intelligent Scalable Text Summarization, Madrid, Espagne. Howarth, P., Ed. (1998). The Phraseology of Learners' Academic Writing. Phraseology : Theory, Analysis and Applications. Oxford, Oxford University Press. Huang, F., Zhang, Y., Vogel, S. (2005). Mining key phrase translations from Web Corpora. Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing, Vancouver, British Columbia, Canada. Imbs, P. (1971). Trsor de la Langue Franaise. Dictionnaire de la langue du XIX et du XX sicles (1789-1960). Paris, Editions du CNRS. Inkpen, D. Z., Hirst, G. (2002). Acquiring Collocations for Lexical Choice between earSynonyms. Proceedings of the ACL-02 workshop on Unsupervised lexical acquisition Volume 9, Philadelphia, Pennsylvania. Isabelle, P. (1992). "La bi-textualit : vers une nouvelle gnration d'aides la traduction et la terminologie." META 37(4): 721-737. Jacquemin, C. (1997). Variation terminologique : Reconnaissance et acquisition automatiques de termes et de leurs variantes en corpus. Mmoire d'habilitation diriger des recherches en informatique fondamentale, Universit de Nantes. Jacquemin, C., Bush, C. (2000b). Fouille du Web pour la collecte dEntits ommes. Actes de la 7eConfrence sur le Traitement Automatique des Langues Naturelles.
263
Jacquemin, C. B., C. (2000a). Combining Lexical and Formatting Cues for amed Entity Acquisition from the Web. Proceedings of the 2000 Joint SIGDAT conference on Empirical methods in natural language processing and very large corpora: held in conjunction with the 38th Annual Meeting of the Association for Computational Linguistics Hong Kong. Jalabert, F., Lafourcade, M. (2004). 2004, Toulouse. ommage sens l'aide de vecteurs conceptuels. RFIA
Johansson, S., Ebeling, J., Hofland, K. , Ed. (1993). Coding and aligning the Englishorwegian parallel corpus. Languages in Contrast, Papers from a Symposium on Text-based Cross-linguistic Studies. Lund, Lund University Press. Jones, D. B., Somers, H. L., Ed. (1997). Bilingual vocabulary estimation from noisy parallel corpora using variable bag estimation. Recent advances in natural language processing Amsterdam, John Benjamins. Jones, R., Ghani, R. (2000). Automatically Building a Corpus of a Minority Language from the Web. Kaji, H., Kida, Y., Morimoto, Y. (1992). Learning translation templates from bilingual text. Proceedings of the 14th International Conference on Computational Linguistics (COLING92), Nantes, France. Kaplan, A. (1950). "An experimental study of ambiguity in context." Mechanical Translation 1: 1-3. Katz, J. J., Fodor, J. A., Ed. (1964). The structure of a semantic theory. The Structure of Language, chapter 19. Kay, M., Rscheisen, M. (1988). Text-translation alignment, Technical Report. Xerox Palo Alto Research Center. Kehoe, A., Renouf, A. (2002). WebCorp: Applying the Web to linguistics and linguistics to the Web. WWW2002 Conference, Honolulu, Hawaii. Kehoe, A., Ed. (2006). Diachronic Linguistic Analysis on the Web with WebCorp. The Changing Face of Corpus Linguistics. Amsterdam, Rodopi. Kehoe, A., Gee, M. (2007) New corpora from the web: making web text more 'text-like'. Towards Multimedia in Corpus Studies, electronic publication, University of Helsinki, DOI: Keller, F., Lapata, M. (2003). "Using the Web to Obtain Frequencies for Unseen Bigrams." Computational Linguistics 23(3): 459-484. Kikui, G. (1998). Term-list Translation using Mono-lingual Word Co-occurrence Vectors. Actes de International Conference on Computational Linguistics (COLING). Kilgarriff, A., Grefenstette, G. (2003). "Introduction to the Special Issue on the Web as
264
Corpus." Computational Linguistics 29(3): 333-348. Kilgarriff, A., Rychly, P., Smrz, P., Tugwell, D. (2004). The Sketch Engine. EURALEX 2004, Lorient. Kjaersgaard, P. (1987). REFTEX. A context-based translation aid. 3rd conference of the European Chapter of the Association for Computational Linguistics, Copenhagen. Kjellmer, G. (1994). A dictionay of English Collocations. Oxford, Clarendon Press. Klapaftis, I., Manandhar, S. (2005). Google & Word et based Word Sense Disambiguation. 22 ndICML Workshop on Learning & Extending Ontologies. Kocourek, R. (1991). La langue franaise de la technique et de la science. Wiesbaden, Brandstetter Verlag. Kraaij, W., Nie, J-Y., Simard, M. (2003). "Embedding web-based statistical translation models in cross-language information retrieval " Computational Linguistics, Special issue on web as corpus 29(3): 381 - 419. Kupiec, J. (1993). An algorithm for finding noun phrase correspondences in bilingual corpora. 31st Annual Meeting of the Association for Computational Linguistics. LHomme, M.-C. (2001). ouvelles technologies et recherche terminologique. Techniques d'extraction des donnes terminologiques et leur impact sur le travail du terminographe. L'Impact des nouvelles technologies sur la gestion terminologique. LHomme, M. C. (1998). Caractrisation des combinaisons lexicales spcialises par rapport aux collocations de langue gnrale. Proceedings EURALEX '98, Universit de Liege : Liege. Labb, C. L., D. (2003). "La distance intertextuelle." Corpus, La distance intertextuelle 2. Lafourcade, M., Rodrigo, F., Schwab, D. (2004). Low Cost Automated Conceptual Vector Generation from Mono and Bilingual Resources. Actes de PAPILLON-2004. Langlais, P., El-Beze, M. (1997). Alignement de corpus bilingues : algorithmes et valuation. 1res Journes Scientifiques et Techniques du Rseau Francophone de l'Ingnierie de la langue de l'AUPELF-UREF (JST), Avignon. Lea, D. (2002). Oxford Collocations Dictionary for Students of English, Oxford University Press. Lebarb, T. (2002). Hirarchie inclusive des units linguistiques en analyse syntaxique cooprative: Universit de Caen. Leech, G. (1991). The state of the art in corpus linguistics. English corpus linguistics. A. K. A. B. London: Longman: 8-29.
265
Lon, J. (2001). "Conception du mot et dbuts de la traduction automatique." Histoire pistmologie Langage 23(1): 81-106. Lon, J., Ed. (2004a). Lexies, synapsies, synthmes : le renouveau des tudes lexicales en France au dbut des annes 1960. "History of Linguistics in Texts and Concepts" Geschichte der Sprachwissenschaft in Texten und Konzeptionen. Mnster, Nodus Publikationen. Lon, S. (2003). L'extraction automatique des collocations : Une mthode de regroupement par classes conceptuelles. Universit de Provence, Aix-en-Provence, Mmoire de matrise. Lon, S. (2004b). Extraction semi-automatique des relations verbe-objet partir d'un corpus spcialis : application la cration d'un lexique structur du TAL. Universit de Provence, Aix-en-Provence, Mmoire de DEA. Lon, S., Millon, C. (2005). Acquisition semi-automatique de relations lexicales bilingues (franais-anglais) partir du Web. Rencontre des Etudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL), Dourdan, France. Lon, S. (2006). Acquisition automatique de traductions de termes complexes par comparaison de mondes lexicaux sur le Web. Rencontre des Etudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2006), Louvain, Belgique. L'Homme, M.-C. (1998). Caractrisation des combinaisons lexicales spcialises par rapport aux collocations de langue gnrale. EURALEX '98, Liege. L'Homme, M.-C. (2001). ouvelles technologies et recherche terminologique. Techniques d'extraction des donnes terminologiques et leur impact sur le travail du terminographe. L'Impact des nouvelles technologies sur la gestion terminologique., Toronto, Universit de York. L'Homme, M.-C. (2002). What can Verbs and Adjectives can tell us about Terms? Terminology and Knowledge Proceedings, TKE 2002, Nancy. L'Homme, M.-C. (2005). "Sur la notion de terme." Meta 50(4): 1112-1132. Li, C., Cao, Y. (2002). Overcoming language barriers in the internet Era. A. F. L. R. A. system. Asia, Report MSR-TR-2002-91 Microsoft Research. Li, C., Li, H. (2004). Word translation disambiguation using bilingual bootstrapping. 40th Annual Meeting of the Association for Computational Linguistics. Li, H., Cao, Y., Li, C. (2003a). "English Reading Wizard : Mining and Ranking Translations Using Bilingual Data on the Web." IEEE intelligent systems & their applications 18(4): 5459. Li, H., Cao, Y., Li, C. (2003b). Using Bilingual Web Data To Mine and Rank Translations.
266
IEEE Intelligent Systems. Lin, C.-Y., Hovy, E. (2000). "The Automated Acquisition of Topic Signatures for Text Summarization." Actes de COLI G Conference. Liu, V., Curran, J. R. (2006). Web Text Corpus for atural Language Processing. Proceeding of EACL 2006, 1th Conference of the European Chapter of the Association for Computational Linguistics, Trento, Italy. Lu, W.-H., Chien, L.-F., Lee, H.-J. (2001). Anchor Text Mining for Translation of Web Queries. Proceedings of the 2001 IEEE International Conference on Data Mining. Lu, W.-H., Chien, L.-F., Lee, H.-J. (2002). "Translation of Web Queries Using Anchor Text Mining." ACM Transactions on Asian Language Information Processing (TALIP) 1(2): 159 172. Lu, W.-H., Chien, L.-F., Lee, H.-J. (2003). "Anchor Text Mining for Translation of Web Queries : A Transitive Translation Approach." ACM Transactions on Information Systems (TOIS) 22(2): 242 - 269. Ma, X., Liberman, M. (1999). Bits: A method for bilingual text search over the web. Machine Translation Summit VII, Singapour, Singapour. Macklovitch, E. (1992). Corpus-based tools for translators. 33rd Annual Conference of the American Translators Association, San Diego, California. Mangeot, M. (2002). Projet Papillon : intgration de dictionnaires existants et gestion des contributions. Actes de JST 2002, National Olympic Memorial Youth Center, Tokyo, Japon. Mangeot, M., Srasset, G., Lafourcade, M. (2003). "Construction collaborative de donnes lexicales multilingues, le projet Papillon." Revue TAL, dition spciale, Les dictionnaires lectroniques : pour les personnes, les machines ou pour les deux ? (Electronic dictionaries: for humans, machines or both?), Ed. Michael Zock & John Carroll 44(2): 151-176. Maniez, F. (2001a). Lambigut syntaxique due aux structures coordonnes en anglais mdical : analyse de la performance dun logiciel daide la traduction. TALN 2001, Tours. Maniez, F. (2001b). "Extraction d'une phrasologie bilingue en langue de spcialit : corpus parallles et corpus comparables." Meta 46(2): 552-563. Manning, C., Schtze, H. (1999). Foundations of statistical natural language processing, MIT Press. Martinet, A. (1960). Elments de linguistique gnrale. Paris, Armand Colin. Martinet, A. (1967). Syntagme et synthme. La linguistique. Paris, PUF. 2: 1-14. Martinet, A. (1968). "Mot et synthme." Lingua 21: 294-302.
267
Martinet, A. (1985). Syntaxe gnrale. Paris, Armand Colin. Martins-Baltar, M. (1997). La locution entre langue et usage. Fontenay, ENS Editions. Matsumoto, Y., Ishimoto, H., Utsuro, T., Nagao, M. (1993). Structural matching of parallel text. Proceedings of the 31st Annual Meeting of the Association for Computational Linguistics, Columbus, Ohio. Matsuo, Y., Sakaki, T., Uchiyama, K., Ishizuka, M. (2006). Graph-based Word Clustering using a Web Search Engine. 2006 Conference on Empirical Methods in Natural Language Processing (EMNLP 2006), Sydney, Association for Computational Linguistics. Mautner, G. (2005). "Time to get wired: Using web-corpora in critical discourse analysis." Discourse & Society 16(6): 809-828. McEnery, A., Lange, J.-M., Oakes, M., Vronis, J., Ed. (1997). The exploitation of multilingual annotated corpora for term extraction. Corpus Annotation: Linguistic Information from Computer Text Corpora London, Addison Wesley Longman. McEnery, A. M., Oakes, M.P. (1995). Sentence and word alignment in the CRATER project : methods and assessment. . EACL-SIGDAT Workshop, Dublin. McEnery, T., A. Wilson (1996). Corpus linguistics. Edinburgh, Edinburgh University Press. Melcuk, I. (1984, 1988, 1992, 1999). Dictionnaire explicatif et combinatoire du franais contemporain, Recherches lexico-smantiques. Montral, Presses de lUniversit de Montral. Melcuk, I., Wanner, L., Ed. (1996). Lexical Fonctions and Lexical Inheritance for Emotion Lexemes in German. Lexical Fonctions in Lexicography and Natural Language Processing. Amsterdam / Philadelphia, John Benjamins. Melcuk, I. (1997). Vers une linguistique Sens-Texte, Leon inaugurale (faite le Vendredi 10 janvier 1997), Collge de France, Chaire internationale. Melamed, I. D. (1997). Automatic discovery of non-compositional compounds in parallel data. Proceedings of the 2nd Conference on Empirical Methods in Natural Language Processing (EMNLP'97), Providence. Melamed, I. D., Ed. (2000). Bitext maps and alignments via pattern recognition. Parallel Text Processing. Kluwer, Dordrecht. Melamed, I. D. (2001). Empirical Methods for Exploiting Parallel Texts, MIT Press. Mel'cuk, I., Wanner, L., Ed. (1996). Lexical Fonctions and Lexical Inheritance for Emotion Lexemes in German. Lexical Fonctions in Lexicography and Natural Language Processing. Amsterdam, Benjamins.
268
Mel'cuk, I., Ed. (1998). Collocations and Lexical Functions Phraseology, Theory, Analysis and Applications. Oxford, Clarendon Press. Mel'cuk, I. (2003). "Collocations : dfinition, rle et utilit." Travaux et recherches en linguistique applique. Mel'cuk, I. A. C., Andr; Polgure A. (1995). Introduction la lexicologie explicative et combinatoire. Louvain, Editions Duculot. Mihalcea, R. (2002). Bootstrapping large sense tagged corpora. In Proceedings of the Third International Conference on Language Resources and Evaluation LREC 2002, Canary Islands, Spain. Mihalcea, R. M., D. I. (1999a). An automatic method for generating sense tagged corpora. 16th National Conference on Artificial Intelligence. Mihalcea, R. M., D. I. (1999b). A method for word sense disambiguation of unrestricted text. Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics, College Park, Maryland. Modjeska, N., Markert, K., Nissim, M. (2003). Proceedings of the 2003 conference on Empirical methods in natural language processing - Volume 10. Morin, E., Dufour-Kowalski, Samuel, Daille, Batrice (2004). Extraction de terminologies bilingues partir de corpus comparables. Actes de Traitement Automatique des Langues Naturelles (TALN), Fs. Morley, B., Renouf, A., Kehoe, A. (2003). Linguistic Research with the XML/RDF aware WebCorp Tool. WWW2003 Conference, Budapest. Morley, B., Ed. (2006). WebCorp: A Tool for Online Linguistic Information Retrieval and Analysis. The Changing Face of Corpus Linguistics. Amsterdam, Rodopi. Nagao, M., Ed. (1984). A framework of mechanical translation between Japanese and English by analogy principle. Artificial and human intelligence, Elsevier Science Publishers. Nagata, M. (2001). Using the Web as a bilingual dictionary. 39th ACL Worshop on DataDriven Methods in Machine Translation. Nakagawa, H. (2001). "Disambiguation of Single Noun Translations Extracted from Bilingual Comparable Corpora." Terminology 7(1): 6383. Nakov, P., Hearst, M. (2005a). Search engine statistics beyond the n-gram : Application to noun compound bracket. CoNLL 2005. Nakov, P., Hearst, M. (2005b). "Using the Web as an Implicit Training Set: Application to Structural Ambiguity Resolution."
269
Nerima, L., Seretan, V., Wehrli, E. (2003). "Creating a Multilingual Collocation Dictionary from Large Text Corpora." Nerima, L., Seretan, V., Wehrli, E. (2006). "Le problme des collocations en TAL." ouveaux cahiers de linguistique franaise 27: 95-115. Nie, J.-Y., Simard, M., Isabelle, P., Durand, R. (1999). Cross-Language Information Retrieval Based on Parallel Texts and Automatic Mining of Parallel Texts from the Web. ACM SIGIR'99. Nie, J.-Y., Cai, J. (2001). Filtering noisy parallel corpora of web pages. In IEEE Symposium on Natural Language Processing and Knowledge Engineering, pages, Tucson. Papageorgiou, H., Ed. (1997). Clause recognition in the framework of alignment. Recent advances in natural language processing. Amsterdam, John Benjamins. Patwardhan, S., Riloff, E. (2006). Learning Domain-Specific Information Extraction Patterns from the Web. Proceedings of the Workshop on Information Extraction beyond the Document (ACL-06). Pearce, D. (2001). Synonymy in collocation extraction. In Proceedings of the Workshop on WordNet and Other Lexical Resources, Second meeting of the North American Chapter of the Association for Computational Linguistic, Pittsburgh. Pearson (1998). Terms in Context. Amsterdam/Philadelphie, John Benjamins Publishing, . Picchi, E., Peters, C., Marinai, E. (1992). A translator's workstation. 14th International Conference on Computational Linguistics (COLING92), Nantes. Pichon, R., Sbillot, P. (1999a). Diffrencier les sens des mots laide du thme et du contexte de leurs occurrences : une exprience. Actes de Traitement Automatique des Langues Naturelles (TALN). Pichon, R., Sbillot, P., Ed. (1999b). From Corpus to lexicon: from contexts to semantic features. PALC'99: Practical Applications in Language Corpora, Peter Lang, Lodz studies in Language. Piperidis, S., Boutsis, S., Papageorgiou, H., Ed. (2000). From sentences to words and clauses. Parallel Text Processing. Dordrecht, Kluwer. Polgure, A. (2000a). "Une base de donnes lexicale du franais et ses applications possibles en franais." Revue de Linguistique et de Didactique des Langues 21: 75-97. Polgure, A. (2000b). Towards a theoretically-motivated general public dictionary of semantic derivations and collocations for French. Actes de EURALEX2000, Stuttgart. Polgure, A. (2003). Lexicologie et smantique lexicale. otions fondamentales, Les Presses de l'Universit de Montral.
270
Polgure, A. (2005). Typologie des entits lexicales dune base de donnes explicative et combinatoire. Journe dtude de lATALA Interface lexique-grammaire et lexiques syntaxiques et smantiques cole nationale suprieure des tlcommunications (ENST), Paris. Pottier, B. (1962a). Le mot, unit de comportement. Colloque ATALA Le mot pour la Traduction Automatique et la linguistique applique. Pottier, B. (1962b). "Introduction ltude des structures grammaticales fondamentales." la TA III(3): 63-91. Pottier, B. (1962c). "Les travaux lexicologiques prparatoires la traduction automatique." Cahiers de lexicologie 3: 200-206. Prince, V., Chauch, J. (2006). Translating through divergence : A application to french to english automatic translation. R. L. n. 12758. Prince, V., Chauch, J. (2008). Building a Bilingual Representation of the Roget Thesaurus for French to English Machine Translation Proceedings of the sixth international conference on Language REsources and Evaluation (LREC). Pu-Jen Cheng, P.-J., Pan, Y.-C.; Lu, W-H., Chien L.-F. (2004b). Creating multilingual translation lexicons with regional variations using web corpora. Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics, Barcelona, Spain. Rapp, R. (1995). Identifying Word Translations in on-Parallel Texts. Annual Meeting of the ACL archive, Proceedings of the 33rd annual meeting on Association for Computational Linguistics, Cambridge, Massachusetts, Association for Computational Linguistics Morristown, NJ, USA. Rapp, R. (1999). Automatic Identification of Word Translations from Unrelated English and German Corpora. Actes de Association for Computational Linguistics (ACL). Rastier, F. (1987). Smantique interprtative. Paris, Presses Universitaires de France. Renouf, A., Kehoe, A., Mezquiriz, D., Ed. (2003). The Accidental Corpus: issues involved in extracting linguistic information from the Web. Advances in Corpus Linguistics. Amsterdam, Rodopi. Renouf, A., Ed. (2003). WebCorp: providing a renewable data source for corpus linguists. Extending the scope of corpus-based research: new applications, new challenges. Amsterdam, Rodopi. Renouf, A., Kehoe, A., Banerjee, J. (2005). The WebCorp Search Engine: a holistic approach to Web text Search. University of Birmingham. Renouf, A., Kehoe, A., Banerjee, J., Ed. (2007). WebCorp: an integrated system for web text
271
search. Corpus Linguistics and the Web. Amsterdam, Rodopi. Resnik, P., Melamed, I.D. (1997). Semi-Automatic Acquisition of Domain-Specific Translation Lexicons. Proceedings of the Fifth Conference on Applied Natural Language, Processing (ANLP97), Washington, DC. Resnik, P. (1998). "Parallel Strands : A Preliminary Investigation into Mining the Web for Bilingual Text." Resnik, P. (1999). Mining the web for bilingual text. 37th Annual Meeting of the Association for Computational Linguistics. Resnik, P., Smith, N. A. (2003). "The Web as a parallel corpus." Computational Linguistics, Special issue on web as corpus 29(3): 349 - 380. Resnik, P. S. N. (2002). The Web as a parallel corpus. Technical Report UMIACS-TR-2002. Riloff "Extraction-based text categorization: generating domain-specific role relatonships automatically." Roberts, R. P., Montgomery, C. (1996). The Use of Corpora in Bilingual Lexicography. Actes d'EURALEX '96. Rossignol, M., Sbillot, P. (2003). "Extraction statistique sur corpus de classes de mots-cls thmatiques." TAL (Traitement automatique des langues) 44(3): 217-246. Rosso, P., Montes, M., Buscaldi, D., Pancardo, A., and Villaseor, A., (2005). Two Webbased approaches for oun Sense Disambiguation. Int. Conf. on Comput. Linguistics and Intelligent Text, Processing, CICLing-2005,, Mexico D.F., Mexico, Springer Verlag, LNCS (3406). Rundell (2000). "The biggest corpus of all." Humanising Language Teaching(3). Rundell, M., Ed. (2002). Macmillan English Dictionary for Advanced Learners, Macmillan. Rus, V., Ravi, S. (2006). "Towards a base noun phrase parser using web." Journal of Computing Sciences in Colleges 21(5): 162-169. Sadler, V. (1989). Translating with a simulated bilingual knowledge bank, Technical report. BSO/Research. Utrecht. Sajous, F., Tanguy, L. (2006). Reprage de crations lexicales sur le Web francophone. Journe d'tude de l'ATALA Paris. Salton, G. (1968). Automatic Information Organisation and Retrieval. New York, McGrawHill. Santamara, C., Gonzalo, J., Verdejo F. (2003). "Automatic Association of Web Directories
272
with Word Senses." Computational Linguistics 23(3): 485-502. Sato, S., Nagao, M. (1990). Toward memory-based translation. 12th International Conference on Computational Linguistics, COLING'90, Helsinki, Finland. Sato, S., Sasaki, Y. (2003). Automatic collection of related terms from the Web. Proceedings of the 41st Annual Meeting on Association for Computational Linguistics - Volume 2, Sapporo, Japan. Saussure, F. (1916). Cours de Linguistique gnrale, Payot. Schtze, H. (1998). "Automatic word sense discrimination." Computational Linguistics 24(1): 97-124. Schwab, S., Lafourcade, M., Prince, V. (2004). Hypothses pour la construction et l'exploitation conjointer d'une base lexicale smantique base sur les vecteurs conceptuels. JADT 2004, 7es Journes internationales d'Analyse statistique des Donnes Textuelles, Louvain-le-Neuve, Belgique. Sbillot, P., Pichon, R. (1997). Acquisition automatique d'informations lexicales partir de corpus : un bilan. I RIA. N. RR-3321. Sgula, P. (2001). Construction de modles de connaissances par analyse linguistique de relations lexicales dans les documents techniques, Universit de Toulouse : Thse de doctorat en informatique. Seretan, V., Nerima, L., Wehrli, E. (2004). Using the Web as a Corpus for the SyntacticBased Collocation Identification. International Conference on Language Resources and Evaluation (LREC 2004), Lisbonne, Portugal. Sharoff, S., Ed. (2006). Creating general-purpose corpora using automated search engine queries. Wacky! Working papers on the Web as Corpus. Bologna, GEDIT. Simard, M., Foster, G., Isabelle, P. (1992). Using cognates to align sentences in bilingual corpora. Proceedings of the Fourth International Conference on Theoretical and Methodological Issues in Machine Translation (TMI), Montral, Canada. Sinclair, J., Ed. (1987a). Looking up: An account of the COBUILD project in lexical computing. London, Collins. Sinclair, J., Ed. (1987b). Collocation : A Progress Report. Language Topics. Essays in Honour of Michael Halliday, Vol. 2. Amsterdam, John Benjamins. Sinclair, J. (1996). Preliminary recommandations on corpus typology. E. E. A. G. o. L. E. S. Technical report. Smadja, F., McKeown, K. (1991). "Using collocations for language generation." Computational Intelligence 7(4): 229 - 239.
273
Smadja, F. (1993). "Retrieving Collocations from Text : Xtract " Computational Linguistics 19(1). Smadja, F., McKeown, K.; Hatzivassiloglou, V. (1996). "Translating Collocations for Bilingual Lexicons: A Statistical Approach." Computational Linguistics 22(1): 1-38. Smarr, J., Grow, T. (2002). "GoogleLing: The Web as a Linguistic Corpus." Sta, J. D. (1995). "Comportement statistique des termes et acquisition terminologique partir de corpus." Revue TAL, Traitements probabilistes et corpus 36(1-2): 119-132. Sumita, E., Iida, H, Kohyama, H. (1990). Translating with examples : a new approach to machine translation. Actes de International Conference on Theoretical and Methodological Issues in Machine Translation of Natural Languages (TMI90), Austin, Texas. Tanguy, L. (1997). Traitement automatique de la langue naturelle et interprtation : contribution l'laboration informatique d'un modle de la smantique interprtative. Thse de doctorat, Ecole Nationale Suprieure des Tlcommunication de Bretagne Tanguy, L. (1999). Isotopies smantiques pour la vrification de traduction. Traitement Automatique des Langues Naturelles (TALN). Terra, E., Clarke, L. A. (2003). Frequency Estimates for Statistical Word Similarity Measures. HLT-NAACL 2003. Thoiron, P., Bjoint, H. (1989). "Pour un index volutif et cumulatif de cooccurrents en langue techno-scientifique sectorielle." Meta 34(4): 661-671. Tonoike, M. K., Utsuro, T. (2005). "Effect of domain-specific corpus in compositional translation estimation for technical terms." Turney, P., Littman, M. (2003). "Measuring Praise and Criticism: Inference of Semantic Orientation from Association." ACM Transactions on Information Systems. Turney, P. (2004). Word Sense Disambiguation by Web Mining for Word Co-occurrence Probabilities. Proc. SENSEVAL-3. Turney, P. D. (2001). Mining the Web for synonyms: PMI-IR versus LSA on TOEFL. Twelfth European Conference on Machine Learning Berlin: Springer-Verlag. Tutin, A., Grossmann, Francis (2002). "Collocations rgulires et irrgulires : esquisse de typologie du phnomne collocatif." Revue franaise de linguistique applique, Lexique : recherches actuelles VII: 7-25. Ueyama, Ed. (2006). Creation of general-purpose Japanese Web corpora with different search engine query strategies. WaCky! Working papers on the Web as corpus. Bologna, Gedit.
274
Van Der Eijk, P. (1993). Automating the Acquisition of Bilingual Terminology. Proceedings of the 6th Conference of the European Chapter of the Association for Computational Linguistics (EACL93), Utrecht. Vandeghinste, V. (2002). Resolving PP Attachment Ambiuguities Using the WWW. CLIN2002 Abstracts, Groningen. Verlinde, S., Selva, T., Binon, J., Ed. (2003). Les collocations dans les dictionnaires dapprentissage : reprage, prsentation et accs, dans Les collocations : analyse et traitement. Travaux et recherches en linguistique applique. Amsterdam, de Werelt. Vronis, J., Ed. (2000a). Parallel Text Processing: Alignment and Use of Translation Corpora. Dordrecht, Kluwer Academic Publishers. Vronis, J., Ed. (2000b). Annotation automatique de corpus : panorama et tat de la technique. Paris, France, Herms dition. Vronis, J. (2003). Cartographie lexicale pour la recherche dinformation. Actes de la Confrence Traitement Automatique des Langues (TALN'2003), Batz-sur-Mer, France, ATALA. Vronis, J. (2004). "HyperLex: lexical cartography for information retrieval." Computer Speech & Language 18(3): 223252. Volk, M. (2000). Scaling up. Using the WWW to resolve PP attachment ambiguities. Konvens-2000. Volk, M. (2001). Exploiting the www as a corpus to resolve pp attachment ambiguities. Corpus Linguistics 2001. Volk, M. (2002). "Using the web as a corpus for linguistic research." Catcher of the Meaning. A festschrift for Professor Haldur im(R. Pajusalu, & T. Hennoste (Eds)). Weaver, W. ([1949] 1955). Translation. Machine Translation of Languages, Fourteen Essays. W. N. Locke, Booth, A. Donald. Boston, MIT & John Wiley: 15-23. Wehmeir, N. W. (2004). Using web search for machine translation University of Leeds School of Computing Wehrli, E. (2004). Traduction, traduction de mots, traduction de phrases. TALN 2004, Fs. Wilks, Y. A., Ed. (1975). Preference Semantics. The Formal Semantics of Natural Language. Cambridge University Press. Williams, G. (1999). Les rseaux collocationnels dans la construction et l'exploitation d'un corpus dans le cadre d'une communaut de discours scientifique, Universit de Nantes.
275
Williams, G. (2001). Sur les caractristiques de la collocation. TALN 2001, Tours. Wu, D., Ed. (2000). Bracketing and aligning words and constituents in parallel text using stochastic inversion transduction grammars. Parallel Text Processing. Dordrecht, Kluwer. Wu, J.-C., Chang, J. S. (2007). Learning to find English to Chinese Transliterations on the Web. 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Prague. Wster, E., Ed. (1981). Ltude scientifique gnrale de la terminologie, zone frontalire entre la linguistique, la logique, lontologie, linformatique et les sciences des choses. Textes choisis de terminologie. I. Fondements thoriques de la terminologie. Qubec, GIRSTERM. Xu, J. L. (2000). Multilingual search on the World Wide Web. In Proceedings of the Hawaii International Conference on System Science (HICSS-33), Maui, Hawaii. Yang, C., Li, K.W. (2003). "Automatic construction of English/Chinese parallel corpora." Journal of the American Society for Information Science and Technology 54(8): 730 - 742. Yarowsky, D. (1993). One Sense per Collocation. Actes de ARPA Human Language Technology Workshop. Zhang, Y., Vines, P. (2004). Detection and translation of OOV terms prior to query time. Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval Sheffield, United Kingdom. Zhang, Y., Vines, P. (2005). Mining translations of OOV terms from the web through crosslingual query expansion. Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval, Salvador, Brazil. Zuraw, K. (2006). Using the Web as a phonological corpus : a case study from Tagalog. EACL-2006: Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics/Proceedings of the 2nd International Workshop on Web As Corpus.