Fleury, Serge - Les Linguistiques de Corpus

REMERCIEMENTS
Ce livre doit beaucoup aux laboratoires dans lesquels nous avons travaill, l'quipe de Linguistique et Informatique (ELI) de l'cole Normale Suprieure de Fontenay/St Cloud (Equipe dAccueil 463), le Laboratoire d'Informatique de ParisNord (URA 1507 CNRS et Universit Paris 13), lUPRES SYLED (EA 2290 Universit Sorbonne nouvelle Paris 3) et l'UMR 9952 Lexicomtrie et Textes Politiques (CNRS INaLF et ENS de Fontenay/St Cloud). Nous remercions particulirement Christiane Marchello-Nizia (ELI), pour son appui chaleureux. Merci ceux qui ont complt notre documentation et notre information : Andre Borillo, Jacques Bouaud, Anne Daladier, Fernande Dupuis, Marc El-Bze, Fabrice Issac, Sylvain Kahane, Dominique Labb, Ludovic Lebart, Monique Lemieux, Elie Naulleau, Jean-Marie Marandin et Jean Vronis. Merci aussi Pierrette Habert et Serge Heiden pour leur soutien technique et leur conseils. Merci enfin nos collgues et proches qui nous ont relus avec une gnrosit vigilante : Sophie Aslanids, Didier Bourigault, Ccile Fabre, Serge Fleury, Helka Folch, Christian Jacquemin, Lucie Langlois, Isabelle Moulinier, Christiane MarchelloNizia, Sandrine Oriez, Marie-Paule Pry-Woodley et Pierre Zweigenbaum.
INTRODUCTION
1. LE REGAIN D'INTERET POUR LES CORPUS

De vastes corpus de textes lectroniques tiquets (chaque mot est assorti dune tiquette morpho-syntaxique) et parfois munis d'arbres syntaxiques (on parle alors de corpus arbors) sont aujourdhui disponibles pour langlais et pour lamricain. Les outils dinterrogation de ces corpus enrichis ainsi que les outils dannotation proprement dits (tiqueteurs, analyseurs syntaxiques, etc.) se rpandent. Depuis quelque temps dj, on trouve dans le domaine public des tiqueteurs pour l'anglais qui permettent de catgoriser des textes pralablement saisis sur support magntique (Cutting et al., 1992 ; Brill, 1995). Leurs quivalents pour le franais apparaissent. Ce qui est neuf, ce n'est pas l'utilisation de corpus lectroniques. En France, un fonds de quelque 160 millions de mots a ainsi t patiemment constitu lInstitut National de la Langue Franaise (INaLF CNRS) depuis les annes soixante et constitue une base textuelle dsormais accessible en ligne : Frantext. Ce fonds a servi en particulier la rdaction des dix-sept volumes du Trsor de la Langue Franaise. La nouveaut rside dans lenrichissement des corpus, laccroissement de leur taille et dans laccessibilit effective des corpus et des outils. Dabord, les corpus ne sont plus des suites de mots nus , c'est--dire de simples chanes de caractres, mais ils sont annots (ou encore enrichis). Nous entendons par l l'ajout d'information, de quelque nature qu'elle soit : morphologique, syntaxique, smantique, prosodique, critique ... Le niveau d'annotation progresse rgulirement. Les annes quatre-vingts ont t consacres l'tiquetage morpho-syntaxique. La dcennie actuelle voit se dvelopper les corpus arbors. Les annotations smantiques mergent et vont se rpandre. Ensuite, la taille de ces corpus ne cesse de crotre. K. Church et R. Mercer (1993) notent ce propos : Il y a juste 10 ans, le corpus de Brown1, avec son million de mots, tait considr comme un grand corpus [...]. Aujourd'hui, de nombreux centres de recherche disposent de donnes textuelles de millions voire de milliards de mots. Le British National Corpus (BNC) comprend par exemple 100 millions de mots tiquets. Enfin, ces ressources sont dsormais accessibles aux chercheurs universitaires pour des cots raisonnables et ne sont plus rserves aux seuls centres de recherche industriels ou aux organismes qui ont constitu et mis au point ces donnes et ces outils.
1
Il s'agit de Brown University (USA).
Faut-il voir dans cet engouement actuel pour les corpus le retour aux dbuts de la linguistique structurale amricaine des annes cinquante ? Aprs l'accent chomskyen sur la formalisation et l'intuition du locuteur natif, la revanche de l'empirisme ? Le dcouragement serait de mise s'il y avait effectivement pitinement et ressassement. Or, l'tude des origines de ces travaux le montre, ce sont les discontinuits qui l'emportent, ainsi que la diversit, voire l'clatement, des horizons thoriques et des ralisations pratiques.
2. QUOI SERVENT LES CORPUS ANNOTES ?

La conjoncture actuelle tient, semble-t-il, la rencontre2 d'une tradition anglosaxonne de linguistique descriptive s'appuyant sur les corpus lectroniques et d'un profond changement de cap en traitement automatique du langage naturel3 (dsormais TALN4). Cette convergence apparente cache de profondes divergences sur la nature des donnes langagires constituer et sur leur utilisation.
2.1 La linguistique descriptive anglo-saxonne et ses questions

Le rejet de principe, formul par N. Chomsky ds 1957, du recours aux corpus au profit de l'appel l'intuition du locuteur natif a relgu dans les limbes les travaux de linguistique quantitative et les tudes empiriques de donnes attestes. Cest, du moins, l'impression qui domine quand on se retourne sur les quarante dernires annes de l'histoire de la linguistique. Cette image est partiellement fausse. Dans le monde anglo-saxon, o l'empirisme bien compris garde toujours quelque attrait, paralllement aux mutations des modles chomskyens et de leurs avatars, s'est progressivement affirme une linguistique faisant appel de plus en plus systmatiquement des corpus lectroniques pour dvelopper, partir des faits rassembls, des dictionnaires et des grammaires descriptives5, mais aussi pour tester des hypothses, confronter un modle postul aux ralisations effectives (Aarts, 1990). Cest le courant des linguistiques de corpus ou sur corpus , en anglais corpus linguistics. Cette utilisation de corpus annots, de grande taille, varis et assortis doutils dexploration puissants, permet dobserver plus finement les phnomnes et remet en question une partie des postulats de la linguistique. Tout dabord, la diversit mme des corpus et le fait que certains dentre eux ont t constitus pour rendre compte des registres et des genres langagiers permettent des tudes approfondies de la variation langagire. Il est possible dtudier dans le dtail, en dpassant les caractrisations trop globales, et donc caricaturales, lopposition entre oral et crit, lorganisation globale des textes, mais aussi les
Notre analyse est proche de celle de M.-P. Pry-Woodley (1995). Cette dnomination est un calque maladroit de langlais NLP (Natural Language Processing). Elle ptit de lhsitation entre langue et langage pour la traduction de language. Rappelons quon entend par langage naturel une langue de communication, par opposition aux langages formels (notations logiques) et aux langages artificiels (langages de programmation). Comme le soulignait A. Guillet, la langue franaise marque la distinction entre les deux ordres langagiers. On dit Il parle (le) verlan, mais pas *Il parle (le) Prolog. 4 On se reportera (Fuchs et al., 1993) pour une prsentation gnrale des domaines et des techniques du TALN. 5 C'est le cas du Survey of English Usage de R. Quirk et de (Quirk et al., 1985).
2 3
contrastes socio-linguistiques. Lexamen des corpus pose ensuite la question de l'articulation de la performance et de la comptence. Aux dires de G. Sampson (1994, p. 180) : la linguistique de corpus prend le langage comme elle le trouve. Le corpus Mitterrand1 (Labb, 1990, p. 95) prsent infra en 7.2.2 comprend par exemple l'nonc suivant : Moi, je suis de la France. Je ne dis pas : je suis la France. Je suis de la France. Toutes mes penses, toutes mes faons d'tre, toutes mes sensations, toutes mes vibrations, elles sont de la France6. Plusieurs des constructions qu'emploie ici F. Mitterrand paraissent nettement a-grammaticales. Il ne s'agit pourtant pas d'un lapsus mais d'un choix dlibr, comme le prouvent les reprises. Si, comme laffirme J.-C. Milner (1989, p. 55) : [...] l'activit grammaticale ne consiste pas enregistrer les donnes de langue ; elle consiste mettre sur ces donnes un jugement diffrentiel , c'est--dire isoler l'impossible de langue (ibid.), les linguistiques de corpus se trouvent confrontes un ventail de ralisations langagires qui remet en cause les distinctions tranches entre acceptable et non-acceptable. Troisimement, les corpus peuvent rassembler des noncs sur lesquels l'analyste n'est pas forcment mme de porter des jugements d'acceptabilit. C'est le cas par exemple pour des corpus de langues mortes (Ancien Franais, Anglais mdival, etc.). Mais cest aussi le cas pour des corpus de langues de spcialit, pour lesquels une partie des contraintes syntaxiques et smantiques restent opaques qui n'est pas du domaine . Lexamen des rgularits rencontres au sein du corpus est alors un moyen, parfois le seul, de reconstituer la grammaire sousjacente. Enfin, mme lorsqu'il s'agit d'un tat de langue correspondant la comptence langagire de l'analyste, un corpus permet dapprcier limportance relative des diffrentes ralisations. Certaines constructions, par exemple, sont extrmement frquentes, dautres rares ou exceptionnelles. On peut penser que de tels dcalages ne concernent pas vraiment la linguistique en tant que telle. Ce serait peut-tre la position de J.-C. Milner (1989, p. 34) : [...] toutes les questions que soulve la science du langage, dans toutes ses versions, sont des questions fines ; ds qu'elle dpasse la banalit, une proposition de linguistique concerne peu de donnes la fois et elle y fait apparatre gnralement ce que l'opinion courante tiendrait pour des dtails. . On peut aussi chercher articuler les rgles et le poids compar des diffrentes rgularits observes. Dans cette conception, les rgles ne sont pas toutes sur le mme plan : certaines sont centrales, dautres priphriques. Les rgles changent alors de statut. Cest une vision probabiliste de la grammaire (Sueur, 1982, p. 148-150).
2.2 Le changement de cap en TALN

La tradition des linguistiques de corpus a reu ces dernires annes un appui vigoureux et inattendu de la communaut du TALN, qui a donn un nouvel essor la constitution et l'utilisation de corpus annots7. Cet appui dcoule de la prise de conscience progressive d'une inadquation relative des paradigmes utiliss pour le TALN. En effet, la sophistication des formalismes utiliss ne dbouche pas toujours
Intervention radio-tlvise du 2 mars 1986. Ce renfort est soulign comme une heureuse surprise par un linguiste descriptiviste connu, G. Leech (1991, p. 20) : Nous sommes maintenant dans une position o la recherche base sur corpus a vraiment dcoll, non seulement comme un paradigme d'investigation linguistique reconnu mais comme une contribution cl pour le dveloppement de logiciels de traitement du langage naturel. La recherche [...] va probablement susciter non seulement l'attention des universitaires mais le financement industriel et public qui sera ncessaire si l'on veut obtenir les progrs souhaits.
6 7
sur des systmes de traitement fiables et efficaces. Deux causes sont gnralement avances. Tout d'abord, un systme de TALN a besoin de ressources (dictionnaires, grammaires) la fois trs vastes (en nombre d'entres lexicales et de rgles) et trs dtailles (concernant les conditions syntaxiques d'emploi des mots, par exemple). Les ressources actuelles sont notoirement insuffisantes, surtout en ce qui concerne la finesse de description. En second lieu, leur amlioration, semble-t-il, n'est ni uniquement ni mme principalement chercher dans des nouvelles tudes en chambre mais plutt dans l'observation des larges ensembles de donnes textuelles qui sont maintenant disponibles. Il sagit en fait dun changement profond de paradigme. Jusque l, lobjectif des recherches en TALN et en Intelligence Artificielle tait avant tout de modliser , de formaliser le savoir humain, de dgager les rgles sous-jacentes. Cest pourquoi les mthodes utilises en TALN taient alors largement symboliques , c'est--dire fondes prcisment sur des rgles8. M. Liberman (1991) rsumait ainsi le courant anti-empirique, anti-numrique et pro-symbolique des vingt dernires annes : Compter tait prcisment considr comme n'tant pas une tche approprie pour une personne de qualit. L'observation de donnes langagires en trs grande quantit et le traitement de flux d'informations aussi importants que ceux qui circulent aujourd'hui sur le rseau Internet conduisent inluctablement recourir des approches quantitatives ou marier approches symboliques et approches quantitatives. C'est donc un vritable changement de cap que nous assistons actuellement. Les enjeux industriels sont considrables. Ce n'est donc pas un hasard si les initiatives de constitution de corpus annots et de ressources langagires de grande taille ont reu dans le monde anglo-saxon des soutiens financiers importants, du secteur priv (dition), mais aussi de la puissance publique. La mise dans le domaine public de ces nouvelles ressources apparat comme la condition sine qua non pour que les chercheurs et les industriels puissent progresser efficacement partir de ces sources de connaissances. Dans la communaut du TALN, l'accent est mis sur les trs vastes ensembles de donnes textuelles (des centaines de millions de mots), l'objectif tant, comme le soulignent K. Church et R. Mercer (ibid., p. 1) : une couverture large (bien que peut-tre superficielle) de texte tout-venant, plutt qu'une analyse en profondeur de domaines (artificiellement) restreints. Ce sont des traitements automatiques du langage ancrs fortement dans des donnes attestes (data-intensive approach to language) qui sont viss.
3. CHOIX TERMINOLOGIQUES
Nous employons le mot corpus dans une acception assez restreinte emprunte J. Sinclair (1996, p. 4) : Un corpus est une collection de donnes langagires qui sont slectionnes et organises selon des critres linguistiques explicites pour
Deux signes, parmi bien d'autres, de cette prminence. A la fin des annes quatre-vingts, paraissaient deux sommes sur le TALN. La premire (Gazdar et Mellish, 1989) prsentait les formalismes d'unification et cartait dans l'introduction toute quantification : Comme tous ceux qui comptent les moutons le savent bien, compter est une tche parfaitement ennuyeuse. Mme les premiers ordinateurs comptaient vite et bien sans en mourir d'ennui . G. Gazdar et C. Mellish ajoutaient propos des index et concordances : Aujourd'hui de tels travaux continuent sous la rubrique 'linguistique, littrature et ordinateur' mais ne relvent plus de la linguistique computationnelle. B. Partee et ses collgues, dans leur vaste prsentation des modles mathmatiques pour la linguistique (1990), ne mentionnaient qu'une fois en 613 pages les modles statistiques et probabilistes ... pour dire qu'ils ne seraient pas abords.
8
servir d'chantillon du langage. Nous prcisons cette optique au chapitre VI. cette aune, nombre de ressources textuelles perdent cette dnomination. Il sagit souvent de collections ou de rassemblements de textes lectroniques plutt que de corpus proprement parler. Nous empruntons au qubecois le terme parsage (parsing) pour dsigner lanalyse syntaxique automatique et le mot parseur (parser) pour le programme qui effectue cette opration. En recherche d'information, la prcision reprsente la proportion de rponses pertinentes donnes par rapport au total des rponses extraites. Le rappel est la proportion des rponses pertinentes extraites par rapport au total des rponses pertinentes possibles. Le silence correspond alors les rponses pertinentes non extraites. Le bruit renvoie aux informations non pertinentes produites. Par difficult trouver une expression satisfaisante, nous parlons parfois dannotation manuelle, par opposition une annotation automatique, cest--dire effectue par un programme. Lannotation nest jamais vraiment manuelle : des programmes spcifiques ont pour objectif de faciliter le travail de la personne qui annote (lannotateur ou lanalyste) voire de vrifier partiellement la cohrence des informations quelle fournit. Inversement, lannotation automatique est souvent prcde ou suivie dinterventions humaines9. Annoter revient regrouper sous un mme chef, un mme type, des ralisations linguistiques distinctes, ses occurrences. Cest le lemme pour les flexions dun mot : grand pour grand, grands, grande, grandes. Il peut sagir dune classe plus abstraite. Les suites de mots le prsident de la rpublique et le livre des Rois sont deux occurrences du type syntagme nominal, tout comme je, ici et maintenant constituent trois occurrences du type embrayeur. Signalons enfin que nous employons souvent le mot ambigut pour des situations o un locuteur nen peroit pas. Le fait de dire que pomme de terre peut ventuellement tre ambigu dans Il sort les pommes de terre parat relativement raisonnable. Il nen va pas de mme pour Il prend les pommes de terre. Pourtant, les programmes de traitement ne disposent pas toujours des connaissances qui leur permettraient de choisir dans de tels cas. Il est dusage en TALN de parler dambigut pour ces situations. Cest cet usage que nous suivons. La dsambigusation consiste choisir entre un certain nombre de possibilits.
4. NOTATIONS
Les corpus et les ressources textuelles sont cits par leur nom seul10, sans dterminant, en gras italique. Nous parlons de Brown et non du corpus Brown ou du Brown, la fois pour limiter le retour du mot corpus, dj bien suffisamment l'honneur dans ces pages et pour viter de statuer sur l'adquation de la notion, telle que nous l'entendons, l'ensemble textuel considr. Les mentions des corpus, des ressources textuelles, des auteurs et des notions sont rassembles dans un mme index. Les termes techniques (avec ventuellement leur correspondant anglais entre parenthses11) sont dtachs en italiques lors de leur premire utilisation. Ils sont
chapitre VIII. Il s'agit souvent d'un acronyme (Susanne, Archer) ou du lieu ou de l'institution l'origine du corpus (Brown), ou d'un mlange des deux (LOB : London-Oslo-Bergen). 11 Sauf dans quelques cas bien spcifiques, comme parsage, nous cherchons viter les anglicismes.
9 Cf. 10
repris dans l'index. Les crochets servent isoler des suites de traits linguistiques, qui sont mis entre accolades : [{nom commun}{adjectif relationnel}] dsigne lenchanement dun nom commun et dun adjectif relationnel. Les exemples extraits de corpus et les sorties danalyseurs sont signals par un changement de police comme dans {adjectif relationnel}.
5. ORIENTATION DE LOUVRAGE
Devant la multiplicit des points de vue possibles sur cette conjoncture nouvelle et les travaux qui en sont issus, nous prcisons les parti-pris qui sont les ntres dans les pages qui suivent.
5.1 Lcrit au travers de corpus enrichis de langues vivantes

Nous avons mis laccent sur les corpus relevant de lcrit12. Les corpus d'oral transcrit sont encore rares : la transcription proprement dite, les choix qu'elle entrane, les cots qu'elle suppose freinent leur dveloppement, mme si celui-ci semble s'acclrer dans les dernires annes13. On dispose dun recul moindre pour ce domaine que pour celui de l'crit. Il nous semble aussi que l'oral impose des niveaux de description et des outils thoriques partiellement loigns de ceux qui sont traditionnellement utiliss pour l'crit14. Ce cadre thorique nous fait dfaut. Il nous a sembl prfrable de laisser dautres en parler mieux que nous. De nombreux textes latins et grecs sont disponibles sous forme lectronique. Nous ne parlerons cependant pas de ces corpus de langues mortes. Nous centrons en effet notre analyse sur les langues vivantes ainsi que sur les tats anciens de ces langues (l'ancien et le moyen franais, par exemple). Par corpus enrichis ou annots, nous entendons des corpus dans lesquels les squences de caractres qui constituent les mots sont assorties d'autres informations15 : lemmes, tiquettes morpho-syntaxiques, smantiques, arbres syntaxiques, apparat critique, etc. Nous ne retenons pas les corpus nus , cest-dire faits de mots seuls, sans annotation, sauf l'occasion pour montrer l'cart entre les analyses selon le niveau d'information disponible ou dans le cas de corpus dtats anciens des langues actuelles. Nous prsentons cependant d'autres ressources textuelles qui ne sont pas des corpus annots mais qui reprsentent tout de mme une source d'information prcieuse. C'est le cas des versions lectroniques de dictionnaires papier ou de
Certains des corpus mentionns, comme BNC, comprennent en fait une partie d'oral. Deux des corpus franais utiliss sont partiellement ou totalement de l'oral transcrit : Mitterrand1, mais aussi les lettres et les compte-rendus dans Menelas, qui sont dicts. Certaines recherches prsentes (celles de Biber, par exemple, rsumes au chapitre I) font appel l'oral. Mais c'est une dimension que nous laissons chaque fois dans l'ombre. 13 On distingue en outre corpus d'oral et corpus de parole (Sinclair, 1996, p. 8-9). Les premiers servent aux linguistes et reposent sur des transcriptions associant ventuellement alphabet phontique et signes spcifiques pour noter la prosodie, etc. Les seconds relvent de la communaut de la reconnaissance de la parole et restent plus proches d'enregistrements. 14 Cf. (Blanche-Benveniste, 1997). 15 G. Sampson, pre de Susanne (cf. infra), distingue conventions d'annotation (annotation scheme) et systme d'annotation (annotation system) : mthode qui met en uvre ces conventions. La mthode peut tre manuelle ou automatique.
12
thesaurus. Cest le cas aussi des textes aligns, o lun des textes est la traduction de lautre. Aujourdhui, on ne dispose plus seulement de corpus annots pralablement, mais d'outils permettant de traiter de nouveaux textes et de constituer de nouveaux corpus enrichis. Ces outils d'annotation (tiqueteurs, analyseurs syntaxiques ...) retiennent aussi notre attention.
5.2 Les corpus, les ressources et les recherches de langue anglaise

Qu'on ne voie ni une anglophilie excessive ni un engouement coupable pour la modernit amricaine dans lattention que nous accordons aux corpus, aux ressources en anglais ou en amricain et aux travaux qui s'en servent, anglo-saxons eux aussi pour la plupart. Ncessit fait loi. Les corpus enrichis sont aujourd'hui majoritairement de langue anglaise ou amricaine16 ... mme lorsqu'ils sont dvelopps dans des pays extrieurs au monde anglo-saxon : c'est le cas du corpus de Nimgue aux Pays-Bas ainsi que d'Helsinki. Les travaux qui utilisent ces ressources paraissent avant tout dans des colloques, des revues et des livres anglais ou amricains. Les outils d'annotation et les dictionnaires lectroniques sont aussi majoritairement dvelopps pour la langue anglaise ou amricaine. Cet tat de fait rsulte la fois de l'anciennet d'une tradition anglo-saxonne de linguistique descriptive appuye sur des corpus et de la place prminente de l'anglais et de l'amricain dans les projets de TALN depuis les dbuts de ces recherches. La francophonie s'engage dans ce mouvement, avec un certain retard et une rticence certaine mettre dans le domaine public des ressources comme des corpus tiquets et des tiqueteurs. terme, ces ressources n'en seront pas moins disponibles. Nous avons donc complt un expos essentiellement consacr des travaux anglo-saxons par la prsentation de corpus annots de langue franaise et d'outils destins notre langue.
5.3 Un point de vue aux frontires de la linguistique

Nos domaines de spcialit (analyse syntaxique automatique, smantique formelle et statistique textuelle) nous situent aux frontires de la linguistique. Cest peut-tre un regard oblique que nous portons sur les recherches dont nous rendons compte. Nous ne prtendons pas juger la pertinence linguistique des tudes que nous avons retenues. Nous cherchons mettre en vidence les grandes tendances que nous percevons. Il ne nous semble dailleurs pas possible de pouvoir prtendre faire tat dun ensemble reprsentatif des travaux relevant des linguistiques de corpus. Il faudrait une culture linguistique la fois extrmement vaste et trs approfondie sur certains points pour apprhender et valuer la multiplicit des travaux linguistiques partir de corpus. Nous esprons tout de mme que notre insertion dans des projets interdisciplinaires nous aura permis de percevoir (et de faire sentir) l'aspect sminal de certaines recherches. Peut-tre notre regard oblique se rvlera-t-il rafrachissant.
16
Nous distinguons l'anglais et l'amricain dans ce livre, dans la mesure prcisment o lexistence de corpus comparables comme LOB et Brown a permis des tudes contrastives sur ce point, comme (Mair, 1995).
5.4 La diversit des publics concerns

S'il met l'accent sur les recherches linguistiques s'appuyant sur des corpus annots, cet ouvrage nest pas uniquement destin aux linguistes. La didactique des langues est aussi concerne. Les corpus reprsentent des ressources importantes pour l'apprentissage des langues : phnomnes collocatifs et phrasologie, micro-syntaxe des entres lexicales, tude des langues de spcialit, typologie des textes. Nous abordons tous ces aspects. La lexicographie, en particulier spcialise (la terminologie), commence dj utiliser les mthodes et les outils qui sont prsents ici. L'analyse de contenu peut tirer profit des nouveaux outils de traitement. Nous montrons ainsi sur un corpus de rponses des questions ouvertes l'emploi d'tiquettes morpho-syntaxiques pour contraster plus finement les styles sociaux des locuteurs. Les chercheurs du TALN, qui peuvent relativement facilement se procurer du texte lectronique, trouveront dans ces pages des indications mthodologiques sur la constitution de corpus, en particulier sur l'influence des genres textuels. Nous parlons de linguistiques de corpus au pluriel pour souligner cette diversit d'approches17.
6. DEMARCHE SUIVIE
L'ouvrage se divise en trois parties. Nous partons des corpus annots et des autres ressources textuelles disponibles. Nous abordons ensuite d'autres dimensions du travail sur corpus : l'tude du sens, celle de la diachronie, les textes aligns. Nous finissons par les problmes mthodologiques et techniques, plus abstraits pour les premiers, plus phmres pour les seconds. Les renvois bibliographiques, nombreux, tmoignent de l'intense activit de recherche et de dveloppement autour des corpus lectroniques. Ils comprennent des actes de confrence et mme des rapports techniques : la recherche est active dans ce domaine.
6.1 Les corpus annots et leurs utilisations

Le chapitre I aborde les corpus tiquets : des tiquettes morpho-syntaxiques sont associes aux mots. Le chapitre II traite des corpus arbors : des reprsentations syntaxiques dcorent les phrases. Au sein de chacun de ces chapitres, nous prsentons d'abord rapidement le niveau d'annotation concern. Les corpus prsents la fin de cette introduction sont sollicits pour des exemples o nous respectons les lourdeurs des notations existantes. Nous essayons en mme temps de fournir une reprsentation unifie pour chaque niveau d'annotation de manire pouvoir comparer les formats effectifs utiliss, ces derniers tant extrmement varis. Les diffrences de notations empchent en effet souvent de percevoir les divergences et les convergences
Nous rejoignons M.-P. Pry-Woodley (1995) : Le fait que n'existe pas en franais un terme unificateur [comme corpus linguistics] a pour consquence que rien ne vient cacher la diversit des objectifs et des mthodes des diffrents utilisateurs de corpus.
17
relles. Dans un deuxime temps, nous dveloppons quelques exemples de recherches linguistiques rendues possibles par ce niveau d'annotation et qui paraissent particulirement prometteuses. Par ces exemples, nous voulons montrer d'emble ce que peuvent apporter les diffrents niveaux d'annotation possibles d'un corpus, sans que les problmes techniques viennent troubler la perception des enjeux. Le chapitre III dcrit d'autres ressources textuelles importantes : les ressources lexicales sous forme lectronique.
6.2 Dimensions transversales

Le chapitre IV, consacr au volet smantique, montre comment extraire des connaissances lexicographiques de corpus ou dsambiguser le sens des mots en contexte. Le chapitre V prsente l'utilisation de corpus dans une perspective diachronique, sur la longue dure ou au contraire sur des priodes courtes. Il indique les difficults propres de la constitution de corpus historiques et les prcautions mthodologiques ncessaires lors de leur utilisation. Le chapitre VI dcrit les textes aligns : un texte crit dans une langue est mis en parallle avec sa version dans une ou plusieurs autres langues.
6.3 Mthodologies et techniques

La dernire partie regroupe les rflexions mthodologiques et les informations techniques. La comprhension pralable des tudes utilisant des corpus rend plus tangibles les enjeux de la constitution d'un corpus et les choix mthodologiques qu'elle ncessite, en particulier en ce qui concerne les normes destines faciliter l'change et la rutilisation des donnes textuelles (SGML, TEI). Cest lobjet du chapitre VII. En essayant d'viter l'hermtisme, bien conscients que c'est probablement le point sur lequel les volutions sont les plus rapides et les plus difficiles anticiper, nous prsentons au chapitre VIII les techniques d'tiquetage et d'analyse syntaxique, celles dannotation smantique, ainsi que le toilettage et la segmentation des donnes textuelles. Le chapitre IX prsente rapidement la quantification des faits langagiers.
7. PRINCIPAUX CORPUS CITES

Les corpus annots sont aujourd'hui lgion, et nous ne saurions prtendre en dresser la liste. Cependant, certains d'entre eux sont devenus canoniques, soit du fait des mthodes employes pour les constituer et les annoter (c'est le cas de Susanne, par exemple), soit en raison des tudes linguistiques qui les ont utiliss. Lindex renvoie aux passages o ces deux aspects sont voqus. Ce sont ces corpus anglais et amricains que nous prsentons. Ils sont en gnral disponibles
pour la recherche universitaire.
7.1 Corpus anglais ou amricains

Brown Ce corpus tiquet d'un million de mots a t mis au point en 1979 par W. Francis et H. Kucera, l'universit Brown (USA). Il comprend 500 extraits de 2 000 occurrences chacun provenant de textes amricains publis en 1961 et relevant de 15 genres : reportage, crits scientifiques et techniques, etc. Il a t soigneusement tiquet. Par sa mise dans le domaine public, il a jou un rle moteur dans le renouveau des tudes sur corpus. LOB (Lancaster-Oslo-Bergen) Ce corpus tiquet a t conu comme l'quivalent anglais de Brown. Il comprend galement 1 million de mots slectionns selon les mmes critres mais partir de textes anglais publis en 1961. Susanne Ce corpus de 128 000 occurrences annot sous la direction de G. Sampson (1994, 1995) est constitu de 64 extraits de 2 000 occurrences chacun pris dans Brown. Il comprend des reportages, des textes littraires (romans, biographies, mmoires), des crits scientifiques et techniques et enfin des textes de fiction. La particularit de Susanne est que chaque phrase est assortie d'un arbre syntaxique trs dtaill, associant des tiquettes catgorielles et des tiquettes fonctionnelles. London-Lund Ce corpus tiquet (Svartvik et al., 1982) totalise 435 000 mots d'anglais parl, rpartis en 87 extraits de 5 000 occurrences de locuteurs adultes ayant fait des tudes. Il inclut conversations, y compris tlphoniques, confrences et cours, commentaires radiophoniques, etc. Il comprend de nombreuses informations prosodiques (pauses, limites, etc.). Lancaster/IBM Treebank Ce corpus arbor (Black et al., 1993) rassemble 1 million de mots de l'agence Associated Press, 1 million de mots issus des dbats du parlement canadien, 250 000 mots de APHB (American Printing House for the Blind), 800 000 mots de manuels IBM. Il est muni d'une annotation syntaxique limite : parenthsage et tiquetage des constituants. Helsinki Cest un corpus pour ltude diachronique de langlais. Il comprend 1,5 millions de mots non annots, couvrant la priode allant de lanne 750 1700, rpartis en 11 priodes et diffrents types de textes (Kyto, 1993a ; 1993b). Archer Cest un corpus pour ltude diachronique de langlais et de lamricain. Il comprend 1,7 million de mots non annots, de lanne 1650 1990, rpartis en priodes de cinquante ans et en genres (journaux intimes, fiction, crits journalistiques, mdecine, science, dcisions de justice, thtre, sermons, etc.). BNC (British National Corpus) Ce corpus tiquet de 100 millions de mots mle oral (10 %) et crit (textes de fiction partir de 1960 et textes informatifs partir de 1975). Les chantillons sont reprsentatifs d'une grande diversit de situations langagires, mais sans organisation par thmes, registres ou genres (Burnard, 1995). Penn Treebank Ce corpus arbor (Marcus et al., 1993) comprend 4 millions de mots issus de sources diverses : Manuels IBM, Brown, Department of Energy, Department of Agriculture, textes littraires, Library of America, oral transcrit, DARPA Air Travel Information System, informations financires, Dow Jones.
7.2 Corpus franais

Nous ajoutons trois corpus franais annots. Ils associent langue spcialise (Menelas) et langue gnrale (Mitterrand1, Enfants). Ils ne sont pas dans le domaine public. Menelas Ce corpus tiquet et partiellement arbor, de 84 839 occurrences et 6 191 formes diffrentes, a t rassembl pour le projet europen Menelas (Zweigenbaum, 1994) de comprhension de comptes rendus d'hospitalisation. Il concerne les maladies coronariennes18. Il runit un extrait de manuel mdical, des comptes rendus d'hospitalisation et des lettres des mdecins hospitaliers leurs collgues non hospitaliers propos de patients communs. Mitterrand1 Ce corpus tiquet et lemmatis19 regroupe les interventions radiotlvises de F. Mitterrand au cours de son premier septennat. Il a t constitu par D. Labb (Institut dEtudes Politiques de Grenoble). Il compte 305 124 occurrences et 9 309 formes. La qualit du travail d'tiquetage et de lemmatisation, ainsi que la minutie de la vrification font de ce corpus de taille moyenne un excellent observatoire de la langue gnrale (par opposition par exemple Menelas dcrit supra). Enfants Ce corpus20 est constitu de rponses la question : Quelles sont les raisons qui, selon vous, peuvent faire hsiter une femme ou un couple avoir un enfant ? Cette question a t pose en 1981 2 000 personnes reprsentant la population des rsidents mtropolitains de 18 ans et plus lors d'une enqute effectue par le Centre de Recherches et de Documentations sur la Consommation (CREDOC), sous la direction de L. Lebart, sur les conditions de vie et les aspirations des Franais. Ce corpus comprend 15 523 occurrences (ponctuation non comprise) et 1 305 formes. Chaque rponse est prcde d'indications sociologiques sur la personne interroge (sexe; ge,niveau de diplme, etc.).
Il a aussi servi de banc d'essai un certain nombre de mthodes dacquisition automatique ou assiste de terminologies scientifiques et techniques. Il a t tudi dans une perspective politologique (Labb, 1990). Il a t tudi au niveau des mots dans (Lebart et Salem, 1994). Une fois lemmatis, tiquet et corrig, il a t analys dans (Habert et Salem, 1995).
19 20
18
PREMIERE PARTIE
LES CORPUS ANNOTES ET LEURS UTILISATIONS
CHAPITRE I
LES CORPUS ETIQUETES
Etiqueter un texte, c'est une forme dannotation dans laquelle on associe des segments de texte, le plus souvent les mots , une ou plusieurs tiquettes, le plus leur catgorie grammaticale voire leur lemme. Dans la premire section, nous donnons de brefs exemples de corpus tiquets et nous dfinissons les types d'tiquetage rencontrs. Un premier exemple d'utilisation de corpus tiquets (section 2) repose sur un tiquetage approfondi d'une partie seulement du corpus. Il vise mettre en vidence de manire inductive une typologie des textes sur la base des corrlations observes entre les traits linguistiques retenus. Un second exemple (section 3) fait appel un tiquetage complet mais fruste (la partie du discours et quelques renseignements morphologiques). Cet tiquetage permet de contraster les parlures qui coexistent dans le corpus tudi. Nous abordons en section 4 l'utilisation d'tiqueteurs ou de corpus tiquets et en section 5 les enjeux thoriques des recherches rendues possibles par ce niveau d'annotation.
8. DEFINITIONS
Commenons par trois brefs exemples, qui donnent un aperu de la diversit des tiquetages effectifs ... comme de leur manque de lisibilit et de clart.
16
PREMIERE PARTIE
8.1 Exemples
8.1.1.1 Enfants Les rponses fournies par les personnes interroges :

Les difficults financires et matrielles. Je ne sais pas, les gens sont gostes, peut-tre.
sont lemmatises et tiquetes (cf. 3.2) de la manire suivante :

<S01=23> le les {DETDEF} difficult difficults {NOMFP} financier financires {ADJFP} et et {CCOORD} matriel matrielles {ADJFP} . . {PONCT-FORTE} <S01=31> je je {PROPERS} ne ne {ADVNEG} savoir sais {VIPR1S} pas pas {ADVNEG} , , {PONCT-FAIBLE} le les {DETDEF} gens gens {NOMMP} tre sont {VIPR3P} goste gostes {ADJMP} peut-tre peut-tre {ADV} . . {PONCT-FORTE}
Chaque rponse commence par des renseignements sur linterview : son ge (en deuxime position aprs S01= : 1 renvoie infrieur 30 ans, 2 entre 30 et 50 ans, 3 au del de 60 ans) et son niveau d'tude (en premire position aprs S01= : 1 = sans, 2 = baccalaurat, 3 = tudes suprieures). Puis chaque mot, prcd de son lemme, est suivi de sa catgorie morphosyntaxique entre accolades (NOMMS = nom masculin singulier, par exemple). 8.1.1.2 Mitterrand1 Le fragment suivant est extrait de l'mission de TF1 a nous intresse, Monsieur le prsident du 2 mars 1986 :
[...] moi, je suis de la France - je ne dis pas : je suis la France - [...]
Il est cod de la manire suivante par D. Labb (1990) :

moi,je,5 ",",",","p" je,je,5 suis,tre,11 de,de,81 la,le,7 France,France,22 -,-,p je,je,5 ne,ne,6 dis,dire,11 pas,pas,6 :,:,p je,je,5 suis,tre,11 la,le,7 France,France,22
Le texte annot est constitu d'une srie de triplets comme suis,tre,11 : le mot, le lemme, la catgorie, reprsente par un nombre. Les trois informations sont spares par des virgules.
Les corpus arbors
17
8.1.1.3 Susanne La phrase :

DAN MORGAN TOLD HIMSELF HE WOULD FORGET Ann Turner21 :
est reprsente ainsi : N01:0010b N01:0010c N01:0010d N01:0010e N01:0010f N01:0010g N01:0010h N01:0010i N01:0010j N01:0010k NP1m NP1s VVDv PPX1m PPHS1m VMd VV0v NP1f NP1s YF DAN MORGAN TOLD HIMSELF HE WOULD FORGET Ann Turner +. Dan Morgan tell himself he will forget Ann Turner [O[S[Nns:s Nns:s] [Vd Vd] [Nos:i Nos:i] [Fn:o[Nas:s Nas:s] [Vdc Vdc] [Nns:o Nns:o]Fn:o]S]
. . . . . . .
[Vd Vd]
Le texte est ici prsent sous la forme d'un tableau : un mot du texte de dpart correspond une ligne. Chaque ligne fournit une suite de champs. Ici pour la troisime ligne : N01:0010d VVDv TOLD tell
une rfrence : le nom du fichier dont provient cet extrait (N01) et un numro de ligne au sein de ce fichier : 0010d ; une indication d'dition : le tiret indique que le texte n'a pas t corrig cet endroit ; une catgorie : VVDv ; la forme flchie telle quon la rencontre dans le corpus : told ; le lemme correspondant : tell ; la structure syntaxique dans laquelle s'insre le mot22 : [Vd Vd] indique que ce mot est la tte d'un groupe verbal. Le point signale l'endroit o le mot et sa catgorie doivent s'insrer. C'est l'quivalent de [Vd [VVdv told]].
8.2 L'invitable parpillement des tiquetages

Les exemples donns manifestent la diversit en taille et en vise des jeux d'tiquettes et des stratgies dtiquetage sous-jacentes. Cette
Les majuscules sont dans le texte de dpart. Nous reviendrons sur ce dernier champ au chapitre suivant, consacr aux corpus arbors : cette annotation syntaxique n'est gnralement pas considre comme faisant partie de l'tiquetage proprement parler.
21 22
18
PREMIERE PARTIE
diversit tient lutilisation envisage du corpus mais aussi son mode dtiquetage (manuel ou automatique) ainsi qu labsence de consensus sur certains catgories ou sur leur extension. L'exprience montre qu'un groupe dannotateurs n'est pas forcment cohrent dans les tiquettes qu'il attribue manuellement un texte. Il en va de mme pour un mme individu au fil du temps. J. Vronis et L. Khouri soulignent (1995, p. 235) le fait que les jeux d'tiquettes ne sont gnralement pas comparables, ce qui retarde l'valuation ou la combinaison des tiqueteurs et des tiquetages. Pour reprendre Leech et ses collgues (1994, p. 51) : il n'y a pas de 'meilleur jeu d'tiquettes', [...] dans la pratique la plupart des jeux d'tiquettes constituent plutt des compromis entre la finesse de la description linguistique et ce qui peut tre attendu, pour des raisons pratiques, d'un systme automatique d'tiquetage23. On peut recourir un jeu d'tiquettes important pour pouvoir distinguer aisment certains cas d'ambigut, quitte se ramener un jeu plus restreint une fois l'tiquetage opr24. Inversement, sur certains points, le jeu d'tiquettes peut en rester des distinctions relativement grossires, parce qu'il s'avre difficile d'obtenir, sur des subdivisions plus fines, un consensus de la part des personnes dfinissant l'ensemble d'tiquettes utiliser (Greenbaum, 1993) ou parce que des catgories trop fines rendraient plus long et plus hasardeux le travail de correction manuelle des rsultats de l'tiquetage automatique. Greenbaum (ibid., p. 18) donne l'exemple de la distinction comptable / non comptable, importante pour les noms en grammaire anglaise, mais difficile tablir avec sret, a fortiori automatiser. Il propose alors de s'en tenir l'opposition, aisment dtectable, entre singulier et pluriel. charge pour ceux qui entendent prcisment tudier la dimension comptable / non comptable d'annoter en consquence leur corpus ! Par ailleurs, les jeux d'tiquettes correspondent aussi sur certains points des divergences thoriques relles. Il en va de mme de la projection des catgories, soulignent J. Vronis et L. Khouri (ibid., p. 237) : Mme si l'on est d'accord sur le jeu d'tiquettes, leurs extensions (c'est--dire l'ensemble des formes lexicales qu'elles couvrent) peuvent tre diffrentes. Le problme est particulirement aigu pour les catgories fermes, dterminants, pronoms, adjectifs indfinis, etc., o l'on rencontre de trs grosses diffrences d'apprciation dans les catgories, et ce dans la plupart des langues. Comme l'indiquent Greenbaum et Yibin (1994, p. 35) : l'identit des tiquettes [entre deux jeux] peut tre trompeuse, dans la mesure o l'assignation des tiquettes peut tre diffrente. Ils citent le cas de l'tiquette adverbe qui est conserve par ICE (International Corpus of English) pour les adverbes utiliss comme modifieurs de noms (then dans the then president) mais que l'tiqueteur CLAWS remplacerait par ltiquette adjectif. Dans les cas
23 J.-P. Chanod et P. Tapanainen (1995a) indiquent ainsi qu'ils ont ignor la distinction masculin / fminin en franais pour les noms et les adjectifs, dans la mesure o cette distinction suppose l'utilisation de contextes larges (une envie de soleil diffuse) et o finalement, pour leurs objectifs (reprage de l'accord sujet / verbe et ambigut nom / verbe), elle joue un rle mineur. 24 C'est la pratique d'E. Tzoukermann et de ses collgues (1995) avec des jeux de 253 et 67 tiquettes respectivement.
Les corpus arbors
19
de conversion, c'est--dire de passage d'une catgorie une autre sans changements drivationnels, doit-on attribuer la catgorie de dpart ou celle d'arrive ? Comment catgoriser par exemple parler dans la squence le parler vrai : comme un infinitif ou comme un nom ?
8.3 Une reprsentation canonique

Les corpus tiquets peuvent donc se prsenter sous des formats variables : verticalement (comme Mitterrand1 ou Susanne) ou horizontalement (Enfants). Dans ces trois exemples, la nature des informations doit tre dduite de lusage de divers caractres qui prennent un sens particulier : crochets, point, virgule, accolades, passages la ligne, ainsi que de la place o les informations figurent. La catgorie constitue la troisime colonne de Susanne et de Mitterrand1 et elle occupe la troisime position de chaque triplet pour Enfants. On peut figurer ainsi le dcodage de ltiquetage dun mot annot dans Mitterrand1 : mot sparateur de champ suis , lemme tre sparateur de champ , catgorie 11 sparateur de triplet passage la ligne
Pour faciliter la rcupration d'un champ donn et la transmission des corpus, on doit passer de ces indications positionnelles une reprsentation logique, ce qui revient isoler chaque type d'information et lui donner un nom, soit avant cette information :
catgorie=verbe, lemme=tre, forme=tre
soit autour de cette information :

<catgorie>verbe</catgorie><lemme>tre</lemme><forme>suis</forme>.
Cette dernire reprsentation, destine faciliter les changes et rutilisations de corpus, repose sur des normes de balisage prsentes au chapitre VI. Ces conventions rendent explicite une reprsentation canonique de l'tiquetage. Les informations associes un segment de texte peuvent en effet tre reprsentes par une structure dassociations trait-valeur du type de celles utilises par les formalismes syntaxiques contemporains25. Nous notons ces structures entre accolades, chaque trait tant spar par le signe = de sa valeur cet endroit et par une virgule du trait suivant. La ligne de Susanne donne supra, abstraction faite du champ notant lanalyse syntaxique, se note alors :
On se reportera (Abeill, 1993, p. 29-31) pour une prsentation gnrale de ces structures et (Ligozat, 1994, ch. 3 et ch. 5) pour un approfondissement formel.
25
20
{rfrence=N01:0010d, catgorie=VVDv, forme=told, lemme=tell}
PREMIERE PARTIE
et celle de Mitterrand1 :
suis,tre,11
se transcrit ainsi :
{forme=suis, lemme=tre, catgorie=11}
Comme les noms des traits sont fournis, on peut disposer les associations trait-valeur dans nimporte quel ordre. La version suivante de la ligne de de Mitterrand1 est strictement quivalente la prcdente :
{catgorie=11,forme=suis,lemme=tre}
Enfants ne fournit que la catgorie et le lemme, ct des indications sur le diplme et l'ge du locuteur. Ces indications pourraient tre ellesmmes ajoutes sous forme de traits attachs chaque mot. Elles seraient alors distribues au lieu d'tre mises en facteur, ce qui donnerait, en format vertical :
{diplme=baccalaurat, ge=60+, catgorie=DETDEF, forme=les, lemme=le} {diplme=baccalaurat, ge=60+, catgorie=NOMFP, forme=difficults, lemme=difficult}
De telles structures de traits sont ouvertes : il est toujours possible de rajouter des dimensions (par exemple des tiquettes smantiques). On peut galement enlever une partie des associations trait-valeur attaches un mot et simplifier par l-mme son tiquetage. On en verra un exemple dans la section 3. Susanne fournit un trait rfrence identifiant de manire unique le mot examin. Dans Mitterrand1, il faut connatre le fichier dont provient l'occurrence. Le soin apport par Susanne sur ce point peut paratre superflu. C'est pourtant en dfinitive sur cette identification univoque que repose la possibilit de vrifier les annotations portes sur un corpus ou les analyses qui en sont faites. Un autre chercheur peut se reporter exactement au bon endroit dans le texte de dpart, examiner un contexte plus large, etc. C'est donc la condition sine qua non d'un travail collectif. Si lon adopte cette reprsentation canonique, on constate que le trait catgorie est utilis diffremment selon les cas. Par exemple, pour le mot je, la valeur de ce trait est 5, cest--dire Pronom pour Mitterrand1 et PROPERS pour Enfants. Dans ce corpus, l'tiquette prcise donc, de manire relativement transparente, le type de pronom dont il s'agit. On peut alors expliciter les composants dune telle tiquette : {catgorie=pronom, type=personnel}. Il est frquent que les tiquettes d'un corpus ne soient pas atomiques mais complexes : on doit les dcomposer. C'est le cas pour Susanne, o VVDv est en fait une abrviation pour : {categorie=verbe, temps=pass}. Dvelopper ainsi les tiquettes complexes26 facilite llagage
Le projet europen MULTEXT de cration de ressources linguistiques informatises, monolingues et multilingues, et d'outils gnriques d'annotation et d'exploitation de
26
Les corpus arbors
21
ou lenrichissement des traits attachs un mot .
8.4 Types d'tiquetage

L'tiquetage peut tre produit par un programme quon appelle un tiqueteur (tagger), ou bien rsulter d'une annotation manuelle, ou bien provenir dune combinaison des deux. Le traitement de gros volumes de textes rend cependant inluctable le recours un tiqueteur.
8.4.1 Etiquetage intgral ou partiel Dans les exemples que nous avons fournis, chaque mot fait lobjet dun tiquetage. On rencontre par ailleurs des textes tiquets partiellement : les renseignements attachs certains mots sont inexistants on incomplets. Il peut s'agir de limites purement techniques : l'tiqueteur utilis bute sur des mots inconnus , cest--dire absents des dictionnaires quil utilise ou que ne rsolvent pas les rgles morphologiques quil emploie. Ou bien, face un mot inconnu, ltiqueteur fait des propositions moins prcises que celles dclenches par les mots rpertoris dans les dictionnaires employs. L'tiquetage partiel peut aussi tre vis en tant que tel. Un sousensemble des mots du texte est jug pertinent pour la recherche envisage, il est donc tiquet, le reste est ignor. Par exemple, si l'on entend tudier la rpartition des marques de l'nonciation dans un corpus, on peut envisager un tiquetage limit aux mots retenus comme rvlateurs sur ce point : embrayeurs, certains adverbiaux, indications temporelles et aspectuelles des verbes ...
8.4.2 Une tiquette ou plusieurs tiquettes Un corpus tiquet n'est pas forcment totalement dsambigus , c'est--dire quun mot peut recevoir plusieurs tiquettes. Dans BNC, l'issue de l'tiquetage, demeurent un peu plus de 3 % de problmes non rsolus, d' ambiguts , reprsentes par des tiquettes composites (portmanteau tags27), comme nom_verbe, pour l'hsitation entre nom et verbe. Pour un fragment de l'exemple de Mitterrand1 fourni ci-dessus, un rsultat non dsambigus serait :
{mot=je, lemme=je, corpus (Vronis et Khouri, 1995) insiste sur la ncessit de distinguer les descriptions lexicales, c'est--dire l'ensemble des associations trait-valeur qui caractrisent chaque forme, et les tiquettes, le passage des premires aux secondes se faisant par traduction, toute description lexicale devant correspondre une tiquette au plus. 27 Littralement, des tiquettes-valises, sur le modle de portmanteau-word.
22
catgorie=pronom} {mot=suis, lemme=tre, catgorie=verbe} {mot=la, lemme=le, catgorie=dterminant} {mot=France, lemme=France, catgorie=nom} {mot=suis, lemme=suivre, catgorie=verbe} {mot=la, lemme=le, catgorie=pronom}
PREMIERE PARTIE
{mot=la, lemme=la, catgorie=nom}
o figurent les deux verbes correspondant potentiellement la forme flchie suis : suivre et tre, tous deux lgitimes hors contexte, et les trois tiquettes possibles pour la28. La degr dtiquetage ncessaire une exprience sur un corpus dpend troitement des objectifs de la recherche envisage. Si l'on veut se servir d'un corpus tiquet pour extraire des suites de catgories syntaxiques, on peut tolrer un tel degr dambigut et trier a posteriori les rsultats. Par contre, si l'on souhaite tudier un phnomne massif (comme la dtermination) dans des gros corpus, on ne saurait se satisfaire d'un tiquetage qui laisse en suspens les choix (ici entre dterminant et pronom pour le, la, les ...).
8.4.3 Une vision large de l'tiquetage Etiqueter un segment de texte (un mot, mais aussi un groupe de mots, une phrase, un paragraphe, etc.), c'est, de manire gnrale, lui associer des informations arbitrairement complexes29. Ces informations peuvent se situer plusieurs niveaux de l'analyse linguistique : morphologie, syntaxe, smantique, pragmatique , sans se limiter d'ailleurs aux aspects linguistiques (comme le trait diplme utilis pour Enfants ou le trait rfrence de Susanne). Cette vision largie de l'tiquetage ne correspond cependant pas l'acception la plus rpandue. Quand on parle de corpus tiquet, en particulier dans la communaut TALN, on fait rfrence le plus souvent un document o chaque mot possde une tiquette morpho-syntaxique et une seule.
28 29
Dterminant, pronom et nom (dans lexpression : donner le la). Nous avons fourni des structures de traits plates. Rien n'empche d'employer des coindiciations (Ligozat, 1994) assurant des partages de valeurs (on y a recours au chapitre suivant), ou encore des structures arbitrairement enchsses qui regroupent des paquets de traits : DETMS est l'abrviation de {catgorie=dterminant, accord={genre=masculin, nombre=singulier}}, o le trait accord regroupe les traits de genre et nombre.
Les corpus arbors
23
9. TIQUETAGE PARTIEL ET TYPOLOGIE DE TEXTES

Le fait de disposer de textes partiellement tiquets (un certain nombre de traits linguistiques fins sont privilgis) permet dentreprendre une typologie linguistique de ces textes, mais il n'est pas sr qu'on puisse gnraliser aisment les oppositions dgages.
9.1 Circularit des dmarches typologiques habituelles

La typologie des textes a suscit de nombreux travaux. Le plus souvent, ces recherches cherchent soit caractriser les modes de production des textes (typologies situationnelles), soit identifier les fonctions vises par les textes (typologies fonctionnelles). Les objectifs peuvent tre didactiques (permettre un apprenant d'identifier et de produire les diffrents types de textes de sa langue ou d'une langue trangre) ou linguistiques, par exemple dans la ligne de la distinction histoire versus discours de Benveniste30. L'hypothse partage par ces diffrentes recherches est que chacun des types postuls se caractrise par l'association d'un certain nombre de caractristiques linguistiques. La dmarche part souvent des types situationnels ou fonctionnels dfinis au dpart, examine les textes qui relvent de chacun de ces types et leur fonctionnement linguistique, et essaie de mettre en vidence certaines corrlations entre types et traits linguistiques. On ne sait toutefois pas si, en partant d'une autre typologie a priori, on ne rassemblerait pas sous un mme chef des textes diffrents, ce qui aurait toutes chances de produire des agrgats de traits linguistiques distincts de ceux produits par la typologie prcdente. La rpartition des textes retenus sous les rubriques choisies est elle-mme contestable. Il y a l une circularit d'autant plus gnante que l'existence de types textuels distincts parat intuitivement fonde, mme s'il s'avre dlicat de l'tayer empiriquement.
9.2 Dgager les corrlations de traits linguistiques : D. Biber

Une autre optique consiste faire merger les types de textes grce un traitement statistique de textes tiquets. C'est la ligne directrice des travaux de D. Biber (1988, 1989). Ce dernier examine les cooccurrences entre 67 traits linguistiques dans les 1 000 premiers mots31 de 481 textes d'anglais contemporain crit et oral. Ces textes proviennent de LOB et
Elle oppose les noncs relis au moment de l'nonciation (emploi du prsent, d embrayeurs comme les pronoms de premire et deuxime personne) : le discours ceux qui effacent cet ancrage (emploi du pass simple, de la non-personne, c'est-dire la troisime personne) : l'histoire 31 Cet chantillonnage a pour fonction de faciliter la comparaison des distributions de traits linguistiques. Cf. chapitre VII et chapitre IX.
30
24
PREMIERE PARTIE
London-Lund et relvent de genres divers : articles de recherche, reportages, conversations, nouvelles radiophoniques ... Les traits tudis ressortissent 16 catgories distinctes comme marqueurs de temps et d'aspect, adverbes et locutions adverbiales de temps et de lieu, pronoms et pro-verbes, questions, passifs, modaux, coordination, ngation... Ils sont identifis automatiquement (en limitant au maximum la vrification manuelle)32. L'tiquetage mis en uvre par Biber s'loigne de l'tiquetage morphosyntaxique pratiqu en gnral. Il est partiel et partial. Il est inquitable : il s'intresse des fonctionnements linguistiques trs spcifiques qu'il analyse en dtail tandis qu'il en laisse d'autres dans l'ombre. Par exemple, il privilgie certains verbes (modaux) et certaines formes verbales (passif, prsent ...), mais ne traite pas systmatiquement lensemble des classes de verbes ni toutes les flexions verbales. La statistique multidimensionnelle 33 est mise contribution pour reprer les oppositions majeures entre associations de traits linguistiques. Elle rassemble les traits qui ont tendance apparatre ensemble. Elle constitue dans le mme temps les configurations de traits qui sont systmatiquement vits par ces rassemblements. Cette dmarche permet dobtenir des ples multiples, positifs et ngatifs, correspondant ces constellations positives et ngatives. Ces ples deux deux constituent des dimensions. Chaque texte, par son emploi des traits linguistiques tudis, se situe en un point dtermin de l'espace n dimensions dtermin par cette analyse. La typologie construite par D. Biber partir des rsultats de l'analyse factorielle sorganise autour de cinq dimensions. La premire oppose les textes qui se caractrisent par l'usage de do comme pro-verbe, celui de be comme verbe principal, le prsent, les dmonstratifs, les contractions du type don't, la premire et la deuxime personne du singulier, le pronom it aux textes qui favorisent les noms, les mots longs, des adjectifs attributs, les prpositions. Biber appelle cette premire dimension production implique versus production informationnelle34. Les autres dimensions sont nommes l'orientation narrative35 versus non narrative, la rfrence dpendante36 ou non de la situation d'nonciation, la vise persuasive apparente37 ou non, le style impersonnel38 ou non. Biber souligne que les dimensions proposes l'issue de l'interprtation des contrastes majeurs mis en vidence par l'analyse factorielle sont en fait des prototypes, des ples de fonctionnements textuels. Chacune des dimensions mises en vidence oppose deux ples, mais les textes concrets se situent en des points varis des chelles ainsi dfinies. A partir de ces cinq dimensions, en utilisant des techniques de classification automatique39, Biber aboutit huit types de textes, en
Ces traits et leur reprage sont dcrits en dtail dans (Biber, 1988, p. 211-245). Cf. chapitre IX. Involved versus informational production. Caractrise par le pass, la 3e personne, la ngation synthtique, les participes prsents. 36 Manifeste par les adverbiaux, en particulier de temps et de lieu. 37 Les traits privilgis comprennent les infinitifs, les modaux, les subordonnes conditionnelles. 38 Favorisant les passifs sans agent et les passifs avec by. 39 Cf. chapitre IX.
32 33 34 35
Les corpus arbors
25
fonction de leur place sur chacune de ces dimensions : 1) Interaction interpersonnelle intime (intimate interpersonal interaction) ; 2) Interaction informationnelle (informational interaction) ; 3) Expos scientifique ( scientific exposition) ; 4) Expos savant (learned exposition) ; 5) Fiction narrative (imaginative fiction) ; 6) Rcit (general narrative exposition) ; 7) Reportage situ (situated reportage) ; 8) Argumentation implique (involved persuasion). Ces types ne correspondent pas forcment aux intuitions communes. C'est ainsi qu'on ne dbouche pas sur un type unique interaction ou dialogue, mais deux : l'interaction vise informationnelle et l'interaction vise interpersonnelle. De la mme manire, Biber distingue plusieurs types de textes expositifs et de textes narratifs.
9.3 Gnralit des typologies induites

Cette dmarche permet la construction inductive d'une typologie de textes, base sur les corrlations effectives entre traits linguistiques40. Elle court nanmoins le risque d'aboutir des oppositions qui, pour avoir t tablies partir de textes concrets, ne valent que pour ces textes et pour les traits choisis pour les opposer41. Peut-on accorder une porte plus gnrale aux types ainsi construits ? Biber (1995) a appliqu la mme dmarche, mais cette fois-ci quatre corpus, le corpus anglais initial et trois ensembles de textes en coren, somali42 et nukulaelae tuvaluan43. Malgr des diffrences nettes, lies en particulier au degr d'alphabtisation et la place des traditions orales dans les langues considres, Biber (ibid., p. 359) pense pouvoir mettre l'hypothse que les types textuels qu'il dgage sont communs plusieurs langues, mmes si leur ralisation linguistique diffre dune langue lautre. L'articulation de ces constats gnraux, sur des corpus diversifis, avec des analyses dans un domaine particulier ne va cependant pas de soi. Ainsi, Bergounioux et coll. (1982) tudient les rsolutions gnrales votes par les congrs confdraux des quatre centrales interprofessionnelles, CFDT, CFTC, CGT et FO, pendant les annes 1971-1976. Ce corpus n'est pas tiquet, soulignons-le. La rpartition prcise d'un certain nombre de formes (marques d'nonciation, dtermination, coordination, pronoms, prpositions, etc.) dans les textes
J.-P. Sueur (1982) tudie dans une optique trs proche les contrastes entre parties de la Rsolution Gnrale du congrs de 1976 de la CFDT. Il tiquette (manuellement cette fois) les traits qui lui paraissent pertinents et utilise l encore l'analyse factorielle des correspondances pour mettre en vidence les oppositions majeures. 41 Il est intressant cet gard de comparer les traits retenus par Biber avec ceux choisis par Sueur (1982) et ceux privilgis par Bronckart (1985). 42 Langue parle par environ 5 millions de personnes en Somalie, Djibouti, en thiopie et au Kenya. 43 Langue parle par 350 personnes sur l'atoll Nukulaelae du groupe Tuvalu (Pacifique).
40
26
PREMIERE PARTIE
de ces quatre organisations syndicales a pour objectif de dgager l'organisation d'ensemble de ces textes (ibid., p. 169-186). Un programme qui isole les mots qui sont significativement sur-employs dans une partie d'un corpus au regard de leur emploi dans le corpus entier44 est utilis pour valuer les phnomnes tudis. Ce programme dgage en mme temps les sous-emplois significatifs d'une partie au regard du tout45. Les convergences des sur-emplois et des sous-emplois permettent d'opposer (ibid., p. 175) une structure dite analytique, utilise par la CFDT et la CGT une structure dite dclarative, prfre par FO et la CFTC. Le premier type de rsolution sur-emploie en particulier le verbe tre la troisime personne de l'indicatif prsent, les modaux, les pronoms la premire personne du pluriel et les possessifs de mme personne, les pronoms de troisime personne. Le deuxime type sur-emploie les verbes dclaratifs (appelle, considre, estime, exige ...), ayant pour sujet le congrs ou le sigle (la CFTC), suivis d'une compltive en que. Une autre tude (Habert, 1983), consacre aux rsolutions gnrales des congrs de la CFTC de 1945 1964 et de la CFDT de 1965 197946, trouve une opposition similaire. D'un ct une rsolution circonstancielle , ancre dans le temps de l'nonciation : indications prcises de lieu, verbes d'affirmation ou d'interpellation. De l'autre une rsolution thorique qui s'affranchit de l'ici et maintenant de l'nonciation : prsent de vrit gnrale (avec les flexions d'tre et avoir), effacement de l'nonciateur, verbes modaux, marques d'articulation logique du discours, etc. Les rsolutions examines se situent entre ces deux ples, la rsolution thorique prenant le pas en 1945, moment d'affirmation du syndicalisme chrtien dans une France de l'aprs-guerre marque par le rle du Parti Communiste et de la CGT, et en 1970, 1973 et 1976 o la CFDT, aprs 1968, opte pour le socialisme autogestionnaire47. travers ces deux tudes, l'une sur une priode courte (5 ans), l'autre sur le moyen terme (34 ans), il semble que deux types de textes, au moins, soient disponibles pour permettre un acteur social de se situer dans le prsent, associs des postures distinctes. Les deux types de textes dgags pour le discours syndical, trs spcifiques, ne s'intgrent pas immdiatement dans ceux proposs par Biber, qui sont pourtant conus pour rendre compte dune grande diversit dnoncs. La question de la gnralit des typologies induites partir des comportements observes reste donc encore largement ouverte.
La prsentation de la technique probabiliste correspondante est effectue dans le chapitre IX. 45 Soulignons deux apports de ce programme. La simple lecture ne peroit qu'une partie limite des sur-emplois effectifs. Elle est bien en peine de juger s'ils sont significatifs ou non. Les sous-emplois, le creux d'une partie au regard de l'ensemble, chappent le plus souvent la conscience. Ils sont ici dgags. 46 La CFTC, centrale chrtienne, s'est transforme en 1964 en CFDT, une minorit constituant la CFTC maintenue . 47 L'volution rcente de la CFDT vers plus de pragmatisme s'accompagne d'ailleurs d'une utilisation en congrs de formes proches de celles de la rsolution circonstancielle.
44
Les corpus arbors
27
10. TIQUETAGE INTEGRAL ET SOCIO-STYLISTIQUE

Un tiquetage intgral bien que rudimentaire permet d'examiner les parlures dun corpus regroupant des noncs de plusieurs locuteurs de diffrentes catgories sociales.
10.1 Reprer les catgories et les suites de catgories de diffrents locuteurs

Enfants, une fois tiquet et lemmatis, a t tudi (Habert et Salem, 1995) sous l'angle de l'opposition entre locuteurs sans diplme, titulaires du baccalaurat et personnes ayant suivi des tudes suprieures. Un des objectifs de lutilisation dune version tiquete du corpus tait de dgager des lments caractristiques des parlures , des styles sociaux prsents. Quelles sont les catgories morpho-syntaxiques privilgies par chaque type de locuteur ? Quels sont les patrons syntaxiques qui leur sont propres ?
10.2 Varier le jeu d'tiquettes selon les phnomnes observs

Le corpus a t tiquet par l'tiqueteur AlethCat48. Le nettoyage manuel qui a suivi a permis de rectifier un certain nombre d'erreurs de catgorisation et d'homogniser la lemmatisation des formes49. Les tiquettes employes par l'tiqueteur utilis, une soixantaine au total, sont relativement rudimentaires : partie du discours, ventuellement sous-type dans la partie du discours (type de dterminant par exemple), traits morphologiques (verbe conjugu / infinitif / participe ..., genre, nombre, personne ...)50. Bien d'autres informations pourraient tre associes aux mots : type de verbe (auxiliaire, modal ...), mot attendant des arguments... A l'inverse, la prsence de certaines indications (le genre, le nombre pour les noms et les adjectifs par exemple) peut rendre plus difficile la perception de certaines rgularits : on disperse par exemple les occurrences de la catgorie des noms en masculin singulier, masculin pluriel, fminin singulier et fminin pluriel. Pour faciliter ltude de telle ou telle opposition, on a donc transform51 le jeu d'tiquettes employ, soit en liminant des informations prsentes soit en en rajoutant.
Dvelopp par la socit GSI-ERLI. Cet tiqueteur est conu pour prparer le travail d'un analyseur syntaxique automatique. 49 Notons que l'tiquetage automatique aboutit parfois souder physiquement des constituants de mots composs (bien_que, met_en_vidence, vis__vis_de ...). 50 Une tiquette spcifique non-rponse rend compte de l'absence d'une rponse la question pour un locuteur donn. 51 C'est un changement systmatique ou confirmer au coup par coup qu'on pourrait partiellement raliser avec les fonctions de remplacement d'un simple traitement de textes.
48
28
PREMIERE PARTIE
Si l'on prend la phrase suivante :

je ne sais pas, les gens sont gostes peut-tre.
en faisant abstraction du lemme, aprs tiquetage et correction :

<S01=31> je {PROPERS} ne {ADVNEG} sais {VIPR1S} pas {ADVNEG} , {PONCT-FAIBLE} les {DETDEF} gens {NOMMP} sont {VIPR3P} gostes {ADJMP} peut-tre {ADV} . {PONCTFORTE}
que l'on peut reprsenter aussi, pour plus de clart , de la manire suivante :
<diplme=tudes-suprieures, ge=-30> {forme=je, catgorie=pronom, type=personnel} {forme=ne, catgorie=adverbe, type=ngation} {forme=sais, personne=1} [...] catgorie=verbe, mode=indicatif, temps=prsent, nombre=singulier,
{forme=pas, catgorie=adverbe, type=ngation}
plusieurs transformations ont t utilises : la rduction aux parties du discours traditionnelles :

{diplme=tudes-suprieures, ge=-30} {forme=je, catgorie=pronom} {forme=ne, catgorie=adverbe} {forme=sais, catgorie=verbe} {forme=pas, catgorie=adverbe} [...]
l'limination des marques de personne, genre et nombre pour les noms et les adjectifs :
{diplme=tudes-suprieures, ge=-30} [...] {forme=les, catgorie=dterminant, type=dfini} {forme=gens, catgorie=nom} {forme=sont, catgorie=verbe, mode=indicatif, temps=prsent} {forme=gostes, catgorie=adjectif} [...]
l'ajout de la distinction entre adjectifs qualificatifs et adjectifs relationnels : Certains adjectifs sont en troite correspondance avec des noms. Leur
Les corpus arbors
29
tude complte donc celle de la rpartition de cette catgorie majeure au sein du corpus. Ce sont les adjectifs relationnels. Rappelons leurs proprits (Melis-Puchulu, 1991). Ce sont des adjectifs dnominaux : ils peuvent tre mis en rapport avec des squences de + nom comme dans lection prsidentielle / lection du prsident. Ils ne sont pas gradables : *une carte trs gographique, et ne peuvent tre employes de manire prdicative : *cette carte est gographique. Dans une squence d'adjectifs post-poss, ils sont immdiatement aprs le nom, les adjectifs qualificatifs venant aprs : une lection prsidentielle surprenante / *une lection surprenante prsidentielle. L'opposition n'est pas une opposition de nature, mais d'emploi. Ainsi, certains adjectifs relationnels ont galement des emplois qualificatifs52 : *Cette politique est conomique / Cette formule est trs conomique. Le rsultat est ici :
{diplme=tudes-suprieures, ge=-30} [...] {forme=les, catgorie=dterminant, type=dfini} {forme=gens, catgorie=nom} {forme=sont, catgorie=verbe, mode=indicatif, temps=prsent, nombre=pluriel, personne=3} {forme=gostes, catgorie=adjectif, type=qualificatif} [...]
Ces transformations, une fois effectues, ont t soumises lanalyse quantitative les diffrentes versions tiquetes du texte rduites leurs seules tiquettes, ce qui donne pour l'tiquetage en parties du discours :
{diplme=tudes-suprieures, ge=-30} {catgorie=pronom} {catgorie=adverbe} {catgorie=verbe} {catgorie=adverbe} {catgorie=ponctuation} [...]
ou encore en liminant le nom du trait retenu :

{diplme=tudes-suprieures, ge=-30} {pronom} {adverbe} {verbe} Et inversement, certains adjectifs d'emploi surtout qualificatif peuvent se rvler relationnels selon le contexte. On trouve ainsi dans Menelas syndrome douloureux thoracique, o la place de douloureux entre le nom et un autre adjectif relationnel prouve que cet adjectif est ici relationnel. *Syndrome trs douloureux est d'ailleurs impossible dans ce domaine.
52
30
{adverbe} {ponctuation} [...]
PREMIERE PARTIE
Le programme d'analyse des sur-emplois et des sous-emplois voqu supra permet dopposer les locuteurs selon leur niveau d'tudes. Ce sont les tiquettes, pour chacun des jeux, qui sont soumises examen, mais aussi les suites d'tiquettes, les segments rpts53 constitus d'tiquettes. Une fois dgages les tendances d'emploi des tiquettes et de leurs enchanements, des outils de filtrage permettent dextraire dans les textes catgoriss les squences relevant des schmas syntaxiques retenus.
10.3 Une premire opposition : style nominal et style verbal

L'examen des proportions relatives d'emploi des parties du discours selon les parties du corpus est instructive. La proportion des noms et des adjectifs crot avec le niveau de diplme. l'inverse, le domaine du verbal (verbes, adverbes, pronoms) dcrot avec l'lvation du niveau d'tudes. Ce constat rejoint dailleurs ceux faits sur plusieurs corpus pour dautres tudes socio-linguistiques. On notera la place minente, toutes parties confondues, du nom (et des prpositions) : elle tient peut-tre ce que le type de question pose favorise des noncs qui se prsentent sous la forme d'un groupe nominal. Si l'on s'en tient aux parties du discours seules et qu'on exclut les segments rpts dans lesquels elles entrent, les sans-diplmes se caractrisent par les non-rponses et par le sur-emploi du verbe (et des catgories associes : adverbe et pronom), les plus diplms par le suremploi des adjectifs et de la coordination. Le faible nombre des catgories employes et le nombre important d'occurrences de chaque tiquette dbouchent sur des segments rpts d'tiquettes extrmement nombreux. On note la prsence de syntagmes prpositionnels enchans chez les bacheliers comme : [{nom} {prposition} {dterminant} {nom} {prposition} {dterminant} {nom}], ainsi que le poids des adjectifs chez les diplms du suprieur, en particulier dans des coordinations :
[{nom} {adjectif} {coordonnant} {adjectif}] [{adjectif} {ponctuation}54 {adjectif}] [{nom} {adjectif} {ponctuation} {nom} {adjectif}] [{dterminant} {nom} {adjectif} {ponctuation} {dterminant} {nom} {adjectif}]
La rduction du corpus aux seules parties du discours fournit une premire approche de l'utilisation du matriel linguistique selon les types
53 L'utilisation de segments rpts de formes ou d'tiquettes est prsente dans le chapitre IX. 54 Ici comme dans les deux segments rpts suivants, il s'agit en fait de la virgule, dans son rle de coordonnant.
Les corpus arbors
31
de locuteurs. Certains phnomnes se trouvent cependant crass par cette rduction : le sur-emploi significatif de la catgorie adverbe chez les non-diplms correspond dans prs de la moiti des cas (354 occurrences sur 653) des adverbes de ngation. C'est sont alors les rsultats obtenus avec un jeu d'tiquettes mi-chemin du jeu restreint des parties du discours et de celui, trop clat, fourni par l'tiqueteur AlethCat qui ont t examins. Il a sembl important de pouvoir disposer de soustypes des catgories majeures employes ( l'instar d'adverbe de ngation par rapport adverbe).
10.4 Examen des patrons syntaxiques caractristiques de chaque type de locuteur

Cumulant des emplois multiples, les units lexicales de la ngation (ne, pas, gure, jamais, que) dominent les noncs des sans-diplmes. Elles structurent le patron sur-employ [{pronom personnel} {adverbe ngation} {verbe 1re personne singulier} {adverbe ngation}]55, de type je ne vois pas, je ne sais pas, ou le mme patron suivi de la virgule : je ne sais pas, <reste de la rponse>, qui ne constitue pas exactement une rponse, mais une dvalorisation pralable de la rponse venir. Par ailleurs, bon nombre d'exemples du patron [{adverbe ngation} {verbe prsent 3me personne singulier} {adverbe ngation}], suremploy galement par ces locuteurs, correspondent l'indication par l'enquteur de la difficult rpondre chez la personne interroge : ne voit pas de raisons (4 occurrences), ne sait pas (8 occurrences) et des variantes comme ne peut pas rpondre. La non-rponse, comme silence (non-rponse), comme refus explicite de rpondre, ou comme mise en doute pralable56 des propos tenus, est centrale dans cette partie. Le patron sur-employ [{pronom personnel} {adverbe ngation } {verbe 3me personne singulier} {adverbe ngation}] est d pour l'essentiel l'emploi ngatif du prsentatif il y a dans des rponses comme : cest la situation qui dcide le logement si il ny a pas de place ou encore quand il ny a pas assez dargent dans le mnage. Il ne faut pas cependant en tirer des consquences quant l'orientation argumentative des rponses. Mme si lon trouve des squences qui mentionnent des difficults (il ny a pas de travail, 3 occurrences dont l'une en contexte conditionnel), le prsentatif ngatif peut servir au locuteur plaider au contraire pour le fait d'avoir des enfants. Les rponses suivantes en tmoignent: il ny a pas de couple sans enfant ou encore il ny a pas de raison valable. Les sans- diplmes se caractrisent en outre par des phrases plus courtes, ventuellement rduites un nom seul, non dtermin57.
Nous ne donnons que les valeurs des traits pour faciliter la lecture. Pour dterminer la place du phnomne, au dbut de chaque rponse a t introduit un anti-point , not {ponctuation dbut-phrase}. Les segments rpts comprenant cette tiquette confirment la tendance des locuteurs sans diplme commencer la phrase par un pronom personnel (en rgle gnrale la premire personne du singulier) suivi d'une ngation : [{ponctuation dbut-phrase} {pronom personnel} {verbe indicatif prsent 1re personne singulier} {adverbe ngation}{ponctuation faible}]. 57 Le motif [{nom} {ponctuation forte}] est sur-employ, les formes correspondantes les plus employes tant chmage, 11 occurrences, gosme, 8 occurrences et argent, 7 occurrences.
55 56
32
PREMIERE PARTIE
Les bacheliers sont caractriss par les enchanements de syntagmes prpositionnels, puisqu'on trouve des patrons comme : [{nom} {prposition} {article dfini} {nom} {prposition} {article dfini} {nom}] ou encore comme [{nom} {adjectif} {ponctuation faible} {nom} {prposition} {nom}]. Ce dernier patron est li des numrations nominales, non dtermines (cf. l'absence de dterminant aprs la ponctuation faible) comme dans la rponse : raison financire, situation de travail, peur de perdre son travail pour la femme qui s'absente pour raison de maternit. Les plus diplms privilgient nettement l'adjectif et une forme qui en est proche, le participe pass, en particulier dans des coordinations, dans des patrons rpts comme [{nom} {adjectif} {coordonnant} {adjectif}] ou [{adjectif} {ponctuation faible} {adjectif}].
10.5 Prciser l'emploi des adjectifs : qualificatifs et relationnels

Hors contexte, les lemmes des adjectifs du corpus ont t rpartis entre les catgories suivantes : {adjectif qualificatif} (mauvais), {adjectif relationnel} (gographique) et {adjectif qualificatif/relationnel} (conomique). Cet enrichissement des tiquettes des adjectifs a ensuite t appliqu au texte : l'tiquette {adjectif} associe gostes devient par exemple {adjectif qualificatif}. L'examen de la rpartition des adjectifs relationnels par rapport aux qualificatifs permet de prciser le fonctionnement dans le corpus de la catgorie nominale prise au sens large . Les adjectifs n'apparaissent pas dans les formes et segments suremploys des non-diplms. En ce qui concerne les bacheliers, seule la catgorie {adjectif relationnel} apparat comme sur-employe, isole ou dans des segments rpts. Ce sur-emploi souligne la nature nominale et prpositionnelle de cette partie (puisqu'un adjectif relationnel est quivalent un syntagme prpositionnel). Cette quivalence est particulirement flagrante dans le segment rpt [{nom} {adjectif relationnel} {ponctuation faible} {nom} {prposition} {nom}] qui coordonne (par une virgule) un nom modifi par un adjectif relationnel et un nom dominant un syntagme prpositionnel. L'adjectif relationnel caractrise davantage les diplms du suprieur. L'examen des contextes montre en effet que les adjectifs portant ltiquette {adjectif qualificatif/relationnel} sont en fait tous relationnels dans cette partie : les constats quantitatifs sous-estiment donc la place des adjectifs relationnels. Voici quelques segments rpts significatifs :
[{dterminant dfini} {nom} {adjectif relationnel}] [{nom} {adjectif qualificatif/relationnel}]
10.6 Evaluation et perspectives

L'analyse des dcomptes portant sur l'utilisation de divers jeux d'tiquettes donne une image intressante de l'usage de l'appareil
Les corpus arbors
33
linguistique par les diffrents ensembles de locuteurs : expression personnelle, modalisant la rponse faite, dominante ngative pour les sans-diplmes versus expression nominale, situe hors du ici et maintenant pour les diplms. Les bacheliers marquent une prfrence pour les syntagmes prpositionnels, les diplms du suprieur pour les adjectifs en particulier coordonns. Les locuteurs ayant fait des tudes suprieures font appel plutt aux adjectifs dnominaux qu'aux syntagmes prpositionnels pour modifier les noms, l'inverse des locuteurs ne possdant que le baccalaurat. S'agirait-il d'un phnomne d'hypercorrection, d'une manire d'viter le style substantif ? Cependant, bien d'autres interprtations pourraient tre produites pour les donnes constitues avec ces diffrents jeux d'tiquettes. Par exemple entre des rponses directes (baccalaurat et tudes suprieures) et des rponses diffres (sans-diplmes), o les formules comme je ne sais pas, etc., ressemblent aux items de retardement de la rponse mis en vidence en analyse de la conversation.
11. UTILISER ETIQUETEURS ET CORPUS ETIQUETES
11.1 Adapter l'tiquetage aux objectifs de recherche

11.1.1 Un tiquetage est orient par une famille de tches Meyer et Tenney parlent (1993, p. 25-26) d'tiquetage finalis (problemoriented tagging), propos de l'tude de l'apposition dans Survey of English Usage faite par l'un d'eux. Ils ajoutent que les programmes d'tiquetage disponibles sont moins utiles pour le linguiste travaillant sur corpus qui souhaite tudier une construction linguistique donne en dtail et adapter le jeu d'tiquettes qu'il met en uvre pour tudier cette construction. Il faut gnraliser ce constat. Un tiquetage est toujours orient par une tche, mme si c'est implicite. Le jeu d'tiquettes utilis permet d'tudier certains phnomnes ou de dvelopper certains traitements ultrieurs, tandis qu'il laisse d'autres aspects linguistiques dans l'ombre et n'est pas compatible avec d'autres applications. Ainsi, la distinction du genre et du nombre pour les noms et adjectifs dans l'tiquetage d'Enfants n'est pas forcment pertinente pour une tude nonciative de ce corpus, mais par contre, elle est utile pour une analyse syntaxique ultrieure : elle permet de vrifier des contraintes d'accord au sein du groupe nominal. l'inverse, tous les tiqueteurs ne fournissent pas le temps et la personne pour les verbes conjugus58, bien que cette information soit
58 Ne serait-ce qu'en raison de la difficult d'assurer une dsambigusation efficace sur ce point : travaille est un prsent de l'indicatif, 1re et 3me personne du singulier, mais aussi un prsent du subjonctif aux mmes personnes et enfin un impratif 2me
34
PREMIERE PARTIE
particulirement prcieuse dans une perspective typologique comme celle de Biber. Une catgorisation donne ainsi voir certains phnomnes et en ignore d'autres. Il faut donc multiplier les points de vue et tout le moins tre conscient des capacits heuristiques et des angles morts des jeux d'tiquettes auxquels on a recours. Les projets de comparaison et d'valuation d'tiqueteurs se dveloppent aujourd'hui (Paroubek et al., 1997). Ce qu'on peut en attendre, ce n'est certainement pas une mise en vidence de la meilleure catgorisation , ce qui na pas grand sens, mais lidentification des objectifs, points forts et faiblesses de chaque catgorisation et de ladquation de chacune aux projets de recherche envisags.
11.1.2 Un tiquetage peut tre dtourn Nous rencontrons avec les corpus tiquets une situation courante pour les corpus annots en gnral. L'annotation du corpus utilis ne correspond pas exactement la classification souhaite des donnes, aux phnomnes que l'on souhaite isoler, au regard thorique que l'on porte sur eux. Pire : pour diverses raisons (le plus souvent le manque de moyens financiers et humains), il n'est pas possible de r-tiqueter le corpus. Il s'agit alors de composer avec l'tat prsent de l'tiquetage, d'en tirer les informations qui se rapprochent de celles recherches. C'est cette dmarche que nous avons vue l'uvre dans les tudes typologiques sur le discours syndical : faute de disposer de corpus tiquets (il y a 15 ans, dans les limbes pour l'anglais et inexistants pour le franais), on tudie aussi prcisment que possible un ensemble dlimit de formes graphiques (de mots ), malgr le " bruit " introduit par l'utilisation de cette reprsentation sommaire. A l'inverse, si, dans le cas prsent, une telle dmarche typologique peut se satisfaire, pour un premier dgrossissage, de corpus bruts , cest-dire rduits des formes graphiques, elle gagne sans conteste utiliser des corpus tiquets de manire spcifique. L'cart entre les donnes utilises par ces diffrentes analyses et la plus ou moins grande immdiatet d'interprtation qui en rsulte dbouche nanmoins sur la ncessit plus gnrale de vrifier l'adquation possible (au prix de dtournements ventuels) entre les conventions d'annotation du corpus utilis et les objectifs de recherche viss.
11.1.3 Le r-tiquetage est incontournable L'cart entre les catgories associes un corpus dj catgoris ou fournies par un tiqueteur accessible et celles dont on peut avoir besoin pour une tude donne implique souvent une recatgorisation (partielle) du corpus. Nous avons montr comment, pour Enfants, l'ajout d'une
personne du singulier.
Les corpus arbors
35
nouvelle distinction (adjectif qualificatif / relationnel) venait prciser une tiquette existante. Le r-tiquetage peut aussi conduire des rvisions plus drastiques, lorsque les choix de segmentation de dpart sont remis en cause (le choix des mots composs pertinents pour le corpus en cause) ou quand certains phnomnes sont traits diffremment (par exemple, rapide analys tantt comme un adjectif tantt comme un adverbe dans Prenons une rapide dcision). Le r-tiquetage total ou partiel peut aussi avoir comme vise l'alignement des rsultats de deux tiqueteurs sur un mme corpus, des fins de comparaison ou d'valuation (Atwell et al., 1994). Selon Belmore (1994, p. 52) : Une manire d'utiliser les corpus pour amliorer de manire cumulative les analyses consiste dterminer les diffrences exactes entre deux analyses d'un mme corpus. Dans l'idal, l'une des deux analyses partirait de la premire et reprsenterait alors un essai explicite d'amlioration.
11.2 Environnements de catgorisation et de manipulation de texte tiquet

Paradoxalement, il semble que le besoin denvironnements informatiques de catgorisation et de manipulation de texte tiquet, souvent soulign par les participants des projets d'tiquetage et de structuration de corpus, reoive dans l'immdiat peu de ralisations concrtes (Greenbaum et Yibin, 1994, p. 44).
11.2.1 Catgoriser On peut vouloir tiqueter, totalement ou partiellement, un texte nu . S'il s'agit d'utiliser un corpus dj tiquet ou les rsultats d'un tiqueteur disponible, la finesse des distinguos ncessaires pour des analyses proprement linguistiques suppose des programmes permettant de prciser l'tiquetage morpho-syntaxique accompagnant dsormais nombre de corpus. Elle implique aussi des modules de catgorisation interactive ou de modification interactive d'tiquetages pralables, certaines valeurs d'tiquettes ne pouvant pas tre attribues automatiquement59.
11.2.2 Manipuler des corpus tiquets Les programmes ncessaires ici permettent d'extraire du texte tiquet des motifs arbitrairement complexes. Les constituants de ces motifs sont,
Par exemple, la distinction entre dterminants dfinis spcifiques versus gnriques dans (Sueur, 1982).
59
36
PREMIERE PARTIE
ici encore, des structures de traits60. Le motif (ou patron) correspondra au fragment de texte pour lequel les structures de traits de ses composants s'apparient avec celles des lments correspondants du texte. On parle de filtrage (pattern-matching). Des oprateurs permettent la conjonction, la disjonction, l'optionalit, la rptition de ces contraintes, etc. Par exemple, le motif :
[{nom} {adjectif relationnel qualificatif/relationnel} {coordonnant} {adjectif relationnel qualificatif/relationnel}]
permet de chercher les noms suivis de deux adjectifs coordonns soit relationnels soit qualificatifs ou relationnels (c'est ce qu'indique la disjonction ). De tels environnements facilitent le ncessaire retour au contexte qui permet d'viter les commentaires oiseux de simples artefacts. Dans Enfants, par exemple, les rponses fournies par les plus diplms paraissent plus riches en squences du type : [{adjectif qualificatif} {nom}]. Ce rsultat attire l'attention : en franais moderne, l'antposition de l'adjectif est une construction de langue tenue. Dception : l'examen des squences relevant de ce patron montre qu'en fait, il s'agit souvent d'adjectifs modifiant un nom antpos. L'ambigut est due l'absence de marque de ponctuation entre les groupes nominaux dans des suites de formes comme : temps libre argent.
12. ENJEUX THEORIQUES
12.1 Le dit est le dire

L'examen des catgories employes, et des segments de catgories conduit s'attacher aux patrons syntaxiques des noncs, voire aux genres textuels qui peuvent expliquer le recours tel type de construction. D'autres phnomnes linguistiques s'offrent une exploration mthodique et la quantification. Nous esprons avoir montr qu'une analyse du dire (du style, du mode de parler) tait tout aussi instructive qu'une analyse du dit. Le dtour par des catgories abstraites, ici morpho-syntaxiques, introduit une bienfaisante tranget dans l'apprhension du corpus. Ce pas de ct contrebalance la trompeuse immdiatet des formes lexicales, dont le sens s'impose trop videmment. Mais, en mme temps, certaines associations de traits dans les dimensions dgages par Biber ou le sur-emploi de telle tiquette dans l'tude d'Enfants demeurent nigmatiques. On ne dispose pas forcment dans limmdiat des cadres thoriques ncessaires pour examiner les donnes ainsi produites.
60
L encore, comme en 1.3, nous fournissons une reprsentation unifie des diffrentes possibilits effectives dans tel ou tel systme d'interrogation de texte tiquet.
Les corpus arbors
37
12.2 Linguistique et textualit

Benveniste assignait la linguistique la phrase comme horizon d'analyse. Il n'en a pas moins explor les rgularits proprement textuelles lies l'utilisation de l'appareil de l'nonciation. Sa distinction histoire / discours a donn naissance des typologies ou des grilles d'analyse plus fines. En didactique du franais, cette dichotomie a t mobilise largement pour aider les apprenants matriser les conditions de bonne formation des textes. L'utilisation de corpus tiquets diversifis offre dsormais la possibilit d'examiner srieusement l'hypothse que les textes effectifs relvent de types fondamentaux qui expliquent un certain nombre de leurs traits linguistiques. Les tudes existantes en fournissent des caractrisations empiriques fines. La gnralit des catgories dgages, leur lien aux genres et registres intuitivement distingus par les locuteurs restent travailler. Ces rsultats appellent peut-tre un renouveau de la linguistique textuelle : on attend un modle de la comptence textuelle qui intgre les contraintes dtailles mises en vidence. Il reste galement explorer le fonctionnement social des types de textes disponibles dans une communaut langagire donne. Pour Bakhtine : Nous ne parlons qu' travers certains genres discursifs, c'est-dire que tous nos noncs possdent certaines formes relativement stables et typiques pour se constituer en totalits (Todorov, 1981, p. 129). L'organisation de chacun de ces genres est socialement significative : Le genre forme [...] un systme modlisant qui propose un simulacre du monde (ibid., p. 128). C'est le cas des deux types de rsolutions de congrs syndicaux voqus en 2.3. La rsolution dclarative (ou circonstancielle) va de pair avec un refus de tenir un discours global sur la socit. Elle lgifre essentiellement pour le laps de temps qui la spare du congrs suivant. La rsolution analytique (ou thorique) s'installe dans l'ternel prsent de la thorie, dpassant les limites du ici et maintenant. L'idologie s'y exprime dans de longs dveloppements sans locuteur explicite. Les articulations logiques veulent entraner dans un rseau d'enchanements qui font appel au simple examen de la nature des choses 61.
12.3 Analyses multi-dimensionnelles

Toutes proportions gardes, les tudes typologiques partir de formes graphiques seules ou partir de traits linguistiques clairement identifis (cf. 2) tiennent de la reconstitution d'animaux disparus partir de fossiles pars et incomplets. Au vu de donnes langagires fragmentaires, on
Il est intressant cet gard de noter que l'utilisation par la CFTC et la CFDT de ces deux types de rsolutions ne se superpose pas mcaniquement l'volution historique de cette confdration. La dconfessionnalisation de 1964 n'entrane pas un changement sur ce plan. C'est quand cette organisation veut affirmer fortement un projet social propre qu'elle recourt la rsolution thorique : en 1945 dans l'immdiat aprsguerre, et aprs 1968.
61
38
PREMIERE PARTIE
postule l'existence d'un squelette syntaxique62 voire textuel. On fait l'hypothse de dpendances fonctionnelles entre des lments relevant de niveaux distincts de l'analyse linguistique. Avec le risque d'inventer des monstres langagiers sans existence relle. Les techniques d'analyses statistiques multi-dimensionnelles comme l'analyse factorielle des correspondances utilise par Biber ont prcisment pour objectif de manifester les corrlations effectives entre des variables multiples. Elles mettent en vidence des rgularits qui chappent l'observation l'il nu . Elles dbouchent sur des regroupements de comportements langagiers qui peuvent renouveler nos analyses des dpendances entre niveaux linguistiques63. Elles manifestent des oppositions qui restructurent notre catgorisation pralable des donnes.
62 Comme la proto-phrase donne comme sous-jacente aux rsolutions dclaratives (Bergounioux et al., 1982, p. 178) voques en 2.3 : considrant [...] le congrs [...] {verbe dclaratif 3me personne prsent} [...] que [...] {subjonctif} [...] {dterminant indfini}. 63 Pour poursuivre la mtaphore, notons que l'apport de ces mthodes a t considrable en classification des espces : elles ont permis d'amliorer les taxonomies existantes, limites dans leur capacit percevoir et organiser des corrlations multiples.
Les corpus arbors
39
CHAPITRE II
LES CORPUS ARBORES
Nous montrons dans une premire section les notations employes pour rendre compte des relations syntaxiques et nous rappelons la nature des phnomnes noter. Nous prsentons dans une deuxime section un corpus arbor, Susanne, qui reprsente une ralisation exemplaire par la finesse de lannotation produite et par la manire dont les choix effectus sont documents. La troisime section est consacre lutilisation de corpus arbors et de parseurs pour ltude de la phrasologie. La dernire section examine les enjeux thoriques de corpus arbors et les conditions pratiques de leur emploi.
13. DIVERSITE DES CORPUS ARBORES

Mme si les jeux d'tiquettes varient et si les squences catgoriser, selon qu'on regroupe ou non des units polylexicales, il est relativement ais de se faire une ide d'un corpus tiquet : une catgorie est associe chaque occurrence du texte. Cette belle simplicit disparat ds qu'on aborde les corpus arbors, c'est--dire dcors d'arbres. L'annotation rsultante peut varier du tout au tout. Il s'agit en effet de dlimiter des groupes, de les nommer (les catgoriser), et de statuer sur leurs relations. ces trois niveaux, les points de vue sont multiples. Tous les constituants ne font pas l'unanimit : c'est le cas du syntagme verbal, cher la tradition chomskyenne, et rejet par M. Gross. G. Sampson (Sampson, 1995, p. 4) cite ce propos une exprience significative. la rencontre de 1991 de l'Association for Computional Linguistics, des chercheurs en TALN appartenant neuf institutions diffrentes se sont vu demander de dlimiter les constituants d'un ensemble de phrases. Pour l'exemple suivant, voici les seuls parenthsages qui ont fait l'unanimit :
40
PREMIERE PARTIE
He said this constituted a [very serious] misuse [of the [Criminal Court] processes].
Nous dfinissons les principales facettes des corpus arbors : les notations disponibles, la manire d'obtenir les analyses, les types d'analyses et d'analyseurs, les niveaux d'annotation syntaxique.
13.1 Noter des relations syntaxiques

13.1.1 Arbres, graphes et relations Les arbres sont le dispositif habituel pour noter les relations syntaxiques. La tradition veut que les feuilles soient la base et la racine au sommet. On distingue les nuds terminaux, les feuilles et les autres nuds, appels non-terminaux. Ces nuds non-terminaux englobent les nuds pr-terminaux, qui dominent directement les feuilles. Si l'on considre un nud et ses fils, un arbre matrialise deux relations particulires : celle de dpendance immdiate, entre le pre et ses fils, et celle de prcdence immdiate, entre un nud an et son ou ses cadet(s). A un nud est associe une tiquette (SN) et ventuellement des dcorations : une srie d'associations trait-valeur du type {genre=masculin, nombre=singulier}. Comme pour l'tiquetage morphosyntaxique, les tiquettes simples ou complexes se ramnent en fait toutes une structure de traits : SN = {cat=SN} et SNMS = {cat=SN, genre=masculin, nombre=singulier}. Conceptuellement, chaque nud, correspond donc non une tiquette mais une structure de traits. Les deux relations de dpendance et de prcdence ne suffisent pas noter la varit des phnomnes syntaxiques. Deux nuds frres spars par d'autres nuds peuvent constituer une unit discontinue (comme la ngation complte ne ... pas dans Ne me quitte pas). L'anaphore suppose un lien entre l'anaphorique et son antcdent : il s'agit d'un lien entre des nuds qui ne sont gnralement pas frres, mais des niveaux diffrents de la reprsentation syntaxique. Certains constituants sont flottants : leur insertion un endroit donn ne rend pas compte de leur porte relle. C'est le cas des adverbes de phrase comme heureusement dans Heureusement Jean a termin son anne et Jean a heureusement termin son anne. L'attachement rel d'un nud peut rester en suspens, mme pour un locuteur : c'est le cas dans Jean a heureusement termin son anne, o heureusement peut modifier la phrase dans son ensemble, mais galement le syntagme verbal seul (il est heureux que Jean ait termin son anne / Jean a termin son anne d'une manire heureuse). Visiblement larbre ne suffit plus noter tous ces phnomnes. On peut souhaiter recourir des graphes moins limits, o un nud peut tre le point d'arrive de plusieurs artes. Il faudrait mme que ces graphes puissent tre polychromes 64 pour visualiser aisment les diverses
64
Cf. (Marandin et Cori, 1993) pour une proposition formelle en ce sens.
Les corpus arbors
41
relations l'uvre. Une autre direction de travail consiste utiliser des descriptions logiques d'arbres, o l'on ne manipule ni des arbres ni des graphes, mais la conjonction logique des divers types de relations identifies entre les nuds. Elle est explore par Vijay-Shanker (1992), dans la ligne des travaux de M. Marcus (Marcus et al., 1983). Cette remise en cause de l'arbre comme mode fondamental de notation syntaxique n'est pas nouvelle65. Elle peut plus profondment renvoyer au choix entre grammaires de constituants et grammaires de dpendances.
13.1.2 Grammaires de constituants et grammaires de dpendance On trouve dans Tesnire les prolgomnes des grammaires de dpendance. I. Mel'cuk, qui s'inscrit dans cette ligne, contraste (1988, p. 12-42) les grammaires de dpendance avec les grammaires de constituants (phrase structure grammars). Les grammaires de constituants mettent au premier plan l'inclusion d'un segment dans une catgorie syntagmatique et des segments d'un type dans des segments de niveau suprieur (deux constituants sont ou bien enchsss ou bien disjoints). La plupart des nuds y sont non-terminaux. Les nuds d'un niveau donn sont ordonns linairement. Les relations de domination sont entre constituants et non pas entre mots. Les grammaires de dpendance rvlent les liens hirarchiques entre mots. Tous les nuds sont terminaux. Ils ne suivent pas forcment un ordre linaire. Un arbre de dpendance du type [V sont reus [N [N Pierre][Coord et][N Jacques]] ne contient aucune information directe concernant l'ordre linaire des mots dans l'nonc, qui peut se raliser sous la forme Pierre et Jacques sont reus comme sous la forme Sont reus Pierre et Jacques. Ce sont les grammaires de constituants qui sont majoritairement employes pour les corpus annots syntaxiquement. La langue traite peut expliquer le choix fait. Les grammaires de constituants semblent mieux adaptes aux langues ordre des mots relativement contraint et aux syntagmes nettement identifiables, comme l'anglais66. Les grammaires de dpendance conviennent davantage aux langues o l'ordre des mots est plus libre (le finnois, par exemple). Contribuent sans doute galement cette prpondrance le poids des travaux proprement linguistiques qui relvent de cette tradition mais aussi le fait que la technologie des parseurs pour les langages informatiques fait aussi appel aux grammaires hors contexte. Les grammaires de dpendance offrent cependant l'avantage de faciliter l'utilisation des relations hirarchiques entre mots d'un nonc. Si l'on veut dgager les cadres de souscatgorisation des verbes, par exemple, cette approche permet un
On trouve dans le modle GPSG (Gazdar et al., 1985) la volont de dcoupler dans les rgles hors contexte la relation de dominance et l'ordre linaire, cest--dire la prcdence. 66 Toutefois, le parseur ENCG - English Constraint Grammar (Karlsson et al., 1995), cre des structures de dpendance pour l'anglais. (Karlsson, 1994, p. 130-142) fournit plusieurs exemples de rsultats comments (extraits d'un manuel informatique, d'Alice au pays des merveilles et d'une encyclopdie). Inversement, certains formalismes cherchent rendre compte des variations dordre des mots dans le cadre des grammaires de constituants.
65
42
PREMIERE PARTIE
lagage immdiat qui ne conserve que les liens de dpendance pertinents.
13.1.3 Notations textuelles Puisque les arbres constituent la notation prpondrante, nous continuons parler de corpus arbors. Le stockage d'arbres pour leur traitement informatique suppose de passer d'une reprsentation dans le plan une reprsentation textuelle essentiellement linaire : elle figure par l'enchssement la relation de dpendance et par la succession la relation de prcdence. Des dispositifs annexes permettent de dpasser les limites des arbres. Il s'agit gnralement d'indices attachs aux nuds et de renvois ces indices pour exprimer les autres relations. Le format de prsentation des corpus arbors varie. Il peut tre horizontal : c'est le cas de cet exemple67 emprunt la banque d'arbres d'IBM France :
[N Ce_DEDEMMS guide_NCOMS N][V [P leur_PPCA6MP P] permet V_VINIP3 [P de_PREPD [Vi se_PPRE6MP familiariser_VPRN [P avec_PREP [N les_DARDFP oprations_NCOFP [P de_PREPD [N rseau_NCOMS [A local_AJQMS A] N] P][A effectues_VTRPSFP [P par_PREP [N les_DARDMP utilisateurs_NCOMP N] P] A] N] P] Vi] P ] V] ._.
L'tiquette du constituant est souvent fournie deux fois : au dbut et la fin du groupe en cause, probablement pour faciliter le reprage visuel des groupes et des frontires. Les enchssements font apparatre une hirarchie, dont lindentation, plaant les constituants de mme niveau une mme distance de la marge gauche, facilite la perception :
[N Ce_DEDEMMS guide_NCOMS N] [V [P leur_PPCA6MP P] permet V_VINIP3 [P de_PREPD [Vi se_PPRE6MP familiariser_VPRN [...]
Il peut galement tre vertical. On distingue comme dans Susanne formes, tiquettes de mots, parties d'arbres. Pour l'exemple choisi :
67
Cit dans (Leech et al., 1996, p. 6).
Les corpus arbors
Ce guide leur permet. de se familiariser avec les oprations de rseau local effectues par les utilisateurs ._.
DEDEMMS NCOMS PPCA6MP V_VINIP3 PREPD PPRE6MP VPRN PREP DARDFP NCOFP PREPD NCOMS AJQMS VTRPSFP PREP DARDMP NCOMP
. . . [P . [Vi . . [P . [N . . [P . [N . [A . A] N] P] [A . [P . [N . . N] P] A] N] P] Vi] P ] V]
[N N] [V [P P]
43
V P Vi P N P N A N P A P N
DEDEMMS NCOMS PPCAGMP V-VINIP3 PREPD PPRDGMP VPRN PREP DARDFP NCOFP PREPD NCOMS AJQMS VTRPSFP PREP DARDMP NCOMP
Le oprateurs
guide de
leur rseau
permet de local effectus
se par
familiariser les
avec les utilisateurs
Le mot figure en premire colonne, sa catgorie en seconde. La troisime colonne fournit une partie de l'arbre syntaxique : le point y marque l'insertion du sous-groupe constitu de la catgorie et du mot. Les deux premires lignes correspondent ainsi au sous-arbre [N [DDEMMS Ce][NCOMS guide] N]. Ces deux prsentations, verticale et horizontale, correspondent l'arbre donn dans la figure ci-contre68 (nous le simplifions en omettant les catgories pr-terminales).
13.2 Obtenir des analyses

Il est possible d'associer un texte des annotations syntaxiques plus ou moins complexes de manire purement manuelle. Mais, sauf disposer de moyens humains et matriels trs importants, cela limite la taille du texte ainsi analys. C'est le choix qui a t fait pour Susanne (cf. section 2), parce qu'il s'agissait d'obtenir une analyse aussi fouille que possible. C'est encore le cas des corpus qui sont baliss la main pour servir de corpus d'apprentissage de grammaires probabilistes (cf. chapitre VIII), comme celui dvelopp en commun par l'universit de Lancaster et IBM (Eyes et Leech, 1993). Dans ce cas (ibid. p. 132), l'oppos de Susanne, il sagit dinsrer des arbres dits squelettiques (parenthsage et catgorisation des constituants principaux). L'autre possibilit est l'analyse syntaxique automatique, ou parsage, mieux adapte au traitement de gros volumes textuels. Entre travail manuel et parsage, bien des intermdiaires existent : l'intervention humaine peut se produire en amont (pour dlimiter des groupes ou liminer des catgories parasites) ou en aval pour trancher entre plusieurs analyses : c'est le cas du systme TOSCA (Halteren et Oostdijk, 1993, p. 154) ou pour amliorer l'analyse produite : cest la solution retenue par Penn Treebank (Marcus et al., 1993).
13.3 Types d'analyse

13.3.1 Analyse partielle / analyse complte L'analyse peut tre partielle ou complte. Complte : c'est un arbre qui couvre l'ensemble de la phrase, dont les feuilles sont les mots de la phrase. Partielle : une phrase donne correspond(ent) un ou plusieurs arbre(s) qui laisse(nt) des parties qui ne sont pas analyses. Une analyse partielle peut correspondre l'incapacit du parseur, pour une phrase particulire ou en gnral, produire des structures qui couvrent l'intgralit des donnes analyses. Mais une analyse partielle
A priori, il est toujours possible de passer automatiquement d'un format un autre, et d'en fournir une version rellement arbore comme ici, mme si le dtail du codage propre tel corpus peut rendre difficile la mise au point du traitement ncessaire.
68
46
PREMIERE PARTIE
peut correspondre aussi au fait de ne s'intresser qu'aux composants d'une certaine nature syntaxique. C'est ainsi qu'en terminologie automatise, les extracteurs de groupes nominaux se concentrent sur ces syntagmes, o figurent les dnominations polylexicales du domaine. Dans la phrase suivante de Mitterrand169 : le Louvre , libr du le70 ministre des les finances , cela reprsente un immense palais , le plus grand muse du le monde un kilomtre sept cent si vous voulez en faire le tour imaginez la fatigue des les pieds des les visiteurs : il faut que les uvres d' art soient quand mme la porte de ceux qui veulent se dplacer , sont retenus par LEXTER (cf. 3.4), partir de la version lemmatise, les groupes nominaux suivants :
[SN [SAdj [Adj immense]][SN [Nom palais]]] [SN [SAdj [Adj grand]][SN [SN [Nom muse]][SP [Prep de][SN [Det [Art le]][SN [Nom monde]]]]]] [SN [SN [Nom fatigue]][SP [Prep de][SN [Det [Art le]][SN [SN [Nom pied]][SP [Prep de][SN [Det [Art le]][SN [Nom visiteur]]]]]]]] [SN [SN [Nom uvre]][SP [Prep de][SN [/Nom art]]]]
Une analyse partielle peut enfin avoir pour but de produire une version simplifie de la phrase, en laissant de ct des composants ou des parties de composants conus comme secondaires. Par exemple, le parseur peut extraire l'association sujet verbe complment d'objet, et ignorer les complments circonstanciels, si l'objectif est d'tudier la souscatgorisation des verbes, leurs cadres syntaxiques et leurs arguments typiques.
13.3.2 Une seule analyse ou plusieurs Le rsultat peut fournir, pour un segment donn, une seule analyse ou plusieurs. On distingue deux types d'ambiguts. Ambiguts relles : un locuteur ne pourrait pas trancher. Hors contexte, par exemple, il est difficile de savoir comment analyser tat de lart abstrait (Cette thse commence par un [tat de lart] abstrait / Ce critique dart prsente ltat de l[art abstrait]). Ambiguts techniques : le savoir dont dispose le parseur n'est pas suffisant pour choisir entre des possibles71, mais un locuteur n'a pas de difficults le faire, en fonction de ses connaissances gnrales ou au vu du contexte72. C'est le cas des rattachements prpositionnels et
Emission de TF1 a nous intresse, Monsieur le Prsident, du 28 avril 1985. Dans le pr-traitement, les contractions prposition + article dfini (aux, du, des) sont dcomposes pour faciliter les oprations ultrieures. 71 T. Briscoe (1994, p. 99) donne l'exemple de la dfinition de youth hostel (A hostel for usu. young people walking around country areas on holiday for which they pay small amounts of money to the youth hostels association or to the international yha) dans le Longman Dictionary of Contemporary English (LDOCE). Le parseur inclus dans Alvey Natural Language Tools, avec un dictionnaire de 20 000 entres, a produit plus de 2 500 analyses. Voir (Souter et Atwell, 1994, p. 151) pour un autre exemple d'analyse ambigu. 72 l'inverse, un annotateur confront des phrases isoles peut se trouver dans l'incapacit de trancher (Black et al., 1993, p. 40).
69 70
Ressources lexicales
47
adjectivaux. Dans l'expression traitement du langage naturel, s'il ne dispose pas dans son lexique de l'expression langage naturel, un analyseur peut ne pas savoir s'il faut rattacher naturel traitement ou langage. Voici, titre d'exemple, les pourcentages d'ambigut obtenus par le systme TOSCA sur un corpus d'1,5 million de mots de prose anglaise contemporaine (Halteren et Oostdijk, 1993, p. 155) : Nombre danalyses diffrentes 1 2 3-5 6-10 11-20 21-100 > 100 fiction 22 % 15 % 17 % 15 % 10 % 15 % 6% non-fiction 20 % 15 % 19 % 15 % 12 % 16 % 3%
Ces chiffres donnent une ide des difficults rencontres en analyse syntaxique automatique.
13.3.3 Sous-spcification Il est possible de laisser une analyse sous-spcifie, c'est--dire incomplte sur un point donn. Cela revient limiter artificiellement l'ambigut, en la laissant implicite. Par exemple, les attachements prpositionnels ou adjectivaux, souvent difficiles effectuer automatiquement, peuvent tre " laisss en suspens " pour permettre une post-dition spcifique. Le parseur ENGCG (Voutilainen et Heikkila, 1994, p. 190) dans fat butcher's wife, indique juste que fat s'attache un nom droite sans dcider s'il s'agit de butcher (la femme du gros boucher) ou de wife (la grosse femme du boucher) et n'effectue pas non plus les rattachements des adverbiaux, notoirement dlicats. C'est encore le cas du parseur Fidditch (Hindle, 1994) dans Penn Treebank qui ne rattache pas les groupes dont il ne peut pas dterminer avec certitude le rle dans une structure de plus haut niveau (cf. chapitre VIII). Cela peut aboutir fournir pour une phrase une suite d'arbres non relis entre eux. Dans certains cas, des nuds sont laisss sans tiquette quand leur dlimitation est claire, mais pas leur catgorie (Black et al., 1993, p. 19).
13.4 Analyseurs de texte tout-venant

Nous prcisons les types de parseurs qui sont effectivement employs pour l'annotation de vastes corpus, ainsi que les choix qui conditionnent leur fonctionnement : production d'une seule analyse ou de plusieurs,
48
PREMIERE PARTIE
analyse descendante ou montante. Certains formalismes syntaxiques contemporains comme LFG, HPSG, les grammaires d'arbres adjoints (Abeill, 1993) ou comme le modle Gouvernement et Liage ont donn lieu la ralisation de parseurs. Toutefois, ces analyseurs sont avant tout destins tester le traitement par ces formalismes de phnomnes linguistiques complexes (dpendances distance, etc.). S'ils visent avoir la couverture la plus large possible, il faut entendre cet objectif comme la capacit traiter un un la plupart des problmes syntaxiques d'une langue et non comme la capacit traiter l'enchevtrement de ces problmes dans des phrases authentiques longues et complexes, qui peuvent mme violer certaines rgles grammaticales. Les parseurs de ces obdiences ne semblent pas dans l'immdiat utilisables sur de vastes corpus73. notre connaissance, il n'existe d'ailleurs pas de corpus annot selon leurs principes. Par opposition aux parseurs avant tout destins tester des formalismes syntaxiques raffins, l'objectif des analyseurs qui sont voqus dans ce chapitre est le parsage robuste. Il s'agit, pour reprendre les critres74 de F. Karlsson (1994, p. 122), de pouvoir analyser, sans se bloquer, du texte tout-venant , (en fournissant ventuellement des rsultats partiels), d'aboutir un taux satisfaisant d'analyses correctes75 (i.e. o les mots sont domins par une tiquette syntaxique unique et adquate) et de ne pas aboutir des rsultats aberrants pour des phrases de longueur et de complexit raisonnable . D. Hindle (1994, p. 105) rejoint cette caractrisation. Il insiste en outre sur le fait que le parseur doit toujours produire quelque chose , mme sur un nonc non grammatical. Il tient, mais c'est un point qui ne fait pas l'unanimit, ce qu'un rsultat et un seul soit retourn pour une phrase donne. Il souhaite enfin que le parseur permette une amlioration incrmentale. Les langages artificiels (langages de programmation, langages de reprsentation de connaissances) sont conus a priori pour viter toute ambigut : quand un programme est excut, son comportement, un moment donn de son excution, avec des donnes dtermines, doit tre univoque. L'ambigut est au contraire centrale pour les langues naturelles. Elle est souvent ressentie comme une difficult pour les traitements automatiques. Beaucoup de parseurs pour les langues naturelles ont pour vise la production de l'ensemble des analyses possibles. Ce peut tre le cas au niveau de la phrase dans son ensemble, comme dans le systme TOSCA. Ce peut tre aussi le cas en analyse partielle. Certains analyseurs, en revanche, visent ne fournir qu'une seule analyse. C'est le cas de Fidditch (Hindle, 1994), utilis pour Penn Treebank. Cette deuxime possibilit, l'vidence, facilite la production de gros volumes de texte arbor, puisque le post-traitement manuel n'a pas trier parmi les possibles. Lobjectif dune ou de plusieurs analyses compltes pour du texte toutCertains chercheurs pensent mme que ces modles avant tout thoriques sont de peu de profit pour dvelopper des analyseurs utilisables, au contraire des grandes grammaires descriptives (Black et al., 1993, p. 77). 74 Nous ne reprenons pas son exigence de rapidit, pour des raisons expliques au chapitre VIII. 75 F. Karlsson (ibid.) cite l'objectif, qui parat extrmement ambitieux de 90 % d'analyses justes. Cf. les pourcentages d'ambigut fournis en 1.3.2.
73
49
venant est encore loin dtre ralisable. Les parseurs capables de produire des rsultats partiels sont donc ncessaires, ce qui favorise les analyseurs montants. Les analyseurs montants (bottom-up) regroupent progressivement des structures de niveau de plus en plus lev, les analyseurs descendants (top-down) suivent une approche inverse : des niveaux suprieurs vers les mots. Les premiers sont plus appropris que les seconds pour fournir des rsultats partiels : en quelque sorte, ils savent s'arrter en chemin, en produisant des groupes qui ne sont pas forcment tous relis, mais qui peuvent dj tre utiliss.
13.5 Niveaux d'analyse

L'examen des corpus arbors existants permet dans (Leech et al., 1996, p. 9) de distinguer, par ordre de complexit croissante, les niveaux d'annotation suivants76, illustrs sur l'exemple utilis supra : 13.5.1.1 Simple parenthsage des constituants Ce sont en fait des crochets qui sont le plus souvent utiliss :
[ Ce guide ][ [ leur ] permet [ de [ se familiariser [...]
13.5.1.2 tiquetage des constituants C'est la reprsentation fournie plus haut (dans cet exemple, seules les tiquettes des nuds pr-terminaux sont plus complexes). On appelle parsage squelettique (skeleton parsing) le fait de s'en tenir ces deux niveaux, voire au premier seul. Ce dgrossissage syntaxique , qui peut tre effectu manuellement relativement faible cot, peut suffire certaines analyses automatiques ultrieures (recherche de cadres de sous-catgorisation) ou servir de base d'entranement un analyseur probabiliste (cf. chapitre VIII). 13.5.1.3 Indication des relations de dpendance Elle fournit les liens entre les gouverneurs (Tesnire ou Mel'cuk) ou ttes et leurs dpendants 77. Leur notation se fait par des flches. Ces liens relient uniquement des mots, la diffrence des grammaires de constituants, o les ensembles relis peuvent correspondre aussi bien des mots qu' des groupes de mots. Nous empruntons les notations du parseur ENGCG (Voutilainen et Heikkila, 1994) pour illustrer cette approche sur notre exemple (> indique que la tte est droite, la premire des deux catgories suivant larrobas,
76 D'autres informations sont distingues pour un corpus d'oral transcrit et les caractristiques syntaxiques propres l'oral : ritrations, faux dmarrages, etc. Nous ne les prsentons pas, puisque nous avons fait le choix de ne traiter que les corpus d'crit. 77 Nous suivons ici la terminologie de (Melcuk, 1988, p. 23). La dnomination dpendant y est prfre celle de modifieur, parce qu'elle est plus gnrique.
50
PREMIERE PARTIE
@, renvoie au mot examin, la seconde au mot tte) : Ce guide leur permet [...] @DN> @NV2> @PV>
@DN> signifie que Ce est un Dterminant dpendant du premier Nom droite (si c'tait le deuxime, la notation serait @DN2>). Une autre notation, indique dans (Leech et al., 1996, p. 26) assortit chaque mot d'un numro d'ordre sa gauche et ventuellement droite du numro de la tte dont il dpend : 1 2 3 4 [...] Ce guide leur permet D N P V 2 4 4
permet
ce qui correspond :
guide Le
leur
Le mot 1 (Ce) dpend du mot 2, qui, comme le mot 3, dpend du mot 4. Ce dernier, qui est la tte , ne dpend de rien. Il est encore possible (ibid., p. 27) de reprsenter un graphe de dpendance par une expression parenthse o chaque parenthse ouvrante est suivie d'une tte, puis des dpendants de celle-ci, et ce de manire rcursive78 :
[V permet [N guide [D Ce]][P leur][...]
13.5.1.4 Indication des relations fonctionnelles Il s'agit de noter les fonctions comme sujet, objet direct, objet indirect etc. :
[N <Sujet> Ce_DEDEMMS guide_NCOMS N][V [P <ObjetIndirect> leur_PPCA6MP P] permet V_VINIP3 [...] ._.
13.5.1.5 Classification plus fine des syntagmes Elle peut tre assure par un systme de traits : [N{genre=masc, nombre=sing} Ce_DEDEMMS guide_NCOMS N][V{mode=indicatif, temps=prsent, personne=3} [P{nombre=plur} leur_PPCA6MP P] permet V_VINIP3 [...] ._. 13.5.1.6 Relations " logiques " ou profondes Il s'agit d'indiquer les liens de co-rfrence, de rassembler les constituants discontinus. Dans le cas prsent, un indice (entre chevrons) peut manifester la corfrence entre leur et le sujet implicite (explicit par
78
Du moins dans les cas o il n'y a pas de discontinuits.
Ressources lexicales un constituant vide) de se familiariser :

[N Ce_DEDEMMS guide_NCOMS N][V [P <8> leur_PPCA6MP P] permet V_VINIP3 [P de_PREPD [N <8> N] [Vi se_PPRE6MP familiariser_VPRN [...] ._.
51
Ces constituants vides peuvent servir ensuite faciliter le reprage des relations prdicat / arguments dans les phrases (Marcus et al., 1993, p. 321). 13.5.1.7 Information sur le rang d'une unit syntaxique Le niveau d'enchssement des constituants est ajout (il peut le plus souvent tre calcul en fonction du niveau de parenthsage).
14. UNE REALISATION EXEMPLAIRE : SUSANNE

Susanne est un sous-ensemble de Brown qui avait dj t manuellement analys Gothenburg. Il comprend 64 extraits de 2 000 mots chacun, soit 128 000 mots, relevant de quatre des genres distingus par Brown : reportage journalistique, Belles Lettres, crit scientifique et technique, aventure et fiction. Le corpus obit un format vertical, comme nous l'avons vu au chapitre prcdent, avec un mot par ligne, et dans l'ordre la rfrence, le statut (correction ou non), la catgorie prterminale, le mot, son lemme, et l'analyse syntaxique.
14.1 Une annotation exhaustive

Nous choisissons de prsenter en dtail ce corpus arbor manuellement pour trois raisons. En premier lieu, c'est lun des plus faciles d'accs, gratuitement et sans formalits. En second lieu, le schma d'annotation est l'un des plus documents qui soit (Sampson, 1995) : les choix faits sont discuts en dtail, ils sont exposs dans des documents aisment accessibles. Cela permet de comprendre et d'utiliser pleinement le rsultat : Les conventions d'annotation de Susanne proposent une mthode pour reprsenter tous les aspects de la grammaire anglaise qui sont suffisamment dfinis pour tre susceptibles d'une annotation formelle. Les catgories et les limites entre elles sont spcifies de manire suffisamment dtaille pour que, dans l'idal, deux analystes annotant indpendamment le mme texte et se rfrant aux mmes conventions soient forcs de produire la mme analyse structurale (Sampson, 1994, p. 169). Enfin, Susanne, comme le souligne l'acronyme : Surface and Underlying Structural ANalyses of Natural English, vise une annotation
52
PREMIERE PARTIE
aussi exhaustive que possible (pratiquement tous les niveaux dfinis supra y sont reprsents) (ibid. p. 170) : son but (comparable celui de la taxonomie de Linn au dix-huitime sicle dans le domaine de la botanique) n'est pas d'identifier les catgories qui sont optimales sur le plan thorique ou qui refltent ncessairement l'organisation psychologique de la comptence linguistique des locuteurs, mais simplement d'offrir un schma de catgories et des faons de les utiliser qui rende ais aux chercheurs en TALN l'enregistrement systmatique et sans ambigut de l'usage rel, sans malentendus sur des emplois locaux d'une terminologie analytique. En ce sens, Susanne, qui rsulte d'une annotation entirement humaine, explore les limites de l'annotation syntaxique. Nombre des annotations que ce corpus fournit ne pourraient pas tre ajoutes automatiquement d'autres corpus, au moins dans l'immdiat. En disposer, de faon exprimentale et sur un corpus de taille rduite, permet cependant d'valuer l'intrt de chacune d'entre elles pour les recherches, tant linguistiques que computationnelles.
14.2 Informations fournies dans Susanne

Voici les choix faits pour Susanne aux diffrents niveaux d'analyse dfinis supra. 352 tiquettes sont utilises pour ltiquetage des mots. Sampson (1995) fournit pour les catgories fermes la liste exhaustive et pour les catgories ouvertes les critres d'attribution. Les noms propres sont rpartis en noms de personne, noms de lieux etc. Les nuds portent jusqu' trois types d'information : catgorie, fonction et indice (permettant de relier le nud un autre nud). Les relations fonctionnelles suivantes sont indiques : sujet logique, objet direct logique, objet indirect logique, agent du passif, sujet de surface, objet de surface, circonstants de lieu, de direction, de temps, de manire etc. Les tiquettes catgorielles fournissent de nombreuses informations sur les constituants ainsi nomms (forme et type de verbe pour les groupes verbaux par exemple). Des indices lient les paires de nuds pour montrer l'identit rfrentielle entre des constituants qui se trouvent dans certaines configurations syntaxiques. Une tiquette spcifique dans le champ rserv au mot reprsente la trace : c'est--dire la position logique d'un constituant plac en fait ailleurs ou qui est effac dans la structure syntaxique de surface. Simultanment, un constituant dplac porte une autre tiquette marquant ce dplacement et un indice le lie la trace correspondant sa position logique . Dans l'exemple suivant79, John wanted to go :
[Nns:s123 John ] wanted [Ti:o s123 to go]
79
(Leech et al., 1995, p. 19)
53
:s indique la fonction sujet, :o la fonction objet de l'infinitive (Ti) pour le verbe wanted. Le fantme s123 indique la position logique du sujet de surface John. L'indice 123 tablit le lien entre la ralisation de surface et le fantme . Les conventions de notation des tiquettes des nuds permettent de distinguer les tiquettes pr-terminales, celles des syntagmes, celles des propositions et celles des units racines .
15. PHRASEOLOGIE ET TRAITEMENTS SYNTAXIQUES

Les corpus arbors sont disponibles depuis le dbut des annes quatrevingt dix, c'est--dire depuis moins longtemps que les corpus tiquets, accessibles depuis les annes quatre-vingts. La primaut de l'anglais se fait ici crasante : il n'existe pas ce jour de corpus arbor du franais aisment disponible80. En TALN, ces corpus servent surtout la mise au point des parseurs. Lobservation de corpus arbors permet de prciser les rgles employer, danalyser automatiquement des corpus de taille plus importante, de retravailler les rgles en jeu et ainsi de suite. Cette utilisation est voque au chapitre VIII. Les corpus arbors servent galement d'tapes vers des traitements smantiques (cooccurrences syntaxiques et similarits). Le chapitre IV traite cet aspect. Les recherches linguistiques qui ont recours des corpus arbors sont donc encore rares. Nous centrons notre analyse sur le traitement de la dimension phrasologique du langage, pour la langue gnrale ce sont les expressions figes , les mots composs mais surtout en langage de spcialit ce sont les termes. Cest une zone la lisire de la syntaxe et du lexique (Corbin, 1992). Nous prsentons des utilisations de corpus arbors et d'analyseurs robustes pour rendre compte, en franais et en anglais, de ces fonctionnements langagiers.
15.1 Le renouveau des tudes linguistiques de la phrasologie

Les expressions toutes faites, comme les noms composs (un champignon atomique), les verbes composs (dans des constructions verbe support comme mettre en vidence), les locutions adverbiales ( la vole), prpositionnelles ( la fin de) ou conjonctives ( seule fin que), ont souvent t relgues aux marges des traitements lexicographiques81. Dabord, ces units polylexicales s'insrent malaisment dans les
80 Le Centre Scientifique d'IBM France a cependant dvelopp au dbut des annes quatre-vingt dix un corpus arbor de 400 000 mots (dbats en franais du parlement canadien, manuels IBM) qui peut tre achet. Nous en donnons un exemple infra. 81 En franais du moins. Les dictionnaires d'expressions idiomatiques foisonnent pour l'anglais.
54
PREMIERE PARTIE
dictionnaires sur support papier82. O faire figurer champignon atomique, sous l'entre champignon ou sous atomique ? Le rattachement champignon parat naturel, toutefois, cest bien dnergie nuclaire quil sagit, et on souhaiterait maintenir ce lien. O faire entrer la vole ? Ces locutions sont dailleurs soumises dformation (la ralisation originelle goulet dtranglement est concurrence par goulot dtranglement), mais si les dictionnaires dconseillent certaines variantes, ils ne rpertorient pas pour autant toutes les variantes effectives. Ensuite, on voit souvent dans ces squences la partie image , mtaphorique de la langue, comme le souligne A. Rey (Rey et Chantreau, 1979, p. I-XIII), ce qui conduit alors privilgier une tude de l'origine et de l'volution de ces squences et peut-tre sous-estimer leur place dans la langue courante : un dictionnaire de locutions, s'il n'est pas un simple recueil de traductions, ne peut tre qu'historique (ibid., p. XII). Enfin, les limites de l'ensemble considr sont floues, et variables les critres qui permettent de dire qu'une squence fonctionne comme un mot compos . Si l'on considre verre vin comme un nom compos, faut-il en faire de mme de toutes les squences similaires : verre cognac, verre apritif, verre kyr ... ? La matrise de ces mots en plusieurs mots est pourtant essentielle dans l'apprentissage d'une langue. Ils s'avrent en effet souvent opaques dans la phase de comprhension et causes d'hsitations dans la phase de production. C'est pourquoi Mel'cuk leur donne une place centrale dans son Dictionnaire Explicatif et Combinatoire du Franais. Ses fonctions lexicales (Melcuk, 1988) visent mettre au jour les ralisations lexicales les plus probables des mots pour exprimer une modification smantique donne. Le degr fort se dit ainsi chaudes larmes quand il s'agit de pleurer et tout rompre quand le verbe est applaudir. Depuis une quinzaine d'annes, la phrasologie suscite un renouveau d'intrt en linguistique ainsi qu'en TALN. Dans la ligne logique des tudes menes sur les possibilits combinatoires des mots simples, qui soulignaient les multiples restrictions existantes (Guillet, 1990), les tudes du LADL ont montr l'importance des mots composs . Elles ont abouti en particulier un dictionnaire lectronique des mots composs en franais (Silberztein, 1993). Ce dictionnaire constitue un inventaire extrmement pouss des expressions, sur le plan quantitatif, mais aussi sur le plan qualitatif. Chaque entre est assortie de la description de ses variantes possibles. En TALN, l'volution des formalismes vers la lexicalisation, c'est--dire la rduction des rgles gnrales au profit de rgles rendant compte des particularits d'emploi des mots sinon un par un, du moins par classes rduites, s'est accompagne d'un renouveau des tudes et des propositions de traitement des expressions dites figes83. L'tude des units polylexicales a conduit un certain nombre d'auteurs (Gazdar et al., 1985 ; Abeill, 1993 ; Habert et Jacquemin 1995) postuler que ces units relvent des rgles gnrales de la grammaire, mais
82 Il n'en va bien sr pas de mme pour un dictionnaire lectronique. Les fonctions de recherche permettent de sparer l'entre concerne et les points d'accs. 83 Cf. (Abeill, 1993) pour une prsentation sur ce point dans trois formalismes contemporains.
55
qu'elles obissent des contraintes supplmentaires84, et qu'en particulier elles sont moins flexibles que les syntagmes libres de mme catgorie : par exemple, on ne peut dire en conservant le mme sens #champignon trs atomique85 ou #champignon atomique et dangereux, etc. Dans la logique de cette approche, on peut examiner une squence qui constitue ventuellement une unit polylexicale, tudier les transformations syntaxiques dont elle est passible, et en tirer un constat global sur le degr de figement de cette squence. L'hypothse est que, plus une squence est fige, c'est--dire moins elle accepte de transformations syntaxiques, plus il y a de chances qu'il s'agisse d'une unit polylexicale. C'est l'hypothse dfendue par G. Gross (1988). L'apport des corpus ce double renouveau porte sur deux points. En premier lieu, tant donn une expression juge contrainte quant ses possibilits de transformation, les corpus permettent de chercher si ses ralisations effectives confirment ce jugement. C'est ce que nous examinons en 3.2 et en 3.3 pour des expressions de la langue gnrale et des termes techniques, respectivement. Deuximement, l'ensemble des units polylexicales est par dfinition ouvert. C'est par ce biais notamment que s'enrichit le lexique, en particulier dans les domaines techniques et scientifiques. Lobservation des corpus sert alors accrotre le lexique des expressions. C'est ce que nous montrons pour les langages de spcialit en 3.4.
15.2 La flexibilit en corpus d'expressions polylexicales

H. Barkema (1993, 1994) se fixe pour objectif la mesure de la flexibilit relle, en corpus, dexpressions toutes faites. Il examine donc les variations, cest--dire les suites de mots qui sont apparentes ces expressions et qui rsultent dune transformation graphique, phontique, morphologique ou syntaxique (gagner le cocotier pour gagner le coquetier rsulte dune approximation phontique, par exemple). Certaines de ces variations constituent des variantes, cest--dire des quivalents effectifs de lexpression en cause (infarctus myocardique pour infarctus du myocarde, par exemple).
15.2.1 Les variations en corpus d'expressions toutes faites Pour effectuer le reprage de telles variations, Barkema (1994) recherche les occurrences dexpressions courantes et les suites de mots qui en sont proches dans un vaste corpus, celui de Birmingham, qui rassemble 20 millions de mots. Ce corpus fournit par exemple 111 occurrences
(Barkema, 1993) s'inscrit dans la mme vision de hirarchies de contraintes, tout comme, dans un autre cadre (van der Linden, 1992). 85 Comme dans (Gazdar et al., 1985) et (Barkema, 1994, p. 42, note 8), le # signale que la squence en cause est grammaticale mais qu'elle ne peut pas tre interprte idiomatiquement . Elle pourrait dnoter un champignon fortement irradi et ne peut pas renvoyer au nuage caractristique d'une explosion atomique.
84
56
PREMIERE PARTIE
inchanges de l'expression cold war86 (guerre froide) ainsi que les 13 exemples suivants qui en constituent des variations : 1 renewed Cold War 2 the melting Cold War 3 the world Cold War 4 continuing, ever-present 'cold' war 5 the Cold War won by Europeans who 'destalinized' Eastern Europe 6 the cold war which threatened to divide the world into two ideological armed camps 7 a not-so-cold war against Kaddafi 8 the awkward cold war thought up by the American paranoids, who should be back in the law offices of middlewestern towns 9 a period of cold and hot civil war which ended with Hitler's invasion of Austria 10 a kind of cold civil war 11 the cold war that existed between the two giants, the United States and ... 12 the Cold War in Washington 13 the cold war between the Nature Conservancy Council and the farmers Barkema rpartit variations et emplois non modifis selon le schma syntaxique auquel ils obissent : occurrences et numros [{dterminant} cold war] 111 occ. [{dterminant} {adjectif} cold war] 3 occ. (1, 2, 4) [{dterminant} cold war {proposition}] 2 occ. (6, 11) [{dterminant} cold war {syntagme prpositionnel} 2 occ. (12, 13) [{dterminant} cold war {participe pass}] 1 occ. (5) [{dterminant} {adjectif} cold war {participe pass}] 1 occ. (8) [{dterminant} Adv cold war {syntagme prpositionnel}] 1 occ. (7) [{dterminant} {nom} cold war} 1 occ. (3) [{dterminant} cold {adjectif} war} 1 occ. (10) [{dterminant} cold {coordonnant} {adjectif} {adjectif} war 1 occ. (9) {proposition}] Schma
15.2.2 " Mesurer " la flexibilit Aprs cette premire tape de recueil, Barkema se fixe pour objectif d'valuer, et mme de mesurer la flexibilit observe. Les variations effectives de la squence dans un corpus jug reprsentatif sont-elles prvisibles ? Au contraire, sont-elles plus importantes ou moins
86
L'tude prcise de cette squence s'inscrit dans une recherche plus vaste : l'examen des variations de 450 expressions dans le mme corpus (Barkema, 1993).
57
importantes que ce quoi on pouvait s'attendre ? Lhypothse sous-jacente est que la flexibilit dpend au premier chef du schma syntaxique de dpart de la squence examine. Pour pouvoir porter un jugement sur ces variantes observes, c'est--dire dterminer si cold war est aussi flexible qu'on pourrait s'y attendre, il faut d'abord caractriser la flexibilit effective du schma sous jacent : [{adjectif} {nom}]. Barkema utilise alors le corpus de Nimgue (130 000 mots), entirement arbor et qui contient 16 183 syntagmes nominaux relevant de 1 736 patrons syntaxiques distincts. Il compte le nombre d'occurrences du schma [{adjectif} {nom}], avec un adjectif absolu et un {nom commun singulier} ainsi que le nombre d'occurrences des variantes syntaxiques de ce schma (dont le passage au pluriel). Il compare alors la frquence obtenue pour une variation de cold war relevant d'un patron donn avec la frquence attendue. La frquence attendue dune telle variation sobtient en multipliant le nombre total doccurrences de cold war et de ses variations par le nombre de fois o le patron de cette variation se ralise dans les syntagmes libres87 par rapport au nombre doccurrences du schma dont relve cold war et de ses variations au sein des syntagmes libres. Dans les 16 183 syntagmes nominaux du corpus de Nimgue, 1 257 relvent du schma [{adjectif absolu} {nom commun singulier}], et 3 171 de ce schma et de ses variantes syntaxiques. On s'attendrait alors trouver 49,15 occurrences du schma de base ((111 + 13) x (1 257 / 3 171)), alors qu'on en trouve 111 : la ralisation au singulier cold war est notablement plus frquente que prvu, ce qui signifie aussi que cold war prsente moins de variations que le schma syntaxique dont elle relve ne le permet. L'examen des carts entre les frquences attendues et les frquences observes souligne le fait que la post-modification de cold war par un syntagme prpositionnel est moins frquente qu'on ne s'y attendrait. Il en va de mme de la ralisation au pluriel (0 rencontre, 24,64 occurrences attendues).
15.2.3 valuation L'approche de Barkema pourrait tre amliore. Dans l'idal, il faudrait pouvoir oprer sur le corpus de Birmingham qui a servi extraire les variantes de cold war. Malheureusement, ce vaste corpus n'est pas muni de structures syntaxiques. Comme Barkema le souligne lui-mme, il faudrait pouvoir calculer le poids de chaque ralisation syntaxique d'un schma fondamental sur le mme corpus que celui utilis pour extraire les variations d'expressions relevant de ce schma. En effet, rien ne dit que la flexibilit des syntagmes libres ou celle des expressions toutes faites soit la mme dans tous les registres. On sait par exemple que l'crit journalistique contemporain franais fait souvent appel des locutions qui sont dtournes : par exemple ce titre de Libration du 20 mars 1989 aprs les lections municipales Coup d'tat de grce (Fiala et Habert,
87
Cest--dire ne constituant pas des expressions toutes faites.
58
PREMIERE PARTIE
1989, p. 91). D'autres registres, comme le discours juridique, sont peuttre plus conservateurs quant la phrasologie qu'ils vhiculent. Ne disposant pas de corpus arbor de taille suffisante pour pouvoir y observer des phnomnes de flexibilit, Barkema, par la force des choses, en est rduit peser les variations effectives avec une balance rgle sur d'autres donnes langagires, le corpus de Nimgue, ce qui constitue un biais dont on ne peut pas mesurer les consquences dans limmdiat. Barkema cherche caractriser la flexibilit du schma de base dont relve une expression donne. Une partie des recherches actuelles en syntaxe met l'accent sur les contraintes lexicales gouvernant l'application des rgles syntaxiques. Tout adjectif par exemple n'accepte pas la totalit des rgles de formation des groupes adjectivaux ni ne rentre dans toutes les places syntaxiques possibles (antpos / post-pos / aprs copule). Nous avons vu au chapitre I les restrictions propres aux adjectifs relationnels : construction copulative et adverbe de degr sont impossibles. Les adjectifs de couleur prsentent d'autres particularits. Barkema examine simplement les variations du patron [{adjectif absolu} {nom commun singulier}]. C'est sans doute une caractrisation encore trop grossire88. Cependant, s'il parat ncessaire d'utiliser des catgories plus fines, c'est accrotre en amont la difficult de disposer d'un corpus la fois suffisamment vaste et tiquet avec suffisamment de finesse.
15.3 La variation de termes en langue de spcialit

Pour obtenir les variations possibles de cold war, Barkema utilise un programme qui cherche les phrases comprenant war au singulier ou au pluriel et cold, pas forcment conjoints ni dans cet ordre. Le tri des squences effectivement pertinentes est par contre manuel. Dans certaines d'entre elles, cold et war n'appartiennent pas au mme syntagme ou bien ne suivent pas la relation de dpendance prsente dans l'expression source. Les recherches de C. Jacquemin (Jacquemin, 1994) sur la variation des termes en langue de spcialit empruntent une dmarche radicalement diffrente o la qute de variations est contrle par des connaissances, des rgles linguistiques. Au lieu de chercher des squences en intersection cest--dire partageant des mots avec des expressions toutes faites, il sagit dengendrer les variations syntaxiques possibles de termes techniques et de vrifier si ces variations se rencontrent effectivement en corpus.
88
Bien qu'il postule que : [...] en principe, les expressions libres acceptent l'application de toutes les rgles (et sont donc totalement flexibles) (ibid., p. 44), Barkema montre d'ailleurs quelque inquitude sur ce point et souhaite vrifier pour des expressions libres comme the old man ou the bird in the garden si les variations effectives de ces expressions correspondent bien au profil de variations attendues.
Ressources lexicales 15.3.1 Une reprsentation syntaxique contrainte des termes
59
L'objectif est dinventorier les variations en corpus des termes dun domaine. On parle aussi de mots-cls ou de descripteurs quand ces lments sont utiliss en informatique documentaire pour indexer des documents. Certains de ces descripteurs sont des mots simples (comme paradigme en linguistique). La plupart sont des mots complexes (comme axe paradigmatique en linguistique). Ce sont les descripteurs complexes qui sont retenus. Dans loptique retenue par Jacquemin, les termes complexes ne sont pas reprsents comme des simples suites de mots, mais directement comme des arbres syntaxiques aussi profonds et aussi larges que souhait. Les relations de dpendance entre les composants sont donc directement indiques. En outre, les nuds de ces arbres sont dcors de traits galement aussi complexes que ncessaire. Ces nuds permettent d'assortir les arbres de fines contraintes de bonne formation. Ainsi, pour Menelas, le descripteur fonction ventriculaire gauche89 est reprsent de la manire suivante90 : SN
genre = < 1 >, nombre = < 2 >
SAdj SAdj Nom

genre = fminin < 1 >, nombre = singulier < 2 >, lemme = fonction, forme = fonction
Adj
genre = < 1 >, nombre = < 2 >, lemme = ventriculaire, forme = ventriculaire
Adj
genre = < 1 >, nombre = < 2 >, lemme = gauche, forme = gauche
La reprsentation choisie souligne la dpendance de gauche par rapport ventriculaire et non fonction. On constate par ailleurs que le nombre de fonction est spcifi : ce doit tre le singulier, si bien que la squence fonctions ventriculaires gauches ne saurait correspondre une variation de ce descripteur, puisqu'elle viole l'indication fournie pour le nombre. Les indices entre chevrons indiquent un partage de valeur, ici du genre et du nombre entre la tte et ses modifieurs adjectivaux, ainsi qu'avec les constituants qui les dominent.
L'tat fonctionnel du ventricule gauche est crucial en cardiologie. Le ventricule droit ne revt pas la mme importance. Fonction ventriculaire droite n'est d'ailleurs pas un motcl du domaine. 90 Dans cet arbre, nous avons laiss comme tiquette du noeud la catgorie du constituant. Nous aurions aussi pu la reprsenter comme un trait aditionnel : {catgorie=SN...}.
89
60
PREMIERE PARTIE
15.3.2 Engendrer des variantes possibles de termes Une des variations possibles dun terme de structure [SN Nom [Sadj [Sadj Adj] Adj]] est la modification du syntagme adjectival par un nouvel adjectif gauche ou droite. Pour le terme choisi, cela signifie quil est a priori possible den rencontrer la modification suivante :
[SN [Nom fonction][SAdj [Adj x][Sadj [Sadj [Adj ventriculaire]] [Adj gauche]]]
ou bien encore :
[SN [Nom fonction][SAdj [Sadj [Sadj [Adj ventriculaire]] [Adj gauche]][Adj x]]]
o x peut tre remplac par un adjectif quelconque. Les squences correspondantes sont fonction x ventriculaire gauche et fonction ventriculaire gauche x, dans lesquelles x doit tre un adjectif. Des mta-rgles servent alors stipuler les transformations que peuvent ventuellement connatre les descripteurs. Elles prennent en entre un arbre dcrivant un descripteur et produisent en sortie un autre arbre reprsentant une variation possible de ce descripteur. La mta-rgle suivante :
Ressources lexicales SN
genre = < 1 >, nombre = < 2 >
61
SAdj SAdj Nom

genre = < 1 >, nombre = < 2 >, lemme = < 3 >, forme = < 4 >
Adj
Adj
SN
genre = < 1 >, nombre = < 2 >
SAdj SAdj SAdj Nom

Adj
Adj
Adj
applique l'arbre reprsentant le descripteur fonction ventriculaire gauche produit l'arbre suivant :
62
PREMIERE PARTIE
SN
genre = < 1 >, nombre = < 2 >
SAdj SAdj SAdj Nom

genre = fminin < 1 >, nombre = singulier < 2 >, lemme = fonction, forme = fonction
Adj
Adj
genre = < 1 >, nombre = < 2 >, lemme = ventriculaire, forme = ventriculaire
Adj
genre = < 1 >, nombre = < 2 >, lemme = gauche, forme = gauche
Cet arbre correspond l'interposition possible d'un adjectif entre fonction et ventriculaire gauche. Cet adjectif doit saccorder avec fonction. Cest le rle des indices entre chevrons sur les traits attachs aux noeuds : le trait nombre et le trait genre de ladjectif insr doivent avoir la mme valeur que les traits correspondants attachs fonction. Le lemme de ladjectif ajout n'est pas prcis par contre. Les mta-rgles comprennent donc des dcorations sur les nuds. Ces informations permettent de contraindre leur application. On pourrait ajouter par exemple le trait {type = relationnel qualificatif/relationnel} pour empcher lengendrement dune variation avec un adjectif qualificatif : *fonction satisfaisante ventriculaire gauche. Ladjectif satisfaisante portant le trait {type=qualificatif}, il y aurait conflit entre la valeur du trait dans la mtargle et celle de satisfaisante. Une autre mta-rgle peut faire fond sur la valeur du trait nom-base, associ ventriculaire pour engendrer l'arbre correspondant fonction du ventricule gauche, o l'adjectif relationnel ventriculaire est remplac par le syntagme prpositionnel quivalent. Cette transformation peut oprer dans l'autre sens, ce qui permet d'obtenir infarctus myocardique partir d'infarctus du myocarde. Ces transformations sont donc conditionnes par la prsence de certains traits. Le terme infarctus du myocarde peut tre transform en infarctus myocardique parce qu'est associ au nud correspondant myocarde le trait {adjectif-relationnel=myocardique}. Le terme angine de poitrine ne pourra pas tre transform de la mme manire : l'adjectif poitrinaire a le sens d atteint de tuberculose poitrinaire et n'est pas l'adjectif relationnel qui serait ncessaire pour le dclenchement de cette mta-rgle91. Une mta-rgle peut, dans des conditions bien dfinies, s'appliquer sur les rsultats d'autres mta-rgles. Les deux mta-rgles vues prcdemment peuvent par exemple se combiner pour engendrer la variation potentielle fonction {adjectif} du ventricule gauche.
Pour ajouter ces contraintes, on associe poitrine le trait {adjectif-relationnel=sans} et poitrinaire le trait {nom-base=sans}, par exemple.
91
63
C. Jacquemin a mis au point par exprimentation sur diffrents corpus les mta-rgles ncessaires pour rendre compte des transformations effectivement rencontres pour les termes techniques de plusieurs corpus techniques (mdecine, mtallurgie ...). Toutes les variantes potentielles prvues par les mta-rgles et leurs combinaisons partir d'un ensemble de descripteurs du domaine sont engendres.
15.3.3 Reprage des variations syntaxiques engendres L'analyseur robuste FASTER, dvelopp par C. Jacquemin, recherche ces variations dans un corpus du domaine le plus souvent tiquet au pralable. C'est un analyseur trs particulier : il se cantonne un type de composant syntaxique, le groupe nominal, et s'en tient aux groupes qui comprennent certaines entres lexicales, dans des relations de dpendance bien dfinies et obissant des contraintes fines grce aux traits dcorant les nuds non-terminaux. Dans Menelas, les mta-rgles appliques fonction ventriculaire gauche permettraient de reprer fonction systolique ventriculaire gauche, fonction ventriculaire gauche systolique 92, ainsi que (valution de la) fonction globale du ventricule gauche et fonction du ventricule gauche. Les transformations non prvues aboutiraient un silence, c'est--dire la non-extraction d'une variation effective. C'est le cas de l'acronyme, attest : FVG. C'est le cas encore du remplacement de la tte par un hyponyme : cintique ventriculaire gauche ou par une priphrase : tat fonctionnel du ventricule gauche.
15.3.4 Vers une grammaire de la variation terminologique C. Jacquemin distingue au sein des variations possibles les modifications (la tte ou un dpendant reoit un modifieur : fonction systolique ventriculaire gauche), les permutations (fonction ventriculaire gauche / fonction du ventricule gauche) et les coordinations (comme l'hypothtique fonction ventriculaire gauche et droite). Le tri des variations rapportes par l'analyseur entre variantes effectives et bruit , squences non relies au terme de dpart, manifeste une dissymtrie de ces trois oprations. La coordination, avec ses contraintes smantiques, dbouche souvent sur des variantes non ambigus. La modification isole des squences au statut plus incertain. La permutation enfin aboutit un taux de bruit encore plus important : il tient au rle smantique flou des prpositions dites incolores, en franais comme en anglais (de, , of). Ce sont l les premiers lments d'une vritable grammaire de la variation terminologique, capable de caractriser prcisment les oprations possibles et leur domaine d'application. On peut mme se demander si, ct de mcanismes trs gnraux intervenant dans les
92
Phnomne d'incertitude positionnelle assez frquent dans ce domaine. En voici un autre exemple : syndrome douloureux thoracique / syndrome thoracique douloureux.
64
PREMIERE PARTIE
diffrents langages spcialiss, ne peuvent pas se rencontrer des rgularits particulires tel ou tel domaine. Dans limmdiat, cependant, il y a peu de diffrences dun corpus lautre sur les types de mta-rgles utiliser, ce qui pourrait plaider pour une certaine stabilit de la langue technique au regard des mcanismes syntaxiques employs.
15.4 La recherche de candidats termes

Les deux approches que nous venons de prsenter cherchent les variations d'expressions toutes faites de la langue gnrale ou de termes de langues de spcialit. On part donc de squences rpertories dont on cherche en corpus des ralisations modifies. Le travail que nous examinons maintenant est orient par lobjectif complmentaire, lacquisition terminologique, cest--dire reprer les termes dun domaine quelconque qui nont pas encore t rpertoris. Il sinsre dans un contexte industriel, la Direction des Etudes et Recherches d'Electricit de France (DER-EDF). Une grande entreprise industrielle comme EDF doit matriser des flux d'informations lectroniques immenses : rapports de recherche internes, articles et publications glanes sur les rseaux, documents destins au public, etc. Il importe de pouvoir rapidement retrouver linformation pertinente dans cette masse de donnes, par exemple extraire les documents qui parlent dune notion donne. Pour certains domaines, une terminologie a t tablie par des documentalistes ou des terminologues. Elle rpertorie les principales notions du domaine et leurs ralisations linguistiques : les termes correspondants. Elle comprend ventuellement des liens de synonymie, dantonymie, dhyperonymie. Par exemple, on trouvera dans la terminologie du domaine du TALN des termes comme analyseur syntaxique, formalismes dunification, chanes de Markov, un lien de synonymie entre analyseur syntaxique et parseur, un lien dhyperonymie entre parseur et analyseur robuste (un analyseur robuste est un type de parseur). Ces liens sont utiliss pour largir les recherches effectues : un systme de recherche dinformation pourra, grce cette terminologie, rapatrier les textes parlant de parseur et danalyseur robuste si la demande porte sur les analyseurs syntaxiques. Dans dautres domaines, il ny a pas de terminologie disponible. Cette absence peut tenir au cot de la constitution dune terminologie par des documentalistes. Lvolution extrmement rapide de certains secteurs peut aussi contrecarrer le dessein de prendre un instantan des termes qui y sont employs : limage produite a toutes chances dtre dforme. Le vocabulaire de la navigation sur les rseaux (Internet, Web) offre un bon exemple de tels changements incessants. Lacquisition terminologique a de manire gnrale pour objectif disoler les dnominations dun domaine, pour crer ou complter une terminologie. D. Bourigault a dvelopp la DER-EDF Lexter (Bourigault, 1993), un analyseur destin isoler les candidats-termes prsents dans un
65
corpus de texte tout-venant , pralablement tiquet. Il entend par candidats-termes les syntagmes nominaux qui ont un fonctionnement dnominatif. L'hypothse fondamentale est qu'un analyseur peut dgrossir le travail de reprage des dnominations effectives d'un domaine. Clairement, certaines squences nominales, parce qu'elles font rfrence au cotexte ou au contexte, n'ont pas la gnricit requise pour des dnominations (Kleiber, 1984). Par exemple le maintien de sa temprature ne serait pas retenu, en raison du possessif, tandis que le maintien de temprature, voire le maintien de la temprature le seraient : le dterminant zro et le dterminant dfini sont compatibles avec une lecture dnominative.
15.4.1 Isoler les groupes d'allure dnominative La premire tape du travail de Lexter consiste isoler les groupes nominaux d'allure dnominative maximaux . L'approche retenue ne s'appuie pas au premier chef sur des rgles de structuration du groupe nominal en franais. Il s'agit au contraire au dpart de reprer les frontires, c'est--dire les catgories et suites de catgories qui forment les bornes, exclues, d'un tel constituant. Dans la squence (ibid. p. 108) :
le circuit d'aspersion de l'enceinte de confinement assure le maintien de sa temprature nominale de fonctionnement aprs une augmentation de pression
les lments assure, de sa, et aprs une sont considrs comme des frontires. Le verbe est la limite d'un groupe nominal ordinaire. Par contre, de sa ne peut servir articuler deux parties d'une dnomination complexe,
Tte : temprature nominale Tte : temprature Expansion : nominale
aprs une non plus. On voit donc se superposer deux types de contraintes : l'une qui cherche isoler les groupes nominaux, l'autre qui au sein de ce type de constituant, filtre ceux qui peuvent constituer des dnominations. Les groupes retenus sont : circuit d'aspersion de l'enceinte de confinement, maintien, temprature nominale de fonctionnement, augmentation de pression. La deuxime tape ne garde que les groupes complexes : maintien est laiss de ct ce stade. Les groupes sont en effet moins ambigus et apportent davantage d'information. Que l'on compare donnes et base de
tte tte
extension
extension nominale
de
fonctionnement
temprature
66
PREMIERE PARTIE
donnes ou analyse de donnes. La premire expression renvoie l'informatique, la seconde aux statistiques, donnes tout seul potentiellement aux deux. cette tape, les groupes sont galement dcomposs de manire rcursive selon un schma dpendanciel en Tte / Expansion93. La reprsentation de temprature nominale de fonctionnement est alors : Lintrt de ce type de dcomposition, c'est de permettre les regroupements paradigmatiques qui sont si rvlateurs en langage spcialis. Regroupement sur les ttes : on peut mettre jour des liens de co-hyponymie (entre plusieurs candidats-termes commenant tous par analyseur : analyseur morphologique, analyseur syntaxique, analyseur robuste, analyseur montant ...) ou d'hyperonymie (entre une squence courte : analyseur syntaxique et une squence qui la prolonge : analyseur syntaxique dterministe). Regroupement sur les expansions : il permet de voir les attributs spectre troit (qui modifient un nombre restreint de ttes : dterministe ne modifie gure quanalyseur en TALN) et ceux qui sont moins spcifiques (automatique en informatique ou en TALN).
15.4.2 Le corpus comme norme

Les deux tapes reposent sur un postulat sous-jacent : limiter autant que possible l'appel un savoir linguistique sur la langue dans son ensemble. Lexter ncessite seulement que le texte analys ait t tiquet pralablement pour pouvoir procder une analyse syntaxique partielle. Mais Lexter n'utilise ni informations smantiques ni donnes de souscatgorisation : prpositions rgies par des noms prdicatifs ou par des adjectifs attendant un rgime prpositionnel (oublieux de, attentif , etc.). Cet asctisme volontaire s'explique par la conviction, taye par l'analyse dtaille de textes de domaines techniques distincts, qu'on ne peut pas forcment projeter les connaissances linguistiques gnrales sur les textes techniques, ou qu'inversement, les textes d'un domaine donn peuvent possder des particularits combinatoires (des rgimes de noms ou d'adjectifs qui le caractrisent) distinctes de celles d'un autre domaine. Le corrlat logique de ce minimalisme est l'appel l'apprentissage endogne. C'est considrer le corpus comme sa propre norme, et utiliser les rgularits qu'il manifeste pour effectuer dcoupages et structuration. Lexter est souvent confront des ambiguts structurelles. Dans la squence de Menelas angine de poitrine instable, faut-il rattacher instable poitrine ou angine ? Un locuteur franais doit faire un effort pour simplement percevoir la difficult. Un tranger qui ne connatrait que les mots isols et pas le terme mdical angine de poitrine partagerait pourtant l'hsitation de l'analyseur. Lexter dans un premier temps propose les deux dcoupages pour cette squence : [angine de poitrine] instable et angine de [poitrine instable]. Le programme effectue un seul dcoupage pour les squences non ambigus. Dans un deuxime temps, Lexter regarde si l'un des sous-groupes des squences ambigus constitue un groupe non ambigu relev au cours du premier temps. C'est ainsi qu'on rencontre
93
Ce terme gnrique recouvre, comme dpendant, modifieur et argument.
67
dans Menelas angine de poitrine, mais pas poitrine instable. On choisit alors le dcoupage qui contient le groupe non ambigu, ici [angine de poitrine] instable. L'valuation empirique de cette mthode sur diffrents corpus (ibid., p. 113-114) donne les rsultats suivants : dans 75 % des cas, la dsambigusation obtenue est correcte ; 20 % des squences restent non dsambiguses ; 5 % des squences sont dsambiguses de manire errone. Une comparaison de cette approche par apprentissage et d'une rsolution des ambiguts par des rgles a priori (Habert et al., 1997) semble donner l'avantage la premire mthode. La dlimitation des groupes maximaux repose galement partiellement sur l'apprentissage. Certaines squences constituent en effet des frontires lastiques , c'est--dire qu'elles peuvent tantt dlimiter des groupes nominaux dnominatifs tantt en faire partie. C'est le cas de sur + {article dfini} (ibid., p. 109-111). En gnral, c'est une limite :
1. on raccorde le cble d'alimentation sur le coffret de dcharge batterie
Mais ce n'est pas toujours le cas :

2. action sur le bouton poussoir de rarmement 3. action sur le systme d'alimentation de secours
En faire une limite intangible, c'est liminer 2 et 3. L'accepter au sein des candidats-termes conduit isoler le cble d'alimentation sur le coffret de dcharge batterie, qui ne constitue certainement pas une squence dnominative. La solution rside l encore dans l'apprentissage endogne. Il porte cette fois-ci sur les noms suivis d'une squence sur + {article dfini} + contexte droit immdiat. Un premier passage sur le texte relve tous ces contextes. Un second les trie et rpartit les noms en deux groupes : ceux qui sont productifs avec sur (qui figurent dans le texte avec un nombre suffisant d'expansions diffrentes introduites par sur + {article dfini}) et ceux qui ne sont suivis qu'exceptionnellement par sur + {article dfini}. Lexter considre que l'expansion des premiers peut tre introduite par sur + {article dfini} et garde alors les squences ayant pour tte un niveau quelconque ces noms suivis d'une expansion introduite par sur + {article dfini}. Dans les autres cas, sur + {article dfini} continue constituer une frontire. L'apprentissage porte donc ici sur des formes de sous-catgorisation.
15.4.3 Vers une grammaire des dnominations complexes possibles

L'ensemble retenu par Lexter est encore nettement trop vaste par rapport ce qu'un expert du domaine considrerait comme termes effectifs. Toutefois, l'objectif vis n'est certainement pas une automatisation totale de la mise en vidence des termes d'un domaine. Pour deux raisons fondamentales. La premire, cest que l'utilisation de Lexter sur des corpus varis, de domaines distincts, montre que les rgles de bonne formation de termes possibles ne sont pas forcment les mmes d'un domaine l'autre. C'est pourquoi l'apprentissage endogne est justement
68
PREMIERE PARTIE
incontournable. La seconde raison tient la complexit des mcanismes par lesquels une communaut langagire slectionne, parmi les dnominations possibles, celles qui deviennent des dnominations effectives. Si l'on peut esprer diminuer la taille de lensemble des candidats-termes extraits d'un corpus, reprer ceux d'entre eux qui fonctionnent rellement comme des termes semble difficilement automatisable. Lexter matrialise, par les squences qu'il considre comme des bornes, un certain nombre d'hypothses sur ce qui ne peut pas figurer dans une squence nominale pour quelle puisse tre employe comme une dnomination. La dmarche suivie dans la mise au point et le test du logiciel sur des corpus varis ont conduit rajouter d'autres rgles, galement ngatives. La dmarche est proche de celle utilis pour l'tiquetage (cf. chapitre VIII) : peu peu, on dgage les rgularits l'uvre et on met au point des procdures qui s'appuient sur elles. Au total, Lexter, au del des procdures mises en uvre, essaie donc de formaliser partiellement la notion de dnomination possible.
15.5 Enjeux pratiques et thoriques

15.5.1 Amliorer la description lexicographique
Barkema (ibid.) souligne que le degr de flexibilit d'une expression est rarement indiqu par les dictionnaires qui donnent cette squence. Le dictionnaire COBUILD (Sinclair et al., 1987) fait partiellement exception : pour moment of truth (minute de vrit), est ainsi indiqu que la seule modification possible de l'expression est l'utilisation au pluriel. Le reprage des ralisations possibles tel qu'il est effectu par Barkema permet d'enrichir la description lexicographique des expressions concernes. Il en va de mme en terminologie spcialise, o les rsultats de FASTER isolent des variantes intgrer dans les ressources lexicales. En acquisition terminologique, Lexter permet d'enrichir le rpertoire des termes utiliser. L'crmage par ce programme des dnominations possibles facilite le travail du lexicographe spcialis. Les concordances de mots frquents sont en effet souvent trs difficiles dpouiller et organiser. Le dcoupage opr en tte / expansion et les regroupements par ttes et par expansions offrent au contraire une vision synthtique du fonctionnement syntagmatique et paradigmatique des noms pivots du texte tudi. L'un des rsultats de Lexter est d'ailleurs un rseau terminologique hypertextuel. Chaque candidat-terme est reli sa tte et son expansion et d'autre part tous les candidats-termes dont il est luimme tte ou expansion. Le lien aux documents de dpart permet de replonger les squences extraites dans leur contexte. Le tout permet un connaisseur du domaine de sparer dans de bonnes conditions les termes effectifs des groupes parasites. Lacquisition terminologique, possible avec FASTER, ralise avec LEXTER, est une tche dont les rsultats sont difficiles valuer
69
objectivement. Il nexiste pas de corpus de tests o les termes pertinents seraient isols et qui serviraient ainsi daune pour mesurer lapport de ces outils. En outre, le projet de crer de tels corpus est peut-tre chimrique. Ce sont des ensembles de termes distincts qui risquent dtre reprs par des experts diffrents en fonction de leurs proccupations et de leurs points de vue. Un spcialiste dpidmiologie et un cardiologue nidentifieront pas forcment les mmes squences dans Menelas.
15.5.2 Distinguer variantes et variations

Dans les recherches de Barkema comme dans celles de C. Jacquemin, une fois repres des variations autour de squences de dpart, termes ou expressions toutes faites, une des difficults consiste isoler les variantes effectives, celles qui fonctionnent comme des ralisations possibles pour les expressions considres. En langue de spcialit, cest le recours un expert qui seul permet de trancher. En langue gnrale, il faut liminer les variations qui constituent des dfigements intentionnels, des jeux de langage94, et non des variantes des expressions de dpart. Ainsi, les exemples 7 (a not-so-cold war against Kaddafi) et 9 (a period of cold and hot civil war which ended with Hitler's invasion of Austria) de Barkema semblent relativement loigns du sens originel, qui renvoie au monde d'aprs Yalta et qu'voquent les exemples 5, 6 et 11 par exemple.
15.5.3 Importance quantitative de la variation

C. Jacquemin a valu les rsultats de l'extraction de variations de descripteurs engendres par mta-rgles. Il a utilis l'INIST95 un corpus de 125 000 mots dans le domaine de la physique de la mtallurgie et un sous-ensemble du lexique terminologique PASCAL utilis l'INIST pour l'indexation manuelle (6 621 termes lis la physique et la chimie de la mtallurgie). Les mta-rgles taient au nombre de 112. Les occurrences de termes et de leurs variantes couvrent (en nombre de mots) 7 % de la surface du corpus, les variantes reprsentant 28 % de cette zone terminologique . Les variantes valides reprsentent 15 % des occurrences de termes. Cette estimation semble d'ailleurs une valeur plancher, au regard d'expriences sur d'autres langues et d'autres corpus. La variation terminologique est donc loin d'tre ngligeable, contrairement un prjug rpandu : les termes seraient les noms univoques et stables des notions dun domaine. Les rsultats de Barkema vont dans le mme sens, cette fois-ci pour la langue gnrale. Il semble en effet qu'au total, l'intuition linguistique ou, en langage spcialis, celle d'un terminologue voire d'un expert du domaine, sous-estime les variantes effectives des dnominations complexes. Le recours au corpus renouvelle
94 95
Cf. (Authier-Revuz, 1995 ). Institut National pour l'Information Scientifique et Technique - CNRS.
70
PREMIERE PARTIE
donc lanalyse de la variation de ces units polylexicales.
15.5.4 Caractriser la flexibilit normale

Barkema distingue (ibid., p. 40-41 ; 1993) trois dimensions qui s'articulent : la flexibilit syntaxique : la possibilit pour un groupe de se voir appliquer tout ou partie des rgles du constituant dont il relve, la compositionnalit : le fait que le sens de la squence soit ou non fonction du sens de ses constituants, et enfin la collocativit : les prfrences d'emploi d'un mot (comme dans l'association privilgie conomiste et distingu o l'adjectif peut tre modifi, coordonn, etc.). Les travaux sur le figement ont sans doute eu tendance confondre ces dimensions qui sont partiellement indpendantes. Le recours aux corpus permet de cerner prcisment la premire d'entre elles. Barkema montre comment un corpus arbor permet de fournir une caractrisation fine de la flexibilit attendue pour un schma syntaxique donn. On peut alors porter un jugement sur les ralisations effectives d'une expression relevant de ce schma. L'emploi d'un corpus arbor souligne le fait que certaines ralisations d'un schma syntaxique sont plus probables que d'autres, pondrations qui chappent pour l'essentiel la conscience d'un locuteur. Les contraintes sur la flexibilit ont suscit depuis longtemps les recherches. Barkema essaie de caractriser prcisment l'autre ple de l'opposition : la flexibilit normale . C'est effectivement une tche ncessaire pour pouvoir parler en connaissance de cause de degr de figement. Le corpus offre le moyen de pondrer les rgles applicables un constituant donn.
16. UTILISER DES PARSEURS ET DES CORPUS ARBORES
16.1 Utiliser des parseurs

La mise au point des parseurs ncessite des mcanismes complexes qui sont dans l'immdiat plutt l'apanage d'informaticiens que de linguistes. L'criture et l'ajustement de grammaires pour des analyseurs robustes ncessite par exemple des mcanismes de pistage (de trace, disent les informaticiens) : examiner en dtail le processus mme d'analyse d'une phrase, pour vrifier la pertinence des rgles employes, ajouter des rgles ncessaires, etc., comme dans le banc d'essai de grammaires de l'universit de Nimgue (Nederhof et Koster, 1993, p. 174). Ou encore un gnrateur qui produit alatoirement des phrases en fonction des rgles et du lexique utiliss : cela permet de reprer certains incohrences ou le laxisme sur certains points de la grammaire. Lutilisation de parseurs pour la constitution de corpus arbors suppose encore dans une coopration troite entre linguistes et informaticiens. Les
71
exemples de telles cooprations sont encore rares : le groupe de Nimgue, Lancaster Treebank (Black et al., 1993) et Penn Treebank (Marcus et al., 1993).
16.2 Utiliser des corpus arbors

Pour parler des corpus annots syntaxiquement, on utilise galement les dnominations de banques d'arbres (treebank) et de bases de donnes syntaxiques (syntactic database) (Souter et Atwell, 1994, p. 142). Ces appellations pourraient faire croire une utilisation aise des corpus arbors, au mme titre que les bases de donnes du commerce. Il nen est rien. Au sens informatique, une base de donnes associe des tables d'information reprsentant des relations dans un sens assez proche de celui de la thorie des ensembles et des mthodes pour exprimer des requtes sur les informations prsentes dans une collection de tables, ces mthodes faisant appel l'algbre relationnelle qui permet d'exprimer ces requtes sans entrer dans les dtails de la mise en uvre des oprations. Dans une base de donnes syntaxiques , il y a bien accumulation d'informations (et un certain dmembrement , puisque les analyses sont simplement juxtaposes). Mais n'y sont prsents ni une formalisation gnrale des donnes prsentes (on a dj soulign l'clatement des pratiques d'annotation syntaxique96) ni un langage de requte adquat, ni mme la possibilit d'ajouter ou de retirer des informations, ce que permettent les bases de donnes. La varit des informations prsentes et leur structuration complexe (en termes d'enchssement de constituants mais aussi de liens horizontaux par exemple pour les co-rfrences ou pour les discontinuits ou encore de structures de traits dcorant les nuds) constituent, il est vrai, un dfi la formalisation. C'est LDB (Linguistic DataBase) qui se rapproche le plus d'un outil de gestion et d'interrogation de vastes ensembles de phrases arbores. Cet outil a d'ailleurs t utilis pour d'autres ensembles arbors que ceux de l'universit de Nimgue pour lesquels il a t conu97. Il est possible donc de transformer un corpus arbor pour le rendre interrogeable par LDB98. Halteren et Heuvel (1990) offrent une prsentation approfondie de l'ensemble des manipulations offertes. Les interrogations peuvent associer les contraintes structurelles (un nud de telle catgorie dans telle position de dominance ou de dpendance par rapport tel autre nud) et des conditions sur les dcorations des nuds qui peuvent comporter un certain nombre d'tiquettes (ce qui quivaut un systme de traits). On peut par exemple chercher les phrases constructions bi-transitives (du type I gave him a book), ou encore construire un tableau indiquant le nombre de noms modifis par un groupe adjectival prpos et leurs
(Souter, 1993) le montre en dtail sur 7 collections ou corpus arbors. Par exemple, pour la version parse, au sein de l'quipe ASCOT de l'universit d'Amsterdam, du Longman Dictionary of Contemporary English (LDOCE) (Souter, 1993, p. 204). 98 Voire d'autres donnes arborescentes, comme des dfinitions de dictionnaire (Halteren et Heuvel, 1990, p. 10).
96 97
72
PREMIERE PARTIE
correspondants avec adjectif postpos, et le nombre de noms non modifis. C'est LDB que Barkema a utilis pour dterminer les diffrentes ralisations syntaxiques du patron de base adjectif nom singulier. Comme pour l'tiquetage, deux grandes fonctionnalits sont ncessaires. Elles doivent d'ailleurs pouvoir se combiner. D'abord filtrer les arbres rpondant des contraintes arbitrairement complexes. Les outils actuellement disponibles (comme ceux fournis avec Penn Treebank) sont encore rudimentaires et en tout tat de cause non gnriques : ils sont faits pour traiter d'arbres selon un format d'encodage donn et ne travaillent pas un niveau de gnralit suffisant. Deuxime fonctionnalit : transformer des arbres. Il peut s'agir de changer des tiquettes pour faciliter l'interprtation, ou de restructurer des sous-arbres. Alors que les techniques de transduction d'arbre sont bien matrises en informatique, leur mise la disposition des utilisateurs de corpus arbors reste pour l'essentiel raliser99.
Cf. (Habert et al., 1997) pour une utilisation de la transduction darbres pour la comparaison de deux outils dacquisition terminologique.
99
73
CHAPITRE III
LES RESSOURCES LEXICALES POUR LETIQUETAGE SEMANTIQUE
Aprs la constitution de corpus de plus en plus volumineux, lapparition de corpus tiquets puis arbors, on commence voir merger des corpus porteurs dannotations smantiques. Cest un niveau dannotation supplmentaire qui ouvre de nouvelles perspectives dans lexploitation des corpus. lheure actuelle, ces corpus porteurs dannotations smantiques nexistent cependant qu ltat embryonnaire100. Les expriences menes sont trs diverses, reflets de conceptions smantiques trs diffrentes. Lessor des corpus arbors a fait suite celui des corpus tiquets et on peut sattendre dans les prochaines annes lapparition et au dveloppement des corpus porteurs dannotations smantiques. Mais ltiquetage smantique est dabord conditionn par la mise disposition des connaissances smantiques. La nature mme des sources lexicales utilises dtermine en grande partie la mthode dtiquetage et le jeu dtiquettes retenus. Aujourdhui, cest donc la question de ces ressources qui parat centrale. Ce chapitre dcrit les principales sources actuellement utilises ou utilisables pour tiqueter smantiquement des corpus. Seules les connaissances smantiques sont prises en compte101. Lobjectif est non pas de dresser un catalogue de ces ressources102 mais den esquisser une typologie. Ces ressources ont t conues selon des principes et dans des perspectives varies. Elles portent lempreinte de ces diffrences de conception. Il sagit ici dvaluer dans quelle mesure elles peuvent servir ltiquetage smantique de corpus et plus prcisment
Ils ne dpassent gure 200 000 mots. Nous ne mentionnons donc pas les autres types de connaissances (phontique, morpho-syntaxique) que ces sources, les dictionnaires notamment, peuvent comporter. 102 On trouvera ce type de catalogue sur des pages web rgulirement mises jour. Un groupe de travail de lAssociation for Computational Linguistics (ACL SIGLEX, Special Interest Group on the Lexicon) se charge notamment de recenser les ressources lexicales disponibles (http://www.clres.com/dict.html).
100 101
74
PREMIERE PARTIE
la dsambigusation lexicale, mme si ce nest pas dans ce but quelles ont t conues. Les ressources sont donc considres comme des bases de connaissances pour ltiquetage smantique des corpus (section 1). Elles sont de types varis. Elles diffrent dabord dans leur objet mme, les unes portant sur des mots, les autres sur des notions ou concepts (section 2). La section 3 montre que ces bases de connaissances diffrent galement par la granularit de la description quelles donnent des mots, par leur degr de gnralit et par leur codage. La section 4 prsente WordNet, lune des sources lexicales les plus utilises et le ferment de nombreux travaux de smantique partir de corpus. Nous terminons en soulignant le problme de la disponibilit des sources (section 5).
17. UN OBJECTIF: LA DESAMBIGUISATION LEXICALE

Ltiquetage smantique consiste attacher aux units dun texte (le morphme, le mot, une expression, un syntagme) une tiquette smantique qui indique selon les cas le sens du mot ou de lexpression, des traits ou catgories smantiques, un marqueur de domaine ou de registre, etc. titre dillustration, voici deux versions tiquetes dune rponse de Enfants :
je[sens=1] ne sais [sens=I.A.1] pas [sens=II.2], les [sens=I.1] gens [sens=I.A.1] sont [sens=II] gostes [sens=0] peut-tre [sens=1]. je ne[modalit=ngative] sais [modalit=pistmique] pas [modalit=ngative], les gens sont gostes peut-tre [modalit=potentielle].
Dans la premire version, chaque mot est associe une tiquette refltant le sens dans lequel il est employ : la distinction et la numrotation des sens est reprise du Petit Robert103. Dans ce cas, chaque mot est tiquet104. Dans la deuxime version, en revanche, il sagit dun tiquetage partiel, qui ne concerne que les marques de modalits et qui devrait permettre dobserver la rpartition de ces modalits dans lensemble du corpus. Comme au niveau syntaxique, ces tiquettes pourraient tre complexes et combiner plusieurs traits. Nous ne prenons ici en compte que le premier type dtiquetage qui associe un ou plusieurs sens un mot ou une unit textuelle. On parle dans ce cas de dsambigusation lexicale105 (word sense disambiguation). Il faut entendre ce terme dans un sens technique. Lobjectif est didentifier le sens dans lequel un mot est employ. Concrtement, il s'agit en fait dun numro de sens, ce sens tant choisi dans une liste finie de sens,
Dans ldition de 1973. La valeur 0 indique que le mot a un sens unique. Ne ne porte pas dtiquette smantique parce quil na pas un fonctionnement autonome. Il forme avec pas un seul et mme constituant discontinu. 105 Lorsque le contexte est clair, nous parlons plus simplement de dsambigusation.
103 104
75
laquelle est gnralement issue dune source de connaissances choisie comme rfrence (un dictionnaire, ici). La dsambigusation est dite totale ou complte si chaque mot est associ un sens et un seul. Cest le cas de lexemple donn ci-dessus. On parle en revanche de dsambigusation partielle si certains mots ne comporte pas dtiquette de sens ou sil en comporte plusieurs au contraire. Pour le verbe sais dans lexemple cidessus, on aurait pu ainsi viter de trancher entre diffrents sens trs proches et laisser deux tiquettes : sais [sens=I.A.1] [sens=I.B.1]. Le degr de la dsambigusation est une notion relative. Dun dictionnaire lautre les distinctions de sens ne se recouvrent pas : deux sens distingus dans lun peuvent tre confondus dans lautre.
18. UNE OPPOSITION FONDAMENTALE : CONSTRUCTION LEXICALE OU CONCEPTUELLE

Une premire distinction oppose les bases lexicales aux bases conceptuelles : les premires dcrivent des mots et les secondes des objets106 du monde tels que nous nous les reprsentons. Mettons cette opposition en vidence partir dun exemple. Le mot fauteuil et la notion ou le concept107 de fauteuil sont deux choses diffrentes. Le concept se dfinit traditionnellement soit par lensemble des chaises du monde rel auxquelles il renvoie, soit plutt par un ensemble des proprits108 : un fauteuil est ainsi un sige comportant gnralement quatre pieds, un dossier et des accoudoirs, un sige tant lui-mme un meuble fait pour sasseoir. Si le mot fauteuil se dfinit en partie comme le concept auquel il renvoie, il se dfinit aussi en opposition tout un ensemble de mots comme sige, chaise, tabouret, bergre, par les connotations de confort, daisance et dimportance quil vhicule ( arriver dans un fauteuil , fauteuil de prsident ), par ses emplois mtonymiques (le fauteuil de prsident dsignant souvent la fonction de prsident), etc. Dans la pratique, les bases lexicales et conceptuelles dessinent deux espaces diffrents. Leur structure est parfois similaire : la relation SORTEDE (IS-A, en anglais) de lIntelligence Artificielle et de ses rseaux smantiques est le pendant conceptuel de la relation dhyponymie entre les mots109. Lopposition est parfois difficile caractriser : on voudrait distinguer des catgories conceptuelles universelles ou du moins indpendantes de la langue mais force est de constater quun francophone et un anglophone sans parler des inuits ou des
106 Objet est ici entendre dans un sens large : il sagit aussi bien dobjets concrets que dentits abstraites ou dvnements. 107 Nous ne parlons pas ici de notion mais de concept. Ce terme est utilis en lIntelligence Articificelle pour dsigner limage mentale que nous nous faisons des entits du monde, sans prjuger de la nature de cette image ou de son rapport au monde rel . 108 On oppose ainsi les dfinitions extensionnelles et intentionnelles. 109 Cf. (Kleiber &Tamba, 1990).
76
PREMIERE PARTIE
mandchous ne se reprsentent pas le monde de la mme manire. Il reste que les bases lexicales et conceptuelles diffrent dans leur vise : les unes dcrivent le lexique ; les autres cherchent modliser le monde ou la reprsentation que nous nous en faisons. Les bases lexicales sont parfois utilises pour construire des catgories smantiques, et les bases conceptuelles pour dcrire les mots, mais dans chaque cas ce nest pas leur vise premire.
18.1 Bases de connaissances lexicales

La lexicographie cherche recenser les mots dune langue donne et les dcrire, dans leurs diffrents sens, leurs relations et leurs emplois. Cette description peut se prsenter sous diffrentes formes. De manire classique, nous distinguons les dictionnaires, les thesaurus, et les terminologies.
18.1.1 Dictionnaires
Les dictionnaires, quils se prsentent sous forme papier, sur support lectronique ou quils soient conus pour le support lectronique, quils soient spcialiss ou de langue gnrale, contiennent les mmes types dinformations smantiques. La figure 3.1 ci-dessous en donne un exemple, tir dun dictionnaire lectronique anglais110. Pour une langue donne, les dictionnaires recensent les mots et les expressions considres comme lexicalises et donnent pour chacun une liste de sens, organise en une arborescence de sens et de sous-sens. Chaque sens est dcrit par une combinaison dindications gnralement optionnelles : une dfinition, un trait de domaine, des indications concernant le niveau de langue ou la modernit du mot, une liste de synonymes ou de renvois analogiques, des antonymes, des expressions ou tournures dans lesquelles entre le mot vedette, des phrases ou citations comme exemples demploi, ou mme une ou plusieurs traductions possibles dans une autre langue111. La liste des sens pour un mot donn varie dun dictionnaire lautre, leur description aussi. On a souvent soulign le nombre des dfinitions circulaires o deux ou plusieurs mots se dfinissent les uns par les autres, ainsi que le manque de cohrence dans la forme mme des dfinitions ou lordre des indications. Il faut rappeler par ailleurs que les dictionnaires sont destins des locuteurs ayant dj une bonne matrise de la langue dont ils ne fournissent quune description parcellaire. Il sont donc a priori peu adapts aux traitements automatiques.
110
Nous donnons un exemple en anglais pour permettre la comparaison des informations donnes par les diffrentes ressources lexicales que nous voquons dans ce chapitre, certaines de ces ressources (WordNet, en particulier) ntant disponible que pour langlais. On pourra comparer cette entre avec celle dun dictionnaire franais traditionnel donne au chapitre VII, section 5. 111 Les dictionnaires bilingues entrent en effet dans cette liste.
77
Pourtant, diverses expriences ont pris les dictionnaires comme sources de connaissances pour tiqueter les sens de mots, cest--dire pour dsambiguser lexicalement les corpus. Il sagit alors dexploiter leurs distinctions de sens, chaque sens tant reprsent, selon les cas, par sa dfinition elle-mme et la liste des mots quelle contient (Vronis et Ide, 1990), par une mention de domaine (Guthrie et al., 1991), par les diffrentes traductions possibles dans une langue cible, etc. Aprs avoir dress un panorama des travaux de dsambigusation lexicale qui visent assigner un sens aux mots dun corpus, L. Guthrie et al. (1994, p. 87) reconnaissent que [p]our le moment, beaucoup de chercheurs ont trouv quun dictionnaire standard, avec ses distinctions de sens faites par des lexicographes professionnels, est la meilleure source de connaissances exploiter pour la dsambigusation. En effet, les dictionnaires ont le mrite de proposer une description fine et relativement homogne de lensemble des mots courants. Les dictionnaires les plus complets dcrivent les sens archaques et rares, peu utiles pour le traitement des textes tout-venant, mais les dictionnaires usuels donnent une bonne description de la langue courante, mme si certains sens drivs et mtaphoriques faciles restituer par un tre humain ne sont pas mentionns.
1credit
Pronunciation: 'kre-dit Function: noun Etymology: Middle French, from Old Italian credito, from Latin creditum something entrusted to another, loan, from neuter of creditus, past participle of credere to believe, entrust -- more at CREED Date: 1537 1 : reliance on the truth or reality of something <gave credit to everything he said> 2 a : the balance in a person's favor in an account b : an amount or sum placed at a person's disposal by a bank c : time given for payment for goods or services sold on trust <long-term credit> d (1) : an entry on the right-hand side of an account constituting an addition to a revenue, net worth, or liability account (2) : a deduction from an expense or asset account e : any one of or the sum of the items entered on the right-hand side of an account f : a deduction from an amount otherwise due 3 a : influence or power derived from enjoying the confidence of another or others b : good name : ESTEEM; also : financial or commercial trustworthiness 4 archaic : CREDIBILITY 5 : a source of honor <a credit to the school> 6 a : something that gains or adds to reputation or esteem : HONOR <took no credit for his kindly act> b : RECOGNITION, ACKNOWLEDGMENT <quite willing to accept undeserved credit> 7 : recognition by name of a person contributing to a performance (as a film or telecast) <the opening credits> 8 a : recognition by a school or college that a student has fulfilled a requirement leading to a degree b : CREDIT HOUR synonym see BELIEF, INFLUENCE
78
PREMIERE PARTIE Figure 3.1. Exemple dentre de dictionnaire : le nom credit112
18.1.2 Thesaurus
Les thesaurus constituent un deuxime type de base de connaissances lexicales113. Ils organisent la description des sens de mots de manire diffrente des dictionnaires de langue. Ces derniers proposent avant tout des dfinitions de mots alors que les thesaurus reposent sur une smantique plus spcifiquement relationnelle et servent mettre une ide en mots ou trouver le mot juste . Les thesaurus comporte gnralement deux voies daccs. Un accs par les mots : comme les dictionnaires, les thesaurus comportent des entres. Mais aussi un accs par les ides ou notions : les thesaurus regroupent les sens de mots en grandes catgories smantiques et sapparentent en cela aux ressources conceptuelles. Les figures 3.2 et 3.3 illustrent ces deux aspects. La figure 3.2 montre quun mot, avec ses diffrents sens rpertoris, se dfinit par la place quil occupe dans un vaste rseau de mots et de sens, cest--dire par les liens quils entretient avec dautres mots. Le thesaurus distingue quatre sens diffrents pour le nom credit, et pour chacun met lui associe des synonymes, des mots voisins, des antonymes et des mots opposs. Lexemple le montre, la dfinition quand elle est prsente ne sert qu faciliter lidentification du sens.
112
Cet exemple est emprunt au dictionnaire de Merriam-Webster dans sa version en ligne : WWWebster Dictionary, 1997, http://www.m-w.com/dictionary.htm (sept. 1997). La prsence de mots en majuscules indiquant des renvois constitue la seule particularit de ce dictionnaire lectronique : dans la version en ligne, il suffit de cliquer sur le mot CREED, pour en consulter lentre. 113 Soulignons la diffrence des traditions lexicographique anglophone et francophone cet gard : les anglo-saxons font grand usage de thesaurus mais cest un outil mconnu des francophones. linverse, ces derniers utilisent davantage les dictionnaires de langue.
79
credit Function: n Text: 1 Synonyms BELIEF 1, credence, faith Related Word confidence, reliance, trust 2 Synonyms INFLUENCE 1, authority, prestige, weight Related Word fame, renown, reputation, repute Contrasted Words disrepute, ignominy, obloquy, opprobrium Antonyms discredit 3 one that enhances another <he is a credit to his family> Synonyms asset Related Word honor 4 favorable notice or attention resulting from an action or achievement <took all the credit for the idea> Synonyms acknowledgment, recognition Related Word attention, notice; distinction, fame, honor; glory, kudos
Figure 3.2. Exemple dentre de thesaurus : le nom credit114
Les thesaurus fournissent en fait un matriau plus directement utilisable que les dictionnaires pour la dsambigusation lexicale. Ils donnent directement les associations de mots (synonymie, hyponymie, antonymies) que lon cherche extraire, par divers traitements, des dfinitions de dictionnaire. Ils relvent dune vision relationnelle de la smantique, proche de la conception distributionnelle qui sous-tend la plupart des travaux sur corpus (cf. chapitre VIII, section 5). La structuration en catgories smantiques est galement exploite pour lannotation de corpus. Dans le Rogets Thesaurus115, plus de 30 000 mots sont rparties dans 1 000 catgories smantiques (numrotes de #1 #1 000), elles-mmes organises en cinq hirarchies de faible profondeur (cinq niveaux au maximum) (cf. figure 3.3). On voit donc apparatre deux niveaux possibles de catgorisation : aux feuilles de la hirarchie des regroupements lexicaux ; dans la structure, une catgorisation conceptuelle. De fait, diverses expriences116 ont montr lintrt que prsentent les catgories smantiques dun thesaurus comme le Rogets pour la dsambigusation lexicale.
114 115
Cet exemple est emprunt au thesaurus de Merriam-Webster dans sa version en ligne : WWWebster Thesaurus, 1997, http://www.m-w.com/thesaurus.htm (sept. 1997). Il sagit du Rogets Thesaurus de 1911 dans sa version lectronique, actuellement disponible ladresse http://ecco.bsee.swin.edu.au/text/roget/headings.html. 116 Voir notamment (Grefenstette, 1996) ou (Yarowsky, 1992).
80
PREMIERE PARTIE
Class I : Words Expressing Abstract Relations SECTION I. EXISTENCE 1. BEING, IN THE ABSTRACT #1. Existence. #2. Inexistence. SECTION II. RELATION Class V : Words Relating to the Voluntary Powers DIVISION (1) INDIVIDUAL VOLITION SECTION I. VOLITION IN GENERAL 1. ACTS OF VOLITION #600. Will. #601. Necessity. Class VI : Words Relating to the Sentient and Moral Powers #998. Rite. #999. Canonicals. #1000. Temple.
Figure 3.3. Organisation gnrale des 1 000 catgories conceptuelles du Rogets Theasaurus
18.1.3 Terminologies
Les terminologies constituent un troisime type de ressources lexicales. Gnralement tablies pour des domaines spcialiss, elles sont peu adaptes la dsambigusation de vastes corpus. Outils traditionnels de la recherche documentaire (cf. chapitre IV, section 3), elles visent recenser les dnominations dun domaine (cf. chapitre II, section 3.4) et peuvent galement servir marquer les termes dans le cadre dun tiquetage partiel de corpus.
18.2 Bases de connaissances conceptuelles

Alors que les ressources lexicales structurent lespace des mots, les rseaux smantiques et ontologies, issus dune autre tradition aussi ancienne que la lexicographie117, refltent une conceptualisation du monde. Il sagit cette fois de recenser les catgories dobjets ou
117
Cette tradition, qui remonte la mtaphysique antique, a t largement revisite depuis une trentaine dannes par les recherches dans le domaine de lIntelligence Artificielle.
81
concepts du domaine considr et ventuellement de reprsenter leurs proprits ainsi que les relations quils entretiennent entre eux. Il en rsulte des hirarchies ou des rseaux de concepts. Les ontologies proposent un dcoupage du monde ou de la reprsentation que nous en avons en catgories, ces catgories tant organises en hirarchie par des liens SORTE-DE (IS-A). Lorsque sy ajoutent dautres types de relations (relations de causalit, dappartenance, etc.) on obtient non plus un arbre ou une hirarchie mais un graphe, un rseau smantique ou conceptuel dans la terminologie de lIntelligence Artificielle. Initialement cantonns des domaines trs spcialiss ou des exemples de taille limite, ces rseaux servaient surtout valider une approche, un formalisme ou une thorie. La dcennie prsente voit cependant apparatre des bases de connaissances conceptuelles de grande ampleur. Le projet Cyc est exemplaire cet gard (Guha et Lenat, 1990). Commence il y a plus de 10 ans, lontologie, pice centrale de cette base de connaissances contient aujourdhui des dizaines de milliers de nuds ou concepts. Pour ses concepteurs, le haut de cette hirarchie qui comporte plus de 3 000 concepts est form de catgories universelles.
18.3 Une opposition relle mais floue

Les ressources conceptuelles ont lavantage de saffranchir du niveau de structuration proprement lexical qui regroupe les diffrents sens dun mot polysmique et qui reprsente les synonymes par des units distinctes mme si elles sont smantiquement lies. Le mode de structuration conceptuel est plus proche du sens des mots que des mots eux-mmes et donc mieux adapt lobjectif de la dsambigusation lexicale. linverse, quand il sagit dtiqueter un corpus, on a affaire des mots. tablir le lien entre un concept ou une primitive ontologique et ses ralisations linguistiques, lensemble des mots qui y renvoient, ne va pas de soi. Lexprience de modlisation du projet Menelas (Zweigenbaum, 1994) a mis en vidence la ncessit de construire un lexique smantique, interface entre une ontologie, objet conceptuel, et le texte, pour faire le lien entre le concept et le mot. De la mme manire, les concepteurs de lontologie Cyc prvoient une interface linguistique. Lopposition est cependant loin dtre nette. Les thesaurus, on la vu, sont des objets hybrides et les noms des classes suprieures de la hirarchie du Rogets thesaurus : words expressing (mots exprimants) soulignent lambivalence conceptuelle et lexicale de cette hirarchie. De fait, les mots ne sorganisent pas facilement en une hirarchie bien structure : le niveau suprieur, qui est abstrait et qui recouvre des grandes notions peu reprsentes dans le lexique, est gnralement structur in abstracto avec parfois de nouveaux concepts ou termes crs pour les besoins de la structuration. linverse, en dpit de lambition parfois affiche, il parat illusoire de croire luniversalit de lontologie rsultante et de penser quune
82
PREMIERE PARTIE
conceptualisation du monde puisse tre indpendante de la langue de son concepteur. Concrtement, cette dpendance est en particulier marque dans le fait que les nuds et les relations dun tel rseau conceptuel portent des tiquettes empruntes au langage naturel, ce qui conditionne et biaise linterprtation.
19. UNE GRANDE DIVERSITE DE RESSOURCES LEXICALES

Au-del de cette distinction entre ressources lexicales et ressources conceptuelles, diffrents paramtres sont prendre en compte dans le choix dune base de connaissances pour un projet donn.
19.1 Des distinctions de sens plus ou moins fines

Les bases lexicales fournissent gnralement des distinctions de sens fines. Le Petit Robert118 liste douze sens pour le nom cours, rpartis en 6 sens principaux. Le Websters Collegiate Dictionary119 distingue trois entres pour le nom bank et au total seize sens diffrents. WordNet ou le Rogets thesaurus distinguent respectivement 8 et 20 acceptions pour le mot credit. On peut rechercher au contraire des distinctions de sens plus grossires, ce qui rduit le nombre de sens et donc la polysmie des mots. Les dictionnaires tablissent des distinctions homographiques 120 (Guthrie et al., 1994), reprsentes soit par des entres distinctes, soit par les premires divisions de sens. Ainsi, pour langlais bank, on peut diffrencier ltablissement bancaire et la berge, pour le franais cours, on peut distinguer les sens de coulement et de enseignement, sans pour autant prendre en compte toute la diversit des sens donns par les dictionnaires. Les dictionnaires donnent par ailleurs des distinctions de domaine (mdecine, lgislation, technique) qui sont elles aussi exploitables dans la perspective de la dsambigusation lexicale (Guthrie et al., 1991). Ces distinctions grossires peuvent galement tre obtenues partir de thesaurus. Il faut alors tirer parti du haut de la hirarchie des sens. Ces bases lexicales sont gnralement structures comme un ensemble de hirarchies distinctes, chacune tant domine par une catgorie smantique gnrale. Pour un mot, on peut ainsi distinguer des grandes familles de sens sur la base de lappartenance des sens lune ou lautre
118 119 120
Dans ldition de 1972. Dans la 9e dition. Il sagit plutt de grandes familles de sens que de vrais homographes, ces sens pouvant tre drivs les uns des autres.
83
de ces hirarchies. Cest lapproche de R. Basili et al. (1997, p. 248) qui ne retiennent, pour travailler sur les verbes, que 15 grandes catgories de WordNet (perception, motion, cration, changement) et ignorent les distinctions plus fines internes chaque catgorie. Le verbe anglais record ou son quivalent franais enregistrer admettent ainsi en langue gnrale, trois sens reprsents par les catgories de la cognition, de la communication et de la perception. E. Agirre et G. Rigau (1996) exploitent de la mme manire les 25 grandes catgories de noms de WordNet pour tablir des grandes oppositions de sens. Dans (Bouaud et al., 1997), une catgorisation gros grain est labore de la mme manire partir dune nomenclature mdicale dans la perspective dun tiquetage smantique de Menelas. Si ces sources permettent de dcrire des distinctions de sens fines ou grossires, il est gnralement plus difficile dtablir des distinctions intermdiaires. Les distinctions et hirarchies de sens des dictionnaires ou thesaurus ne refltent pas une description homogne dans sa granularit. De fait, dans WordNet, certains liens hyponymiques refltent une proximit smantique beaucoup plus grande que dautres : [on trouve] des liens qui semblent reprsenter, pour certains, une courte distance (RABBIT-EARS IS-A TELEVISION-ANTENNA) et pour dautres, une longue distance (PHYTOPLANKTON IS-A LIVING-THING) 121 (Resnik, 1995a).
19.2 Des ressources gnrales ou spcialises

Il faut galement distinguer les sources qui permettent de dcrire la langue gnrale et celles qui rendent compte dune langue spcialise122. Les bases lexicales gnrales sont peu adaptes au traitement de corpus spcialiss : nous avons montr que les sens de mots proposs par la plupart des dictionnaires lectroniques accessibles en ligne ne permettent souvent pas dexprimer les sens de mots dans un contexte spcifique. Certains emplois spcifiques (i.e., techniques ou simplement jargonnants) sont souvent absents des sources vise gnrale (comme WordNet ou le Longman Dictionary of Contemporary English) []. Ces sources sont donc trop peu spcifiques (en ce qui concerne le langage du domaine) et trop gnrales (parce quelles donnent une vue vague de la langue, indpendante de toute application). (Basili et al., 1997, p. 237) Trop peu spcifiques dans la mesure o certains mots et certains sens de mots spcialiss ne sont pas reprsents. Trop gnrales car elles dcrivent la diversit des sens de la langue gnrale alors que la polysmie est souvent rduite dans les textes produits dans des domaines spcialiss. Malheureusement, les sources spcialises font souvent dfaut et
121
les antennes de tlvision en forme de V . 122 Bien que des projets pour la construction dontologies gnrales existent (comme le projet Cyc mentionn ci-dessus), aucune exprience, notre connaissance, na t faite pour utiliser ces ontologies pour le traitement de corpus.
Soit, littralement : OREILLE-DE-LAPIN SORTE-DE ANTENNE-DE-TELEVISION et PHYTOPLANCTON SORTE-DE ETRE-VIVANT. En anglais, on appelle rabbit ear (oreille de lapin)
84
PREMIERE PARTIE
celles qui existent ne peuvent pas tre rutilises dans une perspective diffrente de celle pour laquelle elles ont t conues initialement. Lexprience de (Charlet et al., 1996) est instructive cet gard. Travaillant dans le domaine mdical o les expriences de ce type sont anciennes, ces auteurs ont cherch, pour modliser le domaine des maladies coronariennes, rutiliser une base de connaissances prexistante, Unified Medical Language System (UMLS, (Humphrey et Lindberg, 1989)), prcisment conue comme un rseau smantique unifi pouvant tre utilis dans diffrentes perspectives. Cette tentative sest solde par un chec et les deux principales raisons invoques ne sont en rien spcifiques cette exprience. La premire concerne la couverture du domaine. Mme si UMLS est une base de connaissances spcialise, les auteurs font un constat similaire celui que fait R. Basili pour les ressources lexicales gnrales : ils ont du enrichir certaines parties de la hirarchie. La seconde est plus fondamentale : lontologie dun domaine dpend dun point de vue sur ce domaine et de la tche qui est vise et de la tche pour laquelle elle a t conue ; elle nest donc rutilisable que dans la mesure o la tche demeure la mme, ce qui est rare123. Les ressources lexicales font donc particulirement dfaut lorsquon se propose de traiter des corpus spcialiss. Deux autres pistes sont explores. La premire consiste spcialiser une source lexicale gnrale pour lajuster un domaine de spcialit. R. Basili et ses collgues tentent ainsi dadapter la taxonomie des verbes de WordNet divers domaines spcialiss en se fondant sur linformation contextuelle apporte par un corpus reprsentatif du domaine considr. Ils distinguent les sens de verbes selon leur appartenance aux 15 grandes catgories smantiques de WordNet (changement, cognition, communication, contact, motion). Il sagit de slectionner, parmi les diffrents sens associs un verbe donn, ceux qui sont pertinents dans le domaine et dajouter les sens spcialiss qui ne seraient pas reprsents dans le rseau initial124. La seconde piste vise constituer les ressources lexicales dont on a besoin. Cette construction peut tre manuelle mais cela limite considrablement la finesse de la description. R. Basili et al. (1993a) dcrivent une exprience de ce type : ils utilisent une quinzaine de catgories trs gnrales (action, artefact, lieu, matire) pour tiqueter des textes spcialiss. Elle peut galement tre automatique. Il sagit alors dacqurir des connaissances lexicales spcialises partir des corpus du domaine : de nombreux travaux se situent dans cette optique, nous y revenons au chapitre IV.
123 [L]orsque les connaissances ont des dpendances par rapport la tche qui sont parfaitement connues et constantes, on peut faire des ontologies rutilisables ; pour Menelas cest le cas des mdicaments (et cest le seul) : la description du Vidal (dictionnaire des mdicaments) fournit toute les connaissances ncessaires pour prendre en compte tous les usages que lon peut faire dune ontologie des mdicaments dans un cadre thrapeutique, et cest ce cadre qui est sous-tendu par la plupart des applications mdicales qui ont besoin dune ontologie des mdicaments. (Charlet et al., 1996). 124 Leur dmarche consiste identifier pour chaque catgorie smantique un noyau de verbes reprsentatifs et reprer les contextes dans lesquels ces verbes figurent pour construire une description distributionnelle de chaque catgorie, puis assigner un ou plusieurs sens un verbe en comparant sa distribution avec celles des classes smantiques.
85
19.3 Des sources plus ou moins informatises

Les ressources utilisables se distinguent enfin par la forme sous laquelle elles se prsentent. Entre les dictionnaires ou terminologies classiques sur support papier et un rseau smantique dot dune interface volue comme WordNet, il y a divers degrs dinformatisation. Il va de soi quune ressource informatise permet des traitements plus divers et moindres cots.
19.3.1 Dictionnaires et thesaurus sur support lectronique

Les bases lexicales sur support lectronique, les dictionnaires notamment (machine-readable dictionaries), se situent un premier niveau. On dsigne ainsi les versions lectroniques des dictionnaires, thesaurus, terminologies et autres bases de connaissances disponibles qui ont t saisies ou scannes. Par rapport la version relie , seul le support change : les donnes sont identiques. Pourtant ce premier niveau dinformatisation permet dj de nouveaux modes dexploration. Dans un dictionnaire qui se prsente sous la forme dun livre, on ne peut gure rechercher les mots quau hasard ou par ordre alphabtique. Cest l la limite des dictionnaires traditionnels pour G. Miller, le pre de WordNet (1993). Considrant un exemple de dfinition hyperonymique de arbre (tree) pris au sens de plante, il regrette quelle soit terriblement incomplte : le sens dans lequel lhyperonyme plante doit tre entendu nest pas spcifi, on ne sait pas sil existe dautres plantes qui ne soient pas des arbres, on ne peut pas retrouver facilement les diffrentes sortes darbres. Ds lors que le texte est sur support lectronique, on peut facilement passer dune entre lautre ; par des algorithmes sur les chanes de caractres, on peut trouver les mots ayant une terminaison commune, rechercher tous les mots dont les dfinitions contiennent un mot donn, etc. Cela permet de saffranchir partiellement des limites des dfinitions mentionnes par G. Miller : on peut reconstituer une partie de linformation manquante dans lentre de arbre en recherchant les entres qui comportent les mots arbre ou plante dans leurs dfinitions.
19.3.2 Ressources lectroniques

Dans les ressources qui ne constituent que les versions lectroniques de dictionnaires traditionnels, cependant, linformation vhicule par la typographie et la mise en page peut tre difficile exploiter, quand elle nest pas purement et simplement perdue. Or elle est importante pour lutilisateur : elle indique le statut des informations et guide linterprtation de lutilisateur. Pour prserver cette information et la rendre exploitable, il faut donc lencoder. Nous revenons au chapitre VII sur les principes dun tel encodage. Limportant ici est de distinguer les ressources sur support
86
PREMIERE PARTIE
lectronique et les ressources lectroniques en tant que telles, dont le codage est conu pour faciliter laccs par des traitements automatiques, pour expliciter le statut des informations donnes et donc en fournir les rgles dinterprtation.
19.3.3 Ressources informatises

La mise sur support informatique des ressources lexicales ouvre la voie des nouveauts plus radicales. Saffranchir du support papier, cest dabord saffranchir de lordre linaire. La structuration du dictionnaire en entres distinctes, la numrotation des sens et les diverses marques typographiques taient des premiers pas pour chapper cette contrainte et donner un accs direct certaines donnes. Pour autant, il ntait pas possible de consulter en parallle plusieurs entres dun dictionnaire, de reprer des symtries, des paralllismes et plus gnralement la structure sousjacente un ensemble de mots sans un long parcours de renvois en renvois et un patient travail de reconstitution. De la mme manire, pour se faire une ide gnrale de la hirarchie dun thesaurus, il est important de pouvoir varier le niveau de description125, une approche dynamique que ne permettait pas le support papier. Loutil informatique permet dsormais de structurer les ressources lexicales sur dautres bases et la multiplication des liens entre les diffrents lments dinformation autorise de nouveaux modes de consultation. WordNet en est un exemple intressant (cf. section 4)126. En consquence, les dictionnaires lectroniques permettent de gagner en cohrence. Prenons pour seul exemple le travail effectu sur le franais par I. Warnesson (1985) pour constituer, partir de diffrentes sources traditionnelles, un nouveau dictionnaire des synonymes reposant sur une dfinition formelle de la synonymie comme relation dquivalence127. La cohrence dun tel dictionnaire en faciliter lexploitation. Dans ce domaine de la lexicographie, linformatique a dj induit de profonds bouleversements, avec notamment de nouveaux modes de navigation et de nouvelles possibilits dexploration, mais il reste probablement inventer de nouvelles formes de dictionnaires. On peut penser en particulier des bases de connaissances intgres et dynamiques, aux degrs de granularit et de spcialisation variables, qui puisse tre reconfigures en fonction des besoins et des parcours de lutilisateur et offrir ainsi diffrents points de vue lutilisateur. Reprenons lexemple de credit. Cest un mot polysmique, riche en connotations et son entre dictionnairique est trop riche pour tre facile exploiter. Si
Soit en faisant un zoom pour concentrer son attention sur une zone donne soit au contraire en faisant abstraction dun certain niveau de dtail pour dgager une vue densemble. 126 En termes de couverture, les objectifs de WordNet diffrent peu de ceux dun bon dictionnaire standard de langue. Cest dans lorganisation de cette information que WordNet prtend innover. (Miller et al., 1993, p. 1). 127 Qui respecte les proprits de symtrie, de transitivit et de rflexivit.
125
87
lutilisateur sintresse au domaine conomique et financier, la plupart des sens deviennent immdiatement caduques tandis que les dtails du deuxime sens prennent de limportance. On devrait ainsi pouvoir considrer une base de connaissances sous diffrents points de vue.
20. UN EXEMPLE DE RESEAU LEXICAL : WORDNET

Nous prsentons ici lexemple de WordNet, un thesaurus lectronique. Deux raisons prsident au choix de cette base lexicale. Cest probablement la base de connaissances gnrales la plus utilise : elle a servi mettre au point ou tester de nombreuses expriences depuis le dbut des annes 1990. Par ailleurs, WordNet est un exemple dune base lexicale conue et pense pour le support lectronique.
20.1 Un projet ambitieux

Depuis 1985, un groupe de psycholinguistes et de linguistes de luniversit de Princeton a dvelopp une base de donnes lexicale selon des principes suggrs par des expriences et des recherches en psycholinguistique sur lorganisation de la mmoire humaine. Depuis cette date, ce projet a pris de lampleur ; il se poursuit encore de nos jours. Le rseau WordNet disponible aujourdhui est la version 1.5. Il peut soit tre consult en ligne soit tre import128.
20.1.1 Reprsenter les sens de mots

Lobjectif de WordNet est de dcrire comment les sens de mots ou concepts129 et non les mots eux-mmes sorganisent les uns par rapport aux autres. En ce sens, WordNet ressemble davantage un thesaurus qu un dictionnaire. La thorie sous-jacente est une thorie diffrentielle130 : un sens se dfinit par la place quil occupe dans le rseau, par les relations de proximit ou de contraste quil entretient avec les sens voisins. Partant de ce principe, un sens est reprsent par un ensemble de synonymes : Les ensembles de synonymes (synsets) nexpliquent pas ce que sont les concepts ; ils en posent lexistence. On suppose que les locuteurs anglais ont dj acquis ces concepts et sont en mesure de les reconnatre partir des mots lists dans le synset. (Miller
128
WordNet est disponible par ftp anonyme depuis ftp.cogsci.princeton.edu ou ftp.ims.uni-stuttgart.de (sept. 1997). Il existe en diffrentes versions pour Unix, PC Windows et Macintosh. 129 La terminologie de WordNet identifie le sens dun mot au concept sous-jacent. 130 Ceci soppose aux approches constructivistes qui tendent dfinir un sens en le dcomposant en primitives de significations.
88
PREMIERE PARTIE
et al., 1993, p. 5-6). Considrons lexemple du mot credit pour lequel huit sens sont identifis dans WordNet131. En voici trois:
1. credit (money available for a client to borrow) 2. recognition, credit (approval ; give her recognition for trying ; he was given credit for his work ; it is to her credit that she tried ) 3. credit, deferred payment (arrangement for deferred payment for goods and services)
chaque sens sont associs des synonymes, dans la mesure o il en existe. Parler du deuxime sens de credit ou du synset {recognition, credit} revient au mme. Les dfinitions ou exemples (nots entre parenthses) qui sont souvent associs aux concepts dans certains cas ont un rle purement documentaire. Dans WordNet, la synonymie est contextuelle : deux expressions sont synonymes dans un contexte linguistique C si la substitution de lune par lautre dans C ne modifie pas la valeur de vrit. Par exemple, le fait de substituer plank board modifie rarement la valeur de vrit dans des contextes lis la charpenterie, mais cette substitution serait totalement inapproprie dans dautres contextes de board132. (ibid., p. 6).
20.1.2 Mettre les sens en rseau

Si le synset (ensemble de synonymes, dans la terminologie de WordNet) sert didentifiant pour un sens, la liste des mots qui le composent ne donne quune vue trs partielle du concept sous-jacent. Les liens que ce synset entretient avec dautres synsets la compltent. WordNet est conu comme un rseau lexical. Les synsets en sont les nuds. Ils sont relis entre eux par des relations dhyponymie, dantonymie, de mronymie133, dimplication ou de drivation morphologique134. La figure ci-dessous montre de manire simplifie135 comment le premier sens de credit (crdit) se situe par rapport aux synsets voisins : cest un hyponyme de asset (avoir), un hyperonyme lointain136 de credit-card (carte de crdit), un antonyme de cash (argent comptant). Les relations qui structurent WordNet nont pas toutes le mme statut.
WordNet nexistant pas ce jour pour le franais, tous les exemples sont emprunts langlais. Les diffrents sens de credit distingus ici se retrouvent approximativement pour le nom franais crdit : argent mis disposition dautrui (1), mrite (2), paiement diffr (3). 132 Plank et board sont synonymes dans le sens de grosse planche, mais board admet beaucoup dautres sens : tableau, cartonnage, comit (NDA). 133 Relation de partie tout. (Cf. section 4.2.1.). 134 Nous mettons laccent sur les aspects smantiques et nous ne considrons pas ici les liens de morphologie flexionnelle. 135 Nest reproduite ici quune portion du sous-rseau concern. Pour ne pas surcharger la figure, un synset est reprsent par un mot cl, emprunt la liste des mots qui le dfinit et not en petites majuscules. 136 La chane dhyponymies complte est la suivante (les synsets et la relation dhyponymie sont respectivement nots entre accolades et par le signe < ) : {credit card, charge card, charge plate, bank card} < {open-end credit, revolving credit, charge account credit} < {consumer credit} > {credit line, line of credit, bank line, line, personal credit, personal line of credit} > {credit}.
131
89
La synonymie joue un rle central dans la mesure o elle est interne aux nuds et constitutive des synsets. Elle soppose toutes les autres relations, qui relient les mots les uns aux autres. Cela revient distinguer deux niveaux de relations : les relations lexicales137 qui relient respectivement entre eux les mots et les relations smantiques qui relient entre eux les sens de mots, cest--dire les synsets ou concepts. Par ailleurs, les relations dhyponymie et de mronymie se distinguent des autres parce quelles construisent une hirarchie entre les nuds quelles relient. Ces liens hirarchiques dterminent des possibilits dhritage au sens o les nuds hritent certaines proprits des nuds qui les dominent. Dans lexemple ci-dessus, si le nud COIN porte une proprit hritable (le fait dtre compos de mtal, par exemple, qui pourrait tre reprsent par un lien mronymique de matire entre les nuds METAL et COIN), les nuds NICKEL et DIME, hritent cette proprit de leur hyperonyme.
20.1.3 Quelques chiffres

La taille du vocabulaire couvert suffit donner la mesure de lambition qui a prsid la construction de ce rseau. WordNet comporte138 95 600 units lexicales diffrentes : 51 500 mots simples et 44 100 expressions (collocations). ces mots sont associs quelques 70 100 sens diffrents. Le tableau 3.1 montre comment ces units et sens se rpartissent.
Tableau 3.1
Nombre dunits lexicales Nombre de sens Nombre de catgories gnrales
Noms 57 000 48 800 25
Verbes Adjectifs 21 000 19 500 8 400 10 000 14
137 138
Nous reprenons ici la terminologie de WordNet. Les chiffres que nous citons sont ceux que donnent (Miller et al., 1993). Ce sont des approximations, ce qui explique linexactitude des totaux. WordNet continue de crotre.
90
ASSET MEDIUM-OF-CHANGE CURRENCY METAL MONEY COIN NICKEL DIME CASH
PREMIERE PARTIE
CREDIT CREDIT-LINE CONSUMER-CREDIT OPEN-END-CREDIT CREDIT-CARD
lien hyperonymique lien antonymique
Figure 3.4. Exemple de sous-hirarchie de WordNet.
20.2 Une structure riche et diffrencie

WordNet dcompose le lexique en cinq catgories : noms, verbes, adjectives, adverbes et mots fonctionnels139. Chacune de ces catgories a sa propre structure interne. Ce sont des expriences sur les associations de mots qui ont mis en vidence lorigine que lorganisation [] varie dune catgorie syntaxique lautre. (ibid.).
20.2.1 Des hirarchies de noms

Lensemble des noms, qui comporte des formes simples et des mots composs mais pas de noms propres, est organis autour de la relation dhyponymie qui se dfinit comme suit : on dit quun concept reprsent par le synset {x, x,} est lhyponyme du concept reprsent par le synset {y, y,} si les locuteurs dont langlais est la langue maternelle acceptent les phrases du type Un x est une sorte de y. (ibid., p. 8) Miller (1993, p. 17) donne un exemple de chane hyponymique :
televangelist < evangelist< preacher < clergyman < spiritual leader < person140
La structure induite est en fait un ensemble de 25 hirarchies domines

Cette dernire catgorie nest toutefois pas intgre WordNet (NDA). Dans x < y, le mot x est donn comme lhyponyme du mot y. On aurait pour le franais la squence suivante : tl-vangliste < vangliste < prdicateur < ecclsiastique < chef spirituel < personne.
139 140
91
par des catgories smantiques gnrales (unique beginner) : person dans lexemple ci-desus ; possession, hyperonyme direct de asset, pour la sous-hirarchie reprsente par la figure 3.1. Au sein dune hirarchie, la hauteur est variable : selon les zones du lexique concernes, les synsets les plus bas se situent 3, 10, parfois mme 12 niveaux dcart du sommet. De fait, si le vocabulaire technique se prte souvent bien ce type dorganisation141, il est plus difficile de dfinir des chanes hyponymiques entre les mots de la langue courante (Kleiber et Tamba, 1990) : dans lexemple ci-dessus, on peut se demander si tous les prdicateurs (preacher) sont effectivement des ecclsiastiques (clergyman). Il faut souligner que les liens hyponymiques dune taxonomie lexicale ne reprsentent pas une distance uniforme. Dans la pratique, on peut donc distinguer des grandes catgories gnrales qui forment le sommet des diffrentes hirarchies ou la totalit des synsets. Il est difficile dtablir des distinctions intermdiaires. G. Miller (1993, p. 17) considre quil existe un niveau fondamental (basic level) qui permettrait de dfinir des catgories gnriques ou fondamentales : situ quelque part entre le sommet et la base de la hirarchie, cest le niveau qui est le plus riche en relations. Dans la pratique ce niveau fondamental nest pas clairement identifiable. Cette structure hirarchique peut tre parcourue de haut en bas ou de bas en haut. partir dun sens donn, on peut ainsi retrouver ses anctres (hyperonymes directs et indirects), ses descendants (hyponymes directs ou indirects) mais aussi ses frres (coordinates). Outre leur place dans cette structure hirarchique, les sens des noms se dfinissent par des proprits : leurs attributs, leur composition et leurs fonctions. La composition est dcrite par diffrents types de relations mronymiques dans WordNet : les relations de composant objet compos (branche / arbre), dlment ensemble (arbre / fort) et de matire (arbre / bois). En revanche, les attributs (un arbre peut tre grand, vieux) et les fonctions (une hache sert couper) ne sont pas reprsents dans WordNet. Ce sont en effet des relations transcatgorielles qui devraient terme relier les hirarchies de noms aux rseaux des adjectifs ou des verbes.
20.2.2 Des classes dadjectifs

Les synsets dadjectifs comprennent essentiellement des adjectifs qualificatifs142, mme si des noms ou locutions prpositionnelles utilises comme modifieurs y figurent galement. Ces adjectifs ne sorganisent pas comme les noms. Pour les adjectifs, il nexiste pas de relation hirarchique
141
Cest particulirement vrai de la botanique ou de la zoologie, domaines o la connaissance est traditionnellement organise selon les catgories de lespce, du genre, du taxon 142 WordNet distingue les adjectifs qualificatifs des adjectifs relationnels. On a vu au chapitre 1, lintrt de ce types de distinction pour le traitement de Enfants. Les adjectifs relationnels sont considrs comme des variantes stylistiques de noms : ils se dfinissent par rapport ces noms auxquels ils sont lis. Nous mettons ici laccent sur les seuls adjectifs qualificatifs.
92
PREMIERE PARTIE
comme lhyponymie. La relation fondamentale structurant lespace des adjectifs est lantonymie. Cette relation symtrique, mise en vidence par des tests psycholinguistiques sur les associations de mots, est difficile formaliser. Les auteurs retiennent lide que les adjectifs antonymes expriment deux valeurs opposes dun mme attribut. Partant cependant du constat que certains adjectifs proches par le sens (heavy et weighty143, par exemple) ont des antonymes diffrents (light et weigthless144) et que beaucoup dadjectifs qualificatifs (ponderous145) nont pas dantonymes directs, la structure retenue est celle de classes dadjectifs similaires entre eux, ces classes tant organises autour dadjectifs ples qui peuvent sopposer dautres ples par des liens dantonymie. heavy et light sont donc considrs comme antonymes, mais ponderous, qui est similaire heavy et qui na pas dantonyme direct nest quun antonyme indirect de light.
20.2.3 Des rseaux de verbes

Comme les noms et les adjectifs, les verbes sont regroups en synsets. Ceux-ci comportent des formes simples mais aussi des tournures verbales, comme look up, qui sont trs frquentes en anglais. Les synsets se rpartissent eux-mmes en 15 catgories gnrales (14 pour les actions et vnements ; 1 pour les tats). La relation centrale pour le rseau des verbes nest ni lhyponymie, ni lantonymie, mais limplication. WordNet en distingue quatre types : la cause (give / have : donner / avoir), la prsupposition (succeed / try : russir / essayer ou untie / tie : dnouer / nouer), linclusion (snore / sleep : ronfler / dormir ou buy / pay : acheter / payer) et la troponymie146 (limp / walk, boiter / marcher). Soulignant toutefois la complexit de la smantique des verbes et la difficult de dfinir une smantique proprement diffrentielle, les auteurs de WordNet reconnaissent la moindre maturit du rseau des verbes. Dans la pratique, les travaux qui exploitent ce rseau des verbes des fins de dsambigusation lexicale sen tiennent souvent aux grandes catgories smantiques (Basili et al., 1997).
21. TABLER SUR LEXISTANT

Les ressources lexicales existantes ont chacune leurs faiblesses. Ds lors quelles visent une couverture un peu large du lexique, elles reposent sur
143 144 145 146
lourd et pesant, respectivement. lger et de peu de poids. massif, pesant. Un verbe x est un troponyme dun verbe y si on peut dire que x, cest y dune certaine manire.
93
des approximations. Dans WordNet, les sens reprsents par les synsets sont souvent difficiles matriser pour qui nest pas lexicographe professionnel et ils comportent une part importante darbitraire. Cest le cas pour tous les dictionnaires. Les catgories smantiques trs gnrales, linverse, sont souvent peu contestables car peu discriminantes. La hirarchie des noms, la partie la plus stable du rseau, repose sur des chanes dhyponymie qui pour la langue gnrale sont le plus souvent approximatives. La structuration des rseaux des adjectifs ou des verbes parat moins solide. Pourtant, lapparition de ressources lexicales de taille importante, aussi imparfaites soient-elles, a donn le coup denvoi des travaux de smantique partir de corpus. Ce sont des dictionnaires sur support informatique ou des thesaurus lectroniques comme WordNet qui ont permis de mettre au point de nouvelles mthodes de dsambigusation automatique (cf. IV-3). Et cest lutilisation mme de ces ressources qui permettra den amliorer la conception. La lexicographie lectronique proprement parler nen est encore qu ses dbuts : de nouveaux moyens de stockage et dinvestigations induisent de nouvelles structures et organisations de donnes, lesquelles donnent voir de nouveaux phnomnes. Ceci nous amne souligner avec inquitude labsence de ressources similaires pour le franais147. Si la recherche sur les corpus en franais peut sans doute tirer profit de lexprience anglo-saxonne pour viter certains ttonnements, des problmes spcifiques se posent pour chaque langue, qui imposent certains ajustements, voire la mise au point de mthodes particulires ou le dveloppement doutils spcifiques. Labsence de ressources lexicales informatise pour le franais est dj un frein pour tous les traitements smantiques. Faute de moyens, la plupart des travaux franais sintressent lacquisition de connaissances partir de corpus (cf. chapitre VIII, section 5).
147
EuroWordnet, un projet de construction dun WordNet multilingue a t lanc en mars 1996 (Vossen, 1996). Il concerne initialement lallemand, litalien et lespagnol. La France accuse un certain retard.
DEUXIEME PARTIE
DIMENSIONS TRANSVERSALES
Dune langue lautre
95
CHAPITRE IV
DES MOTS AUX SENS : SEMANTIQUE EN CORPUS
22. DEFINITIONS ET ENJEUX

Les travaux sur corpus dans le domaine smantique foisonnent. Dune exprience lautre, lobjectif est toujours daccder au sens que vhicule le corpus mais ces travaux, pour la plupart assez ponctuels, ont des vises extrmement varies et sappuient sur des mthodes fort diffrentes. Le prsent chapitre cherche faire apparatre la fois lunit et les contrastes dun domaine aujourdhui trs productif. Les travaux sinscrivent en fait dans des perspectives trs diffrentes : nous en dressons une typologie schmatique ci-aprs. Nous dcrivons ensuite deux exemples dapplications reprsentatives des travaux de smantique sur corpus. En 2, nous nous appuyons sur les travaux de G. Grefenstette pour montrer le parti que la lexicographie spcialise peut tirer de lexploitation systmatique de corpus enrichis. La partie 3, plus prospective, met laccent sur la recherche documentaire et sur lapport des techniques de dsambigusation lexicale dans ce contexte. Nous terminons, en 4, en montrant que ces deux expriences, qui sopposent par leurs mthodes, relvent en fait dune mme dmarche empirique.
22.1 Un objectif commun : accder au sens

Des corpus porteurs dannotations smantiques commencent voir le
96
DEUXIEME PARTIE
jour, mais on nen est cependant quaux balbutiements, que ce soit pour la constitution de ces corpus ou pour leur exploitation. Pourtant cela transparat dans les exemples des chapitres I et II les proccupations smantiques occupent une place importante dans lexploitation des corpus, que lon cherche identifier la terminologie dun domaine technique, traduire des expressions figes, reprer les thmes abords par diffrentes catgories de rpondants une enqute dopinion, le genre des textes, etc. Si de nombreuses tudes portent sur la facture mme des corpus et la langue employe, le texte demeure un message porteur dinformation et lon ne cesse dinterroger les corpus sur le sens quils vhiculent. Le prsent chapitre met laccent sur lexploitation smantique des corpus, laquelle peut porter aussi bien sur des corpus nus que sur des corpus tiquets et arbors. Sur les deux exemples de laide la lexicographie et de la recherche dinformation, il tente de montrer dans quelle mesure et quelles fins on peut accder au sens vhicul par les phrases ou les textes dun corpus.
22.2 Des applications varies

Lanalyse smantique intresse des domaines et des publics extrmement divers. On peut identifier trois principaux types dapplications : lanalyse de contenu, lacquisition de connaissances et la recherche documentaire.
22.2.1 Analyse de contenu

Lanalyse smantique vise tout dabord rendre compte du contenu des corpus, sinscrivant en cela dans une longue tradition la fois littraire, stylistique, historique et sociologique. Que lobjectif soit de rendre compte des proprits esthtiques, de retracer une volution historique ou de dcrire un moment de lhistoire, de caractriser les discours de certaines catgories de population, il sagit dexplorer le contenu des corpus en tant que tel pour en reprer la fois les thmes dominants et leur agencement. Les tudes thmatiques sintressent principalement au lexique. On a ainsi montr comment volue dans la recherche du temps perdu le champ smantique du temps, lequel devient de plus en plus prsent et de plus en plus sombre au fur et mesure que lon avance dans luvre (Brunet, 1983), comment se transforment les ides rvolutionnaires dans le discours de Roselire, quelles sont les proccupations que mettent principalement en avant les jeunes dans les enqutes dopinion (Lebart et Salem, 1994). Au del de la seule tude du vocabulaire, lambition de M. Pcheux avec lanalyse du discours est de mettre en vidence, sous la diversit des formes rhtoriques de surface, les phrases lmentaires ou de
Dune langue lautre
97
base dun discours. Il sagit par exemple pour Pcheux et ses collgues de mettre en vidence lambigut idologique du rapport Mansholt (Maingueneau 1991). Le recours aux mthodes statistiques a dj permis de renouveler les tudes thmatiques (Brunet, 1991), mais lexistence de corpus tiquets et surtout arbors ouvre de nouvelles perspectives en matire danalyse de contenu.
22.2.2 Recherche documentaire

Dans le prolongement des analyses thmatiques, lanalyse smantique de corpus intresse galement la recherche documentaire. Les codifications traditionnelles des bibliothcaires refltent les thmes principaux des ouvrages. Avec lessor des besoins en traitement de linformation et le dveloppement dune vritable industrie, on cherche aujourdhui dvelopper des outils automatiques. Quels que soient les textes ouvrages, parties douvrages, articles ou mme dpches, crits dans une ou plusieurs langues, documents techniques ou non , quand on a affaire un nombre important de textes, il faut faire du tri. Deux voies sont possibles. Les document peuvent tre classs a priori en groupes homognes, le plus souvent thmatiques, mais le tri peut aussi se faire a posteriori, en fonction dun objectif spcifique, par lextraction cible dun sous-ensemble de textes pertinents au regard de cet objectif. La premire direction soulve deux difficults. Si lventail des catgories est donn au pralable, il faut identifier les indices permettant dassocier un texte une ou plusieurs catgories (on parle alors de catgorisation de textes). Mais si le jeu de catgories nest pas donn, il faut galement dterminer les critres de classement (classification de textes). Dans la seconde direction, le critre de choix est fix par lutilisateur qui formule une requte (les textes portant sur laronautique, par exemple), mais il faut reprer les multiples formes sous lesquelles ce thme peut tre exprim dans la base de textes interroge. Les premiers outils de recherche documentaire reposaient et reposent encore souvent sur des mots clefs censs reflter le contenu du document. Toute la question est alors de dterminer quels sont les mots les plus reprsentatifs dun document et de guider lutilisateur dans la formulation de sa requte si les mots clefs quil donne comme critre de recherche sont trop ou trop peu spcifiques. Les travaux en analyse smantique de corpus permettent aujourdhui denvisager de relles amliorations dans le domaine de la recherche documentaire (voirsection 3).
22.2.3 Acquisition de connaissances

Lanalyse smantique de corpus vise enfin acqurir des connaissances partir de corpus. Partant du constat que, dans nos socits modernes,
98
DEUXIEME PARTIE
lcrit est le principal vhicule de linformation et des connaissances et que, hors des domaines formels pour lesquels ont t conus des langages formels, mathmatiques ou logiques, ces connaissances sont toujours exprimes en langage naturel, on cherche dvelopper des mthodes pour extraire et donc acqurir les connaissances des corpus. Il sagit ni plus ni moins de proposer des techniques de lecture rapide et automatique des corpus. Les connaissances ainsi extraites servent souvent construire les bases de connaissances lexicographiques que sont les dictionnaires, thesaurus et terminologies, quelles soient de langue gnrale ou spcialises, monolingues ou bilingues. Nous dveloppons cet aspect cidessous (section 2). Il sagit galement de modliser lensemble des connaissances constituant un domaine spcialis. Un corpus portant sur laronautique doit ainsi permettre didentifier les diffrentes pices composant un avion et leurs agencements, leur usage habituel, les dysfonctionnements susceptibles de se produire, etc. Le modle de connaissances ainsi construit donne alors une vue schmatise du domaine. Celle-ci est prcieuse pour le dveloppement dapplications volues comme les outils de diagnostic de panne, des outils de visualisation, des simulateurs de vols, des systmes daide au pilotage, etc. De la mme manire, (Bouaud.et al., 1997) exploite Menelas pour aider la construction de lontologie du domaine des maladies coronariennes. Lextraction des informations vhicules par un corpus sert encore alimenter des bases de donnes. Lexploitation dun corpus de dpches portant sur le terrorisme permet ainsi de stocker les donnes relatives aux vnements terroristes dans (Appelt et al., 1993). Ce panorama, ncessairement schmatique, montre que lanalyse smantique aborde les corpus tour tour comme un objet dcrire (analyse de contenu), comme un ensemble de documents classer et retrouver (recherche documentaire) ou comme une source de connaissances (acquisition de connaissances). La diversit des applications vises montre galement que, pas plus quen matire dtiquetage ou de structuration de corpus, il nexiste de consensus en matire smantique lorsquil sagit de rendre compte du sens . Le sens de la recherche documentaire (ensemble de thmes) ne correspond pas au sens que lanalyse du discours cherche exhiber sous la forme de phrases de base et pas davantage au sens des mots et locutions que les lexicographes tentent de dcrire. Nous dveloppons ci-dessous en 2 et 3 deux exemples dapplications qui sinscrivent respectivement dans le champ de lacquisition de connaissances en loccurrence, lexicographiques partir de corpus spcialiss et dans celui de la recherche documentaire. Par leur dmarche empirique (nous y revenons en 4), ces exemples nous paraissent reprsentatifs des travaux actuels en matire dexploitation smantique de corpus.
Dune langue lautre
99
23. CONSTRUIRE AUTOMATIQUEMENT DES ENTREES DE DICTIONNAIRE

Le travail du lexicographe, pour la langue gnrale, consiste le plus souvent fusionner et mettre jour des sources antrieures existantes. Mais laborer des dictionnaires pour une langue spcialise suppose de cerner la langue considre. Le lexicographe doit gnralement se familiariser avec le domaine par la lecture des textes produits par les acteurs du domaine, puis complter ses connaissances par des entretiens avec les experts du domaine. Le cot de ce travail est indubitablement un frein llaboration de ces dictionnaires spcialiss et la perspective de pouvoir les construire automatiquement ou semi-automatiquement partir de corpus est allchante. Lhypothse sous-jacente est quil est possible dinfrer une description de la langue considre partir des observations faites sur le corpus. Pour G. Grefenstette, cette perspective est raliste (1994a, p. 135) : les sens gnraux des mots peuvent tre identifis partir des schmas syntaxiques et lexicaux dans lesquels ils figurent en corpus et nous avons les moyens de reprer objectivement ces sens et de les dcrire . Ses travaux montrent quil est possible de construire automatiquement des bauches dentres de thesaurus qui peuvent aussi bien servir de base un lexicographe pour la rdaction dentres de dictionnaires. Nous prsentons dans un premier temps les rsultats quil obtient. Nous en soulignons lintrt lexicographique. Nous dcrivons ensuite les mthodes qui permettent dobtenir ces rsultats automatiquement partir de corpus. Nous terminons en indiquant les limites de cette approche.
23.1 Des bauches dentres de dictionnaires

Nous prsentons ci-dessous les exemples dentres de dictionnaire que donne G. Grefenstette (ibid., annexe 5) pour les mot growth (croissance), therapy (thrapie) et year (anne). Elles suivent le schma suivant :
<Nom vedette> :: [<donnes quantitatives>] <NOM DU cORPUS DORIGINE> Relat.148 <liste des noms voisins>. Vbs. 149 <liste des verbes oprateurs>. Exp. 150 <liste des expressions et de leurs expressions voisines>. Fam. 151 <liste des variantes >.
Ces entres ont t construites entirement automatiquement partir de deux corpus spcialiss diffrents (MED ou MERGERS, cf. infra).
Growth :: [284 contexts, frequency rank : 25] MED Relat. tumor ; effect, tissue ; antigen, protein, development. Vbs. retard, stimulate, show, follow, enhance, accelerate. Exp. growth
148 149 150 151
Pour related words. Pour verbs. Pour expressions. Pour family.
100
DEUXIEME PARTIE
hormone (cf. bone marrow, parathyroid hormone), growth rate (cf. growth retardation, folic acid), tumor growth (cf. body growth, tenuazonic acid), growth retardation (cf. dna content, body weight), body growth (cf. tumor growth, body weight). Therapy :: [256 contexts, frequency rank 28] MED Relat. test ; response, treatment ; procedure, operation, drug, chemotherapy, dose, administration. Vbs. use, respond, follow, remain, receive, combine. Exp. radiation therapy (cf. survival rate, cancer chemotherapy), steroid therapy (cf. inclusion disease, cancer chemotherapy), hormone therapy (cf. intraarterial infusion, steroid therapy), corticosteroid therapy (cf. connective tissue, plama concentration). Fam. therapeutic. Year :: [103 contexts, frequency rank 93] MED Relat. woman ; child, patient, day ; week, month, hour. Vbs. age, occur, follow. Exp. year period (cf. survival rate, hormone therapy). Growth :: [320 contexts, frequency rank : 139] MERGERS Relat. level, increase, gain ; loss ; performance, return, rise, decline, flow, expansion. Vbs. say, expect, slow, accelerate, maintain, sustain, forecast, continue. Exp. rapid growth (cf. buy-out bid, raise capital), profit growth (cf. electronics group, total revenue), growth rate (cf. profit margin, future performance), growth potential (cf. company spokeswoman, board seat), future growth (cf. speciality chain, bottom line).
Ces entres ne ressemblent gure des entres habituelles de dictionnaire152. Pourtant, elles constituent un ensemble dindications qui peut guider le lexicographe dans son travail de rdaction. Elles comportent six rubriques, les quatre dernires tant optionnelles.
23.1.1 Des donnes quantitatives

Le nombre de contextes ou doccurrences du nom vedette et son rang dans lordre de frquences dcroissantes renseignent sur son poids dans le corpus. Les noms les plus frquents du corpus mdical (par ordre dcroissant cell, patient, effect, study, case) sont en effet reprsentatifs du domaine considr. Sur lexemple ci-dessus, on constate que growth et therapy sont ainsi nettement plus frquents que year. De surcrot, on sait que le rang des noms dun corpus donne une indication sur le degr de spcificit ou de gnralit de ces noms (Srinivasan, 1992). Le fait que patient soit plus frquent que child ou woman ; treatment plus frquent que therapy, lui-mme plus frquent que chemotherapy parat en effet suggrer que patient fonctionne dans le corpus mdical comme lhyperonyme de child ou woman ou que la chimiothrapie est une sorte de thrapie et de traitement.
152
Elles sapparentent davantage, comme le souligne G. Grefenstette, des entres de thesaurus.
Dune langue lautre
101
23.1.2 Le corpus dorigine

Cette indication (ici MED ou MERGERS) est videmment importante dans la mesure o il sagit de dcrire des langues spcialises partir de corpus. Les trois premires entres sont construites partir dun corpus de rsums mdicaux (MED). La dernire, partir dun ensemble darticles du Wall Street Journal portant sur la fusion dentreprises (MERGERS). Le contraste entre les deux entres de growth montre deux sens spcialiss diffrents.
23.1.3 Les noms voisins

Cette liste, qui est introduite par le mot clef Relat., comporte des noms donns comme smantiquement proches du nom vedette. Dans le corpus financier, growth se trouve au voisinage dune dizaine de noms : level, increase, gain ; loss ; performance, return, rise, decline, flow, expansion. Soulignons la cohrence de cette liste153. Elle comporte essentiellement des synonymes ou des pseudo-synonymes (increase, gain, rise, expansion) et quelques antonymes (loss, decline). Mme si le lien de growth avec level, performance et flow est moins vident, le rapprochement de ces termes parat nanmoins assez judicieux. Seul return surprend. La liste des voisins est structure en trois parties spares par des points virgules. Sont ainsi distingus les voisins qui sont plus frquents, aussi frquents et moins frquents que le mot vedette, cette indication pouvant reflter le degr de gnralit. Pour le lexicographe, cette liste donne un premier aperu des relations lexicales autour du nom vedette, relations dont il nest pas vident de se faire une ide a priori, la lecture du corpus ou mme partir de concordances. Cette liste doit tre contrle, parfois monde ou complte : la liste des voisins de year semble peu satisfaisante, par exemple. Le retour aux contextes permet de vrifier le sens dans lequel les mots sont employs. Dans tous les cas, cette liste demande tre interprte pour que soit identifie la nature des relations lexicales sous-jacentes.
23.1.4 Les verbes oprateurs

Ces verbes sont introduits par le mot clef Vbs. Il sagit des verbes auxquels le nom vedette est rgulirement associ, comme sujet, objet direct ou complment prpositionnel. Les verbes sont classs par ordre de frquence dcroissante. Cette rubrique renseigne sur les emplois du nom vedette et les relations dans lesquelles il entre. On constate ainsi que la croissance (growth) dans le corpus financier, est quelque chose dont le rythme volue (slow, accelerate, maintain, sustain, continue), mais aussi quelque chose qui se prvoit (expect, forecast). En termes de frquences,
Le principe du calcul des similarits qui permet de construire cette liste est expos au chapitre VIII.
153
102
DEUXIEME PARTIE
cest surtout quelque chose dont on parle ou qui donne des informations (say)154. En fait, cette rubrique des verbes oprateurs donne une premire indication synthtique des contextes demplois du nom vedette. Le fait que age (g de) figure parmi les verbes associs year explique la prsence surprenante premire vue des noms de personnes (women, child, patient, etc.) aux cts des termes de dure (day, week, month, etc.). Cest, semble-t-il, limportance des contextes du type woman aged of thirty years qui rapproche woman et year.
23.1.5 Les expressions

La liste des expressions nominales les plus frquentes dans lesquelles entre le mot vedette donne une autre indication contextuelle. Comme la prcdente, cette rubrique (introduite par Exp.) permet par exemple de contraster les emplois de growth dans la langue mdicale et dans la presse financire. Dans les deux cas, on parle du rythme de la croissance (growth rate, growth retardation, rapid growth), mais lobjet de la croissance diffre (tumor, body dans un cas, profit dans lautre). chaque expression sont associes une ou plusieurs expressions voisines titre de documentation. G. Grefenstette souligne ainsi lcart demploi dune expression commune aux deux corpus (growth rate) : dans un cas, growth rate est associ growth retardation tandis que dans lautre corpus, le taux de croissance est associ des considrations de profit et de performance.
23.1.6 Les variantes

Cette dernire rubrique (introduite par le mot clef Fam.), souvent absente, donne des variantes morphologiques du nom vedette, gnralement un quivalent adjectival ou verbal (therapy/therapeutic, bile/biliary, excretion/excrete, reduction/reduce). Il est souvent prcieux pour un non spcialiste du domaine de reprer quelles sont, dans lensemble des drivations possibles en langue, celles qui sont attestes dans le corpus ou au contraire de constater quun quivalent possible ne semble pas employ. Ainsi lentre de blood (sang) ne mentionne-t-elle pas bloody (sanglant) qui, de fait, na gure un sens mdical. On trouve galement sous cette rubrique des variantes orthographiques (adeaminase/adeaminase). Dans certains cas, cette rubrique regroupe non pas des variantes proprement parler mais des mots qui appartiennent la mme famille drivationnelle (lymphocyte/lymph/lymph node/lymphatic/lymphoid) smantique. Le recours aux corpus, plutt qu lintrospection, est chose ancienne pour la lexicographie spcialise et il est clair que les entres ainsi constitues automatiquement demandent tre retravailles par un
154
Pour savoir si growth figure comme sujet et/ou comme objet du verbe say, il faut revenir au corpus.
Dune langue lautre
103
lexicographe. Le travail de G. Grefenstette montre cependant toutes les possibilits que le traitements automatiques de corpus ouvrent dsormais. Rappelons en effet que les entres donnes ci-dessus ont t engendres de manire entirement automatique. Ces entres constituent des bauches ou un premier dgrossissage qui donnent au lexicographe une vue synthtique sur le poids (donnes quantitatives) et le fonctionnement syntagmatique (expressions et verbes oprateurs) ou paradigmatique (voisins et variantes) dun mot dans le corpus considr.
23.2 Une mthode entirement automatique

Ces entres ne sont pourtant pas de qualit gale. Lentre de year parat plus difficile exploiter que celles de growth. En rgle gnrale, on constate que plus les noms sont techniques et frquents, meilleure est leur description. Pour apprcier la pertinence des informations extraites et savoir interprter des rsultats parfois surprenants, il importe de comprendre par quelles mthodes et dans quelles conditions ces entres ont pu tre construites partir des corpus.
23.2.1 Une seule donne, le corpus

En matire de donnes, la mthode repose sur le corpus et sur le corpus seulement. Dans la mesure o il est exploit comme source de connaissances pour dcrire une langue spcialise, il est primordial de partir dun corpus homogne et reprsentatif de cette langue (voir chapitre VII), mais en tant que telle la mthode dextraction de G. Grefenstette est indpendante du domaine trait. Au-del des corpus mdicaux et financiers cits ci-dessus, cette mthode a t teste avec succs sur plus de 20 corpus de 1 6 millions de caractres (Grefenstette, 1993), soit approximativement de 150 000 850 000 mots. Ces corpus sont pralablement tiquets. La construction de ces entres de dictionnaire ne fait appel aucune connaissance smantique. Cest l le point fort de la mthode qui repose sur des techniques de bas niveau (knowledge-poor techniques) en ce sens que le processus dextraction repose entirement sur des traitements morpho-syntaxiques et statistiques du corpus155.
23.2.2 Un ensemble de traitements simples

Le traitement du corpus est effectu par le logiciel SEXTANT (Grefenstette, 1994a) qui traduit dans un premier temps le corpus pralablement
155
Nous parlons de traitement de bas niveau parce que cest une approche des textes qui ne ncessite pas quune modlisation smantique des connaissances du domaine soit pralablement construite la main (Grefenstette, 1994a, p. 3).
104
DEUXIEME PARTIE
tiquet en un ensemble de relations de dpendances syntaxiques. Laccent est mis sur les noms et ne sont conserves que les relations entre un nom dune part et un adjectif, un verbe ou un autre nom, dautre part. En simulant ce traitement sur les extraits de Menelas donns cidessous, on obtient comme contextes pour le nom pisode ses relations avec les mots suivants156 : prsenter (OBJ), survenir (SUJ), douloureux, prcordial, hyperthermique, effort, repos.
Trait mdicalement, il a dj prsent plusieurs reprises des pisodes douloureux prcordiaux deffort et de repos. Depuis cette poque on ne note aucune rcidive d'angor jusqu'il y a 8 jours o il a prsent un pisode de prcordialgie survenant l'effort, durant environ 45 minutes, sans irradiation157. On notait par ailleurs la survenue d'un pisode hyperthermique, probablement en rapport avec une mise en place prolonge d'une voie veineuse.
Le nombre de contextes dun nom est donc le nombre de relations de dpendance dans lesquelles il entre. Cest sur la base dun corpus vu comme un ensemble de contextes que sont calcules toutes les informations syntagmatiques et paradigmatiques tudies plus haut. Les relations syntagmatiques sont donnes par les contextes euxmmes : les rubriques des verbes oprateurs et des expressions regroupent respectivement les contextes verbaux et nominaux du nom vedette. Le logiciel se contente de trier les listes par ordre de frquence et dliminer les contextes trop peu frquents ou syntaxiquement ambigus. Les relations paradigmatiques sont calcules en comparant la liste des contextes de deux entits. Dans le cas du voisinage des noms, lintuition sous-jacente est que deux noms sont voisins sils figurent dans les mmes contextes ou sils partagent beaucoup de contextes. Par exemple, supposer quon obtienne pour symptomatologie et crise, les listes de contextes suivantes :
symptomatologie : prsenter (OBJ), associer (OBJ), survenir(SUJ), douloureux, prcordial, atypique, effort, problme crise : prsenter (OBJ), prolonger (OBJ), suivre (SUJ), douloureux
la comparaison des distributions tend montrer que pisode est plus similaire de symptomatologie que de crise. Formellement, les contextes dun nom constituent un ensemble de proprits (ses attributs) et le
156 Nous considrons ici que les mots ont t pralablement lemmatiss. Les marqueurs OBJ et SUJ indiquent respectivement que le nom figure en position objet ou sujet du verbe. Dans les rsultats de G. Grefenstette, la nature des relations entre noms ou entre un adjectif et un nom nest pas explicite (1994a, p. 42). 157 Nous navons pas considr ici que les groupes prpositionnels durant 45 minutes et sans irradiation devaient tre rattachs pisode. Pour langlais, G Grefenstette rsout le problme du rattachement du groupe prpositionnel par des rgles ad hoc (ibid.).
Dune langue lautre
105
logiciel mesure le degr de similarit158 entre deux noms sur la base du nombre dattributs quils partagent159. Dans la liste des voisins dun nom vedette, on retient les noms qui en sont le plus similaires, condition que, de manire rciproque, le nom vedette figure galement en bonne position dans la liste des similaires de ceux-ci. Cest sur le mme principe que G. Grefenstette rapproche certaines expressions. Les expressions radiation therapy et cancer chemiotherapy sont associes parce quelles partagent un nombre de contextes qui est significatif tant donn le nombre total de contextes dans lesquels elles figurent. Pour ce calcul toutefois, G. Grefenstette ne retient pas les relations de dpendance binaire comme contexte, mais il prend un contexte plus large, la phrase. Cest encore sur le mme principe que sont calcules les variantes morphologiques. Le fait est que dans un paragraphe ou un document portant sur un sujet donn, une mme notion sexprime sous des formes diverses. Dans un document, on trouvera par exemple le verbe rduire et quelques lignes plus loin, la mme ide reprise sous forme nominale (rduction). SEXTANT calcule donc des similarits entre les mots de sens plein du corpus en prenant comme contexte les numros de documents dans lesquels ils figurent, puis il slectionne ceux qui paraissent, sur une base graphique, tre des variantes morphologiques. Le principe gnral de SEXTANT est donc simple : il repose essentiellement sur le calcul de similarits. Tout lintrt vient dune dfinition approprie des contextes. Dfinir les contextes sur une base syntaxique plutt que graphique revient les filtrer au pralable et rduit le bruit engendr (Habert et al., 1996 ; Grefenstette, 1996). Faire varier la taille des contextes permet de faire ressortir diffrents types dassociation. Ces entres de dictionnaires rsultent dun long travail dexprimentation et dune exploitation judicieuse de techniques simples.
23.3 Les limites dune approche empirique

Pour bien utiliser un outil comme SEXTANT dans une perspective lexicographique, il est galement important den connatre les limites. Lapproche dcrite ci-dessus prsente certaines faiblesses. La rubrique la moins satisfaisante est incontestablement celle des variantes qui mle notamment les variantes orthographiques et drivationnelles. Lalgorithme de recherche des variantes morphologiques privilgie les variations qui ne portent pas sur linitiale du mot et associe des mots qui ont seulement le
Nous entendons par similarit la relation existant entre deux choses similaires, cest-dire peu prs de mme nature, de mme ordre (Petit Robert, dition de 1973). Nous avons recours cet anglicisme parce que le mot similitude na pas le mme sens que langlais similarity ( relation unissant deux choses exactement semblables Petit Robert, dition de 1973). 159 On trouve dans la littrature (Saporta, 1990) beaucoup de mesures de distances pour ce type de comparaison. G. Grefenstette retient une forme pondre de lindice de Jaccard qui rapporte le nombre dattributs partags par deux lments au nombre dattributs possds en propre par lun ou lautre (1994a, p. 48-49).
158
106
DEUXIEME PARTIE
mme prfixe (antigen est associ antibody mais pas gene)160. Plus fondamentalement, les rsultats dpendent de la qualit de lanalyse syntaxique. G. Grefenstette (1993) donne lexemple curieux de human cell et year period associs lexpression cancer cell. La dcomposition des groupes nominaux du type 3 year period est mal reconnue. Comme le systme ne repre pas que 3 quantifie le seul year, il dcompose 3 year period en [3 [year [period]]] au lieu de [[3 [year]]) period]. Il analyse donc 3 year period et 3 human cells de la mme manire et cre un rapprochement artificiel entre les deux expressions. Les erreurs danalyse bruitent les rsultats. Lexemple cit est suffisamment surprenant pour attirer lattention du lexicographe, mais certaines erreurs de rattachement peuvent crer des rapprochements indus et nanmoins plausibles qui peuvent passer inaperus. La fiabilit de lanalyse syntaxique est donc essentielle pour ce type de traitement. Cest la raison pour laquelle SEXTANT ne prend encore en compte que les relations de dpendance binaire dans le calcul des contextes et non les syntagmes nominaux de taille suprieure pour lesquels les risques derreur sont multiplis. Le point essentiel demeure les contraintes dune approche lexicographique consistant infrer des proprits en langue partir des observations faites sur corpus, cest--dire de ce qui est attest. Cette approche repose sur lhypothse que le corpus est un reflet intressant de la manire dont les mots sont effectivement employs. Cela suppose que le corpus soit homogne ou, du moins, que sa variation interne soit ngligeable en regard des phnomnes tudis. Cest une hypothse forte, nous y revenons au chapitre VII. Le corpus dtermine par ailleurs la couverture lexicographique : seuls les mots et les sens attests peuvent tre dcrits puisque de la non-attestation, on ne peut jamais conclure quun mot est tranger une langue de spcialit. Les mots faiblement reprsents dans le corpus sont galement difficiles dcrire. Les techniques utilises par SEXTANT supposent que les mots aient un nombre raisonnable doccurrences. La description construite partir des 103 occurrences de year est nettement moins exploitable que celles de growth ou therapy qui portent sur deux fois et demi plus doccurrences dans le corpus mdical. La qualit et la fiabilit des descriptions lexicographique baissent avec le nombre de contextes dans lequel figurent les entres, i.e. avec la quantit dinformation disponible. Or des mots peu frquents peuvent tre des termes du domaine et certains emplois rares sont importants dcrire parce quils sont difficiles comprendre intuitivement. On touche l aux limites intrinsques de lapproche prsente ici. Le travail lexicographique ne peut reposer entirement sur les corpus. Mais si les informations extraites de corpus doivent tre contrles, corriges, compltes, elles constituent nanmoins une vue densemble sur lemploi dun mot et une source importante pour la rdaction dentres de dictionnaire. Pour exploiter ce type de donnes, le lexicographe devra acqurir lexprience des outils permettant de les obtenir, afin de dpister les points faibles de telle entre, identifier les associations douteuses,
160 Selon G. Grefenstette, cet algorithme pourrait tre modifi, ventuellement en exploitant une base de rgles morphologiques de drivations. La qualit des rsultats devrait sen trouver amliore.
Dune langue lautre
107
reprer les effets dune analyse syntaxique inexacte ou ambigu, et pour complter les informations extraites par ses propres mthodes dinvestigation.
24. FAIRE DES DISTINCTIONS DE SENS DE MOTS POUR LA RECHERCHE DOCUMENTAIRE

Lessor dune socit de la communication, avec notamment le dveloppement dun rseau donnant libre accs de plus en plus de donnes textuelles, a profondment modifi les objectifs de la recherche documentaire. Sil sagit toujours de slectionner dans une base de documents un sous-ensemble de documents pertinents au regard des besoins dun utilisateur, on a maintenant affaire des bases approchant le milliard de mots (Evans et Zhai, 1996), o les textes de langue gnrale (ex. articles de presse) ctoient des textes de langue spcialise relevant de domaines plus techniques.
24.1 Retrouver des textes dans une base documentaire

24.1.1 Principe gnral
Idalement la requte de lutilisateur spcifiant le type des documents recherchs devrait pouvoir tre exprime en langage naturel avec toute latitude dans le choix de la formulation ou, la rigueur, dans un langage de requte, sous une forme explicite mais plus contrle. La formulation naturelle les textes dcrivant les problmes de circulation sur les grandes artres peut ainsi se traduire par une relation de localisation entre deux entits : LOCALISATION(problme de circulation, grandes artres). En pratique cependant, les systmes commercialiss proposent gnralement lutilisateur de formuler sa requte sous la forme dune liste de mots clefs, ventuellement combins par des oprateurs boolens (ex. circulation ET artres)161. Un systme de recherche documentaire commence par indexer les documents de sa base, cest--dire quil reprsente leur contenu sous la forme dune liste de termes162 reprsentatifs de ce contenu. Il extrait de la mme manire des termes de la requte de lutilisateur. Puis, il cherche apparier les termes de la requte avec ceux dun document pour valuer la pertinence de ce document au regard de cette requte. Lobjectif est bien entendu de retrouver tous les documents pertinents de la base et
Cest ce type de requte quadmet par exemple AltaVista, lun des grands moteurs de recherche documentaire sur Internet. Il est accessible ladresse http://www.altavista.com. 162 Dans le contexte de la recherche documentaire, le mot terme dsigne une cl dindexation.
161
108
DEUXIEME PARTIE
ceux-l seulement. Dans la pratique, il faut trouver le meilleur compromis entre rappel et prcision. Lindexation est ltape clef de ce processus de recherche documentaire. Comment reprsenter le contenu dun document ? Les clefs dindexation sont gnralement des mots clefs : dans lensemble des mots dun document, on slectionne ceux que lon suppose reprsenter le mieux le contenu du document, par exemple en liminant les mots les plus frquents et les moins frquents supposs peu discriminants dans ltape ultrieure de slection des documents.
24.1.2 La question de la variation lexicale

Dans cette approche par mots clefs, qui est sans conteste robuste, se pose toutefois le problme de la variation lexicale. Considrons maintenant une deuxime requte, dun tudiant en mdecine : problme de circulation dans les artres . Un systme fond sur les mots clefs indexe cette requte comme celle de lautomobiliste mentionne plus haut : (circulation ET artre). Il extrait donc le mme ensemble de documents qui comporte aussi bien des textes sur la circulation sanguine que des textes sur la circulation automobile. En rponse sa requte, lautomobiliste va donc trouver beaucoup de textes mdicaux non pertinents pour lui (faible prcision) tandis que des textes qui lauraient intress ne sont pas slectionns parce quils parlent de trafic et non de circulation (faible rappel). Prendre en compte les relations de synonymie (trafic / circulation) et de polysmie (circulation sanguine / circulation automobile) permettrait de gagner respectivement en rappel et en prcision. Cest gnralement par une expansion de requte que lon prend en compte les relations de synonymie autour des mots clefs de la requte. On enrichit la requte en indiquant quels synonymes peuvent tre substitus aux mots clefs sans modifier le contenu de la requte : dans lexemple ci-dessus on obtient ainsi la formule ((circulation OU trafic) ET (artre OU axe)). Cette expansion peut se faire soit automatiquement, soit sous le contrle de lutilisateur dans le cadre dun systme interactif qui laide formuler sa requte en suggrant des synonymes. Si la polysmie des mots de la requte peut galement tre traite interactivement (le systme peut de la mme manire suggrer des distinctions de sens), pour rduire la polysmie dans les documents, il faut des mthodes de dsambigusation automatique. Indexer un document non sur les mots clefs eux-mmes (circulation) mais sur leur sens (circulation [automobile]) implique didentifier le sens dans lequel le mot est employ dans un contexte donn. Synonymie et polysmie sont en fait les deux faces du mme problme : on voudrait fonder la recherche sur les sens de mots et non sur les mots eux-mmes. Dans le domaine trs actif de la recherche documentaire, cest lun des axes qui est explor. Sans dvelopper les problmes lis lexpansion de requtes (Voorhes, 1994), les paragraphes qui suivent mettent laccent sur la dsambigusation lexicale
Dune langue lautre
109
de gros volumes de textes tout-venant. Sil est trop tt pour faire tat dexpriences et de rsultats sur des systmes intgrant effectivement un traitement lexical, nous voudrions ici montrer lune des pistes prometteuses, consistant exploiter une base lexicale gnrale. Nous nous appuyons plus particulirement sur le travail de M. Sussna (1993). Son impact sur un systme de recherche dinformation nest pas rellement valu mais il montre tout le parti quon peut tirer dune base lexicale gnrale comme WordNet (voir chapitre III, supra).
24.2 Dsambiguser des corpus laide de WordNet

M. Sussna (1993) dfend lide quun systme de recherche documentaire peut exploiter une source de connaissances comme WordNet pour dsambiguser des documents et les indexer sur les sens de mots plutt que sur les mots. Son corpus dexprimentation est un ensemble du Time Magazine comportant 425 articles de quelques centaines de mots en moyenne. Les chapitres sur les corpus tiquets et arbors ont montr les questions que soulve la dsambigusation morpho-syntaxique ou syntaxique de corpus. Quelles informations morpho-syntaxiques ou quel niveau de structuration syntaxique faut-il reprsenter ? Comment assigner cette information aux diffrentes parties du corpus ? Ces questions se posent galement pour la dsambigusation lexicale. Quels sens de mots faut-il prendre en compte ? Comment identifier le sens dun mot en contexte ? Dterminer les sens reprsenter pour un mot donn soulve en fait deux questions complmentaires. Celle de la granularit de la description : on peut retenir des distinctions de sens plus ou moins fines. Et celle des sources de connaissances : il sagit de dterminer lventail des sens possibles pour un mot donn. M. Sussna (1993) propose dexploiter les distinctions fines de sens telles que WordNet peut les reprsenter. Lapproche de M. Sussna est par ailleurs contextuelle. Comme beaucoup de travaux de dsambigusation lexicale163, elle repose sur lide que le contexte dun mot permet didentifier le sens dans lequel il est employ. Sous-jacente est lintuition que lon tend slectionner pour un mot le sens qui est li au contexte. De fait, dans la plupart des cas, nous ne percevons pas dambigut car le contexte suffit rduire lespace des sens possibles. Lide est de retenir pour un mot donn le sens qui se rapproche le plus de ceux de ses voisins, cest--dire de mesurer la parent ou la distance smantique164 entre les sens de diffrents mots qui se trouvent contigus dans le texte et de retenir la combinaison qui
Voir (Guthrie et al., 1994). Nous distinguons la notion de parent smantique de la mesure de similarit smantique. La parent, qui est gnralement mesure comme une distance entre les mots, peut recouvrir diffrents types de liens smantiques : synonymie, antonymie, prfrence slectionnelle, y compris les relations de similarit qui mesurent plus spcifiquement un certain degr de substituabilit des mots en contexte (voir supra 3.2).
163 164
110
DEUXIEME PARTIE
minimise la distance globale. Loriginalit de ce travail consiste exploiter au maximum la structure de rseau de WordNet pour mesurer les distances entre les mots et prendre en compte le problme de la co-dtermination des sens dans une approche globale de la dsambigusation. Nous dveloppons ces deux aspects aprs avoir montr sur un exemple les rsultats que M. Sussna cherche obtenir.
24.2.1 Un article dsambigus

Sur un exemple darticle cit par M. Sussna (1993), nous montrons quel rsultat peut tre obtenu en exploitant les distinctions de sens de WordNet pour dsambiguser les sens de mots. partir de larticle original (point a ci-dessous), un premier traitement permet de slectionner les mots clefs du document. Les noms tant traditionnellement supposs plus reprsentatifs du contenu dun document que les autres catgories syntaxiques, M. Sussna ne conserve que les noms dans la reprsentation du document. Ceci suppose donc une tape de dsambigusation morpho-syntaxique. On notera dans le rsultat donn en b deux erreurs : support et prime ne sont pas employs comme noms dans larticle initial. En fait, M. Sussna ne retient que les noms prsents dans WordNet, ce qui limine des noms propres (Kennedy, MacMillan) et des mots rares (skybolt) (point c). Il rejette de surcrot les mots rputs vides de sens et appartenant un anti-dictionnaire (stopword list). Dans notre exemple, il sagit de december mais surtout de noms propres trs courants comme U.S., Europe, Europeans, Britain (point d), la diffrence de France. On obtient ainsi une liste de noms dcrivant le contenu de larticle de dpart (formule e). Cest cette liste quil sagit de dsambiguser en associant chaque mot une tiquette spcifiant le sens dans lequel il est employ dans cet article. M. Sussna ne donne pas dexemple de texte dsambigus mais nous proposons ci-dessous (point f) une version dsambiguse de larticle a. Nous avons effectu cette dsambigusation manuellement. Les tiquettes renvoient des sens de WordNet (voir supra III.3). Le sens dun mot est reprsent par son numro dordre dans la liste des sens possibles pour ce mot : cest le 3e des 6 sens de strike qui est employ ici. Ce sens est galement dcrit par le synset dans lequel il figure, i.e. lensemble de ses synonymes (entre accolades), ou dfaut, par la paraphrase (entre guillemets) donne dans WordNet165.
a. texte original The allies after Nassau
165
Nous navons pas tiquet ([sens = ?]) les mots qui ne sont pas employs comme noms et qui nont t conservs que du fait dune erreur de catgorisation morphosyntaxique. Nous ne donnons aucune description synonymique ou paraphrastique pour les noms qui nadmettent quun seul sens ([sens = 1/1]).
Dune langue lautre

In december 1960, the U.S. first proposed to help NATO develop its own nuclear strike force. But Europe made no attempt to devise a plan. Last week, as they studied the Nassau accord between President Kennedy and Prime Minister MacMillan, Europeans saw emerging the first outlines of the nuclear NATO that U.S. wants and will support. It all sprang from the anglo-U.S. crisis over cancellation of the bug-ridden skybolt missile, and the U.S. offer to supply Britain and France with the proved polaris (Time, dec. 28). b. liste de noms allies Nassau december U.S. NATO strike force Europe attempt plan week Nassau accord President Kennedy Prime Minister MacMillan Europeans outlines NATO U.S. support crisis cancellation bug skybolt missile U.S. Britain France polaris c. liste de noms absents de WordNet Kennedy MacMillan skybolt d. liste des noms figurant dans un anti-dictionnaire Nassau december U.S. NATO Europe Europeans Britain e. liste de noms slectionns allies strike force attempt plan week accord president prime minister outlines support crisis cancellation bug missile france polaris time f. liste de sens allies [sens = 1/3 : an alliance of nations joining together to fight a common enemy ] strike [sens = 2/6 : an attack that is intended to seize or inflict damage on or destroy an objective ] force [sens = 4/7 : {forcefulness, strength}] attempt [sens = 1/2 : {effort, endeavor, endeavour, try}] plan [sens = 1/3 : {program, programme}] week [sens = 3/3 : {calendar week}] accord [sens = 3/4 : {treaty, pact}] president [sens = 5/6 : {President of the United States, President, Chief Executive}] prime [sens = ?] minister [sens = 2/4 : {government minister}] outlines [3/3 : {schema}] support [sens = ?] crisis [sens = 2/2 : a crucial stage or turning point in the course of something ] cancellation [sens = 1/2 : the act of cancelling ; calling off some arrangement ] bug [2/5 : {glitch}] missile [sens = 1/2 : a rocket-propelled weapon ] france [sens = 1/1] polaris [sens = 1/1] time [sens = 4/9 : the continuum of experience in which events pass from the future through the present to the past ]
111
24.2.2 Mesurer la distance entre les nuds de WordNet

Pour M. Sussna, lobjectif est donc de mesurer par une distance entre les nuds de WordNet la proximit des sens de diffrents mots dans un espace smantique, cest--dire leur parent166.
166
Cette question du calcul de la distance smantique se pose dans les mmes termes,
112
DEUXIEME PARTIE
Traditionnellement, la distance de deux nuds a et b dans un rseau est mesure par la longueur du chemin le plus court entre a et b. Malheureusement, la taille de WordNet (cf. chapitre III, section 3.1.3) rend cette approche impraticable du fait du nombre de chemins explorer pour calculer la distance entre deux nuds. Pour simplifier, on peut donc, comme le font E. Agirre et G. Rigau (1996) ou P. Resnik (1995b)167, ne considrer que la partie hirarchique de WordNet : Soit C lensemble des concepts dans une taxonomie organise autour de la relation EST-UNE-SORTE-DE (IS-A) telle quun nud puisse hriter de plusieurs pres. Intuitivement, on peut considrer que deux concepts sont dautant plus similaires quils partagent plus dinformation, cette information tant indique dans la taxonomie par le plus petit concept qui les domine tous les deux. La mthode reposant sur le dcompte des artes mesure cela indirectement : si le chemin le plus court entre deux nuds est tout de mme long, cela signifie quil faut remonter haut dans la hirarchie, jusqu' des nuds assez abstraits, pour trouver cet anctre commun. Par exemple, dans WordNet, NICKEL (pice de 10 cents en nickel) et DIME (pice de 10 cents) sont tous les deux domins par COIN (pice), alors que la classe la plus spcifique laquelle appartiennent la fois NICKEL et CREDIT-CARD (carte de crdit) est ASSET (avoir). Cette dernire mthode de calcul revient cependant rduire WordNet une hirarchie de liens hyperonymiques et lui fait perdre une grande partie de sa richesse lexicale. M. Sussna choisit de combiner ces deux approches du chemin le plus court et du chemin passant par le plus petit anctre commun. Il mesure la distance entre deux nuds a et b par la longueur du chemin le plus court reliant a et b au sein de la sous-hirarchie domine par p, le plus petit anctre commun a et b (figure 1, infra). Cette approximation parat satisfaisante mme si, parfois, on ne retrouve pas le chemin le plus court : dans le cas de la figure 1, le raccourci antonymique qui va de a b en passant par c168 est limin. Ce chemin peut tre compos dartes de diffrentes natures, liens hirarchiques dhyponymie, relations de mronymie, dantonymie Reprenons lexemple de P. Resnik dj cit au chapitre III (3.2.1). Le chemin a empruntant les liens hyponymiques de COIN ASSET et de ASSET CREDIT-CARD est de longueur 9, tandis que le chemin b qui emprunte les liens hyponymiques de COIN CURRENCY, le lien dantonymie de CURRENCY CREDIT et les liens hyponymiques de CREDIT CREDIT-CARD est plus court (longueur 8). M. Sussna retient ce chemin qui est mixte mais plus court.
quelle que soit la source de connaissances exploite. Plusieurs auteurs ont ainsi cherch mesurer la parent des sens de mots partir de leur dfinition dans un dictionnaire et des mots quelles ont en commun. (Cowie et al., 1992) et (Vronis et Ide, 1990), par exemple, exploitent respectivement le Longman Dictionary of Contemporary English et le Collins. 167 Cest nous qui donnons les quivalents franais. Nous avons galement remplac MEDIUM-OF-EXCHANGE par ASSET pour rendre la citation cohrente avec la version 1.5 de WordNet et la figure ci-dessous qui sen inspire. 168 Les liens dantonymie ne sont pas des liens hirarchiques.
Dune langue lautre
113
b
Figure 1. Calcul du chemin le plus court au sein dune sous-hirarchie.
ASSET
2 1 1
COIN CURRENCY
1 1
CASH
CREDIT
METAL MONEY
4
CREDIT-CARD

Figure 2. Calcul du chemin le plus court dans une sous-hirarchie de WordNet. Pour aller de CREDIT-CARD COIN, le chemin qui passe par le plus petit anctre commun (ASSET) est de longueur 9. Le chemin qui emprunte le lien antonymique entre CREDIT et CASH est plus court (longueur 8).
Pour tenir compte de lhtrognit des liens emprunts, M. Sussna pondre diffremment chaque type de lien. Sans entrer dans le dtail de ces poids qui sont dtermins exprimentalement, retenons les points suivants. Les liens de synonymie ont un poids nul et ne comptent pas dans les mesures de distance entre nuds : les nuds de WordNet tant des ensembles de synonymes (synsets), la synonymie est une relation interne aux nuds. Les liens dantonymie ont le poids le plus fort. Les poids des liens hyponymiques et mronymiques varient avec la dilution de la relation qui est mesure en fonction du nombre de liens de mme type attachs aux nuds concerns. Dans le cas, par exemple, de la relation A-POUR-PARTIE entre les nuds VOITURE et PARE-BRISE, lintuition est que cette relation reflte une parent dautant moins forte quune voiture comporte plus dlments (i.e. que plus de liens A-POUR-PARTIE partent du nud VOITURE), mais dautant plus forte,
114
DEUXIEME PARTIE
linverse, que les pare-brises entrent dans la composition de moins dobjets (i.e. que moins de liens A-POUR-PARTIE arrivent au nud PAREBRISE). De fait le mot pare-brise voque quasi automatiquement une voiture. Toutes les relations sont pondres en fonction de leur profondeur dans la hirarchie. Ce poids permet de tenir compte du fait que dans lexemple de la figure 2 (supra), NICKEL et DIME sont plus proches que CREDIT et MEDIUM-OF-EXCHANGE, parce quils sont situs plus bas dans la hirarchie et refltent donc des concepts plus spcifiques. La longueur dun chemin est donc calcule comme la somme des poids des diffrentes artes qui le composent et la distance entre deux nuds est donne par la longueur du chemin le plus court reliant ces deux nuds au sein de la sous-hirarchie domine par le pre commun. Cest par lexprimentation que M Sussna ajuste les diffrents paramtres de cette mesure. En ce qui concerne la diversit des liens prendre en compte, M. Sussna montre, par exemple, en jouant sur les poids des diffrentes relations et en privilgiant les chemins hirarchiques le long des liens hyponymiques, que lon obtient de meilleurs rsultats de dsambigusation lorsquon exploite toute la richesse des rseaux mixtes [comme WordNet], contenant la fois des relations hirarchiques et des relations non hirarchiques (Sussna, 1993). Les expriences menes par E. Agirre et G. Rigau (1996), qui donnent une densit smantique dans WordNet comme mesure de la parent entre les sens de mots, semblent montrer en revanche que les liens mronymiques apportent peu la dsambigusation169. Les conditions exprimentales et les mesures tant diffrentes, il est malheureusement difficile de comparer ces rsultats. Apprhender une parent smantique sous la forme dune distance entre les sens de mots dans un rseau comme WordNet soulve ainsi de nombreuses questions. De multiples formules sont testes, mais il est encore beaucoup trop tt pour tirer une conclusion dfinitive sur les paramtres prendre en compte et pour se faire une vritable ide de leur impact sur les rsultats de dsambigusation. Seule lexprience et le recul permettront de clarifier peu peu cette question.
24.2.3 Dsambiguser un ensemble de mots

On peut donc dsambiguser un texte en retenant pour un mot donn le sens le plus proche des sens des mots voisins. M. Sussna propose une mthode de dsambigusation globale qui respecte la co-dtermination des sens. En effet, si on ne calcule quun sens la fois, comme le font la plupart des approches numriques de la dsambigusation de mots, la question se pose de savoir sil faut et comment on peut tenir compte du
A priori, une mesure de densit calcule partir de relations plus nombreuses devrait dautant mieux rendre compte de la notion de parent smantique et on pourrait sattendre de meilleurs rsultats [de dsambigusation] . Les expriences [] ont montr que la diffrence est ngligeable ; ajouter linformation mronymique namliore pas la prcision et naugmente la couverture169 que de 3% environ. (ibid.) Ici, la couverture correspond la proportion de noms effectivement dsambiguss.
169
Dune langue lautre
115
fait quun sens a t choisi pour un mot quand on cherche dsambiguser le mot suivant ? (Guthrie et al., 1994). M. Sussna cherche dsambiguser non pas un mot en fonction de son contexte mais un ensemble de mots conjointement en tenant compte de leur contrainte mutuelle (Sussna, 1993). Cela suppose de considrer toute la combinatoire des sens possibles, de calculer une distance binaire pour chaque couple de mot et de retenir la combinaison qui minimise la distance globale (lnergie), somme des distances binaires. Le calcul de cette contrainte devient malheureusement vite prohibitif170. M. Sussna propose donc de dsambiguser conjointement les premiers mots d'un texte et de poursuivre au fil du texte en dsambigusant chaque mot en fonction des sens retenus pour les mots qui le prcdent. Le contexte pris en compte dans le cas gnral est donc le seul contexte antrieur. Pour dterminer la taille du contexte considrer, M. Sussna procde, l encore, de manire exprimentale. En appliquant sa mthode des fentres de tailles diffrentes et en comparant les rsultats obtenus une dsambigusation alatoire dune part et une dsambigusation manuelle dautre part, il constate que les rsultats de la dsambigusation samliorent quand on augmente la largeur de la fentre et se stabilisent pour une fentre de 41 mots. Sur ce point cependant, les expriences de (Agirre et Rigau, 1996) semblent montrer que la taille du contexte prendre en compte dpend du type de corpus trait, les fentres rduites 10 mots convenant pour le dialogue et les fentres plus larges donnant de meilleurs rsultats pour les textes journalistiques.
24.3 De la dsambigusation lexicale la recherche documentaire

Si lapproche contextuelle de la dsambigusation lexicale de corpus avait dj t valide par diffrents travaux, le travail de M. Sussna montre le parti quon peut tirer dun rseau comme WordNet. La comparaison avec dautres expriences montre cependant que le choix de la mesure de parent smantique, (le type des relations prises en compte, notamment) et le poids des conditions dexprimentation (le type de corpus, par exemple) ont une grande influence sur les rsultats. De la dsambigusation lexicale la recherche documentaire, un pas important reste franchir. Des questions plus fondamentales se posent par ailleurs. Elles concernent notamment la finesse des distinctions de sens prendre en compte et la couverture des bases lexicales utilises.
Pour une fentre de 10 mots et en ne retenant que 2 sens par mot, il faut dj calculer 1 000 distances binaires, par exemple. Et si lon considre la finesse des distinctions de sens faites dans WordNet et la slection des noms retenus pour indexer un document, il faut compter avec beaucoup plus de sens par mot. A titre dindication, dans la liste f donne ci-dessus des noms dcrivant le contenu dun article de presse, les noms comportent en moyenne 3,7 sens.
170
116
DEUXIEME PARTIE
24.3.1 La granularit de la description lexicale

Ltiquetage dcrit par M. Sussna est un tiquetage fin qui exploite les distinctions de sens de WordNet dans ce quelles ont de plus riche. Or on a vu au chapitre III que dautres niveaux de distinctions de sens sont envisageables. Dans le cadre de la recherche documentaire, limportant est quil y ait correspondance entre la description de la requte et celle du document. Un compromis est trouver entre la finesse de la description des sens et la capacit de lutilisateur prciser sa requte, matriser ce niveau de description. On sait en effet que le commun des mortels ne matrise pas facilement toutes les distinctions de sens des lexicographes. Si cette question de la granularit de la description nest pas aborde par M. Sussna et il est encore difficile dvaluer quel est le bon niveau de description pour la recherche documentaire.
24.3.2 La couverture des bases lexicales

Lexploitation de bases gnrales pour les tches dindexation pose un problme de la couverture. On a vu (chapitre III.1, supra) que les bases lexicales gnrales comme WordNet ne couvrent que partiellement les corpus spcialiss. Or les systmes de recherche documentaire doivent indexer tout type de texte, des textes spcialiss comme des articles de presse. La question de la couverture est donc cruciale171. R. Krovetz (1991) indique que 50 60 % des mots susceptibles dtre retenus comme clefs dindexation par un systme de recherche documentaire sont absents du Longman Dictionary of Contemporary English. E. Agirre et G. Rigau (1996), qui travaillent sur un ensemble de textes diversifis (diffrents types darticles de presse, textes scientifiques et humoristiques), signalent que 11% des noms de leur corpus ne figurent pas dans WordNet. Cest donc autant de mots qui ne peuvent pas tre dsambiguss. Toute la question est donc de savoir quel intrt peut avoir une dsambigusation partielle pour un systme de recherche documentaire. Apprhender une parent smantique sous la forme dune distance entre les sens de mots dans un rseau comme WordNet soulve ainsi plusieurs questions. De multiples formules de distance sont testes, mais il est prmatur de chercher tirer une conclusion dfinitive sur les paramtres prendre en compte et pour se faire une vritable ide de leur impact sur les rsultats de dsambigusation. Seule lexprience et le recul permettront de clarifier peu peu cette question.
171
Si M. Sussna ne mentionne pas ce problme de couverture pour WordNet, cest probablement quil ne cherche traiter que des articles de presse. En fait, cest dessein quil choisit ce corpus dans une base documentaire : [n]ous travaillons partir de la collection darticles du Time Magazine qui est la moins spcialise et la moins technique, parce que WordNet est un lexique de langlais gnral (Sussna, 1993).
Dune langue lautre
117
25. UN MEME PARTI PRIS DEMPIRISME

Ces travaux montrent que lexploitation smantique des corpus est largement empirique. Il sagit toujours dapprocher le sens tel que le livre le corpus, en biaisant, laide de techniques simples, souvent par une combinaison de techniques trs spcifiques, chacune permettant de saisir un aspect particulier des phnomnes dcrire. Il en rsulte une image imparfaite, souvent floue, mais qui nanmoins reflte le sens que lon cherche cerner. En retour, lexprimentation devrait permettre de mieux comprendre les phnomnes observs.
25.1 Fonder une smantique sur les corpus

Les expriences dcrites ci-dessus tmoignent dun changement dans la vision mme de ce quest la smantique : on est pass dune conception logique une conception distributionnelle selon laquelle le sens dun mot et plus largement dune unit textuelle peut se dcrire par les contextes dans lesquels il figure. Au cours des annes 1970 et 1980, cest surtout lIntelligence Artificielle qui sintresse lanalyse smantique de textes172. Lapproche retenue est celle dune comprhension en profondeur avec lobjectif de construire une reprsentation logico-smantique, de la phrase, du paragraphe ou du texte. Il sagit de modliser les vnements et situations dont parle le texte173. Mais, en dpit de leur intrt thorique, la plupart de ces travaux nont pas t tests en vraie grandeur sur des textes rels, de plus dune page, portant sur des domaines varis, comportant des mots inconnus et parfois mal rdigs, etc. De mme quen syntaxe, les techniques danalyse robustes ont progressivement remplac les techniques traditionnelles dans les systmes destins traiter de gros volumes de textes tout-venant, de nouvelles approches sont aujourdhui explores pour lanalyse smantique. Sous limpulsion des besoins en matire de recherche dinformation ou daide la lexicographie spcialise, lobjectif sest dplac. On ne cherche plus comprendre tout le texte, le reprsenter dans toute sa complexit, ses implicites et ses nuances de sens. Seule une partie du texte est pertinente, la reprsentation cible est gnralement prdfinie et on nglige les nuances de sens, les buts du locuteur, les prsupposs et implicites, etc. Laccent porte dsormais sur les problmes de structuration lexicale avec notamment la dsambigusation smantique des mots, le calcul de contraintes de slection, les phnomnes de synonymie, de parent ou de classe smantique et plus largement le reprage des relations lexicales.
172 173
Cf. (Herzog et Rollinger, 1991). Cela suppose tout la fois de rsoudre les anaphores, de reprer les variations de la prise en charge nonciative, de saisir la porte de telle ngation ou de tel quantificateur, didentifier les relations structurant lensemble du discours, etc.
118
DEUXIEME PARTIE
Tous ces travaux reposent sur lide que le sens se construit en contexte mais aussi par le contexte. Cest donner un rle central au corpus. On a soulign ce point dans le travail de G. Grefenstette. Celui de M. Sussna converge et gard. Mme lorsque des connaissances extrieures sont exploites, elles nont pas le rle que leur donnait lIntelligence Articificielle. En introduisant des distinctions smantiques supplmentaires, on peut caractriser plus prcisment les contextes, mais cest la confrontation des contextes entre eux qui fait merger le sens. Les connaissances projetes sur le corpus ne servent alors que de rvlateurs.
25.2 Exploiter des rsultats approximatifs

Mme si des perfectionnements sont envisageables, ces techniques sont approximatives. Les donnes ne sont jamais totalement fiables : la dsambigusation des corpus reste imparfaite, un anti-dictionnaire nest jamais ni complet ni totalement pertinent. Les oprations sont ellesmmes approches : lextraction des fentres graphiques ne respecte pas totalement les frontires naturelles des zones textuelles (comme linsertion dun exemple ou dune citation), le calcul des variantes morphologiques met laccent sur le seul prfixe. Le traitements effectus ne sont que partiellement matriss. Par exemple, le volume des donnes manipuler impose gnralement de les comprimer : on limine ainsi les mots outils, des mots trop rares, etc. Aucune de ces mthodes de compression de donnes nest cependant neutre. Elles reviennent toujours modifier la dfinition initiale du contexte et affectent les rsultats. On a souvent soulign linfluence de la lemmatisation sur les performances de recherche documentaire (Church, 1995) et pour lanalyse de contenu Lebart et Salem, 1994) ou celle des mots fonctionnels (Riloff, 1995). Seule lexprience pourra permettre de mesurer limpact de ces traitements et dajuster les mthodes employes aux objectifs poursuivis. Les rsultats obtenus sont parcellaires. Souvent, seuls les noms sont pris en compte. Il y a plusieurs raisons cela. La fiabilit des analyseurs ne permet pas toujours dexploiter les contextes verbaux. La description lexicale des noms dans un rseau comme WordNet est plus riche et plus structure donc plus exploitable que pour les autres catgories. Enfin, les techniques mettre en uvre ou les relations exploiter diffrent : on ne dcrit pas un adjectif ou un verbe comme on dcrit un nom. Pourtant, la description lexicale des adjectifs et des verbes est importante et des verbes peuvent tre de bonnes clefs dindexation (pour les corpus spcialiss notamment). Des mthodes ont t proposes pour dcrire les adjectifs ou les verbes174, mais tout un travail dexprimentation et de mise au point reste faire pour construire
174 Il sagit de reprer le schma de sous-catgorisation des verbes (Hindle, 1990 ; Resnik, 1993 ; Grishman et Sterling 1994) ou les liens dantonymie et les relations scalaires entre les adjectifs (Justeson et Katz, 1996 ; Hatzivassiloglou et MacKeown, 1993).
Dune langue lautre
119
automatiquement des bauches dentres de dictionnaires effectivement exploitables. Quant la question de la dsambigusation des verbes, R. Basili et ses collgues (1997) soulignent quelle est peu explore. Les rsultats obtenus sont nanmoins intressants. Les entres de dictionnaire construites automatiquement, mme si elles demandent tre retravailles par un lexicographe, donnent une vue globale du fonctionnement du mot dans un corpus technique. Elles aident se reprer dans une langue spcialise en saffranchissant des prjugs induits par la langue gnrale. On peut supposer quune dsambigusation lexicale mme partielle augmente toujours la qualit de lindexation dun document et amliore la prcision des systmes de recherche documentaire.
25.3 Combiner des techniques simples

Les expriences rapportes ci-dessus reposent sur des techniques frustes au regard de lambition smantique. Une fois donnes les ressources (corpus enrichi et/ou ressources lexicographiques gnrales), il sagit dextraire des contextes, de calculer des distances, dliminer les mots figurant dans un anti-dictionnaire, de comparer des prfixes de mots pour le calcul des variantes morphologiques, etc.. Aucune de ces oprations ne fait appel un traitement smantique, certaines ne ncessitent mme aucune connaissance linguistique. Dans la pratique, cest souvent la combinaison de diffrentes techniques qui donne les meilleurs rsultats. Cest patent dans (Grefenstette, 1993) qui fait appel des techniques varies mais applique galement une mme technique, le calcul de similarits, sur des donnes de natures diffrentes. chaque fois, une nouvelle facette du mot est mise en relief : les relations dhyponymie dans lesquelles il entre, ses verbes oprateurs, les liens de parent smantique entre les mots. Cest en regroupant ces diffrentes informations quon peut construire des entres de dictionnaires. Il faut galement combiner diffrentes techniques pour la recherche de documents. Si lon admet que lindexation sur les sens plutt que sur les mots amliore la prcision de la recherche documentaire, il faut galement cerner le rle et la place de la dsambigusation lexicale dans un systme de recherche documentaire. tant donne la taille des bases documentaires traiter, il est illusoire de chercher dsambiguser et indexer tous les documents au pralable. M. Sussna ne dsambiguse que des listes de mots prslectionns. Il faut probablement aller plus loin et ne dsambiguser que certains textes ou certaines portions de textes qui auront t tris dans un premier temps par des techniques plus classiques de la recherche dinformation (sur la base de mots clefs statistiquement significatifs, par exemple). Plus gnralement, il sagit de trouver le bon dosage des mthodes linguistiques et statistiques. (Sussna, 1993) semble postuler que la description la plus riche est ncessairement la plus approprie. Cela ne va pas de soi. Nous avons vu que des distinctions fines de sens peuvent ntre pas pertinentes pour la slection de documents (voir supra, 3.3.1).
120
DEUXIEME PARTIE
De la mme manire, il nest pas certain que la lemmatisation systmatique (Church, 1995) ou la morphologie drivationnelle, avec notamment le regroupement des mots appartenant la mme famille drivationnelle (stemming) (Gaussier et coll., 1997), amliore les performances de la recherche documentaire. Par ailleurs, le travail de G. Grefenstette (1993) le montre, les traitements linguistiques sont lourds et peuvent souvent tre convenablement approchs parfois supplants par des techniques frustes.
25.4 Modliser par ajustements successifs

Cest toujours de manire empirique quon cherche rendre compte du sens que vhicule le texte. On tente de construire un modle qui dcrive au mieux les effets de sens observs ou perus. Ce modle nest pas construit a priori, il est progressivement mis au point au vu des rsultats obtenus. Ce travail dajustement permet en retour de mieux comprendre la nature des phnomnes dcrits. Le volume des textes traiter impose de saffranchir du dtail de tel effet de sens et de la diversit des phnomnes de surface pour donner une description synthtique du corpus. Dans les exemples prsents ici, comme souvent, cette modlisation repose sur des mesures quantitatives et statistiques. La mesure, en effet, mme si elle a peu de signification en tant que telle, permet de rsumer un ensemble dobservations, de comparer et dordonner les phnomnes observs. La dmarche consiste gnralement emprunter un modle connu dont les proprits ont le mrite dtre bien dcrites puis en ajuster exprimentalement les paramtres pour affiner la description et mieux rendre compte des phnomnes perus. On cherche ainsi approcher la notion de parent smantique par des mesures de distance vectorielle ou de distance dans un graphe. Diverses expriences ont t menes pour modliser lopration de dsambigusation smantique laide dun rseau de neurones (Vronis et Ide, 1990) ou par la mthode du recuit simul emprunte lalgorithmique combinatoire (Cowie et al., 1992). Il reste ensuite ajuster le modle en modifiant le nombre ou la nature des paramtres pris en compte et en jouant sur leurs poids respectifs. Cest par une srie dexpriences que M. Sussna dtermine la taille des contextes et le poids de chaque type de relation dans le calcul de la distance smantique des nuds de WordNet. Aprs avoir test une grande varit de mesures de similarits entre les mots, G. Grefenstette retient celle qui semble produire les meilleurs rsultats (1994a, p. 47). Il nest donc pas de bon modle dans labsolu. Il nexiste que des modles opratoires qui sont utiles lutilisateur final dans le cadre dune application donne. Seul le lexicographe peut dire si les bauches dentres de dictionnaires construites automatiquement lui fournissent effectivement un bon point de dpart. Cest dans la mesure o la dsambigusation lexicale telle que lenvisage M. Sussna permet damliorer significativement la prcision de la recherche de documents quelle prsente un intrt, par exemple. Le verdict dutilit est la seule
Dune langue lautre
121
vritable valuation possible. La maturit du domaine ne permet malheureusement pas toujours de mener cette valuation globale bien, mais lexemple des entres de dictionnaire construites par SEXTANT montre nanmoins la fcondit de cette dmarche empirique. En ce qui concerne ltiquetage morpho-syntaxique et syntaxique, il existe des corpus tiquets qui font lobjet dun consensus suffisant pour servir de rfrence et on peut comparer entre eux les rsultats obtenus par des mthodes diffrentes. En matire smantique, en revanche, la subjectivit des phnomnes et la diversit des objectifs se traduisent par une grande htrognit des tiquetages et interdisent toute valuation intermdiaire.
25.5 Exprimenter pour mieux expliquer

Toute la difficult vient de quen modlisant, on cherche rendre compte de notions qui sont essentiellement intuitives et largement subjectives. Pour un locuteur donn, la notion de parent smantique repose sur des associations dides toutes personnelles et on sait que la dfinition dun mot varie dun dictionnaire lautre, y compris pour ce qui est de la distinction de ses diffrents sens. On arrive ainsi un paradoxe. On observe lextrme sensibilit des rsultats au mode de calcul utilis, aux paramtres pris en compte et leurs poids respectifs. Par des rglages exprimentaux, on sait construire des modles opratoires qui dcrivent effectivement les effets de sens dans un corpus donn. Pour autant, on ne sait pas toujours expliquer pourquoi tel modle est meilleur que tel autre. Pourtant, ces expriences devraient progressivement permettre de mieux comprendre en retour les phnomnes que lon cherche modliser. La diversit des conditions exprimentales fait quil est souvent difficile de tirer des conclusions gnrales sur les proprits de telle mesure, limportance de tel paramtre ou ladquation de tel modle et nos connaissances en la matire sont encore parcellaires et fragiles. Pourtant, lexprimentation systmatique consistant tester un un diffrents paramtres comme le font M. Sussna (1993) ou G. Grefenstette (1994a), la confrontation de diffrentes mesures sur les mmes donnes exprimentales, comme le fait (Daille, 1994) par exemple, commencent porter leurs fruits. La convergence des rsultats de diffrents auteurs (Sussna, 1993 ; Agirre et Rigau, 1996 ; Resnik, 1995b) montre que la parent smantique dun ensemble de mots est perue comme dautant plus grande que leurs sens sont plus prcis175. Le cas du score dassociation est exemplaire de cette dmarche empirique. K. Church et P. Hanks ont propos (1990) de mesurer la force de cooccurrence de deux mots par une mesure fonde sur la notion dinformation mutuelle et emprunte la thorie de linformation. Ils ont
175 Pour un sens donn, on peut mesurer ce degr de spcificit ou contenu informationnel (Resnik, 1995b) par la hauteur du nud qui le reprsente dans une hirarchie comme WordNet ou par le nombre de nud que ce nud domine.
122
DEUXIEME PARTIE
montr lintrt et la diversit des rsultats quelles permettait dobtenir. leur suite, de nombreux auteurs ont eu recours cette mesure (Hindle, 1990 ; Resnik, 1995b). Pourtant le choix de cette mesure nest jamais rellement justifi : on en explicite les proprits formelles, mais sans expliquer pourquoi cette mesure est pertinente pour mesurer des contraintes de slection. La convergence de diffrentes expriences montre cependant quen donnant un poids important aux vnements rares et en soulignant les emplois spcialiss 176, le score de cooccurrence fait ressortir les expressions figes, ce qui est prcieux dans une perspective lexicographique : lassociation de il et de boeuf, dans oeil de buf, est intressante pour la description du mot boeuf. Mais ceci explique linverse que cette mesure soit mal adapte la modlisation conceptuelle dun domaine, ce que (Habert et al., 1996) met en vidence. Pour dcrire le concept auquel renvoie un mot, ses proprits et les relations dans lequel il entre, il faut au contraire liminer les attirances proprement lexicales et sappuyer davantage sur les associations banales comme manger/lever du buf, viande de buf, buf cuit, etc. Linformation mutuelle est donc un bon indice lexicographique mais un mauvais outil de modlisation conceptuelle. Par ailleurs, cette mesure qui met laccent sur les phnomnes rares (Basili et al., 1993b, p. 179) est peu adapte aux contextes syntaxiques : elle serait utile si on pouvait se fier entirement aux analyses (ibid.), mais elle donne en fait trop dimportance des relations dues des ambiguts syntaxiques ou des erreurs danalyse (ibid.). Cest la multiplication et la confrontation des expriences utilisant la mesure de linformation mutuelle et la comparaison avec des mesures diffrentes qui permet de tirer des conclusions de porte un peu gnrale, de progressivement mieux comprendre ses proprits comme mesure de distance entre les mots et de cerner les conditions de son utilisation.
176
Le fait pour un mot de figurer toujours ou trs souvent dans le(s) mme(s) contexte(s).
Dune langue lautre
123
CHAPITRE V
LE LANGAGE AU FIL DU TEMPS : CORPUS ET DIACHRONIE
26. DEFINITIONS ET ENJEUX

Lcoulement du temps structure de nombreux corpus, sans quils permettent pour autant la saisie de lvolution du langage. La volont de crer des dictionnaires reposant sur l'usage effectif et son changement a par exemple contribu la cration de corpus lectroniques intgrant des donnes de diffrentes priodes. C'est le cas du Trsor de la Langue Franaise (INaLF, CNRS) qui s'appuie sur une base de textes de plus de 160 millions de mots, s'talant du XVIe au XXe sicle. Toutefois, de tels corpus ne constituent pas forcment des corpus adapts aux tudes diachroniques. Le registre littraire y domine, au dtriment d'autres registres. La dimension temporelle structure galement d'autres corpus, encore plus spcialiss. Corpus mono-metteur : c'est le cas de Mitterrand1, dont les textes s'grnent sur le premier septennat. Corpus pluri-locuteurs : c'est le cas des rsolutions gnrales des quatre grandes confdrations syndicales ouvrires franaises tudies entre 1971 et 1976 (Bergounioux et al., 1982)177. Ces corpus sont de la mme manire restreints un registre (ou des variations sur un mme registre) : entretien, interview et discours de circonstance pour Mitterrand1, rsolutions de congrs pour (Bergounioux et al., 1982). Le temps intervient, mais on ne peut saisir son rle que sous un angle limit : une thmatique, un domaine, ou un genre bien dfini. A ct de ces corpus de fait spcialiss, se constituent des corpus historiques . Ils sont destins explicitement l'tude de l'volution de la
177
Le chapitre IX aborde la mesure de l'volution lexicale de tels corpus.
124
DEUXIEME PARTIE
langue. Nous prsentons en dtail un corpus de ce type : Archer, en section 2, ainsi que les problmes de reprsentativit et de constitution de tels corpus. L'volution de la langue peut tre examine sur la courte dure, sur le moyen terme, ou sur le long terme. Nous rendons compte d'tudes relevant de ces diffrentes temporalits en section 3. Nous abordons enfin en section 4 les problmes mthodologiques propres aux corpus historiques.
27. UN CORPUS POUR L'ETUDE DE LA DIACHRONIE : ARCHER

Les analyses diachroniques de l'anglais disposent du corpus d'Helsinki d'1,5 millions de mots (Kyt, 1993b). La priode couverte va de 750 1700178. Le corpus Archer179 (Biber et al., 1994) complte la tranche chronologique couverte180. D. Biber, E. Finegan et D. Atkinson (1994, p. 7-13) montrent les usages possibles d'un tel corpus historique. Ils utilisent par exemple la distinction tablie par Biber (cf. chapitre I) entre production informationnelle (qui favorise noms, prpositions, adjectifs attributs etc.) et production implique (qui privilgie le prsent, l'omission de that, les contractions, les dmonstratifs, la premire personne, le pronom it, BE comme verbe principal, les pronoms indfinis, etc.). Si l'on compare les registres, thtre, lettres et journaux intimes se font plus impliqus depuis le XVIIe sicle, tandis que la mdecine devient plus informationnelle . La comparaison entre anglais et amricain sur la mme dure montre que les registres amricains sont gnralement plus informationnels que leurs quivalents anglais.
27.1 L'anglais et l'amricain de 1650 aujourd'hui

Archer181 a t constitu pour permettre l'tude diachronique de l'anglais et de l'amricain entre 1650 et aujourd'hui par le biais de dix registres , qui mlent thmatiques et genres182. Les registres sont les suivants pour l'crit : journaux intimes, lettres, fiction, crits journalistiques, mdecine (anglais seulement), science (anglais seulement), dcisions de justice (amricain seulement), et pour l'crit li l'oral (c'est--dire imitant l'oral ou servant de base une production orale) : les conversations fictives, le thtre, les sermons et homlies.
178 Des documents cossais (1450-1700) et amricains (1600-1700) constituent deux corpus complmentaires (Kyt, 1993). 179 A Representative Corpus of Historical English Registers. 180 Il y a donc recouvrement pour la priode 1650-1700, ce qui autorise des comparaisons fructueuses sur les choix faits pour reprsenter ce laps de temps (cf. infra). 181 Le corpus rassembl Cambridge (English Faculty) pour la priode 1600-1800 s'inscrit dans la mme perspective (Wright, 1993). 182 Dans la mme acception qu'au chapitre I.
Dune langue lautre
125
Archer est organis par priodes de cinquante ans pour que lon puisse examiner l'volution, les flux et les stabilits sur des priodes relativement courtes. L'amricain n'est dans l'immdiat reprsent que par trois priodes : deuxime moiti des XVIIIe, XIXe et XXe sicles. L'anglais l'est pour les neuf priodes. Pour chaque priode de cinquante ans et chaque registre, un chantillon de 20 000 mots183 est constitu. Archer totalise 1,7 million de mots.
27.2 Echantillonnage des registres

Le choix de textes relevant des registres viss se heurte plusieurs obstacles. En premier lieu, les ressources bibliographiques sont organises thmatiquement et non par registres. Ainsi, une des sources bibliographiques consultes, l'entre lettres, renvoie en fait aux manuels d'criture de lettres, ce qui ne correspond pas l'objectif vis : la correspondance prive authentique. En second lieu, les distinctions de registre d'une priode peuvent ne pas correspondre exactement avec celles d'une autre priode184. Les registres ne restent pas ncessairement distincts l'un de l'autre au fil du temps. Bien sr, les registres mergent un moment donn de l'histoire, pas ncessairement tous au dbut d'une priode d'investigation ni au dbut d'une priode de cinquante ans retenue (Biber et al., 1994, p. 5). M. Kyt (1993) tmoigne de la complexit des paramtres prendre en compte pour rassembler des donnes reprsentatives de l'amricain entre 1600 et 1700 , dans le cadre d'un autre corpus historique. Seuls sont retenus les documents crits (et ventuellement imprims) aux EtatsUnis, et pour la priode commenant en 1670, date qui spare la premire gnration d'immigrants de ses descendants, provenant d'auteurs ns dans ces colonies (ou tablis depuis suffisamment longtemps). Les dates dinstallation diffrentes des colonies du Sud (Virginie, premires arrives en 1607) et du Nord (Plymouth, 1620, baie de Massachusetts 1630, etc.) amnent constituer des chantillons distincts pour rendre compte de leurs histoires langagires propres. Certains registres caractristiques des colonies ont t intgrs : rcits de captivit, tmoignages, etc. L'apprhension de l'oral ne peut s'effectuer que par des biais : Le langage de tous les jours trouv dans la correspondance prive, certains journaux intimes ou des textes faits pour tre dits fournissent un moyen d'approcher le langage parl du pass, le vrai cur du changement linguistique. De la mme manire, les crits des immigrants les moins duqus, qui n'auraient peut-tre pas pris la plume dans leur pays d'origine mais qui taient forcs de le faire dans les colonies, peuvent aussi nous donner des aperus [glimpses] de la langue
10 fragments de 2 000 mots, pour diminuer le poids des idiolectes. Par exemple la correspondance peut relever de la littrature, voire de la philosophie, comme de l'change purement priv aux XVIe et XVIIIe sicles (Wright, 1993, p. 26). Finegan et Biber (1995, p. 249) expliquent l'incohrence relative de leurs rsultats concernant les lettres par lhtrognit de ce registre.
183 184
126
DEUXIEME PARTIE
parle (ibid. p. 5)185. Pour Archer, au sein d'un registre, le choix des ouvrages repose sur une procdure alatoire186 (au sens probabiliste)187. Un protocole bien dfini permet galement, pour chaque registre, d'extraire des fragments (pas forcment continus) de 2 000 mots188.
27.3 Structuration temporelle

L'chelonnement des documents retenus peut avoir comme logique une priodisation. C'est le choix d'Archer, qui distingue donc des priodes de cinquante ans : ce sont les blocs qui sont soumis ensuite lanalyse linguistique et statistique. Le parti pris du corpus couvrant l'anglais de 1600 1800, Cambridge (Wright, 1993), est tout autre : un talement continu des documents, avec une ossature forme de textes slectionns dix ans d'intervalle. L'objectif est ici de permettre au chercheur de choisir les intervalles qui lui paraissent pertinents et de ne pas l'enfermer dans une priodisation qui peut s'avrer non valide pour sa recherche.
27.4 Reprsenter les tats de langue ou des idiolectes ?

De quels usages les corpus historiques constitus sont-ils reprsentatifs ? Une des rponses possibles est celle qui sous-tend la cration dArcher : les variations observes relvent des genres ou des types textuels sousjacents. Si l'on veut tudier l'volution d'une langue, il faut articuler l'chelonnement des textes dans le temps avec leur stratification en genres qui ont une cohrence et un mouvement propres. D'o une dmarche d'chantillonnage alatoire, utilisant des extraits courts, mais nombreux. Finegan et Biber (1995, p. 252) soulignent ainsi que la reprsentation du genre sermons est probablement plus satisfaisante dans Archer que dans Helsinki, mme si ce dernier corpus comprend des textes entiers qui totalisent un nombre de mots plus important. Helsinki en effet utilise les sermons de deux prcheurs seulement, tandis
Cet article fournit des extraits significatifs de tels documents (ibid., p. 5-8). Ainsi, pour la fiction anglaise, le rpertoire Oxford Companion to English Literature (OCEL) a t utilis. Les 1 099 pages de l'OCEL ont t divises par le produit du nombre de priodes et de textes requis pour chaque priode, ce qui a fourni un intervalle de 13 pages. Le numro de la premire page considre a t tir au hasard, puis on a examin la page suivante 13 pages d'intervalles et ainsi de suite. Pour les textes de fiction par exemple, sur chaque page examine, on a pris e premier auteur anglais ayant crit un roman dans une des priodes retenues et on a choisi le son 3 roman s'il y en avait 3 ou plus (ou son 2e ou son unique roman). On a continu jusqu'obtenir le nombre de textes ncessaires pour toutes les priodes (ce qui a ncessit plusieurs passes sur l'OCEL, en tirant chaque fois un nouveau numro au hasard pour la premire page considre). 187 On reviendra au chapitre IX sur les raisons de ce choix. 188 Par exemple, pour les textes journalistiques ou scientifiques anciens, les documents ont souvent une taille infrieure 2 000 mots. Il faut alors regrouper. Inversement, dans les priodes rcentes, la longueur des textes oblige prlever les 500 premiers et derniers mots, ainsi qu'un empan de 1 000 mots au milieu, pour ne pas sur-reprsenter certains sites particuliers des textes (introduction, conclusion, etc.).
185 186
Dune langue lautre
127
qu'un chantillon plus lev de prcheurs figure dans Archer. D'autres travaux (Wright, 1993, p. 27-29) insistent au contraire sur la dimension idiolectale des observations. S. Wright (ibid. p. 28) cite par exemple les recherches sur l'emploi de certains marqueurs relatifs : [...] au dbut du XVIIe sicle, le systme des relatives diffrait du systme actuel en ce que le pronom which pouvait optionnellement servir renvoyer un antcdent humain aussi bien qu' un antcdent non humain. Cependant, progressivement, c'est le pronom who ( la place de which) qui a t choisi pour renvoyer des antcdents humains. Hope (1990) a montr que le choix des marqueurs relatifs dans les uvres de Shakespeare et Fletcher tait bass sur deux systmes en comptition. Alors que celles de Fletcher sont typiques de l'association moderne entre le relatif who et des antcdents humains, l'usage suivi par Shakespeare suggre que ce trait n'est pas un facteur aussi significatif pour son choix. Pour ces deux crivains donc, la smantique du systme de marqueurs relatifs a des valeurs diffrentes. Le rassemblement de donnes textuelles plus importantes pour un groupe d'auteurs contemporains a pour objectif alors de caractriser l'usage commun de ce groupe par rapport aux idiolectes de chacun des auteurs189. Se pose aussi la question de la part de la manipulation stylistique de la langue, de l'idiolecte et de l'usage du moment.
28. TUDES DE LA DIACHRONIE

Les corpus lectroniques permettent d'examiner l'volution de certains phnomnes langagiers sur de trs courtes dures (d'une anne sur l'autre, par exemple), sur le moyen terme (quelques dcennies) et sur le long terme : on peut alors comparer des tats de langue reconnus comme distincts dans la tradition linguistique (ancien franais / moyen franais / franais classique / franais moderne) ou examiner les changements au fil des sicles.
28.1 La courte dure

J. Sinclair a forg le terme de corpus de suivi (monitor corpus) pour dsigner des flux continus de textes permettant l'analyse chronologique, anne par anne par exemple, de donnes langagires. Cette notion tait au dpart une vue de l'esprit. De plus en plus de textes sont dsormais directement sous forme lectronique. C'est le cas de quotidiens employant une langue tenue comme Le Monde, The Guardian, dits sous forme de CD-ROM. C'est le cas aussi des bandes de
189 Voir (Wright, 1993, p. 30-34) pour une discussion du statut donner aux emplois par Joseph Addison des diffrentes formes de relatives. S. Wright prend nettement le contrepied de l'interprtation que fournissent Biber et Finegan des mmes faits.
128
DEUXIEME PARTIE
photocomposition de journaux mises disposition des crateurs de corpus. On peut donc comparer les ensembles constitus pour chaque anne, ou examiner les apports d'une anne donne190. A. Renouf (1993) dtaille l'utilisation en ce sens du Times, de novembre 1990 septembre 1991. Un premier filtrage isole les mots nouveaux, en les rpartissant en noms propres, acronymes et mots ordinaires . Le classement de ces derniers renseigne sur les mcanismes l'uvre et leur productivit relative : formations base d'onomatopes, jeux de mots, mots-valises, composs , doublons drivatifs (indifferentness), suffixations (eco-terrorism, executivedom), prfixations (euroconvertible) et conversions, etc. Par exemple, gate, par analogie avec Watergate, n'est gure productif en mars 1991 (seul ce mot est utilis) mais donne naissance en fin 1992 iraq(-)gate, dianagate, camillagate, threshergate. A. Renouf (ibid., p. 286-287) donne aussi les 50 prfixes (non-, re-, over-, etc.) et suffixes (-like, -based, -style, etc.) les plus frquents dans les composs de mars 1991.
28.2 Le moyen terme

La constitution des premiers corpus de rfrence pour l'anglais remonte aux annes soixante, avec Brown et LOB. Ces deux corpus fournissent un chantillon voulu reprsentatif de l'usage, amricain d'un ct, anglais de l'autre, en 1961 prcisment, au sein d'un certain nombre de registres. Plus de trente ans nous sparent de ces instantans du dbut des annes soixante. Aussi peut-on s'en servir pour examiner les carts avec l'usage actuel. C'est l'objectif de C. Mair (1995). Il compare l'emploi de help dans Brown et LOB avec l'usage en 1991. C. Mair a constitu pour ce faire un corpus selon les mmes critres que LOB, ceci prs que les textes retenus sont de 1991. Il appuie galement son analyse sur le CD-ROM du journal The Guardian pour la mme anne. Il examine l'volution des constructions suivantes de help : + to infinitif (Maybe he will help to turn our fair city into a 'ghost town') + infinitif seul, ventuellement prcd d'un SN sujet logique de cet infinitif (I helped him mend his bicycle) La deuxime construction est gnralement prsente comme un amricanisme dans les grammaires anglaises. Une tude dtaille indique que la premire est effectivement la variante dominante en anglais dans les annes soixante. Le corpus de 1991 montre (ibid., p. 264) d'une part que la frquence de help avec un complment infinitif s'accrot sensiblement par rapport 1961 et d'autre part que la construction avec
Pour les corpus de suivi, le problme n'est pas de raliser une dition lectronique propre , exempte de coquilles, faisant autorit, mais de pouvoir utiliser au plus vite des donnes vastes qui vont se trouver rapidement remplaces par d'autres (Blackwell, 1993, p. 101). Le nettoyage ne vise pas la perfection. Il doit simplement permettre le fonctionnement des outils logiciels d'exploration des donnes. Vu la taille des donnes traites, il doit tre entirement automatique ou limiter au maximum l'intervention humaine.
190
Dune langue lautre
129
infinitif seul domine dsormais (en particulier sans SN sujet logique de l'infinitif). La construction avec infinitif seul domine galement dans le CDROM de 1991 du journal The Guardian. Comme il s'agit d'un journal dont la langue est tenue , cette prdominance montre que la construction en cause a perdu la connotation de relchement qui tait la sienne trente ans auparavant. C. Mair voit dans cette volution l'indice d'une grammaticalisation , dfinie comme la transformation au fil du temps de certaines formes lexicales en simples marques grammaticales. Help se viderait progressivement de son sens et deviendrait un simple tai pour l'infinitif associ191. Pour C. Mair (ibid., p. 267), en outre, l'opposition faite par les grammaires entre les deux constructions n'est pas tout fait exacte. L'anglais et l'amricain suivraient un mouvement parallle, quoique dcal, dans l'volution de l'utilisation de help.
28.3 La longue dure

28.3.1 La position des adjectifs en moyen anglais tardif
H. Raumolin-Brunberg (1994) tudie la position des adjectifs en moyen anglais tardif (1350-1500). Elle s'appuie sur les donnes dHelsinki. Elle examine particulirement l'hypothse avance par plusieurs chercheurs selon laquelle la position de base serait post-nominale : on trouverait globalement plus d'adjectifs aprs qu'avant le nom ; pour les adjectifs pouvant se prsenter dans les deux positions, la post-position serait plus frquente ; enfin, la position aprs le nom serait non marque. H. Raumolin-Brunberg limite son tude la prose pour que n'interviennent pas les contraintes sur l'ordre des mots propres la posie. Le souscorpus examin comprend 200 000 mots. Les constats effectus dans Helsinki contrecarrent nettement l'hypothse formule ci-dessus. La comparaison de deux sous-priodes (1350-1420 et 1420-1500) ne montre pas d'volution sur la position de l'adjectif, l encore contrairement certaines propositions. En outre, l'cart entre les proportions pour les occurrences et les lemmes indique que beaucoup des adjectifs prcdant habituellement le nom sont trs frquents (great, good, holy, etc.). Les post-poss sont au contraire peu frquents192, comme le montre le tableau suivant : place de ladjectif pr-nominal post-nominal total occurrences 5 197 432 5 629 % 92, 7,7 100 formes 531 195 726 % 73,1 26,9 100
191 Un peu comme dans les constructions verbe support du type prendre peur o le nom vhicule l'essentiel du smantisme, le verbe apportant des indications temporelles et aspectuelles. 192 Les adjectifs qui apparaissent uniquement post-poss sont 90 % d'origine latine ou franaise.
130
DEUXIEME PARTIE
Les rsultats obtenus sont galement trs proches d'tudes faites pour l'anglais contemporain. Enfin, l'examen des divers registres reprsents dans le sous-corpus ne manifeste pas d'carts significatifs dans le placement des adjectifs par rapport aux constats globaux qui viennent d'tre donns. Au regard de ces rsultats, H. Raumolin-Brunberg conclut la primaut de la position antpose de l'adjectif en anglais, tout au long de son histoire.
28.3.2 L'alternance that / zro

En anglais, aprs certains verbes comme hear, hope, know, think, say et tell, certaines propositions objet peuvent tre introduites par that (I hope that becoming a catholic will give you peace of mind) ou rester non marques (I told him I had a letter from you). Cette alternance et ses conditions ont largement t tudies. Les donnes d'Helsinki ont permis de montrer une tendance gnrale la progression de la construction zro entre 1350 et 1710. Finegan et Biber (1995) reprennent l'tude de cette alternance en utilisant Archer, sur la priode allant de 1650 1990. Mais ils se restreignent trois genres : les lettres, les sermons et les articles mdicaux. Toutes priodes confondues, la rpartition par construction et par registre est la suivante : that 89 % 83 % 53 % zro 11 % 17 % 47 %
sermons mdecine lettres
Paradoxalement, les rsultats pour les articles mdicaux et les sermons vont contrecourant de la tendance mise en vidence pour Helsinki193. Au contraire, ces deux registres favorisent continment et de plus en plus nettement la construction avec that par rapport la construction zro. Finegan et Biber interprtent ce dcalage par une progression plus gnrale de ces registres vers une forme plus cultive (literate) et moins orale. Les lettres tmoignent d'une volution comparable, mais plus attnue (avec un tonnant renversement de tendance pour la priode 1900-1949, o la construction zro domine). Ces volutions dcales poussent multiplier les points de vue dans l'analyse globale de changements linguistiques. Finegan et Biber examinent d'ailleurs les attirances de certains des verbes majeurs pour chacune de ces deux constructions, toutes priodes confondues : [...]
Finegan et Biber (ibid., p. 251-253) montrent dans le dtail les difficults d'une comparaison des rsultats sur Helsinki et sur Archer pour la priode approximativement partage par ces deux corpus (1640-1710 et 1650-1699 respectivement). Les principes d'chantillonnage diffrent, on l'a vu. La taille rduite des parties correspondant cette priode pour les deux corpus fait aussi obstacle.
193
Dune langue lautre
131
les verbes say, tell et know montrent une forte prfrence pour that dans les trois registres, tandis que think montre une prfrence nette pour la construction zro, du moins en mdecine et dans les lettres (ibid., p. 250).
28.3.3 L'volution des dmonstratifs en franais

En franais, les dmonstratifs ont connu un changement morphologique radical. Aux XIe et XIIe sicles, s'opposent smantiquement deux paradigmes de dmonstratifs. Le premier (dsormais CIST) est issu du latin vulgaire ecce iste, le second (dsormais CIL), d'ecce ille. Le premier exprime la proximit, le second l'loignement, temporel ou spatial, soit par rapport l'auteur, soit par rapport l'un des personnages194. Chacune des formes peut tre aussi bien pronom (Cil vient) que dterminant (Cil chevaliers vient) et il existe en outre des formes longues prfixes par i- : icelui, etc. Rappelons que l'ancien franais possde une dclinaison opposant deux cas : le cas-sujet (issu du nominatif latin) et le cas-rgime (issu de l'accusatif latin). S'ajoute parfois, c'est le cas pour les dmonstratifs, un second cas-rgime singulier (issu du datif latin). Au total, 14 formes diffrentes (28 si l'on inclut celles prfixes en i-). partir du XVIIe sicle, le paradigme des pronoms (Celui-ci vient) est totalement spar de celui des dterminants (Cet homme vient). Une tape marque le passage d'un systme l'autre. Au XIIe sicle, apparat au nord de la France une nouvelle forme de cas-rgime masculin pluriel : ces, toujours dterminant, va ensuite tre employ galement au fminin pluriel. Fin XIIe-dbut XIIIe sicle, apparat ce, dterminant masculin singulier au casrgime, employ uniquement devant un mot commenant par une consonne (ce chevalier). C'est en fait un nouveau paradigme qui merge, le troisime : ce / ces, uniquement dterminant et toujours atone, sans opposition de genre au pluriel, et smantiquement indiffrenci (pas d'opposition proximit / loignement). Ce changement profond n'a pas d'quivalent dans la plupart des autres langues romanes, o les formes de dmonstratifs continuent tre employes la fois comme dterminants et comme pronoms. Il reste nigmatique : les changements phontiques ne suffisent expliquer ni la spcialisation globale des paradigmes ni la slection des formes survivantes au sein de chaque paradigme. L'objectif de C. Marchello-Nizia (1995, p. 115-181) est d'expliquer dans le dtail la rpartition et l'volution des diffrentes formes. Les hypothses quelle propose s'appuient sur des constats que seul permet le traitement de trs gros corpus195. Elle souligne en effet (ibid., p. 138-139) : Par gnralisation ou simplification abusive, on gomme le fait que ce n'est pas
194 L'opposition smantique entre les deux sries, indniable, est plus complexe. Elle a suscit de nombreuses analyses (Marchello-Nizia, p. 129-130). L'hypothse actuellement la plus satisfaisante, selon C. Marchello-Nizia, est celle de G. Kleiber (ibid., p. 129-137). Pour ce dernier, les formes en CIST indiquent au destinataire qu'il faut oprer l'appariement rfrentiel partir du contexte d'nonciation immdiat de l'occurrence (contexte spatio-temporel reprsent ou contexte nonciatif ou discursif), ce qui n'est pas le cas pour les formes en CIL. 195 Cf. section 4.1 sur la taille des corpus historiques.
132
DEUXIEME PARTIE
tout le paradigme de CIL qui est devenu pur pronom, mais seulement quatre formes sur sept : celui, celle, ceux, celles ; cil, cel et celi ont disparu. Pour cil, on peut dire qu'il s'agissait d'une forme de cas-sujet (singulier ou pluriel), et ds lors que la dclinaison disparaissait, les formes qui instanciaient les diffrents cas devaient disparatre. Mais pourquoi est-ce celui qui s'est conserv et non cel, et pourquoi l'inverse pour le fminin est-ce celle et non pas celi qui s'est conserv ? De mme, ce n'est pas tout le paradigme de CIST qui s'est conserv en devenant pur dterminant. Sur six, seules deux formes, la forme du fminin singulier cette, et celle du masculin singulier devant voyelle cet, viennent directement du paradigme CIST. Ce n'en provient pas, non plus que proprement le pluriel picne196 ces197. Les autres formes, au nombre de quatre (cist, cestui, cez, cestes), ont disparu. C. Marchello-Nizia s'appuie sur un important corpus d'ancien et de moyen franais. Pour l'ancien franais, ont t utiliss seize textes en vers ou en prose (ibid. p. 147-148), soit prs de 685 000 mots, s'chelonnant de 1100 environ 1300 environ. Ces textes se situent dans le domaine littraire, central dans les recherches des mdivistes, et une concordance est disponible pour chacun d'eux. Ils comprennent 8 237 dmonstratifs. Pour le moyen franais (XIVe et XVe sicles), le corpus utilis pour la constitution du Dictionnaire du Moyen Franais (INaLF, Nancy), qui compte environ 4 millions de mots et qui est d'origine plus varie198, a fourni prs de 36 000 occurrences de dmonstratifs. L'examen dtaill des concordances des formes longues (prfixes en i-, suffixes en -ui / -i, ou portant les deux affixes) dans le corpus d'ancien franais199 permet de mieux cerner les notions de soulignement , d expressivit , de renforcement , utilises jusqu'alors. Ces formes sont en effet employes en dbut de phrase ou de vers. Elles sont pronoms dans 3 cas sur 4 pour les formes suffixes en -ui / i et dterminants dans deux tiers des cas pour les formes prfixes en -i . Elles dterminent alors le plus souvent un substantif complment d'objet plac en tte de phrase. Elles mettent en vidence cette construction, marque cette poque. A partir de ces observations, C. Marchello-Nizia (ibid., p. 144) formule l'hypothse d'une rpartition des dmonstratifs en trois groupes : les formes toujours atones (ces et ce), les formes toujours toniques (les formes longues) et les formes pouvant tre atones ou toniques (cil, cel, cele, ceus et cist, cest, ceste). Cest dpasser l'opposition dterminant / pronom et prendre en compte la dimension accentuelle. Les cas-sujets masculins singuliers cil et cist suivent bizarrement une volution dcale : cist s'efface partir de 1250, en lien avec la chute de la dclinaison, tandis que cil reste employ jusqu' la moiti du XVe sicle, o il connat une disparition brutale. C'est un paralllisme avec le pronom personnel il qui expliquerait cette volution de cil : on constate en effet
Utilisable au fminin et au masculin. Cette forme provient la fois de cez (de la srie CIST), par volution phontique de l'occlusoconstrictive finale [ts] en [s] et de cels (de la srie CIL), employ de faon inaccentue et proclitique comme dterminant. Ce est fait par analogie sur ces. 198 182 uvres diffrentes, de longueur ingale et de divers genres (chroniques, romans, chansons de geste, posie lyrique ou didactique, chartes, traits philosophiques, etc.). 199 1 027 occurrences sur 8 237 dmonstratifs.
196 197
Dune langue lautre
133
une volution parallle de il et de cil (ibid. p. 164). En outre, les comptages oprs montrent qu'en moyen franais, les deux paradigmes CIST et CIL ne sont pas encore spcialiss, l'un pour les dterminants, l'autre pour les pronoms. Les emplois pronominaux sont occups essentiellement par trois formes : celui, celle, et cestui. Ce serait l encore l'influence du systme pronominal qui aurait jou. Ont en effet t conserves comme pronoms dmonstratifs les formes (celui, ceux, celle, celles) ressemblant aux pronoms personnels employs de manire autonome (lui, eux, elle, elles), celles sans correspondant pronominal disparaissant (comme celi, cesti, cestui). Par ailleurs, les formes longues se spcialisent en moyen franais dans la fonction de pronom, alors que dans la priode prcdente, la dtermination focalisante les caractrisait. Ce serait aussi le contrecoup du remplacement progressif de l'accent tonique de mot valeur distinctive, encore prsent en ancien voire en moyen franais, par l'accent en fin de groupe syntaxique, la dtermination marque trouvant dans -ci et -l post-fixs le moyen de souligner cet accent de groupe. Cette volution est une deuxime tape dans le mouvement de distinction entre la catgorie du pronom et celle du dterminant, mouvement amorc avec l'apparition du dterminant ce / ces, et achev la fin du moyen-ge par l'institution de formes purement pronoms.
29. PROBLEMES METHODOLOGIQUES

La constitution et l'annotation de corpus diachronique rencontrent des obstacles spcifiques. Les ressources rsultantes permettent nanmoins de vrifier, de prciser les volutions et de renouveler les explications qui en sont fournies.
29.1 Des corpus petits et peu annots

La constitution mme des corpus pose des problmes spcifiques pour les tats anciens d'une langue o les sources sont des manuscrits (l'ancien franais par exemple). Les variantes graphiques d'une mme forme peuvent tre nombreuses200. Mais il est dsormais possible de mmoriser et de relier diffrents types de documents. Cest le cas du projet Charrette dirig par K. Uitti (Universit de Princeton) : les transcriptions diplomatiques des huit manuscrits du XIIIe sicle du Chevalier de la Charrette de Chrtien de Troyes, soit prs de 36 000 lignes pour un pome denviron 7 100 lignes, sont relies une version lectronique de ldition Foulet-Uitti et aux images de ces manuscrits. La philologie voit ainsi souvrir de nouvelles perspectives.
200
Les 28 formes de dmonstratifs repertories par C. Marchello-Nizia (1995) se ralisent en plus de 80 graphies.
134
DEUXIEME PARTIE
Nous l'avons vu, le dveloppement des corpus lectroniques a trs largement bnfici cette dernire dcennie des apports, techniques et financiers, de la communaut du TALN qui voit l une tape indispensable pour la mise au point de systmes de traitement du langage robustes. L'accent est bien sr mis sur la langue contemporaine. Autrement dit, il n'y a pas vraiment de raisons que beaucoup de temps et d'nergie soit consacr la recherche sur les tats de langue anciens. On peut donc escompter un retard sensible dans les techniques et les moyens mis en uvre pour l'annotation des corpus historiques. Les corpus historiques actuels sont d'ailleurs trs sensiblement plus petits que les corpus synchroniques (Finegan et Biber, 1995). Que l'on compare le million et demi de mots d'Helsinki ou d'Archer avec les 100 millions de mots (tiquets, au surplus) de BNC. En dehors de ces projets de corpus conus pour tudier la diachronie, parce quil est coteux de constituer des corpus bien rpartis sur les genres et les priodes, les constats sont souvent tablis sur les ensembles de textes qui sont effectivement disponibles sous forme lectronique mais qui ne forment pas vraiment un corpus historique au sens d'Archer par exemple. Cette situation biaise videmment les observations et leur interprtation, sans que les chercheurs qui ont recours ces rassemblements de circonstance en soient toujours conscients. L'annotation de ces corpus se heurte en outre des obstacles spcifiques. Une langue cas comme l'ancien franais connait une variation importante dans l'ordre des mots, alors que les tiqueteurs et parseurs disponibles ont t conus pour des langues o l'ordre des mots est notablement plus contraint. La connaissance du lexique et de la syntaxe de ces tats de langue n'offre pas non plus le mme appui une automatisation. l'inverse, ces corpus historiques tant destins, pour leur trs grande majorit, rester nus , ils ne permettent pas facilement de valider ou d'invalider des hypothses linguistiques. Ils supposent une analyse trs souvent manuelle des donnes201 pour trier les faits et proposer des hypothses, mais aussi pour comparer la reprsentation formelle postule avec le corpus. Ainsi, T. Nevalainen (1994), pour tudier l'volution de l'opposition en anglais entre les formes des adverbes en -ly et sans suffixe (slowly / slow) en contrastant la priode 1350-1420 avec la priode 1640-1710, commence par extraire dHelsinki les formes se terminant en -ly (elle rpertorie 14 variantes graphiques du suffixe), limine celles qui ne sont pas des adverbes ainsi que les adverbes faits sur une base nominale (namely), et cherche les adjectifs ayant servi de base aux adverbes ainsi isols. Ce sont encore de simples concordances qui sont employes par Finegan et Biber (1995, p. 245) dans leur tude de l'alternance that / zro aprs certains verbes.
201
Mme si des environnements informatiques adquats allgent parfois la charge.
Dune langue lautre
135
29.2 Vrifier et prciser les volutions

C. Mair (1995, p. 260) rsume assez bien ce que la linguistique diachronique va gagner dans ces nouvelles tudes : L'approche du changement linguistique base sur les corpus corrigera des distorsions videntes dans la littrature actuelle sur le sujet. Il sera possible de sparer l'usuel et le normal de l'exceptionnel. la diffrence de l'observateur qui enregistre l'exemple unique d'une nouvelle construction tout en omettant de noter les preuves massives de la persistance de l'ancienne construction, l'analyste de corpus sera en position de dcrire les tendances statistiques avec prcision. Ce constat se vrifie dj pour l'exemple des dmonstratifs en franais. Les textes de la priode effectivement disponibles sous forme lectronique ne couvrent pas, loin s'en faut, tout ce qui est rpertori. Les conclusions et dcomptes actuels seront donc sans doute inflchis202. Le recours au corpus permet nanmoins une finesse d'analyse de l'volution, forme par forme, du systme des dmonstratifs, qui n'tait pas envisageable auparavant. Il entrane surprises, rvaluations et dcouvertes : [...] le grand nombre des donnes qui nous sont dsormais accessibles montre une situation fort inattendue en moyen franais (Marchello-Nizia, 1995, p. 165). Mais il en va de mme pour l'opposition that / zro, et pour la position des adjectifs en moyen anglais tardif. C. Mair ajoute (1995, p. 260) : [...] les innovations grammaticales gnralement ne bouleversent pas le langage mais s'tablissent d'abord dans des genres textuels spcifiques, des registres ou des niches fonctionnelles. Les corpus, comme tmoignages de performance relle, rendront plus faciles l'tude de ces types de contraintes. Cette dmarche est exemplifie par l'tude de l'alternance that / zro. Elle reste entreprendre pour la position des adjectifs (seule la prose a t tudie) et pour les dmonstratifs. Il n'est pas exclu en effet que la distinction posie / prose influence l'emploi des dmonstratifs, en particulier pour la rpartition entre dterminants et pronoms.
29.3 Acceptabilit et frquence

Par dfinition, il n'existe pas, pour les tats disparus d'une langue, de comptence du locuteur actuel. L'rudit contemporain ne saurait affirmer : cet nonc n'est pas acceptable. En effet, sa connaissance de ce qui lui parat possible ou non dans la priode qu'il tudie provient uniquement de sa connaissance intime de textes en nombre fini, dont il a fini par abstraire les mcanismes lexicaux et syntaxiques dominants. Elle n'quivaut pas, loin s'en faut, une capacit produire des noncs relevant de cet tat de langue. La perception des rgularits l'uvre est probablement
202 D'o des prcautions lgitimes comme : [...] aprs 1340, au moins en l'tat actuel de notre documentation, on ne trouve plus aucune trace de ce morphme cist en franais (MarchelloNizia, 1995, p. 159).
136
DEUXIEME PARTIE
distordue, dans les deux sens : certains faits de trs faible frquence peuvent avoir chapp l'attention et, l'inverse, certaines caractristiques dominantes peuvent tre sous-estimes. L'oral est par ailleurs insaisissable, sinon par les biais qu'offrent certaines types d'crits, avec le risque que rappelle C. Blanche-Benveniste (1997, p. 36) propos de la Grammaire des fautes dH. Frei de confondre fautif et parl , et de prendre les fautes typiques de scripteurs inexpriments pour des reflets de loral. La dcouverte de nouveaux documents, de nouvelles ditions critiques peuvent en plus amener rvaluer la place de certains phnomnes203. Les corpus permettent par contre d'approcher les rgularits centrales d'un tat de langue oubli. Pour cerner les impossibles de langue , C. Marchello-Nizia (ibid., p. 22) propose de recourir au raisonnement suivant : On accordera [...] une importance privilgie l'absence de formes ou de constructions attendues, et corrlativement aux paraphrases. En effet, si un tour attendu n'est jamais attest, et qu'on rencontre rgulirement sa paraphrase en lieu et place o on l'attendait, alors on a le droit de formuler l'hypothse que le tour qu'on attendait l est, dans ce cas, agrammatical. La quantification occupe par consquent une place centrale. Mais elle rencontre des difficults sur des corpus d'tats anciens de la langue. Lorsqu'il s'agit d'tudier des proprits linguistiques fines , le nombre d'occurrences d'un phnomne donn dans une partie du corpus est souvent faible (infrieur la dizaine). Il n'est dailleurs pas toujours possible, soit pour des raisons de cot soit plus fondamentalement parce que les sources sont lacunaires, de complter les inventaires du phnomne vis. Ces petites quantits ne rendent cependant pas pour autant illgitime le recours des modles probabilistes appropris pour valuer leur significativit. Certains de ces modles sont prsents au chapitre IX.
29.4 Affiner les explications

Le recours des corpus diachroniques favorise pour l'analyse du systme des dmonstratifs en franais un renouvellement de l'explication du changement morphologique. Traditionnellement, la causalit retenue tait la suivante : un changement phontique dclenche un changement morphologique qui peut lui-mme entraner un changement syntaxique. Les tudes rcentes sur lesquelles s'appuie C. Marchello-Nizia poussent relativiser dans ce cas le poids des changements proprement phontiques (pour ces, par exemple). Paralllement, les concordances facilitent l'tude dtaille des comportements syntaxiques (par exemple pour les formes prfixes en i-) et l'existence de textes enregistrs en nombre suffisant, une priodisation prcise pour chaque forme (cil et cist
203 [...] les textes nous parviennent par copistes, et parfois gnrations de copistes interposes, auxquels s'ajoute invitablement l'intervention de l'diteur moderne ; jamais un texte n'est le pur reflet de l'usage de l'auteur ; il s'agit ncessairement d'une langue hybride [...] (Marchello-Nizia, p. 22).
Dune langue lautre
137
par exemple). Ces donnes et ces outils permettent de donner consistance aux facteurs qui sont invoqus : l'volution de l'accent, qui passe du mot au groupe syntaxique, et l'influence de parents de plus haut niveau, de systmes mta-morphologiques et smantiques gnraux (avec la restructuration du systme pronominal). Nous avons vu l'usage de la notion d'analogie pour expliquer l invention de ce : il viendrait complter ces et faire pendant avec lui au couple le / les. C. Marchello-Nizia rappelle (ibid., p. 176-178) les critiques qu'appelle l'usage de cette notion pour rendre compte, en dernire instance, de certaines volutions204. Lanalogie est le plus souvent utilise au coup par coup. Elle fonctionne alors comme explication de la dernire chance. Elle est utilise de manire superficielle , par opposition des rgles dment formalises. Au del des explications parfois hasardeuses par lanalogie, l'annotation linguistique de corpus tals dans le temps fournit dsormais la possibilit d'tudier des corrlations extrmement complexes et pratiquement non perceptibles sans appui informatique entre des phnomnes situs aux diffrents niveaux de l'analyse linguistique ainsi que leur volution au fil du temps. C'est le cas d'une des hypothses majeures de C. Marchello-Nizia : la corrlation de l'volution des dmonstratifs avec celle des pronoms personnels. On souhaiterait alors tout naturellement dpasser le recours des concordances et des comptages sur les seuls dmonstratifs pour disposer de donnes chiffres sur les deux systmes et pouvoir examiner les corrlations, si elles existent, entre eux, par le recours, par exemple, l'analyse multidimensionnelle (cf. chapitre IX). On progresserait vers le test effectif de l'hypothse plus gnrale qui est pose (ibid., p. 168) : les systmes morphologiques des langues s'organisent un niveau suprieur en macro-systmes smantiques et formels plus abstraits, et ce sont ces mta-structures qui sont cause de certains des changements qui affectent les systmes du niveau infrieur, immdiatement perceptibles, eux. Dans une optique proche, les contraintes pesant sur lomission du sujet pronominal en moyen franais sont soumises dans (Dupuis et al., 1992) une analyse multivariable. partir de lexamen de la distribution du sujet dans 10 textes schelonnant du premier tiers du XIVe sicle jusqu la fin du XVe sicle, cette analyse montre que, parmi les facteurs examins : la priode du texte, lopposition prose / posie, le type de proposition et la personne du sujet, cest le type de proposition dont linfluence ressort nettement : lomission est plus souvent le fait des principales et des indpendantes que des enchsses. Les analogies relles devraient tre dsormais plus facilement objectivables. La vision des causalits l'uvre dans le changement linguistique en sera probablement renouvele. Ces causalits sont peuttre chercher des niveaux de structuration beaucoup plus abstraits (Kroch, 1990, p. 239) que ceux qui sont envisags gnralement.
204
Cf. aussi (Kroch, 1990, p. 238)
138
DEUXIEME PARTIE
CHAPITRE VI
DUNE LANGUE A LAUTRE : LES CORPUS ALIGNES
30. DEFINITION ET EXEMPLES

On appelle textes aligns (ou bi-textes) des couples de textes dont l'un est une traduction de l'autre et pour lesquels il existe un systme de mise en relation entre segments du texte de grain quivalent : sections, paragraphes, phrases. On parle galement de corpus bilingues. Des occurrences de guerre froide ou cold war sont fournies par le Hansard align, c'est--dire les dbats du Parlement canadien o la version en anglais est mise en correspondance avec la version franaise205. Voici quatre exemples de contextes aligns, o, chaque fois, le texte source est anglais :
That is what is called leadership , not sticking one 's head in the sand , not looking through the rear - view mirror , not having some nostalgia for the old cold war but saying it is time to make some change . | | | | | | | | | | | Voil en quoi consiste le leadership . Il faut viter de faire l' autruche , de regarder en arrire et d' prouver une certaine nostalgie de l' ancienne guerre froide . Il faut plutt se dire que le moment est venu dapporter des changements. C' tait en 1990 . Aujourd'hui , elle dit qu' elle ne comprend pas pourquoi tout coup nous trouvons redire ce programme . Mis part le fait que
This says of a have
happened in 1990 , and now she : `` I do not understand why all sudden you are now saying we a problem with the program '' ,
205
Les contextes ont t fournis par L. Langlois (Dictionnaire canadien bilingue - Universit dOttawa) utilisant sous licence TransSearch qui permet des concordances sur des textes aligns. TransSearch a t dvelopp au CITI (Centre dInnovations en Technologie de lInformation Laval, Canada), devenu le RALI (Laboratoire de Recherche Applique en Linguistique Informatique). Cf. (Simard et al., 1992).
Dune langue lautre

quite apart from the fact that the geostrategic situation has changed tremendously in the period we are talking about . The cold war was pretty cold in 1990 . I also want to acknowledge the staff reductions indicated by CSIS in the counterintelligence area . They are probably a function of the reduction in cold war intelligence battles that went on for many years . It is not so easy to keep them in the cold dawn of post - war budgeting .
139
| la situation gostratgique a | terriblement chang depuis , la guerre | froide tait plus que froide en 1990 . | | | | | | | | Pour terminer , je voudrais parler de la rduction des effectifs mentionne par le SCRS dans le secteur du contre - espionnage , rduction qui est peut - tre attribuable l' apaisement de la guerre froide .
| Il est moins facile de les tenir aprs | la guerre , l' poque froide des | contrles budgtaires .
On peroit sur ces exemples, dont le second remotive les constituants de l'expression toute faite, les difficults de la mise en correspondance (une phrase anglaise d'un ct, deux phrases franaises de l'autre dans lexemple 2, linverse dans lexemple 3). Le troisime exemple manifeste par exemple des dcalages entre les deux versions (intelligence battles that went for many years est sans quivalent dans la version franaise). Le quatrime est une mtaphore file partir de lexpression toute faite. Ce bi-texte manifeste des types de contextes nouveaux par rapport ceux examins par Barkema (chapitre II) : cold war {nom}, o cold war est le modifieur du nom :
cold war attack helicopters / hlicoptres d' assaut bons pour la Guerre froide cold war style helicopters / hlicoptres rappelant l'poque de la guerre froide cold war helicopter program / programme d' achat d' hlicoptres digne de la guerre froide the EH-101 cold war helicopters / hlicoptres EH-101 conus pour la guerre froide cold war helicopters / hlicoptres de la guerre froide
Ces contextes rcurrents sont appuys par la paraphrase suivante : helicopters to fight the cold war / hlicoptres destins la guerre froide ; des contextes qui prcisent les parties prenantes du conflit larv :
the Moscow - Washington cold war / La guerre froide entre Moscou et Washington helicopters for the cold war with the Soviet Union / hlicoptres pour faire la guerre froide avec l' Union sovitique The cold war between the two blocs / cette guerre froide - l entre les deux Blocs
post cold war {nom}, o le nom en question renvoie une dimension temporelle, modifi par le syntagme post cold war :
the post cold war environment / le climat d' aprs - guerre froide in a post - industrial , post - cold war world environment / en cette priode postindustrielle et d' aprs - guerre froide In a post - industrial , post cold war environment / l' re postindustrielle , la guerre froide tant chose du pass
140
the post cold war era / dans l' re de l' aprs - guerre froide post cold war world / depuis la fin de la guerre froide the post - cold - war situation / l' aprs - guerre froide
DEUXIEME PARTIE
La version utilise du Hansard align, qui correspond trois ans de dbats, reprsente 21,6 millions de mots anglais et 24,1 millions de mots franais. Elle comprend 5 993 occurrences de guerre, 384 de froide, 5 977 de war et 673 de cold. Pour un volume globalement quivalent au corpus de Birmingham utilis par Barkema, on rencontre prs de trois fois plus doccurrences de cold war ou guerre froide (314 occurrences). On ne trouve aucune occurrence de guerres froides ni de cold wars. On ne trouve quun seul exemple de discontinuit entre les deux composants de lexpression : cest lexemple 4 ci-dessus. Ces constats confirment lanalyse de Barkema sur la rigidit de lexpression. Dans 8 cas dailleurs, la traduction de cold war se fait par Guerre froide, la majuscule soulignant le fonctionnement comme un tout indcomposable.
31. UTILISATION DES TEXTES ALIGNES

Le recours aux textes aligns constitue par certains cts une riposte aux limites rencontres dans l'automatisation de la traduction automatique. Le point de dpart n'est pas une formalisation de deux langues et de leur mise en correspondance, mais la rutilisation des traductions existantes produites par des traducteurs humains. Les textes aligns fournissent un appui critique la traduction. Cet appui peut consister vrifier quil ny a pas domissions dans la traduction. On en a prcisment relev une dans lexemple 3 de la section 1. Un autre problme est celui des faux-amis partiels (Isabelle et WarwickAmstrong, 1993, p. 302) : Max fut arrt par le FBI -> Max was arrested by the FBI versus Max arrta le moteur -/-> Max arrested the engine, -> Max stopped the engine. Disposer de contextes aligns permet de vrifier ladquation de la traduction quon se propose dutiliser. Il importe alors de pouvoir filtrer les contextes sur des expressions des deux langues la fois. Les textes aligns servent de ressource pour les termes dont la traduction homologue dans la langue-cible ne correspond pas forcment une traduction mot mot. Le Hansard align montre que les traducteurs utilisent gnralement droit compensateur pour countervail, et parfois droit compensatoire (Isabelle, 1992). En langue gnrale, les textes aligns donnent accs la bonne expression que le traducteur ne trouvera pas forcment dans un dictionnaire ou des solutions auxquelles il navait pas pens mais qui le satisfont et qui lui permettent de varier son expression. Voici quelques quivalences trouves dans le Hansard pour lexpression cartes sur table (ibid.) :
Il a mis cartes sur table | He has put his facts on the table
Dune langue lautre

Mettez-donc les cartes sur table | Put your cards on the table Si cest le cas, mettons cartes sur table [...] | If that is the case, let us get it on the table [...] Peut-il jouer cartes sur table ? | Will he come clean with the Canadian people ? Il devrait jouer cartes sur table avec les Canadiens | It should present Canadians with the straight goods.
141
Les techniques actuelles dalignement poussent vouloir exploiter le trsor que constituent les traductions dj existantes. P. Isabelle (ibid.) indique : Au Canada seulement, bon an mal an, le volume de traductions atteint au moins un demi-milliard de mots. [...] La masse des traductions produites chaque anne contient infiniment plus de solutions plus de problmes que tous les outils de rfrence existants et imaginables. Lobjectif est alors de chercher sil nexiste pas dj une solution au problme de traduction rencontr, dans les traductions existantes, plutt que den inventer une de toutes pices. Les biconcordanciers comme TransSearch permettent de telles recherches. Les corpus aligns permettent de reprer des nologismes et la traduction qui en est donn. Ils viennent aussi remdier aux invitables lacunes des dictionnaires. Gale et Church (1991) montrent par exemple que dans les corpus qu'ils avaient aligns, en jeu servait souvent de traduction at risk, alors qu'un dictionnaire comme le Robert et Collins ne mentionne pas cette quivalence.
32. METHODES D'ALIGNEMENT

L'objectif est, selon P. Isabelle et S. Warwick-Amstrong (1993, p. 288) la reconstitution automatique des correspondances traductionnelles qui unissent les segments d'un texte source et ceux de sa traduction. Cet objectif est moins ambitieux que ceux qu'implique une traduction automatique : Par opposition la comptence active mise en jeu par les systmes de traduction automatique, la recherche de correspondances dans les traductions prexistantes suppose seulement une comptence passive qui, en principe, devrait tre moins difficile atteindre (ibid., p. 289). La nature mme de l'objectif conduit des mthodes diffrentes. On part de l'quivalence traductionnelle qui est au contraire le rsultat final escompt de la traduction automatique. L'alignement peut s'effectuer aux diffrents niveaux de structuration de l'nonc : des sections du texte aux mots en passant par les paragraphes et les phrases. Cest ce que P. Isabelle et S. Warwick-Amstrong (ibid.) nomment la rsolution de lalignement. Les correspondances deviennent de plus en plus difficiles tablir lorsqu'on diminue la taille des entits rapproches. Les grandes sections d'un document sont gnral en relation bijective entre les deux versions. C'est encore souvent le cas pour les paragraphes. Les phrases font dj exception. Une phrase dans une langue peut se traduire par deux phrases, voire plus dans l'autre, nous en
142
DEUXIEME PARTIE
avons vu des exemples. L'ordre des propositions ou des phrases peut varier. En dea de la proposition, la variation de l'ordre des mots ainsi que le remplacement d'un mot dans une langue par une priphrase ou une expression polylexicale dans l'autre constituent des obstacles plus vidents encore l'alignement. P. Isabelle et S. Warwick-Amstrong (ibid., p. 292) fournissent une dfinition tout fait gnrale de l'alignement :
(T1, T2, Fs, C(Fs(T1), Fs(T2)))
T1 est le texte source, T2 sa traduction. Fs est une fonction de segmentation (cf. chapitres VII et VIII) qui fragmente le texte (il peut s'agit de mots, de phrases, de paragraphes, de sections). C est une fonction de correspondance qui relie l'ensemble des segments produits par Fs sur le texte source, Fs(T1), l'ensemble des segments fournis par Fs sur le texte cible, Fs(T2). Deux mthodes sont employes pour l'alignement. La premire s'appuie sur l'existence d'une trs forte corrlation entre la longueur d'un segment source et celle de sa traduction. La seconde utilise les paires particulires des mots pour mettre en corrlation. D'autres propositions sont des variations sur ces propositions de base ou encore la combinaison des deux approches. La premire mthode utilise donc la corrlation trs forte entre la longueur des segments qui sont mis en correspondance traductionnelle (ibid., p. 295). Les segments peuvent tre mesurs en nombre de mots (Brown et al., 1991) ou en nombre de caractres (Gale et Church, 1991)206. Chacun des deux textes est d'abord dcompos en phrases207. On se donne un ensemble d'appariements licites (un / zro, zro / un, un / un, un / deux, deux / un, etc.). Dans la plupart des cas, on n'autorise pas les liens croiss. On examine alors tous les appariements possibles compatibles avec les appariements retenus comme licites. On calcule un score refltant la qualit des corrlations des longueurs des segments contenus pour chaque appariement. On retient l'appariement dont le score est le meilleur. Les rsultats sont entre 95 et 100 % d'appariements justes. Cette famille de mthodes prsente l'avantage de ne pas ncessiter de recours un dictionnaire. Inversement, l'examen gros grain des corrlations entre les deux textes empche une resynchronisation quand l'appariement se dcale un endroit donn. La deuxime mthode prend appui sur les mots apparents entre deux langues proches (gouvernement / government par exemple). Il ne s'agit pas d'utiliser un dictionnaire mais de reprer des distances entre chanes de caractres (par exemple en termes de cot de passage d'une chane l'autre en nombre d'effacements, ajouts et substitutions).
Cf. aussi (Blank, 1995 ; Lang et Gaussier, 1995). Tche qui est moins vidente qu'elle n'en a l'air. Que l'on pense aux titres, aux numrations, aux lgendes de tableaux et de figures, aux incises.
206 207
Dune langue lautre
143
33. PROBLEMES ET ENJEUX

P. Isabelle et S. Warwick-Amstrong insistent (ibid., p. 290) sur la compositionnalit de la traduction : la traduction d'une unit textuelle est gnralement fonction de la traduction des parties de cette unit, et ce, jusqu'au niveau d'un ensemble fini d'quivalences lmentaires. C'est effectivement ce principe qui rend possible la dmarche d'alignement. Mais en mme temps, comme nous l'avons vu, la rsolution de l'alignement peut tre plus ou moins grande : des correspondances des grandes parties du texte et des paragraphes s'accommodent de dcalages un niveau plus fin (c'est le cas du troisime exemple de la section 1, o une partie de la phrase source n'a pas de correspondant traductionnel). Comme l'indiquent P. Isabelle et S. Warwick-Amstrong (ibid., p. 302), un systme d'alignement fin permettrait de reprer les erreurs de traduction lis aux faux amis, c'est--dire les cas o un mot est traduit par un mot trompeusement proche (comme eventually pour ventuellement). Les textes aligns permettent galement d'examiner les quivalences entre squences non compositionnelles : les dcalages localiss qu'elles reprsentent sont contrebalancs par l'alignement des structures plus vastes dans lesquelles elles figurent. Les textes aligns permettent en ce sens une rpartition relativement harmonieuse des tches entre machine et traducteur. L'alignement produit un dgrossissage des mises en correspondance. En fonction de la requte qu'il effectue, le traducteur puise dans les rponses et s'appuie sur les blocs aligns pour examiner les parallles ou les divergences dans le dtail. L'alignement produit automatiquement est videmment limit, mais il est suffisant pour beaucoup de tches de traductique. Lalignement, du moins gros grains 208, peut sembler une tche plus aise que ltiquetage ou le parsage. En tout cas, il y a un grand dcalage entre la relative simplicit des mthodes employes pour obtenir des textes aligns et la richesse extrme des utilisations de ces corpus bilingues. Ce dcalage mme est source despoir.
208
Par opposition un alignement syntagme syntagme voire mot mot.
TROISIEME PARTIE
METHODES ET TECHNIQUES
Bibliographie
145
CHAPITRE VII
CONSTITUER UN CORPUS
34. DEFINITIONS ET TYPOLOGIE DES CORPUS

Il y a vingt ou trente ans, la constitution d'un corpus lectronique tait une tche ardue : saisie et correction du texte sur cartes perfores, traitement informatique dans des centres de calcul distants, sur des machines dont les capacits de stockage et de calcul limitaient la taille des donnes manipulables ... Avec l'avnement de la micro-informatique, l'introduction des rseaux, l'augmentation de la taille des mmoires et la rapidit croissante des traitements, la situation a radicalement chang. Beaucoup d'crits professionnels existent directement sous forme lectronique et sont donc recyclables au sein d'un corpus. Le captage de textes est dsormais ais. Paradoxalement, la notion mme de corpus s'en est obscurcie. l'ore des traitements informatiques de donnes textuelles, le cot mme de la cration d'un corpus conduisait peser mrement les textes y intgrer, identifier prcisment les critres de rassemblement. Aujourd'hui que le texte lectronique foisonne, des documents se trouvent parfois agrgs avant tout parce qu'ils sont faciles d'accs209, sans que leur mise en relation ait t rellement pense. La mre pese d'un regroupement adquat l'objectif poursuivi cde le pas la seule disponibilit des ressources. La communaut
209
Ce qui est appel crment dans (Marcus et al., 1993, p. 313, n. 1) des regroupements opportunistes .
146
du TALN appelle souvent corpus les grandes collections de documents qui lui servent mettre au point ses traitements. Les rencontres organises depuis plusieurs annes par l'ACL (Association for Computational Linguistics) sur les trs grands corpus (very large corpora) traitent de trs vastes donnes textuelles plutt que de corpus proprement parler. On serait plutt tent de voir l du texte , texte dont on ne sait pas toujours trs bien de quels usages langagiers il est reprsentatif. Nous adoptons la dfinition plus restreinte de John Sinclair (1996, p. 4) : Un corpus est une collection de donnes langagires qui sont slectionnes et organises selon des critres linguistiques explicites pour servir d'chantillon du langage. C'est dessein que le mot texte n'est pas employ ici. En effet, comme pour Archer ou pour BNC, les techniques d'chantillonnage peuvent amener briser la squentialit des textes de dpart : on extrait ventuellement des fragments en plusieurs endroits d'un mme texte pour viter de sur-reprsenter ou sous-reprsenter certaines caractristiques210. Les corpus de textes (complets) sopposent aux corpus d'chantillons (ibid., p. 9). On cherche en outre respecter les critres suivants : une taille aussi importante que les moyens techniques le permettent211 (par souci de reprsentativit), des chantillons diversifis (et ventuellement de taille similaire), une origine nettement repre (les coordonnes des documents primaires sont conserves). Par opposition (ibid.) , [d]es mots comme collection ou archive renvoient des ensembles de textes qui ne ncessitent pas de slection ou d'organisation, ou dont la slection ou l'organisation ne ncessitent pas de critres linguistiques212. Les CD-ROM du journal Le Monde, par exemple, rassemblent des articles relevant de discours parfois loigns (langue gnrale de la vie politique et sociale nationale et internationale, langues spcialises diverses : conomie, sport, mtorologie, etc.). Il est donc plus adquat de parler de la collection du Monde sur CD-ROM que du corpus du Monde . On peut alors opposer corpus de rfrence et corpus spcialis : Un corpus de rfrence est conu pour fournir une information en profondeur sur une langue. Il vise tre suffisamment tendu pour reprsenter toutes les varits pertinentes du langage et son vocabulaire caractristique, de manire pouvoir servir de base des grammaires, des dictionnaires et d'autres usuels fiables (ibid., p. 10). Brown, LOB et BNC constituent des corpus de rfrence, les deux premiers uniquement pour l'crit, le troisime
210
Par exemple, les phrases analyses manuellement l'universit de Lancaster (1 million de mots) dans le cadre de la collaboration avec IBM Watson (Black et al., 1993, p. 23) ont t extraites au hasard d'un ensemble de 20 millions de mots de dpches de l'agence Associated Press. Elles ne sont pas conscutives, ce qui ne facilite d'ailleurs pas forcment leur comprhension par les annotateurs. 211 John Sinclair ajoute : Un corpus est suppos contenir un grand nombre de mots. L'objectif fondamental de la constitution d'un corpus est le rassemblement de donnes en grandes quantits . Il se garde de prciser ce qu'il entend par grandes quantits ... 212 G. Leech fait cho (1991, p. 11) : [...] en fin de compte, la diffrence entre une archive et un corpus doit rsider dans le fait que ce dernier est conu ou ncessit pour une fonction 'reprsentative' prcise.
Bibliographie
147
pour l'oral galement. Les deux premiers ne rpondent d'ailleurs plus aux exigences de taille qui peuvent tre les ntres aujourd'hui. Les corpus comparables (ibid., p. 12) constituent des slections de textes similaires dans plus d'un langage ou dans plusieurs varits d'un langage. On peut considrer LOB et Brown comme des corpus comparables. Tous deux regroupent des textes provenant des mmes genres et de la mme anne : 1961, mais ils relvent pour le premier de l'anglais, pour le second de l'amricain. Les corpus spcialiss sont limits une situation de communication, ou un domaine. Parmi ces corpus, on trouve les ensembles relevant de sous-langages que l'on trouve dans les domaines scientifiques et techniques (cf. section 3). Les corpus ou collections parallles sont constitus d'un ou de plusieurs documents traduit(s) dans une ou plusieurs langues (cf. chapitre VI). L'exemple canonique est le Hansard : les dbats du Parlement canadien, en anglais et en franais. Beaucoup de corpus constituent des ressources acheves, ds lors immuables : on n'y ajoute plus rien, mais on peut en extraire ventuellement des sous-corpus (l'oral dans BNC par exemple, ou une diachronie restreinte dans Archer). l'inverse, avec la possibilit de capter en continu des donnes dans certains secteurs (les fichiers de composition de grands journaux comme le Times, par exemple), est apparue la notion de corpus de suivi213 monitor corpus (Sinclair, 1996, p. 4). Par dfinition, un tel corpus ne cesse de crotre. Il devient alors possible d'tudier l'volution de certains phnomnes langagiers : nologismes, emplois privilgis un moment donn de certains suffixes ou prfixes, etc., un peu comme les ditions papier de certains dictionnaires d'usage (Le Petit Larousse, Le Petit Robert) servent de sonde sur le lexique et ses changements. Dans la mesure o ces corpus de suivi sont rcents, ils ne peuvent renseigner dans l'immdiat que sur la courte dure (moins d'une dcennie). Mais avec le temps, ils contribueront notre connaissance de l'volution de certains secteurs de la langue (cf. chapitre V). Un corpus lectronique est un corpus qui est encod de manire standardise et homogne pour permettre des extractions non limites l'avance (ibid., p. 5). En effet, la simple existence sur support lectronique ne fait pas d'un ensemble de textes un corpus lectronique. Encore faut-il que ce document obisse des conventions de reprsentation, de codage rpandues, voire faisant consensus, qui permettent la transmission et la rutilisation des donnes textuelles en cause (cf. section 5).
213
ou encore corpus baromtre.
148
35. LANGUE GENERALE
35.1 Etudier une dimension particulire

La nature des phnomnes tudier peut rclamer des donnes trs vastes ou au contraire se satisfaire d'un corpus restreint. H. Barkema (1994, p. 271) indique ainsi : [...] un corpus d'un million de mots est bien trop restreint pour tudier la flexibilit [des expressions toutes faites] et [...] un corpus de 20 millions de mots est trop petit pour trouver un nombre suffisant d'occurrences de toutes les expressions [idiomatiques]. Il fournit les chiffres suivants (1993, p. 271-272) : sur l'ensemble des noms composs rpertoris par LDOCE (Longman Dictionary of Contemporary English), 88 % d'entre eux apparaissent une fois ou plus dans les 20 millions de mots du corpus de Birmingham, 48 % plus de 10 fois et 30 % plus de 20 fois. La proportion de ceux d'entre eux pour lesquels une tude de flexibilit est possible s'avre donc rduite. Donnons un exemple de corpus spcialis, conu pour ltude dun phnomne bien dlimit. G. Engwall (1994, p. 60-64) se fixe comme objectif, au milieu des annes soixante-dix, d'tudier sur le plan linguistique les mots, les syntagmes et les constructions de la prose franaise littraire contemporaine, travers le roman. Aprs avoir considr l'tat des ressources lectroniques de l'poque (et en particulier le corpus du Trsor de la Langue Franaise), G. Engwall retient la priode 1962-1970, pour pouvoir rendre compte des annes soixante. La dnomination de roman recouvrant des crits bien divers, le classement d'une bibliographie franaise, les Livres de l'anne, lui sert de pierre de touche. Les listes des meilleures ventes des Nouvelles littraires et du Figaro littraire constituent un filtre supplmentaire. Environ 400 titres rpondent ces premiers critres de priode, de genre et de diffusion. L'limination des livres traduits ou de ceux dont la premire dition prcde le dbut de la priode retenue ramne cet ensemble 161 titres. Deux conditions supplmentaires sont retenues : l'auteur doit tre n en France et faire partie des auteurs les plus jeunes des meilleurs ventes, l'action du roman doit tre situe dans la France de l'aprsguerre (ce qui ncessitait un examen des textes). Dernire contrainte : la taille globale du corpus, fixe 500 000 mots (par comparaison avec des recherches similaires). D'o le choix de fragments totalisant 20 000 mots (la taille d'un livre de poche trs court) pour chacun des 35 romans finalement choisis. Pour mieux rendre compte de chacune des uvres, ces fragments ne sont pas conscutifs : ils sont forms de 10 chantillons de 2 000 mots extraits au hasard de chacune des uvres.
Bibliographie
149
35.2 Constituer un corpus de rfrence

Deux positions s'opposent et constituent les ples entre lesquels se rpartissent les crateurs de corpus. Gros, c'est beau (more data is better data), pourrait tre le slogan de la premire. La conviction sous-jacente est que l'largissement mcanique des donnes mmorisables (les centaines de millions de mots actuelles deviendront terme des milliards) en fait invitablement un chantillon de plus en plus reprsentatif du langage trait. Si l'on n'arrive pas cerner prcisment les caractristiques de l'ensemble des productions langagires, il ne reste qu' englober le maximum d'noncs possibles. terme, la ncessit de choisir finirait par s'estomper. La seconde approche, plus sensible aux variations propres aux donnes textuelles, constitue des ensembles aux conditions de production et de rception plus nettement dfinies et corrles leurs caractristiques langagires. La logique de cette position conduit mme quilibrer en taille les chantillons retenus, voire ne pas retenir des empans de texte continus, de manire viter de sur-reprsenter des lieux du texte particuliers (l'introduction par exemple). Cette technique de constitution des textes par chantillonnage est souvent pratique pour les corpus anglosaxons (BNC, Archer, LOB, Brown, Helsinki). L'chantillonnage touche donc la fois le choix des documents intgrer et la partie de ces documents conserver. Biber (1993a, p. 222-226) montre les variations des pondrations de certains traits linguistiques selon le genre considr. Les frquences des tiquettes possibles pour un mot changent. Dans LOB, pour les textes de fiction, known est un passif dans 26 % des cas, un prtrit dans 65 %, et un adjectif dans 6 %. Ces proportions passent 65 %, 13 % et 15 % respectivement pour les textes expositifs (exposition). Les prdictions que l'on peut faire sur la catgorie la plus probable pour known dpendent donc du genre choisi pour estimer les frquences des catgories possibles214. Il en va de mme pour la probabilit d'une catgorie lorsqu'on connait la catgorie prcdente. Dans le mme corpus, la copule be est suivie d'un passif dans 13 % des cas dans les textes de fiction et dans 31 % des cas dans les textes expositifs . Biber et Finegan (1994), sur un corpus d'articles du New England Journal of Medicine et de The Scottish Medical Journal, montrent galement que les parties canoniques d'un article scientifique (introduction, mthodes, rsultats, discussion) comportent des diffrences sensibles entre elles. Le prsent est frquent dans l'introduction et la discussion et relativement rare dans la partie mthodes. Le pass a la distribution inverse. On comprend ds lors mieux la politique qui consiste dmembrer certains documents pour ne pas sur-reprsenter certaines de leurs sousparties, et plus largement cette chantillonnite qui surprend souvent un esprit franais.
214 A. Voutilainen dans (Karlson et al., 1995), montre que, dans les corpus quilibrs entre diffrents genres que sont Brown et LOB, cover (couvrir, couverture) est un nom dans 40 % des cas, un verbe dans 60 %. Dans un manuel d'entretien de voiture, il s'agit dans tous les cas d'un nom.
150
La dmarche suivie pour la constitution de BNC (Burnard, 1995), conu pour tre un corpus de rfrence pour langlais, sinscrit totalement dans cette seconde optique, ceci prs que les registres ne sont pas pris en compte. Les critres de choix diffrent pour l'crit et pour l'oral. En ce qui concerne l'crit, plusieurs contraintes se superposent : le domaine : 75 % de textes informatifs , le reste appartenant la fiction ; le support : 60 % de livres215, 30 % de priodiques, le reste comprenant des crits non publis ou des supports de discours (crits pour tre lus, comme les informations radio-tlvises) ; la datation : les ouvrages de fiction de 1960 1993 (pour tenir compte de leur dure de vie plus grande) et les ouvrages informatifs de 1975 1993 ; la diffusion : une liste de livres imprims disponibles, les listes des meilleures ventes, celles de prix littraires, les indications de prts en bibliothque ( la fois les ouvrages les plus prts et les ouvrages en prt court terme, qui sont donc trs demands) ont ainsi servi choisir des livres bien diffuss . Pour l'oral, l'objectif est la conversation spontane. Le corpus est constitu par chantillonnage dmographique en termes d'ge, de sexe, de groupe social et de rgion. Les 124 personnes choisies sur ces critres et partir d'un entretien, ges d'au moins 15 ans, disposaient pendant quelques jours d'un magntophone portable pour pouvoir enregistrer leurs conversations. Les consignes taient de varier les moments d'enregistrement (jours ouvrs / fins de semaine) et de noter chaque fois la situation d'interlocution (datation, environnement, participants). L'enregistrement pouvait tre effectu l'insu des participants par la personne choisie, mais les interlocuteurs taient prvenus in fine pour que l'on puisse effacer l'enregistrement si l'anonymat ralis ne leur suffisait pas. En tout, plus de 700 heures d'enregistrement ont t ralises. Outre cet chantillon dmographique, ont t intgres des transcriptions d'interactions orales typiques dans divers domaines : affaires (runions, prises de parole syndicales, consultations mdicales ou lgales), ducation et information (cours et confrences, informations radio-tlvises), prises de parole publiques (sermons, discours politiques, discours parlementaires et lgaux), loisirs (commentaires sportifs, runions de clubs).
35.3 Peut-on constituer des chantillons reprsentatifs ?

Les deux positions exposes en 2.3 saccordent implicitement sur la difficult, en matire de langage, donner une dfinition positive de la
215
Les extraits de livres reprsentent 45 000 mots d'un seul tenant, le dbut tant choisi au hasard (en respectant toutefois les limites discursives du type chapitre).
Bibliographie
151
reprsentativit216. Veut-on reprsenter les textes effectivement reus ? Ou bien les textes et autres noncs produits ? Les genres et domaines fournissent pour l'crit un dcoupage, insatisfaisant certes, mais utilisable, des types reprsenter. Pour l'oral, l'identification des classes considrer est moins avance. Notre connaissance de la population des donnes langagires est donc encore extrmement fragmentaire. Les erreurs statistiques classiques sont par consquent monnaie courante : l'chantillon est trop petit pour bien reprsenter la population, l'chantillon est systmatiquement biais il s'carte significativement des caractristiques de la population (Biber, 1993a, p. 219-220).
36. LANGUES DE SPECIALITE ET SOUS-LANGAGES

l'oppos de la langue gnrale que cherchent reprsenter les corpus de rfrence, se trouvent les usages spcialiss. Les dnominations (langues spcialises, langues de spcialit, sous-langages) impliquent des analyses et des vises diffrentes. Parler de langue spcialise, n'est-ce pas insister sur la continuit entre la langue gnrale et ce fonctionnement particulier ? La notion de langue de spcialit met plutt l'accent sur le domaine technique ou scientifique concern. Par sous-langage, Harris entend un fonctionnement langagier tout fait spcifique.
36.1 Les hypothses de Z. Harris

Z. Harris, partir du milieu des annes soixante-dix et jusqu'aux annes quatre-vingt dix, oppose le caractre relativement flou des restrictions qu'un oprateur donn impose ses arguments en langue gnrale (l'argument de mourir peut tre un nom +anim, mais aussi un nom abstrait : la mort d'une illusion) aux limites extrmement nettes rencontres217 dans ce qu'il appelle les sous-langages218 : langages de disciplines scientifiques ou techniques, mta-langage (comme celui de la grammaire ou de la linguistique). Selon lui, ces sous-langages se caractrisent par un lexique limit et par l'existence de schmas de phrases en nombre fini. Ces schmas ont la particularit d'tre
On se reportera (Biber, 1993a, 1994) pour une discussion approfondie. Le caractre distinctif d'un sous-langage, c'est que pour certains sous-ensembles des phrases du langage, les restrictions de slection, pour lesquelles on ne peut pas fournir de rgles pour le langage dans son ensemble, intgrent la grammaire. Dans un sous-langage, les classes lexicales ont des frontires relativement tranches qui refltent la division des objets du monde en catgories qui sont clairement diffrencies dans le domaine (Sager, 1986, p. 3). 218 (Harris et al., 1989) fournit la fois le cadre mthodologique global et des exemples d'analyses effectives, en particulier sur le franais (elles sont dues alors A. Daladier).
216 217
152
des combinaisons particulires de sous-classes de mots propres au souslangage en question. Ainsi, dans Menelas, sous diverses formulations se manifeste le schma N1 dilater N2, o N1219 ressortit la classe des mdecins et N2 celle des artres : on dilate une artre coronaire, une artre circonflexe, etc220. La dnomination sous-langage tient du faux-ami. Ces sous-langages ne sont pas forcment en effet des sous-ensembles de la langue gnrale. Certains traits de la langue gnrale s'y retrouvent, d'autres leur sont propres. La prdictibilit de certains arguments peut provoquer leur omission systmatique (on ne parlera pas ici d'ellipse) : par exemple, dans le domaine de la vinification, on sucre est acceptable, mais *on sucre le mot, qui explicite l'argument, n'est pas un nonc bien form. Inversement, les souslangages peuvent recourir des patrons syntaxiques particuliers qu'il serait difficile d'intgrer tels quels une grammaire de langue 221. C'est le cas de certains motifs dnominatifs qui forment de vritables grammaires locales . Par ailleurs, les sous-langages diffrent des langages contrls. Ils rsultent d'ajustements lents et pour une large part non raisonns au sein d'une communaut langagire restreinte. Les langages contrls se caractrisent galement par un lexique et une syntaxe limits, mais ils proviennent d'une planification linguistique dans des domaines o une communication moins quivoque ou plus concise est particulirement importante (dans l'aviation, par exemple).
36.2 Analyses de sous-langages

36.2.1 La mthodologie harrissienne Cette vision des sous-langages s'accompagne d'une mthode pour mettre au jour les classes de mots et les patrons syntaxiques caractristiques d'un sous-langage. Pour reprendre les termes de N. Sager (1987, p. 198) : Si l'on applique un corpus de textes d'un secteur scientifique des mthodes de linguistique descriptive similaires celles utilises pour le dveloppement d'une grammaire d'une langue dans son ensemble, on obtient des motifs prcis de cooccurrences de mots partir desquels on peut dfinir des sousclasses de mots et des squences de ces sous-classes qui sont caractristiques (c'est--dire une grammaire). Ces catgories lexicales et formules syntaxiques de la grammaire du sous-langage sont troitement corrles aux classes d'objets du monde et aux relations qui sont propres
219
N1 n'est pas toujours exprim, par exemple dans la nominalisation dilatation de N2 ou dans l'utilisation du passif N2 a t dilat. 220 Il s'agit d'ailleurs d'une mtonymie, c'est en fait un segment qui est dilat et non l'artre entire. 221 Les manuels informatiques anglais ont par exemple un emploi particulier de to vary on [un dispositif], signifiant approximativement le mettre en marche dans des phrases comme The system will be unable to vary on the device (Black et al., 1993, p. 112).
Bibliographie
153
ce sous-domaine. Ils fournissent donc un ensemble de structures smantiques pour reflter les connaissances de ce domaine. L'objectif est ainsi rsum (ibid., p. 198) : La grammaire d'un sous-langage doit 'attraper' les restrictions d'occurrences qui distinguent un champ de discours scientifique d'un autre. Les tapes de cette mise en vidence sont les suivantes. En premier lieu, une analyse syntaxique (manuelle pour Harris, automatique pour Sager) d'un corpus du sous-langage considr. En second lieu, une rgularisation syntaxique par mise en phrases lmentaires (de type sujet verbe complments ventuels). Cela suppose des restructurations et transformations linguistiquement fondes (passage d'une nominalisation au verbe correspondant : dilatation d'une artre coronaire / X dilate une artre coronaire, passage l'actif pour les passifs, etc.) de manire augmenter les proximits. L'interrogation d'un expert du domaine222 permet de disposer des entits (arguments de verbes) qui lui paraissent fondamentales. Sur cette base, les rgularits oprateur / arguments (verbe / sujet et complments) permettent de mettre au jour les classes et les schmas caractristiques du sous-langage.
36.2.2 Les analyses ralises dans ce cadre Les travaux fondateurs sont ceux de Harris et de son quipe sur le discours pharmaceutique et biologique (Harris et al., 1989 ; Ryckman, 1990) ainsi que ceux de l'quipe de N. Sager (New York University), sur le langage mdical (Sager et al., 1987), ces derniers s'appuyant sur un parseur de l'anglais. L'examen d'autres domaines est rapport dans (Grishman et Kittredge, 1986). La communaut du TALN, tant anglo-saxonne que franaise, sest souvent inspire de l'approche harrissienne des sous-langages pour traiter les domaines restreints auxquels elle est souvent confronte.
36.3 Evaluation et perspectives

Curieusement, en France, dans la communaut linguistique, la conception harrissienne des sous-langages a eu peu de postrit, en dehors des travaux d'Anne Daladier (1990). Les travaux autour de Maurice Gross, disciple de Harris, se sont centrs sur les proprits des entres lexicales de la langue
222
Cf. (Daladier, 1990, p. 75) : Les catgories d'analyse du contenu informatif de ces textes ont t pour la plupart induites, en employant des mthodes d'analyse distributionnelles, de la formulation de l'information dans ce domaine. Seules les catgories 'lmentaires', c'est--dire celles dont le sens ne dpend pas d'autres catgories, et qui sont reprsentes pour cette raison comme des arguments terminaux de catgories ou de combinaison de catgories de niveau suprieur, ont t directement introduites par des experts du domaine (i.e. de faon non constructive. D'autres travaux mens dans cette optique se sont inspirs de nomenclatures existantes en mdecin.
154
gnrale. En outre, l'accent porte sur une caractrisation avant tout syntaxique : la smantique est conue comme trop peu formalisable223, alors que les travaux de Harris sur les sous-langages aboutissent des grammaires smantiques qui associent aux diffrentes positions de patrons syntaxiques des classes smantiques restreintes. L'Analyse Automatique du Discours (AAD), dveloppe par Michel Pcheux (Pcheux, 1969 ; Maingueneau, 1991) au dbut des annes soixante-dix a utilis une mthode de normalisation manuelle des noncs, elle aussi inspire de l'analyse distributionnelle, et assortie d'un traitement informatique. L'accent tait mis cependant sur la langue gnrale, ou du moins sur des domaines non techniques (discours politique). Les recherches contemporaines sur les sous-langages ne sont pas cites. Aujourd'hui, comme le chapitre II l'a montr, l'existence d'analyseurs robustes rend partiellement possible l'application grande chelle de la mthodologie harrissienne. On peut attacher automatiquement de vastes documents des arbres syntaxiques, y compris en utilisant des mthodes d'apprentissage pour adapter le parseur certains phnomnes propres aux documents en cause (sous-catgorisation des adjectifs, attachements prpositionnels). Les arbres syntaxiques peuvent tre simplifis pour obtenir des phrases lmentaires. Des oprations de rcriture d'arbres peuvent, en fonction du matriel lexical de l'arbre, transformer encore ces arbres (passage du passif l'actif etc.) pour faciliter la mise en vidence de rgularits. Ce nouveau contexte permet surtout d'examiner trois questions. Tout d'abord, les noncs d'un domaine particulier, qui relvent donc pour Harris d'un sous-langage, prsentent-ils vraiment des particularits syntaxiques par rapport la langue dite gnrale, la fois en ce qui concerne les constructions rencontres et les types de contraintes syntaxiques des entres lexicales ? L'existence de vastes corpus de rfrence, au sens donn en section 1, autorise des tudes contrastives nouvelles sur ce point. En second lieu, Harris s'appuyait sur un informateur du domaine et utilisait les catgories d'entits fournies par cet informateur comme point de dpart pour dterminer les classes d'oprandes en fonction des oprateurs utiliss. Cependant, une partie des recherches actuelles en TALN qui visent dgager, partir d'une analyse syntaxique, les oprateurs et leurs arguments au sein d'un domaine donn, essaient souvent de le faire sans ce recours un premier dgrossissage conceptuel du domaine. L'conomie de ce recours s'explique en partie par la difficult d'obtenir ce type de renseignements : on dispose parfois de textes d'un domaine spcialis, mais pas forcment d'informateurs comptents dans ce domaine. Existe aussi la conviction qu'il
223
Les travaux plus rcents autour de Gaston Gross sur les classes d'objets (Gross, 1994 ; Le Pesant, 1994) nous semblent galement loigns de l'optique ouverte par l'hypothse des sous-langages. Il s'agit de catgoriser les mots en fonction des classes d'oprateurs qui leur conviennent : ainsi un bruit sera plutt un vnement que quelque chose de concret dans la mesure o l'on dit : un bruit se produisit , Malgr cet emploi de la notion harrissienne d oprateur appropri , deux divergences essentielles demeurent : l'hypothse que l'on peut isoler de telles classes en langue gnrale ; le recours l'intuition du linguiste et non un corpus.
Bibliographie
155
suffit de disposer d'un ensemble suffisamment vaste de documents du domaine pour que le retraitement d'analyses syntaxiques fasse merger les rgularits syntactico-smantiques. La question demeure donc : peut-on induire les schmas d'un domaine sans le recours une expertise humaine, soit au dpart, soit pour valider les regroupements produits automatiquement ? Bouaud et al. (1997), pour Menelas, comparent les rsultats des classements inspirs de la mthodologie harrissienne avec une nomenclature mdicale gros grain . Ils aboutissent un constat nuanc : les regroupements sur la base de contextes syntaxiques lmentaires sont relativement proches des classes de cette nomenclature, mais il est ncessaire de faire appel des connaissances du domaine pour prciser ou corriger cette catgorisation base linguistique. En troisime lieu, les travaux sur les sous-langages traitent souvent tous les discours produits dans un domaine comme utilisables au mme degr par la mthode d'analyse propose. Dans le domaine mdical, par exemple, on trouve cependant diffrents types de textes, qui correspondent des situations de communication typiques : manuels (destins au futur mdecin), compte-rendus d'examens ou de traitements, lettres des collgues sur un patient commun, mais aussi articles scientifiques sur de nouveaux traitements, vulgarisation, etc. Les trois premiers types seuls se trouvent reprsents dans Menelas. L'analyse spare de ces trois types montre que le discours didactique n'est pas forcment, au moins dans ce cas, le meilleur observatoire des rgularits de ce domaine : par souci de gnralisation, il utilise des hyperonymes qui ne se rencontrent pas dans les compte-rendus d'hospitalisation. On y trouve peut-tre des rgularits propres tout discours didactique (pluriels gnriques, prsent de vrit gnrale, etc.) qui parasitent la perception du sous-langage proprement dit. Dernire question donc : comment articuler finement sous-langages et genres discursifs ?
37. ARTICULER TYPOLOGIE INTERNE ET TYPOLOGIE EXTERNE

La mthodologie suivre pour dlimiter l'ensemble que l'on souhaite reprsenter et pour rassembler des matriaux effectivement reprsentatifs combine, pour le moment encore trs empiriquement, une caractrisation des situations de communication pertinentes, des genres et registres utiliss et des types de textes en circulation.
156
37.1 Typologie des textes, genres et registres

D. Biber distingue clairement les types de textes, qui relvent de l'analyse linguistique, et les registres ou genres , qui correspondent une catgorisation sociale. Pour lui, les types de textes correspondent des corrlations de caractristiques linguistiques qui participent d'une mme fonction globale. Ils ne se confondent ni avec les typologies fonctionnelles ni avec les genres . Les genres ou registres sont les catgories intuitives qu'utilisent les locuteurs pour rpartir les productions langagires. On l'a vu propos de Brown ou d'Archer, elles mlent un reprage thmatique gros grain (Mdecine, Science) et une utilisation de formes de textes (thtre, sermons et homlies, journaux intimes). Ces catgories voluent au fil du temps. Elles fournissent nanmoins un premier dcoupage des catgories de textes prendre en compte.
37.2 Typologie des paramtres situationnels

D. Biber (1994, p. 380-385) fournit un certain nombre de paramtres situationnels permettant de dcrire les documents intgrs dans un corpus : 1. Canal : crit / parl / crit lu 2. Format : publi / non publi 3. Cadre : institutionnel / autre cadre public / priv-interpersonnel 4. Destinataire : a. pluralit : non compt / pluriel / individuel / soi-mme b. prsence : prsent / absent c. interaction : aucune / peu / beaucoup d. connaissances partages : gnrales / spcialises / personnelles 5. Destinateur : a. variation dmographique : sexe, ge, profession etc. b. statut : individu / institution dont l'identit est connue 6. Factualit : informatif-factuel / intermdiaire / imaginaire 7. Objectifs : persuader, amuser, difier, informer, expliquer, donner des consignes, raconter, dcrire, enregistrer, se rvler, amliorer les relations interpersonnelles, ... 8. Thmes : ... Attacher les valeurs de ces paramtres au corpus constitu permet d'examiner le lien entre cet ancrage situationnel et la caractrisation proprement linguistique du corpus.
Bibliographie
157
38. NORMALISER UN CORPUS

L'change des corpus et leur rutilisation ont but jusque rcemment sur l'clatement des codages pratiqus. Un travail de normalisation est en cours pour y remdier . Cette normalisation spare reprsentation physique et reprsentation logique des documents. Elle propose des conventions gnrales pour les diffrents types de textes.
38.1 Reprsentations logiques : SGML

Le Petit Robert fournit l'entre suivante pour linguistique : [phontique] n.f. et adj. 1826 ; de linguiste. I N. f. 1 vx Etude comparative et historique des langues (grammaire compare, philologie compare). 2 (fin XIXe) MOD. Science qui a pour objet l'tude du langage envisag comme systme de signes. " La linguistique a pour unique [...] objet la langue envisage en elle-mme et pour elle-mme " (Saussure). [...] II Adj. (1832) 1 Relatif la linguistique. Etudes linguistiques, Thories linguistiques. => distributionnalisme, gnratif (grammaire gnrative), structuralisme. 2 Propre la langue, envisag du point de vue de la langue. Fait linguistique => langagier. Expression linguistique. Signe, systme, changement linguistique. Communaut, gographie linguistique. Politique linguistique. 3 Relatif l'apprentissage des langues trangres. Vacances, sjours linguistiques l'tranger. Bain* linguistique. Cette entre de dictionnaire fournit au lecteur humain de multiples indices lui permettant de classer les informations : le gras signale les renvois d'autres entres, les caractres droits les dfinitions et les renseignements techniques (datation, catgorie syntaxique ...). Les informations occupent une place relativement fixe : la transcription phontique est au tout dbut, entre crochets, les datations aprs la catgorie, ou en dbut de dfinition. Cest une interprtation qui s'appuie sur la tradition lexicographique et les conventions propres chaque dictionnaire. Les italiques servent la fois l'tymon (linguiste) et aux expressions utilisant le mot dans un de ses sens (avec des mises en facteur : signe, systme, changement linguistique). Les outils dannotion, pour pouvoir utiliser un tel dictionnaire, doivent disposer d'un accs ais aux diffrents types d'information. Le simple texte, mme avec ses indications de prsentation (gras, italiques, maigre, etc.), n'est pas directement utilisable. La reprsentation physique doit faire place une reprsentation logique224. C'est l'quivalent de la transformation que nous avons opre lors de la prsentation de l'tiquetage lorsque nous avons
224
N. Ide et J. Vronis (1995b) analysent en dtail le codage des dictionnaires.
158
remplac les notations positionnelles par une explicitation des types d'information (dans une structure trait-valeur). Le balisage logique d'un document revient indiquer sa structure : ses subdivisions et leurs relations. Il se ralise en deux tapes. La premire est l'identification des lments possibles pour un texte donn et de leurs relations. C'est en quelque sorte crire une grammaire de texte . C'est ce qu'on appelle une Dfinition de Type de Document (DTD). La deuxime tape est l'introduction des balises choisies dans le document relevant de cette DTD, en respectant les rgles dites pour leur combinaison. En adaptant au franais la grammaire de dictionnaires fournie par N. Ide et J. Vronis (1995b) et en simplifiant l'extrme, on peut distinguer les lments suivants : la forme, subdivis en orthographe et phontique, et les homographes, relevant de parties du discours distinctes (linguistique {nom} et linguistique {adjectif}) et subdiviss en sens distincts :
entree forme homographe+ | forme sens+225 forme orthographe phonetique homographe categorie sens+
Chaque lment est encadr par deux balises de mme nom, lune ouvrante, lautre fermante. Les balises sont entre chevrons. La balise fermante commence par une oblique. Le balisage concret serait alors :
<entree> <forme> <orthographe>linguistique</orthographe> <phonetique> mettre</phonetique> <forme> <homographe> <categorie>nom</categorie> [...] <homographe> <categorie>adjectif</categorie> <sens>relatif la linguistique</sens> <sens>propre la langue, envisag du point de vue de la langue</sens> <sens>relatif l'apprentissage des langues</sens> Le signe + signifie que le constituant doit figurer au moins une fois et qu'il peut se prsenter un nombre indfini de fois. La barre verticale spare deux manires possibles de construire une entre : une forme suivie d'homographes, ou une forme suivie d'un ou de plusieurs sens. Une entre de dictionnaire qui ne contiendrait pas d'indications orthographiques et phontiques serait mal forme, par exemple.
225
Bibliographie
</homographe> </entree>
159
Le balisage employ ici rend explicite ce qui n'existait que sous forme d'indices dans la version papier de l'entre. Il obit au langage standard de balisage SGML226 qui est maintenant prsent dans pratiquement tout logiciel de gestion de document227. SGML offre en plus des mcanismes particuliers pour noter les caractres exotiques en faisant abstraction de leur ralisation physique sur telle ou telle architecture. C'est le cas des caractres accentus, mais aussi de l'alphabet phontique international. On peut ajouter de nouvelles conventions de notation pour les caractres ou suites de caractres non prvus, ce qui permet de faire face au caractre ouvert des notations ncessaires. Soulignons que SGML n'est pas une grammaire des textes possibles, mais un mta-langage permettant de dfinir la grammaire des diffrents types de textes228.
38.2 Les types de textes : TEI

Une fois ce balisage logique introduit, il est possible d'accder aux lments d'information. On peut extraire la reprsentation phontique (l'empan de texte compris entre <phonetique> et </phonetique>) ou les catgories des diffrents homographes ou les sens de l'adjectif, etc. Ce premier niveau de normalisation s'avre cependant insuffisant. La grammaire complte dfinie peut suffire pour Le Petit Robert, elle peut se rvler inadapte pour d'autres dictionnaires. En outre, rien n'empche plusieurs groupes ou individus de se donner des conventions diffrentes pour un mme type de document, ce qui empche de comparer et d'changer les rsultats. Un deuxime niveau est donc ncessaire. S'entendre sur des descriptions gnriques pour les grands types de documents utiliss : dictionnaires, posie, thtre, oral, textes aligns, documents historiques, ainsi que pour les niveaux d'annotation qui peuvent les dcorer : tiquettes, arbres, apparat critique, rfrences croises. Une initiative de grande ampleur, la TEI229 (Text
226
L'ISO (Organisation Internationale de Normalisation) a adopt en octobre 1986 SGML (Standard Generalized Markup Language) dans le but d'atteindre une relle souplesse d'utilisation, de rutilisation et d'change de l'information. Cette norme internationale (ISO 8879) a t rapidement adopte par de nombreuses institutions prives et publiques, dans le monde anglo-saxon (American Association of Publishers, British Library, Oxford University Press, industrie aronautique : Bing, Airbus ...) mais aussi en France (Syndicat National de l'Edition, Cercle de la Librairie ...). 227 Le succs grandissant de SGML tient aussi au fait qu'une grammaire particulire, HTML, issue de SGML dcrit le langage hypertextuel utilis pour le Web. Un traitement de texte courant, Word, offre ainsi la possibilit d'exporter un document en mode HTML. 228 (van Herwijnen, 1994) constitue une introduction globale et pratique SGML. 229 Soutenue par l'Association for Computers and the Humanities, l'Association for Computational Linguistics et l'Association for Literary and Linguistic Computing. Le projet a t en partie financ par le National Endowment for the Humanities amricain, la DG XIII de
160
Encoding Initiative) a depuis dix ans rassembl des chercheurs de diffrentes disciplines et de toutes nationalits pour proposer des conventions sur ces types de documents. Elle a dbouch sur des Recommandations230 en 1994. De nombreux projets de constitution de corpus et de ressources linguistiques ont adopt la TEI (BNC par exemple)231. Pour reprendre les termes de J. Andr (1996, p. 17), la TEI constitue un inventaire une sorte de flore, au sens de Buffon des divers lments pouvant constituer un document littraire , et elle reprsente en ce sens une avance dans la description et la formalisation des types de documents en circulation dans les diverses communauts langagires. Elle fournit ainsi indirectement des lments pour les typologies de textes et les tudes sur les genres discursifs. Il ne faut pas s'inquiter de la lourdeur de ces balisages, dont tmoigne l'exemple choisi. Ils ne sont absolument pas faits pour tre insrs et utiliss la main . Des environnements spcifiques permettent le balisage de textes et la vrification de la conformit du balisage effectu avec une grammaire fournie, tout comme les traitements de texte cachent l'utilisateur les codages permettant de mmoriser la prsentation qu'il a choisie.
39. DOCUMENTER UN CORPUS

Sans une documentation jointe, un corpus est mort-n. L'un des dangers de la facilit actuelle rassembler des textes lectroniques est prcisment que les objectifs du regroupement ainsi que ceux des annotations effectues ne soient pas enregistrs : le corpus cesse d'tre utilisable ds que se perd la mmoire de ces choix. La documentation doit couvrir deux volets distincts : les sources utilises et la responsabilit ditoriale de constitution du corpus d'une part, les conventions d'annotation d'autre part232.
la CEE, la fondation Andrew W. Mellon et le Social Science and Humanities Research Council du Canada. 230 La TEI est donc une proposition de norme et non une norme. 231 On trouvera dans (Ide et Vronis, 1995a) une prsentation gnrale de SGML et de TEI, ainsi que les propositions relatives aux diffrents types de texte. Les Cahiers Gutenberg n 24 (juin 1996) traduisent certains de ces articles et compltent l'information sur TEI et SGML. 232 Susanne l encore est exemplaire : un livre entier (Sampson, 1995) informe sur ces deux volets du corpus, mais une documentation dj trs prcise reprise dans (Sampson, 1994) est galement fournie avec la version lectronique. La TEI a fait des propositions dtailles sur le type de documentation fournir pour un corpus (Dunlop, 1995).
Bibliographie
161
39.1 Origine et histoire du corpus

L'information sur ce point doit indiquer les sources primaires utilises, avec les rfrences bibliographiques prcises pour les ditions utilises quand il s'agit de documents imprims, mais aussi les objectifs viss par le regroupement, ses responsables, ainsi que les rvisions qu'a subies le corpus au fil de sa mise au point.
39.2 Jurisprudence d'annotation

La qualit primordiale d'un systme d'annotation, c'est sa cohrence interne233. Comme utilisateur d'un corpus annot, on peut regretter tel ou tel choix. Par exemple, dans Susanne, les deuxime, troisime, etc., lments conjoints par une coordination sont reprsents comme des subordonns du premier (Sampson, 1994, p. 184). Une coordination de la forme a, b and c est indique ainsi [a, [b], [and c]]. L'essentiel est que l'on puisse tabler sur la cohrence de traitement : toutes les coordinations sont effectivement notes ainsi. Si l'on s'intresse la coordination, on pourra filtrer les sous-arbres pertinents : leur forme globale ne varie pas. D'o l'importance des contrles de qualit et des procdures de comparaison plus ou moins automatiss des rsultats de plusieurs annotateurs / correcteurs sur les mmes textes. Pour les 800 000 mots dcors syntaxiquement l'universit de Lancaster, le dispositif tait le suivant. D'abord la double analyse pour comparer le travail d'un annotateur avec celui des autres : Le but de la double analyse n'est pas tant la production d'un fragment correct que la dtection de divergences significatives dans les pratiques d'annotation des deux analystes (Black et al., 1993, p. 34). Un logiciel permet de comparer les rsultats de deux analystes sur un mme texte. Il sert aussi aux analystes dbutants vrifier la qualit de leur travail au regard des annotations d'analystes plus chevronns. Enfin, un grammairien expriment effectue une vrification approfondie par chantillonnage sur 1 % du rsultat. Il importe galement de contrler la cohrence d'un annotateur au cours du temps234 parce que sa comprhension des conventions d'annotation et sa finesse d'analyse voluent. Un corpus n'est comprhensible que si l'on dispose non seulement des tiquettes utilises pour les mots comme pour les constituants, mais surtout d'informations sur le mode d'attribution de ces tiquettes et les critres de dcoupage sous-jacents : listes pour les catgories fermes, critres aussi prcis que possibles pour les catgories ouvertes, assortis d'exemples, en
233 C. Muller (1973, p. 10) le disait dj voici longtemps, en particulier pour la segmentation et la lemmatisation. 234 Nous ne connaissons pas d'tudes sur ce point. Cette absence s'explique sans doute par la difficult faire ranalyser les mmes donnes intervalles de temps suffisamment loigns ou trouver des donnes diffrentes prsentant les mmes difficults d'annotation.
162
particulier des cas litigieux. Paralllement aux corpus annots, se dveloppent, pour chaque schma d'annotation, des guides d'annotation (guidelines), qui sont parfois plus justement dnomms des recueils de jurisprudence (caselaws). Si les dcoupages et la catgorisation n'ont en effet rien d'une science, il importe par contre de fixer la jurisprudence, partir des dcisions qui ont t prises dans tel ou tel cas, et qui clairent ou rectifient les principes gnraux qui ont t retenus. Les comparaisons de doubles analyses, en dehors des variations mineures, permettent de les tablir. C'est la dmarche suivie Lancaster : [...] les divergences importantes sont rsolues par discussion (ou par appel un tiers quand les deux analystes ne parviennent pas un accord) (Black et al., 1984, p. 34). L'objectif de telles jurisprudences est d'assurer, dans la mesure du possible, une certaine reproductibilit de l'annotation : une comprhension solide de ces conventions doit permettre en principe plusieurs analystes d'aboutir une annotation la plus homogne possible. L'exprience de Lancaster semble montrer, d'ailleurs, que l'annotation (ici sur le plan syntaxique, mais le propos peut tre gnralis) ne peut pas reposer directement sur l'intuition, non taye, des locuteurs, contrairement ce qui avait t essay dans une premire phase. [Les] annotateurs jouissaient d'une telle latitude dans les dcisions prendre lors de l'analyse manuelle qu'ils aboutissaient un degr trs bas de comparabilit des analyses. Plus intressant, ils se sentaient mal l'aise : avec si peu d'indications sur ce qui tait juste ou faux, ils se consultaient les uns les autres et dveloppaient leur propre norme non crite sur la manire d'analyser les phrases, ou bien consultaient les traitements fournis dans les grammaires usuelles. Les conventions tacites et alatoires dveloppes ainsi pouvaient mme tre mutuellement incompatibles. Nous avons fini par cder la demande de 'standards' de codification et le manuel d'analyse est devenu de plus en plus dtaill, jusqu' rduire un minimum les zones d'incertitude (Black et al., 1993, p. 41).
40. CONTRAINTES ET CONDITIONS INSTITUTIONNELLES
40.1 Assises institutionnelles

Comme nous l'avons vu pour les corpus tiquets, il y a toujours adapter une annotation donne (changement de catgories, rajout de balises ...), soit pour comparer des annotations distinctes sur un mme texte, soit pour ajouter, supprimer ou changer des catgories. Cela suppose d'abord des environnements informatiques adapts : dans l'immdiat, ils sont crs au coup par coup et ne sont pas standardiss. Cela implique galement une
Bibliographie
163
identification fine des transformations et de leur difficult, ce qui ncessite une certaine culture thorique et pratique issue de la tradition informatique des langages formels. Par exemple, nous l'avons vu, une notation dpendancielle ne se laisse pas forcment traduire en arbres. Autant dire qu'une coopration approfondie entre informaticiens (spcialistes du TALN) et linguistes est ncessaire et le restera longtemps. Il semble d'ailleurs que le monde anglo-saxon arrive plus facilement faire cooprer sciences humaines et sciences plus dures , comme le montrent les conditions de ralisation de BNC ou de Penn Treebank, alors qu'en France, la division entre lettres et sciences reste extrmement forte (ne serait-ce que par l'existence d'universits distinctes pour chaque secteur). Enfin, la constitution de corpus est une entreprise de longue haleine et coteuse. Elle suppose des moyens financiers et institutionnels lourds. Le consortium l'origine de BNC est significatif cet gard235. On note l'alliance de comptences universitaires en linguistique et en informatique et d'entreprises prives, en particulier d'diteurs, ainsi que le soutien de la puissance publique.
40.2 Problmes juridiques

Peu de corpus sont dans le domaine public sans condition aucune236 : l'accs aux documents primaires comme le fait de disposer du regroupement de documents et de leur annotation sont soumises des restrictions diverses. La prsence de donnes personnelles peut faire obstacle la mise disposition de la communaut. C'est le cas de Menelas. Mme anonymis (les noms propres de personne et de lieux sont remplacs par des chanes de caractres conventionnelles), ce corpus fournit des informations personnelles (ge, symptmes, traitements) qui permettraient ventuellement de retrouver les patients concerns, violant ainsi le droit dont ils jouissent sur les informations les concernant (loi Informatique et Liberts). L'attention s'est souvent centre sur la protection des auteurs et ayantdroits des documents primaires (les ouvrages inclus dans un corpus). La protection de ceux qui ont annot le corpus n'est pas moins importante. L'enrichissement d'un corpus par tiquetage ou parsage constitue en effet une plus-value considrable pour la recherche : il peut servir de base de nouvelles annotations (apprentissage de chanes de Markov ou de grammaires probabilistes). Les corpus rsultant le plus souvent de la coopration de diverses personnes physiques et morales, il faut identifier
Oxford University Press, Longman Group Ltd, Chambers Harrap, Oxford University Computing Services, Unit for Computer Research on the English Language (Lancaster University), British Library Research and Development Department. Ont par ailleurs contribu au financement de ce projet : UK Department of Trade and Industry, le Science and Engineering Research Council, ainsi que la British Library et la British Academy. 236 l'exception, notable, de Susanne, dchargeable par ftp anonyme (Sampson, 1994, p. 187) : black.ox.ac.uk (ota/suzanne).
235
164
prcisment les diffrentes parties prenantes et leurs droits. Les interrogations juridiques peuvent donc concerner la cration du corpus, sa protection une fois constitu et enfin sa diffusion237. Lors de la cration du corpus, il s'agit d'abord d'identifier les matriaux viss et le rgime juridique de chacun d'eux (certains peuvent tre protgs par le droit d'auteur, d'autres non, comme frquemment les textes officiels d'origine lgislative, administrative ou judiciaire, pour faciliter leur diffusion). Des autorisations, en fonction des traitements envisags, peuvent tre demander non seulement pour le respect du droit pcuniaire et patrimonial mais aussi pour celui du droit moral238 de l'auteur sur son uvre (droit de divulgation, droit au respect de l'uvre, etc.). La reproduction opre peut en outre correspondre un rgime d'exception au droit de reproduction (usage priv, reproduction par des tablissements de recherche, etc.). L'utilisation prvue du corpus influe aussi sur la nature des autorisations ngocier. Les produits issus d'un corpus (index, thesaurus, lexique) doivent galement tre protgs, au mme titre que le corpus lectronique lui-mme. La diffusion du corpus peut se faire par cessions de droits, soit par licences d'utilisation (commercialisation par CD-ROM) soit par contrats d'abonnement ou d'interrogation.
237
Le rapport de N. Pujol (1993) ne donne pas l'ensemble des situations qui peuvent se prsenter et des attitudes adopter, mais fournit une liste aussi exhaustive que possible des questions juridiques se poser lors de la constitution d'un corpus, en particulier dans un cadre international. Nous nous inspirons de ce travail dans ce paragraphe. 238 L'uvre tant manipule en tout sens, il conviendra de s'assurer qu'il n'est pas port atteinte au droit moral de l'auteur. Ce droit peut tre menac : a) par la mauvaise qualit du traitement linguistique b) mais aussi du seul fait que le traitement linguistique opr ne participe pas du mode de reproduction de l'uvre autoris par l'auteur (Pujol, 1993, p. 14).
Bibliographie
165
CHAPITRE VIII
ANNOTER UN CORPUS
Nous ne prtendons pas fournir ici une prsentation exhaustive. L'clatement des ralisations, disperses dans les publications, l'volution rapide des outils, les avances thoriques et pratiques conduisent un instantan fragmentaire. Il est en outre difficile de prvoir les tendances moyen terme. Notre objectif est de donner une ide des grands axes ... et des difficults. Dans la tradition pragmatique anglo-saxonne, les publications concernant les corpus mentionnent souvent les cots des diffrentes oprations ncessaires. Ces renseignements permettent de prendre la mesure des moyens mobiliser pour disposer des corpus rellement adapts aux recherches linguistiques. l'chelle de la francophonie, ils donnent une ide de l'ampleur des efforts fournir. Ces " cots " sont cependant donns titre indicatif. Ils donnent un ordre de grandeur, ils n'autorisent pas vraiment des projections, des comparaisons. chaque niveau, les types d'annotation diffrent trop pour qu'une mise en parallle soit aise. Pour s'en tenir l'tiquetage, la taille du jeu d'tiquettes peut changer du tout au tout le cot de la correction.
41. NETTOYAGE ET HOMOGENEISATION

La phase initiale de nettoyage et dhomognisation des textes collects sous forme lectronique est une tape souvent sous-estime, alors quelle est cruciale. Dans certains cas, les textes intgrer dans un corpus ont t frapps pour la circonstance : ils contiennent des fautes de frappe ou dorthographe. Dans dautres cas, ils sont issus d'une reconnaissance
166
optique : il faut restituer les mots qui ont t rpartis entre deux lignes, corriger les erreurs typographiques. Il peut s'agir galement de textes dj saisis pour d'autres fins (bandes de composition de livres ou de journaux), le codage qui y figure doit tre pris en compte, pour tre transform ou supprim. Nous ne connaissons pas d'tude spcifique sur les cots de cette phase. Le compte-rendu du projet AVIATOR (Blackwell, 1993) permet nanmoins d'valuer les difficults rencontres. L'objectif est ici de dvelopper des filtres permettant de nettoyer du texte tout-venant pour tudier l'volution presque au quotidien de l'anglais, dans la perspective d'un corpus de suivi (cf. chapitre VII). Deux millions et demi de mots, provenant du journal The Times, sont traits chaque mois. Le titre mme de ce compte-rendu donne une ide de l'ampleur du problme : Des donnes sales au langage propre . Comme S. Blackwell le souligne (ibid.), la correction de ce qui semble tre des erreurs typographiques ne va pas forcment de soi. Une orthographe non standard a parfois pour but d'imiter une prononciation trangre, dialectale ou idiolectale. Ou bien le mot a t forg dans une optique ludique239 (mot-valise, dformations diverses). Il s'agit alors de choix dlibrs de la part de l'nonciateur, qui doivent donc tre conservs comme tels. Les donnes comprennent parfois des codes propres au traitement pour lequel les documents taient destins au dpart (par exemple des indications de photocomposition). Les titres, sous-titres et lgendes suscitent aussi un traitement spcifique : quoiqu'ils constituent des units part entire, ne pas mler au texte qui les environne, ils sont gnralement dpourvus de ponctuation finale. Il faut donc distinguer leur dbut et leur fin.
42. SEGMENTATION
La segmentation consiste dcouper une suite de caractres en units : mots simples ou units polylexicales.
42.1 Reprer les units

Le reprage des mots est dlicat240. Un certain nombre de caractres, en effet, fonctionnent tantt comme sparateurs de mots tantt comme composants de mots. C'est le cas du trait d'union, qui joint deux mots dans vient-il, mais pas dans va-et-vient241. C'est le cas encore de l'apostrophe :
239 240 241
Cf. (Fiala et Habert, 1989 ; Renouf, 1993). (Silberztein, 1993, p. 111-136) montre la complexit des phnomnes. (Mathieu-Colas, 1994) montre l'htrognit extrme des emplois du trait d'union dans les
Bibliographie
167
sparateur comme guillemet simple, pour signaler l'lision, composant dans aujourd'hui, les abrviations et la reprsentation du langage parl : v'la au't chose. C'est le cas surtout de l'espace, partie intgrante des units complexes : une carte bleue. Les units complexes occupent une place importante en franais. On estime au cinquime d'un texte la surface qu'elles couvrent. Pour le franais, des inventaires extrmement fournis ont t raliss au LADL, sous l'impulsion de M. Gross, aboutissant un dictionnaire lectronique de mots composs ou DELAC (Courtois, 1990 ; Silberztein, 1993, p. 60-108). Ce dictionnaire associe aux squences retenues des indications sur leurs variations ventuelles (flexion, discontinuits, alternances lexicales) ainsi que leurs proprits syntaxiques (transformations242). Mentionnons la difficult dcouper automatiquement le texte en phrases : titres, numrations spares par des points-virgules, exemples insrs dans le texte et faisant interposition, etc. La ponctuation offre des indices peu fiables243. Le point est une marque d'abrviation, un sparateur dans des codes (01.41.13.24.63) ou des nombres (3.13) , un indice d'alignement (dans une table des matires) et une fin de phrase. Or le dcoupage en phrases est crucial pour de nombreux traitements : examen des cooccurrences, tiquetage et analyse syntaxique ...
42.2 Techniques
Pour isoler les mots , on crit des rgles qui emploient le contexte pour statuer sur les limites des units. Par exemple, un trait dunion ayant sa droite un pronom clitique comme je, tu, il a un statut de dlimiteur. Il spare un verbe de son pronom sujet conjoint (un t dappui peut sinterposer). Ces rgles sont combines avec le recours des dictionnaires de mots simples ou complexes (par exemple, comprenant la liste des mots franais qui incluent en leur sein lapostrophe, comme aujourdhui ou prudhommes). Le systme INTEX244 (Silberztein, 1993) est lexemple dun segmenteur associant rgles et dictionnaires. partir des dictionnaires lectroniques du LADL, il assure le dcoupage initial d'un texte tout-venant, l'tiquetage des mots simples et la reconnaissance des units polylexicales. Son approche est base sur des rgles et non sur des probabilits. Il combine deux traitements : la projection sur le texte des dictionnaires, ce qui associe chaque " mot " la ou les tiquette(s) pertinente(s) ainsi qu'aux suites de mots (ventuellement discontinues) leurs lectures ventuelles comme " mots composs " ou " expressions composes ", puis une dsambigusation par
dictionnaires. 242 Par exemple, analyse des donnes au sens statistique n'accepte pas le pluriel pour analyse ni le singulier pour donnes ni le remplacement de des par de. 243 Pour le rle de la ponctuation dans l'analyse syntaxique, voir (Nunberg, 1990). 244 Les techniques prouves des automates et des transducteurs tats finis lui donnent une grande efficacit.
168
des " grammaires locales " (ibid. p. 154-167). Par exemple, la phrase Luc a travaill pour le Ministre de l'intrieur admet deux interprtations (ibid., p. 139) : C'est de l'intrieur que Luc a travaill pour le Ministre et C'est pour le Ministre de l'intrieur que Luc a travaill. Il y a conflit entre deux units polylexicales : Ministre de l'intrieur et de l'intrieur. La reprsentation produite signale les deux dcoupages : Luc a travaill pour le 1[Ministre 2[de l'intrieur]2]1 o les indices identifient les deux possibilits. En l'occurrence, l'ambigut n'est pas leve. Dans d'autres contextes, on peut trancher. Des grammaires locales laguent le graphe que constitue le texte dans lequel ont t ajoutes les tiquettes des mots simples et les expressions et mots composs. Elles permettent d'liminer certains chemins245. Par exemple, lorsquun mot peut tre pronom clitique ou dterminant et quil est suivi dune forme qui ne peut tre quun verbe, comme dans : Max le veut, ltiquette {pronom clitique} est limine.
42.3 Difficults
Les units polylexicales occupent une place fondamentale dans le lexique. Un segmenteur qui ne dispose pas dinventaires de ces units va mietter tort les textes. De multiples techniques ont t testes pour faciliter le reprage automatique de ces mots complexes. Certaines d'entre elles ont t voques au chapitre II. D'autres reposent sur le filtrage statistique des mots qui s'attirent au sein d'un contexte restreint, d'autres encore sur l'utilisation de patrons syntaxiques (du type [{nom} {prposition} {nom}] comme cadre de vie), d'autres enfin combinent ces deux approches (Daille, 1993). Cependant, nombre de squences proposes par ces outils ne constituent pas en fait des dnominations (cf. II 3.3)246. Les inventaires d'units complexes raliss pour le TALN suscitent gnralement la perplexit ou la contestation sur la dlimitation faite et sur le choix de considrer telle squence comme une unit dnominative plutt que comme un syntagme libre. Le risque symtrique de l miettement est de considrer tort des suites de mots comme des units polylexicales. Lutilisation de dictionnaires comprenant un nombre important d'units complexes fait natre en outre des ambiguts pour les squences qui fonctionnent comme un tout dans certains domaines et qui sont considrer comme des syntagmes libres dans d'autres. Dans l'analyse des donnes montre que ... , le segment analyse des donnes peut renvoyer une
245 246
Soulignons l'extrme gnralit du traitement effectu. Cela permet d'utiliser INTEX pour d'autres traitements : tiquetage smantique etc. Cet excdent s'explique partiellement par le caractre encore fruste des techniques employes. Il tient plus fondamentalement aux limites de nos connaissances sur les mcanismes langagiers de cration d'units dnominatives. Les contraintes smantiques l'uvre sont encore trs peu explores. Enfin, les dnominations possibles constituent un sur-ensemble des dnominations effectives, il n'est pas sr qu'on puisse modliser la manire dont une communaut langagire choisit au sein des dnominations possibles.
Bibliographie
169
famille prcise de techniques statistiques (prsente dans le chapitre IX), et c'est alors une unit, ou bien il doit tre pris au pied de la lettre , comme un groupe de mots sans lien particulier247. Plus les inventaires d'units complexes s'tendent, plus ils rendent probables ces rencontres de hasard. Il n'est pas toujours sr qu'il faille faire l'hypothse, lorsqu'on rencontre une squence inventorie, de la prsence effective de cette squence.
43. TIQUETAGE MORPHO-SYNTAXIQUE

Attribuer chaque mot la ou les tiquettes possibles peut se faire par consultation d'un dictionnaire, o chaque forme est suivie d'une liste de catgories, ou par analyse morphologique, ou par combinaison des deux techniques. Pour lever l'ambigut, deux solutions, qui peuvent d'ailleurs tre associes, s'offrent alors : le recours des rgles ou l'appel aux probabilits (ce qui est sans doute la tendance dominante)248.
43.1 Taux d'ambigut

Il est ncessaire, pour valuer la tche d dsambigusation morphosyntaxique, cest--dire le choix de ltiquette correcte parmi les tiquettes possibles, dvaluer le nombre moyen dtiquettes pour un mot. M. El Bze et T. Spriet (1995) donnent les informations suivantes : [...] une trs grosse part de l'ambigut syntaxique est dtenue par un petit nombre de mots frquents [..]. De plus, ces mots sont essentiellement des mots outils. Ils appartiennent des classes fermes et jouent un rle syntaxique bien cern dans la littrature. Ils prcisent (ibid. p. 58) : " [...] 30 % de l'ambigut est dtenue par les 8 mots ambigus les plus frquents249 (50 % par les 36 premiers) mais il faut traiter 1 825 formes diffrentes pour lever 90 % de l'ambigut250. E. Tzoukermann et al. (1996) prcisent ce premier constat sur deux ensembles de 94 882 et 200 182 occurrences respectivement, tous deux extraits du journal Le Monde (septembre-octobre 1989 et janvier 1990) : Nombre % du corpus de 94 882 % du corpus de 200 182 dtiquettes mots mots
247
On ne sait pas attacher de manire fiable une unit polylexicale une indication de domaine (analyse de donnes : mathmatiques, statistiques) et encore moins s'en servir pour n'utiliser que les units propres au domaine, d'autant que les domaines sont permables : la linguistique peut recourir l'expression analyse des donnes dans ses deux acceptions. 248 J.-P. Chanod et P. Tapanainen (1995b) les comparent prcisment, partir d'une mme segmentation et d'un mme analyseur morphologique. Ils donnent l'avantage l'approche par rgles. 249 Ces 8 formes sont : la le l' les en un une a. 250 Les chiffres de J.-P. Chanod et P. Tapanainen (1995b) concordent globalement.
170
1 57 % 58 % 2 26 % 25 % 3 11 % 11 % 4 0,5 % 1% 5 0,9 % 2% 6 2% 2% 7 0,5 % 0,5 % 8 0,5 % 0,1 % Plus de la moiti des mots ne soient pas ambigus. Le nombre de mots pouvant relever de 4 8 tiquettes est trs restreint (4.4 % dans le premier cas, et 5.6 % dans le second). Le taux moyen d'ambigut par mot se monte alors 1.72 pour le premier corpus et 1.81 pour le second251.
43.2 Dsambigusation par rgles

Certaines suites de catgories sont illicites. Par exemple, deux tiquettes sont possibles pour le {dterminant} ou {pronom} et pour guide {verbe} ou {nom}. Cependant, toute la combinatoire n'est pas ralisable dans la squence le guide. Des quatre possibilits, seules sont actualisables [{Pronom} {verbe}] (il le guide) et [{dterminant} {nom}] (le guide commence son expos). On peut donc crire une premire rgle d'lagage qui remplace la combinatoire par les deux seules suites licites de catgories. On utilise alors des rgles ngatives . D'autre part, certaines formes permettent ddicter des rgles positives . Elles imposent en effet des contraintes fortes sur celles qui les prcdent ou les suivent immdiatement. Ainsi, me ou te sont suivis soit d'un pronom clitique (il me le donne) puis d'un verbe soit directement d'un verbe. On peut alors s'appuyer sur cette information pour liminer des ambiguts. Dans il me le garde, le ne peut tre qu'un pronom clitique et garde qu'un verbe. De telles formes servent de levier pour dsambiguser une partie de leur entourage. On parle d lots de confiance . Les clitiques post-poss et relis par un trait d'union offrent galement de tels appuis (dans Route-t-il correctement le courrier, route ne peut tre qu'un verbe). Les formes nouvellement dsambiguses servent leur tour de point d'appui : les lots de confiance vont croissant. Les outils de dsambigusation sont donc de manire gnrale des grammaires locales (Silberztein, 1993) qui prennent en entre le graphe correspondant la projection des diffrentes tiquettes sur le texte et liminent une partie des chemins de ce graphe, ou inversement qui rajoutent des chemins (par exemple pour rendre compte des units complexes comme
251
M. El-Bze et T. Spriet (1995, p. 52-53) donnent des chiffres proches.
Bibliographie
171
bien que ou carte bleue)252. Les automates ou transducteurs correspondants ne savent pas traiter les dpendances longue distance que lon trouve en syntaxe. Cest galement le cas en dsambigusation probabiliste.
43.3 Dsambigusation probabiliste

La dsambigusation probabiliste s'appuie sur le caractre positionnel de langues comme le franais et l'anglais, lequel fournit des contraintes locales fortes. Dans le graphe orient des tiquettes possibles pour chacun des mots, il s'agit de chercher le chemin de probabilit maximale. Le choix de l'tiquette la plus probable en un point donn se fait au regard de lhistorique des dernires tiquettes qui viennent d'tre attribues. En gnral, cet historique se limite aux deux ou trois tiquettes prcdentes, on parle alors de bigrammes ou de trigrammes. Il repose sur des chanes de Markov (Calliope, 1989, p. 360-370, Mrialdo, 1995, p. 11-13). Ces mthodes supposent de disposer d'un corpus d'apprentissage. Ce corpus d'apprentissage doit tre d'une taille suffisante pour permettre une estimation fiable des probabilits des suites de catgories et des diffrentes catgories d'un mot donn dans ces enchanements. Le cot de prparation de ce corpus d'apprentissage est important. On procde alors par approximation. Un premier corpus d'apprentissage, relativement court, permet d'tiqueter un corpus plus important. Celui-ci est corrig, ce qui permet de restimer les probabilits. Il sert donc un second apprentissage. Et ainsi de suite. Les units polylexicales sont mal prises en compte dans cette approche. Ainsi, pour reprendre l'exemple de M. El-Bze et T. Spriet (1995), les adjectifs et participes placs immdiatement droite du nom compos cour dappel s'accordent avec cour et non avec appel. La probabilit d'un adjectif ou d'un participe pass fminin singulier aprs un nom masculin singulier comme appel sera pourtant donne comme trs faible par le corpus d'apprentissage, juste titre d'ailleurs. Plus gnralement, les dsambigusations qui reposent sur un contexte large chappent ce type de mthode. Des ambiguts comme premire / troisime personne du singulier dans je ne le pense pas / il ne le pense pas ne sont pas limines, parce que ces tiqueteurs probabilistes s'appuient sur le contexte de la catgorie prcdente, voire des deux catgories prcdentes, pour trancher, et qu'ici il faudrait prendre en compte les trois catgories prcdentes (Chanod et Tapanainen, 1995a). L'approche probabiliste suppose par ailleurs que le corpus d'apprentissage ne prsente pas des fonctionnements langagiers trop diffrents du corpus tiqueter. Dans le cas de BNC, un certain nombre de mots comme I, well et
252
J.-P. Chanod et P. Tapanainen (1995b) ont ainsi dvelopp un tiqueteur qui comprend 75 rgles. E. Tzoukermann et al. (1995) donnent des exemples des rgles qu'ils ont mises au point pour le franais.
172
right etaient mal tiquets dans la partie orale du corpus dans la mesure o l'apprentissage avait t ralis sur la partie crite (Leech et al., 1994).
43.4 Performances
Aucun dictionnaire ne peut tre entirement exhaustif. En outre, les entres du dictionnaire peuvent tre incompltes (certaines catgories, pourtant possibles, en sont omises). Un analyseur morphologique ne fournit pas non plus d'hypothses sur la totalit des mots tiqueter. Il reste donc toujours des mots inconnus , ne serait-ce qu'en raison des noms propres, des mots emprunts des langues trangres ou des nologismes (dbureaucratiser). Les taux habituellement cits tournent autour de 95 98 % d'tiquettes justes. Ce chiffre parat encourageant. Cependant, ces performances incluent souvent les ponctuations parmi les formes tiquetes. Or les ponctuations couvrent environ 10 15 % de la surface des textes, ce qui diminue d'autant le nombre des formes lexicales qui sont effectivement correctement catgorises. Par ailleurs, nous l'avons vu, une bonne moiti des formes d'un texte ne relve que d'une catgorie et d'une seule. La dsambigusation est donc comptabiliser sur le reliquat seulement, ce qui double le pourcentage d'erreur. Notons enfin que 5 % d'erreur, c'est une tiquette errone tous les 20 mots, soit plus d'une fois par phrase dans un texte courant. Une telle performance handicape un parseur intervenant en aval. La fiabilit d'un tiqueteur donn est valuer l'aune des tches qui vont avoir recours par la suite au texte tiquet : les enjeux ne sont pas les mmes s'il s'agit d'analyse syntaxique automatique ou d'tude de la rpartition de certains patrons morpho-syntaxiques. Il convient aussi de comparer les rsultats affichs avec ceux qui proviennent d'une intervention manuelle. M. Marcus et al. (1993) indiquent : l'tiquetage manuel a pris peu prs deux fois plus de temps que la correction d'un tiquetage automatique, avec un taux de dsaccord entre personnes tiquetant peu prs double, et un taux d'erreur presque de 50 % plus lev. Il est en outre extrmement difficile de comparer les performances : les jeux d'tiquettes, leur taille changent d'un systme l'autre : 37 catgories pour (Chanod et Tapanainen, 1995), 253 pour Tzoukermann et al., 1995) par exemple. Le taux d'ambigut d'un tiquetage est en effet proportionnel la taille du jeu d'tiquettes employ. Il faut galement tenir compte de la stabilit des rsultats : si le taux dambigut restant ne varie que faiblement (1.2 %) dans les expriences d'E. Tzoukermann et al. (1995) selon qu'ils emploient un jeu de 67 ou de 253 catgories, 2.5 % des formes ont t analyses diffremment, (Stein et Schmid, 1995, p. 29), des rsultats relativement divergents sont donc fournis. En outre, les ambiguts possibles ne sont pas de mme nature : on ne peut mettre sur le mme plan l'hsitation entre nom et verbe (porte) et celle entre adjectif et participe pass. Dans ce cas, la leve d'ambigut n'a pas les mmes consquences pour les traitements
Bibliographie
173
ultrieurs : considrer un mot comme adjectif ou participe pass changera peu la place qui lui sera attribue dans la structure construite.
43.5 Post-traitement et cots

Pour un usage linguistique fin, le post-traitement manuel s'avre en tout cas indispensable. Malgr les environnements spcialiss qui ont t dvelopps, la correction reste coteuse. Dans le cadre de BNC, elle est value (Leech et al., 1994), aprs le passage d'un tiqueteur probabiliste (CLAWS4, bas sur les chanes de Markov), au taux de succs de 96 97 %, 40 minutes de travail spcialis pour 1 000 mots, soit 41 annes-homme pour 100 millions de mots. Il faut en outre prendre en compte le nombre d'tiquettes : plus il est grand, plus il rend difficile la correction manuelle. Cette difficult pousserait choisir des tiquettes connues , bases sur le savoir grammatical courant (sur la terminologie grammaticale traditionnelle), pour faciliter le travail des correcteurs et l'utilisation ultrieure par des chercheurs (Greenbaum, 1993). Pour le corpus de l'universit de Lancaster, prs de 39 minutes (Black et al., 1994, p. 60) sont ncessaires au traitement de 1 000 mots (prtraitement, passage de l'tiqueteur probabiliste CLAWS, correction manuelle).
43.6 Evaluation et nouvelles tendances

Eric Brill (1995) rsume ainsi les points forts et les faiblesses des deux approches : [Les] tiqueteurs stochastiques ont bien des avantages sur les tiqueteurs btis manuellement, en particulier ils rendent superflue la construction laborieuse de rgles manuelles, et saisissent des informations utiles qui peuvent ne pas avoir t remarques par l'analyste humain. Cependant, les tiqueteurs stochastiques prsentent l'inconvnient que les connaissances linguistiques ne sont captures qu'indirectement, par le biais de grands tableaux statistiques. L'criture de rgles se heurte rapidement la complexit des interactions effectives entre les rgles. En effet, chaque rgle agit sur un texte qui a t modifi par les rgles prcdentes. Il faut donc prvoir autant que faire se peut ces interactions, qui peuvent devenir d'une complexit trs grande, voire ne plus tre matrisables. l'inverse, la mise au point des rgles peut s'appuyer sur l'intuition des locuteurs. L'tiquetage et la dsambigusation, comme d'autres secteurs de l'annotation des donnes textuelles, donnent lieu des approches mixtes, o un tiquetage probabiliste est corrig in fine par des rgles du type de celles
174
voques ci-dessus, ou vice-versa253. Les techniques d'apprentissage sont galement mises contribution. La tentative la plus acheve est actuellement celle d'E. Brill (1995), dont l'tiqueteur est en cours d'adaptation pour le franais. Le systme dispose d'un dictionnaire associant aux formes les probabilits qu'elles portent telle ou telle catgorie. La catgorie la plus probable est projete sur le corpus de mise au point. Les erreurs commises ainsi sont repres par comparaison avec la version tiquete la main de ce corpus. Le systme propose des rgles de correction, assez proches finalement de celles qui ont t voques ci-dessus. Elles sont de la forme : changer une tiquette a en tiquette b si le mot prcdent est tiquet w. Elles prennent en compte un contexte troit : deux positions avant ou aprs la forme examine. Sont retenues les rgles qui amliorent le plus l'tat de la catgorisation, c'est--dire qui enlvent le plus d'erreurs et en ajoutent le moins. Ces rgles sont alors appliques. Une nouvelle comparaison et une nouvelle gnration et application de rgles sont opres, jusqu' ce quil ne soit plus possible de corriger le texte sans ajouter davantage derreurs quon nen corrige. C'est une autre forme, automatique cette fois, du processus mentionn de tche d'huile autour d'lots de confiance. E. Brill indique par exemple que son systme apprend 447 transformations sur un corpus d'entranement de 600 000 mots avec une exactitude de 97.2 %, mais que les 100 premires suffisent assurer une dsambigusation exacte 96.8 % (ibid., p. 557). Ces rgles peuvent s'appuyer soit sur les catgories, ventuellement multiples, soit aussi sur les mots domins par les catgories. Pour reprendre les termes de Leech et de ses collgues (1994, p. 61) : La guerre contre l'erreur est [...] une guerre d'usure, dans laquelle des stratgies varies sont employes, mais o il ne faut pas s'attendre une solution-miracle. Le rle de la personne qui corrige a posteriori reste crucial, mais l'limination de l'erreur est une tche qui est, petit petit, passe l'ordinateur.
44. ANALYSE SYNTAXIQUE

Nous mentionnons avant tout l'analyse syntaxique automatique. L'analyse syntaxique manuelle ncessite surtout de disposer d'un environnement informatique facilitant la tche de parenthsage et de catgorisation des constituants. Elle rend plus cruciale la vrification de l'homognit des
253
Comme l'indiquent M. El-Bze et T. Spriet (1995, p. 48) : " [...] il suffit d'crire 4 5 rgles pour traiter environ 50 % des erreurs commises par un systme probabiliste. " E. Tzoukermann et al. (1995) constituent comme autant de modules un analyseur morphologique, un ensemble de rgles d'lagage et un tiqueteur probabiliste : ils les combinent de diverses manires (en retenant 43 possibilits, jouant sur des seuils et des ordres distincts) et examinent les performances selon les choix, ce qui les conduit utiliser d'abord les rgles puis les probabilits.
Bibliographie
175
rsultats.
44.1 Structuration par rgles

44.1.1 Rgles ngatives On retrouve pour le parsage une technique dj utilise pour l'tiquetage : l'lagage (pruning). Il s'agit dans le domaine syntaxique d'utiliser des rgles ngatives , qui ont pour fonction d'liminer les hypothses non justifies. C'est l'approche du parseur ENCG, ce qui amne Voutilainen et Heikkila (1994, p. 190) parler d'analyseur rductionniste . Pour chaque tiquette morphologique d'un mot donn, les fonctionnements syntaxiques possibles sont fournis. Par exemple, un nom peut tre sujet, objet, complment prpositionnel, etc. L'lagage limine les fonctionnements illgitimes en contexte. Ces contraintes syntaxiques (400 dans le cas prsent) sont ellesmmes issues d'tudes intensives de corpus (Karlsson, 1994, p. 122). En principe, ces rgles d'lagage sont indpendantes les unes des autres et nont pas besoin dtre ordonnes. Il semblerait cependant quune grammaire ENCG reste assez fragile .
44.1.2 Rgles " positives " Elles peuvent tre de complexit plus ou moins grande. Les grammaires affixes du projet TOSCA (Nederhof et Koster, 1993, p. 166-170) qui dcorent des rgles hors contexte d'affixes reprsentant des paramtres, des attributs ou des traits, permettent une grande finesse de comportement : vrification des accords et des compatibilits smantiques etc.
44.2 Structuration probabiliste

Les parseurs reposant sur des rgles butent sur deux types de problmes, comme le rappelle M. Rajman (1995, p. 158) : la couverture linguistique et l'ambigut. Couverture : les rgles mises au point sont soit trop permissives (elles acceptent des noncs incorrects) soit au contraire trop restrictives (elles refusent des agencements de mots pourtant valides). Ambigut : le nombre d'hypothses proposes est souvent trs important (cf. chapitre II). L'ide gnrale du parsage probabiliste254 est de remplacer la distinction
254
(Rajman, 1995) fournit une introduction gnrale aux modles probabilistes pour l'analyse syntaxique. (Black et al., 1993) constitue une prsentation beaucoup plus dtaille, la fois en ce qui concerne l'apprentissage des paramtres d'un modle probabiliste et pour l'interaction entre approche
176
binaire acceptable / non acceptable pour un couple <squence, structure> par une probabilit, les squences inacceptables pouvant correspondre alors une probabilit nulle (ibid. p. 159). Les deux problmes mentionns trouvent l leur solution. Certains agencements sont reconnus comme rares, mais possibles. D'autres prennent une place centrale, leur probabilit tant forte. La probabilit attribue chaque structure pour une phrase donne permet de classer les structures par probabilit croissante, et de garder la ou les structures de plus forte probabilit. Un corpus arbor de dpart sert l'apprentissage du modle : la probabilit des diffrentes ralisations d'un syntagme donn est estime partir de sa frquence dans ce corpus255. L'utilisation du modle sur un corpus plus large permet de vrifier l'adquation du modle et de l'amliorer (en accroissant le corpus d'apprentissage).
44.3 Performances et valuation

Puisque, nous l'avons vu, l'annotation syntaxique peut varier normment en complexit, il est malais de comparer les rsultats de diffrents parseurs. Une des possibilits, encore peu explore (Atwell et al., 1994), consiste aligner plusieurs reprsentations syntaxiques d'un mme texte. Une version rudimentaire de cette approche (Black et al., 1993, p. 4) consiste rduire l'annotation aux parenthsages, en liminant toutes les tiquettes, pour ne garder donc que les dcoupages structurels et leurs embotements. On peut alors aisment comparer deux parenthsages et reprer les dsaccords. C'est ce qui est appel (ibid.) le score de cohrence structurelle (structural consistency score). Une autre optique consiste soumettre un ensemble de phrases de test plusieurs analyseurs et comparer, avant tout manuellement, leurs rsultats. Cette deuxime dmarche sert plutt examiner de manire fine les ractions des parseurs : chaque phrase est centre autour d'un phnomne syntaxique bien dfini, elle est donc souvent relativement simple par rapport aux noncs effectivement rencontrs par les parseurs ddis au texte tout venant. On manque en tout tat de cause de donnes comparatives. Un premier critre dvaluation est celui de la justesse linguistique des rsultats retenus. Elle est difficile apprcier. On peut tout de mme opposer des analyseurs (et partant des corpus arbors) qui visent un simple dgrossissage et ceux qui, au prix ventuellement d'un post-traitement important, aboutissent des analyses vrifies et cohrentes au sein du cadre thorique choisi et qui peuvent servir de pierre de touche des
par rgles et analyse probabiliste. Ce livre rsulte d'une collaboration troite, pendant cinq ans, entre le centre de recherche IBM Watson et l'universit de Lancaster (UCREL - Unit for Computer Research on the English Language). 255 En principe, ce corpus doit tre aussi vaste que le permettent les moyens rassembls. La prcision des estimations qu'il autorise en dpend. La collaboration IBM Watson - Universit de Lancaster a abouti par exemple l'analyse manuelle de 800 000 mots (Black et al., 1993, p. 16).
Bibliographie
177
recherches linguistiques fines. Pour le systme TOSCA, H. van Halteren et N. Oostdijk (1993, p. 155) indiquent que, pour les textes de fiction, dans 88 % des cas, l'analyse juste fait partie des rsultats produits par le parseur, alors que cette proportion tombe 56 % pour les textes qui ne relvent pas de la fiction. Malheureusement, ils ne fournissent pas d'hypothses sur les raisons de ce dcalage. Les textes informatifs comprennent-ils des phrases plus longues, des constructions spcifiques (par exemple propres des disciplines scientifiques ou techniques) qui ne se rencontreraient pas dans les textes de fiction ? Selon A. Voutilainen et J. Heikkila (1994, p. 194), le parseur ENCG donne l'tiquette syntaxique correcte d'un mot dans 96 % des cas (85 % environ des mots n'ont plus qu'une seule tiquette syntaxique la fin du processus d'mondage, mais avec un taux d'erreur de 3 %). Les constats de (Black et al., 1993, p.2-5), voici quelques annes, sont plus svres. Les auteurs parlent de dplorable tat de l'art (ibid. p. 2) et citent trois expriences peu encourageantes. Dans la premire, trois des auteurs chercheurs IBM Watson ont procd de manire indpendante, en 1990, lvaluation de quatre parseurs importants pour l'anglais, sur 35 phrases de 13 mots extraites au hasard de dpches (2 millions de mots) de l'agence Associated Press. Les avis concordaient : un des systmes analysait 60 % des phrases correctement. Les scores des trois autres parseurs allaient de 35 40 % de rsultats justes. Deuxime exprience : en 1992, le concepteur d'un parseur important a pris 50 phrases de 13 mots dans Brown, en variant les genres choisis. Il a indiqu les frontires de constituants la main, prparant ainsi la bonne rponse . Il a ensuite utilis son parseur : les rsultats taient corrects dans 30 % des cas seulement. Troisime exprience : la comparaison en 1992 des rsultats de sept parseurs sur 100 phrases de longueur variable (de 4 69 mots avec une moyenne de 22 mots) tires au hasard d'un million de mots du Wall Street Journal. La correction moyenne du simple parenthsage (sans prendre en compte les tiquettes) ne dpassait pas 22 %, et les rsultats s'talaient de 16 % 41 % de rsultats structuralement corrects. Un second critre d'apprciation, concernant les parseurs et les grammaires qu'ils utilisent, est la rutilisation possible ou effective de l'approche soit sur d'autres secteurs de la mme langue soit pour d'autres langues. C'est ainsi que le parseur ENCG dvelopp pour l'anglais a t adapt au sudois, au danois et au basque (Voutilainen et Heikkila, 1994, p. 191). Un troisime critre, li au prcdent, mais plus difficile apprcier, parce que moins factuel, est celui de la " coloration thorique " des conventions d'annotation. quel cadre thorique sous-jacent renvoient-elles ? Notons tout de mme que la tendance est plutt, sinon des notations consensuelles, ce qui n'a pas grand sens, du moins des pratiques vitant les distinctions controverses et les parti-pris mthodologiques trop marqus256. C'est
256
Une exception au moins : le corpus de 65 000 mots d'oral transcrit (enfants de 6 12 ans) analys manuellement (Polytechnic of Wales) qui s'inspire troitement de la Grammaire Fonctionnelle Systmique de Halliday.
178
ncessaire pour que le corpus puisse tre rutilis (Black et al., 1993, p. 37). Il est enfin un critre que nous carterons, celui du temps ncessaire au parsage lui-mme257. D'abord parce qu'il est difficile de donner des informations comparables (les langages informatiques utiliss, la taille des mmoires, leur configuration changent notablement le sens des mesures). Ensuite parce le temps de calcul n'est plus une ressource rare, et qu'en outre l'amlioration des performances des machines le rduit continuement. Enfin, parce que l'optimisation des parseurs est un art fructueux258, mais qu'il faut probablement attendre une plus grande maturit du domaine pour qu'elle soit vraiment l'ordre du jour pour les corpus arbors.
44.4 Post-traitement et cots

Cest la phase de nettoyage manuel des rsultats fournis par le parseur utilis. Il peut s'agir, comme pour le systme TOSCA, de choisir entre les analyses alternatives proposes (Halteren et Oostdijk, 1993, p. 157-159). Sont utilises des forts partages (shared forests), qui mettent en facteur commun les sous-arbres partags. L'annotateur examine la phrase en contexte et slectionne chaque point d'ambigut le sous-arbre appropri. A l'inverse, dans le cas de Penn Treebank, o le parseur dterministe Fidditch (Hindle, 1994), fournit une analyse syntaxique unique pour chaque phrase, mais laisse des constituants non rattachs, la tche des annotateurs est d'attacher les constituants orphelins . Voici pour la phrase Battle-tested industrial managers here always buck up nervous newcomers with the tale of the first of their countrymen to visit Mexico, a boatload of warriors blown ashore, ltat des traitements fourni dans (Marcus et al., 1993, p. 322-325) : 1) Analyse syntaxique automatique produite par Fidditch : Les constituants non attachs dbutent par ?. Les syntagmes prpositionnels commenant par of sont attachs un nom s'ils en suivent un (c'est le cas pour tale of, boatload of), et restent non attachs dans le cas contraire (first of). Les virgules, qui peuvent jouer le rle de conjonctions, fragmentent aussi l'ensemble d'arbres.
( (S (NP (NBAR (ADJP (ADJ "Battle-tested/JJ") (ADJ "industrial/JJ")) (NPL "managers/NNS")))
257
A titre anecdotique, deux chiffres, emprunts Hindle (1994, p. 116) : avec Fidditch, de l'ordre de 6 heures pour analyser un million de mots, et presque deux semaines pour analyser 44 millions de mots de dpches de l'agence Associated Press. 258 F. Karlsson indique ainsi (1994, p. 142) qu'une rcriture du parseur ENCG a fait passer le temps d'analyse de 3 5 mots seconde 400 500 mots seconde ...
Bibliographie
(? (ADV "here/RB")) (? (ADV "always/RB")) (AUX (TNS *)) (VP (VPRES "buck/VBP")) (? (PP (PRES "up/RP") (NP (NBAR (ADJ "nervous/JJ") (NPL "newcomers/NNS"))))) (? (PP (PREP "with/IN") (NP (DART "the/DT") (NBAR (N "tale/NN") (PP of/PREP (NP (DART "the/DT") (NBAR (ADJP (ADJ "first/JJ"))))))))) (? (PP of/PREP (NP (PROS "their/PP\$") (NBAR (NPL "countrymen/NNS"))))) (? (S (NP (PRO *) (AUX to/TNS) (VP (V "visit/VB") (NP (PNP "Mexico/NNP")))))) (? (MID ",/,")) (? (NP (IART "a/DT") (NBAR (N "boatload/NN") (PP of/PREP (NP (NBAR (NPL "warriors/NNS")))) (VP (VPPRT "blown/VBN") (? (ADV "ashore/RB")) (NP (NBAR (CARD "375/CD") (NPL "years/NNS"))))))) (? (ADV "ago/RB")) (? (FIN "./.")))
179
2) Aprs simplification automatique et avant correction manuelle :
180
La reprsentation est simplifie pour faciliter la tche des annotateurs en rendant le rsultat visuellement plus clair et en liminant des distinctions mineures (nom propre / nom commun, par exemple).
( (S (NP (ADJ Battle-tested industrial) managers) (? here) (? always) (VP buck) (? (PP up (NP nervous newcomers))) (? (PP with (NP the tale (PP of (NP the (ADJP first)))))) (? (PP of (NP their countrymen))) (? (S (NP *) to (VP visit (NP Mexico)))) (? ,) (? (NP a boatload (PP of (NP warriors)) (VP blown (? ashore) (NP 375 years)))) (? ago) (? .))
3) Aprs correction manuelle : L'environnement utilis permet d'attacher un constituant, de changer sa position dans l'arbre, de modifier son tiquette ... Grce des notations
Bibliographie
181
spcifiques, on peut d'une part indiquer qu'une squence est un constituant majeur mais que sa catgorie syntaxique est sujette discussion, et d'autre part rendre compte des ambiguts relles : c'est le cas pour blown ashore 375 years ago qui peut modifier soit warriors soit boatload, d'o l'indication *pseudo-attach*.
( (S (NP Battle-tested industrial managers here) always (VP buck up (NP nervous newcomers) (PP with (NP the tale (PP of (NP (NP the (ADJP first (PP of (NP their countrymen))) (S (NP *) to (VP visit (NP Mexico)))) , (NP (NP a boatload (PP of (NP (NP warriors) (VP-1 blown ashore (ADVP (NP 375 years) ago))))) (VP-1 *pseudo-attach*)))))))) .)
182
44.5 Cots
Pour l'insertion manuelle d'arbres syntaxiques rudimentaires (parenthsage et tiquetage des constituants), la vitesse peut atteindre une phrase par minute (Black et al., 1993, p. 20). La moyenne pour l'analyse syntaxique manuelle effectue l'universit de Lancaster est de 51 minutes pour 1 000 mots : cela comprend pr-traitement, parenthsage et tiquetage grossier dans un environnement informatique spcifique et post-traitement (ibid. p. 60). D'aprs (Marcus et al., 1993, p. 323), la correction des rsultats du parseur utilis pour Penn Treebank suppose un temps d'apprentissage (de l'ordre de deux mois) plus long que le nettoyage de l'tiquetage. La vitesse moyenne de correction est alors de l'ordre de 475 mots l'heure (voire 575 ou 675 quand les sorties du parseur sont simplifies avant correction). L'valuation faite est la suivante (ibid.) : un taux moyen de 750 mots par heure, une quipe d'annotateurs temps partiel travaillant 3 heures par jour devrait arriver 2,5 millions de phrases analyses corriges en un an, chaque phrase tant corrige une seule fois. Il faut en outre prvoir le temps de familiarisation avec les conventions dannotation syntaxique. (Black et al., 1993) indique ainsi qu'il a fallu attendre six mois d'apprentissage en moyenne avant que le travail d'un annotateur devienne optimal.
44.6 Difficults
Tout ne ressortit pas un format d'arbre. C'est le cas des lments parenthtiques qui forment des structures autonomes, non relies au reste de la phrase. Cela suppose que le parseur puisse suspendre l'analyse englobante, effectuer celle d'un tel lment, et reprendre l'analyse de plus haut niveau (Briscoe, 1994, p. 98). supposer que l'on arrive analyser automatiquement de telles structures, il reste disposer des notations adquates. La distinction entre les arguments d'un verbe et ses simples modifieurs s'avre extrmement dlicate ajouter de manire cohrente. Le dessein, dans Penn Treebank, tait d'ajouter manuellement cette information. La difficult rencontre a conduit faire machine arrire. De la mme manire, Susanne n'a pas russi, malgr des efforts soutenus des annotateurs, intgrer un classement des complments en termes de grammaire de cas, la Fillmore : la nature des relations logiques que des prdicats varis entretiennent dans l'usage rel avec leurs arguments s'est avre trop diverse pour un tel traitement, et l'quipe croit avoir 'test jusqu' puisement'259 l'hypothse selon laquelle la structure propositionnelle de
259
tested to destruction
Bibliographie
183
base en anglais peut tre adquatement dcrite grce un ensemble limit de 'cas (Sampson, 1994, p. 185). Les relations entre les pronoms et leurs antcdents n'ont pas non plus t ajoutes Susanne, probablement moins par peur de dboucher sur des apories que faute de moyens. Toute grammaire fuit , pour reprendre une image souvent employe dans la communaut du parsage robuste. L'ide de rendre compte de l'ensemble des phnomnes syntaxiques de la langue (on parle de la couverture de la grammaire utilise par un parseur) est un fantasme, stimulant certes, comme tous les mythes, mais illusoire, comme le soulignent du point de vue linguistique J.-M. Marandin (1993) et du point de vue du TALN T. Briscoe (1994, p. 100). Une raison de fond : la langue varie. Dans le temps d'abord. Mais aussi selon les genres discursifs et les domaines d'emploi. la diffrence des langages formels utiliss en logique ou en informatique, l'ensemble des rgles n'est pas donc fini. Ce constat, classique pour le lexique, soulve plus de rticences en syntaxe.
45. TIQUETAGE SEMANTIQUE

Lune des grandes mthodes danalyse smantique de corpus suppose des connaissances pralables et consiste projeter ces connaissances sur le corpus pour en faire ressortir certaines proprits. Cest sur ce principe que repose le travail de M. Sussna (1993) et la plupart des recherches en matire de dsambigusation lexicale. Le principe gnral de cette mthode est simple. On tiquette le corpus pour lenrichir dinformations smantiques. Pour ce faire, on exploite gnralement des donnes lexicales et non contextuelles, connaissances gnrales sur les sens dun mot, le concept ou le thme auquel il renvoie. Ceci permet alors dobserver le fonctionnement du mot en contexte. De multiples expriences ont t menes dans cette optique260 : elles diffrent par le jeu dtiquettes utilis et par la mthode dtiquetage. Toutefois, les donnes lexicales initiales font parfois dfaut. Cest mme souvent le cas lorsque le corpus traiter relve dune langue spcialise. Il faut alors commencer par construire les catgories smantiques devant servir tiqueter le corpus.
260
Une variante de cette mthode consiste projeter des connaissances non pas sous la forme dtiquettes destines enrichir le texte, mais sous la forme de patrons qui permettent de slectionner de manire cible des donnes considres comme pertinentes. Nous ne dveloppons pas cet aspect ici. (Hearst, 1992) exploite, par exemple, cette mthode pour rechercher des relations hyponymiques dans un corpus destines enrichir un thesaurus existant.
184
45.1 Construire des catgories smantiques

La difficult de rutiliser les bases lexicales spcialises, linadquation des bases lexicales gnrales et plus fondamentalement le manque de ressources lexicales, notamment pour le franais (cf. chapitre III), soulvent la question de lacquisition des connaissances lexicales. La construction manuelle de ce type de base de donnes requiert lexprience dun lexicographe et, pour les langues spcialises, celle dun expert du domaine. Le cot et la difficult de ces entreprises ont mis lhonneur les mthodes automatiques ou semi-automatiques qui considrent les corpus comme des sources de connaissances pour la construction de catgories smantiques, dans lide quelles puissent servir ensuite tiqueter des corpus. La construction de ces catgories smantiques quil sagisse de classes de synonymes, de groupes de mots relevant dun mme champ smantique ou dun mme thme suit toujours le mme principe gnral. La dmarche consiste : dfinir le contexte dun mot, de manire identifier les mots qui cooccurrent avec lui, lensemble des mots qui figurent dans le mme contexte et qui, dans une approche distributionnelle de la smantique en dcrivent le sens ; dfinir une mesure de similarit entre les mots deux deux, chaque mot tant reprsent par les relations de cooccurrence dans lesquelles ils entrent ; exploiter cette mesure de similarit pour construire des classes de mots considrs comme quivalents selon le point de vue considr (par exemple, des synonymes ou des mots relevant du mme domaine). ces trois tapes correspondent trois ordres daffinit (Grefenstette, 1994b), trois niveaux de relations entre les mots261 : les relations de cooccurrence, de similarit et dquivalence262. Le travail de G. Grefenstette prsent au chapitre IV suit cette dmarche gnrale. Nous nous appuyons sur cet exemple dans ce qui suit.
45.1.1 Dfinir un contexte Le choix de la nature du contexte dpend du corpus exploit et des relations smantiques recherches. G. Grefenstette retient le syntagme nominal pour identifier les noms smantiquement voisins et le document pour construire les familles de mots (cf ; chapitre IV, section 2). Trois grandes classes de
261
Nous ne considrons ici que les relations entre mots, mais les affinits peuvent tre calcules pour dautres units : on a vu (en III-2) que G. Grefenstette calcule des similarits entre des expressions, en loccurrence des groupes nominaux (1993). 262 Nous gnralisons le propos de G. Grefenstette en dcrivant le troisime ordre daffinit comme celui des relations dquivalence plutt que comme celui des axes smantiques qui nous semblent avoir un statut intermdiaire entre la similarit et lquivalence.
Bibliographie
185
contextes peuvent tre identifies : les contextes graphiques, syntaxiques et documentaires. Lextrait de Menelas suivant montre la diffrence, pour le mot pisode, entre une fentre de 7 mots (encadre) et le contexte syntaxique tel que le dfinit (Grefenstette, 1994) (en italiques) :
Depuis cette poque on ne note aucune rcidive d'angor jusqu il y a 8 jours o il a prsent un pisode de prcordialgie survenant l'effort, durant environ 45 minutes, sans irradiation263.
Les contextes graphiques se dfinissent comme des fentres de mots : deux mots cooccurrent sils figurent moins de x mots de distance264 dans lordre linaire du texte. La taille de la fentre dpend des relations smantiques que lon recherche, les cooccurrences petite, moyenne et grande distance tendant respectivement faire ressortir des expressions figes ou semi-figes (prendre pour, avoir faim), des contraintes de slection (boire / vin) et des mots appartenant au mme champ smantique (Lafon, 1981; Church et Hanks, 1990). Le calcul des fentres graphiques ne ncessitant quun corpus segment, elles sont souvent privilgies pour le traitement de gros corpus. Lapparition de corpus arbors permet dsormais de dfinir des contextes syntaxiques. Seuls les mots appartenant au mme syntagme ou, mieux, en relation de dpendance syntaxique sont alors retenus comme cooccurrents. Pour tudier les contraintes de slection, on considre ainsi les relations sujet-verbe ou verbe-objet (Church et Hanks, 1990 ; Hindle, 1990) tandis quon prend le groupe nominal comme contexte pour reprer les classes dadjectifs (Assadi et Bourrigault, 1995). Cette approche syntaxique suppose de disposer dun corpus arbor ou partiellement arbor et gnralement dsambigus sur le plan morpho-syntaxique265, mais elle engendre moins de bruit que lapproche graphique266 : les contextes linguistiquement aberrants (lassociation jours pisode dans lexemple ci-dessus) sont limins. Cela rend cette approche bien adapte aux corpus de taille moyenne (Basili et al., 1993a ; Bouaud et al., 1997). Les contextes documentaires, enfin, sont dfinis partir dune unit textuelle (paragraphe, partie, article, chapitre, document). Cest ce type de contexte que G. Grefenstette dfinit pour le calcul des variantes. De nombreux auteurs ne retiennent par ailleurs que les contextes les plus significatifs. Ce filtrage a posteriori des contextes pralablement extraits est le
263 Nous navons pas considr ici que les groupes prpositionnels durant 45 minutes et sans irradiation devaient tre rattachs pisode. Pour langlais, G Grefenstette rsout le problme du rattachement du groupe prpositionnel par des rgles ad hoc (1994). 264 En gnral, les relations de cooccurrence ne sont pas orientes et lordre dans lequel figurent les mots est indiffrent. 265 On peut toutefois proposer des mthodes de pondration des analyses concurrentes en cas dambigut syntaxique. Voir par exemple (Grishman et Sterling, 1994). 266 [N]on seulement les associations syntaxiques refltent une information fonctionnelle, ce que ne font pas les paires rapproches sur une base graphique, mais la mthode dextraction de ces associations syntaxiques est aussi plus efficace, le nombre dassociations utiles dtectes tant considrablement plus lev que ce quon obtient par des mthodes reposant sur une distance graphique. (Basili et al., 1993a, p. 154). Lanalyse syntaxique fonctionne en effet comme un premier filtre.
186
plus souvent statistique267 : on ne retient comme cooccurrents que les mots figurant anormalement souvent dans les mmes contextes268.
45.1.2 Calculer des similarits Une fois dfinie la notion de contexte, on peut calculer pour un mot lensemble de ses cooccurrents, sa distribution. Cette distribution sert alors reprsenter les mots et permet de les comparer entre eux. Cest lapproche suivie par G. Grefenstette et dcrite au chapitre IV. Concrtement, cela signifie quun mot se reprsente par un vecteur sur lensemble des cooccurrents possibles, i.e. sur lensemble des mots du corpus. La similarit entre deux mots est mesure comme une distance entre les vecteurs reprsentant chacun de ces mots269. Ces mesures de similarits sont difficiles exploiter en tant que telles. Les scores obtenus ne sinterprtent pas dans labsolu mais seulement relativement les uns aux autres. Par ailleurs, les mesures ou les classements obtenus rsistent linterprtation. On a souvent besoin de savoir sur quels critres deux mots sont rapprochs Le problme vient plus fondamentalement de ce quune liste trie des similaires dun mot donn nest pas une classe : ces listes sont centres autour dun mot ple et ce nest pas parce que ship (navire) et truck (camion), par exemple, sont tous les deux similaires boat (bateau) (Hindle, 1990) que les deux relations de similarits sont comparables ni que ship et truck sont ncessairement similaires entre eux. Partant de ce constat, G. Grefenstette (1994) propose de structurer cette liste des similaires dun mot selon ses diffrents axes smantiques, ce qui revient distinguer diffrents types de similarits. J. Bouaud et ses collgues (1997) choisissent de reprsenter un ensemble de relations de similarits sous la forme dun graphe qui situe un mot dans un rseau de similarits et fait ressortir des zones denses, riches en similarits croises. Pour aller plus loin dans cette voie, il faut construire des classes smantiques partir dune relation dquivalence entre les mots. Cest l pour nous le vritable troisime ordre daffinit.
267
Ce nest cependant pas le seul type de filtrage possible : pour la recherche de collocations, F. Smadja (1993) filtre les collocations sur une base syntaxique, ou mme en fonction de leur degr de figement. 268 Voir par exemple (Lafon, 1981), (Church et Hanks, 1990) ou (Justeson et Katz, 1996). Dautres auteurs, visant la construction de classes smantiques plutt que la recherche de collocations, considrent au contraire que le seul fait quun contexte soit attest une fois suffit le rendre significatif (Bensch et Savitch, 1995 ; Bouaud, 1997). Signalons par ailleurs quun filtrage statistique ne peut seffectuer que sur un volume important de donnes. 269 Nous prfrons parler ici de similarit entre les mots plutt que de distance comme le font les travaux de classification automatique. Le terme de distance smantique est dordinaire employ pour dsigner des distances calcules partir dune taxonomie ou dun rseau (cf. supra). G. Grefenstette (1994) ou P. Bensch et W. Savitch (1995) sinspirent de la mesure de Jaccard ou Tanimoto mais la littrature sur les mthodes de classification prsente de multiples mesures de similarit (Saporta, 1990 ; Lebart et Salem, 1994) et diffrentes mesures sont employes en acquisition de connaissances smantiques.
Bibliographie
187
45.1.3 Construire des classes de mots Cette tape nest pas aborde dans le traitement lexicographique de G. Grefenstette (1993), mais cette piste est explore par dautres auteurs, pour la modlisation dun domaine, notamment270. En interprtant le score de similarit entre les mots comme une mesure de distance entre des objets, on peut appliquer les mthodes de classification automatique pour construire des classes de mots. Il savre cependant que les classes induites partir de corpus sont difficiles exploiter. Les mthodes purement inductives produisent des regroupements de mots htrognes. Pour construire des catgories smantiques cohrentes, il faut corriger ces premiers rsultats en fusionnant ou en scindant certaines classes pour obtenir une granularit rgulire, en liminant les intrus, parfois en reconstituant la main des classes compltement clates. Pourtant, si lon considre lampleur et la difficult de la tche consistant donner une description lexicale de lensemble des mots dun corpus, et dun corpus spcialis notamment, il savre que les connaissances lexicales induites partir de corpus, aussi bruites et imparfaites soient-elles, sont prcieuses. Ce sont des bauches qui proposent une premire organisation du matriau lexical et permettent damorcer le travail de description. A. Mikheev et S. Finch (1995) soulignent par exemple lintrt de ces mthodes de classification pour la modlisation des connaissances dun domaine : [l]a construction de classes smantiques de mots partir de corpus permet au cogniticien de reprer les principales catgories ou principaux types smantiques existant dans le domaine en question et dorganiser le lexique en regard de ces types. .
45.1.4 Procder par itrations La construction de catgories smantiques repose gnralement sur une alternance dinduction de connaissances partir de corpus et dinterprtation, i.e. de projection de connaissances extrieures au corpus. Une premire classification permet didentifier une ou plusieurs classes cohrentes qui peuvent tre figes puis projetes sur le corpus sous la forme dun tiquetage partiel. Seuls les mots de ces premires classes porteront une tiquette de classe, mais ils constituent des lots de confiance partir desquels une nouvelle classification peut tre construite271. Cette mthode incrmentale est donc une mthode mixte consistant induire des connaissances mme
270 271
Voir, entre autres, (Assadi et Bourrigault, 1995), (Bensch et Savitch, 1995), (Mikheev et Finch, 1995), (MacMahon et Smith, 1994) ou (Bouaud et al., 1997). Cest la dmarche adopte par Bouaud et al. (1997) ou P. Bensch et W. Savitch (1995, p. 12) : quand on applique notre technique de classification [] un corpus rel, elle identifie un ensemble de catgories qui paraissent naturelles, sans toutefois classer beaucoup de mots dans ces catgories. Mais, il sest avr que ce petit nombre de mots classifis dans un premier temps pouvait servir de point de dpart pour classifier dautres mots. .
188
parcellaires que lon peut ensuite projeter sur le corpus pour en induire de nouvelles. Une variante de cette dmarche incrmentale part non des premires classes induites mais dun tiquetage grossier du corpus. Cest ce que font R. Basili et al. (1993b) ou R. Grishman et J. Sterling (1994) mais aussi Z. Harris (voir chapitre VII).
45.2 Projeter des catgories sur un corpus

45.2.1 Segmentation en units smantiques Dj prsente au niveau morpho-syntaxique, la question de la segmentation du corpus se pose dautant plus au niveau smantique que la tradition fait davantage dfaut. Quelle unit de sens faut-il retenir ? On considre souvent le mot, par solution de facilit parce que les sources lexicales utilises sont elles-mmes structures autour des mots, aux expressions polylexicales et mots composs prs. Dans certains cas, cependant, les units infrieures sont tiqueter : pour une tude thmatique de Enfants, les prfixes ngatifs doivent tre compts au mme titre que les adverbes de ngation, lesquels comportent au contraire gnralement plusieurs mots (ne pas). Il est par ailleurs souvent difficile didentifier les mots qui, dans un syntagme ou dans une phrase, doivent porter une tiquette donne. Dans Enfants, les expressions difficults financires, pas assez dargent, considrations financires ont toute une connotation ngative, mais quel mot associer cette tiquette ngative ?
45.2.2 Dsambigusation smantique Si les problmes dambigut sont ngligs dans la langue de spcialit notamment , ltiquetage peut se faire hors contexte, sur la liste des formes du texte. Cest lapproche de (Basili et al., 1993c) semble-t-il. Pourtant, lobjectif est gnralement de dsambiguser le corpus et ltiquetage doit tre fait en contexte. Ltiquetage manuel est envisageable pour les corpus de taille moyenne (en de du million de mots) sil faut choisir parmi quelques tiquettes gnrales parce que les cas ambigus sont rares et faciles trancher : Une fois quune classe smantique est clairement dfinie, avec laide dune interface conviviale, ltiquetage la main dun mot est laffaire de quelques secondes. Nous avons rsolu de simplement sauter les mots pour lesquels le choix dune tiquette nest pas vident272 ou pour lequel aucune tiquette ne
272
Cest--dire sil prend plus de 30 secondes (Basili et al., 1993a) (NDA).
Bibliographie
189
parat adapte. (ibid., p. 346-347). On na pas forcment besoin de faire appel un linguiste pour ltiquetage, [mme si] on a besoin dun linguiste pour tablir un jeu dtiquettes appropri. (Basili et al., 1993a, p. 157). Sil faut procder un tiquetage fin en revanche, la procdure manuelle devient sujette erreur, difficile homogniser et surtout trop coteuse. [L]a partie du corpus Brown qui est tiquete par les classes de mots de WordNet, un exemple de corpus important , disponible et dsambigus la main, montre clairement combien il est difficile dobtenir des donnes satisfaisantes. Ce corpus est relativement petit (de lordre de quelques centaines de milliers de mots) en comparaison de la taille des corpus actuels (plusieurs millions ou dizaines de millions de mots) ; la mthode dannotation qui a t utilise est trs coteuse en temps de travail [] ; et la qualit des rsultats reflte la difficult de la tches standards actuels (les annotateurs sont en dsaccord dans environ 10% des cas []). (Resnik, 1995). Do le besoin de mthodes automatiques robustes de dsambigusation de corpus et lintrt des travaux qui, comme (Sussna, 1993), cherchent les mettre au point.
190
CHAPITRE IX
QUANTIFIER LES FAITS LANGAGIERS
Divers outils informatiques permettent d'extraire, partir de corpus ayant fait l'objet d'un travail d'annotation, les occurrences d'units textuelles qui correspondent un patron donn (mot, lemme, catgorie grammaticale ou smantique, patron syntaxique, etc.). Ces outils permettent aisment de constituer la liste exhaustive des contextes o cette unit-ple apparat. L'examen des diffrents contextes d'une unit textuelle projette un clairage indispensable sur les emplois que cette unit trouve dans le corpus, faisant apparatre des rgularits qu'une lecture cursive du corpus n'aurait pas toujours rvles. Cependant ds que le nombre des contextes est un peu lev, les mises en contextes ainsi ralises (comme les concordances, etc.) deviennent des objets difficilement manipulables, mme sous forme informatise. L'organisation de ces listes (dfinition et ordre de prsentation des contextes) influence trs fortement la perception de divers phnomnes relatifs la forme-ple. Le tableau 1 regroupe quelques lignes extraites des 5 030 contextes de la forme je dans Mitterrand1. Ces contextes sont tris par ordre alphabtique, d'aprs la forme qui suit le ple. Une telle approche permet de remarquer, en inspectant l'ensemble des lignes de contexte ralises pour cette forme, que les occurrences de je sont prises dans des rptitions plus longues: je le crois, je le dis, etc.
Tableau 1. Extrait d'une concordance de la forme je dans Mitterrand1
ue la france qui a acquis, res personnels, aussi, et cer des propositions pour, rt des facilits qui ont, je je je je le le le le crois, crois, crois, crois, la confiance et le respect qui se rfrent la moral saisir le monde entier du sauv le secteur du textil
Bibliographie
ation de la fin du sicle. n souvient aussi- cela est de la rpublique: je suis, jours, j' ai observ avec, ants que cela contribuera, bre de plans, j' ai donnrachever le portrait. moi, ite, je l' ai dit alger, dans le monde. la france, je je je je je je je je je le le le le le le le le le crois tout fait, sans quoi je n crois, tout fait, venu de consi crois, trs fidle ce que je su crois, une grande patience, pour crois, utilement au redressement crois vraiment- plus d' expansion dessine tous les jours, par des a dirai amman en jordanie o je s dirai simplement, a dj apport
191
Pour gnraliser ce type de dmarche l'ensemble des formes du corpus, il faut mettre en oeuvre des procdures de quantification qui viteront au chercheur d'avoir examiner l'ensemble des contextes de chacune des formes du corpus. Ce chapitre propose un survol des approches quantitatives les plus courantes d'un corpus de textes273. La section 1 prsente des objectifs de recherche qui conduisent oprer des dcomptes textuels des fins de comparaison. Les problmes lis l'identification des units dans le texte sont abords dans la section 2. La section 3 traite du reprage des squences d'units. Les sections 4 et 5 introduisent ensuite des mthodes permettant de comparer les dcomptes raliss au sein d'un corpus partitionn. La section 6 est consacre l'articulation des dcomptes raliss partir de diffrents systmes d'annotation. Nous terminons (section 7) par un exemple de recherche sur les sries textuelles chronologiques qui combine plusieurs des mthodes prsentes dans le chapitre.
46. POURQUOI QUANTIFIER ?

Au-del des tudes centres chaque fois sur un type d'unit textuelle particulier, s'est dvelopp un courant dont les dnominations ont vari au cours du temps274, et qui se fixe pour but l'tude quantitative des faits langagiers. L'approche quantitative permet seule d'accder la description de phnomnes textuels qui prsentent un grand intrt une fois mis en vidence et dont il aurait t difficile de cerner les contours a priori..
46.1 tudier la variation de traits linguistiques dans un corpus

Certaines tudes menes par des linguistes se fixent pour but principal la description de la variation, au sein d'un corpus, de l'ensemble des lments d'un mme systme d'units linguistiques (graphmes, formes, lemmes, lexies, systme de catgories grammaticales, squences, etc.). En gnral, ce type de tche s'accommode mal de procdures de segmentation et
273 274
Chacune de ces mthodes est prsente dans (Lebart et Salem, 1994). Cf., par exemple, (Herdan, 1964), (Muller, 1968).
192
d'identification approximatives des units de dcompte. Il ncessite au contraire que le texte analys soit soumis, lors d'une tape pralable, une rflexion minutieuse sur les procdures de reprage, d'identification et d'annotation des units recenser. Une fois les comptages raliss pour chacune des units du systme, on soumet ces dcomptes des traitements statistiques afin de mettre en vidence les variations des diffrentes units.
46.2 Raliser des typologies de textes et de documents

Un courant relativement ancien de l'analyse quantitative des textes opre des quantifications dans le but de raliser des typologies portant sur l'ensemble des textes runis en corpus. Le problme de lattribution dauteur275 en est un exemple. Il sagit de dterminer si tel ou tel texte, sur lequel on manque de renseignements, prsente des caractristiques quantitatives laissant supposer qu'il a pu tre crit par un auteur dont on possde par ailleurs des chantillons de textes. On sefforce donc de dterminer des systmes d'units discriminantes qui permettent de trancher en matire d'attribution. La comparaison des descriptions quantitatives des diffrents textes doit permettre dans ce cas d'obtenir des indications qui ne rsultent pas de connaissances a priori sur les textes mais bien des similitudes qu'ils prsentent au plan quantitatif. On a recours des mthodes comparables lorsqu'il s'agit de prlever parmi un vaste ensemble de documents ceux d'entre eux qui peuvent prsenter de l'intrt pour une tche particulire (problme de l'indexation et de la rcupration de documents industriels). Pour ce second type d'tudes, le problme de la nature linguistique des units qui permettent de mener bien les tches entreprises n'est pas central puisque le but ultime est le regroupement de textes. La slection du systme des units de dcompte qui sert de base aux comparaison se fait avant tout en fonction de l'efficacit pratique de l'ensemble de la dmarche au regard de la tche considre. Ces deux types de proccupation (sections 1.2 et 1.2) se combinent parfois en proportions variables dans des tudes particulires. La mise en place de procdures vises typologiques pose du mme coup le problme du choix des units les mieux mme de faire ressortir des oppositions.
46.3 Dceler des corrlations entre phnomnes

Une tude portant sur la rpartition des pronoms personnels de la premire
275
Le travail de (Holmes, 1985) prsente une revue assez complte des travaux en matire d'attribution d'auteur.
Bibliographie
193
personne dans chacune des huit annes de Mitterrand1 montre que la frquence d'emploi de ces pronoms varie sensiblement au cours du temps. On constate sur la figure 1, une tendance l'augmentation du pronom je et une diminution du pronom nous. Cette tendance s'inverse lgrement dans la dernire anne du septennat. Comme on le voit, les deux phnomnes manifestent une certaine liaison au cours du temps.
250 200 150 100 50 0 Mit1 Mit2 Mit3 Mit4 Mit5 Mit6 Mit7 je nous
priode
Figure 1. volution des formes je et nous dans Mitterrand1276
On comprend aisment que ces variations de frquences intressent des spcialistes du texte politique. L'entre quantitative est ici la seule voie d'accs l'analyse dtaille et contrastive d'un tel phnomne.
47. LES UNITES

La mthode statistique s'appuie sur des mesures et des comptages raliss partir des objets que l'on veut tudier. Dcompter des units, les additionner entre elles, cela signifie, d'un certain point de vue, les considrer, au moins le temps d'une exprience, comme des occurrences identiques d'un mme type. Pour soumettre une srie d'objets des comparaisons statistiques il faut donc, dans un premier temps, dfinir une srie de liens systmatiques entre des cas particuliers et des catgories plus gnrales. Dans la pratique, l'application de ces principes gnraux implique que soit dfinie une norme de dpouillement permettant d'isoler partir du texte annot les diffrentes units sur lesquelles porteront les dnombrements.
276
Le nombre des occurrences de chaque forme, dans chaque partie, est rapport la longueur de la partie considre et multipli par 10 000 pour une plus grande lisibilit des rsultats.
194
Ch. Muller (1973) expose les difficults lies l'tablissement d'une telle norme de dpouillement
La norme devrait tre acceptable la fois pour le linguiste, pour ses auxiliaires, et pour le statisticien. Mais leurs exigences sont souvent contradictoires. L'analyse linguistique aboutit des classements nuancs, qui comportent toujours des zones d'indtermination; la matire sur laquelle elle opre est minemment continue, et il est rare qu'on puisse y tracer des limites nettes ; elle exige la plupart du temps un examen attentif de l'entourage syntagmatique [...] et paradigmatique [...] avant de trancher. La statistique, dans toutes ses applications, ne va pas sans une certaine simplification des catgories ; elle ne pourra entrer en action que quand le continu du langage a t rendu discontinu [...].
47.1 Normes de dpouillement

Malgr les connotations vhiculs par le mot norme dans le domaine linguistique, la notion de norme de dpouillement doit tre ici comprise comme une exigence de standardisation provisoire des textes contenus dans un corpus. Cette standardisation est destine avant tout les rendre comparables, les stabiliser le temps d'une exprience. Nous allons illustrer sur un court extrait de Mitterrand1, les problmes lis l'tablissement d'une telle norme. Le premier fragment de texte (tat A) correspond au texte tel qu'il a t saisi au dpart.
tat A : Texte de dpart Je crois quon ne peut que souhaiter cela. Le 14 juillet, cest sans aucun doute - et cest fort important - loccasion dune revue, dun dfil, dune relation directe entre notre arme et la nation.
Le second (Norme B) montre le mme extrait du corpus aprs quelques transformations de surface destines permettre l'identification automatique des mmes formes indpendamment de leur position dans la phrase (les majuscules de dbut de phrase ont t transformes en minuscules). Les barres verticales matrialisent la segmentation des units.
Norme B : Elimination des majuscules de dbut de phrase je | crois | quon | ne | peut | que | souhaiter | cela | . | le | 14 | juillet | , | cest | sans | aucun | doute | - | et | cest | fort | important | - | loccasion | d | | une | revue | , | d| un | dfil, | d| une | relation | directe | entre | notre | arme | et | la | nation.
Dans une phase suivante (Norme C), on a runi certaines units
Bibliographie
195
polylexicales.
Norme C : Regroupement d'units polylexicales je | crois | qu | on | ne | peut | que | souhaiter | cela | | . | le | 14 | juillet | , | cest | sans aucun doute | - | et | cest | fort | important | - | l | occasion | d | une | revue | , | d | un | dfil | , | d | une | relation | directe | entre | notre | arme | et | la | nation | . |
Dans les deux tats suivants, les mots du texte ont t remplacs par des tiquettes (respectivement : des lemmes Norme D et des catgories grammaticales Norme E ).
Norme D : Lemmatisation je | croire | que | on | ne | pouvoir | que | souhaiter | cela | . | le | quatorze | juillet | ce | tre | sans | aucun | doute | - | et | ce | tre | fort | important | - | le | occasion | de | un | revue | , | de | un | dfil, | de | un | relation | direct | entre | notre | arme | et | le | nation | . Norme E : Catgorisation en parties du discours {pronom} | {verbe} | {subordonnant} | {pronom} | {adverbe} | {verbe} | {subordonnant} | {verbe} | {pronom} | {ponctuation} | {dterminant} | {numral} | {nom} | {pronom} | {verbe} | {prposition} | {dterminant} | {nom} | {ponctuation} | {coordonnant} | {pronom} | {verbe} | {adverbe} | {adjectif} | {ponctuation} | {dterminant} | {nom} | {prposition} | {dterminant} | {nom} | {ponctuation} | {prposition} | {dterminant} | {nom} | {ponctuation} | {prposition} | {dterminant} | {nom} | {adjectif} | {prposition} | {dterminant} | {nom} | {coordonnant} | {dterminant} | {nom} | {ponctuation}
Le dernier tat du texte rsulte d'un tiquetage permettant d'identifier les occurrences de quelques indices nonciatifs.
Norme F : Reprage dindices nonciatifs {embrayeur} {non-personne} {non-personne} {non-personne} {non-personne} {embrayeur}
Remarquons que, dans le cas de la mise en oeuvre de cette dernire norme de dpouillement, il ne s'agit plus d'une segmentation du texte de dpart.
47.2 Dcomptes automatiss

A la phase de dlimitation des units (qui peut tre une segmentation) succde une phase de regroupement de celles que l'on considre comme identiques le temps de l'exprience (identification).
196
Pour un mme texte, les diffrentes normes de dpouillement ne conduisent pas aux mmes dcomptes. Dans chaque exprience pratique, ces normes ne prsentent pas le mme degr de pertinence, ni les mmes avantages (ou inconvnients) quant leur mise en oeuvre. Nanmoins, audel des considrations propres chaque domaine, une fois dfinie la norme de dpouillement et sa jurisprudence, les mthodes de la statistique s'appliquent de manire aveugle aux dcomptes raliss partir de chacune des normes. Comme on peut le voir sur les index raliss partir de ces transformations du texte de dpart, le systme des frquences des units soumises aux dcomptes dpend troitement de la norme de dpouillement retenue. On voit sur ce petit exemple la grande latitude des choix possibles quand aux types de dcomptes que l'on peut oprer partir d'un mme texte muni d'annotations. Pour chaque recherche particulire, ces choix rsultent avant tout des objectifs de recherche poursuivis. Norme A Norme B Norme E Norme F
, d c est et une 14 arme aucun cela ....... 34 types 45 occ. 4 3 2 2 2 2 1 1 1 1 , d c_est . et une nation ne notre ....... 31 types 40 occ. 4 3 2 2 2 2 2 1 1 1 {prposition} {dterminant} {nom} {ponctuation} {pronom} {verbe} {adverbe} {coordonnant} {subordonnant} {adjectif} {numral} 11 types 56 occ. 15 8 8 6 5 5 2 2 2 2 1 {non-personne} {embrayeur} 4 2
2 types 6 occ.
47.3 Incidence de la norme sur les dcomptes

Mitterrand1 a t soumis des dpouillements prenant en compte les diffrents systmes d'units voqus plus haut. On a utilis successivement : le systme des caractres qui servent encoder le texte sur support magntique ; la segmentation du texte en formes graphiques obtenue en dterminant un ensemble de caractres dlimiteurs (le point, la virgule, le point et virgule, etc.) ; la segmentation du texte en lemmes obtenue selon un ensemble de rgles fixes par (Labb, 1995) ; un systme d'annotations grammaticales comportant 15 catgories diffrentes (nom, verbe, etc.) labore dans le cadre de cette mme tude.
Bibliographie
197
Le tableau 2 permet une comparaison rapide entre ces diffrents dcomptes effectus partir de niveaux d'annotation diffrents.
Tableau 2. Dcomptes sur Mitterrand1277
caractres nombre des occurrences : 1 667 251 nombre des types : 98 278 nombre des hapax : 0 frquence maximale : 224 865 *
formes 297 258 13 590 5 543 11 544
lemmes 307 865 9 309 3 255 29 559
catgories 307 865 15 0 86 700 *
Les diffrents systmes de dcomptes produisent des descriptions difficilement comparables. Le systme des catgories compte en effet un nombre relativement faible de types diffrents, les deux systmes de descripteurs lexicaux (formes et lemmes) ont en commun de possder un nombre trs lev de types s'talant sur une large gamme de frquence.
47.4 Exemple : l'accroissement du vocabulaire

Le problme de l'accroissement du vocabulaire (apparition de formes nouvelles au fur et mesure que l'on avance dans la lecture du corpus) a t largement tudi dans les travaux de la statistique textuelle. La figure 2 rend compte de l'accroissement du vocabulaire, mesur en lemmes et en formes graphiques. Les deux courbes ont la mme allure gnrale. un accroissement relativement fort au dbut du corpus, succdent des priodes d'accroissement plus modestes, bien que tout allongement du corpus entrane toujours l'apparition de nouvelles formes. Le nombre de formes nettement infrieur dans le cas du corpus lemmatis fait que la deuxime courbe est toujours largement situe en dessous de la premire. En fait, deux tendances contraires influent sur les rapports qu'entretiennent ces nombres : le reprage de certaines units composes de plusieurs formes graphiques ( l'instar, l'envi, d'abord, d'ailleurs, etc.) tend rduire le nombre des occurrences du corpus lemmatis ; l'inverse, l'clatement en plusieurs units distinctes de chacune des nombreuses occurrences des formes graphiques contractes (au = + le, des = de + les, etc..) tend pour sa part augmenter le nombre des occurrences du corpus lemmatis par rapport au texte initial.
277 278
Les dcomptes suivi de l'astrisque rsultent d'une approximation statistique. Du grec hapax legomenon : chose dite une fois.
198
14000 12000 10000 8000 6000 4000 2000 0 0 50000 100000 150000 200000 250000 300000 nombre des occurrences
lemmes
nombre des types

mots
Figure 2. L'accroissement du vocabulaire mesur en formes graphiques et en lemmes
Cet exemple souligne la ncessit de pratiquer des comparaisons sur des comptages raliss selon des normes de dpouillement identiques.
48. MESURES DE RECURRENCE SUR L'AXE SYNTAGMATIQUE

Les oprations de comptage des units dans un corpus passent ncessairement par une phase de dlimitation qui isole ces dernires de leur contexte immdiat. L'exprience montre cependant qu'aprs cette phase prliminaire, il est intressant d'tudier en outre les rcurrences et cooccurrences d'units composes (suite de catgories syntaxiques, locutions ou expressions figes qui inflchissent, voire modifient totalement leurs significations) sous l'angle de leurs rptitions ventuelles dans le corpus.
48.1 Squences d'units

Au plan lexical, par exemple, les rcurrences d'units comme : scurit sociale, niveau de vie, etc., sont dotes, dans les textes socio-politiques, d'un sens que l'on ne peut dduire partir du sens des formes qui les composent.
Bibliographie
199
On appelle segment rpt toute suite d'units textuelles reproduite sans variation plusieurs endroits d'un corpus. Le nombre des units qui composent le segment est sa longueur. On peut recenser les segments rpts constitus par les units qui relvent de chacun des systmes d'annotation dont on dispose sur le texte. Les suites de catgories grammaticales, par exemple, considres sous l'angle de leur rptition dans le corpus renseignent sur la frquence relative des constructions syntaxiques279. La recherche systmatique des segments rpts de Mitterrand1, parmi les formes lexicales, fait ainsi apparatre un trs grand nombre de rcurrences de frquence leve. Tous ces constats de rptition ne renvoient pas au mme niveau d'analyse linguistique. Certains rsultent de l'utilisation de syntagmes relativement bien forms, d'autres sont produits par la reprise partielle dans des phrases diffrentes de fragments plus ou moins autonomes au plan syntaxique. Dans le tableau 3, on a rassembl quelques-uns des segments qui sont la fois longs et frquents dans ce corpus. La colonne L donne la longueur du segment mesure en formes graphiques, la colonne F indique sa frquence.
Tableau 3. Quelques segments frquemment rpts dans Mitterrand1
L 7 7 6 6 6 6 5 5 5 5 5 4 4 4 4 4 4
F 13 11 42 15 15 15 106 93 36 36 34 366 211 190 146 124 121
segment j ai dit tout l heure l ai dit tout l heure il n y a pas de ce n est pas moi qui je suis prsident de la rpublique que le prsident de la rpublique il n y a pas le prsident de la rpublique dit tout l heure mais ce n est pas de ce point de vue ce n est pas prsident de la rpublique je n ai pas il n y a un certain nombre de tout l heure
279
On s'tonne par exemple, lors de l'analyse d'Enfants, de ne pas trouver de segments rpts comprenant des verbes dans les rponses spcifiques (cf. infra) des plus diplms
200
48.2 Quasi-segments
A ct des squences reprises l'identique plusieurs endroits du corpus, on trouve des squences qui sont l'objet de reprises partielles : la squence je {catgorie=verbe} fermement que, par exemple, peut se raliser sous la forme je pense fermement que, je crois fermement que, etc. Bcue (1993) a propos un algorithme qui repre des quasi-segments (rpts). Cet algorithme permet, par exemple, de rassembler en une mme unit (faire {lemme=<1>}+ sport) les squences comme faire du sport et faire un peu de sport, etc. Cependant, les quasi-segments sont encore plus nombreux que les segments, et leur recensement pose des problmes de slection et d'dition.
48.3 Cooccurrences
Pour une unit-ple donne, plusieurs mthodes permettent de slectionner d'autres units textuelles qui ont fortement tendance se trouver dans un mme voisinage que cette unit280. Le principe gnral de ces mthodes est le suivant. Pour slectionner les formes cooccurrentes d'une forme-ple, on commence par dfinir une unit de contexte, ou voisinage, l'intrieur duquel on considrera que deux units sont cooccurrentes. Cette unit de contexte peut correspondre la phrase ou encore tre constitue par un contexte de longueur fixe (k occurrences avant, et k occurrences aprs la forme-ple). L'espace de cooccurrence peut galement tre dfini de manire ne pas dpasser les limites dun constituant syntaxique. Si l'on se donne, partir de l'exemple prsent plus haut (section 2.1), une fentre de deux occurrences avant et aprs la forme-ple est (laquelle compte 2 occurrences), on construit autour de chacune des occurrences de la forme est, deux fentres matrialises par les contextes compris entre les barres verticales :
Le 14 | juillet, c est sans aucun | doute
sans aucun doute | - et c est fort important | - l
Dans ce cas, on slectionne les cooccurrences de la forme-ple avec les formes : juillet, c, sans, aucun, et , c, fort, important. Si l'on dcide, toujours partir de ce mme extrait, de borner l'espace de cooccurrence au syntagme nominal minimal autour de la forme-ple notre, on obtient une cooccurrence unique avec la forme arme. Plusieurs mthodes statistiques se fixent pour but l'extraction des cooccurrences les plus remarquables dans un corpus de textes. Cette extraction s'appuie en gnral sur la comparaison des sous-ensembles de contextes qui contiennent l'unit-ple avec ceux desquels elle est absente.
280
Les applications de ces mthodes l'tude de cooccurrences entre dautres units linguistiques devront faire l'objet d'tudes au cas par cas.
Bibliographie
201
Pour chaque unit-ple, on slectionne ainsi un ensemble d'units qui se trouvent situes de manire privilgie dans les mmes units de contexte281.
48.4 Filtrage des rsultats

La slection automatise des segments rpts, quasi-segments et cooccurrences frquemment attests dans un corpus produit des listes d'units qui renvoient en gnral des niveaux trs diffrents de l'analyse linguistique (lexies plus ou moins figes, tournures syntaxiques rcurrentes, tournures de rhtorique etc.). Pour rduire le volume des listes ainsi constitues, certains chercheurs ont entrepris de constituer des procdures de filtrages applicable ces listes afin d'en extraire, par exemple, les seuls lments qui correspondent des syntagmes bien forms :
ce n est pas moi qui je suis prsident de la rpublique que le prsident de la rpublique
49. COMPARER DES DECOMPTES AU SEIN D'UN CORPUS PARTITIONNE

Pour apprcier la rpartition d'une unit linguistique l'intrieur d'un corpus, il est ncessaire d'tablir des comparaisons avec l'ensemble des units de mme type contenues dans le corpus. Une unit ne peut tre juge frquente (ou rare) dans un texte que par comparaison avec d'autres units dans ce mme texte ou dans d'autres textes. En pratique, ces comparaisons sont souvent malaises du fait qu'il faut apprcier des dcomptes qui concernent des units dont les frquences varient fortement dans des textes dont la longueur peut elle-mme tre trs variable. Le logiciel THIEF d'tienne Brunet permet, par exemple, d'tudier la rpartition de chacune des formes attestes dans le corpus du Trsor de la Langue Franaise parmi dix tranches chronologiques prdfinies. On trouve figure 3 l'histogramme d'un indice qui permet de juger de la rpartition de la
281
Lafon (1984) et Labb (1990) proposent des mthodes destines extraire les couples d'units lexicales qui se rencontrent souvent l'intrieur d'une mme phrase. Church et Hanks (1990) utilisent, dans le mme but, l'information mutuelle issue de la thorie de la communication de R. Shannon.
202
forme gloire dans ces dix tranches282.
80
60
40
20
-20
-40
1550 1630 1692 1735 1780 1820 1855 1885 1910 1928 1942 1960
Figure 3. La forme gloire dans dix tranches du TLF
Cette reprsentation graphique du phnomne appelle une interprtation trs simple. La forme est tombe dans une dsutude relative au fil des priodes considres. La multiplication de rsultats de ce type, propos de formes diffrentes, incite poser au corpus des questions plus gnrales. Quelles sont les formes qui subissent un sort similaire au cours des mmes priodes ? Quelles sont celles qui au contraire voient le nombre de leurs occurrences augmenter relativement ? Pour rpondre de manire plus globale des questions de ce type, il faut recourir aux mthodes de la statistique multidimensionnelle. Le point de dpart des diffrentes mthodes qui servent organiser la description comparative des parties d'un corpus est un tableau double entre que l'on constitue en croisant les parties du corpus et les diffrents types qui constituent le systme d'units pralablement choisi.
282
Le calcul d'cart-rduit employ ici compare l'cart de la rpartition observe dans chaque tranche une rpartition thorique.
Bibliographie
203
Parties
k ij
tj
Figure 4. Tableau de dpart pour les analyses statistiques
A l'intersection de la ligne correspondant l'unit i et de la colonne correspondant la partie j, on trouve un nombre kij gal la frquence de l'unit j dans la partie i du corpus. La frquence de l'unit i dans le corpus est gale Fi. La longueur de la partie j (somme de toutes les occurrences de la partie j est gale tj.
49.1 Organiser la partition du corpus

A partir d'un mme corpus, il est possible de constituer toute une srie de partitions diffrentes (par metteur ou par groupe d'metteurs, si le corpus est plurilocuteur, en fonction de la date de rdaction, etc.). On peut ensuite dcrire chacune des parties ainsi constitues par des systmes de dcomptes faisant intervenir des units de diffrents niveaux (lemmes, formes graphiques, catgories grammaticales, ou tout autre type d'annotation). Le problme de la partition effective du corpus revt une importance toute particulire dans la mesure o il s'agira ensuite d'tudier le contraste entre les parties dcoupes dans le corpus. La partition ralise, on n'observera ensuite que des diffrences entre fragments du corpus ayant fait l'objet d'un mme regroupement. De son ct, la slection d'un systme dunits linguistiques organise la comparaison des parties sur un plan d'analyse dtermin par les objectifs de la recherche. Les paragraphes qui suivent exposent brivement les principes gnraux du fonctionnement de ces mthodes sur des exemples emprunts Enfants. En regroupant, par exemple, au sein d'une mme partie les rponses fournies par les individus qui ont obtenu un diplme quivalent, on ralise une
204
partition du corpus en trois parties (Aucun, Baccalaurat, Suprieur). Cette partition permet ensuite d'tudier les variations entre agrgats de rponses.
49.2 Reprer les faits saillants

La mthode des spcificits (Lafon, 1980) permet de mettre en vidence les cases du tableau de dpart dont l'effectif est particulirement lev (spcificits positives) ainsi que celles dont l'effectif est au contraire anormalement faible (spcificits ngatives). Elle s'applique successivement chacune des cases du tableau dcrit plus haut. Pour calculer le diagnostic relatif l'effectif constat pour une unit dans une partie donne, on prend en compte la comparaison de quatre nombres : kij sous-frquence de l'unit dans la partie considre. Fi frquence de l'unit dans l'ensemble du corpus. tj nombre des units dans la partie T nombre total des units du corpus Un calcul de type probabiliste permet de porter un jugement sur l'effectif contenu dans la case analyse (kij) compte tenu des trois autre nombres (Fi, tj, T). Si l'effectif kij se situe dans les limites de ce que le calcul permettait d'esprer, on dit que la rpartition constate est banale (ce que l'on note b ). Si ce n'est pas le cas, on calcule un indice de spcificit de la forme : +/-xx o : + indique une spcificit positive (sur-reprsentation par rapport ce que les nombres (Fi, tj, T) laissaient prvoir ; indique une spcificit ngative (sous-reprsentation) ; xx est un indice de spcificit qui est d'autant plus lev que la sous-frquence analyse s'carte d'une rpartition neutre qui est sous-jacente au modle des spcificits283. Les constats de spcificits tablis pour une mme unit propos de chacune des parties du corpus permettent de dcrire le comportement de cette unit au sein du corpus. On voit ci-dessous les diagnostics de spcificits obtenus dans chacune des parties pour la forme problmes qui compte 108 occurrences dans l'ensemble du texte. Aucun 41 -03 8006 Baccalaurat 20 b 3111 Suprieur 47 +04 4487 Total 108 15604
problmes diagnostic effectif (= tj )
Ces rsultats indiquent que la forme graphique problmes est sousLe modle probabiliste utilis pour juger de cette rpartition est ici le modle hypergomtrique, couramment utilis dans ce type d'application.
283
Bibliographie
205
reprsente (-03) chez les sujets sans diplme. Elle est au contraire surreprsente (+04) chez les plus diplms. La notation b en regard de la catgorie Baccalaurat indique que l'effectif des occurrences de problmes dans cette catgorie n'est ni excessivement lev ni excessivement bas. Nous verrons plus loin comment organiser entre eux les diffrents constats de ce types obtenus partir de diffrents systmes d'units.
Tableau 4. Formes spcifiques pour les rpondants les plus diplms
F sur-emplois financires problmes et face fait couple raisons affective difficults responsabilits sous-emplois vie NON-REP le n vois manque aucune sais y faire pas emploi a travail il chmage 180 65 474 94 20 160 33 25 57 22 325 79 74 152 105 285 174 108 205 10 25 95 178 12 83 22
f 79 47 77 8 14 39 66 8 37 13 35 10 111 16 0 29 3 1 7 1 71 13 12 26 15 52
Sp. +06 +04 +03 +03 +03 +03 +03 +03 +03 +03 -03 -03 -03 -03 -03 -03 -03 -03 -03 -03 -03 -03 -03 -04 -04 -05
Une fois ce calcul effectu pour chacune des cases du tableau analys, le regroupement des diagnostics relatifs une mme partie fournit une description de cette partie par la mise en vidence des termes qu'elle suremploie, ainsi que celle des termes qu'elle sous-emploie284. Voici, titre d'exemple, dans le tableau 4 ci-dessous, les formes juges spcifiques, c'est-dire les formes tout particulirement sur-reprsentes (resp. sous284
On trouve un panorama des applications de ces mthodes aux textes socio-politiques dans (Habert, 1985).
206
reprsentes) dans la partie du corpus qui correspond aux plus diplms.
50. APPROCHES MULTIDIMENSIONNELLES

Chacune des dimensions du tableau rectangulaire considr plus haut permet de dfinir des distances (ou des proximits) entre les lments de l'autre dimension285. Ainsi, l'ensemble des colonnes (dans notre cas les parties du corpus) permet de dfinir l'aide de formules appropries des distances entre lignes (ici les units appartenant un systme dannotation). De la mme faon, l'ensemble des lignes permet de calculer des distances entre colonnes. On obtient ainsi des tableaux de distances, auxquels sont associes des reprsentations gomtriques complexes dcrivant les similitudes existant entre les lignes et entre les colonnes des tableaux rectangulaires analyser. Le problme est alors de rendre assimilables et accessibles l'intuition ces reprsentations, au prix d'une perte de l'information de base qui doit rester la plus petite possible. Deux familles de mthodes permettent d'effectuer ces rductions : Les mthodes factorielles produisent des reprsentations graphiques sur lesquelles les proximits entre points-lignes et entre points-colonnes traduisent les associations statistiques entre lignes et entre colonnes ; Les mthodes de classification oprent des regroupements en classes (ou en familles de classes hirarchises) des lignes ou des colonnes.
50.1 Classer les units et les textes

Les mthodes de classification ascendante hirarchique s'appliquent aux tableaux double entre dcrits plus haut. On peut soumettre la classification soit l'ensemble des colonnes du tableau (qui correspondent la plupart du temps aux diffrentes parties d'un corpus) soit celui des lignes de ce mme tableau (lesquelles correspondent en gnral un systme d'units textuelles recenses dans le corpus).
285
En analyse des donnes, on utilise souvent une distance qui est une somme de carrs pondrs dite distance du chi-deux. Cette distance possde toute une srie de proprits particulirement intressantes (Lebart et Salem, 1994, p. 87).
Bibliographie
207
50.1.1 Classification ascendante hirarchique Dans le cas de la classification ascendante hirarchique, on part d'un ensemble de n lments, affects chacun dun poids proportionnel leur importance dans lensemble, et entre lesquels on a calcul des distances. On commence par agrger les deux lments les plus proches. Ce couple constitue alors un nouvel lment dont on peut recalculer la fois le poids et les distances par rapport chacun des lments qu'il reste classer286. l'issue de cette tape, le problme se trouve ramen celui de la classification de n-1 lments. On agrge nouveau les deux lments les plus proches, et l'on ritre ce processus (n-1 fois au total) jusqu' puisement de l'ensemble des lments. Chacun des regroupements effectus en suivant cette mthode s'appelle un noeud. L'ensemble des lments terminaux rassembls dans un noeud est une classe. La reprsentation de la classification sous forme d'arbre hirarchique ou dendrogramme est la reprsentation la plus courante. L'interprtation d'une telle hirarchie s'appuie sur l'analyse des seules distances entre lments ou classes faisant l'objet d'un mme noeud (i.e. seules les proximits entre lments appartenant une mme classe peuvent tre interprtes). Applique au tableau analys ci-dessus, la classification ascendante hirarchique produit un regroupement en deux sous ensembles relativement distincts : les diplms du suprieur d'une part et les sans-diplmes d'autre part. Les groupes de diplmes intermdiaires se rpartissant entre ces deux sous-ensembles.
Tableau 5 Classification sur les parties d'Enfants
S+50 S-50 S-30 B-50 A+50 B+50 A-50 B-30 A-30 ----------------------------*-----*-----------------------*! ! ! ----------------------------! ! ! ! -----------------------------*----! ! ! -----------------------------! ! -----------------------------*-------*--------------------! ! -----------------------------! ! ---------------------------*---------! ---------------------*-----! ----------------------
Les classifications effectues sur l'ensemble des parties et celles ralises partir de l'ensemble des units, rpondent des besoins d'analyse distincts qui entranent, dans les deux cas, des utilisations diffrentes de la mthode.
286
Dans la pratique il existe un grand nombre de faons de procder qui correspondent cette dfinition, ce qui explique la grande varit des mthodes de classification automatique, sur ces mthodes on peut consulter (Saporta, 1990, p. 241-261).
208
50.1.2 Classifications de formes

Lorsqu'il s'agit d'tudier des textes (littraires, politiques, historiques), les classifications portant sur les formes d'un corpus concernent en gnral des ensembles dont la dimension dpasse trs largement celle de l'ensemble des parties. L'arbre de classification ralis partir d'un tel ensemble se prsente sous une forme relativement volumineuse qui complique considrablement toute synthse globale. Dans la pratique, on abordera l'tude des classifications ainsi ralises en considrant par priorit les associations qui se ralisent aux deux extrmits du dendrogramme : les classes du niveau infrieur de la hirarchie constitues par des agrgations de formes agrges ds le dbut de la classification et qui correspondent souvent des associations de type cooccurrentielles ; les classes suprieures, souvent constitues de nombreuses formes, que l'on tudiera globalement. Les associations ralises aux premiers niveaux de la classification regroupent, par construction, des ensembles de formes dont les profils de rpartition sont trs similaires (proportionnels et parfois mmes identiques) dans les parties du corpus. Le retour systmatique au contexte permet seul de distinguer parmi ces associations celles qui proviennent essentiellement de la reprise de segments plus ou moins longs, celles qui sont gnres par les cooccurrences rptes de plusieurs formes l'intrieur de mmes phrases ou de mmes paragraphes et les associations qui rsultent de l'identit plus ou moins fortuite de la ventilation de certaines formes. La figure 6 montre une petite partie de l'arbre de classification ralis partir des formes les plus frquentes dans Enfants. L'analyse du contenu de ces classes se fait en retournant frquemment au contexte.
a *--------------------------problmes *-! ! ! ont ! ! moyens ! ! ! ! logement ! ! entente ! ! l *--------! enfants peur aventure -
Figure 6. Extrait d'une classification sur les formes d'Enfants
Bibliographie
209
50.1.3 Classifications descendantes

Certains auteurs (Reinert, 1990) utilisent d'autres procdures de classification pour analyser les corpus textuels. Le principe gnral de la mthode est le suivant. On commence par dcouper dans le texte des units de contexte (la plupart du temps, une fentre comportant quelques occurrences gauche et droite de chaque occurrence du texte). L'ensemble de ces units est ensuite divis successivement en classes (de manire dichotomique chaque tape). Ce processus aboutit rassembler des formes qui ont tendance se retrouver dans des contextes proches.
50.2 L'approche factorielle

L'analyse factorielle des correspondances cre une typologie qui porte la fois sur l'ensemble des parties du corpus et sur l'ensemble des units par lequel ce dernier est dcrit287. Ngligeant toute une partie de l'information contenue dans le tableau des distances, cette mthode fournit des reprsentations approches des distances calcules entre les lments de chacun des deux ensembles mis en correspondance. Les graphiques-plans qui sont un des rsultats fournis par l'analyse sont en quelque sorte les meilleures reprsentations bidimensionnelles possibles de chacun des ensembles. Sur ces graphiques, deux parties sont proches si elles emploient les mmes units dans des proportions semblables. Cette mthode permet de crer une typologie qui peut s'affiner au fur et mesure de la prise en compte des axes factoriels successifs. Elle est particulirement adapte la mise en vidence des principales oppositions qui sous-tendent le corpus. Remarquons que la classification ascendante hirarchique et l'analyse factorielle sont des mthodes trs complmentaires dans la mesure o l'une permet au chercheur de concentrer son attention sur les proximits locales pouvant exister entre chaque lment alors que la seconde rend compte des grandes oppositions pouvant exister dans le corpus. Ainsi, les rponses contenues dans Enfants ont t regroupes cette fois en neuf parties qui correspondent au croisement de trois catgories de diplme (A=aucun, B=Baccalaurat ou BEPC et S=Suprieur) avec trois catgories d'ge (moins de 30 ans, 30 50 ans, 50 ans et plus). On a ensuite calcul le tableau qui croise ces neuf catgories avec les formes du corpus288.
L'ouvrage de rfrence est le livre de J.-P. Benzcri et coll. (Benzcri, 1973). On trouvera des prsentations diffrentes de cette mme mthode destines au lecteur nonmathmaticien dans (Salem, 1987) ainsi que dans (Lebart et Salem, 1994). 288 Pour allger les rsultats, seules les formes de frquence suprieure 10 occurrences ont t retenues. Lexprience montre que ce type de slection a peu dinfluence sur les rsultats de lanalyse.
287
210
Commenons par un exemple trs simple. On a reprsent (Figure 7) les neuf parties du corpus en fonction de leur utilisation des formes : raisons (axe vertical) et problmes (axe horizontal). La valeur porte sur chacun des axes est gale la proportion d'utilisation (exprime en 10 000mes) de chacune de ces formes par chacune des parties. On voit que les parties ne se rpartissent pas sur l'ensemble du graphique mais sont plutt regroupes autour dune des diagonales. Cela veut dire que l'emploi des deux formes par les metteurs manifeste une corrlation. Ceux qui emploient beaucoup l'une des formes (S-30, S-50, c'est--dire les diplms les plus jeunes) ont tendance utiliser galement l'autre (et inversement).
200
B-50
S-50
150
S-30
isons
S+50 B-30
100
A-30 A+50 B+30 A-50

40 60 80 100 120 140
50 20
problmes
Figure 7. Les parties d'Enfants et les formes raisons et problmes.
Si l'on accepte de perdre un peu de l'information contenue sur ce graphique, on peut simplifier la reprsentation des parties en traant un axe qui pouse le mieux possible la forme du nuage de points reprsent sur la figure 7. Si l'on munit cet axe d'un systme de coordonnes, on obtient une reprsentation des distances entre les parties (figure 8) qui est moins prcise mais plus synthtique.
-2 -1 0 1 2
Figure 8. Les mmes parties disposes sur un facteur
Bibliographie
211
Les mthodes factorielles oprent, partir des immenses tableaux soumis l'analyse, des synthses du mme type. Partant d'un tableau qui compte cette fois plusieurs milliers de formes et toujours neuf parties, l'analyse des correspondances extrait une information synthtique. La reprsentation simplifie des distances entre catgories met en vidence la principale information contenue dans le tableau de donnes soumises l'analyse : la proximit (base sur un usage proche du stock des formes lexicales) des agrgats proches par le diplme ou par l'ge (figure 9). Il faut comprendre que la mthode de calcul ne s'appuie aucun moment sur des donnes extrieures lui permettant d'infrer des proximits entre tel ou tel agrgat. Les rapprochements sont effectus uniquement partir des comparaisons du stock de vocabulaire employ par les rpondants appartenant un mme agrgat ge / diplme.
S+50 B+50
S-50
A+50
B-50 A-50 B-30 S-30 S-30
Figure 9. Les 9 classes Age x Diplme sur le plan des deux premiers facteurs de l'analyse.
Une reprsentation simultane des formes et des parties sur le mme graphique peut permettre de mettre en vidence les formes qui sont principalement responsables de cette typologie.
212
51. ARTICULER DES CONSTATS SUR DES UNITES DIFFERENTES

L'articulation des rsultats obtenus l'aide de telles mthodes partir de diffrentes normes de dpouillement permet une description beaucoup plus sre des contrastes entre les parties du corpus289. La typologie ralise sur les parties dpend peu, dans le cas qui nous proccupe, des variations dans la norme de dpouillement (lemme / formes graphiques, etc.). Loin de constituer une gne pour l'interprtation, les clairages complmentaires projets par diffrent systmes d'units nous aident mieux comprendre les oppositions pouvant exister entre les textes que l'on compare.
51.1 Articuler units isoles et squences d'units

L'exemple qui suit montre comment articuler de tels dcomptes dans le cadre de la mthode des spcificits, la plus simple des mthodes exposes jusqu'ici. Les occurrences du segment rpts problmes financiers peuvent tre considres comme un sous-ensemble des occurrences de la forme problmes pour lesquelles une occurrence de la forme financiers apparat immdiatement aprs. On peut appliquer au segment rpt problme financiers le calcul des spcificits. Pour les deux formes et le segment voqus, ce calcul donne :
Forme / diplme
problmes financiers problmes financiers
Aucun
41 -03 37 b 17 -03
BACC
20 b 19 b 11 b
Sup.
47 +04 30 b 23 +03
F
108 86 51
Comme on le voit, les diagnostics ci-dessus ne concident pas tous entre eux. Ils rendent compte de la diversit des associations ralises dans le corpus. La forme financiers, par exemple, est considre comme rgulirement rpartie alors que le segment problmes financiers et la forme problmes sont plutt sur-reprsents chez les plus diplms. Le tableau 6 interclasse d'aprs un indice de spcificit calcul selon les mmes procdures des diagnostics obtenus sur des formes et sur des segments rpts dans le corpus. L'avantage de ce second tableau sur son homologue ralis partir des formes simples est qu'il constitue un pas, ralis automatiquement, vers la remise en contexte des rsultats.
Tableau 6. Formes et segments les plus caractristiques pour les rpondants les
289
Des rsultats tout fait similaires ont t obtenus dans une exprience du mme type portant cette fois sur des dcomptes de lemmes au sein de la mme partition du corpus.
Bibliographie plus diplms
213
financires les difficults financires difficults financires problmes fait de et face et les du couple fait situation conomique raisons financires couple raisons problmes financiers affective les problmes difficults des responsabilits responsabilits le fait
F 174 19 32 108 10 205 10 17 48 25 24 93 95 178 51 12 35 83 13 22 16
f 79 14 19 47 7 77 8 10 23 14 13 38 39 66 23 8 18 37 9 13 11
Sp. +06 +05 +04 +04 +03 +03 +03 +03 +03 +03 +03 +03 +03 +03 +03 +03 +03 +03 +03 +03 +03
Ce tableau prsente de nombreuses redondances qui rsultent du fait que, dans un premier temps, les listes d'units spcifiques sont produites de manire entirement automatique, sans aucun filtrage. L'illustration par les segments rpts prcise la signification des units mises en vidence par le calcul des spcificits. L'implication des dnombrements portant sur les segments rpts permet d'extraire de l'enchevtrement inextricable des segments rpts des units qui prcisent la description par les units effectue partir des units isoles de leur contexte immdiat.
51.2 Articuler diffrents systmes d'units

La comparaison entre les diffrentes parties d'un corpus devient encore plus lisible si l'on implique les dcomptes ralises pour chacune d'elles l'intrieur de diffrents systmes d'units linguistiques290. De la mme manire que nous l'avons fait ci-dessus, il est possible de complter la description des parties du corpus par des comptages raliss sur l'ensemble des annotations disponibles dans le corpus considr. Le tableau 7 montre les mmes oprations de slection d'units caractristiques
290
Cf. (Salem, 1987 ; 1993) et (Habert et Salem, 1995)
214
ralises cette fois partir des annotations de type grammatical et des segments constitus partir de ces dernires.
Tableau 7. Formes graphiques, lemmes, catgories grammaticales et segments rpts les plus caractristiques pour les rpondants les plus diplms
C F L F C L F F C C C C L L L L L F F F F F F F F F F F F F
units F f Ind. {nom} {adjectif} 863 312 +07 financires 174 79 +06 financier virgule 123 59 +06 les difficults financires 19 14 +05 {nom} {adjectif} {ponctuation} 32 20 +05 le difficult financier 19 14 +05 problmes 108 47 +04 difficults financires 32 19 +04 {adjectif} {coord} {adjectif} 20 13 +04 {coord} {adjectif} 26 16 +04 {nom} {adjectif}{coord} {adjectif} 19 13 +04 {determinant ind} {nom} {adjectif} 36 20 +04 difficulte financier virgule 12 10 +04 que ce 26 17 +04 difficulte financier 32 19 +04 financier 374 136 +04 probleme 145 60 +04 problmes financiers 51 23 +03 couple 95 39 +03 responsabilits 22 13 +03 raisons financires 93 38 +03 situation conomique 24 13 +03 affective 12 8 +03 du couple 48 23 +03 et 205 77 +03 monde 16 10 +03 des responsabilits 13 9 +03 difficults 83 37 +03 les problmes 35 18 +03 et les 17 10 +03
Lgende : La colonne de gauche indique la nature des units et squences d'units prises en compte selon le code suivant : F formes graphiques, L lemmes, C catgories grammaticales. Comme plus haut, les units slectionnes dans ce tableau l'ont t en raison de leur abondance particulire dans la partie du corpus qui correspond aux plus diplms. L'interclassement des units selon l'indice de spcificit calcul de la mme manire sur tous les types d'annotations et sur les segments raliss partir de ces dernires permet de classer l'ensemble des constats du plus surprenant au plus banal.
Bibliographie
215
La redondance s'est encore accrue mais la description est devenue plus beaucoup plus riche, faisant intervenir de plusieurs niveaux de l'analyse linguistique.
52. TEMPS LEXICAL

Certains corpus runis par chantillonnage au cours du temps d'une mme source textuelle prsentent ds le dpart une homognit remarquable : les textes runis sont produits dans des conditions d'nonciation trs proches, parfois par le mme locuteur. Leur talement dans le temps doit permettre de mettre en vidence ce qui varie au cours du temps. Nous appelons ces corpus des sries textuelles chronologiques. Mitterrand1 constitue, nous l'avons vu, un corpus de ce type. Dans le cas des telles sries, les rsultats factoriels font apparatre un schma d'volution chronologique qui rend compte de l'existence d'une volution. Les apparitions, disparitions ou fluctuations des formes s'effectuent de manire suffisamment organise, au regard du temps, pour que les priodes conscutives apparaissent plus proches dans l'emploi qu'elles font du vocabulaire que les priodes spares par un intervalle de temps plus long. La figure 10 montre des rsultats issus d'une AFC portant sur les formes de frquence suprieure ou gale 5 occurrences dans Mitterrand1. On le voit, les priodes conscutives sont plutt proches les unes des autres. Lensemble des points dessine une ligne incurve en son centre.
216
18.9% Mit4
Mit5
F2
Mit3
29.0%
F1
Mit7
Mit2
Mit1 Mit6
Figure 10. Les deux premiers facteurs issus de l'analyse des correspondances291
Pour avancer dans l'analyse, il faut crer des procdures permettant d'exhiber les units textuelles responsables de cette volution d'ensemble.
52.1.1 Accroissements spcifiques Le calcul des accroissements spcifiques permet de reprer les changements brusques dans l'utilisation d'un terme lors d'une priode donne par rapport l'ensemble des priodes qui prcdent. Pour chaque terme dont la frquence dpasse un seuil fix l'avance, pour chaque priode du corpus partir de la seconde, on compare, selon le modle des spcificits prsent plus haut, la sous-frquence observe dans la priode considre la frquence de cette mme unit dans l'ensemble des priodes prcdentes. Le tableau 8 donne quelques accroissements spcifiques majeurs pour l'ensemble de Mitterrand1. Les accroissements spcifiques sont nots l'aide des symboles : / et \ qui indiquent des spcificits respectivement positive et ngative de l'accroissement ; (i.e. un sur-emploi et un sous-emploi spcifique par rapport aux parties prcdentes). La dernire colonne indique la priode (pr.) i.e. la partie du corpus concerne par le diagnostic d'accroissement spcifique. Pour chaque terme, la colonne Fx donne le nombre des occurrences de ce terme dans le groupe de priodes
Il s'agit des deux premiers facteurs issus de l'analyse du tableau croisant formes graphiques de frquence suprieure 20 et priodes (1 397 formes x 7 priodes).
291
Bibliographie
217
prcdentes.
Tableau 8. Chronique des spcificits maximales pour Mitterrand1
terme nationalisations israel monsieur nouvelle caldonie rfrendum trs chane la france la majorit notre nous avons tudiants majorit nous oeuvres pour 100 arabe l iran monde arabe nous F 42 71 430 33 27 627 39 1016 91 442 2059 523 28 212 2059 29 204 34 50 21 2059 Fx 31 56 213 22 19 329 36 722 70 337 1700 488 28 149 1877 24 195 34 50 21 2059 f 0 2 91 20 18 127 34 106 45 35 308 30 27 90 177 19 2 23 41 17 182 spec. pr. /12 2 \11 3 /11 /11 /11 /11 /19 \11 /12 \11 \11 \11 /21 /20 \17 /11 \12 /13 /27 /12 \12 4 4 4 4 5 5 5 5 5 6 6 5 6 6 6 7 7 7 7
Pour une priode donne, la liste des accroissements spcifiques de la priode renseigne sur l'mergence d'un vocabulaire particulier. Le tableau 9 donne les accroissements ainsi calculs pour la 7e partie du corpus constitue par des interventions effectues au cours des annes 1987-1988.
Tableau 9. Accroissements spcifiques majeurs pour la 7e priode de Mitterrand1
218
l iran iran arabe monde arabe d instruction instruction l irak irak lection prsident d armes un prsident politiques armes juge pays nous avons inflation avons jeunes nous
50 53 34 21 20 23 29 32 35 303 27 28 105 93 35 748 413 83 523 134 2059
41 41 23 17 16 17 18 18 18 73 15 15 34 32 17 151 27 0 35 2 182
/27 /25 /13 /12 /11 /11 /09 /08 /07 /07 /07 /07 /07 /07 /07 /07 \06 \06 \07 \07 \12
--------------------------------------------------------------------
52.1.2 Formes chrono-homognes Les mthodes prsentes ci-dessus permettent de dcrire, au fil des priodes, l'volution des units textuelles que l'on peut recenser dans un corpus chronologique. Les schmas d'volution tablis pour chacune des units font apparatre des ensembles d'units qui ont tendance voluer de conserve au fil des priodes : les formes chrono-homognes. En fait, l'ide qui sous-tend cette approche est la suivante : pour des formes frquentes dans le corpus, le fait que plusieurs formes voluent de manire proportionnelle tout au long des priodes ne peut tre mis au compte du hasard. Il faut donc, dans chaque cas, dterminer la cause profonde qui est l'origine de ces regroupements. Selon les cas, on trouvera des groupements lis une thmatique, une actualit, etc. La figure 11 prsente un groupe de formes, parmi les plus frquentes de Mitterrand1, qui sont chrono-homognes par rapport la forme je. On retrouve ici un ensemble de marqueurs de la premire personne.
Bibliographie
219
100
80
60
40
j' me m' mon ma
20
0 1 2 3 4 5 6 7
Figure 11. Formes chrono-homognes la forme je dans Mitterrand1
L'tude des sries textuelles chronologiques s'opre donc en combinant plusieurs types de mthodes. L'analyse des correspondances permet de vrifier que le corpus chronologique, compte tenu d'une priodisation donne, relve bien du schma gnral d'volution du vocabulaire. Elle permet galement de localiser des carts ventuels avec le schma gnral, qui seront dans la plupart des cas sources d'interrogations utiles. L'examen attentif des accroissements spcifiques signale la fois des moments particuliers dans l'volution du vocabulaire et les units textuelles qui en sont l'origine. Enfin, l'tude des termes chrono-homognes permet de constituer des classes dunits et d'tudier leur volution conjointe au fil des priodes.
53. CONCLUSION
Les analyses portant sur des textes annots apportent un complment d'information important, par rapport aux mmes analyses effectues partir d'un dcoupage en formes graphiques, ds lors qu'il s'agit de mettre en
220
vidence des units textuelles caractristiques pour chacune des parties d'un corpus de textes, encore que ces rsultats soient difficiles manier simultanment. L'utilisation de comptages portant sur les segments rpts d'un corpus pour illustrer les typologies ralises partir des formes permet de dpasser les rsultats obtenus sur les formes isoles de leur contexte immdiat et d'accder la description d'associations remarquables par leur rpartition. Les diffrentes mthodes de calcul des cooccurrences concourent galement ce but. Par exemple, dans le domaine de l'tude des textes politiques, l'exprience a montr que le singulier et le pluriel de certains substantifs renvoient souvent des oppositions profondes au plan de l'idologie politique. On peut dire que de grandes oppositions idologiques se sont souvent exprimes travers l'emploi du singulier ou du pluriel d'une mme forme de vocabulaire. Les classes ouvrires, proclamait le pouvoir monarchique sous Louis-Philippe (1830-1848) ; la classe ouvrire, contestaient les organisations ouvrires. De mme les annes 1970 ont vu s'opposer les dfenseurs des liberts rpublicaines (la gauche et les syndicats) aux dfenseurs de la libert avec, bien entendu, des contenus partiellement diffrents. Cette distinction est en revanche moins pertinente dans le cas de l'tude de Menelas : le comportement du singulier et du pluriel de stnose ne justifie pas qu'on les considre sparment. L'clairage qu'apporte l'approche quantitative la connaissance d'un corpus de textes runis des fins de comparaison s'exprime de manire privilgie sous forme de contrastes entre les units que l'on peut dcompter dans les parties du corpus. Ces circonstances fournissent indirectement un critre quant au choix des units retenir dans les analyses textuelles : si les diffrentes ralisations d'une unit linguistique sont distribues de la mme manire parmi les parties du corpus que l'on compare, il ne sert rien de les distinguer dans les comptages, car elles ne seront pas l'origine des contrastes mis en lumire par les analyses statistiques. Si par contre les ralisattions d'une mme unit ont des ventilations trs diffrentes l'intrieur du corpus considr, le fait de les runir en une mme unit statistique prive le chercheur de constats qui auraient pu l'intresser.
Bibliographie
221
CONCLUSION
G. Leech (1991, p. 25) souligne le tournant des annes actuelles : Ceux qui travaillent sur corpus lectroniques se trouvent soudain dans un univers en pleine expansion. Pendant des annes, la linguistique de corpus a t l'obsession d'un petit groupe qui recevait peu de soutien, que ce soit de la linguistique ou de l'informatique. Ce constat vaut au tout premier chef pour le monde anglo-saxon. Mais si lon fait le bilan du domaine couvert par les linguistiques de corpus, quelles perspectives souvrent, en particulier pour la francophonie ?
54. BILAN
Face un domaine riche en travaux d'horizons thoriques et mthodologiques varis en TALN et en linguistique, nous ne prtendons pas avoir rendu compte des recherches les plus reprsentatives. Comment, face un champ en pleine mouvance, en identifier les grandes tendances ? Il aurait fallu un recul dont nous ne disposons pas et qu notre avis, on ne peut pas encore prendre. Nous avons plutt cherch fournir une typologie de travaux prometteurs. Esprons que cette typologie puisse aussi servir de grille de lecture pour situer dautres recherches que celles qui ont t directement voques.
54.1 Avances
La robustesse est le matre mot des techniques d'annotation qui sont vises pour les textes tout-venant. On est loin de pouvoir en donner une dfinition prcise. Nanmoins, l'examen des outils disponibles et des corpus annots le montre : l'tiquetage est relativement bien matris actuellement, le parsage fruste progresse, mme si les ttonnements dominent encore pour les
222
traitements smantiques. Constatons que certaines tches dannotation sont progressivement automatises, avec ventuellement des phases de pr- ou de posttraitement. On commence mieux cerner ce qui est effectivement automatisable et ce qui ne le sera probablement jamais. Cest ce que nous avons vu avec lacquisition terminologique (chapitre II) : la frontire entre le reprage automatique et ce qui relve de comptences humaines peu formalisables se prcise. Il est frappant de constater que certaines de ces avances reposent sur des techniques somme toute relativement simples. On est tonn par lcart entre les mthodes utilises, parfois frustes, et la richesse des rsultats, comme lindique E. Brill (1995, p. 544) : Les mthodes bases sur les corpus sont souvent capables de russir tout en ignorant la complexit relle du langage, en s'appuyant sur le fait que des phnomnes linguistiques complexes peuvent souvent tre observs indirectement par le biais de simples piphnomnes. Cest le cas pour lalignement de textes, qui utilise parfois une corrlation trs forte entre la longueur des segments qui sont mis en correspondance traductionnelle (Isabelle et Amstrong, 1993), que cette longueur soit mesure en nombre de mots ou en caractres. Cest le cas encore de la production dbauches dentres de dictionnaires par des mthodes comme celles utilises par Grefenstette (1994). Un autre point positif est le recul des illusions en ce qui concerne le traitement automatique de textes tout-venant. Les conditions instutionnelles runir, les performances des outils existants ainsi que le cot de lobtention de corpus annots sont dsormais mieux connus. Les oprations dvaluation des outils et des ressources qui ont t lances dans le monde anglo-saxon et qui dbutent pour la francophonie (Paroubek et al., 1997) sont salutaires : elles fournissent des tats de lart sectoriels et prcis. Lobservation raisonne de donnes volumineuses enrichit la pratique linguistique. Elle fournit des donnes que lintuition du linguiste aurait refuses (taxes dinacceptables) ou quelle naurait pas prvues (variation dexpressions toutes faites et de termes). Elle accrot la prcision des descriptions ou les rectifie (en linguistique diachronique par exemple). Elle rend manifeste le poids des diffrentes rgles. Les traitements multidimensionnels permettent de reprer des corrlations inattendues et en tout cas non perceptibles directement entre des phnomnes langagiers relevant de niveaux distincts de lanalyse linguistique.
54.2 Limites
Les ressources pour le franais sont encore denre rare. Il n'existe pas d'quivalents pour le franais de Brown, LOB et de BNC, pour la langue contemporaine, ou d'Archer, pour l'histoire de la langue, c'est--dire des corpus diversifis, associant des registres diffrents et offrant aux linguistes
Bibliographie
223
comme aux informaticiens des objets dtude varis. Il nexiste pas non plus dtiqueteur-lemmatiseur immdiatement accessible ni dquivalent franais de WordNet pour lannotation smantique. Le risque est que soient baptiss du nom de corpus des rassemblements de textes lectroniques disponibles noffrant pas les mmes garanties de diversit quant aux types de texte inclus, ce qui biaiserait les tudes ultrieures. Une autre limite est celle de ltanchit des communauts concernes. Institutionnellement, en France, le TALN et la linguistique292 relvent de deux secteurs disciplinaires aux fonctionnements loigns : entre ces domaines, les passerelles et les collaborations sont encore fragiles. Les formations autour du traitement automatique du langage, par exemple, relvent dans limmdiat dun secteur ou de lautre, mais pas dune convergence des deux. Lvolution actuelle peut enfin conduire marginaliser des travaux perus comme moins directement utiles . Ltude diachronique de la langue en fournit un exemple. Mais lexprimentation de formalismes sophistiqus peut galement ptir du nouveau contexte.
54.3 Questionnements
Du ct linguistique, les travaux que nous avons prsents poussent examiner, ou rexaminer sur des bases renouveles, des phnomnes jusqu' prsent insuffisamment tudis : place de la ponctuation, structuration globale des textes et grammaires textuelles, articulation langue gnrale / langues de spcialit, etc. Du ct informatique, le succs pratique du mtissage des traitements rgles et des traitement numriques pose sur le fond la question de modles qui articulent finement observation et appel la comptence des locuteurs et lexpertise des spcialistes. Une question reste ouverte : quelles gnralisations permettent les multiples constats, si fins soient-ils, oprs sur les corpus annots ?
55. PERSPECTIVES
Sans nous risquer prdire l'avenir des linguistiques de corpus, nous soulignons la fois les menaces qui psent sur leur dveloppement et les espoirs qui semblent permis. Nous terminons par ce qui nous parat tre les conditions d'une volution positive du domaine.
292
Il faudrait en outre mentionner le secteur de l'informatique documentaire, dont les recherches sont mal connues en linguistique et en TALN, bien qu'elles soient riches d'enseignement pour le traitement des corpus annots.
224
55.1 Menaces
Les menaces sont de trois ordres : les retards mthodologiques et techniques dans les moyens d'utiliser des corpus annots, les dimensions laisses dans l'ombre par les linguistiques de corpus, et enfin des impasses intellectuelles. Les moyens matriels de calcul ne cessent de progresser. Le versant logiciel des traitements de corpus accuse un retard d'autant plus sensible, ce qui retarde dautant les exprimentations et partant, les avances thoriques. On sait mmoriser des corpus et des ressources langagires de plus en plus vastes. Malgr des initiatives de mise en convergence, il n'existe pas encore de chanes de traitement standard pour ces donnes. La normalisation commence devenir effective pour les corpus. Elle ne l'est pas encore pour les programmes correspondants, qui restent la plupart du temps exprimentaux. On est encore assez loin de stations de travail textuelles qui permettraient d'articuler des traitements diversifis sur des corpus : tiquetage, correction interactive, parsage, annotation smantique, dcomptes et modlisation ... Certaines dimensions restent peu abordes en linguistique de corpus. C'est le cas de la textualit en tant que telle293. Mme les tudes de Biber, lorsqu'elles caractrisent les types de texte comme des constellations de traits linguistiques, ne rendent pas compte de l'organisation des textes au del de la phrase, de l'enchanement des noncs. La dimension pragmatique s'efface galement, en raison de la primaut accorde la morpho-syntaxe. Nous avons dj cit l'adage de G. Sampson (1994, p. 180) : la linguistique de corpus prend le langage tel qu'il est. Le pige serait ... de le laisser tel qu'il est, c'est--dire de n'introduire aucun dplacement thorique. La manipulation des corpus annots est lourde. Le dferlement des donnes peut aussi drouter, par son intrication complexe de phnomnes multiples294. Tout le langage s'engouffre. Le risque est alors un empirisme linguistique radical295, fleur de donnes et sans recul. Ceux qui mettent au point traitements et outils peuvent tre de leur ct tents par une certaine commisration pour les tudes proprement linguistiques. Ces dernires ne se confronteraient jamais au langage rel .
293 294
J.-P. Sueur (1982, p. 144) dgage tout de mme des pistes et montre des premiers rsultats. C. Filmore et B. Atkins (1994) montrent la complexit de lanalyse du verbe risk lorquon part, comme eux, de corpus : 1 743 contextes fournis par lAPHB (American Publishing House for the Blind) et de 470 extraits du corpus la base du dictionnaire COBUILD. Ils comparent les tendances observes dans ces contextes avec le traitement opr dans dix dictionnaires. Ils insistent sur les choix thoriques comme seuls moyens de sorienter dans le flux des attestations. L'expression est de M.-P. Pry-Woodley (1995, p. 216).
295
Bibliographie
225
55.2 Espoirs
Les recherches dont nous venons de dgager les grands traits renouvellent la dimension empirique et exprimentale de la linguistique, en particulier en ce qui concerne la quantification des faits langagiers. Pour reprendre les termes de C. Jacquemin, une linguistique vritablement exprimentale est possible. Puisque les corpus et les outils entrent de plus en plus dans le domaine public, les rsultats prsents par les recherches sont vrifiables sur les mmes donnes ou au contraire amendables par confrontation avec d'autres donnes. Les faits deviennent un peu plus ttus. Exprimenter, c'est aussi pouvoir construire des modles, symboliques ou quantitatifs, et les tester sur des donnes. Comme lcrit J. Sinclair (1991, p. 100) : La langue a l'air assez diffrente quand on en examine un grand morceau d'un coup. Les distinctions tranches s'estompent. Aux diffrents niveaux de l'analyse linguistique, on peut sparer usuel, exceptionnel et tout fait improbable. On peut dsormais quantifier de nouveaux phnomnes. On peut aussi examiner les corrlations entre des traits linguistiques multiples. Mais il reste acqurir pour la syntaxe et la smantique une exprience similaire celle qui a t dveloppe en analyse statistique du lexique. Elle permettra d'attribuer leur vritable dimension aux rsultats obtenus actuellement.
55.3 Conditions
Les linguistiques de corpus se rvleront fructueuses comme domaine de recherche si l'on accepte l'imparfait, c'est--dire des ressources toujours impures , et si saffirment des collaborations soutenues entre linguistes et informaticiens. Les corpus annots comme les outils d'annotation reposent sur des approximations. L'ampleur des moyens runir force des solutions qui, sans tre jamais vraiment consensuelles, reposent sur des compromis entre des communauts distinctes et des impratifs techniques multiples. Ces solutions dpendent galement de lusage prvu en aval pour les ressources annotes. Cette imperfection ne constitue pas pour autant un obstacle majeur. Nous l'avons vu, il est souvent possible de faire des dtours pour isoler les phnomnes viss. Sans doute faut-il aussi abandonner l'horizon, illusoire, de corpus parfaitement annots et d'outils ne faisant pas d'erreur. Pourquoi attendre de la machine une cohrence et une perfection que l'annotation manuelle n'atteint pas ? La collaboration de l'Universit de Lancaster et du centre de recherche d'IBM Watson (Black et al., 1993) est exemplaire d'une coopration fructueuse entre les deux communauts concernes au premier chef, la linguistique et le TALN. Les linguistes ont vu leur attention attire sur des
226
phnomnes souvent conus comme marginaux et sur la ncessit de les intgrer dans leur description. Les informaticiens ont appris modliser des comportements langagiers plus fins que ceux qu'ils traitaient initialement. Les deux communauts ont l'intrt le plus vif cooprer. La constitution de vastes corpus finement annots et la mise au point des outils ncessaires supposent des recherches informatiques importantes et coteuses. Les linguistes en bnfieront. Inversement, seuls des travaux pousss en linguistique descriptive permettent de mieux matriser les causalits l'uvre : influence des types de textes, jeu entre sous-langages et langue gnrale, poids du temps, etc. Les informaticiens y trouveront matire amliorer leurs modles et leurs techniques. Parce que les corpus lui semblent le moyen de constituer les ressources linguistiques ncessaires des traitements effectifs, le TALN se confronte dsormais toute la complexit du langage. Disposer de corpus annots renouvelle les mthodes et les objectifs de la linguistique descriptive. Le foisonnement des recherches tmoigne de la vigueur du champ. Il y a probablement une chance historique saisir : celle d'une coopration enfin fructueuse.
Bibliographie
227
TABLE DES MATIERES

1. 2. LE REGAIN D'INTERET POUR LES CORPUS .............................................................. 3 QUOI SERVENT LES CORPUS ANNOTES ? ............................................................. 4 2.1 LA LINGUISTIQUE DESCRIPTIVE ANGLO-SAXONNE ET SES QUESTIONS .................................. 4 2.2 LE CHANGEMENT DE CAP EN TALN .................................................................................... 5 3. 4. 5. CHOIX TERMINOLOGIQUES.......................................................................................... 6 NOTATIONS ......................................................................................................................... 7 ORIENTATION DE LOUVRAGE .................................................................................... 8 5.1 5.2 5.3 5.4 6. LECRIT AU TRAVERS DE CORPUS ENRICHIS DE LANGUES VIVANTES .................................... 8 LES CORPUS, LES RESSOURCES ET LES RECHERCHES DE LANGUE ANGLAISE ......................... 9 UN POINT DE VUE AUX FRONTIERES DE LA LINGUISTIQUE .................................................... 9 LA DIVERSITE DES PUBLICS CONCERNES ............................................................................ 10
DEMARCHE SUIVIE ........................................................................................................ 10 6.1 LES CORPUS ANNOTES ET LEURS UTILISATIONS ................................................................. 10 6.2 DIMENSIONS TRANSVERSALES .......................................................................................... 11 6.3 METHODOLOGIES ET TECHNIQUES ..................................................................................... 11
7.
PRINCIPAUX CORPUS CITES ....................................................................................... 11 7.1 CORPUS ANGLAIS OU AMERICAINS..................................................................................... 12 7.2 CORPUS FRANAIS............................................................................................................. 13
8.
DEFINITIONS .................................................................................................................... 15 8.1 EXEMPLES ......................................................................................................................... 16 8.2 L'INEVITABLE EPARPILLEMENT DES ETIQUETAGES ............................................................ 17 8.3 UNE REPRESENTATION CANONIQUE ................................................................................... 19 8.4 TYPES D'ETIQUETAGE ........................................................................................................ 21 8.4.1 Etiquetage intgral ou partiel ................................................................................. 21 8.4.2 Une tiquette ou plusieurs tiquettes ...................................................................... 21 8.4.3 Une vision large de l'tiquetage ............................................................................. 22
9.
TIQUETAGE PARTIEL ET TYPOLOGIE DE TEXTES ........................................... 23 9.1 CIRCULARITE DES DEMARCHES TYPOLOGIQUES HABITUELLES .......................................... 23 9.2 DEGAGER LES CORRELATIONS DE TRAITS LINGUISTIQUES : D. BIBER ................................ 23 9.3 GENERALITE DES TYPOLOGIES INDUITES ........................................................................... 25
10. TIQUETAGE INTEGRAL ET SOCIO-STYLISTIQUE ............................................. 27 10.1 10.2 10.3 10.4 REPERER LES CATEGORIES ET LES SUITES DE CATEGORIES DE DIFFERENTS LOCUTEURS 27 VARIER LE JEU D'ETIQUETTES SELON LES PHENOMENES OBSERVES ............................... 27 UNE PREMIERE OPPOSITION : STYLE NOMINAL ET STYLE VERBAL ................................. 30 EXAMEN DES PATRONS SYNTAXIQUES CARACTERISTIQUES DE CHAQUE TYPE DE LOCUTEUR 31
228
10.5 10.6 PRECISER L'EMPLOI DES ADJECTIFS : QUALIFICATIFS ET RELATIONNELS ....................... 32 EVALUATION ET PERSPECTIVES .................................................................................... 32
11. UTILISER ETIQUETEURS ET CORPUS ETIQUETES .............................................. 33 11.1 ADAPTER L'ETIQUETAGE AUX OBJECTIFS DE RECHERCHE.............................................. 33 11.1.1 Un tiquetage est orient par une famille de tches .......................................... 33 11.1.2 Un tiquetage peut tre dtourn ................................................................. 34 11.1.3 Le r-tiquetage est incontournable................................................................... 34 11.2 ENVIRONNEMENTS DE CATEGORISATION ET DE MANIPULATION DE TEXTE ETIQUETE.... 35 11.2.1 Catgoriser......................................................................................................... 35 11.2.2 Manipuler des corpus tiquets ......................................................................... 35 12. ENJEUX THEORIQUES ................................................................................................... 36 12.1 12.2 12.3 LE DIT EST LE DIRE ....................................................................................................... 36 LINGUISTIQUE ET TEXTUALITE...................................................................................... 37 ANALYSES MULTI-DIMENSIONNELLES .......................................................................... 37
13. DIVERSITE DES CORPUS ARBORES........................................................................... 39 13.1 NOTER DES RELATIONS SYNTAXIQUES .......................................................................... 40 13.1.1 Arbres, graphes et relations ............................................................................... 40 13.1.2 Grammaires de constituants et grammaires de dpendance ............................. 41 13.1.3 Notations textuelles ............................................................................................ 42 13.2 OBTENIR DES ANALYSES ............................................................................................... 45 13.3 TYPES D'ANALYSE ........................................................................................................ 45 13.3.1 Analyse partielle / analyse complte .................................................................. 45 13.3.2 Une seule analyse ou plusieurs .......................................................................... 46 13.3.3 Sous-spcification .............................................................................................. 47 13.4 ANALYSEURS DE TEXTE TOUT-VENANT .................................................................. 47 13.5 NIVEAUX D'ANALYSE.................................................................................................... 49 14. UNE REALISATION EXEMPLAIRE : SUSANNE ........................................................ 51 14.1 14.2 UNE ANNOTATION EXHAUSTIVE .............................................................................. 51 INFORMATIONS FOURNIES DANS SUSANNE ................................................................... 52
15. PHRASEOLOGIE ET TRAITEMENTS SYNTAXIQUES ............................................ 53 15.1 LE RENOUVEAU DES ETUDES LINGUISTIQUES DE LA PHRASEOLOGIE ............................. 53 15.2 LA FLEXIBILITE EN CORPUS D'EXPRESSIONS POLYLEXICALES ........................................ 55 15.2.1 Les variations en corpus d'expressions toutes faites .................................... 55 15.2.2 " Mesurer " la flexibilit ..................................................................................... 56 15.2.3 valuation .......................................................................................................... 57 15.3 LA VARIATION DE TERMES EN LANGUE DE SPECIALITE.................................................. 58 15.3.1 Une reprsentation syntaxique contrainte des termes ....................................... 59 15.3.2 Engendrer des variantes possibles de termes .................................................... 60 15.3.3 Reprage des variations syntaxiques engendres .............................................. 63 15.3.4 Vers une grammaire de la variation terminologique ......................................... 63 15.4 LA RECHERCHE DE CANDIDATS TERMES........................................................................ 64 15.4.1 Isoler les groupes d'allure dnominative ........................................................... 65 15.4.2 Le corpus comme norme .................................................................................... 66 15.4.3 Vers une grammaire des dnominations complexes possibles ........................... 67 15.5 ENJEUX PRATIQUES ET THEORIQUES ............................................................................. 68 15.5.1 Amliorer la description lexicographique.......................................................... 68 15.5.2 Distinguer variantes et variations ...................................................................... 69
Bibliographie
15.5.3 15.5.4 16.1 16.2
229
Importance quantitative de la variation ............................................................. 69 Caractriser la flexibilit normale ............................................................... 70
16. UTILISER DES PARSEURS ET DES CORPUS ARBORES......................................... 70 UTILISER DES PARSEURS ............................................................................................... 70 UTILISER DES CORPUS ARBORES ................................................................................... 71
17. UN OBJECTIF: LA DESAMBIGUISATION LEXICALE ............................................ 74 18. UNE OPPOSITION FONDAMENTALE : CONSTRUCTION LEXICALE OU CONCEPTUELLE ....................................................................................................................... 75 18.1 BASES DE CONNAISSANCES LEXICALES ......................................................................... 76 18.1.1 Dictionnaires ...................................................................................................... 76 18.1.2 Thesaurus ........................................................................................................... 78 18.1.3 Terminologies..................................................................................................... 80 18.2 BASES DE CONNAISSANCES CONCEPTUELLES ................................................................ 80 18.3 UNE OPPOSITION REELLE MAIS FLOUE........................................................................... 81 19. UNE GRANDE DIVERSITE DE RESSOURCES LEXICALES ................................... 82 19.1 DES DISTINCTIONS DE SENS PLUS OU MOINS FINES ........................................................ 82 19.2 DES RESSOURCES GENERALES OU SPECIALISEES ........................................................... 83 19.3 DES SOURCES PLUS OU MOINS INFORMATISEES ............................................................. 85 19.3.1 Dictionnaires et thesaurus sur support lectronique ......................................... 85 19.3.2 Ressources lectroniques ................................................................................... 85 19.3.3 Ressources informatises ................................................................................... 86 20. UN EXEMPLE DE RESEAU LEXICAL : WORDNET ................................................. 87 20.1 UN PROJET AMBITIEUX ................................................................................................. 87 20.1.1 Reprsenter les sens de mots .............................................................................. 87 20.1.2 Mettre les sens en rseau ............................................................................. 88 20.1.3 Quelques chiffres................................................................................................ 89 20.2 UNE STRUCTURE RICHE ET DIFFERENCIEE ..................................................................... 90 20.2.1 Des hirarchies de noms .................................................................................... 90 20.2.2 Des classes dadjectifs ....................................................................................... 91 20.2.3 Des rseaux de verbes ........................................................................................ 92 21. TABLER SUR LEXISTANT ............................................................................................ 92 22. DEFINITIONS ET ENJEUX ............................................................................................. 95 22.1 UN OBJECTIF COMMUN : ACCEDER AU SENS .................................................................. 95 22.2 DES APPLICATIONS VARIEES ......................................................................................... 96 22.2.1 Analyse de contenu............................................................................................. 96 22.2.2 Recherche documentaire .................................................................................... 97 22.2.3 Acquisition de connaissances ............................................................................. 97 23. CONSTRUIRE AUTOMATIQUEMENT DES ENTREES DE DICTIONNAIRE....... 99 23.1 DES EBAUCHES DENTREES DE DICTIONNAIRES ............................................................. 99 23.1.1 Des donnes quantitatives ................................................................................ 100 23.1.2 Le corpus dorigine .......................................................................................... 101 23.1.3 Les noms voisins............................................................................................... 101 23.1.4 Les verbes oprateurs ...................................................................................... 101
230
23.1.5 Les expressions ................................................................................................ 102 23.1.6 Les variantes .................................................................................................... 102 23.2 UNE METHODE ENTIEREMENT AUTOMATIQUE ............................................................. 103 23.2.1 Une seule donne, le corpus............................................................................. 103 23.2.2 Un ensemble de traitements simples ................................................................ 103 23.3 LES LIMITES DUNE APPROCHE EMPIRIQUE.................................................................. 105 24. FAIRE DES DISTINCTIONS DE SENS DE MOTS POUR LA RECHERCHE DOCUMENTAIRE ..................................................................................................................... 107 24.1 RETROUVER DES TEXTES DANS UNE BASE DOCUMENTAIRE ......................................... 107 24.1.1 Principe gnral ............................................................................................... 107 24.1.2 La question de la variation lexicale ................................................................. 108 24.2 DESAMBIGUSER DES CORPUS A LAIDE DE WORDNET ............................................... 109 24.2.1 Un article dsambigus................................................................................... 110 24.2.2 Mesurer la distance entre les nuds de WordNet ........................................... 111 24.2.3 Dsambiguser un ensemble de mots ............................................................... 114 24.3 DE LA DESAMBIGUSATION LEXICALE A LA RECHERCHE DOCUMENTAIRE ................... 115 24.3.1 La granularit de la description lexicale ......................................................... 116 24.3.2 La couverture des bases lexicales .................................................................... 116 25. UN MEME PARTI PRIS DEMPIRISME ..................................................................... 117 25.1 25.2 25.3 25.4 25.5 FONDER UNE SEMANTIQUE SUR LES CORPUS ............................................................... 117 EXPLOITER DES RESULTATS APPROXIMATIFS .............................................................. 118 COMBINER DES TECHNIQUES SIMPLES ......................................................................... 119 MODELISER PAR AJUSTEMENTS SUCCESSIFS ............................................................... 120 EXPERIMENTER POUR MIEUX EXPLIQUER .................................................................... 121
26. DEFINITIONS ET ENJEUX ........................................................................................... 123 27. UN CORPUS POUR L'ETUDE DE LA DIACHRONIE : ARCHER ........................... 124 27.1 27.2 27.3 27.4 L'ANGLAIS ET L'AMERICAIN DE 1650 A AUJOURD'HUI ................................................. 124 ECHANTILLONNAGE DES REGISTRES ........................................................................... 125 STRUCTURATION TEMPORELLE ................................................................................... 126 REPRESENTER LES ETATS DE LANGUE OU DES IDIOLECTES ? ....................................... 126
28. TUDES DE LA DIACHRONIE..................................................................................... 127 28.1 LA COURTE DUREE...................................................................................................... 127 28.2 LE MOYEN TERME ....................................................................................................... 128 28.3 LA LONGUE DUREE ..................................................................................................... 129 28.3.1 La position des adjectifs en moyen anglais tardif ............................................ 129 28.3.2 L'alternance that / zro .................................................................................... 130 28.3.3 L'volution des dmonstratifs en franais ........................................................ 131 29. PROBLEMES METHODOLOGIQUES ........................................................................ 133 29.1 29.2 29.3 29.4 DES CORPUS PETITS ET PEU ANNOTES ................................................................... 133 VERIFIER ET PRECISER LES EVOLUTIONS ..................................................................... 135 ACCEPTABILITE ET FREQUENCE .................................................................................. 135 AFFINER LES EXPLICATIONS ....................................................................................... 136
30. DEFINITION ET EXEMPLES ....................................................................................... 138 31. UTILISATION DES TEXTES ALIGNES ...................................................................... 140
Bibliographie
231
32. METHODES D'ALIGNEMENT ..................................................................................... 141 33. PROBLEMES ET ENJEUX............................................................................................. 143 34. DEFINITIONS ET TYPOLOGIE DES CORPUS ......................................................... 145 35. LANGUE GENERALE .................................................................................................... 148 35.1 35.2 35.3 ETUDIER UNE DIMENSION PARTICULIERE .................................................................... 148 CONSTITUER UN CORPUS DE REFERENCE..................................................................... 149 PEUT-ON CONSTITUER DES ECHANTILLONS REPRESENTATIFS ? ................................... 150
36. LANGUES DE SPECIALITE ET SOUS-LANGAGES ................................................. 151 36.1 LES HYPOTHESES DE Z. HARRIS .................................................................................. 151 36.2 ANALYSES DE SOUS-LANGAGES .................................................................................. 152 36.2.1 La mthodologie harrissienne .......................................................................... 152 36.2.2 Les analyses ralises dans ce cadre ............................................................... 153 36.3 EVALUATION ET PERSPECTIVES .................................................................................. 153 37. ARTICULER TYPOLOGIE INTERNE ET TYPOLOGIE EXTERNE ..................... 155 37.1 37.2 38.1 38.2 39.1 39.2 40.1 40.2 TYPOLOGIE DES TEXTES, GENRES ET REGISTRES ......................................................... 156 TYPOLOGIE DES PARAMETRES SITUATIONNELS ........................................................... 156 REPRESENTATIONS LOGIQUES : SGML ....................................................................... 157 LES TYPES DE TEXTES : TEI ........................................................................................ 159 ORIGINE ET HISTOIRE DU CORPUS ............................................................................... 161 JURISPRUDENCE D'ANNOTATION ................................................................................. 161 ASSISES INSTITUTIONNELLES ...................................................................................... 162 PROBLEMES JURIDIQUES ............................................................................................. 163
38. NORMALISER UN CORPUS ......................................................................................... 157
39. DOCUMENTER UN CORPUS........................................................................................ 160
40. CONTRAINTES ET CONDITIONS INSTITUTIONNELLES.................................... 162
41. NETTOYAGE ET HOMOGENEISATION ................................................................... 165 42. SEGMENTATION ............................................................................................................ 166 42.1 42.2 42.3 43.1 43.2 43.3 43.4 43.5 43.6 44.1 REPERER LES UNITES .................................................................................................. 166 TECHNIQUES ............................................................................................................... 167 DIFFICULTES ............................................................................................................... 168 TAUX D'AMBIGUTE .................................................................................................... 169 DESAMBIGUSATION PAR REGLES ............................................................................... 170 DESAMBIGUSATION PROBABILISTE ............................................................................ 171 PERFORMANCES.......................................................................................................... 172 POST-TRAITEMENT ET COUTS...................................................................................... 173 EVALUATION ET NOUVELLES TENDANCES .................................................................. 173 STRUCTURATION PAR REGLES ..................................................................................... 175
43. TIQUETAGE MORPHO-SYNTAXIQUE ................................................................... 169
44. ANALYSE SYNTAXIQUE .............................................................................................. 174
232
44.1.1 Rgles ngatives ......................................................................................... 175 44.1.2 Rgles " positives " ........................................................................................... 175 44.2 STRUCTURATION PROBABILISTE ................................................................................. 175 44.3 PERFORMANCES ET EVALUATION................................................................................ 176 44.4 POST-TRAITEMENT ET COUTS...................................................................................... 178 44.5 COUTS ........................................................................................................................ 182 44.6 DIFFICULTES ............................................................................................................... 182 45. TIQUETAGE SEMANTIQUE ...................................................................................... 183 45.1 CONSTRUIRE DES CATEGORIES SEMANTIQUES ............................................................ 184 45.1.1 Dfinir un contexte ........................................................................................... 184 45.1.2 Calculer des similarits.................................................................................... 186 45.1.3 Construire des classes de mots ........................................................................ 187 45.1.4 Procder par itrations .................................................................................... 187 45.2 PROJETER DES CATEGORIES SUR UN CORPUS ............................................................... 188 45.2.1 Segmentation en units smantiques ................................................................ 188 45.2.2 Dsambigusation smantique ......................................................................... 188 46. POURQUOI QUANTIFIER ? ......................................................................................... 191 46.1 46.2 46.3 47.1 47.2 47.3 47.4 48.1 48.2 48.3 48.4 49.1 49.2 TUDIER LA VARIATION DE TRAITS LINGUISTIQUES DANS UN CORPUS ........................ 191 REALISER DES TYPOLOGIES DE TEXTES ET DE DOCUMENTS ......................................... 192 DECELER DES CORRELATIONS ENTRE PHENOMENES .................................................... 192 NORMES DE DEPOUILLEMENT ..................................................................................... 194 DECOMPTES AUTOMATISES......................................................................................... 195 INCIDENCE DE LA NORME SUR LES DECOMPTES ........................................................... 196 EXEMPLE : L'ACCROISSEMENT DU VOCABULAIRE........................................................ 197 SEQUENCES D'UNITES ................................................................................................. 198 QUASI-SEGMENTS ....................................................................................................... 200 COOCCURRENCES ....................................................................................................... 200 FILTRAGE DES RESULTATS .......................................................................................... 201 ORGANISER LA PARTITION DU CORPUS........................................................................ 203 REPERER LES FAITS SAILLANTS ................................................................................... 204
47. LES UNITES ..................................................................................................................... 193
48. MESURES DE RECURRENCE SUR L'AXE SYNTAGMATIQUE ........................... 198
49. COMPARER DES DECOMPTES AU SEIN D'UN CORPUS PARTITIONNE......... 201
50. APPROCHES MULTIDIMENSIONNELLES ............................................................... 206 50.1 CLASSER LES UNITES ET LES TEXTES ........................................................................... 206 50.1.1 Classification ascendante hirarchique ........................................................... 207 50.1.2 Classifications de formes ................................................................................. 208 50.1.3 Classifications descendantes ............................................................................ 209 50.2 L'APPROCHE FACTORIELLE ......................................................................................... 209 51. ARTICULER DES CONSTATS SUR DES UNITES DIFFERENTES........................ 212 51.1 51.2 ARTICULER UNITES ISOLEES ET SEQUENCES D'UNITES ................................................. 212 ARTICULER DIFFERENTS SYSTEMES D'UNITES ............................................................. 213
52. TEMPS LEXICAL ............................................................................................................ 215
Bibliographie
52.1.1 52.1.2
233
Accroissements spcifiques ............................................................................. 216 Formes chrono-homognes ............................................................................ 218
53. CONCLUSION .................................................................................................................. 219 54. BILAN ................................................................................................................................ 221 54.1 54.2 54.3 55.1 55.2 55.3 AVANCEES .................................................................................................................. 221 LIMITES ...................................................................................................................... 222 QUESTIONNEMENTS .................................................................................................... 223 MENACES ................................................................................................................... 224 ESPOIRS ...................................................................................................................... 225 CONDITIONS ............................................................................................................... 225
55. PERSPECTIVES ............................................................................................................... 223
234
BIBLIOGRAPHIE
ABREVIATIONS UTILISEES
55.3.1.1 Actes
ACL : Association for Computational Linguistics ANLP : Applied Natural Language Processing COLING : International Conference on Computational Linguistics EACL : European Chapter of the Association for Computational Linguistics EURALEX : International Congress on Lexicography FRANCIL : Journes du rseau FRANais des Industries de la Langue IJCAI : International Joint Conference in Artificial Intelligence JADT : Journes de lAnalyse des Donnes Textuelles SIGIR : Special Interest Group in Information Retrieval (ACM)
55.3.1.2 Revue
TAL : Traitement Automatique des Langues
55.3.1.3 Association
ACM : Association for Computing Machinery
AARTS J. Corpus linguistics : an appraisal, in : Computers in Literary and Linguistic research, Hamesse J., Zampolli A., Champion-Slatkine, Paris-Genve, 1990, 1328. ABEILLE A. Les nouvelles syntaxes : grammaires dunification et analyse du franais, Armand Colin, Paris, 1993. AGIRRE E., RIGAU G. Word sense disambiguation using conceptual density, in : COLING96, Copenhague, Danemark, 1996, tm. 1, 1622. ALTENBERG B. Recurrent verb-complement constructions in the London-Lund corpus, in : English language corpora : design, analysis and exploitation, Aarts J., de Haan P., Oostdijk N., Rodopi, Amsterdam, 1993, 227246. AMSTRONG S. (ed.) Using Large Corpora, The MIT Press, Cambridge, Massachusetts, 1994. ASSADI H., BOURIGAULT D. Classification dadjectifs extraits dun corpus pour laide la modlisation de connaissances, in : JADT95, 1995. ATWELL E., HUGHES J., SOUTER C. Amalgam : Automatic mapping among lexicogrammatical annotation models, in : The Balancing Act : Combining Symbolic and Statistical Approaches to Language, Las Cruces, USA, 1994, 1121. AUTHIER-REVUZ J. Mta-nonciation et (d)figement, in : La locution en discours, MartinsBaltar M., ENS de Fontenay/St Cloud, Paris, 1995, 1740. BARKEMA H. Determining the syntactic flexibility of idioms, in : Creating and using English language corpora, Fries U., Tottie G., Schneider P., Rodopi, Amsterdam, 1994, 3952.
Bibliographie
235
BARKEMA H. Idiomaticy in english NPs, in : English language corpora : design, analysis and exploitation, Aarts J., de Haan P., Oostdijk N., Rodopi, Amsterdam, 1993, 257278. BARNBROOK G. Language and Computers - A practical Introduction to the Computer Analysis of Language, Edinburgh University Press, Edinburgh, 1996. BASILI R., DELLA ROCCA M., PAZIENZA M. T. Contextual word sense tuning and disambiguation, Applied Artificial Intelligence, 11, 1997, 235262. BASILI R., PAZIENZA M., VELARDI P. A not-so-shallow parser for collocational analysis, COLING94, 1994, 447453. BASILI R., PAZIENZA M., VELARDI P. Acquisition of selectional patterns in sublanguages, Machine Translation, 8, 1993, 175201. BASILI R., PAZIENZA M., VELARDI P. Semi-automatic extraction of linguistic information for syntactic disambiguation, Applied Artificial Intelligence, 7, 1993, 339364. BASILI R., PAZIENZA M., VELARDI P. What can be learned from raw texts ?, Machine Translation, 8, 1993, 147173. BECUE M., BOLASCO S. Les quasi-segments pour une classification automatique des rponses ouvertes, in : JADT, Montpellier, 1993, 310325. BENSCH P. A., SAVITCH W. J. An occurrence-based model of word categorization, Annals of Mathematics and Artificial Intelligence, 14, 1995, 116. BENZECRI J.-P. Lanalyse des correspondances, Dunod, 1973. BENZECRI J.-P. La taxinomie, Dunod, 1973. BERGOUNIOUX A., LAUNAY M.-F., MOURIAUX R., SUEUR J.-P., TOURNIER M. La parole syndicale, Presses Universitaires de France, Paris, 1982. BIBER D. Dimensions of register variation : a cross-linguistic comparison, Cambridge University Press, Cambridge, 1995. BIBER D. Representativeness in corpus design, Linguistica Computazionale, IX-X, 1994, 377408. BIBER D. Variation accross speech and writing, Cambridge University Press, Cambridge, 1988. BIBER D., FINEGAN E. Intra-textual variation within medical research articles, in : Corpusbased research into language, Ooostdijk N., de Haan P., Rodopi, Amsterdam, 1994, 201 222. BIBER D., FINEGAN E., ATKINSON D. ARCHER and its challenges : compiling and exploring a representative corpus of historical english registers, in : Creating and using English language corpora, Fries U., Tottie G., Schneider P., Rodopi, Amsterdam, 1994, 114. BLACK E., GARSIDE R., LEECH G., EYES E., MCENERY A., LAFFERTY J., MAGERMAN D., ROUKOS S. Statistically-driven computer grammars of English : the IBM/Lancaster approach, Rodopi, Amsterdam, 1993. BLACKWELL S. From dirty data to clean language, in : English language corpora : design, analysis and exploitation, Aarts J., de Haan P., Oostdijk N., Rodopi, Amsterdam, 1993, 97106. BLANCHE-BENVENISTE C. Approches de la langue parle en franais, Ophrys, Paris, 1997. BLANK I. Sentence alignment : methods and implementations, TAL, 36, 1-2, 1995, 81 100. BOGURAEV B., PUSTEJOVSKY J. (eds.) Corpus processing for lexical acquisition, The MIT Press, Cambridge, 1996. BOLASCO S. Sur diffrentes stratgies dans une analyse des formes textuelles : une exprimentation partir de donnes denqute, in : JADT, Barcelone, 1992, 6988.
236
BOUAUD J., HABERT B., NAZARENKO A., ZWEIGENBAUM P. Regroupements issus de dpendances syntaxiques en corpus : catgorisation et confrontation deux modlisations conceptuelles, in : Actes Ingnierie des connaissances, Roscoff, 1997, 207223. BOURIGAULT D. Analyse syntaxique locale pour le reprage de termes complexes dans un texte, TAL, 34, 2, 1993. BRILL E. Transformation-based error-driven learning and natural language processing : A case study in part-of-speech tagging, Computational Linguistics, 21, 4, 1995, 543565. BRISCOE T. Prospects for practical parsing of unrestricted text : robust statistical parsing techniques, in : Corpus-based research into language, Ooostdijk N., de Haan P., Rodopi, Amsterdam, 1994, 97120. BRONCKART J.-P., BAIN D., SCHNEUWLY B., DAVAUD C., PASQUIER A. Le fonctionnement des discours : un modle psychologique et une mthode danalyse, Delachaux & Niestl, Lausanne, 1985. BROWN P., LAI J., MERCER R. Aligning sentences in parallel corpora, in : ACL91, Berkeley, USA, 1991. BRUNET E. Le Vocabulaire de Marcel Proust, Slatkine-Champion, Genve-Paris, 1983. BRUNET E. Le vocabulaire franais de 1789 nos jours, daprs les donnes du Trsor de la langue franaise, Slatkine-Champion, Genve-Paris, 1981. BRUNET E. What do statitistics tell us, in : Research in humanities Computing, Clarendon Press, Oxford, tm. 1, 1991, 3546. BURNAGE G., DUNLOP D. Encoding the British National Corpus, in : English language corpora : design, analysis and exploitation, Aarts J., de Haan P., Oostdijk N., Rodopi, Amsterdam, 1993, 7996. BURNARD L. Users Reference Guide for the British National Corpus, British National Corpus Consortium, Oxford University Computing Services, Oxford, UK, may 1995. BURNARD L. What is SGML and how does it help ?, Computers and the Humanities, 29, 1995, 4150. BURNARD L., SPERBERG-MCQUEEN C. M. La TEI simplifie : une introduction au codage des textes lectroniques en vue de leur change, Cahiers Gutenberg, 24, 1996, 23151. CALLIOPE (COLLECTIF). La parole et son traitement automatique, Masson, Paris, 1989. CHANOD J.-P., TAPANAINEN P. Creating a tagset, lexicon and guesser for a french tagger, in : Proceedings of EACL SIGDAT workshop on From Texts To Tags: Issues In Multilingual Language Analysis, 1995, 5864. CHANOD J.-P., TAPANAINEN P. Tagging French comparing a statistical and a constraintbased method, in : EACL95, Dublin, 1995, 149156. CHARLET J., BACHIMONT B., BOUAUD J., ZWEIGENBAUM P. Ontologie et rutilisabilit : exprience et discussion, in : Acquisition et ingnierie des connaissances : tendances actuelles, Aussenac-Gilles N., Laublet P., Reynaud C., Cpadus Editions, Toulouse, 1996, 6987. CHISHOLM D., ROBEY D. Encoding verse texts, Computers and the Humanities, 29, 1995, 99111. CHURCH K. W. Char Align: A program for aligning parallel texts at the character level, in : ACL93, Columbus, Ohio, 1993. CHURCH K. W. One term or two ?, in : SIGIR, Seattle, USA, 1995, 310318. CHURCH K. W., HANKS P. Word association norms, mutual information, and lexicography, Computational Linguistics, 16, 1, 1990, 2229.
Bibliographie
237
CHURCH K. W., MERCER R. L. Introduction to the special issue on Computational Linguistics Using Large Corpora, Computational Linguistics, 19, 1, 1993, 124. CHURCH K., GALE W. Concordance for Parallel Texts, in : Proceedings of the 7th Annual Conference of the UW Centre for the New Oxford English Dictionary and Text Research, Oxford, 1991. COVER R. C., ROBINSON P. M. W. Encoding textual criticism, Computers and the Humanities, 29, 1995, 123136. COWIE J., GUTHRIE J., GUTHRIE L. Lexical disambiguation using simulated annealing, in : COLING92, Nantes, 1992, 359365. CUTTING D., KUPIEC J., PEDERSEN J., SIBUN P. A practical part-of-speech tagger, in : ANLP92, 1992. DAGAN I., ITAI A., SCHWALL U. Two languages are more informative than one, in : ACL91, Berkeley, USA, 1991, 130137. DAILLE B. Reprage et extraction de terminologie par une approche mixte statistique et linguistique, TAL, 36, 1-2, 1995, 101118. DAILLE B. Study and implementation of combined techniques for automatic extraction of terminology,in : Actes The Balancing Act - Combining Symbolic and Statistical Approaches to Language, Las Cruces, USA, 1995, 2936. DALADIER A. Aspects constructifs des grammaires de Harris, Langages, 99, 1990, 5784. DUNLOP D. Practical considerations in the use of TEI headers in large corpora, Computers and the Humanities, 29, 1995, 8598. DUPUIS F., LEMIEUX M., GOSSELIN D. Consquences de la sous-spcification des traits de Agr dans lidentification de Pro, Language Variation and Change, 3, 1992, 275299. EEG-OLOFSSON M., ALTENBERG B. Discontinuous recurrent word combinations in the London-Lund corpus, in : Creating and using English language corpora, Fries U., Tottie G., Schneider P., Rodopi, Amsterdam, 1994, 6378. EL-BZE M., SPRIET T. Intgration de contraintes syntaxiques dans un systme dtiquetage probabiliste, TAL, 36, 1-2, 1995, 4766. ENGWALL G. Not chance but choice : Criteria in corpus creation, in : Computational Approaches to the Lexicon, Atkins B., Zampolli A., Oxford University Press, Oxford, 1994, 4982. EVANS D. A., ZHAI C. Noun-phrase analysis in unrestricted text for information retrieval, in : ACL96, Santa Cruz, USA, 1996. EYES E., LEECH G. Progress in UCREL research : improving corpus annotation practices, in : English language corpora : design, analysis and exploitation, Aarts J., de Haan P., Oostdijk N., Rodopi, Amsterdam, 1993, 125143. FELLBAUM C., GROSS D., MILLER K. Adjectives in WordNet, in : Five Papers on WordNet, http://www.cogsci.princeton.edu/ wn/ (sept. 1997), 1993, 2639, revised version. FIALA P., HABERT B. La langue de bois en clats : les dfigements dans les titres de la presse quotidienne franaise, MOTS, 1989, 8398. FILLMORE C. J., ATKINS B. Starting where the dictionaries stop : The challenge of corpus lexicography, in : Computational Approaches to the Lexicon, Atkins B., Zampolli A., Oxford University Press, Oxford, 1994, 349396. FINEGAN E., BIBER D. That and zero complementisers in late modern english : exploring archer from 1650-1990, in : The verb in contemporary English. Theory and description, Aarts B., Meyer C. F., Cambridge University Press, Cambridge, 1995, 241257. FUCHS C. (resp.) Linguistique et traitement automatique des langues, Hachette, Paris, 1993.
238
GALE W. A., CHURCH K. W. A program for aligning sentences in bilingual corpora, Computational Linguistics, 19, 1, 1993, 75102. GAUSSIER E., GREFENSTETTE G., SCHULZE M. Traitement du langage naturel et recherche dinformation : quelques expriences sur le franais, in : FRANCIL97, 1997, 914. GAUSSIER E., LANGE J.-M. Modles statistiques pour lextraction de lexiques bilingues, TAL, 36, 1-2, 1995, 133156. GAZDAR G., KLEIN E., PULLUM G. K., SAG I. A. Generalized Phrase Structure Grammar, Harvard University Press, Cambridge, MA, 1985. GAZDAR G., MELLISH C. Natural Language Processing in Lisp, Addison Wesley, Reading, 1989. GIORDANO R. The TEI header and the documentation of electronic texts, Computers and the Humanities, 29, 1995, 7585. GOLDFARB C. F. The SGML Handbook, Clarendon Press, 1990. GOOSSENS M. Introduction pratique SGML, Cahiers Gutenberg, 19, 1995, 2758. GRANGER S. International corpus of learner english, in : English language corpora : design, analysis and exploitation, Aarts J., de Haan P., Oostdijk N., Rodopi, Amsterdam, 1993, 5771. GREENBAUM S. The tagset for the International Corpus of English, in : Corpus-Based Computational Linguistics, Souter C., Atwell E., Rodopi, Amsterdam, 1993, 1124. GREENBAUM S., YIBIN N. Tagging the British ICE corpus : English word classes, in : Corpus-based research into language, Ooostdijk N., de Haan P., Rodopi, Amsterdam, 1994, 3346. GREENSTEIN D., BURNARD L. Speaking with one voice : Encoding standards and the prospects for an integrated approach to computing in history, Computers and the Humanities, 29, 1995, 137148. GREFENSTETTE G. Automatic thesaurus generation from raw text using knowledge-poor techniques, in : Proceedings of the 9th Conference on Oxford English dictionary, Oxford, 1993. GREFENSTETTE G. Corpus-derived first, second and third order affinities, in : EURALEX, Amsterdam, 1994. GREFENSTETTE G. Evaluation techniques for automatic semantic extraction : Comparing syntactic and window based approaches, in : Corpus Processing for Lexical Acquisition, Boguraev B., Pustejovsky J., The MIT Press, Cambridge, Massachusetts, 1996, 205216. GRISHMAN R., KITTREDGE R., (eds.): Analyzing Language in Restricted Domains. Sublanguage Description and Processing., Lawrence Erlbaum Ass., Hillsdale, 1986. GRISHMAN R., STERLING J. Generalizing automatically generated selectional patterns, in : COLING94, Kyoto, 1992, tm. 3, 742747. GROSS G. Classes dobjets et description des verbes, Langages, 115, 1994, 1530. GROSS G. Degr de figement des noms composs, Langages, 90, 1988, 5770. GUHA R., LENAT D. B. Enabling agents to work together, Communications of the ACM, 37, 7, 1994, 127142. GUILLET A. Fondements formels des classes smantiques dans un lexique-grammaire, Langages 98, 1990, 70102. GUTHRIE J., GUTHRIE L., WILKS Y., AIDINEJAD H. Subject-dependent co-occurrences and word sense disambiguation, in : ACL91, Berkeley, USA, 1991. HABERT B. (resp.) Traitements probabilistes et corpus, TAL, 36, 1-2, 1995.
Bibliographie
239
HABERT B. tudes des formes spcifiques et typologie des noncs (les rsolutions gnrales des congrs de la CFTC-CFDT de 1945 1979), MOTS, 11, 1985, 127154. HABERT B. Lanalyse des formes spcifiques. Bilan critique et propositions dutilisation, MOTS, 7, 1983, 97124. HABERT B., HERVIOU-PICARD M.-L., BOURIGAULT D., QUATRAIN R., ROUMENS M. Un outil et une mthode pour comparer deux extracteurs de groupes nominaux, in : FRANCIL97, 1997, 509-516. HABERT B., NAULLEAU E., NAZARENKO A. Symbolic word clustering for medium-size corpora, in : COLING96, Copenhague, Danemark, 1996, tm. 1, 490495. HABERT B., SALEM A. Lutilisation de catgorisations multiples pour lanalyse quantitative de donnes textuelles, TAL, 36, 1-2, 1995, 249276. HARRIS Z., GOTTFRIED M., RYCKMAN T., MATTICK JR P., Daladier A., Harris T., Harris S. The Form of Information in Science, Analysis of Immunology Sublanguage, Kluwer Academic Publisher, Dordrecht, 1989. HATZIVASSILOGLOU V., MCKEOWN K. Towards the automatic identification of scales : Clustering adjecives according to meaning, in : ACL93, Columbus, USA, june 1993, 172 182. HEARST M. A. Automatic acquisition of hyponyms from large text corpora, in : COLING92, Nantes, 1992, 539545. HERDAN G. Quantitative Linguistics, Butterworths, Londres, 1964. HERZOG O., ROLLINGER C. (eds.): Text Understanding in LILOG, Springer-Verlag, Heidelberg, 1991. HINDLE D. A parser for text corpora, in : Computational Approaches to the Lexicon, Atkins B., Zampolli A., Oxford University Press, Oxford, 1994, 103152. HINDLE D. Noun classification from predicate argument structures, in : ACL83, Berkeley, USA, 1990, 268275. HOLMES D. I. The analysis of literary style - A review, J.R. Statistic. Soc., 148, Part 4, 1985, 328341. HUMPHREY B. L., LINDBERG D. A. Building the Unified Medical Language System, in : Proceedings of the 6th Annual SCAMC, IEEE, Washington, 1989, 475480. IDE N., SPERBERG-MCQUEEN C. M. The Text Encoding Initiative its history, goals and future development, Computers and the Humanities, 29, 1995, 516. IDE N., VRONIS J. (eds.) The Text Encoding Initiative: Background and context, Kluwer Academic Publishers, Dordrecht, 1995. IDE N., VRONIS J. Encoding dictionaries, Computers and the Humanities, 29, 1995, 167 180. ISABELLE P. La bi-textualit : vers une nouvelle gnration daides la traduction et la terminologie, META, 37, 4, 1992, 721737. ISABELLE P., WARWICK-ARMSTRONG S. Les corpus bilingues : une nouvelle ressource pour le traducteur, in : La traductique, Bouillon P., Clas A., Presses de lUniversit de Montral, Montral, 1993, 288306. JACQUEMIN C., KLAVANS J. L., TZOUKERMANN E. Expansion of multi-word terms for indexing and retrieval using morphology and syntax, in : ACL - EACL97, Madrid, 1997, 2431. JACQUEMIN C., ROYAUT J. Retrieving terms and their variants in a lexicalized unificationbased framework, in : SIGIR94, Dublin, 1994, 132141. JOHANSSON S. This scheme is badly needed : some aspects of verb-adverb combinations, in : The verb in contemporary English. Theory and description, Aarts B., Meyer C. F., Cambridge University Press, Cambridge, 1995, 218240.
240
JOHANSSON S. Continuity and change in the encoding of computer corpora, in : Corpusbased research into language, Ooostdijk N., de Haan P., Rodopi, Amsterdam, 1994, 13 32. JOHANSSON S. The encoding of spoken texts, Computers and the Humanities, 29, 1995, 149158. JUSTESON J. S., KATZ S. M. Principled disambiguation : Discriminating adjective senses with modified nouns, Computational Linguistics, 21, 1, 1995, 128. KARLSSON F. Robust parsing of unconstrained text, in : Corpus-based research into language, Oostdijk N., de Haan P., Rodopi, Amsterdam, 1994, 121142. KARLSSON F., VOUTILAINEN A., HEIKKILA J., ANTILLA A. Contraint Grammar : a LanguageIndependent System for Parsing Unrestricted Text, Mouton de Gruyter, 1995. KLEIBER G. Dnomination et relations dnominatives, Langages, 76, 1984, 7794. KROCH A. S. Reflexes of grammar in patterns of language change, Language Variation and Change, 3, 1990, 275299. KROVETZ R. Lexical acquisition and information retrieval, in : Lexical Acquisition : Exploiting On-Line Ressources to build a Lexicon, Zernik U., Lawrence Erlbaum, USA, 1991. KUCERA H., NELSON F. Computational Analysis of Present-Day American English, Brown University Press, Providence, 1967. KYT M. A supplement to the Helsinki corpus of english texts : the corpus of early american english, in : English language corpora : design, analysis and exploitation, Aarts J., de Haan P., Oostdijk N., Rodopi, Amsterdam, 1993, 289298. LABBE D. Le vocabulaire de Franois Mitterrand, Presses de la Fondation Nationale des Sciences Politiques, Paris, 1990. LAFON P. Analyse lexicomtrique et recherche des cooccurrences, MOTS, 3, 1981, 95 148. LAFON P. Sur la variabilit de la frquence des formes dans un corpus, MOTS, 1, 1980, 128165. LAFON P., SALEM A. Linventaire des segments rpts dun texte, Mots, 6, 1983, 161 177. LANGE J.-M., GAUSSIER E. Alignement de corpus multilingues au niveau des phrases, TAL, 36, 1-2, 1995, 6780. LAVAGNINO J., MYLONAS E. The show must go on : Problems of tagging performance texts, Computers and the Humanities, 29, 1995, 113121. LE PESANT D. Les complments nominaux du verbe lire : une illustration de la notion de classe dobjets , Langages, 115, septembre 1994, 3146. LEBART L., SALEM A. Statistique textuelle, Dunod, Paris, 1994. LEECH G. The state of the art in corpus linguistics, in : English Corpus Linguistics, Aijmer K., Altenberg B., Longman, London, 1991, 829. LEECH G., BARNETT R., KAHREL P. Preliminary recommendations for the Syntactic Annotation of Corpora, Rap. tech., EAGLES (Expert Advisory Group on Language Engineering Standards), march 1996, CEE. LEECH G., BARNETT R., KAHREL P. Syntactic Annotation : Survey of Annotation Practices, Rap. tech., EAGLES (Expert Advisory Group on Language Engineering Standards), april 1995, CEE. LEECH G., GARSIDE R., ATWELL E. The automatic grammatical tagging of the LOB corpus, Newsletter of the International Computer Archive of Modern English, 7, 1983, 1333.
Bibliographie
241
LEECH G., GARSIDE R., BRYANT M. The large-scale grammatical tagging of text : experience with the British National Corpus, in : Corpus-based research into language, Ooostdijk N., de Haan P., Rodopi, Amsterdam, 1994, 4764. LIBERMAN M. Y. The Trend towards Statistical Models in Natural Language Processing, in : Natural Language and Speech, Klein E., F. Veltman, Springer-Verlag, 1991, 1-7. LIGOZAT G. Reprsentation des connaissances et linguistique, Armand Colin, Paris, 1994. MAINGUENEAU D. Lanalyse du discours : introduction aux lectures de larchive, Hachette, Paris, 1991. MAIR C. Changing patterns of complementation, and concomitant grammaticalisation, of the verb help in present-day british english, in : The verb in contemporary English. Theory and description, Aarts B., Meyer C. F., Cambridge University Press, Cambridge, 1995, 258271. MAIR C. Is see becoming a conjunction ? the study of grammaticalisation as a meeting ground for corpus linguistics and grammatical theory, in : Creating and using English language corpora, Fries U., Tottie G., Schneider P., Rodopi, Amsterdam, 1994, 127137. MARANDIN J.-M., CORI M. Grammaires darbres polychromes, TAL., 34, 1, 1993, 101132. MARANDIN J.-M. Analyseurs syntaxiques. Equivoques et problmes, TAL, 34, 1, 1993, 5 34. MARCHELLO-NIZIA C. Lvolution du franais : ordre des mots, dmonstratifs, accent tonique, Armand Colin, Paris, 1995. MARCUS M. P., HINDLE D., FLECK M. M. D-theory : Talking about talking about trees, in : ACL83, 1983, 129136. MARCUS M., SANTORINI B., MARCINKIEWICZ M. A. Building a large annotated corpus of english : The Penn Treebank, Computational Linguistics, 19, 2, 1993, 313330. MATHIEU-COLAS M. Les mots traits dunion. Problmes de lexicographie informatique, Paris, 1994. MCENERY T., WILSON A. Corpus Linguistics, Edinburgh University Press, Edinburgh, 1996. MCMAHON J. G., SMITH F. J. Improving statistical language model performance with automatically generated word hierarchies, Computational Linguistics, 22, 2, 1996, 217 247. MCNaught J. User needs for textual corpora in natural language processing, Literary and Linguistic Computing, 8, 9, 1993, 227234. MELCUK I. Paraphrase et lexique dans la thorie linguistique sens-texte, Lexique, 6, 1988, 1354. MELBY A. E-TIF : an electronic terminology interchange format, Computers and the Humanities, 29, 1995, 159166. MELIS-PUCHULU A. Les adjectifs dnominaux : des adjectifs de relation , Lexique, 10, 1991, 3360. MERIALDO B. Modles probabilistes et tiquetage automatique, TAL, 36, 1-2, 1995, 722. MERIALDO B. Tagging english text with a probabilistic model, Computational Linguistics, 20, 2, 1994, 155171. MILKHEEV A., FINCH S. P. A workbench for acquisition of ontological knowledge from natural language, in : Actes, 9th Knowledge Acquisition for Knowledge-Based Systems Workshop, Banff, 1995. MILLER G. A. Nouns in WordNet : A lexical inheritance system, in : Five Papers on WordNet, http://www.cogsci.princeton.edu/ wn/ (sept. 1997), 1993, 1025, revised version.
242
MILLER G. A., BECKWITH R., FELLBAUM C., GROSS D., MILLER K. J. Introduction to WordNet: An on-line lexical database, Journal of Lexicography, 3, 1990, 235244. MILLER G. A., BECKWITH R., FELLBAUM C., GROSS D., MILLER K. Introduction to WordNet : An on-line lexical database, in : Five Papers on WordNet, http://www.cogsci.princeton.edu/ wn/ (sept. 1997), 1993, 19, revised version. MILNER J.-C. Introduction une science du langage, Des Travaux, Seuil, Paris, 1e dn., 1989. MULLER C. Initiation aux mthodes de la statistique linguistique, Hachette, Paris, 1973. NEDERHOF M. J., KOSTER K. A customized grammar workbench, in : English language corpora : design, analysis and exploitation, Aarts J., de Haan P., Oostdijk N., Rodopi, Amsterdam, 1993, 163180. NEVALAINEN T. Diachronic issues in english adverb derivation, in : Creating and using English language corpora, Fries U., Tottie G., Schneider P., Rodopi, Amsterdam, 1994, 139147. NUNBERG G. The Linguistics of Punctuation, CSLI, Menlo Park, 1990. PAROUBEK P., ADDA G., MARIANI J., RAJMAN M. Les procdures de mesure automatique de laction GRACE pour lvaluation des assignateurs de parties du discours pour le franais, in : FRANCIL97, Avignon, 1997, 245252. PARTEE B. H., MEULEN A. T., WALL R. E. Mathematical models in linguistics, Kluwer Academic Publishers, 1990. PCHEUX M. Analyse automatique du discours, Dunod, Paris, 1969. PEREIRA F., TISHBY N., LEE L. Distributional clustering of english words, in : ACL93, Columbus, USA, 22-26 june 1993, 183190. PERY-WOODLEY M.-P. Quels corpus pour quels traitements automatiques ?, TAL, 36, 1-2, 1995, 213232. PERY-WOODLEY M.-P. Les crits dans lapprentissage : cls pour analyser les productions des apprenants, F References, Hachette, Paris, 1993. PETERS P. American and british influence in australian verb morphology, in : Creating and using English language corpora, Fries U., Tottie G., Schneider P., Rodopi, Amsterdam, 1994, 149158. PUJOL N. Corpora : lments pour un Guide Juridique, Rap. tech., Institut de Recherches Comparatives sur les Institutions et le Droit - CNRS, Ivry-sur-Seine, 1993. QUIRK R., GREENBAUM S., LEECH G., SVARTVIK J. A Comprehensive Grammar of the English Language, Longman, London, 1985. RAJMAN M. Approche probabiliste de lanalyse syntaxique, TAL, 36, 1-2, 1995, 157201. RAUMOLIN-BRUNBERG H. The position of adjectival modifiers in late middle english noun phrases, in : Creating and using English language corpora, Fries U., Tottie G., Schneider P., Rodopi, Amsterdam, 1994, 159168. REINERT M. Alceste, une mthodologie danalyse des donnes textuelles et une application : Aurlia de Grard de Nerval, Bull. de Mthod. Sociol., 26, 1990, 2454. RENOUF A. A word in time : first findings from the investigation of dynamic text, in : English language corpora : design, analysis and exploitation, Aarts J., de Haan P., Oostdijk N., Rodopi, Amsterdam, 1993, 279288. RESNIK P. Disambiguation noun groupings with respect to WordNet senses, in : Third Workshop on Very Large Corpora, Yarowsky D., Church K., Cambridge, USA, 1995, 54 68. RESNIK P. Using information content to evaluate semantic similarity in a taxonomy, in : IJCAI95, 1995.
Bibliographie
243
REY A., CHANTREAU S. Dictionnaire des expressions et locutions, Le Robert, Paris, 1979. RILOFF E. Little words can make a big difference for text classification, in : SIGIR, Seattle, USA, 1995, 130136. ROLE F. Le codage informatique des apparats critiques : valuation des recommandations de la Text Encoding Initiative, Cahiers Gutenberg, 24, juin 1996, 153165. RYCKMAN T. De la structure dune langue aux structures de linformation dans le discours et dans les sous-langages scientifiques, Langages, 99, 1990, 2128. SAGER N., FRIEDMAN C. (eds.) Medical Language Processing : Computer Management of Narrative Data, Addison-Wesley, Reading, 1987. SALEM A. Pratique des segments rpts : essai de statistique textuelle, Kliencksieck, Paris, 1987. SALTON G. Automatic Text Processing: The Transformation, Analysis and Retrieval of Information by Computer, Addison-Wesley, Reading, 1989. SAMPSON G. Susanne : a domesday book of english grammar, in : Corpus Based Research into Language, Oostdijk N., de Haan P., Rodopi, Amsterdam, 1994, 169187. SAPORTA G. Probabilits analyse des donnes et statistique, Technip, Paris, 1990. SCHMIED J. Analysing style variation in the east african corpus of english, in : Creating and using English language corpora, Fries U., Tottie G., Schneider P., Rodopi, Amsterdam, 1994, 167174. SILBERZTEIN M. Dictionnaires lectroniques et analyse automatique de textes. Le systme INTEX, Informatique linguistique, Masson, Paris, 1993. SIMARD M., FOSTER G., ISABELLE P. Using cognates to align sentences in bilingual corpora, in : Proc. of the Fourth International Conference on Theoretical and Methodological Issues in Machine Translation (TMI 92), Montreal, Canada, 1992. SIMONIN-GRUMBACH J. Pour une typologie des discours, in : Langue, discours, socit (pour Emile Benveniste), Seuil, Paris, 1975, 85121. SINCLAIR J. Preliminary recommendations on Corpus Typology, Rap. tech., EAGLES (Expert Advisory Group on Language Engineering Standards), may 1996, CEE. SINCLAIR J., HANKS P., FOX G., MOON R., STOCK P. (eds.): Collins COBUILD English Language Dictionary, Collins, Glasgow, 1987. SMADJA F. Retrieving collocations from text: Xtract, Computational Linguistics, 19, 1, 1993, 143177. SOUTER C. Towards a standard format for parsed corpora, in : English language corpora : design, analysis and exploitation, Aarts J., de Haan P., Oostdijk N., Rodopi, Amsterdam, 1993, 197212. SOUTER C., ATWELL E. Using parsed corpora : a review of current practice, in : Corpusbased research into language, Ooostdijk N., de Haan P., Rodopi, Amsterdam, no. 12 dans Language and computers : studies in practical linguistics, 1994, 143158. SRINIVASAN P. Thesaurus construction, in : Information Retrieval : Data Structures and Algorithms, Frakes W. B., Baeza-Yates R., Prentice Hall, New Jersey, 1992. STEIN A., SCHMID H. tiquetage morphologique de textes franais avec un arbre de dcision, TAL, 36, 1-2, 1995, 2336. SUEUR J.-P. Pour une grammaire du discours : laboration dune mthode; exemples dapplication, MOTS, 5, 1982, 145185. SUSSNA M. Word sense disambiguation for free-text indexing using a massive semantic network, in : Proceedings of the Second International Conference on Information and Knowledge Management, Bhargava B., Finin T., Yesha Y., ACM, 1993, 6774.
244
SVARTVIK J., EEG-OLOFSSON M., FORSHEDEN O., ORESTR B., THAVENIUS C. Survey of Spoken English, Lund University Press, Lund, 1982. TAPANAINEN P., JRVINEN T. Syntactic analysis of natural language using linguistic rules and corpus-based patterns, in : EACL95, Dublin, 1995. TODOROV T. M. Bakhtine, Le principe dialogique, Le Seuil, Paris, 1981. TZOUKERMANN E., RADEV D. R. Using word class for part-of-speech disambiguation, in : Fourth Workshop on Very Large Corpora, Ejerhed E., Dagan I., Copenhague, Danemark, 1996, 113. USHIODA A. Hierarchical clustering of words and application to nlp tasks, in : 4th Workshop on Very Large Corpora, Ejerhed E., Dagan I., Copenhague, Danemark, 1996, 2841. VAN HALTEREN H., DEN HEUVEL T. V. Linguistic exploitation of syntactic databases : the use of the Nijmegen Linguistic DataBase program, Rodopi, Amsterdam, 1990. VAN HALTEREN H., OOSTDIJK N. Towards a syntactic database : the TOSCA analysis system, in : English language corpora : design, analysis and exploitation, Aarts J., de Haan P., Oostdijk N., Rodopi, Amsterdam, 1993, 145162. VAN HERWIJNEN E. SGML pratique, International Thomson Publishing France, Paris, 1995. VAN DER LINDER E. J. Incremental processing and the hierarchical lexicon, Computational Linguistics, 18, 2, 1992, 218237. VRONIS J., IDE N. Word sense disambiguation with very large neural networks extracted from machine readable dictionaries, in : COLING90, Helsinki, Finlande, 1990, 389394. VERONIS J., KHOURI L. tiquetage grammatical multilingue : le projet MULTEXT, TAL, 36, 1-2, 1995, 233248. VIJAY-SHANKER K. Using descriptions of trees in a Tree Adjoining Grammar, Computational Linguistics, 18, 4, 1992, 482516. VOORHEES E. M. Query expansion using lexical-semantic relations, in : SIGIR94, 1994. VOSSEN P. Right or wrong : Combining lexical resources in the EuroWordNet project, in : EURALEX 96, Sude, 1996, tm. II, 715728. VOUTILAINEN A., HEIKKIL J. An english constraint grammar (ENGCG): a surface-syntactic parser of english, in : Creating and using English language corpora, Fries U., Tottie G., Schneider P., Rodopi, Amsterdam, 1994, 189200. WARNESSON I. Applied linguistics : optimization of semantic relations by data aggregation techniques, Applied Stochastic Models and Data Analysis, 1, 1985, 121141. WRIGHT S. In search of history : English language in the eighteenth century, in : English language corpora : design, analysis and exploitation, Aarts J., de Haan P., Oostdijk N., Rodopi, Amsterdam, 1993, 2539. WRIGHT S. The place of genre in corpus, in : Corpora across the centuries, Kyt M., Rissanen M., Wright S., Rodopi, Amsterdam, 1994, 101110. YAROWSKY D. Word-sense disambiguation using statistical models of Rogets categories trained on large corpora, in : COLING92, Nantes, 1992, p. 454460. ZWEIGENBAUM P. MENELAS: an access system for medical records using natural language, Computer Methods and Programs in Biomedicine, 45, 1994, 117120.
INDEX
Abeill, 18, 47, 53 accroissement du vocabulaire, 189 accroissements spcifiques, 205 acquisition de connaissances, 83, 92 acquisition des connaissances lexicales, 177 adjectif qualificatif, 90 relationnel, 90 Agirre, 82 AlethCat, 26, 30 alignement, 140 aligns (textes) Voir corpus dfinition, 137 ambigut, 6 morpho-syntaxique, 165 Amstrong, 211 analogie, 136 analyse des correspondances, 201 analyse du discours, 95 analyse multi-dimensionnelle, 37 analyse syntaxique, 105 partielle, 44 totale, 44 analyse syntaxique automatique ambigut, 45 descendante, 48 environnements informatiques, 69 montante, 48 niveaux d'annotation, 48 partielle, 62, 63 robuste, 47 sous-spcification, 46 Andr, 156 annotation jurisprudence, 158 smantique, 72 annot Voir corpus anti-dictionnaire, 109, 110, 117, 118 antonyme, 75, 77 antonymie, 91, 112 directe, 91 indirecte, 91 apprentissage analyse syntaxique, 65 arbor Voir corpus arbors (corpus) notations textuelles, 41 relations, 39 utilisation, 52 arbre, 39 description logique, 40 arbre hirarchique, 197 arbres squelettiques, 44 Archer, 6, 11, 123, 124, 125, 129, 133, 145, 147, 153, 211 archive Voir archive Assadi, 178, 180 Atkinson, 123 attestation, 105 Atwell, 45, 70 Authier-Revuz, 68 Bakhtine, 36 balisage, 154 Barkema, 54, 55, 56, 57, 67, 68, 69, 71, 138, 139, 146 base conceptuelle, 74, 77 de connaissances, 73 lexicale, 74 base lexicale lectronique, 84 informatise, 85 sur support lectronique, 86 basic level, 90 Basili, 82, 83, 91, 178, 180, 181 Bensch, 179, 180 Benveniste, 22, 36 Benzcri, 199 Bergounioux, 122 Biber, 7, 22, 23, 24, 25, 33, 35, 37, 123, 124, 125, 126, 129, 133, 147, 148, 149, 153, 213 bi-concordanciers, 140 bilingues (corpus) Voir aligns (textes) Birmingham (corpus de), 54, 56, 139, 146 bi-texte Voir aligns (textes) Black, 45, 46, 47, 70, 145, 150, 157, 158, 168, 170, 171, 172, 175, 176, 214 Blackwell, 161 Blanche-Benveniste, 7, 135 BNC, 2, 7, 11, 20, 133, 145, 147, 148, 156, 159, 166, 168, 211 Bouaud, 82, 152, 178, 179, 180 Bourigault, 63 Bourrigault, 178, 180 Brill, 2, 168, 211 Briscoe, 45, 176 Bronckart, 24 Brown, 2, 6, 8, 11, 50, 127, 145, 147, 153, 181, 211 Brown P., 141 bruit, 6 Burnard, 148 Calliope, 166 caractres dlimiteurs, 188 catgorie conceptuelle, 74, 78 smantique, 78 universelle, 80 catgorie smantique, 180
18
fine, 181 gnrale, 90, 91, 92 grossire, 180 catgories grammaticales, 186 catgories smantiques, 177 chanes de Markov, 166, 168 champ smantique, 178 Chanod, 17, 164, 165, 166, 167 Chantreau, 53 Charlet, 83 Charrette, 132 Church, 2, 5, 140, 141, 178, 179, 192 classe, 197 classe de mots, 177, 180 classe smantique, 179 classification, 180 classification ascendante hirarchique, 197 classification automatique, 179, 180 Classifications descendantes, 199 CLAWS, 17, 168 cl dindexation, 106 clef d'indexation, 117 COBUILD, 67 co-dtermination des sens, 113 collection Voir corpus Collins, 111 collocativit, 69 comptence, 134 compositionnalit, 69 concept, 74, 80 concepts dans WordNet, 86 concordances, 182 constituants (grammaires de), 40 contexte, 108 dfinition de, 177 documentaire, 104, 178 graphique, 104, 178 phrase, 104 significatif, 179 syntaxique, 178 contexte documentaire, 179 contextes, 182 contrainte de slection, 178 contrls (langages), 150 cooccurrence, 177 cooccurrences, 191 Corbin, 52 Cori, 39 corpus align, 8 annot, 2, 7 arbor, 2, 16, 38 archive Voir archive collection, 145 comparables, 145 de rfrence, 145, 148 de suivi, 126, 146 de taille moyenne, 181 de textes, 145 d'chantillons, 145 dfinition, 5, 145
La feuille de style ayant servi saisir ce document

disponibilit, 159 documentation, 156 enrichi, 2, 7 tiquet, 2 nu, 2, 7 oral, 7 parole, 7 problmes juridiques, 159 spcialis, 145 corpus de taille moyenne, 178 corpus linguistics, 3 corpus spcialis, 83, 180 corrlations, 184 Courtois, 162 cots annotation morpho-syntaxique, 168 annotation syntaxique, 172 enjeux, 161 couverture dsambigusation lexicale, 115 Cowie, 111, 119 Cutting, 2 Cyc, 80, 82 Daladier, 149, 150, 151 dfinition dictionnairique, 76 DELAC, 162 dlimiteur (caractres), 162 dendrogramme, 197 dnomination, 64 fonctionnement dnominatif, 64 dpendance grammaires de, 40 relation, 39 dpendance syntaxique, 178 dpendant, 48 dsambigusation, 6, 118 analyse syntaxique, 66 complte, 74 degr de, 74 tiquetage, 20 globale, 113 lexicale, 73, 80, 107 morpho-syntaxique, 166 smantique, 181 syntaxique, 169, 170 descripteur, 58 dictionnaire, 75, 81 de langue, 77 lectronique, 75 sous forme papier, 75, 84 sur support lectronique, 75, 84 Dictionnaire du Moyen Franais, 131 dilution de relation, 112 discours, 22, 36 distance, 197 dans un graphe, 119 dans un rseau, 111 mesure, 104 smantique, 108, 110, 179 vectorielle, 119, 179 distance du chi-deux, 196 distance smantique
246
partir de dfinitions, 110 distinction de domaine, 81 distinction de sens, 81 grossire, 81 homographique, 81 distinctions de sens, 74, 76 distribution, 179 DTD, 154 Dunlop, 157 Dupuis, 136 chantillonnage, 125, 129 El Bze, 165 lagage, 169 El-Bze, 165, 166, 168 embrayeurs, 22 ENCG, 40, 169, 171, 172 encodage de dictionnaire, 84 Enfants, 15, 18, 19, 21, 26, 32, 33, 35, 181, 190, 194, 198, 199, 200 Enfants, 73 ENGCG, 46, 48 Engwall, 146 enrichi Voir corpus quivalence relation de, 178 tiquetage, 14 ambigut, 20 comparaison, 34 dtournement, 33 environnements informatiques, 34 finalis, 32 intgral, 20, 26 manuel, 181 partiel, 20, 23 transformation, 26, 33 tiquetage smantique, 73 exemples, 73 tiquet Voir corpus tiqueteur, 20 tiquette smantique, 73 tiquettes, 186 EuroWordnet, 92 expansion Voir dpendant expansion de requtes, 107 expressions figes, 190 expressions figes ou semi-figes, 178 Eyes, 44 famille de sens, 81 FASTER, 62, 67 fentres de mots, 178 feuilles, 39 Fiala, 56, 162 Fidditch, 46, 47, 172 figement, 54, 69 filtrage, 35 des contextes, 179 filtrages, 192 Finch, 180 Finegan, 123, 124, 125, 126, 129, 133, 147
flexibilit Voir phrasologie (variation) flexibilit syntaxique, 69 formes chrono-homognes, 207 francophonie ressources, 211 Frantext, 2 Frei, 135 Fuchs, 3 Gale, 140, 141 Gaussier, 141 Gazdar, 5, 40, 53, 54 genres, 153 grammaires locales, 163 grammaires locales, 163 grammaires locales, 166 granularit de la description, 73, 115 graphe, 39 Grefenstette, 78, 94, 98, 99, 101, 102, 103, 104, 105, 117, 118, 119, 120, 177, 178, 179, 180, 211 Grishman, 117, 151, 178, 180 Gross, 38, 54, 151 Guha, 80 Guillet, 53 Guthrie, 76, 81, 108, 114 Habert, 12, 25, 26, 53, 56, 66, 71, 162, 196, 203 Halteren, 44, 46, 70, 171, 172 Hanks, 178, 179, 192 Hansard, 137, 139 Hansard, 145 Harris, 149, 150, 151, 152 Hatzivassiloglou, 117 Hearst, 177 Heikkila, 46, 48 Helsinki, 8, 11, 123, 125, 128, 129, 133, 147 Herdan, 183 Herzog, 116 Heuvel, 70 hirarchie, 78, 85, 90 conceptuelle, 80 lexicale, 81 profondeur, 113 Hindle, 46, 47, 117, 121, 172, 178, 179 histoire, 22, 36 Holmes, 184 homognisation, 161 HTML, 155 Humphrey, 83 hyponymie, 74, 89, 112, 177 et distance, 82 hyponymie et frquence, 99 ICE, 17 Ide, 76, 111, 119, 154, 156 identification, 183 implication, 91 indexation, 106, 118 infrence linguistique, 105 information mutuelle score d'association, 120, 121 Intelligence Artificielle, 74, 80 interprtation, 180 INTEX, 163
247
247
18

Mercer, 2, 5 Mrialdo, 166 mronymie, 90, 112 mesure de distance, 104 mthode des spcificits, 195, 202 mthodes de classification, 197 mthodes factorielles, 197, 201 Mikheev, 180 Miller, 84, 85, 86, 88, 89, 90 Milner, 4 Mitterrand1, 4, 7, 12, 15, 18, 19, 20, 45, 122, 182, 184, 185, 186, 188, 190, 205, 206, 208 modle hypergomtrique, 195 modlisation, 80 modifieur, 48 monitor corpus Voir corpus de suivi, Voir corpus de suivi motif Voir filtrage Muller, 183, 185 MULTEXT, 19 Nederhof, 69, 170 nettoyage, 161 Nevalainen, 133 Nimgue (corpus de), 56 niveau fondamental, 90 NLP Voir TALN noeud, 197 non-terminaux (noeuds), 39 normalisation, 153 norme, 185 norme de dpouillement, 185, 186 normes de dpouillement, 187 notion, 74 nu Voir corpus Nunberg, 163 occurrences, 6 ontologie, 79, 82 Oostdijk, 44, 46, 171, 172 paradigmatique, 103 description, 102 parallles (corpus) Voir aligns (textes) parent, 54, 108, 136, 141 Paroubek, 211 parsage, 6 parser Voir parseur parseur, 6 parsing Voir parsage Partee, 5 partition d'un corpus, 194 PASCAL, 68 patron, 182, Voir filtrage pattern-matching Voir filtrage Pcheux, 151 Penn Treebank, 11, 44, 46, 47, 70, 71, 159, 172, 175, 176 pertinence, 106 Pry-Woodley, 3, 9 phrase structure grammars Voir constituants phrasologie, 52 tudes linguistiques, 52 variation, 54 pistage, 69
IS-A, 74 Isabelle, 139, 140, 141, 142, 211 Jacquemin, 53, 57, 58, 62, 68, 213 jeux d'tiquettes diversit, 16 Justeson, 117, 179 Karlson, 147 Karlsson, 40, 47, 169, 172 Katz, 117, 179 Khouri, 17, 20 Kittredge, 151 Kleiber, 64 Koster, 69, 170 Kroch, 136 Kyt, 123, 124 Labb, 4, 12, 188, 192 Lafon, 178, 179, 192 l'analyse multi-dimensionnelle, 136 Lancaster/IBM Treebank, 11 langage artificiel, 3, 47 naturel Voir TALN Lang, 141 langue gnrale, 82 spcialise, 82, 177 langue de spcialit, 57 langue spcialise, 100 LDB, 70 LDOCE, 45, 70, 146 Le Monde, 126 Le Pesant, 151 Lebart, 12, 179, 183, 196, 199 Leech, 4, 41, 44, 48, 49, 51, 167, 168, 169, 210 lemmatisation, 117, 119 lemme, 6 lemmes, 188 Lenat, 80 lexique smantique, 80 Lexter, 63, 64, 65, 66, 67 LEXTER, 45, 67 Ligozat, 18, 21 Lindberg, 83 linguistique textuelle Voir typologie des textes LOB, 6, 8, 11, 22, 127, 145, 147, 211 locutions, 190 London-Lund, 11, 23 Longman Dictionary of Contemporary English, 82, 111, 115 MacKeown, 117 MacMahon, 180 Maingueneau, 151 Mair, 127, 128, 134 Marandin, 39, 176 Marchello-Nizia, 130, 131, 132, 134, 135, 136 Marcus, 40, 44, 50, 70, 144, 167, 172, 175 Mathieu-Colas, 162 Mel'cuk, 40, 48, 53 Mellish, 5 Menelas, 7, 12, 28, 58, 62, 65, 68, 97, 103, 149, 152, 159 projet, 80, 82, 83
248
polysmie, 80, 107 ponctuation, 163 pondration des analyses, 178 prcdence relation, 39 prcision, 6, 107 pr-terminaux (noeuds), 39 primitive ontologique, 80 quantification, 135, 183 quasi-segments, 191 Quirk, 3 Rajman, 170 rappel, 6, 107 Raumolin-Brunberg, 128, 129 recherche documentaire, 96, 106, 115 registres, 122, 123, 124, 127, 129, 130, 134, 153 relation hirarchique, 88 lexicale, 88 smantique, 88 relation de dpendance Voir contexte:syntaxique relationnels (adjectifs), 28, 31, 57 Renouf, 127, 162 reprsentativit Voir requte, 106 expansion de, 107 mots clefs, 106 requtes expansion de, 107 rseau de sens, 77 smantique, 74, 79 Resnik, 82, 111, 117, 120, 121 ressources lexicales, 72 rutilisabilit, 83 Rey, 53 Rigau, 82 Rogets thesaurus, 78, 79, 80, 81 Rollinger, 116 Ryckman, 151 Sager, 149, 150, 151 Salem, 12, 26, 179, 183, 196, 199, 203 Sampson, 4, 7, 11, 38, 50, 51, 176, 213 Saporta, 179, 197 Savitch, 179, 180 Schmid, 167 score dassociation, 120 segment rpt, 202 segmentation, 162, 183 dfinition, 162 smantique, 181 segments rpts, 190 smantique diffrentielle, 86, 91 distributionnelle, 78 smantique distributionnelle hypothse (de), 98 sens de mot, 73 sens de mots, 86 sries textuelles chronologiques, 205
SGML, 155 Shannon, 192 Silberztein, 53, 162, 163, 166 silence, 6 similarit, 104, 108, 118, 179 mesure de, 177, 179 rseau de, 179 Sinclair, 5, 7, 67, 213 skeleton parsing Voir analyse squelettique Smith, 180 SORTE-DE, 74, 80 sous-langages, 149 Souter, 45, 70 spcificit ngative, 195 spcificit positive, 195 Spriet, 165, 166, 168 statistique multidimensionnelle, 193 Stein, 167 Sterling, 117, 178, 180 structuration de dictionnaire, 85 structure de traits, 58 structure trait-valeur, 18, 20, 39 Sueur, 4, 24, 34 suivi (corpus de) Voir corpus Susanne, 6, 7, 10, 11, 16, 18, 19, 21, 38, 41, 44, 50, 51, 157, 159, 176 Sussna, 108, 109, 110, 111, 112, 113, 114, 115, 117, 118, 119, 120, 177, 181 symboliques (mthodes), 5 synonymes, 75, 77, 85, 86, 87 synonymie, 80, 87, 88, 107 liens de, 112 synset, 86, 87, 88, 89, 90, 91, 92 syntagmatique, 103 description, 102 tagger Voir tiqueteur TALN, 3 Tapanainen, 17, 164, 165, 166, 167 technique de bas niveau, 118 techniques de bas niveau, 102 TEI, 156, 157 terme, 57 terminaux (noeuds), 39 terminologie acquisition, 63 Tesnire, 40, 48 tte, 48, 65 The Guardian, 126, 127, 128 thesaurus, 77, 80, 81, 99, 177 sur support lectronque, 84 THIEF, 193 TLF, 193 Todorov, 36 TOSCA, 44, 46, 47, 170, 171, 172 tout-venant (texte), 47 trace, 69 TransSearch, 137, 140 treebank Voir arbors (corpus) Trsor de la Langue Franaise, 2, 122, 146, 193 troponymie, 91 type, 6
249
249
18
typologie, 199 typologie des textes, 14, 22 fonctionnelle, 22 situationnelle, 22 typologies situationnelles, 153 Tzoukermann, 17, 165, 166, 167, 168 Uitti, 132 UMLS, 83 unification (formalismes d'), 47 Unified Medical Language System, 83 unit de contexte, 192, 199 units polylexicales, 52, 162, 163, 166 van der Linden, 54 van Herwijnen, 155

variation terminologique, 57, 62, 68 Vronis, 17, 20, 76, 111, 119, 154, 156 Vijay-Shanker, 40 Voutilainen, 46, 48, 147 Warwick-Amstrong, 139, 140, 141, 142 WordNet, 73, 75, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 108, 109, 110, 111, 112, 113, 114, 115, 117, 119, 120, 181, 211 Wright, 123, 124, 125, 126 WWWebster Dictionary, 77 WWWebster Thesaurus, 78 Yarowsky, 78 Zweigenbaum, 12, 80
250
251
251
18
252
253
253
18
254

Fleury, Serge - Les Linguistiques de Corpus

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Fleury, Serge - Les Linguistiques de Corpus

Uploaded by

Copyright:

Available Formats

REMERCIEMENTS

1. LE REGAIN D'INTERET POUR LES CORPUS

Il s'agit de Brown University (USA).

2. QUOI SERVENT LES CORPUS ANNOTES ?

2.1 La linguistique descriptive anglo-saxonne et ses questions

2.2 Le changement de cap en TALN

5.1 Lcrit au travers de corpus enrichis de langues vivantes

5.2 Les corpus, les ressources et les recherches de langue anglaise

5.3 Un point de vue aux frontires de la linguistique

5.4 La diversit des publics concerns

6.1 Les corpus annots et leurs utilisations

6.2 Dimensions transversales

6.3 Mthodologies et techniques

7. PRINCIPAUX CORPUS CITES

pour la recherche universitaire.

7.1 Corpus anglais ou amricains

7.2 Corpus franais

LES CORPUS ANNOTES ET LEURS UTILISATIONS

LES CORPUS ETIQUETES

8.1.1.1 Enfants Les rponses fournies par les personnes interroges :

sont lemmatises et tiquetes (cf. 3.2) de la manire suivante :

Il est cod de la manire suivante par D. Labb (1990) :

Les corpus arbors

8.1.1.3 Susanne La phrase :

8.2 L'invitable parpillement des tiquetages

Les corpus arbors

8.3 Une reprsentation canonique

soit autour de cette information :

Les corpus arbors

ou lenrichissement des traits attachs un mot .

8.4 Types d'tiquetage

{mot=la, lemme=la, catgorie=nom}

Les corpus arbors

9. TIQUETAGE PARTIEL ET TYPOLOGIE DE TEXTES

9.1 Circularit des dmarches typologiques habituelles

9.2 Dgager les corrlations de traits linguistiques : D. Biber

Les corpus arbors

9.3 Gnralit des typologies induites

Les corpus arbors

10. TIQUETAGE INTEGRAL ET SOCIO-STYLISTIQUE

10.1 Reprer les catgories et les suites de catgories de diffrents locuteurs

10.2 Varier le jeu d'tiquettes selon les phnomnes observs

Si l'on prend la phrase suivante :

en faisant abstraction du lemme, aprs tiquetage et correction :

{forme=pas, catgorie=adverbe, type=ngation}

plusieurs transformations ont t utilises : la rduction aux parties du discours traditionnelles :

Les corpus arbors

ou encore en liminant le nom du trait retenu :

10.3 Une premire opposition : style nominal et style verbal

Les corpus arbors

10.4 Examen des patrons syntaxiques caractristiques de chaque type de locuteur

10.5 Prciser l'emploi des adjectifs : qualificatifs et relationnels

10.6 Evaluation et perspectives

Les corpus arbors

11. UTILISER ETIQUETEURS ET CORPUS ETIQUETES

11.1 Adapter l'tiquetage aux objectifs de recherche

Les corpus arbors

11.2 Environnements de catgorisation et de manipulation de texte tiquet

12. ENJEUX THEORIQUES

12.1 Le dit est le dire

Les corpus arbors

12.2 Linguistique et textualit

12.3 Analyses multi-dimensionnelles

Les corpus arbors