Professional Documents
Culture Documents
Ce livre doit beaucoup aux laboratoires dans lesquels nous avons travaill, l'quipe de Linguistique et Informatique (ELI) de l'cole Normale Suprieure de Fontenay/St Cloud (Equipe dAccueil 463), le Laboratoire d'Informatique de ParisNord (URA 1507 CNRS et Universit Paris 13), lUPRES SYLED (EA 2290 Universit Sorbonne nouvelle Paris 3) et l'UMR 9952 Lexicomtrie et Textes Politiques (CNRS INaLF et ENS de Fontenay/St Cloud). Nous remercions particulirement Christiane Marchello-Nizia (ELI), pour son appui chaleureux. Merci ceux qui ont complt notre documentation et notre information : Andre Borillo, Jacques Bouaud, Anne Daladier, Fernande Dupuis, Marc El-Bze, Fabrice Issac, Sylvain Kahane, Dominique Labb, Ludovic Lebart, Monique Lemieux, Elie Naulleau, Jean-Marie Marandin et Jean Vronis. Merci aussi Pierrette Habert et Serge Heiden pour leur soutien technique et leur conseils. Merci enfin nos collgues et proches qui nous ont relus avec une gnrosit vigilante : Sophie Aslanids, Didier Bourigault, Ccile Fabre, Serge Fleury, Helka Folch, Christian Jacquemin, Lucie Langlois, Isabelle Moulinier, Christiane MarchelloNizia, Sandrine Oriez, Marie-Paule Pry-Woodley et Pierre Zweigenbaum.
INTRODUCTION
Faut-il voir dans cet engouement actuel pour les corpus le retour aux dbuts de la linguistique structurale amricaine des annes cinquante ? Aprs l'accent chomskyen sur la formalisation et l'intuition du locuteur natif, la revanche de l'empirisme ? Le dcouragement serait de mise s'il y avait effectivement pitinement et ressassement. Or, l'tude des origines de ces travaux le montre, ce sont les discontinuits qui l'emportent, ainsi que la diversit, voire l'clatement, des horizons thoriques et des ralisations pratiques.
contrastes socio-linguistiques. Lexamen des corpus pose ensuite la question de l'articulation de la performance et de la comptence. Aux dires de G. Sampson (1994, p. 180) : la linguistique de corpus prend le langage comme elle le trouve. Le corpus Mitterrand1 (Labb, 1990, p. 95) prsent infra en 7.2.2 comprend par exemple l'nonc suivant : Moi, je suis de la France. Je ne dis pas : je suis la France. Je suis de la France. Toutes mes penses, toutes mes faons d'tre, toutes mes sensations, toutes mes vibrations, elles sont de la France6. Plusieurs des constructions qu'emploie ici F. Mitterrand paraissent nettement a-grammaticales. Il ne s'agit pourtant pas d'un lapsus mais d'un choix dlibr, comme le prouvent les reprises. Si, comme laffirme J.-C. Milner (1989, p. 55) : [...] l'activit grammaticale ne consiste pas enregistrer les donnes de langue ; elle consiste mettre sur ces donnes un jugement diffrentiel , c'est--dire isoler l'impossible de langue (ibid.), les linguistiques de corpus se trouvent confrontes un ventail de ralisations langagires qui remet en cause les distinctions tranches entre acceptable et non-acceptable. Troisimement, les corpus peuvent rassembler des noncs sur lesquels l'analyste n'est pas forcment mme de porter des jugements d'acceptabilit. C'est le cas par exemple pour des corpus de langues mortes (Ancien Franais, Anglais mdival, etc.). Mais cest aussi le cas pour des corpus de langues de spcialit, pour lesquels une partie des contraintes syntaxiques et smantiques restent opaques qui n'est pas du domaine . Lexamen des rgularits rencontres au sein du corpus est alors un moyen, parfois le seul, de reconstituer la grammaire sousjacente. Enfin, mme lorsqu'il s'agit d'un tat de langue correspondant la comptence langagire de l'analyste, un corpus permet dapprcier limportance relative des diffrentes ralisations. Certaines constructions, par exemple, sont extrmement frquentes, dautres rares ou exceptionnelles. On peut penser que de tels dcalages ne concernent pas vraiment la linguistique en tant que telle. Ce serait peut-tre la position de J.-C. Milner (1989, p. 34) : [...] toutes les questions que soulve la science du langage, dans toutes ses versions, sont des questions fines ; ds qu'elle dpasse la banalit, une proposition de linguistique concerne peu de donnes la fois et elle y fait apparatre gnralement ce que l'opinion courante tiendrait pour des dtails. . On peut aussi chercher articuler les rgles et le poids compar des diffrentes rgularits observes. Dans cette conception, les rgles ne sont pas toutes sur le mme plan : certaines sont centrales, dautres priphriques. Les rgles changent alors de statut. Cest une vision probabiliste de la grammaire (Sueur, 1982, p. 148-150).
sur des systmes de traitement fiables et efficaces. Deux causes sont gnralement avances. Tout d'abord, un systme de TALN a besoin de ressources (dictionnaires, grammaires) la fois trs vastes (en nombre d'entres lexicales et de rgles) et trs dtailles (concernant les conditions syntaxiques d'emploi des mots, par exemple). Les ressources actuelles sont notoirement insuffisantes, surtout en ce qui concerne la finesse de description. En second lieu, leur amlioration, semble-t-il, n'est ni uniquement ni mme principalement chercher dans des nouvelles tudes en chambre mais plutt dans l'observation des larges ensembles de donnes textuelles qui sont maintenant disponibles. Il sagit en fait dun changement profond de paradigme. Jusque l, lobjectif des recherches en TALN et en Intelligence Artificielle tait avant tout de modliser , de formaliser le savoir humain, de dgager les rgles sous-jacentes. Cest pourquoi les mthodes utilises en TALN taient alors largement symboliques , c'est--dire fondes prcisment sur des rgles8. M. Liberman (1991) rsumait ainsi le courant anti-empirique, anti-numrique et pro-symbolique des vingt dernires annes : Compter tait prcisment considr comme n'tant pas une tche approprie pour une personne de qualit. L'observation de donnes langagires en trs grande quantit et le traitement de flux d'informations aussi importants que ceux qui circulent aujourd'hui sur le rseau Internet conduisent inluctablement recourir des approches quantitatives ou marier approches symboliques et approches quantitatives. C'est donc un vritable changement de cap que nous assistons actuellement. Les enjeux industriels sont considrables. Ce n'est donc pas un hasard si les initiatives de constitution de corpus annots et de ressources langagires de grande taille ont reu dans le monde anglo-saxon des soutiens financiers importants, du secteur priv (dition), mais aussi de la puissance publique. La mise dans le domaine public de ces nouvelles ressources apparat comme la condition sine qua non pour que les chercheurs et les industriels puissent progresser efficacement partir de ces sources de connaissances. Dans la communaut du TALN, l'accent est mis sur les trs vastes ensembles de donnes textuelles (des centaines de millions de mots), l'objectif tant, comme le soulignent K. Church et R. Mercer (ibid., p. 1) : une couverture large (bien que peut-tre superficielle) de texte tout-venant, plutt qu'une analyse en profondeur de domaines (artificiellement) restreints. Ce sont des traitements automatiques du langage ancrs fortement dans des donnes attestes (data-intensive approach to language) qui sont viss.
3. CHOIX TERMINOLOGIQUES
Nous employons le mot corpus dans une acception assez restreinte emprunte J. Sinclair (1996, p. 4) : Un corpus est une collection de donnes langagires qui sont slectionnes et organises selon des critres linguistiques explicites pour
Deux signes, parmi bien d'autres, de cette prminence. A la fin des annes quatre-vingts, paraissaient deux sommes sur le TALN. La premire (Gazdar et Mellish, 1989) prsentait les formalismes d'unification et cartait dans l'introduction toute quantification : Comme tous ceux qui comptent les moutons le savent bien, compter est une tche parfaitement ennuyeuse. Mme les premiers ordinateurs comptaient vite et bien sans en mourir d'ennui . G. Gazdar et C. Mellish ajoutaient propos des index et concordances : Aujourd'hui de tels travaux continuent sous la rubrique 'linguistique, littrature et ordinateur' mais ne relvent plus de la linguistique computationnelle. B. Partee et ses collgues, dans leur vaste prsentation des modles mathmatiques pour la linguistique (1990), ne mentionnaient qu'une fois en 613 pages les modles statistiques et probabilistes ... pour dire qu'ils ne seraient pas abords.
8
servir d'chantillon du langage. Nous prcisons cette optique au chapitre VI. cette aune, nombre de ressources textuelles perdent cette dnomination. Il sagit souvent de collections ou de rassemblements de textes lectroniques plutt que de corpus proprement parler. Nous empruntons au qubecois le terme parsage (parsing) pour dsigner lanalyse syntaxique automatique et le mot parseur (parser) pour le programme qui effectue cette opration. En recherche d'information, la prcision reprsente la proportion de rponses pertinentes donnes par rapport au total des rponses extraites. Le rappel est la proportion des rponses pertinentes extraites par rapport au total des rponses pertinentes possibles. Le silence correspond alors les rponses pertinentes non extraites. Le bruit renvoie aux informations non pertinentes produites. Par difficult trouver une expression satisfaisante, nous parlons parfois dannotation manuelle, par opposition une annotation automatique, cest--dire effectue par un programme. Lannotation nest jamais vraiment manuelle : des programmes spcifiques ont pour objectif de faciliter le travail de la personne qui annote (lannotateur ou lanalyste) voire de vrifier partiellement la cohrence des informations quelle fournit. Inversement, lannotation automatique est souvent prcde ou suivie dinterventions humaines9. Annoter revient regrouper sous un mme chef, un mme type, des ralisations linguistiques distinctes, ses occurrences. Cest le lemme pour les flexions dun mot : grand pour grand, grands, grande, grandes. Il peut sagir dune classe plus abstraite. Les suites de mots le prsident de la rpublique et le livre des Rois sont deux occurrences du type syntagme nominal, tout comme je, ici et maintenant constituent trois occurrences du type embrayeur. Signalons enfin que nous employons souvent le mot ambigut pour des situations o un locuteur nen peroit pas. Le fait de dire que pomme de terre peut ventuellement tre ambigu dans Il sort les pommes de terre parat relativement raisonnable. Il nen va pas de mme pour Il prend les pommes de terre. Pourtant, les programmes de traitement ne disposent pas toujours des connaissances qui leur permettraient de choisir dans de tels cas. Il est dusage en TALN de parler dambigut pour ces situations. Cest cet usage que nous suivons. La dsambigusation consiste choisir entre un certain nombre de possibilits.
4. NOTATIONS
Les corpus et les ressources textuelles sont cits par leur nom seul10, sans dterminant, en gras italique. Nous parlons de Brown et non du corpus Brown ou du Brown, la fois pour limiter le retour du mot corpus, dj bien suffisamment l'honneur dans ces pages et pour viter de statuer sur l'adquation de la notion, telle que nous l'entendons, l'ensemble textuel considr. Les mentions des corpus, des ressources textuelles, des auteurs et des notions sont rassembles dans un mme index. Les termes techniques (avec ventuellement leur correspondant anglais entre parenthses11) sont dtachs en italiques lors de leur premire utilisation. Ils sont
chapitre VIII. Il s'agit souvent d'un acronyme (Susanne, Archer) ou du lieu ou de l'institution l'origine du corpus (Brown), ou d'un mlange des deux (LOB : London-Oslo-Bergen). 11 Sauf dans quelques cas bien spcifiques, comme parsage, nous cherchons viter les anglicismes.
9 Cf. 10
repris dans l'index. Les crochets servent isoler des suites de traits linguistiques, qui sont mis entre accolades : [{nom commun}{adjectif relationnel}] dsigne lenchanement dun nom commun et dun adjectif relationnel. Les exemples extraits de corpus et les sorties danalyseurs sont signals par un changement de police comme dans {adjectif relationnel}.
5. ORIENTATION DE LOUVRAGE
Devant la multiplicit des points de vue possibles sur cette conjoncture nouvelle et les travaux qui en sont issus, nous prcisons les parti-pris qui sont les ntres dans les pages qui suivent.
thesaurus. Cest le cas aussi des textes aligns, o lun des textes est la traduction de lautre. Aujourdhui, on ne dispose plus seulement de corpus annots pralablement, mais d'outils permettant de traiter de nouveaux textes et de constituer de nouveaux corpus enrichis. Ces outils d'annotation (tiqueteurs, analyseurs syntaxiques ...) retiennent aussi notre attention.
16
Nous distinguons l'anglais et l'amricain dans ce livre, dans la mesure prcisment o lexistence de corpus comparables comme LOB et Brown a permis des tudes contrastives sur ce point, comme (Mair, 1995).
6. DEMARCHE SUIVIE
L'ouvrage se divise en trois parties. Nous partons des corpus annots et des autres ressources textuelles disponibles. Nous abordons ensuite d'autres dimensions du travail sur corpus : l'tude du sens, celle de la diachronie, les textes aligns. Nous finissons par les problmes mthodologiques et techniques, plus abstraits pour les premiers, plus phmres pour les seconds. Les renvois bibliographiques, nombreux, tmoignent de l'intense activit de recherche et de dveloppement autour des corpus lectroniques. Ils comprennent des actes de confrence et mme des rapports techniques : la recherche est active dans ce domaine.
relles. Dans un deuxime temps, nous dveloppons quelques exemples de recherches linguistiques rendues possibles par ce niveau d'annotation et qui paraissent particulirement prometteuses. Par ces exemples, nous voulons montrer d'emble ce que peuvent apporter les diffrents niveaux d'annotation possibles d'un corpus, sans que les problmes techniques viennent troubler la perception des enjeux. Le chapitre III dcrit d'autres ressources textuelles importantes : les ressources lexicales sous forme lectronique.
Il a aussi servi de banc d'essai un certain nombre de mthodes dacquisition automatique ou assiste de terminologies scientifiques et techniques. Il a t tudi dans une perspective politologique (Labb, 1990). Il a t tudi au niveau des mots dans (Lebart et Salem, 1994). Une fois lemmatis, tiquet et corrig, il a t analys dans (Habert et Salem, 1995).
19 20
18
PREMIERE PARTIE
CHAPITRE I
Etiqueter un texte, c'est une forme dannotation dans laquelle on associe des segments de texte, le plus souvent les mots , une ou plusieurs tiquettes, le plus leur catgorie grammaticale voire leur lemme. Dans la premire section, nous donnons de brefs exemples de corpus tiquets et nous dfinissons les types d'tiquetage rencontrs. Un premier exemple d'utilisation de corpus tiquets (section 2) repose sur un tiquetage approfondi d'une partie seulement du corpus. Il vise mettre en vidence de manire inductive une typologie des textes sur la base des corrlations observes entre les traits linguistiques retenus. Un second exemple (section 3) fait appel un tiquetage complet mais fruste (la partie du discours et quelques renseignements morphologiques). Cet tiquetage permet de contraster les parlures qui coexistent dans le corpus tudi. Nous abordons en section 4 l'utilisation d'tiqueteurs ou de corpus tiquets et en section 5 les enjeux thoriques des recherches rendues possibles par ce niveau d'annotation.
8. DEFINITIONS
Commenons par trois brefs exemples, qui donnent un aperu de la diversit des tiquetages effectifs ... comme de leur manque de lisibilit et de clart.
16
PREMIERE PARTIE
8.1 Exemples
Chaque rponse commence par des renseignements sur linterview : son ge (en deuxime position aprs S01= : 1 renvoie infrieur 30 ans, 2 entre 30 et 50 ans, 3 au del de 60 ans) et son niveau d'tude (en premire position aprs S01= : 1 = sans, 2 = baccalaurat, 3 = tudes suprieures). Puis chaque mot, prcd de son lemme, est suivi de sa catgorie morphosyntaxique entre accolades (NOMMS = nom masculin singulier, par exemple). 8.1.1.2 Mitterrand1 Le fragment suivant est extrait de l'mission de TF1 a nous intresse, Monsieur le prsident du 2 mars 1986 :
[...] moi, je suis de la France - je ne dis pas : je suis la France - [...]
Le texte annot est constitu d'une srie de triplets comme suis,tre,11 : le mot, le lemme, la catgorie, reprsente par un nombre. Les trois informations sont spares par des virgules.
17
est reprsente ainsi : N01:0010b N01:0010c N01:0010d N01:0010e N01:0010f N01:0010g N01:0010h N01:0010i N01:0010j N01:0010k NP1m NP1s VVDv PPX1m PPHS1m VMd VV0v NP1f NP1s YF DAN MORGAN TOLD HIMSELF HE WOULD FORGET Ann Turner +. Dan Morgan tell himself he will forget Ann Turner [O[S[Nns:s Nns:s] [Vd Vd] [Nos:i Nos:i] [Fn:o[Nas:s Nas:s] [Vdc Vdc] [Nns:o Nns:o]Fn:o]S]
. . . . . . .
[Vd Vd]
Le texte est ici prsent sous la forme d'un tableau : un mot du texte de dpart correspond une ligne. Chaque ligne fournit une suite de champs. Ici pour la troisime ligne : N01:0010d VVDv TOLD tell
une rfrence : le nom du fichier dont provient cet extrait (N01) et un numro de ligne au sein de ce fichier : 0010d ; une indication d'dition : le tiret indique que le texte n'a pas t corrig cet endroit ; une catgorie : VVDv ; la forme flchie telle quon la rencontre dans le corpus : told ; le lemme correspondant : tell ; la structure syntaxique dans laquelle s'insre le mot22 : [Vd Vd] indique que ce mot est la tte d'un groupe verbal. Le point signale l'endroit o le mot et sa catgorie doivent s'insrer. C'est l'quivalent de [Vd [VVdv told]].
18
PREMIERE PARTIE
diversit tient lutilisation envisage du corpus mais aussi son mode dtiquetage (manuel ou automatique) ainsi qu labsence de consensus sur certains catgories ou sur leur extension. L'exprience montre qu'un groupe dannotateurs n'est pas forcment cohrent dans les tiquettes qu'il attribue manuellement un texte. Il en va de mme pour un mme individu au fil du temps. J. Vronis et L. Khouri soulignent (1995, p. 235) le fait que les jeux d'tiquettes ne sont gnralement pas comparables, ce qui retarde l'valuation ou la combinaison des tiqueteurs et des tiquetages. Pour reprendre Leech et ses collgues (1994, p. 51) : il n'y a pas de 'meilleur jeu d'tiquettes', [...] dans la pratique la plupart des jeux d'tiquettes constituent plutt des compromis entre la finesse de la description linguistique et ce qui peut tre attendu, pour des raisons pratiques, d'un systme automatique d'tiquetage23. On peut recourir un jeu d'tiquettes important pour pouvoir distinguer aisment certains cas d'ambigut, quitte se ramener un jeu plus restreint une fois l'tiquetage opr24. Inversement, sur certains points, le jeu d'tiquettes peut en rester des distinctions relativement grossires, parce qu'il s'avre difficile d'obtenir, sur des subdivisions plus fines, un consensus de la part des personnes dfinissant l'ensemble d'tiquettes utiliser (Greenbaum, 1993) ou parce que des catgories trop fines rendraient plus long et plus hasardeux le travail de correction manuelle des rsultats de l'tiquetage automatique. Greenbaum (ibid., p. 18) donne l'exemple de la distinction comptable / non comptable, importante pour les noms en grammaire anglaise, mais difficile tablir avec sret, a fortiori automatiser. Il propose alors de s'en tenir l'opposition, aisment dtectable, entre singulier et pluriel. charge pour ceux qui entendent prcisment tudier la dimension comptable / non comptable d'annoter en consquence leur corpus ! Par ailleurs, les jeux d'tiquettes correspondent aussi sur certains points des divergences thoriques relles. Il en va de mme de la projection des catgories, soulignent J. Vronis et L. Khouri (ibid., p. 237) : Mme si l'on est d'accord sur le jeu d'tiquettes, leurs extensions (c'est--dire l'ensemble des formes lexicales qu'elles couvrent) peuvent tre diffrentes. Le problme est particulirement aigu pour les catgories fermes, dterminants, pronoms, adjectifs indfinis, etc., o l'on rencontre de trs grosses diffrences d'apprciation dans les catgories, et ce dans la plupart des langues. Comme l'indiquent Greenbaum et Yibin (1994, p. 35) : l'identit des tiquettes [entre deux jeux] peut tre trompeuse, dans la mesure o l'assignation des tiquettes peut tre diffrente. Ils citent le cas de l'tiquette adverbe qui est conserve par ICE (International Corpus of English) pour les adverbes utiliss comme modifieurs de noms (then dans the then president) mais que l'tiqueteur CLAWS remplacerait par ltiquette adjectif. Dans les cas
23 J.-P. Chanod et P. Tapanainen (1995a) indiquent ainsi qu'ils ont ignor la distinction masculin / fminin en franais pour les noms et les adjectifs, dans la mesure o cette distinction suppose l'utilisation de contextes larges (une envie de soleil diffuse) et o finalement, pour leurs objectifs (reprage de l'accord sujet / verbe et ambigut nom / verbe), elle joue un rle mineur. 24 C'est la pratique d'E. Tzoukermann et de ses collgues (1995) avec des jeux de 253 et 67 tiquettes respectivement.
19
de conversion, c'est--dire de passage d'une catgorie une autre sans changements drivationnels, doit-on attribuer la catgorie de dpart ou celle d'arrive ? Comment catgoriser par exemple parler dans la squence le parler vrai : comme un infinitif ou comme un nom ?
Pour faciliter la rcupration d'un champ donn et la transmission des corpus, on doit passer de ces indications positionnelles une reprsentation logique, ce qui revient isoler chaque type d'information et lui donner un nom, soit avant cette information :
catgorie=verbe, lemme=tre, forme=tre
Cette dernire reprsentation, destine faciliter les changes et rutilisations de corpus, repose sur des normes de balisage prsentes au chapitre VI. Ces conventions rendent explicite une reprsentation canonique de l'tiquetage. Les informations associes un segment de texte peuvent en effet tre reprsentes par une structure dassociations trait-valeur du type de celles utilises par les formalismes syntaxiques contemporains25. Nous notons ces structures entre accolades, chaque trait tant spar par le signe = de sa valeur cet endroit et par une virgule du trait suivant. La ligne de Susanne donne supra, abstraction faite du champ notant lanalyse syntaxique, se note alors :
On se reportera (Abeill, 1993, p. 29-31) pour une prsentation gnrale de ces structures et (Ligozat, 1994, ch. 3 et ch. 5) pour un approfondissement formel.
25
20
{rfrence=N01:0010d, catgorie=VVDv, forme=told, lemme=tell}
PREMIERE PARTIE
et celle de Mitterrand1 :
suis,tre,11
se transcrit ainsi :
{forme=suis, lemme=tre, catgorie=11}
Comme les noms des traits sont fournis, on peut disposer les associations trait-valeur dans nimporte quel ordre. La version suivante de la ligne de de Mitterrand1 est strictement quivalente la prcdente :
{catgorie=11,forme=suis,lemme=tre}
Enfants ne fournit que la catgorie et le lemme, ct des indications sur le diplme et l'ge du locuteur. Ces indications pourraient tre ellesmmes ajoutes sous forme de traits attachs chaque mot. Elles seraient alors distribues au lieu d'tre mises en facteur, ce qui donnerait, en format vertical :
{diplme=baccalaurat, ge=60+, catgorie=DETDEF, forme=les, lemme=le} {diplme=baccalaurat, ge=60+, catgorie=NOMFP, forme=difficults, lemme=difficult}
De telles structures de traits sont ouvertes : il est toujours possible de rajouter des dimensions (par exemple des tiquettes smantiques). On peut galement enlever une partie des associations trait-valeur attaches un mot et simplifier par l-mme son tiquetage. On en verra un exemple dans la section 3. Susanne fournit un trait rfrence identifiant de manire unique le mot examin. Dans Mitterrand1, il faut connatre le fichier dont provient l'occurrence. Le soin apport par Susanne sur ce point peut paratre superflu. C'est pourtant en dfinitive sur cette identification univoque que repose la possibilit de vrifier les annotations portes sur un corpus ou les analyses qui en sont faites. Un autre chercheur peut se reporter exactement au bon endroit dans le texte de dpart, examiner un contexte plus large, etc. C'est donc la condition sine qua non d'un travail collectif. Si lon adopte cette reprsentation canonique, on constate que le trait catgorie est utilis diffremment selon les cas. Par exemple, pour le mot je, la valeur de ce trait est 5, cest--dire Pronom pour Mitterrand1 et PROPERS pour Enfants. Dans ce corpus, l'tiquette prcise donc, de manire relativement transparente, le type de pronom dont il s'agit. On peut alors expliciter les composants dune telle tiquette : {catgorie=pronom, type=personnel}. Il est frquent que les tiquettes d'un corpus ne soient pas atomiques mais complexes : on doit les dcomposer. C'est le cas pour Susanne, o VVDv est en fait une abrviation pour : {categorie=verbe, temps=pass}. Dvelopper ainsi les tiquettes complexes26 facilite llagage
Le projet europen MULTEXT de cration de ressources linguistiques informatises, monolingues et multilingues, et d'outils gnriques d'annotation et d'exploitation de
26
21
8.4.1 Etiquetage intgral ou partiel Dans les exemples que nous avons fournis, chaque mot fait lobjet dun tiquetage. On rencontre par ailleurs des textes tiquets partiellement : les renseignements attachs certains mots sont inexistants on incomplets. Il peut s'agir de limites purement techniques : l'tiqueteur utilis bute sur des mots inconnus , cest--dire absents des dictionnaires quil utilise ou que ne rsolvent pas les rgles morphologiques quil emploie. Ou bien, face un mot inconnu, ltiqueteur fait des propositions moins prcises que celles dclenches par les mots rpertoris dans les dictionnaires employs. L'tiquetage partiel peut aussi tre vis en tant que tel. Un sousensemble des mots du texte est jug pertinent pour la recherche envisage, il est donc tiquet, le reste est ignor. Par exemple, si l'on entend tudier la rpartition des marques de l'nonciation dans un corpus, on peut envisager un tiquetage limit aux mots retenus comme rvlateurs sur ce point : embrayeurs, certains adverbiaux, indications temporelles et aspectuelles des verbes ...
8.4.2 Une tiquette ou plusieurs tiquettes Un corpus tiquet n'est pas forcment totalement dsambigus , c'est--dire quun mot peut recevoir plusieurs tiquettes. Dans BNC, l'issue de l'tiquetage, demeurent un peu plus de 3 % de problmes non rsolus, d' ambiguts , reprsentes par des tiquettes composites (portmanteau tags27), comme nom_verbe, pour l'hsitation entre nom et verbe. Pour un fragment de l'exemple de Mitterrand1 fourni ci-dessus, un rsultat non dsambigus serait :
{mot=je, lemme=je, corpus (Vronis et Khouri, 1995) insiste sur la ncessit de distinguer les descriptions lexicales, c'est--dire l'ensemble des associations trait-valeur qui caractrisent chaque forme, et les tiquettes, le passage des premires aux secondes se faisant par traduction, toute description lexicale devant correspondre une tiquette au plus. 27 Littralement, des tiquettes-valises, sur le modle de portmanteau-word.
22
catgorie=pronom} {mot=suis, lemme=tre, catgorie=verbe} {mot=la, lemme=le, catgorie=dterminant} {mot=France, lemme=France, catgorie=nom} {mot=suis, lemme=suivre, catgorie=verbe} {mot=la, lemme=le, catgorie=pronom}
PREMIERE PARTIE
o figurent les deux verbes correspondant potentiellement la forme flchie suis : suivre et tre, tous deux lgitimes hors contexte, et les trois tiquettes possibles pour la28. La degr dtiquetage ncessaire une exprience sur un corpus dpend troitement des objectifs de la recherche envisage. Si l'on veut se servir d'un corpus tiquet pour extraire des suites de catgories syntaxiques, on peut tolrer un tel degr dambigut et trier a posteriori les rsultats. Par contre, si l'on souhaite tudier un phnomne massif (comme la dtermination) dans des gros corpus, on ne saurait se satisfaire d'un tiquetage qui laisse en suspens les choix (ici entre dterminant et pronom pour le, la, les ...).
8.4.3 Une vision large de l'tiquetage Etiqueter un segment de texte (un mot, mais aussi un groupe de mots, une phrase, un paragraphe, etc.), c'est, de manire gnrale, lui associer des informations arbitrairement complexes29. Ces informations peuvent se situer plusieurs niveaux de l'analyse linguistique : morphologie, syntaxe, smantique, pragmatique , sans se limiter d'ailleurs aux aspects linguistiques (comme le trait diplme utilis pour Enfants ou le trait rfrence de Susanne). Cette vision largie de l'tiquetage ne correspond cependant pas l'acception la plus rpandue. Quand on parle de corpus tiquet, en particulier dans la communaut TALN, on fait rfrence le plus souvent un document o chaque mot possde une tiquette morpho-syntaxique et une seule.
28 29
Dterminant, pronom et nom (dans lexpression : donner le la). Nous avons fourni des structures de traits plates. Rien n'empche d'employer des coindiciations (Ligozat, 1994) assurant des partages de valeurs (on y a recours au chapitre suivant), ou encore des structures arbitrairement enchsses qui regroupent des paquets de traits : DETMS est l'abrviation de {catgorie=dterminant, accord={genre=masculin, nombre=singulier}}, o le trait accord regroupe les traits de genre et nombre.
23
24
PREMIERE PARTIE
London-Lund et relvent de genres divers : articles de recherche, reportages, conversations, nouvelles radiophoniques ... Les traits tudis ressortissent 16 catgories distinctes comme marqueurs de temps et d'aspect, adverbes et locutions adverbiales de temps et de lieu, pronoms et pro-verbes, questions, passifs, modaux, coordination, ngation... Ils sont identifis automatiquement (en limitant au maximum la vrification manuelle)32. L'tiquetage mis en uvre par Biber s'loigne de l'tiquetage morphosyntaxique pratiqu en gnral. Il est partiel et partial. Il est inquitable : il s'intresse des fonctionnements linguistiques trs spcifiques qu'il analyse en dtail tandis qu'il en laisse d'autres dans l'ombre. Par exemple, il privilgie certains verbes (modaux) et certaines formes verbales (passif, prsent ...), mais ne traite pas systmatiquement lensemble des classes de verbes ni toutes les flexions verbales. La statistique multidimensionnelle 33 est mise contribution pour reprer les oppositions majeures entre associations de traits linguistiques. Elle rassemble les traits qui ont tendance apparatre ensemble. Elle constitue dans le mme temps les configurations de traits qui sont systmatiquement vits par ces rassemblements. Cette dmarche permet dobtenir des ples multiples, positifs et ngatifs, correspondant ces constellations positives et ngatives. Ces ples deux deux constituent des dimensions. Chaque texte, par son emploi des traits linguistiques tudis, se situe en un point dtermin de l'espace n dimensions dtermin par cette analyse. La typologie construite par D. Biber partir des rsultats de l'analyse factorielle sorganise autour de cinq dimensions. La premire oppose les textes qui se caractrisent par l'usage de do comme pro-verbe, celui de be comme verbe principal, le prsent, les dmonstratifs, les contractions du type don't, la premire et la deuxime personne du singulier, le pronom it aux textes qui favorisent les noms, les mots longs, des adjectifs attributs, les prpositions. Biber appelle cette premire dimension production implique versus production informationnelle34. Les autres dimensions sont nommes l'orientation narrative35 versus non narrative, la rfrence dpendante36 ou non de la situation d'nonciation, la vise persuasive apparente37 ou non, le style impersonnel38 ou non. Biber souligne que les dimensions proposes l'issue de l'interprtation des contrastes majeurs mis en vidence par l'analyse factorielle sont en fait des prototypes, des ples de fonctionnements textuels. Chacune des dimensions mises en vidence oppose deux ples, mais les textes concrets se situent en des points varis des chelles ainsi dfinies. A partir de ces cinq dimensions, en utilisant des techniques de classification automatique39, Biber aboutit huit types de textes, en
Ces traits et leur reprage sont dcrits en dtail dans (Biber, 1988, p. 211-245). Cf. chapitre IX. Involved versus informational production. Caractrise par le pass, la 3e personne, la ngation synthtique, les participes prsents. 36 Manifeste par les adverbiaux, en particulier de temps et de lieu. 37 Les traits privilgis comprennent les infinitifs, les modaux, les subordonnes conditionnelles. 38 Favorisant les passifs sans agent et les passifs avec by. 39 Cf. chapitre IX.
32 33 34 35
25
fonction de leur place sur chacune de ces dimensions : 1) Interaction interpersonnelle intime (intimate interpersonal interaction) ; 2) Interaction informationnelle (informational interaction) ; 3) Expos scientifique ( scientific exposition) ; 4) Expos savant (learned exposition) ; 5) Fiction narrative (imaginative fiction) ; 6) Rcit (general narrative exposition) ; 7) Reportage situ (situated reportage) ; 8) Argumentation implique (involved persuasion). Ces types ne correspondent pas forcment aux intuitions communes. C'est ainsi qu'on ne dbouche pas sur un type unique interaction ou dialogue, mais deux : l'interaction vise informationnelle et l'interaction vise interpersonnelle. De la mme manire, Biber distingue plusieurs types de textes expositifs et de textes narratifs.
26
PREMIERE PARTIE
de ces quatre organisations syndicales a pour objectif de dgager l'organisation d'ensemble de ces textes (ibid., p. 169-186). Un programme qui isole les mots qui sont significativement sur-employs dans une partie d'un corpus au regard de leur emploi dans le corpus entier44 est utilis pour valuer les phnomnes tudis. Ce programme dgage en mme temps les sous-emplois significatifs d'une partie au regard du tout45. Les convergences des sur-emplois et des sous-emplois permettent d'opposer (ibid., p. 175) une structure dite analytique, utilise par la CFDT et la CGT une structure dite dclarative, prfre par FO et la CFTC. Le premier type de rsolution sur-emploie en particulier le verbe tre la troisime personne de l'indicatif prsent, les modaux, les pronoms la premire personne du pluriel et les possessifs de mme personne, les pronoms de troisime personne. Le deuxime type sur-emploie les verbes dclaratifs (appelle, considre, estime, exige ...), ayant pour sujet le congrs ou le sigle (la CFTC), suivis d'une compltive en que. Une autre tude (Habert, 1983), consacre aux rsolutions gnrales des congrs de la CFTC de 1945 1964 et de la CFDT de 1965 197946, trouve une opposition similaire. D'un ct une rsolution circonstancielle , ancre dans le temps de l'nonciation : indications prcises de lieu, verbes d'affirmation ou d'interpellation. De l'autre une rsolution thorique qui s'affranchit de l'ici et maintenant de l'nonciation : prsent de vrit gnrale (avec les flexions d'tre et avoir), effacement de l'nonciateur, verbes modaux, marques d'articulation logique du discours, etc. Les rsolutions examines se situent entre ces deux ples, la rsolution thorique prenant le pas en 1945, moment d'affirmation du syndicalisme chrtien dans une France de l'aprs-guerre marque par le rle du Parti Communiste et de la CGT, et en 1970, 1973 et 1976 o la CFDT, aprs 1968, opte pour le socialisme autogestionnaire47. travers ces deux tudes, l'une sur une priode courte (5 ans), l'autre sur le moyen terme (34 ans), il semble que deux types de textes, au moins, soient disponibles pour permettre un acteur social de se situer dans le prsent, associs des postures distinctes. Les deux types de textes dgags pour le discours syndical, trs spcifiques, ne s'intgrent pas immdiatement dans ceux proposs par Biber, qui sont pourtant conus pour rendre compte dune grande diversit dnoncs. La question de la gnralit des typologies induites partir des comportements observes reste donc encore largement ouverte.
La prsentation de la technique probabiliste correspondante est effectue dans le chapitre IX. 45 Soulignons deux apports de ce programme. La simple lecture ne peroit qu'une partie limite des sur-emplois effectifs. Elle est bien en peine de juger s'ils sont significatifs ou non. Les sous-emplois, le creux d'une partie au regard de l'ensemble, chappent le plus souvent la conscience. Ils sont ici dgags. 46 La CFTC, centrale chrtienne, s'est transforme en 1964 en CFDT, une minorit constituant la CFTC maintenue . 47 L'volution rcente de la CFDT vers plus de pragmatisme s'accompagne d'ailleurs d'une utilisation en congrs de formes proches de celles de la rsolution circonstancielle.
44
27
28
PREMIERE PARTIE
que l'on peut reprsenter aussi, pour plus de clart , de la manire suivante :
<diplme=tudes-suprieures, ge=-30> {forme=je, catgorie=pronom, type=personnel} {forme=ne, catgorie=adverbe, type=ngation} {forme=sais, personne=1} [...] catgorie=verbe, mode=indicatif, temps=prsent, nombre=singulier,
l'limination des marques de personne, genre et nombre pour les noms et les adjectifs :
{diplme=tudes-suprieures, ge=-30} [...] {forme=les, catgorie=dterminant, type=dfini} {forme=gens, catgorie=nom} {forme=sont, catgorie=verbe, mode=indicatif, temps=prsent} {forme=gostes, catgorie=adjectif} [...]
l'ajout de la distinction entre adjectifs qualificatifs et adjectifs relationnels : Certains adjectifs sont en troite correspondance avec des noms. Leur
29
tude complte donc celle de la rpartition de cette catgorie majeure au sein du corpus. Ce sont les adjectifs relationnels. Rappelons leurs proprits (Melis-Puchulu, 1991). Ce sont des adjectifs dnominaux : ils peuvent tre mis en rapport avec des squences de + nom comme dans lection prsidentielle / lection du prsident. Ils ne sont pas gradables : *une carte trs gographique, et ne peuvent tre employes de manire prdicative : *cette carte est gographique. Dans une squence d'adjectifs post-poss, ils sont immdiatement aprs le nom, les adjectifs qualificatifs venant aprs : une lection prsidentielle surprenante / *une lection surprenante prsidentielle. L'opposition n'est pas une opposition de nature, mais d'emploi. Ainsi, certains adjectifs relationnels ont galement des emplois qualificatifs52 : *Cette politique est conomique / Cette formule est trs conomique. Le rsultat est ici :
{diplme=tudes-suprieures, ge=-30} [...] {forme=les, catgorie=dterminant, type=dfini} {forme=gens, catgorie=nom} {forme=sont, catgorie=verbe, mode=indicatif, temps=prsent, nombre=pluriel, personne=3} {forme=gostes, catgorie=adjectif, type=qualificatif} [...]
Ces transformations, une fois effectues, ont t soumises lanalyse quantitative les diffrentes versions tiquetes du texte rduites leurs seules tiquettes, ce qui donne pour l'tiquetage en parties du discours :
{diplme=tudes-suprieures, ge=-30} {catgorie=pronom} {catgorie=adverbe} {catgorie=verbe} {catgorie=adverbe} {catgorie=ponctuation} [...]
30
{adverbe} {ponctuation} [...]
PREMIERE PARTIE
Le programme d'analyse des sur-emplois et des sous-emplois voqu supra permet dopposer les locuteurs selon leur niveau d'tudes. Ce sont les tiquettes, pour chacun des jeux, qui sont soumises examen, mais aussi les suites d'tiquettes, les segments rpts53 constitus d'tiquettes. Une fois dgages les tendances d'emploi des tiquettes et de leurs enchanements, des outils de filtrage permettent dextraire dans les textes catgoriss les squences relevant des schmas syntaxiques retenus.
La rduction du corpus aux seules parties du discours fournit une premire approche de l'utilisation du matriel linguistique selon les types
53 L'utilisation de segments rpts de formes ou d'tiquettes est prsente dans le chapitre IX. 54 Ici comme dans les deux segments rpts suivants, il s'agit en fait de la virgule, dans son rle de coordonnant.
31
de locuteurs. Certains phnomnes se trouvent cependant crass par cette rduction : le sur-emploi significatif de la catgorie adverbe chez les non-diplms correspond dans prs de la moiti des cas (354 occurrences sur 653) des adverbes de ngation. C'est sont alors les rsultats obtenus avec un jeu d'tiquettes mi-chemin du jeu restreint des parties du discours et de celui, trop clat, fourni par l'tiqueteur AlethCat qui ont t examins. Il a sembl important de pouvoir disposer de soustypes des catgories majeures employes ( l'instar d'adverbe de ngation par rapport adverbe).
32
PREMIERE PARTIE
Les bacheliers sont caractriss par les enchanements de syntagmes prpositionnels, puisqu'on trouve des patrons comme : [{nom} {prposition} {article dfini} {nom} {prposition} {article dfini} {nom}] ou encore comme [{nom} {adjectif} {ponctuation faible} {nom} {prposition} {nom}]. Ce dernier patron est li des numrations nominales, non dtermines (cf. l'absence de dterminant aprs la ponctuation faible) comme dans la rponse : raison financire, situation de travail, peur de perdre son travail pour la femme qui s'absente pour raison de maternit. Les plus diplms privilgient nettement l'adjectif et une forme qui en est proche, le participe pass, en particulier dans des coordinations, dans des patrons rpts comme [{nom} {adjectif} {coordonnant} {adjectif}] ou [{adjectif} {ponctuation faible} {adjectif}].
33
linguistique par les diffrents ensembles de locuteurs : expression personnelle, modalisant la rponse faite, dominante ngative pour les sans-diplmes versus expression nominale, situe hors du ici et maintenant pour les diplms. Les bacheliers marquent une prfrence pour les syntagmes prpositionnels, les diplms du suprieur pour les adjectifs en particulier coordonns. Les locuteurs ayant fait des tudes suprieures font appel plutt aux adjectifs dnominaux qu'aux syntagmes prpositionnels pour modifier les noms, l'inverse des locuteurs ne possdant que le baccalaurat. S'agirait-il d'un phnomne d'hypercorrection, d'une manire d'viter le style substantif ? Cependant, bien d'autres interprtations pourraient tre produites pour les donnes constitues avec ces diffrents jeux d'tiquettes. Par exemple entre des rponses directes (baccalaurat et tudes suprieures) et des rponses diffres (sans-diplmes), o les formules comme je ne sais pas, etc., ressemblent aux items de retardement de la rponse mis en vidence en analyse de la conversation.
34
PREMIERE PARTIE
particulirement prcieuse dans une perspective typologique comme celle de Biber. Une catgorisation donne ainsi voir certains phnomnes et en ignore d'autres. Il faut donc multiplier les points de vue et tout le moins tre conscient des capacits heuristiques et des angles morts des jeux d'tiquettes auxquels on a recours. Les projets de comparaison et d'valuation d'tiqueteurs se dveloppent aujourd'hui (Paroubek et al., 1997). Ce qu'on peut en attendre, ce n'est certainement pas une mise en vidence de la meilleure catgorisation , ce qui na pas grand sens, mais lidentification des objectifs, points forts et faiblesses de chaque catgorisation et de ladquation de chacune aux projets de recherche envisags.
11.1.2 Un tiquetage peut tre dtourn Nous rencontrons avec les corpus tiquets une situation courante pour les corpus annots en gnral. L'annotation du corpus utilis ne correspond pas exactement la classification souhaite des donnes, aux phnomnes que l'on souhaite isoler, au regard thorique que l'on porte sur eux. Pire : pour diverses raisons (le plus souvent le manque de moyens financiers et humains), il n'est pas possible de r-tiqueter le corpus. Il s'agit alors de composer avec l'tat prsent de l'tiquetage, d'en tirer les informations qui se rapprochent de celles recherches. C'est cette dmarche que nous avons vue l'uvre dans les tudes typologiques sur le discours syndical : faute de disposer de corpus tiquets (il y a 15 ans, dans les limbes pour l'anglais et inexistants pour le franais), on tudie aussi prcisment que possible un ensemble dlimit de formes graphiques (de mots ), malgr le " bruit " introduit par l'utilisation de cette reprsentation sommaire. A l'inverse, si, dans le cas prsent, une telle dmarche typologique peut se satisfaire, pour un premier dgrossissage, de corpus bruts , cest-dire rduits des formes graphiques, elle gagne sans conteste utiliser des corpus tiquets de manire spcifique. L'cart entre les donnes utilises par ces diffrentes analyses et la plus ou moins grande immdiatet d'interprtation qui en rsulte dbouche nanmoins sur la ncessit plus gnrale de vrifier l'adquation possible (au prix de dtournements ventuels) entre les conventions d'annotation du corpus utilis et les objectifs de recherche viss.
11.1.3 Le r-tiquetage est incontournable L'cart entre les catgories associes un corpus dj catgoris ou fournies par un tiqueteur accessible et celles dont on peut avoir besoin pour une tude donne implique souvent une recatgorisation (partielle) du corpus. Nous avons montr comment, pour Enfants, l'ajout d'une
personne du singulier.
35
nouvelle distinction (adjectif qualificatif / relationnel) venait prciser une tiquette existante. Le r-tiquetage peut aussi conduire des rvisions plus drastiques, lorsque les choix de segmentation de dpart sont remis en cause (le choix des mots composs pertinents pour le corpus en cause) ou quand certains phnomnes sont traits diffremment (par exemple, rapide analys tantt comme un adjectif tantt comme un adverbe dans Prenons une rapide dcision). Le r-tiquetage total ou partiel peut aussi avoir comme vise l'alignement des rsultats de deux tiqueteurs sur un mme corpus, des fins de comparaison ou d'valuation (Atwell et al., 1994). Selon Belmore (1994, p. 52) : Une manire d'utiliser les corpus pour amliorer de manire cumulative les analyses consiste dterminer les diffrences exactes entre deux analyses d'un mme corpus. Dans l'idal, l'une des deux analyses partirait de la premire et reprsenterait alors un essai explicite d'amlioration.
11.2.1 Catgoriser On peut vouloir tiqueter, totalement ou partiellement, un texte nu . S'il s'agit d'utiliser un corpus dj tiquet ou les rsultats d'un tiqueteur disponible, la finesse des distinguos ncessaires pour des analyses proprement linguistiques suppose des programmes permettant de prciser l'tiquetage morpho-syntaxique accompagnant dsormais nombre de corpus. Elle implique aussi des modules de catgorisation interactive ou de modification interactive d'tiquetages pralables, certaines valeurs d'tiquettes ne pouvant pas tre attribues automatiquement59.
11.2.2 Manipuler des corpus tiquets Les programmes ncessaires ici permettent d'extraire du texte tiquet des motifs arbitrairement complexes. Les constituants de ces motifs sont,
Par exemple, la distinction entre dterminants dfinis spcifiques versus gnriques dans (Sueur, 1982).
59
36
PREMIERE PARTIE
ici encore, des structures de traits60. Le motif (ou patron) correspondra au fragment de texte pour lequel les structures de traits de ses composants s'apparient avec celles des lments correspondants du texte. On parle de filtrage (pattern-matching). Des oprateurs permettent la conjonction, la disjonction, l'optionalit, la rptition de ces contraintes, etc. Par exemple, le motif :
[{nom} {adjectif relationnel qualificatif/relationnel} {coordonnant} {adjectif relationnel qualificatif/relationnel}]
permet de chercher les noms suivis de deux adjectifs coordonns soit relationnels soit qualificatifs ou relationnels (c'est ce qu'indique la disjonction ). De tels environnements facilitent le ncessaire retour au contexte qui permet d'viter les commentaires oiseux de simples artefacts. Dans Enfants, par exemple, les rponses fournies par les plus diplms paraissent plus riches en squences du type : [{adjectif qualificatif} {nom}]. Ce rsultat attire l'attention : en franais moderne, l'antposition de l'adjectif est une construction de langue tenue. Dception : l'examen des squences relevant de ce patron montre qu'en fait, il s'agit souvent d'adjectifs modifiant un nom antpos. L'ambigut est due l'absence de marque de ponctuation entre les groupes nominaux dans des suites de formes comme : temps libre argent.
L encore, comme en 1.3, nous fournissons une reprsentation unifie des diffrentes possibilits effectives dans tel ou tel systme d'interrogation de texte tiquet.
37
38
PREMIERE PARTIE
postule l'existence d'un squelette syntaxique62 voire textuel. On fait l'hypothse de dpendances fonctionnelles entre des lments relevant de niveaux distincts de l'analyse linguistique. Avec le risque d'inventer des monstres langagiers sans existence relle. Les techniques d'analyses statistiques multi-dimensionnelles comme l'analyse factorielle des correspondances utilise par Biber ont prcisment pour objectif de manifester les corrlations effectives entre des variables multiples. Elles mettent en vidence des rgularits qui chappent l'observation l'il nu . Elles dbouchent sur des regroupements de comportements langagiers qui peuvent renouveler nos analyses des dpendances entre niveaux linguistiques63. Elles manifestent des oppositions qui restructurent notre catgorisation pralable des donnes.
62 Comme la proto-phrase donne comme sous-jacente aux rsolutions dclaratives (Bergounioux et al., 1982, p. 178) voques en 2.3 : considrant [...] le congrs [...] {verbe dclaratif 3me personne prsent} [...] que [...] {subjonctif} [...] {dterminant indfini}. 63 Pour poursuivre la mtaphore, notons que l'apport de ces mthodes a t considrable en classification des espces : elles ont permis d'amliorer les taxonomies existantes, limites dans leur capacit percevoir et organiser des corrlations multiples.
39
CHAPITRE II
Nous montrons dans une premire section les notations employes pour rendre compte des relations syntaxiques et nous rappelons la nature des phnomnes noter. Nous prsentons dans une deuxime section un corpus arbor, Susanne, qui reprsente une ralisation exemplaire par la finesse de lannotation produite et par la manire dont les choix effectus sont documents. La troisime section est consacre lutilisation de corpus arbors et de parseurs pour ltude de la phrasologie. La dernire section examine les enjeux thoriques de corpus arbors et les conditions pratiques de leur emploi.
40
PREMIERE PARTIE
He said this constituted a [very serious] misuse [of the [Criminal Court] processes].
Nous dfinissons les principales facettes des corpus arbors : les notations disponibles, la manire d'obtenir les analyses, les types d'analyses et d'analyseurs, les niveaux d'annotation syntaxique.
41
relations l'uvre. Une autre direction de travail consiste utiliser des descriptions logiques d'arbres, o l'on ne manipule ni des arbres ni des graphes, mais la conjonction logique des divers types de relations identifies entre les nuds. Elle est explore par Vijay-Shanker (1992), dans la ligne des travaux de M. Marcus (Marcus et al., 1983). Cette remise en cause de l'arbre comme mode fondamental de notation syntaxique n'est pas nouvelle65. Elle peut plus profondment renvoyer au choix entre grammaires de constituants et grammaires de dpendances.
13.1.2 Grammaires de constituants et grammaires de dpendance On trouve dans Tesnire les prolgomnes des grammaires de dpendance. I. Mel'cuk, qui s'inscrit dans cette ligne, contraste (1988, p. 12-42) les grammaires de dpendance avec les grammaires de constituants (phrase structure grammars). Les grammaires de constituants mettent au premier plan l'inclusion d'un segment dans une catgorie syntagmatique et des segments d'un type dans des segments de niveau suprieur (deux constituants sont ou bien enchsss ou bien disjoints). La plupart des nuds y sont non-terminaux. Les nuds d'un niveau donn sont ordonns linairement. Les relations de domination sont entre constituants et non pas entre mots. Les grammaires de dpendance rvlent les liens hirarchiques entre mots. Tous les nuds sont terminaux. Ils ne suivent pas forcment un ordre linaire. Un arbre de dpendance du type [V sont reus [N [N Pierre][Coord et][N Jacques]] ne contient aucune information directe concernant l'ordre linaire des mots dans l'nonc, qui peut se raliser sous la forme Pierre et Jacques sont reus comme sous la forme Sont reus Pierre et Jacques. Ce sont les grammaires de constituants qui sont majoritairement employes pour les corpus annots syntaxiquement. La langue traite peut expliquer le choix fait. Les grammaires de constituants semblent mieux adaptes aux langues ordre des mots relativement contraint et aux syntagmes nettement identifiables, comme l'anglais66. Les grammaires de dpendance conviennent davantage aux langues o l'ordre des mots est plus libre (le finnois, par exemple). Contribuent sans doute galement cette prpondrance le poids des travaux proprement linguistiques qui relvent de cette tradition mais aussi le fait que la technologie des parseurs pour les langages informatiques fait aussi appel aux grammaires hors contexte. Les grammaires de dpendance offrent cependant l'avantage de faciliter l'utilisation des relations hirarchiques entre mots d'un nonc. Si l'on veut dgager les cadres de souscatgorisation des verbes, par exemple, cette approche permet un
On trouve dans le modle GPSG (Gazdar et al., 1985) la volont de dcoupler dans les rgles hors contexte la relation de dominance et l'ordre linaire, cest--dire la prcdence. 66 Toutefois, le parseur ENCG - English Constraint Grammar (Karlsson et al., 1995), cre des structures de dpendance pour l'anglais. (Karlsson, 1994, p. 130-142) fournit plusieurs exemples de rsultats comments (extraits d'un manuel informatique, d'Alice au pays des merveilles et d'une encyclopdie). Inversement, certains formalismes cherchent rendre compte des variations dordre des mots dans le cadre des grammaires de constituants.
65
42
PREMIERE PARTIE
13.1.3 Notations textuelles Puisque les arbres constituent la notation prpondrante, nous continuons parler de corpus arbors. Le stockage d'arbres pour leur traitement informatique suppose de passer d'une reprsentation dans le plan une reprsentation textuelle essentiellement linaire : elle figure par l'enchssement la relation de dpendance et par la succession la relation de prcdence. Des dispositifs annexes permettent de dpasser les limites des arbres. Il s'agit gnralement d'indices attachs aux nuds et de renvois ces indices pour exprimer les autres relations. Le format de prsentation des corpus arbors varie. Il peut tre horizontal : c'est le cas de cet exemple67 emprunt la banque d'arbres d'IBM France :
[N Ce_DEDEMMS guide_NCOMS N][V [P leur_PPCA6MP P] permet V_VINIP3 [P de_PREPD [Vi se_PPRE6MP familiariser_VPRN [P avec_PREP [N les_DARDFP oprations_NCOFP [P de_PREPD [N rseau_NCOMS [A local_AJQMS A] N] P][A effectues_VTRPSFP [P par_PREP [N les_DARDMP utilisateurs_NCOMP N] P] A] N] P] Vi] P ] V] ._.
L'tiquette du constituant est souvent fournie deux fois : au dbut et la fin du groupe en cause, probablement pour faciliter le reprage visuel des groupes et des frontires. Les enchssements font apparatre une hirarchie, dont lindentation, plaant les constituants de mme niveau une mme distance de la marge gauche, facilite la perception :
[N Ce_DEDEMMS guide_NCOMS N] [V [P leur_PPCA6MP P] permet V_VINIP3 [P de_PREPD [Vi se_PPRE6MP familiariser_VPRN [...]
Il peut galement tre vertical. On distingue comme dans Susanne formes, tiquettes de mots, parties d'arbres. Pour l'exemple choisi :
67
Ce guide leur permet. de se familiariser avec les oprations de rseau local effectues par les utilisateurs ._.
DEDEMMS NCOMS PPCA6MP V_VINIP3 PREPD PPRE6MP VPRN PREP DARDFP NCOFP PREPD NCOMS AJQMS VTRPSFP PREP DARDMP NCOMP
. . . [P . [Vi . . [P . [N . . [P . [N . [A . A] N] P] [A . [P . [N . . N] P] A] N] P] Vi] P ] V]
[N N] [V [P P]
43
V P Vi P N P N A N P A P N
DEDEMMS NCOMS PPCAGMP V-VINIP3 PREPD PPRDGMP VPRN PREP DARDFP NCOFP PREPD NCOMS AJQMS VTRPSFP PREP DARDMP NCOMP
Le oprateurs
guide de
leur rseau
se par
familiariser les
Le mot figure en premire colonne, sa catgorie en seconde. La troisime colonne fournit une partie de l'arbre syntaxique : le point y marque l'insertion du sous-groupe constitu de la catgorie et du mot. Les deux premires lignes correspondent ainsi au sous-arbre [N [DDEMMS Ce][NCOMS guide] N]. Ces deux prsentations, verticale et horizontale, correspondent l'arbre donn dans la figure ci-contre68 (nous le simplifions en omettant les catgories pr-terminales).
46
PREMIERE PARTIE
peut correspondre aussi au fait de ne s'intresser qu'aux composants d'une certaine nature syntaxique. C'est ainsi qu'en terminologie automatise, les extracteurs de groupes nominaux se concentrent sur ces syntagmes, o figurent les dnominations polylexicales du domaine. Dans la phrase suivante de Mitterrand169 : le Louvre , libr du le70 ministre des les finances , cela reprsente un immense palais , le plus grand muse du le monde un kilomtre sept cent si vous voulez en faire le tour imaginez la fatigue des les pieds des les visiteurs : il faut que les uvres d' art soient quand mme la porte de ceux qui veulent se dplacer , sont retenus par LEXTER (cf. 3.4), partir de la version lemmatise, les groupes nominaux suivants :
[SN [SAdj [Adj immense]][SN [Nom palais]]] [SN [SAdj [Adj grand]][SN [SN [Nom muse]][SP [Prep de][SN [Det [Art le]][SN [Nom monde]]]]]] [SN [SN [Nom fatigue]][SP [Prep de][SN [Det [Art le]][SN [SN [Nom pied]][SP [Prep de][SN [Det [Art le]][SN [Nom visiteur]]]]]]]] [SN [SN [Nom uvre]][SP [Prep de][SN [/Nom art]]]]
Une analyse partielle peut enfin avoir pour but de produire une version simplifie de la phrase, en laissant de ct des composants ou des parties de composants conus comme secondaires. Par exemple, le parseur peut extraire l'association sujet verbe complment d'objet, et ignorer les complments circonstanciels, si l'objectif est d'tudier la souscatgorisation des verbes, leurs cadres syntaxiques et leurs arguments typiques.
13.3.2 Une seule analyse ou plusieurs Le rsultat peut fournir, pour un segment donn, une seule analyse ou plusieurs. On distingue deux types d'ambiguts. Ambiguts relles : un locuteur ne pourrait pas trancher. Hors contexte, par exemple, il est difficile de savoir comment analyser tat de lart abstrait (Cette thse commence par un [tat de lart] abstrait / Ce critique dart prsente ltat de l[art abstrait]). Ambiguts techniques : le savoir dont dispose le parseur n'est pas suffisant pour choisir entre des possibles71, mais un locuteur n'a pas de difficults le faire, en fonction de ses connaissances gnrales ou au vu du contexte72. C'est le cas des rattachements prpositionnels et
Emission de TF1 a nous intresse, Monsieur le Prsident, du 28 avril 1985. Dans le pr-traitement, les contractions prposition + article dfini (aux, du, des) sont dcomposes pour faciliter les oprations ultrieures. 71 T. Briscoe (1994, p. 99) donne l'exemple de la dfinition de youth hostel (A hostel for usu. young people walking around country areas on holiday for which they pay small amounts of money to the youth hostels association or to the international yha) dans le Longman Dictionary of Contemporary English (LDOCE). Le parseur inclus dans Alvey Natural Language Tools, avec un dictionnaire de 20 000 entres, a produit plus de 2 500 analyses. Voir (Souter et Atwell, 1994, p. 151) pour un autre exemple d'analyse ambigu. 72 l'inverse, un annotateur confront des phrases isoles peut se trouver dans l'incapacit de trancher (Black et al., 1993, p. 40).
69 70
Ressources lexicales
47
adjectivaux. Dans l'expression traitement du langage naturel, s'il ne dispose pas dans son lexique de l'expression langage naturel, un analyseur peut ne pas savoir s'il faut rattacher naturel traitement ou langage. Voici, titre d'exemple, les pourcentages d'ambigut obtenus par le systme TOSCA sur un corpus d'1,5 million de mots de prose anglaise contemporaine (Halteren et Oostdijk, 1993, p. 155) : Nombre danalyses diffrentes 1 2 3-5 6-10 11-20 21-100 > 100 fiction 22 % 15 % 17 % 15 % 10 % 15 % 6% non-fiction 20 % 15 % 19 % 15 % 12 % 16 % 3%
Ces chiffres donnent une ide des difficults rencontres en analyse syntaxique automatique.
13.3.3 Sous-spcification Il est possible de laisser une analyse sous-spcifie, c'est--dire incomplte sur un point donn. Cela revient limiter artificiellement l'ambigut, en la laissant implicite. Par exemple, les attachements prpositionnels ou adjectivaux, souvent difficiles effectuer automatiquement, peuvent tre " laisss en suspens " pour permettre une post-dition spcifique. Le parseur ENGCG (Voutilainen et Heikkila, 1994, p. 190) dans fat butcher's wife, indique juste que fat s'attache un nom droite sans dcider s'il s'agit de butcher (la femme du gros boucher) ou de wife (la grosse femme du boucher) et n'effectue pas non plus les rattachements des adverbiaux, notoirement dlicats. C'est encore le cas du parseur Fidditch (Hindle, 1994) dans Penn Treebank qui ne rattache pas les groupes dont il ne peut pas dterminer avec certitude le rle dans une structure de plus haut niveau (cf. chapitre VIII). Cela peut aboutir fournir pour une phrase une suite d'arbres non relis entre eux. Dans certains cas, des nuds sont laisss sans tiquette quand leur dlimitation est claire, mais pas leur catgorie (Black et al., 1993, p. 19).
48
PREMIERE PARTIE
analyse descendante ou montante. Certains formalismes syntaxiques contemporains comme LFG, HPSG, les grammaires d'arbres adjoints (Abeill, 1993) ou comme le modle Gouvernement et Liage ont donn lieu la ralisation de parseurs. Toutefois, ces analyseurs sont avant tout destins tester le traitement par ces formalismes de phnomnes linguistiques complexes (dpendances distance, etc.). S'ils visent avoir la couverture la plus large possible, il faut entendre cet objectif comme la capacit traiter un un la plupart des problmes syntaxiques d'une langue et non comme la capacit traiter l'enchevtrement de ces problmes dans des phrases authentiques longues et complexes, qui peuvent mme violer certaines rgles grammaticales. Les parseurs de ces obdiences ne semblent pas dans l'immdiat utilisables sur de vastes corpus73. notre connaissance, il n'existe d'ailleurs pas de corpus annot selon leurs principes. Par opposition aux parseurs avant tout destins tester des formalismes syntaxiques raffins, l'objectif des analyseurs qui sont voqus dans ce chapitre est le parsage robuste. Il s'agit, pour reprendre les critres74 de F. Karlsson (1994, p. 122), de pouvoir analyser, sans se bloquer, du texte tout-venant , (en fournissant ventuellement des rsultats partiels), d'aboutir un taux satisfaisant d'analyses correctes75 (i.e. o les mots sont domins par une tiquette syntaxique unique et adquate) et de ne pas aboutir des rsultats aberrants pour des phrases de longueur et de complexit raisonnable . D. Hindle (1994, p. 105) rejoint cette caractrisation. Il insiste en outre sur le fait que le parseur doit toujours produire quelque chose , mme sur un nonc non grammatical. Il tient, mais c'est un point qui ne fait pas l'unanimit, ce qu'un rsultat et un seul soit retourn pour une phrase donne. Il souhaite enfin que le parseur permette une amlioration incrmentale. Les langages artificiels (langages de programmation, langages de reprsentation de connaissances) sont conus a priori pour viter toute ambigut : quand un programme est excut, son comportement, un moment donn de son excution, avec des donnes dtermines, doit tre univoque. L'ambigut est au contraire centrale pour les langues naturelles. Elle est souvent ressentie comme une difficult pour les traitements automatiques. Beaucoup de parseurs pour les langues naturelles ont pour vise la production de l'ensemble des analyses possibles. Ce peut tre le cas au niveau de la phrase dans son ensemble, comme dans le systme TOSCA. Ce peut tre aussi le cas en analyse partielle. Certains analyseurs, en revanche, visent ne fournir qu'une seule analyse. C'est le cas de Fidditch (Hindle, 1994), utilis pour Penn Treebank. Cette deuxime possibilit, l'vidence, facilite la production de gros volumes de texte arbor, puisque le post-traitement manuel n'a pas trier parmi les possibles. Lobjectif dune ou de plusieurs analyses compltes pour du texte toutCertains chercheurs pensent mme que ces modles avant tout thoriques sont de peu de profit pour dvelopper des analyseurs utilisables, au contraire des grandes grammaires descriptives (Black et al., 1993, p. 77). 74 Nous ne reprenons pas son exigence de rapidit, pour des raisons expliques au chapitre VIII. 75 F. Karlsson (ibid.) cite l'objectif, qui parat extrmement ambitieux de 90 % d'analyses justes. Cf. les pourcentages d'ambigut fournis en 1.3.2.
73
Ressources lexicales
49
venant est encore loin dtre ralisable. Les parseurs capables de produire des rsultats partiels sont donc ncessaires, ce qui favorise les analyseurs montants. Les analyseurs montants (bottom-up) regroupent progressivement des structures de niveau de plus en plus lev, les analyseurs descendants (top-down) suivent une approche inverse : des niveaux suprieurs vers les mots. Les premiers sont plus appropris que les seconds pour fournir des rsultats partiels : en quelque sorte, ils savent s'arrter en chemin, en produisant des groupes qui ne sont pas forcment tous relis, mais qui peuvent dj tre utiliss.
13.5.1.2 tiquetage des constituants C'est la reprsentation fournie plus haut (dans cet exemple, seules les tiquettes des nuds pr-terminaux sont plus complexes). On appelle parsage squelettique (skeleton parsing) le fait de s'en tenir ces deux niveaux, voire au premier seul. Ce dgrossissage syntaxique , qui peut tre effectu manuellement relativement faible cot, peut suffire certaines analyses automatiques ultrieures (recherche de cadres de sous-catgorisation) ou servir de base d'entranement un analyseur probabiliste (cf. chapitre VIII). 13.5.1.3 Indication des relations de dpendance Elle fournit les liens entre les gouverneurs (Tesnire ou Mel'cuk) ou ttes et leurs dpendants 77. Leur notation se fait par des flches. Ces liens relient uniquement des mots, la diffrence des grammaires de constituants, o les ensembles relis peuvent correspondre aussi bien des mots qu' des groupes de mots. Nous empruntons les notations du parseur ENGCG (Voutilainen et Heikkila, 1994) pour illustrer cette approche sur notre exemple (> indique que la tte est droite, la premire des deux catgories suivant larrobas,
76 D'autres informations sont distingues pour un corpus d'oral transcrit et les caractristiques syntaxiques propres l'oral : ritrations, faux dmarrages, etc. Nous ne les prsentons pas, puisque nous avons fait le choix de ne traiter que les corpus d'crit. 77 Nous suivons ici la terminologie de (Melcuk, 1988, p. 23). La dnomination dpendant y est prfre celle de modifieur, parce qu'elle est plus gnrique.
50
PREMIERE PARTIE
@, renvoie au mot examin, la seconde au mot tte) : Ce guide leur permet [...] @DN> @NV2> @PV>
@DN> signifie que Ce est un Dterminant dpendant du premier Nom droite (si c'tait le deuxime, la notation serait @DN2>). Une autre notation, indique dans (Leech et al., 1996, p. 26) assortit chaque mot d'un numro d'ordre sa gauche et ventuellement droite du numro de la tte dont il dpend : 1 2 3 4 [...] Ce guide leur permet D N P V 2 4 4
permet
ce qui correspond :
guide Le
leur
Le mot 1 (Ce) dpend du mot 2, qui, comme le mot 3, dpend du mot 4. Ce dernier, qui est la tte , ne dpend de rien. Il est encore possible (ibid., p. 27) de reprsenter un graphe de dpendance par une expression parenthse o chaque parenthse ouvrante est suivie d'une tte, puis des dpendants de celle-ci, et ce de manire rcursive78 :
[V permet [N guide [D Ce]][P leur][...]
13.5.1.4 Indication des relations fonctionnelles Il s'agit de noter les fonctions comme sujet, objet direct, objet indirect etc. :
[N <Sujet> Ce_DEDEMMS guide_NCOMS N][V [P <ObjetIndirect> leur_PPCA6MP P] permet V_VINIP3 [...] ._.
13.5.1.5 Classification plus fine des syntagmes Elle peut tre assure par un systme de traits : [N{genre=masc, nombre=sing} Ce_DEDEMMS guide_NCOMS N][V{mode=indicatif, temps=prsent, personne=3} [P{nombre=plur} leur_PPCA6MP P] permet V_VINIP3 [...] ._. 13.5.1.6 Relations " logiques " ou profondes Il s'agit d'indiquer les liens de co-rfrence, de rassembler les constituants discontinus. Dans le cas prsent, un indice (entre chevrons) peut manifester la corfrence entre leur et le sujet implicite (explicit par
78
51
Ces constituants vides peuvent servir ensuite faciliter le reprage des relations prdicat / arguments dans les phrases (Marcus et al., 1993, p. 321). 13.5.1.7 Information sur le rang d'une unit syntaxique Le niveau d'enchssement des constituants est ajout (il peut le plus souvent tre calcul en fonction du niveau de parenthsage).
52
PREMIERE PARTIE
aussi exhaustive que possible (pratiquement tous les niveaux dfinis supra y sont reprsents) (ibid. p. 170) : son but (comparable celui de la taxonomie de Linn au dix-huitime sicle dans le domaine de la botanique) n'est pas d'identifier les catgories qui sont optimales sur le plan thorique ou qui refltent ncessairement l'organisation psychologique de la comptence linguistique des locuteurs, mais simplement d'offrir un schma de catgories et des faons de les utiliser qui rende ais aux chercheurs en TALN l'enregistrement systmatique et sans ambigut de l'usage rel, sans malentendus sur des emplois locaux d'une terminologie analytique. En ce sens, Susanne, qui rsulte d'une annotation entirement humaine, explore les limites de l'annotation syntaxique. Nombre des annotations que ce corpus fournit ne pourraient pas tre ajoutes automatiquement d'autres corpus, au moins dans l'immdiat. En disposer, de faon exprimentale et sur un corpus de taille rduite, permet cependant d'valuer l'intrt de chacune d'entre elles pour les recherches, tant linguistiques que computationnelles.
79
Ressources lexicales
53
:s indique la fonction sujet, :o la fonction objet de l'infinitive (Ti) pour le verbe wanted. Le fantme s123 indique la position logique du sujet de surface John. L'indice 123 tablit le lien entre la ralisation de surface et le fantme . Les conventions de notation des tiquettes des nuds permettent de distinguer les tiquettes pr-terminales, celles des syntagmes, celles des propositions et celles des units racines .
54
PREMIERE PARTIE
dictionnaires sur support papier82. O faire figurer champignon atomique, sous l'entre champignon ou sous atomique ? Le rattachement champignon parat naturel, toutefois, cest bien dnergie nuclaire quil sagit, et on souhaiterait maintenir ce lien. O faire entrer la vole ? Ces locutions sont dailleurs soumises dformation (la ralisation originelle goulet dtranglement est concurrence par goulot dtranglement), mais si les dictionnaires dconseillent certaines variantes, ils ne rpertorient pas pour autant toutes les variantes effectives. Ensuite, on voit souvent dans ces squences la partie image , mtaphorique de la langue, comme le souligne A. Rey (Rey et Chantreau, 1979, p. I-XIII), ce qui conduit alors privilgier une tude de l'origine et de l'volution de ces squences et peut-tre sous-estimer leur place dans la langue courante : un dictionnaire de locutions, s'il n'est pas un simple recueil de traductions, ne peut tre qu'historique (ibid., p. XII). Enfin, les limites de l'ensemble considr sont floues, et variables les critres qui permettent de dire qu'une squence fonctionne comme un mot compos . Si l'on considre verre vin comme un nom compos, faut-il en faire de mme de toutes les squences similaires : verre cognac, verre apritif, verre kyr ... ? La matrise de ces mots en plusieurs mots est pourtant essentielle dans l'apprentissage d'une langue. Ils s'avrent en effet souvent opaques dans la phase de comprhension et causes d'hsitations dans la phase de production. C'est pourquoi Mel'cuk leur donne une place centrale dans son Dictionnaire Explicatif et Combinatoire du Franais. Ses fonctions lexicales (Melcuk, 1988) visent mettre au jour les ralisations lexicales les plus probables des mots pour exprimer une modification smantique donne. Le degr fort se dit ainsi chaudes larmes quand il s'agit de pleurer et tout rompre quand le verbe est applaudir. Depuis une quinzaine d'annes, la phrasologie suscite un renouveau d'intrt en linguistique ainsi qu'en TALN. Dans la ligne logique des tudes menes sur les possibilits combinatoires des mots simples, qui soulignaient les multiples restrictions existantes (Guillet, 1990), les tudes du LADL ont montr l'importance des mots composs . Elles ont abouti en particulier un dictionnaire lectronique des mots composs en franais (Silberztein, 1993). Ce dictionnaire constitue un inventaire extrmement pouss des expressions, sur le plan quantitatif, mais aussi sur le plan qualitatif. Chaque entre est assortie de la description de ses variantes possibles. En TALN, l'volution des formalismes vers la lexicalisation, c'est--dire la rduction des rgles gnrales au profit de rgles rendant compte des particularits d'emploi des mots sinon un par un, du moins par classes rduites, s'est accompagne d'un renouveau des tudes et des propositions de traitement des expressions dites figes83. L'tude des units polylexicales a conduit un certain nombre d'auteurs (Gazdar et al., 1985 ; Abeill, 1993 ; Habert et Jacquemin 1995) postuler que ces units relvent des rgles gnrales de la grammaire, mais
82 Il n'en va bien sr pas de mme pour un dictionnaire lectronique. Les fonctions de recherche permettent de sparer l'entre concerne et les points d'accs. 83 Cf. (Abeill, 1993) pour une prsentation sur ce point dans trois formalismes contemporains.
Ressources lexicales
55
qu'elles obissent des contraintes supplmentaires84, et qu'en particulier elles sont moins flexibles que les syntagmes libres de mme catgorie : par exemple, on ne peut dire en conservant le mme sens #champignon trs atomique85 ou #champignon atomique et dangereux, etc. Dans la logique de cette approche, on peut examiner une squence qui constitue ventuellement une unit polylexicale, tudier les transformations syntaxiques dont elle est passible, et en tirer un constat global sur le degr de figement de cette squence. L'hypothse est que, plus une squence est fige, c'est--dire moins elle accepte de transformations syntaxiques, plus il y a de chances qu'il s'agisse d'une unit polylexicale. C'est l'hypothse dfendue par G. Gross (1988). L'apport des corpus ce double renouveau porte sur deux points. En premier lieu, tant donn une expression juge contrainte quant ses possibilits de transformation, les corpus permettent de chercher si ses ralisations effectives confirment ce jugement. C'est ce que nous examinons en 3.2 et en 3.3 pour des expressions de la langue gnrale et des termes techniques, respectivement. Deuximement, l'ensemble des units polylexicales est par dfinition ouvert. C'est par ce biais notamment que s'enrichit le lexique, en particulier dans les domaines techniques et scientifiques. Lobservation des corpus sert alors accrotre le lexique des expressions. C'est ce que nous montrons pour les langages de spcialit en 3.4.
15.2.1 Les variations en corpus d'expressions toutes faites Pour effectuer le reprage de telles variations, Barkema (1994) recherche les occurrences dexpressions courantes et les suites de mots qui en sont proches dans un vaste corpus, celui de Birmingham, qui rassemble 20 millions de mots. Ce corpus fournit par exemple 111 occurrences
(Barkema, 1993) s'inscrit dans la mme vision de hirarchies de contraintes, tout comme, dans un autre cadre (van der Linden, 1992). 85 Comme dans (Gazdar et al., 1985) et (Barkema, 1994, p. 42, note 8), le # signale que la squence en cause est grammaticale mais qu'elle ne peut pas tre interprte idiomatiquement . Elle pourrait dnoter un champignon fortement irradi et ne peut pas renvoyer au nuage caractristique d'une explosion atomique.
84
56
PREMIERE PARTIE
inchanges de l'expression cold war86 (guerre froide) ainsi que les 13 exemples suivants qui en constituent des variations : 1 renewed Cold War 2 the melting Cold War 3 the world Cold War 4 continuing, ever-present 'cold' war 5 the Cold War won by Europeans who 'destalinized' Eastern Europe 6 the cold war which threatened to divide the world into two ideological armed camps 7 a not-so-cold war against Kaddafi 8 the awkward cold war thought up by the American paranoids, who should be back in the law offices of middlewestern towns 9 a period of cold and hot civil war which ended with Hitler's invasion of Austria 10 a kind of cold civil war 11 the cold war that existed between the two giants, the United States and ... 12 the Cold War in Washington 13 the cold war between the Nature Conservancy Council and the farmers Barkema rpartit variations et emplois non modifis selon le schma syntaxique auquel ils obissent : occurrences et numros [{dterminant} cold war] 111 occ. [{dterminant} {adjectif} cold war] 3 occ. (1, 2, 4) [{dterminant} cold war {proposition}] 2 occ. (6, 11) [{dterminant} cold war {syntagme prpositionnel} 2 occ. (12, 13) [{dterminant} cold war {participe pass}] 1 occ. (5) [{dterminant} {adjectif} cold war {participe pass}] 1 occ. (8) [{dterminant} Adv cold war {syntagme prpositionnel}] 1 occ. (7) [{dterminant} {nom} cold war} 1 occ. (3) [{dterminant} cold {adjectif} war} 1 occ. (10) [{dterminant} cold {coordonnant} {adjectif} {adjectif} war 1 occ. (9) {proposition}] Schma
15.2.2 " Mesurer " la flexibilit Aprs cette premire tape de recueil, Barkema se fixe pour objectif d'valuer, et mme de mesurer la flexibilit observe. Les variations effectives de la squence dans un corpus jug reprsentatif sont-elles prvisibles ? Au contraire, sont-elles plus importantes ou moins
86
L'tude prcise de cette squence s'inscrit dans une recherche plus vaste : l'examen des variations de 450 expressions dans le mme corpus (Barkema, 1993).
Ressources lexicales
57
importantes que ce quoi on pouvait s'attendre ? Lhypothse sous-jacente est que la flexibilit dpend au premier chef du schma syntaxique de dpart de la squence examine. Pour pouvoir porter un jugement sur ces variantes observes, c'est--dire dterminer si cold war est aussi flexible qu'on pourrait s'y attendre, il faut d'abord caractriser la flexibilit effective du schma sous jacent : [{adjectif} {nom}]. Barkema utilise alors le corpus de Nimgue (130 000 mots), entirement arbor et qui contient 16 183 syntagmes nominaux relevant de 1 736 patrons syntaxiques distincts. Il compte le nombre d'occurrences du schma [{adjectif} {nom}], avec un adjectif absolu et un {nom commun singulier} ainsi que le nombre d'occurrences des variantes syntaxiques de ce schma (dont le passage au pluriel). Il compare alors la frquence obtenue pour une variation de cold war relevant d'un patron donn avec la frquence attendue. La frquence attendue dune telle variation sobtient en multipliant le nombre total doccurrences de cold war et de ses variations par le nombre de fois o le patron de cette variation se ralise dans les syntagmes libres87 par rapport au nombre doccurrences du schma dont relve cold war et de ses variations au sein des syntagmes libres. Dans les 16 183 syntagmes nominaux du corpus de Nimgue, 1 257 relvent du schma [{adjectif absolu} {nom commun singulier}], et 3 171 de ce schma et de ses variantes syntaxiques. On s'attendrait alors trouver 49,15 occurrences du schma de base ((111 + 13) x (1 257 / 3 171)), alors qu'on en trouve 111 : la ralisation au singulier cold war est notablement plus frquente que prvu, ce qui signifie aussi que cold war prsente moins de variations que le schma syntaxique dont elle relve ne le permet. L'examen des carts entre les frquences attendues et les frquences observes souligne le fait que la post-modification de cold war par un syntagme prpositionnel est moins frquente qu'on ne s'y attendrait. Il en va de mme de la ralisation au pluriel (0 rencontre, 24,64 occurrences attendues).
15.2.3 valuation L'approche de Barkema pourrait tre amliore. Dans l'idal, il faudrait pouvoir oprer sur le corpus de Birmingham qui a servi extraire les variantes de cold war. Malheureusement, ce vaste corpus n'est pas muni de structures syntaxiques. Comme Barkema le souligne lui-mme, il faudrait pouvoir calculer le poids de chaque ralisation syntaxique d'un schma fondamental sur le mme corpus que celui utilis pour extraire les variations d'expressions relevant de ce schma. En effet, rien ne dit que la flexibilit des syntagmes libres ou celle des expressions toutes faites soit la mme dans tous les registres. On sait par exemple que l'crit journalistique contemporain franais fait souvent appel des locutions qui sont dtournes : par exemple ce titre de Libration du 20 mars 1989 aprs les lections municipales Coup d'tat de grce (Fiala et Habert,
87
58
PREMIERE PARTIE
1989, p. 91). D'autres registres, comme le discours juridique, sont peuttre plus conservateurs quant la phrasologie qu'ils vhiculent. Ne disposant pas de corpus arbor de taille suffisante pour pouvoir y observer des phnomnes de flexibilit, Barkema, par la force des choses, en est rduit peser les variations effectives avec une balance rgle sur d'autres donnes langagires, le corpus de Nimgue, ce qui constitue un biais dont on ne peut pas mesurer les consquences dans limmdiat. Barkema cherche caractriser la flexibilit du schma de base dont relve une expression donne. Une partie des recherches actuelles en syntaxe met l'accent sur les contraintes lexicales gouvernant l'application des rgles syntaxiques. Tout adjectif par exemple n'accepte pas la totalit des rgles de formation des groupes adjectivaux ni ne rentre dans toutes les places syntaxiques possibles (antpos / post-pos / aprs copule). Nous avons vu au chapitre I les restrictions propres aux adjectifs relationnels : construction copulative et adverbe de degr sont impossibles. Les adjectifs de couleur prsentent d'autres particularits. Barkema examine simplement les variations du patron [{adjectif absolu} {nom commun singulier}]. C'est sans doute une caractrisation encore trop grossire88. Cependant, s'il parat ncessaire d'utiliser des catgories plus fines, c'est accrotre en amont la difficult de disposer d'un corpus la fois suffisamment vaste et tiquet avec suffisamment de finesse.
88
Bien qu'il postule que : [...] en principe, les expressions libres acceptent l'application de toutes les rgles (et sont donc totalement flexibles) (ibid., p. 44), Barkema montre d'ailleurs quelque inquitude sur ce point et souhaite vrifier pour des expressions libres comme the old man ou the bird in the garden si les variations effectives de ces expressions correspondent bien au profil de variations attendues.
59
L'objectif est dinventorier les variations en corpus des termes dun domaine. On parle aussi de mots-cls ou de descripteurs quand ces lments sont utiliss en informatique documentaire pour indexer des documents. Certains de ces descripteurs sont des mots simples (comme paradigme en linguistique). La plupart sont des mots complexes (comme axe paradigmatique en linguistique). Ce sont les descripteurs complexes qui sont retenus. Dans loptique retenue par Jacquemin, les termes complexes ne sont pas reprsents comme des simples suites de mots, mais directement comme des arbres syntaxiques aussi profonds et aussi larges que souhait. Les relations de dpendance entre les composants sont donc directement indiques. En outre, les nuds de ces arbres sont dcors de traits galement aussi complexes que ncessaire. Ces nuds permettent d'assortir les arbres de fines contraintes de bonne formation. Ainsi, pour Menelas, le descripteur fonction ventriculaire gauche89 est reprsent de la manire suivante90 : SN
genre = < 1 >, nombre = < 2 >
Adj
genre = < 1 >, nombre = < 2 >, lemme = ventriculaire, forme = ventriculaire
Adj
genre = < 1 >, nombre = < 2 >, lemme = gauche, forme = gauche
La reprsentation choisie souligne la dpendance de gauche par rapport ventriculaire et non fonction. On constate par ailleurs que le nombre de fonction est spcifi : ce doit tre le singulier, si bien que la squence fonctions ventriculaires gauches ne saurait correspondre une variation de ce descripteur, puisqu'elle viole l'indication fournie pour le nombre. Les indices entre chevrons indiquent un partage de valeur, ici du genre et du nombre entre la tte et ses modifieurs adjectivaux, ainsi qu'avec les constituants qui les dominent.
L'tat fonctionnel du ventricule gauche est crucial en cardiologie. Le ventricule droit ne revt pas la mme importance. Fonction ventriculaire droite n'est d'ailleurs pas un motcl du domaine. 90 Dans cet arbre, nous avons laiss comme tiquette du noeud la catgorie du constituant. Nous aurions aussi pu la reprsenter comme un trait aditionnel : {catgorie=SN...}.
89
60
PREMIERE PARTIE
15.3.2 Engendrer des variantes possibles de termes Une des variations possibles dun terme de structure [SN Nom [Sadj [Sadj Adj] Adj]] est la modification du syntagme adjectival par un nouvel adjectif gauche ou droite. Pour le terme choisi, cela signifie quil est a priori possible den rencontrer la modification suivante :
[SN [Nom fonction][SAdj [Adj x][Sadj [Sadj [Adj ventriculaire]] [Adj gauche]]]
ou bien encore :
[SN [Nom fonction][SAdj [Sadj [Sadj [Adj ventriculaire]] [Adj gauche]][Adj x]]]
o x peut tre remplac par un adjectif quelconque. Les squences correspondantes sont fonction x ventriculaire gauche et fonction ventriculaire gauche x, dans lesquelles x doit tre un adjectif. Des mta-rgles servent alors stipuler les transformations que peuvent ventuellement connatre les descripteurs. Elles prennent en entre un arbre dcrivant un descripteur et produisent en sortie un autre arbre reprsentant une variation possible de ce descripteur. La mta-rgle suivante :
Ressources lexicales SN
genre = < 1 >, nombre = < 2 >
61
Adj
genre = < 1 >, nombre = < 2 >, lemme = < 5 >, forme = < 6 >
Adj
genre = < 1 >, nombre = < 2 >, lemme = < 7 >, forme = < 8 >
SN
genre = < 1 >, nombre = < 2 >
genre = < 1 >, nombre = < 2 >, lemme = < 9 >, forme = < 10 >
Adj
Adj
genre = < 1 >, nombre = < 2 >, lemme = < 5 >, forme = < 6 >
Adj
genre = < 1 >, nombre = < 2 >, lemme = < 7 >, forme = < 8 >
applique l'arbre reprsentant le descripteur fonction ventriculaire gauche produit l'arbre suivant :
62
PREMIERE PARTIE
SN
genre = < 1 >, nombre = < 2 >
genre = < 1 >, nombre = < 2 >, lemme = < 9 >, forme = < 10 >
Adj
Adj
genre = < 1 >, nombre = < 2 >, lemme = ventriculaire, forme = ventriculaire
Adj
genre = < 1 >, nombre = < 2 >, lemme = gauche, forme = gauche
Cet arbre correspond l'interposition possible d'un adjectif entre fonction et ventriculaire gauche. Cet adjectif doit saccorder avec fonction. Cest le rle des indices entre chevrons sur les traits attachs aux noeuds : le trait nombre et le trait genre de ladjectif insr doivent avoir la mme valeur que les traits correspondants attachs fonction. Le lemme de ladjectif ajout n'est pas prcis par contre. Les mta-rgles comprennent donc des dcorations sur les nuds. Ces informations permettent de contraindre leur application. On pourrait ajouter par exemple le trait {type = relationnel qualificatif/relationnel} pour empcher lengendrement dune variation avec un adjectif qualificatif : *fonction satisfaisante ventriculaire gauche. Ladjectif satisfaisante portant le trait {type=qualificatif}, il y aurait conflit entre la valeur du trait dans la mtargle et celle de satisfaisante. Une autre mta-rgle peut faire fond sur la valeur du trait nom-base, associ ventriculaire pour engendrer l'arbre correspondant fonction du ventricule gauche, o l'adjectif relationnel ventriculaire est remplac par le syntagme prpositionnel quivalent. Cette transformation peut oprer dans l'autre sens, ce qui permet d'obtenir infarctus myocardique partir d'infarctus du myocarde. Ces transformations sont donc conditionnes par la prsence de certains traits. Le terme infarctus du myocarde peut tre transform en infarctus myocardique parce qu'est associ au nud correspondant myocarde le trait {adjectif-relationnel=myocardique}. Le terme angine de poitrine ne pourra pas tre transform de la mme manire : l'adjectif poitrinaire a le sens d atteint de tuberculose poitrinaire et n'est pas l'adjectif relationnel qui serait ncessaire pour le dclenchement de cette mta-rgle91. Une mta-rgle peut, dans des conditions bien dfinies, s'appliquer sur les rsultats d'autres mta-rgles. Les deux mta-rgles vues prcdemment peuvent par exemple se combiner pour engendrer la variation potentielle fonction {adjectif} du ventricule gauche.
Pour ajouter ces contraintes, on associe poitrine le trait {adjectif-relationnel=sans} et poitrinaire le trait {nom-base=sans}, par exemple.
91
Ressources lexicales
63
C. Jacquemin a mis au point par exprimentation sur diffrents corpus les mta-rgles ncessaires pour rendre compte des transformations effectivement rencontres pour les termes techniques de plusieurs corpus techniques (mdecine, mtallurgie ...). Toutes les variantes potentielles prvues par les mta-rgles et leurs combinaisons partir d'un ensemble de descripteurs du domaine sont engendres.
15.3.3 Reprage des variations syntaxiques engendres L'analyseur robuste FASTER, dvelopp par C. Jacquemin, recherche ces variations dans un corpus du domaine le plus souvent tiquet au pralable. C'est un analyseur trs particulier : il se cantonne un type de composant syntaxique, le groupe nominal, et s'en tient aux groupes qui comprennent certaines entres lexicales, dans des relations de dpendance bien dfinies et obissant des contraintes fines grce aux traits dcorant les nuds non-terminaux. Dans Menelas, les mta-rgles appliques fonction ventriculaire gauche permettraient de reprer fonction systolique ventriculaire gauche, fonction ventriculaire gauche systolique 92, ainsi que (valution de la) fonction globale du ventricule gauche et fonction du ventricule gauche. Les transformations non prvues aboutiraient un silence, c'est--dire la non-extraction d'une variation effective. C'est le cas de l'acronyme, attest : FVG. C'est le cas encore du remplacement de la tte par un hyponyme : cintique ventriculaire gauche ou par une priphrase : tat fonctionnel du ventricule gauche.
15.3.4 Vers une grammaire de la variation terminologique C. Jacquemin distingue au sein des variations possibles les modifications (la tte ou un dpendant reoit un modifieur : fonction systolique ventriculaire gauche), les permutations (fonction ventriculaire gauche / fonction du ventricule gauche) et les coordinations (comme l'hypothtique fonction ventriculaire gauche et droite). Le tri des variations rapportes par l'analyseur entre variantes effectives et bruit , squences non relies au terme de dpart, manifeste une dissymtrie de ces trois oprations. La coordination, avec ses contraintes smantiques, dbouche souvent sur des variantes non ambigus. La modification isole des squences au statut plus incertain. La permutation enfin aboutit un taux de bruit encore plus important : il tient au rle smantique flou des prpositions dites incolores, en franais comme en anglais (de, , of). Ce sont l les premiers lments d'une vritable grammaire de la variation terminologique, capable de caractriser prcisment les oprations possibles et leur domaine d'application. On peut mme se demander si, ct de mcanismes trs gnraux intervenant dans les
92
Phnomne d'incertitude positionnelle assez frquent dans ce domaine. En voici un autre exemple : syndrome douloureux thoracique / syndrome thoracique douloureux.
64
PREMIERE PARTIE
diffrents langages spcialiss, ne peuvent pas se rencontrer des rgularits particulires tel ou tel domaine. Dans limmdiat, cependant, il y a peu de diffrences dun corpus lautre sur les types de mta-rgles utiliser, ce qui pourrait plaider pour une certaine stabilit de la langue technique au regard des mcanismes syntaxiques employs.
Ressources lexicales
65
corpus de texte tout-venant , pralablement tiquet. Il entend par candidats-termes les syntagmes nominaux qui ont un fonctionnement dnominatif. L'hypothse fondamentale est qu'un analyseur peut dgrossir le travail de reprage des dnominations effectives d'un domaine. Clairement, certaines squences nominales, parce qu'elles font rfrence au cotexte ou au contexte, n'ont pas la gnricit requise pour des dnominations (Kleiber, 1984). Par exemple le maintien de sa temprature ne serait pas retenu, en raison du possessif, tandis que le maintien de temprature, voire le maintien de la temprature le seraient : le dterminant zro et le dterminant dfini sont compatibles avec une lecture dnominative.
15.4.1 Isoler les groupes d'allure dnominative La premire tape du travail de Lexter consiste isoler les groupes nominaux d'allure dnominative maximaux . L'approche retenue ne s'appuie pas au premier chef sur des rgles de structuration du groupe nominal en franais. Il s'agit au contraire au dpart de reprer les frontires, c'est--dire les catgories et suites de catgories qui forment les bornes, exclues, d'un tel constituant. Dans la squence (ibid. p. 108) :
le circuit d'aspersion de l'enceinte de confinement assure le maintien de sa temprature nominale de fonctionnement aprs une augmentation de pression
les lments assure, de sa, et aprs une sont considrs comme des frontires. Le verbe est la limite d'un groupe nominal ordinaire. Par contre, de sa ne peut servir articuler deux parties d'une dnomination complexe,
Tte : temprature nominale Tte : temprature Expansion : nominale
aprs une non plus. On voit donc se superposer deux types de contraintes : l'une qui cherche isoler les groupes nominaux, l'autre qui au sein de ce type de constituant, filtre ceux qui peuvent constituer des dnominations. Les groupes retenus sont : circuit d'aspersion de l'enceinte de confinement, maintien, temprature nominale de fonctionnement, augmentation de pression. La deuxime tape ne garde que les groupes complexes : maintien est laiss de ct ce stade. Les groupes sont en effet moins ambigus et apportent davantage d'information. Que l'on compare donnes et base de
tte tte
extension
extension nominale
de
fonctionnement
temprature
66
PREMIERE PARTIE
donnes ou analyse de donnes. La premire expression renvoie l'informatique, la seconde aux statistiques, donnes tout seul potentiellement aux deux. cette tape, les groupes sont galement dcomposs de manire rcursive selon un schma dpendanciel en Tte / Expansion93. La reprsentation de temprature nominale de fonctionnement est alors : Lintrt de ce type de dcomposition, c'est de permettre les regroupements paradigmatiques qui sont si rvlateurs en langage spcialis. Regroupement sur les ttes : on peut mettre jour des liens de co-hyponymie (entre plusieurs candidats-termes commenant tous par analyseur : analyseur morphologique, analyseur syntaxique, analyseur robuste, analyseur montant ...) ou d'hyperonymie (entre une squence courte : analyseur syntaxique et une squence qui la prolonge : analyseur syntaxique dterministe). Regroupement sur les expansions : il permet de voir les attributs spectre troit (qui modifient un nombre restreint de ttes : dterministe ne modifie gure quanalyseur en TALN) et ceux qui sont moins spcifiques (automatique en informatique ou en TALN).
Ressources lexicales
67
dans Menelas angine de poitrine, mais pas poitrine instable. On choisit alors le dcoupage qui contient le groupe non ambigu, ici [angine de poitrine] instable. L'valuation empirique de cette mthode sur diffrents corpus (ibid., p. 113-114) donne les rsultats suivants : dans 75 % des cas, la dsambigusation obtenue est correcte ; 20 % des squences restent non dsambiguses ; 5 % des squences sont dsambiguses de manire errone. Une comparaison de cette approche par apprentissage et d'une rsolution des ambiguts par des rgles a priori (Habert et al., 1997) semble donner l'avantage la premire mthode. La dlimitation des groupes maximaux repose galement partiellement sur l'apprentissage. Certaines squences constituent en effet des frontires lastiques , c'est--dire qu'elles peuvent tantt dlimiter des groupes nominaux dnominatifs tantt en faire partie. C'est le cas de sur + {article dfini} (ibid., p. 109-111). En gnral, c'est une limite :
1. on raccorde le cble d'alimentation sur le coffret de dcharge batterie
En faire une limite intangible, c'est liminer 2 et 3. L'accepter au sein des candidats-termes conduit isoler le cble d'alimentation sur le coffret de dcharge batterie, qui ne constitue certainement pas une squence dnominative. La solution rside l encore dans l'apprentissage endogne. Il porte cette fois-ci sur les noms suivis d'une squence sur + {article dfini} + contexte droit immdiat. Un premier passage sur le texte relve tous ces contextes. Un second les trie et rpartit les noms en deux groupes : ceux qui sont productifs avec sur (qui figurent dans le texte avec un nombre suffisant d'expansions diffrentes introduites par sur + {article dfini}) et ceux qui ne sont suivis qu'exceptionnellement par sur + {article dfini}. Lexter considre que l'expansion des premiers peut tre introduite par sur + {article dfini} et garde alors les squences ayant pour tte un niveau quelconque ces noms suivis d'une expansion introduite par sur + {article dfini}. Dans les autres cas, sur + {article dfini} continue constituer une frontire. L'apprentissage porte donc ici sur des formes de sous-catgorisation.
68
PREMIERE PARTIE
incontournable. La seconde raison tient la complexit des mcanismes par lesquels une communaut langagire slectionne, parmi les dnominations possibles, celles qui deviennent des dnominations effectives. Si l'on peut esprer diminuer la taille de lensemble des candidats-termes extraits d'un corpus, reprer ceux d'entre eux qui fonctionnent rellement comme des termes semble difficilement automatisable. Lexter matrialise, par les squences qu'il considre comme des bornes, un certain nombre d'hypothses sur ce qui ne peut pas figurer dans une squence nominale pour quelle puisse tre employe comme une dnomination. La dmarche suivie dans la mise au point et le test du logiciel sur des corpus varis ont conduit rajouter d'autres rgles, galement ngatives. La dmarche est proche de celle utilis pour l'tiquetage (cf. chapitre VIII) : peu peu, on dgage les rgularits l'uvre et on met au point des procdures qui s'appuient sur elles. Au total, Lexter, au del des procdures mises en uvre, essaie donc de formaliser partiellement la notion de dnomination possible.
Ressources lexicales
69
objectivement. Il nexiste pas de corpus de tests o les termes pertinents seraient isols et qui serviraient ainsi daune pour mesurer lapport de ces outils. En outre, le projet de crer de tels corpus est peut-tre chimrique. Ce sont des ensembles de termes distincts qui risquent dtre reprs par des experts diffrents en fonction de leurs proccupations et de leurs points de vue. Un spcialiste dpidmiologie et un cardiologue nidentifieront pas forcment les mmes squences dans Menelas.
Cf. (Authier-Revuz, 1995 ). Institut National pour l'Information Scientifique et Technique - CNRS.
70
PREMIERE PARTIE
Ressources lexicales
71
exemples de telles cooprations sont encore rares : le groupe de Nimgue, Lancaster Treebank (Black et al., 1993) et Penn Treebank (Marcus et al., 1993).
72
PREMIERE PARTIE
correspondants avec adjectif postpos, et le nombre de noms non modifis. C'est LDB que Barkema a utilis pour dterminer les diffrentes ralisations syntaxiques du patron de base adjectif nom singulier. Comme pour l'tiquetage, deux grandes fonctionnalits sont ncessaires. Elles doivent d'ailleurs pouvoir se combiner. D'abord filtrer les arbres rpondant des contraintes arbitrairement complexes. Les outils actuellement disponibles (comme ceux fournis avec Penn Treebank) sont encore rudimentaires et en tout tat de cause non gnriques : ils sont faits pour traiter d'arbres selon un format d'encodage donn et ne travaillent pas un niveau de gnralit suffisant. Deuxime fonctionnalit : transformer des arbres. Il peut s'agir de changer des tiquettes pour faciliter l'interprtation, ou de restructurer des sous-arbres. Alors que les techniques de transduction d'arbre sont bien matrises en informatique, leur mise la disposition des utilisateurs de corpus arbors reste pour l'essentiel raliser99.
Cf. (Habert et al., 1997) pour une utilisation de la transduction darbres pour la comparaison de deux outils dacquisition terminologique.
99
Ressources lexicales
73
CHAPITRE III
Aprs la constitution de corpus de plus en plus volumineux, lapparition de corpus tiquets puis arbors, on commence voir merger des corpus porteurs dannotations smantiques. Cest un niveau dannotation supplmentaire qui ouvre de nouvelles perspectives dans lexploitation des corpus. lheure actuelle, ces corpus porteurs dannotations smantiques nexistent cependant qu ltat embryonnaire100. Les expriences menes sont trs diverses, reflets de conceptions smantiques trs diffrentes. Lessor des corpus arbors a fait suite celui des corpus tiquets et on peut sattendre dans les prochaines annes lapparition et au dveloppement des corpus porteurs dannotations smantiques. Mais ltiquetage smantique est dabord conditionn par la mise disposition des connaissances smantiques. La nature mme des sources lexicales utilises dtermine en grande partie la mthode dtiquetage et le jeu dtiquettes retenus. Aujourdhui, cest donc la question de ces ressources qui parat centrale. Ce chapitre dcrit les principales sources actuellement utilises ou utilisables pour tiqueter smantiquement des corpus. Seules les connaissances smantiques sont prises en compte101. Lobjectif est non pas de dresser un catalogue de ces ressources102 mais den esquisser une typologie. Ces ressources ont t conues selon des principes et dans des perspectives varies. Elles portent lempreinte de ces diffrences de conception. Il sagit ici dvaluer dans quelle mesure elles peuvent servir ltiquetage smantique de corpus et plus prcisment
Ils ne dpassent gure 200 000 mots. Nous ne mentionnons donc pas les autres types de connaissances (phontique, morpho-syntaxique) que ces sources, les dictionnaires notamment, peuvent comporter. 102 On trouvera ce type de catalogue sur des pages web rgulirement mises jour. Un groupe de travail de lAssociation for Computational Linguistics (ACL SIGLEX, Special Interest Group on the Lexicon) se charge notamment de recenser les ressources lexicales disponibles (http://www.clres.com/dict.html).
100 101
74
PREMIERE PARTIE
la dsambigusation lexicale, mme si ce nest pas dans ce but quelles ont t conues. Les ressources sont donc considres comme des bases de connaissances pour ltiquetage smantique des corpus (section 1). Elles sont de types varis. Elles diffrent dabord dans leur objet mme, les unes portant sur des mots, les autres sur des notions ou concepts (section 2). La section 3 montre que ces bases de connaissances diffrent galement par la granularit de la description quelles donnent des mots, par leur degr de gnralit et par leur codage. La section 4 prsente WordNet, lune des sources lexicales les plus utilises et le ferment de nombreux travaux de smantique partir de corpus. Nous terminons en soulignant le problme de la disponibilit des sources (section 5).
Dans la premire version, chaque mot est associe une tiquette refltant le sens dans lequel il est employ : la distinction et la numrotation des sens est reprise du Petit Robert103. Dans ce cas, chaque mot est tiquet104. Dans la deuxime version, en revanche, il sagit dun tiquetage partiel, qui ne concerne que les marques de modalits et qui devrait permettre dobserver la rpartition de ces modalits dans lensemble du corpus. Comme au niveau syntaxique, ces tiquettes pourraient tre complexes et combiner plusieurs traits. Nous ne prenons ici en compte que le premier type dtiquetage qui associe un ou plusieurs sens un mot ou une unit textuelle. On parle dans ce cas de dsambigusation lexicale105 (word sense disambiguation). Il faut entendre ce terme dans un sens technique. Lobjectif est didentifier le sens dans lequel un mot est employ. Concrtement, il s'agit en fait dun numro de sens, ce sens tant choisi dans une liste finie de sens,
Dans ldition de 1973. La valeur 0 indique que le mot a un sens unique. Ne ne porte pas dtiquette smantique parce quil na pas un fonctionnement autonome. Il forme avec pas un seul et mme constituant discontinu. 105 Lorsque le contexte est clair, nous parlons plus simplement de dsambigusation.
103 104
Ressources lexicales
75
laquelle est gnralement issue dune source de connaissances choisie comme rfrence (un dictionnaire, ici). La dsambigusation est dite totale ou complte si chaque mot est associ un sens et un seul. Cest le cas de lexemple donn ci-dessus. On parle en revanche de dsambigusation partielle si certains mots ne comporte pas dtiquette de sens ou sil en comporte plusieurs au contraire. Pour le verbe sais dans lexemple cidessus, on aurait pu ainsi viter de trancher entre diffrents sens trs proches et laisser deux tiquettes : sais [sens=I.A.1] [sens=I.B.1]. Le degr de la dsambigusation est une notion relative. Dun dictionnaire lautre les distinctions de sens ne se recouvrent pas : deux sens distingus dans lun peuvent tre confondus dans lautre.
76
PREMIERE PARTIE
mandchous ne se reprsentent pas le monde de la mme manire. Il reste que les bases lexicales et conceptuelles diffrent dans leur vise : les unes dcrivent le lexique ; les autres cherchent modliser le monde ou la reprsentation que nous nous en faisons. Les bases lexicales sont parfois utilises pour construire des catgories smantiques, et les bases conceptuelles pour dcrire les mots, mais dans chaque cas ce nest pas leur vise premire.
18.1.1 Dictionnaires
Les dictionnaires, quils se prsentent sous forme papier, sur support lectronique ou quils soient conus pour le support lectronique, quils soient spcialiss ou de langue gnrale, contiennent les mmes types dinformations smantiques. La figure 3.1 ci-dessous en donne un exemple, tir dun dictionnaire lectronique anglais110. Pour une langue donne, les dictionnaires recensent les mots et les expressions considres comme lexicalises et donnent pour chacun une liste de sens, organise en une arborescence de sens et de sous-sens. Chaque sens est dcrit par une combinaison dindications gnralement optionnelles : une dfinition, un trait de domaine, des indications concernant le niveau de langue ou la modernit du mot, une liste de synonymes ou de renvois analogiques, des antonymes, des expressions ou tournures dans lesquelles entre le mot vedette, des phrases ou citations comme exemples demploi, ou mme une ou plusieurs traductions possibles dans une autre langue111. La liste des sens pour un mot donn varie dun dictionnaire lautre, leur description aussi. On a souvent soulign le nombre des dfinitions circulaires o deux ou plusieurs mots se dfinissent les uns par les autres, ainsi que le manque de cohrence dans la forme mme des dfinitions ou lordre des indications. Il faut rappeler par ailleurs que les dictionnaires sont destins des locuteurs ayant dj une bonne matrise de la langue dont ils ne fournissent quune description parcellaire. Il sont donc a priori peu adapts aux traitements automatiques.
110
Nous donnons un exemple en anglais pour permettre la comparaison des informations donnes par les diffrentes ressources lexicales que nous voquons dans ce chapitre, certaines de ces ressources (WordNet, en particulier) ntant disponible que pour langlais. On pourra comparer cette entre avec celle dun dictionnaire franais traditionnel donne au chapitre VII, section 5. 111 Les dictionnaires bilingues entrent en effet dans cette liste.
Ressources lexicales
77
Pourtant, diverses expriences ont pris les dictionnaires comme sources de connaissances pour tiqueter les sens de mots, cest--dire pour dsambiguser lexicalement les corpus. Il sagit alors dexploiter leurs distinctions de sens, chaque sens tant reprsent, selon les cas, par sa dfinition elle-mme et la liste des mots quelle contient (Vronis et Ide, 1990), par une mention de domaine (Guthrie et al., 1991), par les diffrentes traductions possibles dans une langue cible, etc. Aprs avoir dress un panorama des travaux de dsambigusation lexicale qui visent assigner un sens aux mots dun corpus, L. Guthrie et al. (1994, p. 87) reconnaissent que [p]our le moment, beaucoup de chercheurs ont trouv quun dictionnaire standard, avec ses distinctions de sens faites par des lexicographes professionnels, est la meilleure source de connaissances exploiter pour la dsambigusation. En effet, les dictionnaires ont le mrite de proposer une description fine et relativement homogne de lensemble des mots courants. Les dictionnaires les plus complets dcrivent les sens archaques et rares, peu utiles pour le traitement des textes tout-venant, mais les dictionnaires usuels donnent une bonne description de la langue courante, mme si certains sens drivs et mtaphoriques faciles restituer par un tre humain ne sont pas mentionns.
1credit
Pronunciation: 'kre-dit Function: noun Etymology: Middle French, from Old Italian credito, from Latin creditum something entrusted to another, loan, from neuter of creditus, past participle of credere to believe, entrust -- more at CREED Date: 1537 1 : reliance on the truth or reality of something <gave credit to everything he said> 2 a : the balance in a person's favor in an account b : an amount or sum placed at a person's disposal by a bank c : time given for payment for goods or services sold on trust <long-term credit> d (1) : an entry on the right-hand side of an account constituting an addition to a revenue, net worth, or liability account (2) : a deduction from an expense or asset account e : any one of or the sum of the items entered on the right-hand side of an account f : a deduction from an amount otherwise due 3 a : influence or power derived from enjoying the confidence of another or others b : good name : ESTEEM; also : financial or commercial trustworthiness 4 archaic : CREDIBILITY 5 : a source of honor <a credit to the school> 6 a : something that gains or adds to reputation or esteem : HONOR <took no credit for his kindly act> b : RECOGNITION, ACKNOWLEDGMENT <quite willing to accept undeserved credit> 7 : recognition by name of a person contributing to a performance (as a film or telecast) <the opening credits> 8 a : recognition by a school or college that a student has fulfilled a requirement leading to a degree b : CREDIT HOUR synonym see BELIEF, INFLUENCE
78
18.1.2 Thesaurus
Les thesaurus constituent un deuxime type de base de connaissances lexicales113. Ils organisent la description des sens de mots de manire diffrente des dictionnaires de langue. Ces derniers proposent avant tout des dfinitions de mots alors que les thesaurus reposent sur une smantique plus spcifiquement relationnelle et servent mettre une ide en mots ou trouver le mot juste . Les thesaurus comporte gnralement deux voies daccs. Un accs par les mots : comme les dictionnaires, les thesaurus comportent des entres. Mais aussi un accs par les ides ou notions : les thesaurus regroupent les sens de mots en grandes catgories smantiques et sapparentent en cela aux ressources conceptuelles. Les figures 3.2 et 3.3 illustrent ces deux aspects. La figure 3.2 montre quun mot, avec ses diffrents sens rpertoris, se dfinit par la place quil occupe dans un vaste rseau de mots et de sens, cest--dire par les liens quils entretient avec dautres mots. Le thesaurus distingue quatre sens diffrents pour le nom credit, et pour chacun met lui associe des synonymes, des mots voisins, des antonymes et des mots opposs. Lexemple le montre, la dfinition quand elle est prsente ne sert qu faciliter lidentification du sens.
112
Cet exemple est emprunt au dictionnaire de Merriam-Webster dans sa version en ligne : WWWebster Dictionary, 1997, http://www.m-w.com/dictionary.htm (sept. 1997). La prsence de mots en majuscules indiquant des renvois constitue la seule particularit de ce dictionnaire lectronique : dans la version en ligne, il suffit de cliquer sur le mot CREED, pour en consulter lentre. 113 Soulignons la diffrence des traditions lexicographique anglophone et francophone cet gard : les anglo-saxons font grand usage de thesaurus mais cest un outil mconnu des francophones. linverse, ces derniers utilisent davantage les dictionnaires de langue.
Ressources lexicales
79
credit Function: n Text: 1 Synonyms BELIEF 1, credence, faith Related Word confidence, reliance, trust 2 Synonyms INFLUENCE 1, authority, prestige, weight Related Word fame, renown, reputation, repute Contrasted Words disrepute, ignominy, obloquy, opprobrium Antonyms discredit 3 one that enhances another <he is a credit to his family> Synonyms asset Related Word honor 4 favorable notice or attention resulting from an action or achievement <took all the credit for the idea> Synonyms acknowledgment, recognition Related Word attention, notice; distinction, fame, honor; glory, kudos
Figure 3.2. Exemple dentre de thesaurus : le nom credit114
Les thesaurus fournissent en fait un matriau plus directement utilisable que les dictionnaires pour la dsambigusation lexicale. Ils donnent directement les associations de mots (synonymie, hyponymie, antonymies) que lon cherche extraire, par divers traitements, des dfinitions de dictionnaire. Ils relvent dune vision relationnelle de la smantique, proche de la conception distributionnelle qui sous-tend la plupart des travaux sur corpus (cf. chapitre VIII, section 5). La structuration en catgories smantiques est galement exploite pour lannotation de corpus. Dans le Rogets Thesaurus115, plus de 30 000 mots sont rparties dans 1 000 catgories smantiques (numrotes de #1 #1 000), elles-mmes organises en cinq hirarchies de faible profondeur (cinq niveaux au maximum) (cf. figure 3.3). On voit donc apparatre deux niveaux possibles de catgorisation : aux feuilles de la hirarchie des regroupements lexicaux ; dans la structure, une catgorisation conceptuelle. De fait, diverses expriences116 ont montr lintrt que prsentent les catgories smantiques dun thesaurus comme le Rogets pour la dsambigusation lexicale.
114 115
Cet exemple est emprunt au thesaurus de Merriam-Webster dans sa version en ligne : WWWebster Thesaurus, 1997, http://www.m-w.com/thesaurus.htm (sept. 1997). Il sagit du Rogets Thesaurus de 1911 dans sa version lectronique, actuellement disponible ladresse http://ecco.bsee.swin.edu.au/text/roget/headings.html. 116 Voir notamment (Grefenstette, 1996) ou (Yarowsky, 1992).
80
PREMIERE PARTIE
Class I : Words Expressing Abstract Relations SECTION I. EXISTENCE 1. BEING, IN THE ABSTRACT #1. Existence. #2. Inexistence. SECTION II. RELATION Class V : Words Relating to the Voluntary Powers DIVISION (1) INDIVIDUAL VOLITION SECTION I. VOLITION IN GENERAL 1. ACTS OF VOLITION #600. Will. #601. Necessity. Class VI : Words Relating to the Sentient and Moral Powers #998. Rite. #999. Canonicals. #1000. Temple.
Figure 3.3. Organisation gnrale des 1 000 catgories conceptuelles du Rogets Theasaurus
18.1.3 Terminologies
Les terminologies constituent un troisime type de ressources lexicales. Gnralement tablies pour des domaines spcialiss, elles sont peu adaptes la dsambigusation de vastes corpus. Outils traditionnels de la recherche documentaire (cf. chapitre IV, section 3), elles visent recenser les dnominations dun domaine (cf. chapitre II, section 3.4) et peuvent galement servir marquer les termes dans le cadre dun tiquetage partiel de corpus.
Cette tradition, qui remonte la mtaphysique antique, a t largement revisite depuis une trentaine dannes par les recherches dans le domaine de lIntelligence Artificielle.
Ressources lexicales
81
concepts du domaine considr et ventuellement de reprsenter leurs proprits ainsi que les relations quils entretiennent entre eux. Il en rsulte des hirarchies ou des rseaux de concepts. Les ontologies proposent un dcoupage du monde ou de la reprsentation que nous en avons en catgories, ces catgories tant organises en hirarchie par des liens SORTE-DE (IS-A). Lorsque sy ajoutent dautres types de relations (relations de causalit, dappartenance, etc.) on obtient non plus un arbre ou une hirarchie mais un graphe, un rseau smantique ou conceptuel dans la terminologie de lIntelligence Artificielle. Initialement cantonns des domaines trs spcialiss ou des exemples de taille limite, ces rseaux servaient surtout valider une approche, un formalisme ou une thorie. La dcennie prsente voit cependant apparatre des bases de connaissances conceptuelles de grande ampleur. Le projet Cyc est exemplaire cet gard (Guha et Lenat, 1990). Commence il y a plus de 10 ans, lontologie, pice centrale de cette base de connaissances contient aujourdhui des dizaines de milliers de nuds ou concepts. Pour ses concepteurs, le haut de cette hirarchie qui comporte plus de 3 000 concepts est form de catgories universelles.
82
PREMIERE PARTIE
conceptualisation du monde puisse tre indpendante de la langue de son concepteur. Concrtement, cette dpendance est en particulier marque dans le fait que les nuds et les relations dun tel rseau conceptuel portent des tiquettes empruntes au langage naturel, ce qui conditionne et biaise linterprtation.
Dans ldition de 1972. Dans la 9e dition. Il sagit plutt de grandes familles de sens que de vrais homographes, ces sens pouvant tre drivs les uns des autres.
Ressources lexicales
83
de ces hirarchies. Cest lapproche de R. Basili et al. (1997, p. 248) qui ne retiennent, pour travailler sur les verbes, que 15 grandes catgories de WordNet (perception, motion, cration, changement) et ignorent les distinctions plus fines internes chaque catgorie. Le verbe anglais record ou son quivalent franais enregistrer admettent ainsi en langue gnrale, trois sens reprsents par les catgories de la cognition, de la communication et de la perception. E. Agirre et G. Rigau (1996) exploitent de la mme manire les 25 grandes catgories de noms de WordNet pour tablir des grandes oppositions de sens. Dans (Bouaud et al., 1997), une catgorisation gros grain est labore de la mme manire partir dune nomenclature mdicale dans la perspective dun tiquetage smantique de Menelas. Si ces sources permettent de dcrire des distinctions de sens fines ou grossires, il est gnralement plus difficile dtablir des distinctions intermdiaires. Les distinctions et hirarchies de sens des dictionnaires ou thesaurus ne refltent pas une description homogne dans sa granularit. De fait, dans WordNet, certains liens hyponymiques refltent une proximit smantique beaucoup plus grande que dautres : [on trouve] des liens qui semblent reprsenter, pour certains, une courte distance (RABBIT-EARS IS-A TELEVISION-ANTENNA) et pour dautres, une longue distance (PHYTOPLANKTON IS-A LIVING-THING) 121 (Resnik, 1995a).
les antennes de tlvision en forme de V . 122 Bien que des projets pour la construction dontologies gnrales existent (comme le projet Cyc mentionn ci-dessus), aucune exprience, notre connaissance, na t faite pour utiliser ces ontologies pour le traitement de corpus.
Soit, littralement : OREILLE-DE-LAPIN SORTE-DE ANTENNE-DE-TELEVISION et PHYTOPLANCTON SORTE-DE ETRE-VIVANT. En anglais, on appelle rabbit ear (oreille de lapin)
84
PREMIERE PARTIE
celles qui existent ne peuvent pas tre rutilises dans une perspective diffrente de celle pour laquelle elles ont t conues initialement. Lexprience de (Charlet et al., 1996) est instructive cet gard. Travaillant dans le domaine mdical o les expriences de ce type sont anciennes, ces auteurs ont cherch, pour modliser le domaine des maladies coronariennes, rutiliser une base de connaissances prexistante, Unified Medical Language System (UMLS, (Humphrey et Lindberg, 1989)), prcisment conue comme un rseau smantique unifi pouvant tre utilis dans diffrentes perspectives. Cette tentative sest solde par un chec et les deux principales raisons invoques ne sont en rien spcifiques cette exprience. La premire concerne la couverture du domaine. Mme si UMLS est une base de connaissances spcialise, les auteurs font un constat similaire celui que fait R. Basili pour les ressources lexicales gnrales : ils ont du enrichir certaines parties de la hirarchie. La seconde est plus fondamentale : lontologie dun domaine dpend dun point de vue sur ce domaine et de la tche qui est vise et de la tche pour laquelle elle a t conue ; elle nest donc rutilisable que dans la mesure o la tche demeure la mme, ce qui est rare123. Les ressources lexicales font donc particulirement dfaut lorsquon se propose de traiter des corpus spcialiss. Deux autres pistes sont explores. La premire consiste spcialiser une source lexicale gnrale pour lajuster un domaine de spcialit. R. Basili et ses collgues tentent ainsi dadapter la taxonomie des verbes de WordNet divers domaines spcialiss en se fondant sur linformation contextuelle apporte par un corpus reprsentatif du domaine considr. Ils distinguent les sens de verbes selon leur appartenance aux 15 grandes catgories smantiques de WordNet (changement, cognition, communication, contact, motion). Il sagit de slectionner, parmi les diffrents sens associs un verbe donn, ceux qui sont pertinents dans le domaine et dajouter les sens spcialiss qui ne seraient pas reprsents dans le rseau initial124. La seconde piste vise constituer les ressources lexicales dont on a besoin. Cette construction peut tre manuelle mais cela limite considrablement la finesse de la description. R. Basili et al. (1993a) dcrivent une exprience de ce type : ils utilisent une quinzaine de catgories trs gnrales (action, artefact, lieu, matire) pour tiqueter des textes spcialiss. Elle peut galement tre automatique. Il sagit alors dacqurir des connaissances lexicales spcialises partir des corpus du domaine : de nombreux travaux se situent dans cette optique, nous y revenons au chapitre IV.
123 [L]orsque les connaissances ont des dpendances par rapport la tche qui sont parfaitement connues et constantes, on peut faire des ontologies rutilisables ; pour Menelas cest le cas des mdicaments (et cest le seul) : la description du Vidal (dictionnaire des mdicaments) fournit toute les connaissances ncessaires pour prendre en compte tous les usages que lon peut faire dune ontologie des mdicaments dans un cadre thrapeutique, et cest ce cadre qui est sous-tendu par la plupart des applications mdicales qui ont besoin dune ontologie des mdicaments. (Charlet et al., 1996). 124 Leur dmarche consiste identifier pour chaque catgorie smantique un noyau de verbes reprsentatifs et reprer les contextes dans lesquels ces verbes figurent pour construire une description distributionnelle de chaque catgorie, puis assigner un ou plusieurs sens un verbe en comparant sa distribution avec celles des classes smantiques.
Ressources lexicales
85
86
PREMIERE PARTIE
lectronique et les ressources lectroniques en tant que telles, dont le codage est conu pour faciliter laccs par des traitements automatiques, pour expliciter le statut des informations donnes et donc en fournir les rgles dinterprtation.
Ressources lexicales
87
lutilisateur sintresse au domaine conomique et financier, la plupart des sens deviennent immdiatement caduques tandis que les dtails du deuxime sens prennent de limportance. On devrait ainsi pouvoir considrer une base de connaissances sous diffrents points de vue.
WordNet est disponible par ftp anonyme depuis ftp.cogsci.princeton.edu ou ftp.ims.uni-stuttgart.de (sept. 1997). Il existe en diffrentes versions pour Unix, PC Windows et Macintosh. 129 La terminologie de WordNet identifie le sens dun mot au concept sous-jacent. 130 Ceci soppose aux approches constructivistes qui tendent dfinir un sens en le dcomposant en primitives de significations.
88
PREMIERE PARTIE
et al., 1993, p. 5-6). Considrons lexemple du mot credit pour lequel huit sens sont identifis dans WordNet131. En voici trois:
1. credit (money available for a client to borrow) 2. recognition, credit (approval ; give her recognition for trying ; he was given credit for his work ; it is to her credit that she tried ) 3. credit, deferred payment (arrangement for deferred payment for goods and services)
chaque sens sont associs des synonymes, dans la mesure o il en existe. Parler du deuxime sens de credit ou du synset {recognition, credit} revient au mme. Les dfinitions ou exemples (nots entre parenthses) qui sont souvent associs aux concepts dans certains cas ont un rle purement documentaire. Dans WordNet, la synonymie est contextuelle : deux expressions sont synonymes dans un contexte linguistique C si la substitution de lune par lautre dans C ne modifie pas la valeur de vrit. Par exemple, le fait de substituer plank board modifie rarement la valeur de vrit dans des contextes lis la charpenterie, mais cette substitution serait totalement inapproprie dans dautres contextes de board132. (ibid., p. 6).
Ressources lexicales
89
La synonymie joue un rle central dans la mesure o elle est interne aux nuds et constitutive des synsets. Elle soppose toutes les autres relations, qui relient les mots les uns aux autres. Cela revient distinguer deux niveaux de relations : les relations lexicales137 qui relient respectivement entre eux les mots et les relations smantiques qui relient entre eux les sens de mots, cest--dire les synsets ou concepts. Par ailleurs, les relations dhyponymie et de mronymie se distinguent des autres parce quelles construisent une hirarchie entre les nuds quelles relient. Ces liens hirarchiques dterminent des possibilits dhritage au sens o les nuds hritent certaines proprits des nuds qui les dominent. Dans lexemple ci-dessus, si le nud COIN porte une proprit hritable (le fait dtre compos de mtal, par exemple, qui pourrait tre reprsent par un lien mronymique de matire entre les nuds METAL et COIN), les nuds NICKEL et DIME, hritent cette proprit de leur hyperonyme.
137 138
Nous reprenons ici la terminologie de WordNet. Les chiffres que nous citons sont ceux que donnent (Miller et al., 1993). Ce sont des approximations, ce qui explique linexactitude des totaux. WordNet continue de crotre.
90
ASSET MEDIUM-OF-CHANGE CURRENCY METAL MONEY COIN NICKEL DIME CASH
PREMIERE PARTIE
Ressources lexicales
91
par des catgories smantiques gnrales (unique beginner) : person dans lexemple ci-desus ; possession, hyperonyme direct de asset, pour la sous-hirarchie reprsente par la figure 3.1. Au sein dune hirarchie, la hauteur est variable : selon les zones du lexique concernes, les synsets les plus bas se situent 3, 10, parfois mme 12 niveaux dcart du sommet. De fait, si le vocabulaire technique se prte souvent bien ce type dorganisation141, il est plus difficile de dfinir des chanes hyponymiques entre les mots de la langue courante (Kleiber et Tamba, 1990) : dans lexemple ci-dessus, on peut se demander si tous les prdicateurs (preacher) sont effectivement des ecclsiastiques (clergyman). Il faut souligner que les liens hyponymiques dune taxonomie lexicale ne reprsentent pas une distance uniforme. Dans la pratique, on peut donc distinguer des grandes catgories gnrales qui forment le sommet des diffrentes hirarchies ou la totalit des synsets. Il est difficile dtablir des distinctions intermdiaires. G. Miller (1993, p. 17) considre quil existe un niveau fondamental (basic level) qui permettrait de dfinir des catgories gnriques ou fondamentales : situ quelque part entre le sommet et la base de la hirarchie, cest le niveau qui est le plus riche en relations. Dans la pratique ce niveau fondamental nest pas clairement identifiable. Cette structure hirarchique peut tre parcourue de haut en bas ou de bas en haut. partir dun sens donn, on peut ainsi retrouver ses anctres (hyperonymes directs et indirects), ses descendants (hyponymes directs ou indirects) mais aussi ses frres (coordinates). Outre leur place dans cette structure hirarchique, les sens des noms se dfinissent par des proprits : leurs attributs, leur composition et leurs fonctions. La composition est dcrite par diffrents types de relations mronymiques dans WordNet : les relations de composant objet compos (branche / arbre), dlment ensemble (arbre / fort) et de matire (arbre / bois). En revanche, les attributs (un arbre peut tre grand, vieux) et les fonctions (une hache sert couper) ne sont pas reprsents dans WordNet. Ce sont en effet des relations transcatgorielles qui devraient terme relier les hirarchies de noms aux rseaux des adjectifs ou des verbes.
Cest particulirement vrai de la botanique ou de la zoologie, domaines o la connaissance est traditionnellement organise selon les catgories de lespce, du genre, du taxon 142 WordNet distingue les adjectifs qualificatifs des adjectifs relationnels. On a vu au chapitre 1, lintrt de ce types de distinction pour le traitement de Enfants. Les adjectifs relationnels sont considrs comme des variantes stylistiques de noms : ils se dfinissent par rapport ces noms auxquels ils sont lis. Nous mettons ici laccent sur les seuls adjectifs qualificatifs.
92
PREMIERE PARTIE
comme lhyponymie. La relation fondamentale structurant lespace des adjectifs est lantonymie. Cette relation symtrique, mise en vidence par des tests psycholinguistiques sur les associations de mots, est difficile formaliser. Les auteurs retiennent lide que les adjectifs antonymes expriment deux valeurs opposes dun mme attribut. Partant cependant du constat que certains adjectifs proches par le sens (heavy et weighty143, par exemple) ont des antonymes diffrents (light et weigthless144) et que beaucoup dadjectifs qualificatifs (ponderous145) nont pas dantonymes directs, la structure retenue est celle de classes dadjectifs similaires entre eux, ces classes tant organises autour dadjectifs ples qui peuvent sopposer dautres ples par des liens dantonymie. heavy et light sont donc considrs comme antonymes, mais ponderous, qui est similaire heavy et qui na pas dantonyme direct nest quun antonyme indirect de light.
lourd et pesant, respectivement. lger et de peu de poids. massif, pesant. Un verbe x est un troponyme dun verbe y si on peut dire que x, cest y dune certaine manire.
Ressources lexicales
93
des approximations. Dans WordNet, les sens reprsents par les synsets sont souvent difficiles matriser pour qui nest pas lexicographe professionnel et ils comportent une part importante darbitraire. Cest le cas pour tous les dictionnaires. Les catgories smantiques trs gnrales, linverse, sont souvent peu contestables car peu discriminantes. La hirarchie des noms, la partie la plus stable du rseau, repose sur des chanes dhyponymie qui pour la langue gnrale sont le plus souvent approximatives. La structuration des rseaux des adjectifs ou des verbes parat moins solide. Pourtant, lapparition de ressources lexicales de taille importante, aussi imparfaites soient-elles, a donn le coup denvoi des travaux de smantique partir de corpus. Ce sont des dictionnaires sur support informatique ou des thesaurus lectroniques comme WordNet qui ont permis de mettre au point de nouvelles mthodes de dsambigusation automatique (cf. IV-3). Et cest lutilisation mme de ces ressources qui permettra den amliorer la conception. La lexicographie lectronique proprement parler nen est encore qu ses dbuts : de nouveaux moyens de stockage et dinvestigations induisent de nouvelles structures et organisations de donnes, lesquelles donnent voir de nouveaux phnomnes. Ceci nous amne souligner avec inquitude labsence de ressources similaires pour le franais147. Si la recherche sur les corpus en franais peut sans doute tirer profit de lexprience anglo-saxonne pour viter certains ttonnements, des problmes spcifiques se posent pour chaque langue, qui imposent certains ajustements, voire la mise au point de mthodes particulires ou le dveloppement doutils spcifiques. Labsence de ressources lexicales informatise pour le franais est dj un frein pour tous les traitements smantiques. Faute de moyens, la plupart des travaux franais sintressent lacquisition de connaissances partir de corpus (cf. chapitre VIII, section 5).
147
EuroWordnet, un projet de construction dun WordNet multilingue a t lanc en mars 1996 (Vossen, 1996). Il concerne initialement lallemand, litalien et lespagnol. La France accuse un certain retard.
DEUXIEME PARTIE
DIMENSIONS TRANSVERSALES
95
CHAPITRE IV
96
DEUXIEME PARTIE
jour, mais on nen est cependant quaux balbutiements, que ce soit pour la constitution de ces corpus ou pour leur exploitation. Pourtant cela transparat dans les exemples des chapitres I et II les proccupations smantiques occupent une place importante dans lexploitation des corpus, que lon cherche identifier la terminologie dun domaine technique, traduire des expressions figes, reprer les thmes abords par diffrentes catgories de rpondants une enqute dopinion, le genre des textes, etc. Si de nombreuses tudes portent sur la facture mme des corpus et la langue employe, le texte demeure un message porteur dinformation et lon ne cesse dinterroger les corpus sur le sens quils vhiculent. Le prsent chapitre met laccent sur lexploitation smantique des corpus, laquelle peut porter aussi bien sur des corpus nus que sur des corpus tiquets et arbors. Sur les deux exemples de laide la lexicographie et de la recherche dinformation, il tente de montrer dans quelle mesure et quelles fins on peut accder au sens vhicul par les phrases ou les textes dun corpus.
97
base dun discours. Il sagit par exemple pour Pcheux et ses collgues de mettre en vidence lambigut idologique du rapport Mansholt (Maingueneau 1991). Le recours aux mthodes statistiques a dj permis de renouveler les tudes thmatiques (Brunet, 1991), mais lexistence de corpus tiquets et surtout arbors ouvre de nouvelles perspectives en matire danalyse de contenu.
98
DEUXIEME PARTIE
lcrit est le principal vhicule de linformation et des connaissances et que, hors des domaines formels pour lesquels ont t conus des langages formels, mathmatiques ou logiques, ces connaissances sont toujours exprimes en langage naturel, on cherche dvelopper des mthodes pour extraire et donc acqurir les connaissances des corpus. Il sagit ni plus ni moins de proposer des techniques de lecture rapide et automatique des corpus. Les connaissances ainsi extraites servent souvent construire les bases de connaissances lexicographiques que sont les dictionnaires, thesaurus et terminologies, quelles soient de langue gnrale ou spcialises, monolingues ou bilingues. Nous dveloppons cet aspect cidessous (section 2). Il sagit galement de modliser lensemble des connaissances constituant un domaine spcialis. Un corpus portant sur laronautique doit ainsi permettre didentifier les diffrentes pices composant un avion et leurs agencements, leur usage habituel, les dysfonctionnements susceptibles de se produire, etc. Le modle de connaissances ainsi construit donne alors une vue schmatise du domaine. Celle-ci est prcieuse pour le dveloppement dapplications volues comme les outils de diagnostic de panne, des outils de visualisation, des simulateurs de vols, des systmes daide au pilotage, etc. De la mme manire, (Bouaud.et al., 1997) exploite Menelas pour aider la construction de lontologie du domaine des maladies coronariennes. Lextraction des informations vhicules par un corpus sert encore alimenter des bases de donnes. Lexploitation dun corpus de dpches portant sur le terrorisme permet ainsi de stocker les donnes relatives aux vnements terroristes dans (Appelt et al., 1993). Ce panorama, ncessairement schmatique, montre que lanalyse smantique aborde les corpus tour tour comme un objet dcrire (analyse de contenu), comme un ensemble de documents classer et retrouver (recherche documentaire) ou comme une source de connaissances (acquisition de connaissances). La diversit des applications vises montre galement que, pas plus quen matire dtiquetage ou de structuration de corpus, il nexiste de consensus en matire smantique lorsquil sagit de rendre compte du sens . Le sens de la recherche documentaire (ensemble de thmes) ne correspond pas au sens que lanalyse du discours cherche exhiber sous la forme de phrases de base et pas davantage au sens des mots et locutions que les lexicographes tentent de dcrire. Nous dveloppons ci-dessous en 2 et 3 deux exemples dapplications qui sinscrivent respectivement dans le champ de lacquisition de connaissances en loccurrence, lexicographiques partir de corpus spcialiss et dans celui de la recherche documentaire. Par leur dmarche empirique (nous y revenons en 4), ces exemples nous paraissent reprsentatifs des travaux actuels en matire dexploitation smantique de corpus.
99
Ces entres ont t construites entirement automatiquement partir de deux corpus spcialiss diffrents (MED ou MERGERS, cf. infra).
Growth :: [284 contexts, frequency rank : 25] MED Relat. tumor ; effect, tissue ; antigen, protein, development. Vbs. retard, stimulate, show, follow, enhance, accelerate. Exp. growth
148 149 150 151
100
DEUXIEME PARTIE
hormone (cf. bone marrow, parathyroid hormone), growth rate (cf. growth retardation, folic acid), tumor growth (cf. body growth, tenuazonic acid), growth retardation (cf. dna content, body weight), body growth (cf. tumor growth, body weight). Therapy :: [256 contexts, frequency rank 28] MED Relat. test ; response, treatment ; procedure, operation, drug, chemotherapy, dose, administration. Vbs. use, respond, follow, remain, receive, combine. Exp. radiation therapy (cf. survival rate, cancer chemotherapy), steroid therapy (cf. inclusion disease, cancer chemotherapy), hormone therapy (cf. intraarterial infusion, steroid therapy), corticosteroid therapy (cf. connective tissue, plama concentration). Fam. therapeutic. Year :: [103 contexts, frequency rank 93] MED Relat. woman ; child, patient, day ; week, month, hour. Vbs. age, occur, follow. Exp. year period (cf. survival rate, hormone therapy). Growth :: [320 contexts, frequency rank : 139] MERGERS Relat. level, increase, gain ; loss ; performance, return, rise, decline, flow, expansion. Vbs. say, expect, slow, accelerate, maintain, sustain, forecast, continue. Exp. rapid growth (cf. buy-out bid, raise capital), profit growth (cf. electronics group, total revenue), growth rate (cf. profit margin, future performance), growth potential (cf. company spokeswoman, board seat), future growth (cf. speciality chain, bottom line).
Ces entres ne ressemblent gure des entres habituelles de dictionnaire152. Pourtant, elles constituent un ensemble dindications qui peut guider le lexicographe dans son travail de rdaction. Elles comportent six rubriques, les quatre dernires tant optionnelles.
152
101
102
DEUXIEME PARTIE
cest surtout quelque chose dont on parle ou qui donne des informations (say)154. En fait, cette rubrique des verbes oprateurs donne une premire indication synthtique des contextes demplois du nom vedette. Le fait que age (g de) figure parmi les verbes associs year explique la prsence surprenante premire vue des noms de personnes (women, child, patient, etc.) aux cts des termes de dure (day, week, month, etc.). Cest, semble-t-il, limportance des contextes du type woman aged of thirty years qui rapproche woman et year.
Pour savoir si growth figure comme sujet et/ou comme objet du verbe say, il faut revenir au corpus.
103
lexicographe. Le travail de G. Grefenstette montre cependant toutes les possibilits que le traitements automatiques de corpus ouvrent dsormais. Rappelons en effet que les entres donnes ci-dessus ont t engendres de manire entirement automatique. Ces entres constituent des bauches ou un premier dgrossissage qui donnent au lexicographe une vue synthtique sur le poids (donnes quantitatives) et le fonctionnement syntagmatique (expressions et verbes oprateurs) ou paradigmatique (voisins et variantes) dun mot dans le corpus considr.
Nous parlons de traitement de bas niveau parce que cest une approche des textes qui ne ncessite pas quune modlisation smantique des connaissances du domaine soit pralablement construite la main (Grefenstette, 1994a, p. 3).
104
DEUXIEME PARTIE
tiquet en un ensemble de relations de dpendances syntaxiques. Laccent est mis sur les noms et ne sont conserves que les relations entre un nom dune part et un adjectif, un verbe ou un autre nom, dautre part. En simulant ce traitement sur les extraits de Menelas donns cidessous, on obtient comme contextes pour le nom pisode ses relations avec les mots suivants156 : prsenter (OBJ), survenir (SUJ), douloureux, prcordial, hyperthermique, effort, repos.
Trait mdicalement, il a dj prsent plusieurs reprises des pisodes douloureux prcordiaux deffort et de repos. Depuis cette poque on ne note aucune rcidive d'angor jusqu'il y a 8 jours o il a prsent un pisode de prcordialgie survenant l'effort, durant environ 45 minutes, sans irradiation157. On notait par ailleurs la survenue d'un pisode hyperthermique, probablement en rapport avec une mise en place prolonge d'une voie veineuse.
Le nombre de contextes dun nom est donc le nombre de relations de dpendance dans lesquelles il entre. Cest sur la base dun corpus vu comme un ensemble de contextes que sont calcules toutes les informations syntagmatiques et paradigmatiques tudies plus haut. Les relations syntagmatiques sont donnes par les contextes euxmmes : les rubriques des verbes oprateurs et des expressions regroupent respectivement les contextes verbaux et nominaux du nom vedette. Le logiciel se contente de trier les listes par ordre de frquence et dliminer les contextes trop peu frquents ou syntaxiquement ambigus. Les relations paradigmatiques sont calcules en comparant la liste des contextes de deux entits. Dans le cas du voisinage des noms, lintuition sous-jacente est que deux noms sont voisins sils figurent dans les mmes contextes ou sils partagent beaucoup de contextes. Par exemple, supposer quon obtienne pour symptomatologie et crise, les listes de contextes suivantes :
symptomatologie : prsenter (OBJ), associer (OBJ), survenir(SUJ), douloureux, prcordial, atypique, effort, problme crise : prsenter (OBJ), prolonger (OBJ), suivre (SUJ), douloureux
la comparaison des distributions tend montrer que pisode est plus similaire de symptomatologie que de crise. Formellement, les contextes dun nom constituent un ensemble de proprits (ses attributs) et le
156 Nous considrons ici que les mots ont t pralablement lemmatiss. Les marqueurs OBJ et SUJ indiquent respectivement que le nom figure en position objet ou sujet du verbe. Dans les rsultats de G. Grefenstette, la nature des relations entre noms ou entre un adjectif et un nom nest pas explicite (1994a, p. 42). 157 Nous navons pas considr ici que les groupes prpositionnels durant 45 minutes et sans irradiation devaient tre rattachs pisode. Pour langlais, G Grefenstette rsout le problme du rattachement du groupe prpositionnel par des rgles ad hoc (ibid.).
105
logiciel mesure le degr de similarit158 entre deux noms sur la base du nombre dattributs quils partagent159. Dans la liste des voisins dun nom vedette, on retient les noms qui en sont le plus similaires, condition que, de manire rciproque, le nom vedette figure galement en bonne position dans la liste des similaires de ceux-ci. Cest sur le mme principe que G. Grefenstette rapproche certaines expressions. Les expressions radiation therapy et cancer chemiotherapy sont associes parce quelles partagent un nombre de contextes qui est significatif tant donn le nombre total de contextes dans lesquels elles figurent. Pour ce calcul toutefois, G. Grefenstette ne retient pas les relations de dpendance binaire comme contexte, mais il prend un contexte plus large, la phrase. Cest encore sur le mme principe que sont calcules les variantes morphologiques. Le fait est que dans un paragraphe ou un document portant sur un sujet donn, une mme notion sexprime sous des formes diverses. Dans un document, on trouvera par exemple le verbe rduire et quelques lignes plus loin, la mme ide reprise sous forme nominale (rduction). SEXTANT calcule donc des similarits entre les mots de sens plein du corpus en prenant comme contexte les numros de documents dans lesquels ils figurent, puis il slectionne ceux qui paraissent, sur une base graphique, tre des variantes morphologiques. Le principe gnral de SEXTANT est donc simple : il repose essentiellement sur le calcul de similarits. Tout lintrt vient dune dfinition approprie des contextes. Dfinir les contextes sur une base syntaxique plutt que graphique revient les filtrer au pralable et rduit le bruit engendr (Habert et al., 1996 ; Grefenstette, 1996). Faire varier la taille des contextes permet de faire ressortir diffrents types dassociation. Ces entres de dictionnaires rsultent dun long travail dexprimentation et dune exploitation judicieuse de techniques simples.
Nous entendons par similarit la relation existant entre deux choses similaires, cest-dire peu prs de mme nature, de mme ordre (Petit Robert, dition de 1973). Nous avons recours cet anglicisme parce que le mot similitude na pas le mme sens que langlais similarity ( relation unissant deux choses exactement semblables Petit Robert, dition de 1973). 159 On trouve dans la littrature (Saporta, 1990) beaucoup de mesures de distances pour ce type de comparaison. G. Grefenstette retient une forme pondre de lindice de Jaccard qui rapporte le nombre dattributs partags par deux lments au nombre dattributs possds en propre par lun ou lautre (1994a, p. 48-49).
158
106
DEUXIEME PARTIE
mme prfixe (antigen est associ antibody mais pas gene)160. Plus fondamentalement, les rsultats dpendent de la qualit de lanalyse syntaxique. G. Grefenstette (1993) donne lexemple curieux de human cell et year period associs lexpression cancer cell. La dcomposition des groupes nominaux du type 3 year period est mal reconnue. Comme le systme ne repre pas que 3 quantifie le seul year, il dcompose 3 year period en [3 [year [period]]] au lieu de [[3 [year]]) period]. Il analyse donc 3 year period et 3 human cells de la mme manire et cre un rapprochement artificiel entre les deux expressions. Les erreurs danalyse bruitent les rsultats. Lexemple cit est suffisamment surprenant pour attirer lattention du lexicographe, mais certaines erreurs de rattachement peuvent crer des rapprochements indus et nanmoins plausibles qui peuvent passer inaperus. La fiabilit de lanalyse syntaxique est donc essentielle pour ce type de traitement. Cest la raison pour laquelle SEXTANT ne prend encore en compte que les relations de dpendance binaire dans le calcul des contextes et non les syntagmes nominaux de taille suprieure pour lesquels les risques derreur sont multiplis. Le point essentiel demeure les contraintes dune approche lexicographique consistant infrer des proprits en langue partir des observations faites sur corpus, cest--dire de ce qui est attest. Cette approche repose sur lhypothse que le corpus est un reflet intressant de la manire dont les mots sont effectivement employs. Cela suppose que le corpus soit homogne ou, du moins, que sa variation interne soit ngligeable en regard des phnomnes tudis. Cest une hypothse forte, nous y revenons au chapitre VII. Le corpus dtermine par ailleurs la couverture lexicographique : seuls les mots et les sens attests peuvent tre dcrits puisque de la non-attestation, on ne peut jamais conclure quun mot est tranger une langue de spcialit. Les mots faiblement reprsents dans le corpus sont galement difficiles dcrire. Les techniques utilises par SEXTANT supposent que les mots aient un nombre raisonnable doccurrences. La description construite partir des 103 occurrences de year est nettement moins exploitable que celles de growth ou therapy qui portent sur deux fois et demi plus doccurrences dans le corpus mdical. La qualit et la fiabilit des descriptions lexicographique baissent avec le nombre de contextes dans lequel figurent les entres, i.e. avec la quantit dinformation disponible. Or des mots peu frquents peuvent tre des termes du domaine et certains emplois rares sont importants dcrire parce quils sont difficiles comprendre intuitivement. On touche l aux limites intrinsques de lapproche prsente ici. Le travail lexicographique ne peut reposer entirement sur les corpus. Mais si les informations extraites de corpus doivent tre contrles, corriges, compltes, elles constituent nanmoins une vue densemble sur lemploi dun mot et une source importante pour la rdaction dentres de dictionnaire. Pour exploiter ce type de donnes, le lexicographe devra acqurir lexprience des outils permettant de les obtenir, afin de dpister les points faibles de telle entre, identifier les associations douteuses,
160 Selon G. Grefenstette, cet algorithme pourrait tre modifi, ventuellement en exploitant une base de rgles morphologiques de drivations. La qualit des rsultats devrait sen trouver amliore.
107
reprer les effets dune analyse syntaxique inexacte ou ambigu, et pour complter les informations extraites par ses propres mthodes dinvestigation.
108
DEUXIEME PARTIE
ceux-l seulement. Dans la pratique, il faut trouver le meilleur compromis entre rappel et prcision. Lindexation est ltape clef de ce processus de recherche documentaire. Comment reprsenter le contenu dun document ? Les clefs dindexation sont gnralement des mots clefs : dans lensemble des mots dun document, on slectionne ceux que lon suppose reprsenter le mieux le contenu du document, par exemple en liminant les mots les plus frquents et les moins frquents supposs peu discriminants dans ltape ultrieure de slection des documents.
109
de gros volumes de textes tout-venant. Sil est trop tt pour faire tat dexpriences et de rsultats sur des systmes intgrant effectivement un traitement lexical, nous voudrions ici montrer lune des pistes prometteuses, consistant exploiter une base lexicale gnrale. Nous nous appuyons plus particulirement sur le travail de M. Sussna (1993). Son impact sur un systme de recherche dinformation nest pas rellement valu mais il montre tout le parti quon peut tirer dune base lexicale gnrale comme WordNet (voir chapitre III, supra).
110
DEUXIEME PARTIE
minimise la distance globale. Loriginalit de ce travail consiste exploiter au maximum la structure de rseau de WordNet pour mesurer les distances entre les mots et prendre en compte le problme de la co-dtermination des sens dans une approche globale de la dsambigusation. Nous dveloppons ces deux aspects aprs avoir montr sur un exemple les rsultats que M. Sussna cherche obtenir.
165
Nous navons pas tiquet ([sens = ?]) les mots qui ne sont pas employs comme noms et qui nont t conservs que du fait dune erreur de catgorisation morphosyntaxique. Nous ne donnons aucune description synonymique ou paraphrastique pour les noms qui nadmettent quun seul sens ([sens = 1/1]).
111
Cette question du calcul de la distance smantique se pose dans les mmes termes,
112
DEUXIEME PARTIE
Traditionnellement, la distance de deux nuds a et b dans un rseau est mesure par la longueur du chemin le plus court entre a et b. Malheureusement, la taille de WordNet (cf. chapitre III, section 3.1.3) rend cette approche impraticable du fait du nombre de chemins explorer pour calculer la distance entre deux nuds. Pour simplifier, on peut donc, comme le font E. Agirre et G. Rigau (1996) ou P. Resnik (1995b)167, ne considrer que la partie hirarchique de WordNet : Soit C lensemble des concepts dans une taxonomie organise autour de la relation EST-UNE-SORTE-DE (IS-A) telle quun nud puisse hriter de plusieurs pres. Intuitivement, on peut considrer que deux concepts sont dautant plus similaires quils partagent plus dinformation, cette information tant indique dans la taxonomie par le plus petit concept qui les domine tous les deux. La mthode reposant sur le dcompte des artes mesure cela indirectement : si le chemin le plus court entre deux nuds est tout de mme long, cela signifie quil faut remonter haut dans la hirarchie, jusqu' des nuds assez abstraits, pour trouver cet anctre commun. Par exemple, dans WordNet, NICKEL (pice de 10 cents en nickel) et DIME (pice de 10 cents) sont tous les deux domins par COIN (pice), alors que la classe la plus spcifique laquelle appartiennent la fois NICKEL et CREDIT-CARD (carte de crdit) est ASSET (avoir). Cette dernire mthode de calcul revient cependant rduire WordNet une hirarchie de liens hyperonymiques et lui fait perdre une grande partie de sa richesse lexicale. M. Sussna choisit de combiner ces deux approches du chemin le plus court et du chemin passant par le plus petit anctre commun. Il mesure la distance entre deux nuds a et b par la longueur du chemin le plus court reliant a et b au sein de la sous-hirarchie domine par p, le plus petit anctre commun a et b (figure 1, infra). Cette approximation parat satisfaisante mme si, parfois, on ne retrouve pas le chemin le plus court : dans le cas de la figure 1, le raccourci antonymique qui va de a b en passant par c168 est limin. Ce chemin peut tre compos dartes de diffrentes natures, liens hirarchiques dhyponymie, relations de mronymie, dantonymie Reprenons lexemple de P. Resnik dj cit au chapitre III (3.2.1). Le chemin a empruntant les liens hyponymiques de COIN ASSET et de ASSET CREDIT-CARD est de longueur 9, tandis que le chemin b qui emprunte les liens hyponymiques de COIN CURRENCY, le lien dantonymie de CURRENCY CREDIT et les liens hyponymiques de CREDIT CREDIT-CARD est plus court (longueur 8). M. Sussna retient ce chemin qui est mixte mais plus court.
quelle que soit la source de connaissances exploite. Plusieurs auteurs ont ainsi cherch mesurer la parent des sens de mots partir de leur dfinition dans un dictionnaire et des mots quelles ont en commun. (Cowie et al., 1992) et (Vronis et Ide, 1990), par exemple, exploitent respectivement le Longman Dictionary of Contemporary English et le Collins. 167 Cest nous qui donnons les quivalents franais. Nous avons galement remplac MEDIUM-OF-EXCHANGE par ASSET pour rendre la citation cohrente avec la version 1.5 de WordNet et la figure ci-dessous qui sen inspire. 168 Les liens dantonymie ne sont pas des liens hirarchiques.
113
b
lien hyperonymique lien antonymique
ASSET
2 1 1
COIN CURRENCY
1 1
CASH
CREDIT
METAL MONEY
4
CREDIT-CARD
Pour tenir compte de lhtrognit des liens emprunts, M. Sussna pondre diffremment chaque type de lien. Sans entrer dans le dtail de ces poids qui sont dtermins exprimentalement, retenons les points suivants. Les liens de synonymie ont un poids nul et ne comptent pas dans les mesures de distance entre nuds : les nuds de WordNet tant des ensembles de synonymes (synsets), la synonymie est une relation interne aux nuds. Les liens dantonymie ont le poids le plus fort. Les poids des liens hyponymiques et mronymiques varient avec la dilution de la relation qui est mesure en fonction du nombre de liens de mme type attachs aux nuds concerns. Dans le cas, par exemple, de la relation A-POUR-PARTIE entre les nuds VOITURE et PARE-BRISE, lintuition est que cette relation reflte une parent dautant moins forte quune voiture comporte plus dlments (i.e. que plus de liens A-POUR-PARTIE partent du nud VOITURE), mais dautant plus forte,
114
DEUXIEME PARTIE
linverse, que les pare-brises entrent dans la composition de moins dobjets (i.e. que moins de liens A-POUR-PARTIE arrivent au nud PAREBRISE). De fait le mot pare-brise voque quasi automatiquement une voiture. Toutes les relations sont pondres en fonction de leur profondeur dans la hirarchie. Ce poids permet de tenir compte du fait que dans lexemple de la figure 2 (supra), NICKEL et DIME sont plus proches que CREDIT et MEDIUM-OF-EXCHANGE, parce quils sont situs plus bas dans la hirarchie et refltent donc des concepts plus spcifiques. La longueur dun chemin est donc calcule comme la somme des poids des diffrentes artes qui le composent et la distance entre deux nuds est donne par la longueur du chemin le plus court reliant ces deux nuds au sein de la sous-hirarchie domine par le pre commun. Cest par lexprimentation que M Sussna ajuste les diffrents paramtres de cette mesure. En ce qui concerne la diversit des liens prendre en compte, M. Sussna montre, par exemple, en jouant sur les poids des diffrentes relations et en privilgiant les chemins hirarchiques le long des liens hyponymiques, que lon obtient de meilleurs rsultats de dsambigusation lorsquon exploite toute la richesse des rseaux mixtes [comme WordNet], contenant la fois des relations hirarchiques et des relations non hirarchiques (Sussna, 1993). Les expriences menes par E. Agirre et G. Rigau (1996), qui donnent une densit smantique dans WordNet comme mesure de la parent entre les sens de mots, semblent montrer en revanche que les liens mronymiques apportent peu la dsambigusation169. Les conditions exprimentales et les mesures tant diffrentes, il est malheureusement difficile de comparer ces rsultats. Apprhender une parent smantique sous la forme dune distance entre les sens de mots dans un rseau comme WordNet soulve ainsi de nombreuses questions. De multiples formules sont testes, mais il est encore beaucoup trop tt pour tirer une conclusion dfinitive sur les paramtres prendre en compte et pour se faire une vritable ide de leur impact sur les rsultats de dsambigusation. Seule lexprience et le recul permettront de clarifier peu peu cette question.
115
fait quun sens a t choisi pour un mot quand on cherche dsambiguser le mot suivant ? (Guthrie et al., 1994). M. Sussna cherche dsambiguser non pas un mot en fonction de son contexte mais un ensemble de mots conjointement en tenant compte de leur contrainte mutuelle (Sussna, 1993). Cela suppose de considrer toute la combinatoire des sens possibles, de calculer une distance binaire pour chaque couple de mot et de retenir la combinaison qui minimise la distance globale (lnergie), somme des distances binaires. Le calcul de cette contrainte devient malheureusement vite prohibitif170. M. Sussna propose donc de dsambiguser conjointement les premiers mots d'un texte et de poursuivre au fil du texte en dsambigusant chaque mot en fonction des sens retenus pour les mots qui le prcdent. Le contexte pris en compte dans le cas gnral est donc le seul contexte antrieur. Pour dterminer la taille du contexte considrer, M. Sussna procde, l encore, de manire exprimentale. En appliquant sa mthode des fentres de tailles diffrentes et en comparant les rsultats obtenus une dsambigusation alatoire dune part et une dsambigusation manuelle dautre part, il constate que les rsultats de la dsambigusation samliorent quand on augmente la largeur de la fentre et se stabilisent pour une fentre de 41 mots. Sur ce point cependant, les expriences de (Agirre et Rigau, 1996) semblent montrer que la taille du contexte prendre en compte dpend du type de corpus trait, les fentres rduites 10 mots convenant pour le dialogue et les fentres plus larges donnant de meilleurs rsultats pour les textes journalistiques.
Pour une fentre de 10 mots et en ne retenant que 2 sens par mot, il faut dj calculer 1 000 distances binaires, par exemple. Et si lon considre la finesse des distinctions de sens faites dans WordNet et la slection des noms retenus pour indexer un document, il faut compter avec beaucoup plus de sens par mot. A titre dindication, dans la liste f donne ci-dessus des noms dcrivant le contenu dun article de presse, les noms comportent en moyenne 3,7 sens.
170
116
DEUXIEME PARTIE
171
Si M. Sussna ne mentionne pas ce problme de couverture pour WordNet, cest probablement quil ne cherche traiter que des articles de presse. En fait, cest dessein quil choisit ce corpus dans une base documentaire : [n]ous travaillons partir de la collection darticles du Time Magazine qui est la moins spcialise et la moins technique, parce que WordNet est un lexique de langlais gnral (Sussna, 1993).
117
Cf. (Herzog et Rollinger, 1991). Cela suppose tout la fois de rsoudre les anaphores, de reprer les variations de la prise en charge nonciative, de saisir la porte de telle ngation ou de tel quantificateur, didentifier les relations structurant lensemble du discours, etc.
118
DEUXIEME PARTIE
Tous ces travaux reposent sur lide que le sens se construit en contexte mais aussi par le contexte. Cest donner un rle central au corpus. On a soulign ce point dans le travail de G. Grefenstette. Celui de M. Sussna converge et gard. Mme lorsque des connaissances extrieures sont exploites, elles nont pas le rle que leur donnait lIntelligence Articificielle. En introduisant des distinctions smantiques supplmentaires, on peut caractriser plus prcisment les contextes, mais cest la confrontation des contextes entre eux qui fait merger le sens. Les connaissances projetes sur le corpus ne servent alors que de rvlateurs.
119
automatiquement des bauches dentres de dictionnaires effectivement exploitables. Quant la question de la dsambigusation des verbes, R. Basili et ses collgues (1997) soulignent quelle est peu explore. Les rsultats obtenus sont nanmoins intressants. Les entres de dictionnaire construites automatiquement, mme si elles demandent tre retravailles par un lexicographe, donnent une vue globale du fonctionnement du mot dans un corpus technique. Elles aident se reprer dans une langue spcialise en saffranchissant des prjugs induits par la langue gnrale. On peut supposer quune dsambigusation lexicale mme partielle augmente toujours la qualit de lindexation dun document et amliore la prcision des systmes de recherche documentaire.
120
DEUXIEME PARTIE
De la mme manire, il nest pas certain que la lemmatisation systmatique (Church, 1995) ou la morphologie drivationnelle, avec notamment le regroupement des mots appartenant la mme famille drivationnelle (stemming) (Gaussier et coll., 1997), amliore les performances de la recherche documentaire. Par ailleurs, le travail de G. Grefenstette (1993) le montre, les traitements linguistiques sont lourds et peuvent souvent tre convenablement approchs parfois supplants par des techniques frustes.
121
vritable valuation possible. La maturit du domaine ne permet malheureusement pas toujours de mener cette valuation globale bien, mais lexemple des entres de dictionnaire construites par SEXTANT montre nanmoins la fcondit de cette dmarche empirique. En ce qui concerne ltiquetage morpho-syntaxique et syntaxique, il existe des corpus tiquets qui font lobjet dun consensus suffisant pour servir de rfrence et on peut comparer entre eux les rsultats obtenus par des mthodes diffrentes. En matire smantique, en revanche, la subjectivit des phnomnes et la diversit des objectifs se traduisent par une grande htrognit des tiquetages et interdisent toute valuation intermdiaire.
122
DEUXIEME PARTIE
montr lintrt et la diversit des rsultats quelles permettait dobtenir. leur suite, de nombreux auteurs ont eu recours cette mesure (Hindle, 1990 ; Resnik, 1995b). Pourtant le choix de cette mesure nest jamais rellement justifi : on en explicite les proprits formelles, mais sans expliquer pourquoi cette mesure est pertinente pour mesurer des contraintes de slection. La convergence de diffrentes expriences montre cependant quen donnant un poids important aux vnements rares et en soulignant les emplois spcialiss 176, le score de cooccurrence fait ressortir les expressions figes, ce qui est prcieux dans une perspective lexicographique : lassociation de il et de boeuf, dans oeil de buf, est intressante pour la description du mot boeuf. Mais ceci explique linverse que cette mesure soit mal adapte la modlisation conceptuelle dun domaine, ce que (Habert et al., 1996) met en vidence. Pour dcrire le concept auquel renvoie un mot, ses proprits et les relations dans lequel il entre, il faut au contraire liminer les attirances proprement lexicales et sappuyer davantage sur les associations banales comme manger/lever du buf, viande de buf, buf cuit, etc. Linformation mutuelle est donc un bon indice lexicographique mais un mauvais outil de modlisation conceptuelle. Par ailleurs, cette mesure qui met laccent sur les phnomnes rares (Basili et al., 1993b, p. 179) est peu adapte aux contextes syntaxiques : elle serait utile si on pouvait se fier entirement aux analyses (ibid.), mais elle donne en fait trop dimportance des relations dues des ambiguts syntaxiques ou des erreurs danalyse (ibid.). Cest la multiplication et la confrontation des expriences utilisant la mesure de linformation mutuelle et la comparaison avec des mesures diffrentes qui permet de tirer des conclusions de porte un peu gnrale, de progressivement mieux comprendre ses proprits comme mesure de distance entre les mots et de cerner les conditions de son utilisation.
176
Le fait pour un mot de figurer toujours ou trs souvent dans le(s) mme(s) contexte(s).
123
CHAPITRE V
124
DEUXIEME PARTIE
langue. Nous prsentons en dtail un corpus de ce type : Archer, en section 2, ainsi que les problmes de reprsentativit et de constitution de tels corpus. L'volution de la langue peut tre examine sur la courte dure, sur le moyen terme, ou sur le long terme. Nous rendons compte d'tudes relevant de ces diffrentes temporalits en section 3. Nous abordons enfin en section 4 les problmes mthodologiques propres aux corpus historiques.
125
Archer est organis par priodes de cinquante ans pour que lon puisse examiner l'volution, les flux et les stabilits sur des priodes relativement courtes. L'amricain n'est dans l'immdiat reprsent que par trois priodes : deuxime moiti des XVIIIe, XIXe et XXe sicles. L'anglais l'est pour les neuf priodes. Pour chaque priode de cinquante ans et chaque registre, un chantillon de 20 000 mots183 est constitu. Archer totalise 1,7 million de mots.
10 fragments de 2 000 mots, pour diminuer le poids des idiolectes. Par exemple la correspondance peut relever de la littrature, voire de la philosophie, comme de l'change purement priv aux XVIe et XVIIIe sicles (Wright, 1993, p. 26). Finegan et Biber (1995, p. 249) expliquent l'incohrence relative de leurs rsultats concernant les lettres par lhtrognit de ce registre.
183 184
126
DEUXIEME PARTIE
parle (ibid. p. 5)185. Pour Archer, au sein d'un registre, le choix des ouvrages repose sur une procdure alatoire186 (au sens probabiliste)187. Un protocole bien dfini permet galement, pour chaque registre, d'extraire des fragments (pas forcment continus) de 2 000 mots188.
127
qu'un chantillon plus lev de prcheurs figure dans Archer. D'autres travaux (Wright, 1993, p. 27-29) insistent au contraire sur la dimension idiolectale des observations. S. Wright (ibid. p. 28) cite par exemple les recherches sur l'emploi de certains marqueurs relatifs : [...] au dbut du XVIIe sicle, le systme des relatives diffrait du systme actuel en ce que le pronom which pouvait optionnellement servir renvoyer un antcdent humain aussi bien qu' un antcdent non humain. Cependant, progressivement, c'est le pronom who ( la place de which) qui a t choisi pour renvoyer des antcdents humains. Hope (1990) a montr que le choix des marqueurs relatifs dans les uvres de Shakespeare et Fletcher tait bass sur deux systmes en comptition. Alors que celles de Fletcher sont typiques de l'association moderne entre le relatif who et des antcdents humains, l'usage suivi par Shakespeare suggre que ce trait n'est pas un facteur aussi significatif pour son choix. Pour ces deux crivains donc, la smantique du systme de marqueurs relatifs a des valeurs diffrentes. Le rassemblement de donnes textuelles plus importantes pour un groupe d'auteurs contemporains a pour objectif alors de caractriser l'usage commun de ce groupe par rapport aux idiolectes de chacun des auteurs189. Se pose aussi la question de la part de la manipulation stylistique de la langue, de l'idiolecte et de l'usage du moment.
128
DEUXIEME PARTIE
photocomposition de journaux mises disposition des crateurs de corpus. On peut donc comparer les ensembles constitus pour chaque anne, ou examiner les apports d'une anne donne190. A. Renouf (1993) dtaille l'utilisation en ce sens du Times, de novembre 1990 septembre 1991. Un premier filtrage isole les mots nouveaux, en les rpartissant en noms propres, acronymes et mots ordinaires . Le classement de ces derniers renseigne sur les mcanismes l'uvre et leur productivit relative : formations base d'onomatopes, jeux de mots, mots-valises, composs , doublons drivatifs (indifferentness), suffixations (eco-terrorism, executivedom), prfixations (euroconvertible) et conversions, etc. Par exemple, gate, par analogie avec Watergate, n'est gure productif en mars 1991 (seul ce mot est utilis) mais donne naissance en fin 1992 iraq(-)gate, dianagate, camillagate, threshergate. A. Renouf (ibid., p. 286-287) donne aussi les 50 prfixes (non-, re-, over-, etc.) et suffixes (-like, -based, -style, etc.) les plus frquents dans les composs de mars 1991.
129
infinitif seul domine dsormais (en particulier sans SN sujet logique de l'infinitif). La construction avec infinitif seul domine galement dans le CDROM de 1991 du journal The Guardian. Comme il s'agit d'un journal dont la langue est tenue , cette prdominance montre que la construction en cause a perdu la connotation de relchement qui tait la sienne trente ans auparavant. C. Mair voit dans cette volution l'indice d'une grammaticalisation , dfinie comme la transformation au fil du temps de certaines formes lexicales en simples marques grammaticales. Help se viderait progressivement de son sens et deviendrait un simple tai pour l'infinitif associ191. Pour C. Mair (ibid., p. 267), en outre, l'opposition faite par les grammaires entre les deux constructions n'est pas tout fait exacte. L'anglais et l'amricain suivraient un mouvement parallle, quoique dcal, dans l'volution de l'utilisation de help.
191 Un peu comme dans les constructions verbe support du type prendre peur o le nom vhicule l'essentiel du smantisme, le verbe apportant des indications temporelles et aspectuelles. 192 Les adjectifs qui apparaissent uniquement post-poss sont 90 % d'origine latine ou franaise.
130
DEUXIEME PARTIE
Les rsultats obtenus sont galement trs proches d'tudes faites pour l'anglais contemporain. Enfin, l'examen des divers registres reprsents dans le sous-corpus ne manifeste pas d'carts significatifs dans le placement des adjectifs par rapport aux constats globaux qui viennent d'tre donns. Au regard de ces rsultats, H. Raumolin-Brunberg conclut la primaut de la position antpose de l'adjectif en anglais, tout au long de son histoire.
Paradoxalement, les rsultats pour les articles mdicaux et les sermons vont contrecourant de la tendance mise en vidence pour Helsinki193. Au contraire, ces deux registres favorisent continment et de plus en plus nettement la construction avec that par rapport la construction zro. Finegan et Biber interprtent ce dcalage par une progression plus gnrale de ces registres vers une forme plus cultive (literate) et moins orale. Les lettres tmoignent d'une volution comparable, mais plus attnue (avec un tonnant renversement de tendance pour la priode 1900-1949, o la construction zro domine). Ces volutions dcales poussent multiplier les points de vue dans l'analyse globale de changements linguistiques. Finegan et Biber examinent d'ailleurs les attirances de certains des verbes majeurs pour chacune de ces deux constructions, toutes priodes confondues : [...]
Finegan et Biber (ibid., p. 251-253) montrent dans le dtail les difficults d'une comparaison des rsultats sur Helsinki et sur Archer pour la priode approximativement partage par ces deux corpus (1640-1710 et 1650-1699 respectivement). Les principes d'chantillonnage diffrent, on l'a vu. La taille rduite des parties correspondant cette priode pour les deux corpus fait aussi obstacle.
193
131
les verbes say, tell et know montrent une forte prfrence pour that dans les trois registres, tandis que think montre une prfrence nette pour la construction zro, du moins en mdecine et dans les lettres (ibid., p. 250).
132
DEUXIEME PARTIE
tout le paradigme de CIL qui est devenu pur pronom, mais seulement quatre formes sur sept : celui, celle, ceux, celles ; cil, cel et celi ont disparu. Pour cil, on peut dire qu'il s'agissait d'une forme de cas-sujet (singulier ou pluriel), et ds lors que la dclinaison disparaissait, les formes qui instanciaient les diffrents cas devaient disparatre. Mais pourquoi est-ce celui qui s'est conserv et non cel, et pourquoi l'inverse pour le fminin est-ce celle et non pas celi qui s'est conserv ? De mme, ce n'est pas tout le paradigme de CIST qui s'est conserv en devenant pur dterminant. Sur six, seules deux formes, la forme du fminin singulier cette, et celle du masculin singulier devant voyelle cet, viennent directement du paradigme CIST. Ce n'en provient pas, non plus que proprement le pluriel picne196 ces197. Les autres formes, au nombre de quatre (cist, cestui, cez, cestes), ont disparu. C. Marchello-Nizia s'appuie sur un important corpus d'ancien et de moyen franais. Pour l'ancien franais, ont t utiliss seize textes en vers ou en prose (ibid. p. 147-148), soit prs de 685 000 mots, s'chelonnant de 1100 environ 1300 environ. Ces textes se situent dans le domaine littraire, central dans les recherches des mdivistes, et une concordance est disponible pour chacun d'eux. Ils comprennent 8 237 dmonstratifs. Pour le moyen franais (XIVe et XVe sicles), le corpus utilis pour la constitution du Dictionnaire du Moyen Franais (INaLF, Nancy), qui compte environ 4 millions de mots et qui est d'origine plus varie198, a fourni prs de 36 000 occurrences de dmonstratifs. L'examen dtaill des concordances des formes longues (prfixes en i-, suffixes en -ui / -i, ou portant les deux affixes) dans le corpus d'ancien franais199 permet de mieux cerner les notions de soulignement , d expressivit , de renforcement , utilises jusqu'alors. Ces formes sont en effet employes en dbut de phrase ou de vers. Elles sont pronoms dans 3 cas sur 4 pour les formes suffixes en -ui / i et dterminants dans deux tiers des cas pour les formes prfixes en -i . Elles dterminent alors le plus souvent un substantif complment d'objet plac en tte de phrase. Elles mettent en vidence cette construction, marque cette poque. A partir de ces observations, C. Marchello-Nizia (ibid., p. 144) formule l'hypothse d'une rpartition des dmonstratifs en trois groupes : les formes toujours atones (ces et ce), les formes toujours toniques (les formes longues) et les formes pouvant tre atones ou toniques (cil, cel, cele, ceus et cist, cest, ceste). Cest dpasser l'opposition dterminant / pronom et prendre en compte la dimension accentuelle. Les cas-sujets masculins singuliers cil et cist suivent bizarrement une volution dcale : cist s'efface partir de 1250, en lien avec la chute de la dclinaison, tandis que cil reste employ jusqu' la moiti du XVe sicle, o il connat une disparition brutale. C'est un paralllisme avec le pronom personnel il qui expliquerait cette volution de cil : on constate en effet
Utilisable au fminin et au masculin. Cette forme provient la fois de cez (de la srie CIST), par volution phontique de l'occlusoconstrictive finale [ts] en [s] et de cels (de la srie CIL), employ de faon inaccentue et proclitique comme dterminant. Ce est fait par analogie sur ces. 198 182 uvres diffrentes, de longueur ingale et de divers genres (chroniques, romans, chansons de geste, posie lyrique ou didactique, chartes, traits philosophiques, etc.). 199 1 027 occurrences sur 8 237 dmonstratifs.
196 197
133
une volution parallle de il et de cil (ibid. p. 164). En outre, les comptages oprs montrent qu'en moyen franais, les deux paradigmes CIST et CIL ne sont pas encore spcialiss, l'un pour les dterminants, l'autre pour les pronoms. Les emplois pronominaux sont occups essentiellement par trois formes : celui, celle, et cestui. Ce serait l encore l'influence du systme pronominal qui aurait jou. Ont en effet t conserves comme pronoms dmonstratifs les formes (celui, ceux, celle, celles) ressemblant aux pronoms personnels employs de manire autonome (lui, eux, elle, elles), celles sans correspondant pronominal disparaissant (comme celi, cesti, cestui). Par ailleurs, les formes longues se spcialisent en moyen franais dans la fonction de pronom, alors que dans la priode prcdente, la dtermination focalisante les caractrisait. Ce serait aussi le contrecoup du remplacement progressif de l'accent tonique de mot valeur distinctive, encore prsent en ancien voire en moyen franais, par l'accent en fin de groupe syntaxique, la dtermination marque trouvant dans -ci et -l post-fixs le moyen de souligner cet accent de groupe. Cette volution est une deuxime tape dans le mouvement de distinction entre la catgorie du pronom et celle du dterminant, mouvement amorc avec l'apparition du dterminant ce / ces, et achev la fin du moyen-ge par l'institution de formes purement pronoms.
Les 28 formes de dmonstratifs repertories par C. Marchello-Nizia (1995) se ralisent en plus de 80 graphies.
134
DEUXIEME PARTIE
Nous l'avons vu, le dveloppement des corpus lectroniques a trs largement bnfici cette dernire dcennie des apports, techniques et financiers, de la communaut du TALN qui voit l une tape indispensable pour la mise au point de systmes de traitement du langage robustes. L'accent est bien sr mis sur la langue contemporaine. Autrement dit, il n'y a pas vraiment de raisons que beaucoup de temps et d'nergie soit consacr la recherche sur les tats de langue anciens. On peut donc escompter un retard sensible dans les techniques et les moyens mis en uvre pour l'annotation des corpus historiques. Les corpus historiques actuels sont d'ailleurs trs sensiblement plus petits que les corpus synchroniques (Finegan et Biber, 1995). Que l'on compare le million et demi de mots d'Helsinki ou d'Archer avec les 100 millions de mots (tiquets, au surplus) de BNC. En dehors de ces projets de corpus conus pour tudier la diachronie, parce quil est coteux de constituer des corpus bien rpartis sur les genres et les priodes, les constats sont souvent tablis sur les ensembles de textes qui sont effectivement disponibles sous forme lectronique mais qui ne forment pas vraiment un corpus historique au sens d'Archer par exemple. Cette situation biaise videmment les observations et leur interprtation, sans que les chercheurs qui ont recours ces rassemblements de circonstance en soient toujours conscients. L'annotation de ces corpus se heurte en outre des obstacles spcifiques. Une langue cas comme l'ancien franais connait une variation importante dans l'ordre des mots, alors que les tiqueteurs et parseurs disponibles ont t conus pour des langues o l'ordre des mots est notablement plus contraint. La connaissance du lexique et de la syntaxe de ces tats de langue n'offre pas non plus le mme appui une automatisation. l'inverse, ces corpus historiques tant destins, pour leur trs grande majorit, rester nus , ils ne permettent pas facilement de valider ou d'invalider des hypothses linguistiques. Ils supposent une analyse trs souvent manuelle des donnes201 pour trier les faits et proposer des hypothses, mais aussi pour comparer la reprsentation formelle postule avec le corpus. Ainsi, T. Nevalainen (1994), pour tudier l'volution de l'opposition en anglais entre les formes des adverbes en -ly et sans suffixe (slowly / slow) en contrastant la priode 1350-1420 avec la priode 1640-1710, commence par extraire dHelsinki les formes se terminant en -ly (elle rpertorie 14 variantes graphiques du suffixe), limine celles qui ne sont pas des adverbes ainsi que les adverbes faits sur une base nominale (namely), et cherche les adjectifs ayant servi de base aux adverbes ainsi isols. Ce sont encore de simples concordances qui sont employes par Finegan et Biber (1995, p. 245) dans leur tude de l'alternance that / zro aprs certains verbes.
201
135
136
DEUXIEME PARTIE
distordue, dans les deux sens : certains faits de trs faible frquence peuvent avoir chapp l'attention et, l'inverse, certaines caractristiques dominantes peuvent tre sous-estimes. L'oral est par ailleurs insaisissable, sinon par les biais qu'offrent certaines types d'crits, avec le risque que rappelle C. Blanche-Benveniste (1997, p. 36) propos de la Grammaire des fautes dH. Frei de confondre fautif et parl , et de prendre les fautes typiques de scripteurs inexpriments pour des reflets de loral. La dcouverte de nouveaux documents, de nouvelles ditions critiques peuvent en plus amener rvaluer la place de certains phnomnes203. Les corpus permettent par contre d'approcher les rgularits centrales d'un tat de langue oubli. Pour cerner les impossibles de langue , C. Marchello-Nizia (ibid., p. 22) propose de recourir au raisonnement suivant : On accordera [...] une importance privilgie l'absence de formes ou de constructions attendues, et corrlativement aux paraphrases. En effet, si un tour attendu n'est jamais attest, et qu'on rencontre rgulirement sa paraphrase en lieu et place o on l'attendait, alors on a le droit de formuler l'hypothse que le tour qu'on attendait l est, dans ce cas, agrammatical. La quantification occupe par consquent une place centrale. Mais elle rencontre des difficults sur des corpus d'tats anciens de la langue. Lorsqu'il s'agit d'tudier des proprits linguistiques fines , le nombre d'occurrences d'un phnomne donn dans une partie du corpus est souvent faible (infrieur la dizaine). Il n'est dailleurs pas toujours possible, soit pour des raisons de cot soit plus fondamentalement parce que les sources sont lacunaires, de complter les inventaires du phnomne vis. Ces petites quantits ne rendent cependant pas pour autant illgitime le recours des modles probabilistes appropris pour valuer leur significativit. Certains de ces modles sont prsents au chapitre IX.
137
par exemple). Ces donnes et ces outils permettent de donner consistance aux facteurs qui sont invoqus : l'volution de l'accent, qui passe du mot au groupe syntaxique, et l'influence de parents de plus haut niveau, de systmes mta-morphologiques et smantiques gnraux (avec la restructuration du systme pronominal). Nous avons vu l'usage de la notion d'analogie pour expliquer l invention de ce : il viendrait complter ces et faire pendant avec lui au couple le / les. C. Marchello-Nizia rappelle (ibid., p. 176-178) les critiques qu'appelle l'usage de cette notion pour rendre compte, en dernire instance, de certaines volutions204. Lanalogie est le plus souvent utilise au coup par coup. Elle fonctionne alors comme explication de la dernire chance. Elle est utilise de manire superficielle , par opposition des rgles dment formalises. Au del des explications parfois hasardeuses par lanalogie, l'annotation linguistique de corpus tals dans le temps fournit dsormais la possibilit d'tudier des corrlations extrmement complexes et pratiquement non perceptibles sans appui informatique entre des phnomnes situs aux diffrents niveaux de l'analyse linguistique ainsi que leur volution au fil du temps. C'est le cas d'une des hypothses majeures de C. Marchello-Nizia : la corrlation de l'volution des dmonstratifs avec celle des pronoms personnels. On souhaiterait alors tout naturellement dpasser le recours des concordances et des comptages sur les seuls dmonstratifs pour disposer de donnes chiffres sur les deux systmes et pouvoir examiner les corrlations, si elles existent, entre eux, par le recours, par exemple, l'analyse multidimensionnelle (cf. chapitre IX). On progresserait vers le test effectif de l'hypothse plus gnrale qui est pose (ibid., p. 168) : les systmes morphologiques des langues s'organisent un niveau suprieur en macro-systmes smantiques et formels plus abstraits, et ce sont ces mta-structures qui sont cause de certains des changements qui affectent les systmes du niveau infrieur, immdiatement perceptibles, eux. Dans une optique proche, les contraintes pesant sur lomission du sujet pronominal en moyen franais sont soumises dans (Dupuis et al., 1992) une analyse multivariable. partir de lexamen de la distribution du sujet dans 10 textes schelonnant du premier tiers du XIVe sicle jusqu la fin du XVe sicle, cette analyse montre que, parmi les facteurs examins : la priode du texte, lopposition prose / posie, le type de proposition et la personne du sujet, cest le type de proposition dont linfluence ressort nettement : lomission est plus souvent le fait des principales et des indpendantes que des enchsses. Les analogies relles devraient tre dsormais plus facilement objectivables. La vision des causalits l'uvre dans le changement linguistique en sera probablement renouvele. Ces causalits sont peuttre chercher des niveaux de structuration beaucoup plus abstraits (Kroch, 1990, p. 239) que ceux qui sont envisags gnralement.
204
138
DEUXIEME PARTIE
CHAPITRE VI
happened in 1990 , and now she : `` I do not understand why all sudden you are now saying we a problem with the program '' ,
205
Les contextes ont t fournis par L. Langlois (Dictionnaire canadien bilingue - Universit dOttawa) utilisant sous licence TransSearch qui permet des concordances sur des textes aligns. TransSearch a t dvelopp au CITI (Centre dInnovations en Technologie de lInformation Laval, Canada), devenu le RALI (Laboratoire de Recherche Applique en Linguistique Informatique). Cf. (Simard et al., 1992).
139
| la situation gostratgique a | terriblement chang depuis , la guerre | froide tait plus que froide en 1990 . | | | | | | | | Pour terminer , je voudrais parler de la rduction des effectifs mentionne par le SCRS dans le secteur du contre - espionnage , rduction qui est peut - tre attribuable l' apaisement de la guerre froide .
| Il est moins facile de les tenir aprs | la guerre , l' poque froide des | contrles budgtaires .
On peroit sur ces exemples, dont le second remotive les constituants de l'expression toute faite, les difficults de la mise en correspondance (une phrase anglaise d'un ct, deux phrases franaises de l'autre dans lexemple 2, linverse dans lexemple 3). Le troisime exemple manifeste par exemple des dcalages entre les deux versions (intelligence battles that went for many years est sans quivalent dans la version franaise). Le quatrime est une mtaphore file partir de lexpression toute faite. Ce bi-texte manifeste des types de contextes nouveaux par rapport ceux examins par Barkema (chapitre II) : cold war {nom}, o cold war est le modifieur du nom :
cold war attack helicopters / hlicoptres d' assaut bons pour la Guerre froide cold war style helicopters / hlicoptres rappelant l'poque de la guerre froide cold war helicopter program / programme d' achat d' hlicoptres digne de la guerre froide the EH-101 cold war helicopters / hlicoptres EH-101 conus pour la guerre froide cold war helicopters / hlicoptres de la guerre froide
Ces contextes rcurrents sont appuys par la paraphrase suivante : helicopters to fight the cold war / hlicoptres destins la guerre froide ; des contextes qui prcisent les parties prenantes du conflit larv :
the Moscow - Washington cold war / La guerre froide entre Moscou et Washington helicopters for the cold war with the Soviet Union / hlicoptres pour faire la guerre froide avec l' Union sovitique The cold war between the two blocs / cette guerre froide - l entre les deux Blocs
post cold war {nom}, o le nom en question renvoie une dimension temporelle, modifi par le syntagme post cold war :
the post cold war environment / le climat d' aprs - guerre froide in a post - industrial , post - cold war world environment / en cette priode postindustrielle et d' aprs - guerre froide In a post - industrial , post cold war environment / l' re postindustrielle , la guerre froide tant chose du pass
140
the post cold war era / dans l' re de l' aprs - guerre froide post cold war world / depuis la fin de la guerre froide the post - cold - war situation / l' aprs - guerre froide
DEUXIEME PARTIE
La version utilise du Hansard align, qui correspond trois ans de dbats, reprsente 21,6 millions de mots anglais et 24,1 millions de mots franais. Elle comprend 5 993 occurrences de guerre, 384 de froide, 5 977 de war et 673 de cold. Pour un volume globalement quivalent au corpus de Birmingham utilis par Barkema, on rencontre prs de trois fois plus doccurrences de cold war ou guerre froide (314 occurrences). On ne trouve aucune occurrence de guerres froides ni de cold wars. On ne trouve quun seul exemple de discontinuit entre les deux composants de lexpression : cest lexemple 4 ci-dessus. Ces constats confirment lanalyse de Barkema sur la rigidit de lexpression. Dans 8 cas dailleurs, la traduction de cold war se fait par Guerre froide, la majuscule soulignant le fonctionnement comme un tout indcomposable.
141
Les techniques actuelles dalignement poussent vouloir exploiter le trsor que constituent les traductions dj existantes. P. Isabelle (ibid.) indique : Au Canada seulement, bon an mal an, le volume de traductions atteint au moins un demi-milliard de mots. [...] La masse des traductions produites chaque anne contient infiniment plus de solutions plus de problmes que tous les outils de rfrence existants et imaginables. Lobjectif est alors de chercher sil nexiste pas dj une solution au problme de traduction rencontr, dans les traductions existantes, plutt que den inventer une de toutes pices. Les biconcordanciers comme TransSearch permettent de telles recherches. Les corpus aligns permettent de reprer des nologismes et la traduction qui en est donn. Ils viennent aussi remdier aux invitables lacunes des dictionnaires. Gale et Church (1991) montrent par exemple que dans les corpus qu'ils avaient aligns, en jeu servait souvent de traduction at risk, alors qu'un dictionnaire comme le Robert et Collins ne mentionne pas cette quivalence.
142
DEUXIEME PARTIE
avons vu des exemples. L'ordre des propositions ou des phrases peut varier. En dea de la proposition, la variation de l'ordre des mots ainsi que le remplacement d'un mot dans une langue par une priphrase ou une expression polylexicale dans l'autre constituent des obstacles plus vidents encore l'alignement. P. Isabelle et S. Warwick-Amstrong (ibid., p. 292) fournissent une dfinition tout fait gnrale de l'alignement :
(T1, T2, Fs, C(Fs(T1), Fs(T2)))
T1 est le texte source, T2 sa traduction. Fs est une fonction de segmentation (cf. chapitres VII et VIII) qui fragmente le texte (il peut s'agit de mots, de phrases, de paragraphes, de sections). C est une fonction de correspondance qui relie l'ensemble des segments produits par Fs sur le texte source, Fs(T1), l'ensemble des segments fournis par Fs sur le texte cible, Fs(T2). Deux mthodes sont employes pour l'alignement. La premire s'appuie sur l'existence d'une trs forte corrlation entre la longueur d'un segment source et celle de sa traduction. La seconde utilise les paires particulires des mots pour mettre en corrlation. D'autres propositions sont des variations sur ces propositions de base ou encore la combinaison des deux approches. La premire mthode utilise donc la corrlation trs forte entre la longueur des segments qui sont mis en correspondance traductionnelle (ibid., p. 295). Les segments peuvent tre mesurs en nombre de mots (Brown et al., 1991) ou en nombre de caractres (Gale et Church, 1991)206. Chacun des deux textes est d'abord dcompos en phrases207. On se donne un ensemble d'appariements licites (un / zro, zro / un, un / un, un / deux, deux / un, etc.). Dans la plupart des cas, on n'autorise pas les liens croiss. On examine alors tous les appariements possibles compatibles avec les appariements retenus comme licites. On calcule un score refltant la qualit des corrlations des longueurs des segments contenus pour chaque appariement. On retient l'appariement dont le score est le meilleur. Les rsultats sont entre 95 et 100 % d'appariements justes. Cette famille de mthodes prsente l'avantage de ne pas ncessiter de recours un dictionnaire. Inversement, l'examen gros grain des corrlations entre les deux textes empche une resynchronisation quand l'appariement se dcale un endroit donn. La deuxime mthode prend appui sur les mots apparents entre deux langues proches (gouvernement / government par exemple). Il ne s'agit pas d'utiliser un dictionnaire mais de reprer des distances entre chanes de caractres (par exemple en termes de cot de passage d'une chane l'autre en nombre d'effacements, ajouts et substitutions).
Cf. aussi (Blank, 1995 ; Lang et Gaussier, 1995). Tche qui est moins vidente qu'elle n'en a l'air. Que l'on pense aux titres, aux numrations, aux lgendes de tableaux et de figures, aux incises.
206 207
143
208
TROISIEME PARTIE
METHODES ET TECHNIQUES
Bibliographie
145
CHAPITRE VII
CONSTITUER UN CORPUS
Ce qui est appel crment dans (Marcus et al., 1993, p. 313, n. 1) des regroupements opportunistes .
146
du TALN appelle souvent corpus les grandes collections de documents qui lui servent mettre au point ses traitements. Les rencontres organises depuis plusieurs annes par l'ACL (Association for Computational Linguistics) sur les trs grands corpus (very large corpora) traitent de trs vastes donnes textuelles plutt que de corpus proprement parler. On serait plutt tent de voir l du texte , texte dont on ne sait pas toujours trs bien de quels usages langagiers il est reprsentatif. Nous adoptons la dfinition plus restreinte de John Sinclair (1996, p. 4) : Un corpus est une collection de donnes langagires qui sont slectionnes et organises selon des critres linguistiques explicites pour servir d'chantillon du langage. C'est dessein que le mot texte n'est pas employ ici. En effet, comme pour Archer ou pour BNC, les techniques d'chantillonnage peuvent amener briser la squentialit des textes de dpart : on extrait ventuellement des fragments en plusieurs endroits d'un mme texte pour viter de sur-reprsenter ou sous-reprsenter certaines caractristiques210. Les corpus de textes (complets) sopposent aux corpus d'chantillons (ibid., p. 9). On cherche en outre respecter les critres suivants : une taille aussi importante que les moyens techniques le permettent211 (par souci de reprsentativit), des chantillons diversifis (et ventuellement de taille similaire), une origine nettement repre (les coordonnes des documents primaires sont conserves). Par opposition (ibid.) , [d]es mots comme collection ou archive renvoient des ensembles de textes qui ne ncessitent pas de slection ou d'organisation, ou dont la slection ou l'organisation ne ncessitent pas de critres linguistiques212. Les CD-ROM du journal Le Monde, par exemple, rassemblent des articles relevant de discours parfois loigns (langue gnrale de la vie politique et sociale nationale et internationale, langues spcialises diverses : conomie, sport, mtorologie, etc.). Il est donc plus adquat de parler de la collection du Monde sur CD-ROM que du corpus du Monde . On peut alors opposer corpus de rfrence et corpus spcialis : Un corpus de rfrence est conu pour fournir une information en profondeur sur une langue. Il vise tre suffisamment tendu pour reprsenter toutes les varits pertinentes du langage et son vocabulaire caractristique, de manire pouvoir servir de base des grammaires, des dictionnaires et d'autres usuels fiables (ibid., p. 10). Brown, LOB et BNC constituent des corpus de rfrence, les deux premiers uniquement pour l'crit, le troisime
210
Par exemple, les phrases analyses manuellement l'universit de Lancaster (1 million de mots) dans le cadre de la collaboration avec IBM Watson (Black et al., 1993, p. 23) ont t extraites au hasard d'un ensemble de 20 millions de mots de dpches de l'agence Associated Press. Elles ne sont pas conscutives, ce qui ne facilite d'ailleurs pas forcment leur comprhension par les annotateurs. 211 John Sinclair ajoute : Un corpus est suppos contenir un grand nombre de mots. L'objectif fondamental de la constitution d'un corpus est le rassemblement de donnes en grandes quantits . Il se garde de prciser ce qu'il entend par grandes quantits ... 212 G. Leech fait cho (1991, p. 11) : [...] en fin de compte, la diffrence entre une archive et un corpus doit rsider dans le fait que ce dernier est conu ou ncessit pour une fonction 'reprsentative' prcise.
Bibliographie
147
pour l'oral galement. Les deux premiers ne rpondent d'ailleurs plus aux exigences de taille qui peuvent tre les ntres aujourd'hui. Les corpus comparables (ibid., p. 12) constituent des slections de textes similaires dans plus d'un langage ou dans plusieurs varits d'un langage. On peut considrer LOB et Brown comme des corpus comparables. Tous deux regroupent des textes provenant des mmes genres et de la mme anne : 1961, mais ils relvent pour le premier de l'anglais, pour le second de l'amricain. Les corpus spcialiss sont limits une situation de communication, ou un domaine. Parmi ces corpus, on trouve les ensembles relevant de sous-langages que l'on trouve dans les domaines scientifiques et techniques (cf. section 3). Les corpus ou collections parallles sont constitus d'un ou de plusieurs documents traduit(s) dans une ou plusieurs langues (cf. chapitre VI). L'exemple canonique est le Hansard : les dbats du Parlement canadien, en anglais et en franais. Beaucoup de corpus constituent des ressources acheves, ds lors immuables : on n'y ajoute plus rien, mais on peut en extraire ventuellement des sous-corpus (l'oral dans BNC par exemple, ou une diachronie restreinte dans Archer). l'inverse, avec la possibilit de capter en continu des donnes dans certains secteurs (les fichiers de composition de grands journaux comme le Times, par exemple), est apparue la notion de corpus de suivi213 monitor corpus (Sinclair, 1996, p. 4). Par dfinition, un tel corpus ne cesse de crotre. Il devient alors possible d'tudier l'volution de certains phnomnes langagiers : nologismes, emplois privilgis un moment donn de certains suffixes ou prfixes, etc., un peu comme les ditions papier de certains dictionnaires d'usage (Le Petit Larousse, Le Petit Robert) servent de sonde sur le lexique et ses changements. Dans la mesure o ces corpus de suivi sont rcents, ils ne peuvent renseigner dans l'immdiat que sur la courte dure (moins d'une dcennie). Mais avec le temps, ils contribueront notre connaissance de l'volution de certains secteurs de la langue (cf. chapitre V). Un corpus lectronique est un corpus qui est encod de manire standardise et homogne pour permettre des extractions non limites l'avance (ibid., p. 5). En effet, la simple existence sur support lectronique ne fait pas d'un ensemble de textes un corpus lectronique. Encore faut-il que ce document obisse des conventions de reprsentation, de codage rpandues, voire faisant consensus, qui permettent la transmission et la rutilisation des donnes textuelles en cause (cf. section 5).
213
148
Bibliographie
149
150
La dmarche suivie pour la constitution de BNC (Burnard, 1995), conu pour tre un corpus de rfrence pour langlais, sinscrit totalement dans cette seconde optique, ceci prs que les registres ne sont pas pris en compte. Les critres de choix diffrent pour l'crit et pour l'oral. En ce qui concerne l'crit, plusieurs contraintes se superposent : le domaine : 75 % de textes informatifs , le reste appartenant la fiction ; le support : 60 % de livres215, 30 % de priodiques, le reste comprenant des crits non publis ou des supports de discours (crits pour tre lus, comme les informations radio-tlvises) ; la datation : les ouvrages de fiction de 1960 1993 (pour tenir compte de leur dure de vie plus grande) et les ouvrages informatifs de 1975 1993 ; la diffusion : une liste de livres imprims disponibles, les listes des meilleures ventes, celles de prix littraires, les indications de prts en bibliothque ( la fois les ouvrages les plus prts et les ouvrages en prt court terme, qui sont donc trs demands) ont ainsi servi choisir des livres bien diffuss . Pour l'oral, l'objectif est la conversation spontane. Le corpus est constitu par chantillonnage dmographique en termes d'ge, de sexe, de groupe social et de rgion. Les 124 personnes choisies sur ces critres et partir d'un entretien, ges d'au moins 15 ans, disposaient pendant quelques jours d'un magntophone portable pour pouvoir enregistrer leurs conversations. Les consignes taient de varier les moments d'enregistrement (jours ouvrs / fins de semaine) et de noter chaque fois la situation d'interlocution (datation, environnement, participants). L'enregistrement pouvait tre effectu l'insu des participants par la personne choisie, mais les interlocuteurs taient prvenus in fine pour que l'on puisse effacer l'enregistrement si l'anonymat ralis ne leur suffisait pas. En tout, plus de 700 heures d'enregistrement ont t ralises. Outre cet chantillon dmographique, ont t intgres des transcriptions d'interactions orales typiques dans divers domaines : affaires (runions, prises de parole syndicales, consultations mdicales ou lgales), ducation et information (cours et confrences, informations radio-tlvises), prises de parole publiques (sermons, discours politiques, discours parlementaires et lgaux), loisirs (commentaires sportifs, runions de clubs).
Les extraits de livres reprsentent 45 000 mots d'un seul tenant, le dbut tant choisi au hasard (en respectant toutefois les limites discursives du type chapitre).
Bibliographie
151
reprsentativit216. Veut-on reprsenter les textes effectivement reus ? Ou bien les textes et autres noncs produits ? Les genres et domaines fournissent pour l'crit un dcoupage, insatisfaisant certes, mais utilisable, des types reprsenter. Pour l'oral, l'identification des classes considrer est moins avance. Notre connaissance de la population des donnes langagires est donc encore extrmement fragmentaire. Les erreurs statistiques classiques sont par consquent monnaie courante : l'chantillon est trop petit pour bien reprsenter la population, l'chantillon est systmatiquement biais il s'carte significativement des caractristiques de la population (Biber, 1993a, p. 219-220).
152
des combinaisons particulires de sous-classes de mots propres au souslangage en question. Ainsi, dans Menelas, sous diverses formulations se manifeste le schma N1 dilater N2, o N1219 ressortit la classe des mdecins et N2 celle des artres : on dilate une artre coronaire, une artre circonflexe, etc220. La dnomination sous-langage tient du faux-ami. Ces sous-langages ne sont pas forcment en effet des sous-ensembles de la langue gnrale. Certains traits de la langue gnrale s'y retrouvent, d'autres leur sont propres. La prdictibilit de certains arguments peut provoquer leur omission systmatique (on ne parlera pas ici d'ellipse) : par exemple, dans le domaine de la vinification, on sucre est acceptable, mais *on sucre le mot, qui explicite l'argument, n'est pas un nonc bien form. Inversement, les souslangages peuvent recourir des patrons syntaxiques particuliers qu'il serait difficile d'intgrer tels quels une grammaire de langue 221. C'est le cas de certains motifs dnominatifs qui forment de vritables grammaires locales . Par ailleurs, les sous-langages diffrent des langages contrls. Ils rsultent d'ajustements lents et pour une large part non raisonns au sein d'une communaut langagire restreinte. Les langages contrls se caractrisent galement par un lexique et une syntaxe limits, mais ils proviennent d'une planification linguistique dans des domaines o une communication moins quivoque ou plus concise est particulirement importante (dans l'aviation, par exemple).
N1 n'est pas toujours exprim, par exemple dans la nominalisation dilatation de N2 ou dans l'utilisation du passif N2 a t dilat. 220 Il s'agit d'ailleurs d'une mtonymie, c'est en fait un segment qui est dilat et non l'artre entire. 221 Les manuels informatiques anglais ont par exemple un emploi particulier de to vary on [un dispositif], signifiant approximativement le mettre en marche dans des phrases comme The system will be unable to vary on the device (Black et al., 1993, p. 112).
Bibliographie
153
ce sous-domaine. Ils fournissent donc un ensemble de structures smantiques pour reflter les connaissances de ce domaine. L'objectif est ainsi rsum (ibid., p. 198) : La grammaire d'un sous-langage doit 'attraper' les restrictions d'occurrences qui distinguent un champ de discours scientifique d'un autre. Les tapes de cette mise en vidence sont les suivantes. En premier lieu, une analyse syntaxique (manuelle pour Harris, automatique pour Sager) d'un corpus du sous-langage considr. En second lieu, une rgularisation syntaxique par mise en phrases lmentaires (de type sujet verbe complments ventuels). Cela suppose des restructurations et transformations linguistiquement fondes (passage d'une nominalisation au verbe correspondant : dilatation d'une artre coronaire / X dilate une artre coronaire, passage l'actif pour les passifs, etc.) de manire augmenter les proximits. L'interrogation d'un expert du domaine222 permet de disposer des entits (arguments de verbes) qui lui paraissent fondamentales. Sur cette base, les rgularits oprateur / arguments (verbe / sujet et complments) permettent de mettre au jour les classes et les schmas caractristiques du sous-langage.
36.2.2 Les analyses ralises dans ce cadre Les travaux fondateurs sont ceux de Harris et de son quipe sur le discours pharmaceutique et biologique (Harris et al., 1989 ; Ryckman, 1990) ainsi que ceux de l'quipe de N. Sager (New York University), sur le langage mdical (Sager et al., 1987), ces derniers s'appuyant sur un parseur de l'anglais. L'examen d'autres domaines est rapport dans (Grishman et Kittredge, 1986). La communaut du TALN, tant anglo-saxonne que franaise, sest souvent inspire de l'approche harrissienne des sous-langages pour traiter les domaines restreints auxquels elle est souvent confronte.
Cf. (Daladier, 1990, p. 75) : Les catgories d'analyse du contenu informatif de ces textes ont t pour la plupart induites, en employant des mthodes d'analyse distributionnelles, de la formulation de l'information dans ce domaine. Seules les catgories 'lmentaires', c'est--dire celles dont le sens ne dpend pas d'autres catgories, et qui sont reprsentes pour cette raison comme des arguments terminaux de catgories ou de combinaison de catgories de niveau suprieur, ont t directement introduites par des experts du domaine (i.e. de faon non constructive. D'autres travaux mens dans cette optique se sont inspirs de nomenclatures existantes en mdecin.
154
gnrale. En outre, l'accent porte sur une caractrisation avant tout syntaxique : la smantique est conue comme trop peu formalisable223, alors que les travaux de Harris sur les sous-langages aboutissent des grammaires smantiques qui associent aux diffrentes positions de patrons syntaxiques des classes smantiques restreintes. L'Analyse Automatique du Discours (AAD), dveloppe par Michel Pcheux (Pcheux, 1969 ; Maingueneau, 1991) au dbut des annes soixante-dix a utilis une mthode de normalisation manuelle des noncs, elle aussi inspire de l'analyse distributionnelle, et assortie d'un traitement informatique. L'accent tait mis cependant sur la langue gnrale, ou du moins sur des domaines non techniques (discours politique). Les recherches contemporaines sur les sous-langages ne sont pas cites. Aujourd'hui, comme le chapitre II l'a montr, l'existence d'analyseurs robustes rend partiellement possible l'application grande chelle de la mthodologie harrissienne. On peut attacher automatiquement de vastes documents des arbres syntaxiques, y compris en utilisant des mthodes d'apprentissage pour adapter le parseur certains phnomnes propres aux documents en cause (sous-catgorisation des adjectifs, attachements prpositionnels). Les arbres syntaxiques peuvent tre simplifis pour obtenir des phrases lmentaires. Des oprations de rcriture d'arbres peuvent, en fonction du matriel lexical de l'arbre, transformer encore ces arbres (passage du passif l'actif etc.) pour faciliter la mise en vidence de rgularits. Ce nouveau contexte permet surtout d'examiner trois questions. Tout d'abord, les noncs d'un domaine particulier, qui relvent donc pour Harris d'un sous-langage, prsentent-ils vraiment des particularits syntaxiques par rapport la langue dite gnrale, la fois en ce qui concerne les constructions rencontres et les types de contraintes syntaxiques des entres lexicales ? L'existence de vastes corpus de rfrence, au sens donn en section 1, autorise des tudes contrastives nouvelles sur ce point. En second lieu, Harris s'appuyait sur un informateur du domaine et utilisait les catgories d'entits fournies par cet informateur comme point de dpart pour dterminer les classes d'oprandes en fonction des oprateurs utiliss. Cependant, une partie des recherches actuelles en TALN qui visent dgager, partir d'une analyse syntaxique, les oprateurs et leurs arguments au sein d'un domaine donn, essaient souvent de le faire sans ce recours un premier dgrossissage conceptuel du domaine. L'conomie de ce recours s'explique en partie par la difficult d'obtenir ce type de renseignements : on dispose parfois de textes d'un domaine spcialis, mais pas forcment d'informateurs comptents dans ce domaine. Existe aussi la conviction qu'il
223
Les travaux plus rcents autour de Gaston Gross sur les classes d'objets (Gross, 1994 ; Le Pesant, 1994) nous semblent galement loigns de l'optique ouverte par l'hypothse des sous-langages. Il s'agit de catgoriser les mots en fonction des classes d'oprateurs qui leur conviennent : ainsi un bruit sera plutt un vnement que quelque chose de concret dans la mesure o l'on dit : un bruit se produisit , Malgr cet emploi de la notion harrissienne d oprateur appropri , deux divergences essentielles demeurent : l'hypothse que l'on peut isoler de telles classes en langue gnrale ; le recours l'intuition du linguiste et non un corpus.
Bibliographie
155
suffit de disposer d'un ensemble suffisamment vaste de documents du domaine pour que le retraitement d'analyses syntaxiques fasse merger les rgularits syntactico-smantiques. La question demeure donc : peut-on induire les schmas d'un domaine sans le recours une expertise humaine, soit au dpart, soit pour valider les regroupements produits automatiquement ? Bouaud et al. (1997), pour Menelas, comparent les rsultats des classements inspirs de la mthodologie harrissienne avec une nomenclature mdicale gros grain . Ils aboutissent un constat nuanc : les regroupements sur la base de contextes syntaxiques lmentaires sont relativement proches des classes de cette nomenclature, mais il est ncessaire de faire appel des connaissances du domaine pour prciser ou corriger cette catgorisation base linguistique. En troisime lieu, les travaux sur les sous-langages traitent souvent tous les discours produits dans un domaine comme utilisables au mme degr par la mthode d'analyse propose. Dans le domaine mdical, par exemple, on trouve cependant diffrents types de textes, qui correspondent des situations de communication typiques : manuels (destins au futur mdecin), compte-rendus d'examens ou de traitements, lettres des collgues sur un patient commun, mais aussi articles scientifiques sur de nouveaux traitements, vulgarisation, etc. Les trois premiers types seuls se trouvent reprsents dans Menelas. L'analyse spare de ces trois types montre que le discours didactique n'est pas forcment, au moins dans ce cas, le meilleur observatoire des rgularits de ce domaine : par souci de gnralisation, il utilise des hyperonymes qui ne se rencontrent pas dans les compte-rendus d'hospitalisation. On y trouve peut-tre des rgularits propres tout discours didactique (pluriels gnriques, prsent de vrit gnrale, etc.) qui parasitent la perception du sous-langage proprement dit. Dernire question donc : comment articuler finement sous-langages et genres discursifs ?
156
Bibliographie
157
158
remplac les notations positionnelles par une explicitation des types d'information (dans une structure trait-valeur). Le balisage logique d'un document revient indiquer sa structure : ses subdivisions et leurs relations. Il se ralise en deux tapes. La premire est l'identification des lments possibles pour un texte donn et de leurs relations. C'est en quelque sorte crire une grammaire de texte . C'est ce qu'on appelle une Dfinition de Type de Document (DTD). La deuxime tape est l'introduction des balises choisies dans le document relevant de cette DTD, en respectant les rgles dites pour leur combinaison. En adaptant au franais la grammaire de dictionnaires fournie par N. Ide et J. Vronis (1995b) et en simplifiant l'extrme, on peut distinguer les lments suivants : la forme, subdivis en orthographe et phontique, et les homographes, relevant de parties du discours distinctes (linguistique {nom} et linguistique {adjectif}) et subdiviss en sens distincts :
entree forme homographe+ | forme sens+225 forme orthographe phonetique homographe categorie sens+
Chaque lment est encadr par deux balises de mme nom, lune ouvrante, lautre fermante. Les balises sont entre chevrons. La balise fermante commence par une oblique. Le balisage concret serait alors :
<entree> <forme> <orthographe>linguistique</orthographe> <phonetique> mettre</phonetique> <forme> <homographe> <categorie>nom</categorie> [...] <homographe> <categorie>adjectif</categorie> <sens>relatif la linguistique</sens> <sens>propre la langue, envisag du point de vue de la langue</sens> <sens>relatif l'apprentissage des langues</sens> Le signe + signifie que le constituant doit figurer au moins une fois et qu'il peut se prsenter un nombre indfini de fois. La barre verticale spare deux manires possibles de construire une entre : une forme suivie d'homographes, ou une forme suivie d'un ou de plusieurs sens. Une entre de dictionnaire qui ne contiendrait pas d'indications orthographiques et phontiques serait mal forme, par exemple.
225
Bibliographie
</homographe> </entree>
159
Le balisage employ ici rend explicite ce qui n'existait que sous forme d'indices dans la version papier de l'entre. Il obit au langage standard de balisage SGML226 qui est maintenant prsent dans pratiquement tout logiciel de gestion de document227. SGML offre en plus des mcanismes particuliers pour noter les caractres exotiques en faisant abstraction de leur ralisation physique sur telle ou telle architecture. C'est le cas des caractres accentus, mais aussi de l'alphabet phontique international. On peut ajouter de nouvelles conventions de notation pour les caractres ou suites de caractres non prvus, ce qui permet de faire face au caractre ouvert des notations ncessaires. Soulignons que SGML n'est pas une grammaire des textes possibles, mais un mta-langage permettant de dfinir la grammaire des diffrents types de textes228.
L'ISO (Organisation Internationale de Normalisation) a adopt en octobre 1986 SGML (Standard Generalized Markup Language) dans le but d'atteindre une relle souplesse d'utilisation, de rutilisation et d'change de l'information. Cette norme internationale (ISO 8879) a t rapidement adopte par de nombreuses institutions prives et publiques, dans le monde anglo-saxon (American Association of Publishers, British Library, Oxford University Press, industrie aronautique : Bing, Airbus ...) mais aussi en France (Syndicat National de l'Edition, Cercle de la Librairie ...). 227 Le succs grandissant de SGML tient aussi au fait qu'une grammaire particulire, HTML, issue de SGML dcrit le langage hypertextuel utilis pour le Web. Un traitement de texte courant, Word, offre ainsi la possibilit d'exporter un document en mode HTML. 228 (van Herwijnen, 1994) constitue une introduction globale et pratique SGML. 229 Soutenue par l'Association for Computers and the Humanities, l'Association for Computational Linguistics et l'Association for Literary and Linguistic Computing. Le projet a t en partie financ par le National Endowment for the Humanities amricain, la DG XIII de
160
Encoding Initiative) a depuis dix ans rassembl des chercheurs de diffrentes disciplines et de toutes nationalits pour proposer des conventions sur ces types de documents. Elle a dbouch sur des Recommandations230 en 1994. De nombreux projets de constitution de corpus et de ressources linguistiques ont adopt la TEI (BNC par exemple)231. Pour reprendre les termes de J. Andr (1996, p. 17), la TEI constitue un inventaire une sorte de flore, au sens de Buffon des divers lments pouvant constituer un document littraire , et elle reprsente en ce sens une avance dans la description et la formalisation des types de documents en circulation dans les diverses communauts langagires. Elle fournit ainsi indirectement des lments pour les typologies de textes et les tudes sur les genres discursifs. Il ne faut pas s'inquiter de la lourdeur de ces balisages, dont tmoigne l'exemple choisi. Ils ne sont absolument pas faits pour tre insrs et utiliss la main . Des environnements spcifiques permettent le balisage de textes et la vrification de la conformit du balisage effectu avec une grammaire fournie, tout comme les traitements de texte cachent l'utilisateur les codages permettant de mmoriser la prsentation qu'il a choisie.
la CEE, la fondation Andrew W. Mellon et le Social Science and Humanities Research Council du Canada. 230 La TEI est donc une proposition de norme et non une norme. 231 On trouvera dans (Ide et Vronis, 1995a) une prsentation gnrale de SGML et de TEI, ainsi que les propositions relatives aux diffrents types de texte. Les Cahiers Gutenberg n 24 (juin 1996) traduisent certains de ces articles et compltent l'information sur TEI et SGML. 232 Susanne l encore est exemplaire : un livre entier (Sampson, 1995) informe sur ces deux volets du corpus, mais une documentation dj trs prcise reprise dans (Sampson, 1994) est galement fournie avec la version lectronique. La TEI a fait des propositions dtailles sur le type de documentation fournir pour un corpus (Dunlop, 1995).
Bibliographie
161
162
particulier des cas litigieux. Paralllement aux corpus annots, se dveloppent, pour chaque schma d'annotation, des guides d'annotation (guidelines), qui sont parfois plus justement dnomms des recueils de jurisprudence (caselaws). Si les dcoupages et la catgorisation n'ont en effet rien d'une science, il importe par contre de fixer la jurisprudence, partir des dcisions qui ont t prises dans tel ou tel cas, et qui clairent ou rectifient les principes gnraux qui ont t retenus. Les comparaisons de doubles analyses, en dehors des variations mineures, permettent de les tablir. C'est la dmarche suivie Lancaster : [...] les divergences importantes sont rsolues par discussion (ou par appel un tiers quand les deux analystes ne parviennent pas un accord) (Black et al., 1984, p. 34). L'objectif de telles jurisprudences est d'assurer, dans la mesure du possible, une certaine reproductibilit de l'annotation : une comprhension solide de ces conventions doit permettre en principe plusieurs analystes d'aboutir une annotation la plus homogne possible. L'exprience de Lancaster semble montrer, d'ailleurs, que l'annotation (ici sur le plan syntaxique, mais le propos peut tre gnralis) ne peut pas reposer directement sur l'intuition, non taye, des locuteurs, contrairement ce qui avait t essay dans une premire phase. [Les] annotateurs jouissaient d'une telle latitude dans les dcisions prendre lors de l'analyse manuelle qu'ils aboutissaient un degr trs bas de comparabilit des analyses. Plus intressant, ils se sentaient mal l'aise : avec si peu d'indications sur ce qui tait juste ou faux, ils se consultaient les uns les autres et dveloppaient leur propre norme non crite sur la manire d'analyser les phrases, ou bien consultaient les traitements fournis dans les grammaires usuelles. Les conventions tacites et alatoires dveloppes ainsi pouvaient mme tre mutuellement incompatibles. Nous avons fini par cder la demande de 'standards' de codification et le manuel d'analyse est devenu de plus en plus dtaill, jusqu' rduire un minimum les zones d'incertitude (Black et al., 1993, p. 41).
Bibliographie
163
identification fine des transformations et de leur difficult, ce qui ncessite une certaine culture thorique et pratique issue de la tradition informatique des langages formels. Par exemple, nous l'avons vu, une notation dpendancielle ne se laisse pas forcment traduire en arbres. Autant dire qu'une coopration approfondie entre informaticiens (spcialistes du TALN) et linguistes est ncessaire et le restera longtemps. Il semble d'ailleurs que le monde anglo-saxon arrive plus facilement faire cooprer sciences humaines et sciences plus dures , comme le montrent les conditions de ralisation de BNC ou de Penn Treebank, alors qu'en France, la division entre lettres et sciences reste extrmement forte (ne serait-ce que par l'existence d'universits distinctes pour chaque secteur). Enfin, la constitution de corpus est une entreprise de longue haleine et coteuse. Elle suppose des moyens financiers et institutionnels lourds. Le consortium l'origine de BNC est significatif cet gard235. On note l'alliance de comptences universitaires en linguistique et en informatique et d'entreprises prives, en particulier d'diteurs, ainsi que le soutien de la puissance publique.
164
prcisment les diffrentes parties prenantes et leurs droits. Les interrogations juridiques peuvent donc concerner la cration du corpus, sa protection une fois constitu et enfin sa diffusion237. Lors de la cration du corpus, il s'agit d'abord d'identifier les matriaux viss et le rgime juridique de chacun d'eux (certains peuvent tre protgs par le droit d'auteur, d'autres non, comme frquemment les textes officiels d'origine lgislative, administrative ou judiciaire, pour faciliter leur diffusion). Des autorisations, en fonction des traitements envisags, peuvent tre demander non seulement pour le respect du droit pcuniaire et patrimonial mais aussi pour celui du droit moral238 de l'auteur sur son uvre (droit de divulgation, droit au respect de l'uvre, etc.). La reproduction opre peut en outre correspondre un rgime d'exception au droit de reproduction (usage priv, reproduction par des tablissements de recherche, etc.). L'utilisation prvue du corpus influe aussi sur la nature des autorisations ngocier. Les produits issus d'un corpus (index, thesaurus, lexique) doivent galement tre protgs, au mme titre que le corpus lectronique lui-mme. La diffusion du corpus peut se faire par cessions de droits, soit par licences d'utilisation (commercialisation par CD-ROM) soit par contrats d'abonnement ou d'interrogation.
237
Le rapport de N. Pujol (1993) ne donne pas l'ensemble des situations qui peuvent se prsenter et des attitudes adopter, mais fournit une liste aussi exhaustive que possible des questions juridiques se poser lors de la constitution d'un corpus, en particulier dans un cadre international. Nous nous inspirons de ce travail dans ce paragraphe. 238 L'uvre tant manipule en tout sens, il conviendra de s'assurer qu'il n'est pas port atteinte au droit moral de l'auteur. Ce droit peut tre menac : a) par la mauvaise qualit du traitement linguistique b) mais aussi du seul fait que le traitement linguistique opr ne participe pas du mode de reproduction de l'uvre autoris par l'auteur (Pujol, 1993, p. 14).
Bibliographie
165
CHAPITRE VIII
ANNOTER UN CORPUS
Nous ne prtendons pas fournir ici une prsentation exhaustive. L'clatement des ralisations, disperses dans les publications, l'volution rapide des outils, les avances thoriques et pratiques conduisent un instantan fragmentaire. Il est en outre difficile de prvoir les tendances moyen terme. Notre objectif est de donner une ide des grands axes ... et des difficults. Dans la tradition pragmatique anglo-saxonne, les publications concernant les corpus mentionnent souvent les cots des diffrentes oprations ncessaires. Ces renseignements permettent de prendre la mesure des moyens mobiliser pour disposer des corpus rellement adapts aux recherches linguistiques. l'chelle de la francophonie, ils donnent une ide de l'ampleur des efforts fournir. Ces " cots " sont cependant donns titre indicatif. Ils donnent un ordre de grandeur, ils n'autorisent pas vraiment des projections, des comparaisons. chaque niveau, les types d'annotation diffrent trop pour qu'une mise en parallle soit aise. Pour s'en tenir l'tiquetage, la taille du jeu d'tiquettes peut changer du tout au tout le cot de la correction.
166
optique : il faut restituer les mots qui ont t rpartis entre deux lignes, corriger les erreurs typographiques. Il peut s'agir galement de textes dj saisis pour d'autres fins (bandes de composition de livres ou de journaux), le codage qui y figure doit tre pris en compte, pour tre transform ou supprim. Nous ne connaissons pas d'tude spcifique sur les cots de cette phase. Le compte-rendu du projet AVIATOR (Blackwell, 1993) permet nanmoins d'valuer les difficults rencontres. L'objectif est ici de dvelopper des filtres permettant de nettoyer du texte tout-venant pour tudier l'volution presque au quotidien de l'anglais, dans la perspective d'un corpus de suivi (cf. chapitre VII). Deux millions et demi de mots, provenant du journal The Times, sont traits chaque mois. Le titre mme de ce compte-rendu donne une ide de l'ampleur du problme : Des donnes sales au langage propre . Comme S. Blackwell le souligne (ibid.), la correction de ce qui semble tre des erreurs typographiques ne va pas forcment de soi. Une orthographe non standard a parfois pour but d'imiter une prononciation trangre, dialectale ou idiolectale. Ou bien le mot a t forg dans une optique ludique239 (mot-valise, dformations diverses). Il s'agit alors de choix dlibrs de la part de l'nonciateur, qui doivent donc tre conservs comme tels. Les donnes comprennent parfois des codes propres au traitement pour lequel les documents taient destins au dpart (par exemple des indications de photocomposition). Les titres, sous-titres et lgendes suscitent aussi un traitement spcifique : quoiqu'ils constituent des units part entire, ne pas mler au texte qui les environne, ils sont gnralement dpourvus de ponctuation finale. Il faut donc distinguer leur dbut et leur fin.
42. SEGMENTATION
La segmentation consiste dcouper une suite de caractres en units : mots simples ou units polylexicales.
Cf. (Fiala et Habert, 1989 ; Renouf, 1993). (Silberztein, 1993, p. 111-136) montre la complexit des phnomnes. (Mathieu-Colas, 1994) montre l'htrognit extrme des emplois du trait d'union dans les
Bibliographie
167
sparateur comme guillemet simple, pour signaler l'lision, composant dans aujourd'hui, les abrviations et la reprsentation du langage parl : v'la au't chose. C'est le cas surtout de l'espace, partie intgrante des units complexes : une carte bleue. Les units complexes occupent une place importante en franais. On estime au cinquime d'un texte la surface qu'elles couvrent. Pour le franais, des inventaires extrmement fournis ont t raliss au LADL, sous l'impulsion de M. Gross, aboutissant un dictionnaire lectronique de mots composs ou DELAC (Courtois, 1990 ; Silberztein, 1993, p. 60-108). Ce dictionnaire associe aux squences retenues des indications sur leurs variations ventuelles (flexion, discontinuits, alternances lexicales) ainsi que leurs proprits syntaxiques (transformations242). Mentionnons la difficult dcouper automatiquement le texte en phrases : titres, numrations spares par des points-virgules, exemples insrs dans le texte et faisant interposition, etc. La ponctuation offre des indices peu fiables243. Le point est une marque d'abrviation, un sparateur dans des codes (01.41.13.24.63) ou des nombres (3.13) , un indice d'alignement (dans une table des matires) et une fin de phrase. Or le dcoupage en phrases est crucial pour de nombreux traitements : examen des cooccurrences, tiquetage et analyse syntaxique ...
42.2 Techniques
Pour isoler les mots , on crit des rgles qui emploient le contexte pour statuer sur les limites des units. Par exemple, un trait dunion ayant sa droite un pronom clitique comme je, tu, il a un statut de dlimiteur. Il spare un verbe de son pronom sujet conjoint (un t dappui peut sinterposer). Ces rgles sont combines avec le recours des dictionnaires de mots simples ou complexes (par exemple, comprenant la liste des mots franais qui incluent en leur sein lapostrophe, comme aujourdhui ou prudhommes). Le systme INTEX244 (Silberztein, 1993) est lexemple dun segmenteur associant rgles et dictionnaires. partir des dictionnaires lectroniques du LADL, il assure le dcoupage initial d'un texte tout-venant, l'tiquetage des mots simples et la reconnaissance des units polylexicales. Son approche est base sur des rgles et non sur des probabilits. Il combine deux traitements : la projection sur le texte des dictionnaires, ce qui associe chaque " mot " la ou les tiquette(s) pertinente(s) ainsi qu'aux suites de mots (ventuellement discontinues) leurs lectures ventuelles comme " mots composs " ou " expressions composes ", puis une dsambigusation par
dictionnaires. 242 Par exemple, analyse des donnes au sens statistique n'accepte pas le pluriel pour analyse ni le singulier pour donnes ni le remplacement de des par de. 243 Pour le rle de la ponctuation dans l'analyse syntaxique, voir (Nunberg, 1990). 244 Les techniques prouves des automates et des transducteurs tats finis lui donnent une grande efficacit.
168
des " grammaires locales " (ibid. p. 154-167). Par exemple, la phrase Luc a travaill pour le Ministre de l'intrieur admet deux interprtations (ibid., p. 139) : C'est de l'intrieur que Luc a travaill pour le Ministre et C'est pour le Ministre de l'intrieur que Luc a travaill. Il y a conflit entre deux units polylexicales : Ministre de l'intrieur et de l'intrieur. La reprsentation produite signale les deux dcoupages : Luc a travaill pour le 1[Ministre 2[de l'intrieur]2]1 o les indices identifient les deux possibilits. En l'occurrence, l'ambigut n'est pas leve. Dans d'autres contextes, on peut trancher. Des grammaires locales laguent le graphe que constitue le texte dans lequel ont t ajoutes les tiquettes des mots simples et les expressions et mots composs. Elles permettent d'liminer certains chemins245. Par exemple, lorsquun mot peut tre pronom clitique ou dterminant et quil est suivi dune forme qui ne peut tre quun verbe, comme dans : Max le veut, ltiquette {pronom clitique} est limine.
42.3 Difficults
Les units polylexicales occupent une place fondamentale dans le lexique. Un segmenteur qui ne dispose pas dinventaires de ces units va mietter tort les textes. De multiples techniques ont t testes pour faciliter le reprage automatique de ces mots complexes. Certaines d'entre elles ont t voques au chapitre II. D'autres reposent sur le filtrage statistique des mots qui s'attirent au sein d'un contexte restreint, d'autres encore sur l'utilisation de patrons syntaxiques (du type [{nom} {prposition} {nom}] comme cadre de vie), d'autres enfin combinent ces deux approches (Daille, 1993). Cependant, nombre de squences proposes par ces outils ne constituent pas en fait des dnominations (cf. II 3.3)246. Les inventaires d'units complexes raliss pour le TALN suscitent gnralement la perplexit ou la contestation sur la dlimitation faite et sur le choix de considrer telle squence comme une unit dnominative plutt que comme un syntagme libre. Le risque symtrique de l miettement est de considrer tort des suites de mots comme des units polylexicales. Lutilisation de dictionnaires comprenant un nombre important d'units complexes fait natre en outre des ambiguts pour les squences qui fonctionnent comme un tout dans certains domaines et qui sont considrer comme des syntagmes libres dans d'autres. Dans l'analyse des donnes montre que ... , le segment analyse des donnes peut renvoyer une
245 246
Soulignons l'extrme gnralit du traitement effectu. Cela permet d'utiliser INTEX pour d'autres traitements : tiquetage smantique etc. Cet excdent s'explique partiellement par le caractre encore fruste des techniques employes. Il tient plus fondamentalement aux limites de nos connaissances sur les mcanismes langagiers de cration d'units dnominatives. Les contraintes smantiques l'uvre sont encore trs peu explores. Enfin, les dnominations possibles constituent un sur-ensemble des dnominations effectives, il n'est pas sr qu'on puisse modliser la manire dont une communaut langagire choisit au sein des dnominations possibles.
Bibliographie
169
famille prcise de techniques statistiques (prsente dans le chapitre IX), et c'est alors une unit, ou bien il doit tre pris au pied de la lettre , comme un groupe de mots sans lien particulier247. Plus les inventaires d'units complexes s'tendent, plus ils rendent probables ces rencontres de hasard. Il n'est pas toujours sr qu'il faille faire l'hypothse, lorsqu'on rencontre une squence inventorie, de la prsence effective de cette squence.
On ne sait pas attacher de manire fiable une unit polylexicale une indication de domaine (analyse de donnes : mathmatiques, statistiques) et encore moins s'en servir pour n'utiliser que les units propres au domaine, d'autant que les domaines sont permables : la linguistique peut recourir l'expression analyse des donnes dans ses deux acceptions. 248 J.-P. Chanod et P. Tapanainen (1995b) les comparent prcisment, partir d'une mme segmentation et d'un mme analyseur morphologique. Ils donnent l'avantage l'approche par rgles. 249 Ces 8 formes sont : la le l' les en un une a. 250 Les chiffres de J.-P. Chanod et P. Tapanainen (1995b) concordent globalement.
170
1 57 % 58 % 2 26 % 25 % 3 11 % 11 % 4 0,5 % 1% 5 0,9 % 2% 6 2% 2% 7 0,5 % 0,5 % 8 0,5 % 0,1 % Plus de la moiti des mots ne soient pas ambigus. Le nombre de mots pouvant relever de 4 8 tiquettes est trs restreint (4.4 % dans le premier cas, et 5.6 % dans le second). Le taux moyen d'ambigut par mot se monte alors 1.72 pour le premier corpus et 1.81 pour le second251.
Bibliographie
171
bien que ou carte bleue)252. Les automates ou transducteurs correspondants ne savent pas traiter les dpendances longue distance que lon trouve en syntaxe. Cest galement le cas en dsambigusation probabiliste.
J.-P. Chanod et P. Tapanainen (1995b) ont ainsi dvelopp un tiqueteur qui comprend 75 rgles. E. Tzoukermann et al. (1995) donnent des exemples des rgles qu'ils ont mises au point pour le franais.
172
right etaient mal tiquets dans la partie orale du corpus dans la mesure o l'apprentissage avait t ralis sur la partie crite (Leech et al., 1994).
43.4 Performances
Aucun dictionnaire ne peut tre entirement exhaustif. En outre, les entres du dictionnaire peuvent tre incompltes (certaines catgories, pourtant possibles, en sont omises). Un analyseur morphologique ne fournit pas non plus d'hypothses sur la totalit des mots tiqueter. Il reste donc toujours des mots inconnus , ne serait-ce qu'en raison des noms propres, des mots emprunts des langues trangres ou des nologismes (dbureaucratiser). Les taux habituellement cits tournent autour de 95 98 % d'tiquettes justes. Ce chiffre parat encourageant. Cependant, ces performances incluent souvent les ponctuations parmi les formes tiquetes. Or les ponctuations couvrent environ 10 15 % de la surface des textes, ce qui diminue d'autant le nombre des formes lexicales qui sont effectivement correctement catgorises. Par ailleurs, nous l'avons vu, une bonne moiti des formes d'un texte ne relve que d'une catgorie et d'une seule. La dsambigusation est donc comptabiliser sur le reliquat seulement, ce qui double le pourcentage d'erreur. Notons enfin que 5 % d'erreur, c'est une tiquette errone tous les 20 mots, soit plus d'une fois par phrase dans un texte courant. Une telle performance handicape un parseur intervenant en aval. La fiabilit d'un tiqueteur donn est valuer l'aune des tches qui vont avoir recours par la suite au texte tiquet : les enjeux ne sont pas les mmes s'il s'agit d'analyse syntaxique automatique ou d'tude de la rpartition de certains patrons morpho-syntaxiques. Il convient aussi de comparer les rsultats affichs avec ceux qui proviennent d'une intervention manuelle. M. Marcus et al. (1993) indiquent : l'tiquetage manuel a pris peu prs deux fois plus de temps que la correction d'un tiquetage automatique, avec un taux de dsaccord entre personnes tiquetant peu prs double, et un taux d'erreur presque de 50 % plus lev. Il est en outre extrmement difficile de comparer les performances : les jeux d'tiquettes, leur taille changent d'un systme l'autre : 37 catgories pour (Chanod et Tapanainen, 1995), 253 pour Tzoukermann et al., 1995) par exemple. Le taux d'ambigut d'un tiquetage est en effet proportionnel la taille du jeu d'tiquettes employ. Il faut galement tenir compte de la stabilit des rsultats : si le taux dambigut restant ne varie que faiblement (1.2 %) dans les expriences d'E. Tzoukermann et al. (1995) selon qu'ils emploient un jeu de 67 ou de 253 catgories, 2.5 % des formes ont t analyses diffremment, (Stein et Schmid, 1995, p. 29), des rsultats relativement divergents sont donc fournis. En outre, les ambiguts possibles ne sont pas de mme nature : on ne peut mettre sur le mme plan l'hsitation entre nom et verbe (porte) et celle entre adjectif et participe pass. Dans ce cas, la leve d'ambigut n'a pas les mmes consquences pour les traitements
Bibliographie
173
ultrieurs : considrer un mot comme adjectif ou participe pass changera peu la place qui lui sera attribue dans la structure construite.
174
voques ci-dessus, ou vice-versa253. Les techniques d'apprentissage sont galement mises contribution. La tentative la plus acheve est actuellement celle d'E. Brill (1995), dont l'tiqueteur est en cours d'adaptation pour le franais. Le systme dispose d'un dictionnaire associant aux formes les probabilits qu'elles portent telle ou telle catgorie. La catgorie la plus probable est projete sur le corpus de mise au point. Les erreurs commises ainsi sont repres par comparaison avec la version tiquete la main de ce corpus. Le systme propose des rgles de correction, assez proches finalement de celles qui ont t voques ci-dessus. Elles sont de la forme : changer une tiquette a en tiquette b si le mot prcdent est tiquet w. Elles prennent en compte un contexte troit : deux positions avant ou aprs la forme examine. Sont retenues les rgles qui amliorent le plus l'tat de la catgorisation, c'est--dire qui enlvent le plus d'erreurs et en ajoutent le moins. Ces rgles sont alors appliques. Une nouvelle comparaison et une nouvelle gnration et application de rgles sont opres, jusqu' ce quil ne soit plus possible de corriger le texte sans ajouter davantage derreurs quon nen corrige. C'est une autre forme, automatique cette fois, du processus mentionn de tche d'huile autour d'lots de confiance. E. Brill indique par exemple que son systme apprend 447 transformations sur un corpus d'entranement de 600 000 mots avec une exactitude de 97.2 %, mais que les 100 premires suffisent assurer une dsambigusation exacte 96.8 % (ibid., p. 557). Ces rgles peuvent s'appuyer soit sur les catgories, ventuellement multiples, soit aussi sur les mots domins par les catgories. Pour reprendre les termes de Leech et de ses collgues (1994, p. 61) : La guerre contre l'erreur est [...] une guerre d'usure, dans laquelle des stratgies varies sont employes, mais o il ne faut pas s'attendre une solution-miracle. Le rle de la personne qui corrige a posteriori reste crucial, mais l'limination de l'erreur est une tche qui est, petit petit, passe l'ordinateur.
Comme l'indiquent M. El-Bze et T. Spriet (1995, p. 48) : " [...] il suffit d'crire 4 5 rgles pour traiter environ 50 % des erreurs commises par un systme probabiliste. " E. Tzoukermann et al. (1995) constituent comme autant de modules un analyseur morphologique, un ensemble de rgles d'lagage et un tiqueteur probabiliste : ils les combinent de diverses manires (en retenant 43 possibilits, jouant sur des seuils et des ordres distincts) et examinent les performances selon les choix, ce qui les conduit utiliser d'abord les rgles puis les probabilits.
Bibliographie
175
rsultats.
44.1.2 Rgles " positives " Elles peuvent tre de complexit plus ou moins grande. Les grammaires affixes du projet TOSCA (Nederhof et Koster, 1993, p. 166-170) qui dcorent des rgles hors contexte d'affixes reprsentant des paramtres, des attributs ou des traits, permettent une grande finesse de comportement : vrification des accords et des compatibilits smantiques etc.
(Rajman, 1995) fournit une introduction gnrale aux modles probabilistes pour l'analyse syntaxique. (Black et al., 1993) constitue une prsentation beaucoup plus dtaille, la fois en ce qui concerne l'apprentissage des paramtres d'un modle probabiliste et pour l'interaction entre approche
176
binaire acceptable / non acceptable pour un couple <squence, structure> par une probabilit, les squences inacceptables pouvant correspondre alors une probabilit nulle (ibid. p. 159). Les deux problmes mentionns trouvent l leur solution. Certains agencements sont reconnus comme rares, mais possibles. D'autres prennent une place centrale, leur probabilit tant forte. La probabilit attribue chaque structure pour une phrase donne permet de classer les structures par probabilit croissante, et de garder la ou les structures de plus forte probabilit. Un corpus arbor de dpart sert l'apprentissage du modle : la probabilit des diffrentes ralisations d'un syntagme donn est estime partir de sa frquence dans ce corpus255. L'utilisation du modle sur un corpus plus large permet de vrifier l'adquation du modle et de l'amliorer (en accroissant le corpus d'apprentissage).
Bibliographie
177
recherches linguistiques fines. Pour le systme TOSCA, H. van Halteren et N. Oostdijk (1993, p. 155) indiquent que, pour les textes de fiction, dans 88 % des cas, l'analyse juste fait partie des rsultats produits par le parseur, alors que cette proportion tombe 56 % pour les textes qui ne relvent pas de la fiction. Malheureusement, ils ne fournissent pas d'hypothses sur les raisons de ce dcalage. Les textes informatifs comprennent-ils des phrases plus longues, des constructions spcifiques (par exemple propres des disciplines scientifiques ou techniques) qui ne se rencontreraient pas dans les textes de fiction ? Selon A. Voutilainen et J. Heikkila (1994, p. 194), le parseur ENCG donne l'tiquette syntaxique correcte d'un mot dans 96 % des cas (85 % environ des mots n'ont plus qu'une seule tiquette syntaxique la fin du processus d'mondage, mais avec un taux d'erreur de 3 %). Les constats de (Black et al., 1993, p.2-5), voici quelques annes, sont plus svres. Les auteurs parlent de dplorable tat de l'art (ibid. p. 2) et citent trois expriences peu encourageantes. Dans la premire, trois des auteurs chercheurs IBM Watson ont procd de manire indpendante, en 1990, lvaluation de quatre parseurs importants pour l'anglais, sur 35 phrases de 13 mots extraites au hasard de dpches (2 millions de mots) de l'agence Associated Press. Les avis concordaient : un des systmes analysait 60 % des phrases correctement. Les scores des trois autres parseurs allaient de 35 40 % de rsultats justes. Deuxime exprience : en 1992, le concepteur d'un parseur important a pris 50 phrases de 13 mots dans Brown, en variant les genres choisis. Il a indiqu les frontires de constituants la main, prparant ainsi la bonne rponse . Il a ensuite utilis son parseur : les rsultats taient corrects dans 30 % des cas seulement. Troisime exprience : la comparaison en 1992 des rsultats de sept parseurs sur 100 phrases de longueur variable (de 4 69 mots avec une moyenne de 22 mots) tires au hasard d'un million de mots du Wall Street Journal. La correction moyenne du simple parenthsage (sans prendre en compte les tiquettes) ne dpassait pas 22 %, et les rsultats s'talaient de 16 % 41 % de rsultats structuralement corrects. Un second critre d'apprciation, concernant les parseurs et les grammaires qu'ils utilisent, est la rutilisation possible ou effective de l'approche soit sur d'autres secteurs de la mme langue soit pour d'autres langues. C'est ainsi que le parseur ENCG dvelopp pour l'anglais a t adapt au sudois, au danois et au basque (Voutilainen et Heikkila, 1994, p. 191). Un troisime critre, li au prcdent, mais plus difficile apprcier, parce que moins factuel, est celui de la " coloration thorique " des conventions d'annotation. quel cadre thorique sous-jacent renvoient-elles ? Notons tout de mme que la tendance est plutt, sinon des notations consensuelles, ce qui n'a pas grand sens, du moins des pratiques vitant les distinctions controverses et les parti-pris mthodologiques trop marqus256. C'est
256
Une exception au moins : le corpus de 65 000 mots d'oral transcrit (enfants de 6 12 ans) analys manuellement (Polytechnic of Wales) qui s'inspire troitement de la Grammaire Fonctionnelle Systmique de Halliday.
178
ncessaire pour que le corpus puisse tre rutilis (Black et al., 1993, p. 37). Il est enfin un critre que nous carterons, celui du temps ncessaire au parsage lui-mme257. D'abord parce qu'il est difficile de donner des informations comparables (les langages informatiques utiliss, la taille des mmoires, leur configuration changent notablement le sens des mesures). Ensuite parce le temps de calcul n'est plus une ressource rare, et qu'en outre l'amlioration des performances des machines le rduit continuement. Enfin, parce que l'optimisation des parseurs est un art fructueux258, mais qu'il faut probablement attendre une plus grande maturit du domaine pour qu'elle soit vraiment l'ordre du jour pour les corpus arbors.
A titre anecdotique, deux chiffres, emprunts Hindle (1994, p. 116) : avec Fidditch, de l'ordre de 6 heures pour analyser un million de mots, et presque deux semaines pour analyser 44 millions de mots de dpches de l'agence Associated Press. 258 F. Karlsson indique ainsi (1994, p. 142) qu'une rcriture du parseur ENCG a fait passer le temps d'analyse de 3 5 mots seconde 400 500 mots seconde ...
Bibliographie
(? (ADV "here/RB")) (? (ADV "always/RB")) (AUX (TNS *)) (VP (VPRES "buck/VBP")) (? (PP (PRES "up/RP") (NP (NBAR (ADJ "nervous/JJ") (NPL "newcomers/NNS"))))) (? (PP (PREP "with/IN") (NP (DART "the/DT") (NBAR (N "tale/NN") (PP of/PREP (NP (DART "the/DT") (NBAR (ADJP (ADJ "first/JJ"))))))))) (? (PP of/PREP (NP (PROS "their/PP\$") (NBAR (NPL "countrymen/NNS"))))) (? (S (NP (PRO *) (AUX to/TNS) (VP (V "visit/VB") (NP (PNP "Mexico/NNP")))))) (? (MID ",/,")) (? (NP (IART "a/DT") (NBAR (N "boatload/NN") (PP of/PREP (NP (NBAR (NPL "warriors/NNS")))) (VP (VPPRT "blown/VBN") (? (ADV "ashore/RB")) (NP (NBAR (CARD "375/CD") (NPL "years/NNS"))))))) (? (ADV "ago/RB")) (? (FIN "./.")))
179
180
La reprsentation est simplifie pour faciliter la tche des annotateurs en rendant le rsultat visuellement plus clair et en liminant des distinctions mineures (nom propre / nom commun, par exemple).
( (S (NP (ADJ Battle-tested industrial) managers) (? here) (? always) (VP buck) (? (PP up (NP nervous newcomers))) (? (PP with (NP the tale (PP of (NP the (ADJP first)))))) (? (PP of (NP their countrymen))) (? (S (NP *) to (VP visit (NP Mexico)))) (? ,) (? (NP a boatload (PP of (NP warriors)) (VP blown (? ashore) (NP 375 years)))) (? ago) (? .))
3) Aprs correction manuelle : L'environnement utilis permet d'attacher un constituant, de changer sa position dans l'arbre, de modifier son tiquette ... Grce des notations
Bibliographie
181
spcifiques, on peut d'une part indiquer qu'une squence est un constituant majeur mais que sa catgorie syntaxique est sujette discussion, et d'autre part rendre compte des ambiguts relles : c'est le cas pour blown ashore 375 years ago qui peut modifier soit warriors soit boatload, d'o l'indication *pseudo-attach*.
( (S (NP Battle-tested industrial managers here) always (VP buck up (NP nervous newcomers) (PP with (NP the tale (PP of (NP (NP the (ADJP first (PP of (NP their countrymen))) (S (NP *) to (VP visit (NP Mexico)))) , (NP (NP a boatload (PP of (NP (NP warriors) (VP-1 blown ashore (ADVP (NP 375 years) ago))))) (VP-1 *pseudo-attach*)))))))) .)
182
44.5 Cots
Pour l'insertion manuelle d'arbres syntaxiques rudimentaires (parenthsage et tiquetage des constituants), la vitesse peut atteindre une phrase par minute (Black et al., 1993, p. 20). La moyenne pour l'analyse syntaxique manuelle effectue l'universit de Lancaster est de 51 minutes pour 1 000 mots : cela comprend pr-traitement, parenthsage et tiquetage grossier dans un environnement informatique spcifique et post-traitement (ibid. p. 60). D'aprs (Marcus et al., 1993, p. 323), la correction des rsultats du parseur utilis pour Penn Treebank suppose un temps d'apprentissage (de l'ordre de deux mois) plus long que le nettoyage de l'tiquetage. La vitesse moyenne de correction est alors de l'ordre de 475 mots l'heure (voire 575 ou 675 quand les sorties du parseur sont simplifies avant correction). L'valuation faite est la suivante (ibid.) : un taux moyen de 750 mots par heure, une quipe d'annotateurs temps partiel travaillant 3 heures par jour devrait arriver 2,5 millions de phrases analyses corriges en un an, chaque phrase tant corrige une seule fois. Il faut en outre prvoir le temps de familiarisation avec les conventions dannotation syntaxique. (Black et al., 1993) indique ainsi qu'il a fallu attendre six mois d'apprentissage en moyenne avant que le travail d'un annotateur devienne optimal.
44.6 Difficults
Tout ne ressortit pas un format d'arbre. C'est le cas des lments parenthtiques qui forment des structures autonomes, non relies au reste de la phrase. Cela suppose que le parseur puisse suspendre l'analyse englobante, effectuer celle d'un tel lment, et reprendre l'analyse de plus haut niveau (Briscoe, 1994, p. 98). supposer que l'on arrive analyser automatiquement de telles structures, il reste disposer des notations adquates. La distinction entre les arguments d'un verbe et ses simples modifieurs s'avre extrmement dlicate ajouter de manire cohrente. Le dessein, dans Penn Treebank, tait d'ajouter manuellement cette information. La difficult rencontre a conduit faire machine arrire. De la mme manire, Susanne n'a pas russi, malgr des efforts soutenus des annotateurs, intgrer un classement des complments en termes de grammaire de cas, la Fillmore : la nature des relations logiques que des prdicats varis entretiennent dans l'usage rel avec leurs arguments s'est avre trop diverse pour un tel traitement, et l'quipe croit avoir 'test jusqu' puisement'259 l'hypothse selon laquelle la structure propositionnelle de
259
tested to destruction
Bibliographie
183
base en anglais peut tre adquatement dcrite grce un ensemble limit de 'cas (Sampson, 1994, p. 185). Les relations entre les pronoms et leurs antcdents n'ont pas non plus t ajoutes Susanne, probablement moins par peur de dboucher sur des apories que faute de moyens. Toute grammaire fuit , pour reprendre une image souvent employe dans la communaut du parsage robuste. L'ide de rendre compte de l'ensemble des phnomnes syntaxiques de la langue (on parle de la couverture de la grammaire utilise par un parseur) est un fantasme, stimulant certes, comme tous les mythes, mais illusoire, comme le soulignent du point de vue linguistique J.-M. Marandin (1993) et du point de vue du TALN T. Briscoe (1994, p. 100). Une raison de fond : la langue varie. Dans le temps d'abord. Mais aussi selon les genres discursifs et les domaines d'emploi. la diffrence des langages formels utiliss en logique ou en informatique, l'ensemble des rgles n'est pas donc fini. Ce constat, classique pour le lexique, soulve plus de rticences en syntaxe.
260
Une variante de cette mthode consiste projeter des connaissances non pas sous la forme dtiquettes destines enrichir le texte, mais sous la forme de patrons qui permettent de slectionner de manire cible des donnes considres comme pertinentes. Nous ne dveloppons pas cet aspect ici. (Hearst, 1992) exploite, par exemple, cette mthode pour rechercher des relations hyponymiques dans un corpus destines enrichir un thesaurus existant.
184
45.1.1 Dfinir un contexte Le choix de la nature du contexte dpend du corpus exploit et des relations smantiques recherches. G. Grefenstette retient le syntagme nominal pour identifier les noms smantiquement voisins et le document pour construire les familles de mots (cf ; chapitre IV, section 2). Trois grandes classes de
261
Nous ne considrons ici que les relations entre mots, mais les affinits peuvent tre calcules pour dautres units : on a vu (en III-2) que G. Grefenstette calcule des similarits entre des expressions, en loccurrence des groupes nominaux (1993). 262 Nous gnralisons le propos de G. Grefenstette en dcrivant le troisime ordre daffinit comme celui des relations dquivalence plutt que comme celui des axes smantiques qui nous semblent avoir un statut intermdiaire entre la similarit et lquivalence.
Bibliographie
185
contextes peuvent tre identifies : les contextes graphiques, syntaxiques et documentaires. Lextrait de Menelas suivant montre la diffrence, pour le mot pisode, entre une fentre de 7 mots (encadre) et le contexte syntaxique tel que le dfinit (Grefenstette, 1994) (en italiques) :
Depuis cette poque on ne note aucune rcidive d'angor jusqu il y a 8 jours o il a prsent un pisode de prcordialgie survenant l'effort, durant environ 45 minutes, sans irradiation263.
Les contextes graphiques se dfinissent comme des fentres de mots : deux mots cooccurrent sils figurent moins de x mots de distance264 dans lordre linaire du texte. La taille de la fentre dpend des relations smantiques que lon recherche, les cooccurrences petite, moyenne et grande distance tendant respectivement faire ressortir des expressions figes ou semi-figes (prendre pour, avoir faim), des contraintes de slection (boire / vin) et des mots appartenant au mme champ smantique (Lafon, 1981; Church et Hanks, 1990). Le calcul des fentres graphiques ne ncessitant quun corpus segment, elles sont souvent privilgies pour le traitement de gros corpus. Lapparition de corpus arbors permet dsormais de dfinir des contextes syntaxiques. Seuls les mots appartenant au mme syntagme ou, mieux, en relation de dpendance syntaxique sont alors retenus comme cooccurrents. Pour tudier les contraintes de slection, on considre ainsi les relations sujet-verbe ou verbe-objet (Church et Hanks, 1990 ; Hindle, 1990) tandis quon prend le groupe nominal comme contexte pour reprer les classes dadjectifs (Assadi et Bourrigault, 1995). Cette approche syntaxique suppose de disposer dun corpus arbor ou partiellement arbor et gnralement dsambigus sur le plan morpho-syntaxique265, mais elle engendre moins de bruit que lapproche graphique266 : les contextes linguistiquement aberrants (lassociation jours pisode dans lexemple ci-dessus) sont limins. Cela rend cette approche bien adapte aux corpus de taille moyenne (Basili et al., 1993a ; Bouaud et al., 1997). Les contextes documentaires, enfin, sont dfinis partir dune unit textuelle (paragraphe, partie, article, chapitre, document). Cest ce type de contexte que G. Grefenstette dfinit pour le calcul des variantes. De nombreux auteurs ne retiennent par ailleurs que les contextes les plus significatifs. Ce filtrage a posteriori des contextes pralablement extraits est le
263 Nous navons pas considr ici que les groupes prpositionnels durant 45 minutes et sans irradiation devaient tre rattachs pisode. Pour langlais, G Grefenstette rsout le problme du rattachement du groupe prpositionnel par des rgles ad hoc (1994). 264 En gnral, les relations de cooccurrence ne sont pas orientes et lordre dans lequel figurent les mots est indiffrent. 265 On peut toutefois proposer des mthodes de pondration des analyses concurrentes en cas dambigut syntaxique. Voir par exemple (Grishman et Sterling, 1994). 266 [N]on seulement les associations syntaxiques refltent une information fonctionnelle, ce que ne font pas les paires rapproches sur une base graphique, mais la mthode dextraction de ces associations syntaxiques est aussi plus efficace, le nombre dassociations utiles dtectes tant considrablement plus lev que ce quon obtient par des mthodes reposant sur une distance graphique. (Basili et al., 1993a, p. 154). Lanalyse syntaxique fonctionne en effet comme un premier filtre.
186
plus souvent statistique267 : on ne retient comme cooccurrents que les mots figurant anormalement souvent dans les mmes contextes268.
45.1.2 Calculer des similarits Une fois dfinie la notion de contexte, on peut calculer pour un mot lensemble de ses cooccurrents, sa distribution. Cette distribution sert alors reprsenter les mots et permet de les comparer entre eux. Cest lapproche suivie par G. Grefenstette et dcrite au chapitre IV. Concrtement, cela signifie quun mot se reprsente par un vecteur sur lensemble des cooccurrents possibles, i.e. sur lensemble des mots du corpus. La similarit entre deux mots est mesure comme une distance entre les vecteurs reprsentant chacun de ces mots269. Ces mesures de similarits sont difficiles exploiter en tant que telles. Les scores obtenus ne sinterprtent pas dans labsolu mais seulement relativement les uns aux autres. Par ailleurs, les mesures ou les classements obtenus rsistent linterprtation. On a souvent besoin de savoir sur quels critres deux mots sont rapprochs Le problme vient plus fondamentalement de ce quune liste trie des similaires dun mot donn nest pas une classe : ces listes sont centres autour dun mot ple et ce nest pas parce que ship (navire) et truck (camion), par exemple, sont tous les deux similaires boat (bateau) (Hindle, 1990) que les deux relations de similarits sont comparables ni que ship et truck sont ncessairement similaires entre eux. Partant de ce constat, G. Grefenstette (1994) propose de structurer cette liste des similaires dun mot selon ses diffrents axes smantiques, ce qui revient distinguer diffrents types de similarits. J. Bouaud et ses collgues (1997) choisissent de reprsenter un ensemble de relations de similarits sous la forme dun graphe qui situe un mot dans un rseau de similarits et fait ressortir des zones denses, riches en similarits croises. Pour aller plus loin dans cette voie, il faut construire des classes smantiques partir dune relation dquivalence entre les mots. Cest l pour nous le vritable troisime ordre daffinit.
267
Ce nest cependant pas le seul type de filtrage possible : pour la recherche de collocations, F. Smadja (1993) filtre les collocations sur une base syntaxique, ou mme en fonction de leur degr de figement. 268 Voir par exemple (Lafon, 1981), (Church et Hanks, 1990) ou (Justeson et Katz, 1996). Dautres auteurs, visant la construction de classes smantiques plutt que la recherche de collocations, considrent au contraire que le seul fait quun contexte soit attest une fois suffit le rendre significatif (Bensch et Savitch, 1995 ; Bouaud, 1997). Signalons par ailleurs quun filtrage statistique ne peut seffectuer que sur un volume important de donnes. 269 Nous prfrons parler ici de similarit entre les mots plutt que de distance comme le font les travaux de classification automatique. Le terme de distance smantique est dordinaire employ pour dsigner des distances calcules partir dune taxonomie ou dun rseau (cf. supra). G. Grefenstette (1994) ou P. Bensch et W. Savitch (1995) sinspirent de la mesure de Jaccard ou Tanimoto mais la littrature sur les mthodes de classification prsente de multiples mesures de similarit (Saporta, 1990 ; Lebart et Salem, 1994) et diffrentes mesures sont employes en acquisition de connaissances smantiques.
Bibliographie
187
45.1.3 Construire des classes de mots Cette tape nest pas aborde dans le traitement lexicographique de G. Grefenstette (1993), mais cette piste est explore par dautres auteurs, pour la modlisation dun domaine, notamment270. En interprtant le score de similarit entre les mots comme une mesure de distance entre des objets, on peut appliquer les mthodes de classification automatique pour construire des classes de mots. Il savre cependant que les classes induites partir de corpus sont difficiles exploiter. Les mthodes purement inductives produisent des regroupements de mots htrognes. Pour construire des catgories smantiques cohrentes, il faut corriger ces premiers rsultats en fusionnant ou en scindant certaines classes pour obtenir une granularit rgulire, en liminant les intrus, parfois en reconstituant la main des classes compltement clates. Pourtant, si lon considre lampleur et la difficult de la tche consistant donner une description lexicale de lensemble des mots dun corpus, et dun corpus spcialis notamment, il savre que les connaissances lexicales induites partir de corpus, aussi bruites et imparfaites soient-elles, sont prcieuses. Ce sont des bauches qui proposent une premire organisation du matriau lexical et permettent damorcer le travail de description. A. Mikheev et S. Finch (1995) soulignent par exemple lintrt de ces mthodes de classification pour la modlisation des connaissances dun domaine : [l]a construction de classes smantiques de mots partir de corpus permet au cogniticien de reprer les principales catgories ou principaux types smantiques existant dans le domaine en question et dorganiser le lexique en regard de ces types. .
45.1.4 Procder par itrations La construction de catgories smantiques repose gnralement sur une alternance dinduction de connaissances partir de corpus et dinterprtation, i.e. de projection de connaissances extrieures au corpus. Une premire classification permet didentifier une ou plusieurs classes cohrentes qui peuvent tre figes puis projetes sur le corpus sous la forme dun tiquetage partiel. Seuls les mots de ces premires classes porteront une tiquette de classe, mais ils constituent des lots de confiance partir desquels une nouvelle classification peut tre construite271. Cette mthode incrmentale est donc une mthode mixte consistant induire des connaissances mme
270 271
Voir, entre autres, (Assadi et Bourrigault, 1995), (Bensch et Savitch, 1995), (Mikheev et Finch, 1995), (MacMahon et Smith, 1994) ou (Bouaud et al., 1997). Cest la dmarche adopte par Bouaud et al. (1997) ou P. Bensch et W. Savitch (1995, p. 12) : quand on applique notre technique de classification [] un corpus rel, elle identifie un ensemble de catgories qui paraissent naturelles, sans toutefois classer beaucoup de mots dans ces catgories. Mais, il sest avr que ce petit nombre de mots classifis dans un premier temps pouvait servir de point de dpart pour classifier dautres mots. .
188
parcellaires que lon peut ensuite projeter sur le corpus pour en induire de nouvelles. Une variante de cette dmarche incrmentale part non des premires classes induites mais dun tiquetage grossier du corpus. Cest ce que font R. Basili et al. (1993b) ou R. Grishman et J. Sterling (1994) mais aussi Z. Harris (voir chapitre VII).
45.2.2 Dsambigusation smantique Si les problmes dambigut sont ngligs dans la langue de spcialit notamment , ltiquetage peut se faire hors contexte, sur la liste des formes du texte. Cest lapproche de (Basili et al., 1993c) semble-t-il. Pourtant, lobjectif est gnralement de dsambiguser le corpus et ltiquetage doit tre fait en contexte. Ltiquetage manuel est envisageable pour les corpus de taille moyenne (en de du million de mots) sil faut choisir parmi quelques tiquettes gnrales parce que les cas ambigus sont rares et faciles trancher : Une fois quune classe smantique est clairement dfinie, avec laide dune interface conviviale, ltiquetage la main dun mot est laffaire de quelques secondes. Nous avons rsolu de simplement sauter les mots pour lesquels le choix dune tiquette nest pas vident272 ou pour lequel aucune tiquette ne
272
Bibliographie
189
parat adapte. (ibid., p. 346-347). On na pas forcment besoin de faire appel un linguiste pour ltiquetage, [mme si] on a besoin dun linguiste pour tablir un jeu dtiquettes appropri. (Basili et al., 1993a, p. 157). Sil faut procder un tiquetage fin en revanche, la procdure manuelle devient sujette erreur, difficile homogniser et surtout trop coteuse. [L]a partie du corpus Brown qui est tiquete par les classes de mots de WordNet, un exemple de corpus important , disponible et dsambigus la main, montre clairement combien il est difficile dobtenir des donnes satisfaisantes. Ce corpus est relativement petit (de lordre de quelques centaines de milliers de mots) en comparaison de la taille des corpus actuels (plusieurs millions ou dizaines de millions de mots) ; la mthode dannotation qui a t utilise est trs coteuse en temps de travail [] ; et la qualit des rsultats reflte la difficult de la tches standards actuels (les annotateurs sont en dsaccord dans environ 10% des cas []). (Resnik, 1995). Do le besoin de mthodes automatiques robustes de dsambigusation de corpus et lintrt des travaux qui, comme (Sussna, 1993), cherchent les mettre au point.
190
CHAPITRE IX
Divers outils informatiques permettent d'extraire, partir de corpus ayant fait l'objet d'un travail d'annotation, les occurrences d'units textuelles qui correspondent un patron donn (mot, lemme, catgorie grammaticale ou smantique, patron syntaxique, etc.). Ces outils permettent aisment de constituer la liste exhaustive des contextes o cette unit-ple apparat. L'examen des diffrents contextes d'une unit textuelle projette un clairage indispensable sur les emplois que cette unit trouve dans le corpus, faisant apparatre des rgularits qu'une lecture cursive du corpus n'aurait pas toujours rvles. Cependant ds que le nombre des contextes est un peu lev, les mises en contextes ainsi ralises (comme les concordances, etc.) deviennent des objets difficilement manipulables, mme sous forme informatise. L'organisation de ces listes (dfinition et ordre de prsentation des contextes) influence trs fortement la perception de divers phnomnes relatifs la forme-ple. Le tableau 1 regroupe quelques lignes extraites des 5 030 contextes de la forme je dans Mitterrand1. Ces contextes sont tris par ordre alphabtique, d'aprs la forme qui suit le ple. Une telle approche permet de remarquer, en inspectant l'ensemble des lignes de contexte ralises pour cette forme, que les occurrences de je sont prises dans des rptitions plus longues: je le crois, je le dis, etc.
Tableau 1. Extrait d'une concordance de la forme je dans Mitterrand1
ue la france qui a acquis, res personnels, aussi, et cer des propositions pour, rt des facilits qui ont, je je je je le le le le crois, crois, crois, crois, la confiance et le respect qui se rfrent la moral saisir le monde entier du sauv le secteur du textil
Bibliographie
ation de la fin du sicle. n souvient aussi- cela est de la rpublique: je suis, jours, j' ai observ avec, ants que cela contribuera, bre de plans, j' ai donnrachever le portrait. moi, ite, je l' ai dit alger, dans le monde. la france, je je je je je je je je je le le le le le le le le le crois tout fait, sans quoi je n crois, tout fait, venu de consi crois, trs fidle ce que je su crois, une grande patience, pour crois, utilement au redressement crois vraiment- plus d' expansion dessine tous les jours, par des a dirai amman en jordanie o je s dirai simplement, a dj apport
191
Pour gnraliser ce type de dmarche l'ensemble des formes du corpus, il faut mettre en oeuvre des procdures de quantification qui viteront au chercheur d'avoir examiner l'ensemble des contextes de chacune des formes du corpus. Ce chapitre propose un survol des approches quantitatives les plus courantes d'un corpus de textes273. La section 1 prsente des objectifs de recherche qui conduisent oprer des dcomptes textuels des fins de comparaison. Les problmes lis l'identification des units dans le texte sont abords dans la section 2. La section 3 traite du reprage des squences d'units. Les sections 4 et 5 introduisent ensuite des mthodes permettant de comparer les dcomptes raliss au sein d'un corpus partitionn. La section 6 est consacre l'articulation des dcomptes raliss partir de diffrents systmes d'annotation. Nous terminons (section 7) par un exemple de recherche sur les sries textuelles chronologiques qui combine plusieurs des mthodes prsentes dans le chapitre.
Chacune de ces mthodes est prsente dans (Lebart et Salem, 1994). Cf., par exemple, (Herdan, 1964), (Muller, 1968).
192
d'identification approximatives des units de dcompte. Il ncessite au contraire que le texte analys soit soumis, lors d'une tape pralable, une rflexion minutieuse sur les procdures de reprage, d'identification et d'annotation des units recenser. Une fois les comptages raliss pour chacune des units du systme, on soumet ces dcomptes des traitements statistiques afin de mettre en vidence les variations des diffrentes units.
Le travail de (Holmes, 1985) prsente une revue assez complte des travaux en matire d'attribution d'auteur.
Bibliographie
193
personne dans chacune des huit annes de Mitterrand1 montre que la frquence d'emploi de ces pronoms varie sensiblement au cours du temps. On constate sur la figure 1, une tendance l'augmentation du pronom je et une diminution du pronom nous. Cette tendance s'inverse lgrement dans la dernire anne du septennat. Comme on le voit, les deux phnomnes manifestent une certaine liaison au cours du temps.
250 200 150 100 50 0 Mit1 Mit2 Mit3 Mit4 Mit5 Mit6 Mit7 je nous
priode
Figure 1. volution des formes je et nous dans Mitterrand1276
On comprend aisment que ces variations de frquences intressent des spcialistes du texte politique. L'entre quantitative est ici la seule voie d'accs l'analyse dtaille et contrastive d'un tel phnomne.
Le nombre des occurrences de chaque forme, dans chaque partie, est rapport la longueur de la partie considre et multipli par 10 000 pour une plus grande lisibilit des rsultats.
194
Ch. Muller (1973) expose les difficults lies l'tablissement d'une telle norme de dpouillement
La norme devrait tre acceptable la fois pour le linguiste, pour ses auxiliaires, et pour le statisticien. Mais leurs exigences sont souvent contradictoires. L'analyse linguistique aboutit des classements nuancs, qui comportent toujours des zones d'indtermination; la matire sur laquelle elle opre est minemment continue, et il est rare qu'on puisse y tracer des limites nettes ; elle exige la plupart du temps un examen attentif de l'entourage syntagmatique [...] et paradigmatique [...] avant de trancher. La statistique, dans toutes ses applications, ne va pas sans une certaine simplification des catgories ; elle ne pourra entrer en action que quand le continu du langage a t rendu discontinu [...].
Le second (Norme B) montre le mme extrait du corpus aprs quelques transformations de surface destines permettre l'identification automatique des mmes formes indpendamment de leur position dans la phrase (les majuscules de dbut de phrase ont t transformes en minuscules). Les barres verticales matrialisent la segmentation des units.
Norme B : Elimination des majuscules de dbut de phrase je | crois | quon | ne | peut | que | souhaiter | cela | . | le | 14 | juillet | , | cest | sans | aucun | doute | - | et | cest | fort | important | - | loccasion | d | | une | revue | , | d| un | dfil, | d| une | relation | directe | entre | notre | arme | et | la | nation.
Bibliographie
195
polylexicales.
Norme C : Regroupement d'units polylexicales je | crois | qu | on | ne | peut | que | souhaiter | cela | | . | le | 14 | juillet | , | cest | sans aucun doute | - | et | cest | fort | important | - | l | occasion | d | une | revue | , | d | un | dfil | , | d | une | relation | directe | entre | notre | arme | et | la | nation | . |
Dans les deux tats suivants, les mots du texte ont t remplacs par des tiquettes (respectivement : des lemmes Norme D et des catgories grammaticales Norme E ).
Norme D : Lemmatisation je | croire | que | on | ne | pouvoir | que | souhaiter | cela | . | le | quatorze | juillet | ce | tre | sans | aucun | doute | - | et | ce | tre | fort | important | - | le | occasion | de | un | revue | , | de | un | dfil, | de | un | relation | direct | entre | notre | arme | et | le | nation | . Norme E : Catgorisation en parties du discours {pronom} | {verbe} | {subordonnant} | {pronom} | {adverbe} | {verbe} | {subordonnant} | {verbe} | {pronom} | {ponctuation} | {dterminant} | {numral} | {nom} | {pronom} | {verbe} | {prposition} | {dterminant} | {nom} | {ponctuation} | {coordonnant} | {pronom} | {verbe} | {adverbe} | {adjectif} | {ponctuation} | {dterminant} | {nom} | {prposition} | {dterminant} | {nom} | {ponctuation} | {prposition} | {dterminant} | {nom} | {ponctuation} | {prposition} | {dterminant} | {nom} | {adjectif} | {prposition} | {dterminant} | {nom} | {coordonnant} | {dterminant} | {nom} | {ponctuation}
Le dernier tat du texte rsulte d'un tiquetage permettant d'identifier les occurrences de quelques indices nonciatifs.
Norme F : Reprage dindices nonciatifs {embrayeur} {non-personne} {non-personne} {non-personne} {non-personne} {embrayeur}
Remarquons que, dans le cas de la mise en oeuvre de cette dernire norme de dpouillement, il ne s'agit plus d'une segmentation du texte de dpart.
196
Pour un mme texte, les diffrentes normes de dpouillement ne conduisent pas aux mmes dcomptes. Dans chaque exprience pratique, ces normes ne prsentent pas le mme degr de pertinence, ni les mmes avantages (ou inconvnients) quant leur mise en oeuvre. Nanmoins, audel des considrations propres chaque domaine, une fois dfinie la norme de dpouillement et sa jurisprudence, les mthodes de la statistique s'appliquent de manire aveugle aux dcomptes raliss partir de chacune des normes. Comme on peut le voir sur les index raliss partir de ces transformations du texte de dpart, le systme des frquences des units soumises aux dcomptes dpend troitement de la norme de dpouillement retenue. On voit sur ce petit exemple la grande latitude des choix possibles quand aux types de dcomptes que l'on peut oprer partir d'un mme texte muni d'annotations. Pour chaque recherche particulire, ces choix rsultent avant tout des objectifs de recherche poursuivis. Norme A Norme B Norme E Norme F
, d c est et une 14 arme aucun cela ....... 34 types 45 occ. 4 3 2 2 2 2 1 1 1 1 , d c_est . et une nation ne notre ....... 31 types 40 occ. 4 3 2 2 2 2 2 1 1 1 {prposition} {dterminant} {nom} {ponctuation} {pronom} {verbe} {adverbe} {coordonnant} {subordonnant} {adjectif} {numral} 11 types 56 occ. 15 8 8 6 5 5 2 2 2 2 1 {non-personne} {embrayeur} 4 2
2 types 6 occ.
Bibliographie
197
Le tableau 2 permet une comparaison rapide entre ces diffrents dcomptes effectus partir de niveaux d'annotation diffrents.
Tableau 2. Dcomptes sur Mitterrand1277
caractres nombre des occurrences : 1 667 251 nombre des types : 98 278 nombre des hapax : 0 frquence maximale : 224 865 *
Les diffrents systmes de dcomptes produisent des descriptions difficilement comparables. Le systme des catgories compte en effet un nombre relativement faible de types diffrents, les deux systmes de descripteurs lexicaux (formes et lemmes) ont en commun de possder un nombre trs lev de types s'talant sur une large gamme de frquence.
277 278
Les dcomptes suivi de l'astrisque rsultent d'une approximation statistique. Du grec hapax legomenon : chose dite une fois.
198
14000 12000 10000 8000 6000 4000 2000 0 0 50000 100000 150000 200000 250000 300000 nombre des occurrences
lemmes
Cet exemple souligne la ncessit de pratiquer des comparaisons sur des comptages raliss selon des normes de dpouillement identiques.
Bibliographie
199
On appelle segment rpt toute suite d'units textuelles reproduite sans variation plusieurs endroits d'un corpus. Le nombre des units qui composent le segment est sa longueur. On peut recenser les segments rpts constitus par les units qui relvent de chacun des systmes d'annotation dont on dispose sur le texte. Les suites de catgories grammaticales, par exemple, considres sous l'angle de leur rptition dans le corpus renseignent sur la frquence relative des constructions syntaxiques279. La recherche systmatique des segments rpts de Mitterrand1, parmi les formes lexicales, fait ainsi apparatre un trs grand nombre de rcurrences de frquence leve. Tous ces constats de rptition ne renvoient pas au mme niveau d'analyse linguistique. Certains rsultent de l'utilisation de syntagmes relativement bien forms, d'autres sont produits par la reprise partielle dans des phrases diffrentes de fragments plus ou moins autonomes au plan syntaxique. Dans le tableau 3, on a rassembl quelques-uns des segments qui sont la fois longs et frquents dans ce corpus. La colonne L donne la longueur du segment mesure en formes graphiques, la colonne F indique sa frquence.
Tableau 3. Quelques segments frquemment rpts dans Mitterrand1
L 7 7 6 6 6 6 5 5 5 5 5 4 4 4 4 4 4
segment j ai dit tout l heure l ai dit tout l heure il n y a pas de ce n est pas moi qui je suis prsident de la rpublique que le prsident de la rpublique il n y a pas le prsident de la rpublique dit tout l heure mais ce n est pas de ce point de vue ce n est pas prsident de la rpublique je n ai pas il n y a un certain nombre de tout l heure
279
On s'tonne par exemple, lors de l'analyse d'Enfants, de ne pas trouver de segments rpts comprenant des verbes dans les rponses spcifiques (cf. infra) des plus diplms
200
48.2 Quasi-segments
A ct des squences reprises l'identique plusieurs endroits du corpus, on trouve des squences qui sont l'objet de reprises partielles : la squence je {catgorie=verbe} fermement que, par exemple, peut se raliser sous la forme je pense fermement que, je crois fermement que, etc. Bcue (1993) a propos un algorithme qui repre des quasi-segments (rpts). Cet algorithme permet, par exemple, de rassembler en une mme unit (faire {lemme=<1>}+ sport) les squences comme faire du sport et faire un peu de sport, etc. Cependant, les quasi-segments sont encore plus nombreux que les segments, et leur recensement pose des problmes de slection et d'dition.
48.3 Cooccurrences
Pour une unit-ple donne, plusieurs mthodes permettent de slectionner d'autres units textuelles qui ont fortement tendance se trouver dans un mme voisinage que cette unit280. Le principe gnral de ces mthodes est le suivant. Pour slectionner les formes cooccurrentes d'une forme-ple, on commence par dfinir une unit de contexte, ou voisinage, l'intrieur duquel on considrera que deux units sont cooccurrentes. Cette unit de contexte peut correspondre la phrase ou encore tre constitue par un contexte de longueur fixe (k occurrences avant, et k occurrences aprs la forme-ple). L'espace de cooccurrence peut galement tre dfini de manire ne pas dpasser les limites dun constituant syntaxique. Si l'on se donne, partir de l'exemple prsent plus haut (section 2.1), une fentre de deux occurrences avant et aprs la forme-ple est (laquelle compte 2 occurrences), on construit autour de chacune des occurrences de la forme est, deux fentres matrialises par les contextes compris entre les barres verticales :
Le 14 | juillet, c est sans aucun | doute
Dans ce cas, on slectionne les cooccurrences de la forme-ple avec les formes : juillet, c, sans, aucun, et , c, fort, important. Si l'on dcide, toujours partir de ce mme extrait, de borner l'espace de cooccurrence au syntagme nominal minimal autour de la forme-ple notre, on obtient une cooccurrence unique avec la forme arme. Plusieurs mthodes statistiques se fixent pour but l'extraction des cooccurrences les plus remarquables dans un corpus de textes. Cette extraction s'appuie en gnral sur la comparaison des sous-ensembles de contextes qui contiennent l'unit-ple avec ceux desquels elle est absente.
280
Les applications de ces mthodes l'tude de cooccurrences entre dautres units linguistiques devront faire l'objet d'tudes au cas par cas.
Bibliographie
201
Pour chaque unit-ple, on slectionne ainsi un ensemble d'units qui se trouvent situes de manire privilgie dans les mmes units de contexte281.
Lafon (1984) et Labb (1990) proposent des mthodes destines extraire les couples d'units lexicales qui se rencontrent souvent l'intrieur d'une mme phrase. Church et Hanks (1990) utilisent, dans le mme but, l'information mutuelle issue de la thorie de la communication de R. Shannon.
202
80
60
40
20
-20
-40
1550 1630 1692 1735 1780 1820 1855 1885 1910 1928 1942 1960
Cette reprsentation graphique du phnomne appelle une interprtation trs simple. La forme est tombe dans une dsutude relative au fil des priodes considres. La multiplication de rsultats de ce type, propos de formes diffrentes, incite poser au corpus des questions plus gnrales. Quelles sont les formes qui subissent un sort similaire au cours des mmes priodes ? Quelles sont celles qui au contraire voient le nombre de leurs occurrences augmenter relativement ? Pour rpondre de manire plus globale des questions de ce type, il faut recourir aux mthodes de la statistique multidimensionnelle. Le point de dpart des diffrentes mthodes qui servent organiser la description comparative des parties d'un corpus est un tableau double entre que l'on constitue en croisant les parties du corpus et les diffrents types qui constituent le systme d'units pralablement choisi.
282
Le calcul d'cart-rduit employ ici compare l'cart de la rpartition observe dans chaque tranche une rpartition thorique.
Bibliographie
203
Parties
k ij
tj
Figure 4. Tableau de dpart pour les analyses statistiques
A l'intersection de la ligne correspondant l'unit i et de la colonne correspondant la partie j, on trouve un nombre kij gal la frquence de l'unit j dans la partie i du corpus. La frquence de l'unit i dans le corpus est gale Fi. La longueur de la partie j (somme de toutes les occurrences de la partie j est gale tj.
204
partition du corpus en trois parties (Aucun, Baccalaurat, Suprieur). Cette partition permet ensuite d'tudier les variations entre agrgats de rponses.
Ces rsultats indiquent que la forme graphique problmes est sousLe modle probabiliste utilis pour juger de cette rpartition est ici le modle hypergomtrique, couramment utilis dans ce type d'application.
283
Bibliographie
205
reprsente (-03) chez les sujets sans diplme. Elle est au contraire surreprsente (+04) chez les plus diplms. La notation b en regard de la catgorie Baccalaurat indique que l'effectif des occurrences de problmes dans cette catgorie n'est ni excessivement lev ni excessivement bas. Nous verrons plus loin comment organiser entre eux les diffrents constats de ce types obtenus partir de diffrents systmes d'units.
Tableau 4. Formes spcifiques pour les rpondants les plus diplms
F sur-emplois financires problmes et face fait couple raisons affective difficults responsabilits sous-emplois vie NON-REP le n vois manque aucune sais y faire pas emploi a travail il chmage 180 65 474 94 20 160 33 25 57 22 325 79 74 152 105 285 174 108 205 10 25 95 178 12 83 22
f 79 47 77 8 14 39 66 8 37 13 35 10 111 16 0 29 3 1 7 1 71 13 12 26 15 52
Sp. +06 +04 +03 +03 +03 +03 +03 +03 +03 +03 -03 -03 -03 -03 -03 -03 -03 -03 -03 -03 -03 -03 -03 -04 -04 -05
Une fois ce calcul effectu pour chacune des cases du tableau analys, le regroupement des diagnostics relatifs une mme partie fournit une description de cette partie par la mise en vidence des termes qu'elle suremploie, ainsi que celle des termes qu'elle sous-emploie284. Voici, titre d'exemple, dans le tableau 4 ci-dessous, les formes juges spcifiques, c'est-dire les formes tout particulirement sur-reprsentes (resp. sous284
On trouve un panorama des applications de ces mthodes aux textes socio-politiques dans (Habert, 1985).
206
285
En analyse des donnes, on utilise souvent une distance qui est une somme de carrs pondrs dite distance du chi-deux. Cette distance possde toute une srie de proprits particulirement intressantes (Lebart et Salem, 1994, p. 87).
Bibliographie
207
50.1.1 Classification ascendante hirarchique Dans le cas de la classification ascendante hirarchique, on part d'un ensemble de n lments, affects chacun dun poids proportionnel leur importance dans lensemble, et entre lesquels on a calcul des distances. On commence par agrger les deux lments les plus proches. Ce couple constitue alors un nouvel lment dont on peut recalculer la fois le poids et les distances par rapport chacun des lments qu'il reste classer286. l'issue de cette tape, le problme se trouve ramen celui de la classification de n-1 lments. On agrge nouveau les deux lments les plus proches, et l'on ritre ce processus (n-1 fois au total) jusqu' puisement de l'ensemble des lments. Chacun des regroupements effectus en suivant cette mthode s'appelle un noeud. L'ensemble des lments terminaux rassembls dans un noeud est une classe. La reprsentation de la classification sous forme d'arbre hirarchique ou dendrogramme est la reprsentation la plus courante. L'interprtation d'une telle hirarchie s'appuie sur l'analyse des seules distances entre lments ou classes faisant l'objet d'un mme noeud (i.e. seules les proximits entre lments appartenant une mme classe peuvent tre interprtes). Applique au tableau analys ci-dessus, la classification ascendante hirarchique produit un regroupement en deux sous ensembles relativement distincts : les diplms du suprieur d'une part et les sans-diplmes d'autre part. Les groupes de diplmes intermdiaires se rpartissant entre ces deux sous-ensembles.
Tableau 5 Classification sur les parties d'Enfants
S+50 S-50 S-30 B-50 A+50 B+50 A-50 B-30 A-30 ----------------------------*-----*-----------------------*! ! ! ----------------------------! ! ! ! -----------------------------*----! ! ! -----------------------------! ! -----------------------------*-------*--------------------! ! -----------------------------! ! ---------------------------*---------! ---------------------*-----! ----------------------
Les classifications effectues sur l'ensemble des parties et celles ralises partir de l'ensemble des units, rpondent des besoins d'analyse distincts qui entranent, dans les deux cas, des utilisations diffrentes de la mthode.
286
Dans la pratique il existe un grand nombre de faons de procder qui correspondent cette dfinition, ce qui explique la grande varit des mthodes de classification automatique, sur ces mthodes on peut consulter (Saporta, 1990, p. 241-261).
208
Bibliographie
209
210
Commenons par un exemple trs simple. On a reprsent (Figure 7) les neuf parties du corpus en fonction de leur utilisation des formes : raisons (axe vertical) et problmes (axe horizontal). La valeur porte sur chacun des axes est gale la proportion d'utilisation (exprime en 10 000mes) de chacune de ces formes par chacune des parties. On voit que les parties ne se rpartissent pas sur l'ensemble du graphique mais sont plutt regroupes autour dune des diagonales. Cela veut dire que l'emploi des deux formes par les metteurs manifeste une corrlation. Ceux qui emploient beaucoup l'une des formes (S-30, S-50, c'est--dire les diplms les plus jeunes) ont tendance utiliser galement l'autre (et inversement).
200
B-50
S-50
150
S-30
isons
S+50 B-30
100
50 20
problmes
Si l'on accepte de perdre un peu de l'information contenue sur ce graphique, on peut simplifier la reprsentation des parties en traant un axe qui pouse le mieux possible la forme du nuage de points reprsent sur la figure 7. Si l'on munit cet axe d'un systme de coordonnes, on obtient une reprsentation des distances entre les parties (figure 8) qui est moins prcise mais plus synthtique.
-2 -1 0 1 2
Bibliographie
211
Les mthodes factorielles oprent, partir des immenses tableaux soumis l'analyse, des synthses du mme type. Partant d'un tableau qui compte cette fois plusieurs milliers de formes et toujours neuf parties, l'analyse des correspondances extrait une information synthtique. La reprsentation simplifie des distances entre catgories met en vidence la principale information contenue dans le tableau de donnes soumises l'analyse : la proximit (base sur un usage proche du stock des formes lexicales) des agrgats proches par le diplme ou par l'ge (figure 9). Il faut comprendre que la mthode de calcul ne s'appuie aucun moment sur des donnes extrieures lui permettant d'infrer des proximits entre tel ou tel agrgat. Les rapprochements sont effectus uniquement partir des comparaisons du stock de vocabulaire employ par les rpondants appartenant un mme agrgat ge / diplme.
S+50 B+50
S-50
A+50
Figure 9. Les 9 classes Age x Diplme sur le plan des deux premiers facteurs de l'analyse.
Une reprsentation simultane des formes et des parties sur le mme graphique peut permettre de mettre en vidence les formes qui sont principalement responsables de cette typologie.
212
Forme / diplme
problmes financiers problmes financiers
Aucun
41 -03 37 b 17 -03
BACC
20 b 19 b 11 b
Sup.
47 +04 30 b 23 +03
F
108 86 51
Comme on le voit, les diagnostics ci-dessus ne concident pas tous entre eux. Ils rendent compte de la diversit des associations ralises dans le corpus. La forme financiers, par exemple, est considre comme rgulirement rpartie alors que le segment problmes financiers et la forme problmes sont plutt sur-reprsents chez les plus diplms. Le tableau 6 interclasse d'aprs un indice de spcificit calcul selon les mmes procdures des diagnostics obtenus sur des formes et sur des segments rpts dans le corpus. L'avantage de ce second tableau sur son homologue ralis partir des formes simples est qu'il constitue un pas, ralis automatiquement, vers la remise en contexte des rsultats.
Tableau 6. Formes et segments les plus caractristiques pour les rpondants les
289
Des rsultats tout fait similaires ont t obtenus dans une exprience du mme type portant cette fois sur des dcomptes de lemmes au sein de la mme partition du corpus.
213
financires les difficults financires difficults financires problmes fait de et face et les du couple fait situation conomique raisons financires couple raisons problmes financiers affective les problmes difficults des responsabilits responsabilits le fait
f 79 14 19 47 7 77 8 10 23 14 13 38 39 66 23 8 18 37 9 13 11
Sp. +06 +05 +04 +04 +03 +03 +03 +03 +03 +03 +03 +03 +03 +03 +03 +03 +03 +03 +03 +03 +03
Ce tableau prsente de nombreuses redondances qui rsultent du fait que, dans un premier temps, les listes d'units spcifiques sont produites de manire entirement automatique, sans aucun filtrage. L'illustration par les segments rpts prcise la signification des units mises en vidence par le calcul des spcificits. L'implication des dnombrements portant sur les segments rpts permet d'extraire de l'enchevtrement inextricable des segments rpts des units qui prcisent la description par les units effectue partir des units isoles de leur contexte immdiat.
214
ralises cette fois partir des annotations de type grammatical et des segments constitus partir de ces dernires.
Tableau 7. Formes graphiques, lemmes, catgories grammaticales et segments rpts les plus caractristiques pour les rpondants les plus diplms
C F L F C L F F C C C C L L L L L F F F F F F F F F F F F F
units F f Ind. {nom} {adjectif} 863 312 +07 financires 174 79 +06 financier virgule 123 59 +06 les difficults financires 19 14 +05 {nom} {adjectif} {ponctuation} 32 20 +05 le difficult financier 19 14 +05 problmes 108 47 +04 difficults financires 32 19 +04 {adjectif} {coord} {adjectif} 20 13 +04 {coord} {adjectif} 26 16 +04 {nom} {adjectif}{coord} {adjectif} 19 13 +04 {determinant ind} {nom} {adjectif} 36 20 +04 difficulte financier virgule 12 10 +04 que ce 26 17 +04 difficulte financier 32 19 +04 financier 374 136 +04 probleme 145 60 +04 problmes financiers 51 23 +03 couple 95 39 +03 responsabilits 22 13 +03 raisons financires 93 38 +03 situation conomique 24 13 +03 affective 12 8 +03 du couple 48 23 +03 et 205 77 +03 monde 16 10 +03 des responsabilits 13 9 +03 difficults 83 37 +03 les problmes 35 18 +03 et les 17 10 +03
Lgende : La colonne de gauche indique la nature des units et squences d'units prises en compte selon le code suivant : F formes graphiques, L lemmes, C catgories grammaticales. Comme plus haut, les units slectionnes dans ce tableau l'ont t en raison de leur abondance particulire dans la partie du corpus qui correspond aux plus diplms. L'interclassement des units selon l'indice de spcificit calcul de la mme manire sur tous les types d'annotations et sur les segments raliss partir de ces dernires permet de classer l'ensemble des constats du plus surprenant au plus banal.
Bibliographie
215
La redondance s'est encore accrue mais la description est devenue plus beaucoup plus riche, faisant intervenir de plusieurs niveaux de l'analyse linguistique.
216
18.9% Mit4
Mit5
F2
Mit3
29.0%
F1
Mit7
Mit2
Mit1 Mit6
Figure 10. Les deux premiers facteurs issus de l'analyse des correspondances291
Pour avancer dans l'analyse, il faut crer des procdures permettant d'exhiber les units textuelles responsables de cette volution d'ensemble.
52.1.1 Accroissements spcifiques Le calcul des accroissements spcifiques permet de reprer les changements brusques dans l'utilisation d'un terme lors d'une priode donne par rapport l'ensemble des priodes qui prcdent. Pour chaque terme dont la frquence dpasse un seuil fix l'avance, pour chaque priode du corpus partir de la seconde, on compare, selon le modle des spcificits prsent plus haut, la sous-frquence observe dans la priode considre la frquence de cette mme unit dans l'ensemble des priodes prcdentes. Le tableau 8 donne quelques accroissements spcifiques majeurs pour l'ensemble de Mitterrand1. Les accroissements spcifiques sont nots l'aide des symboles : / et \ qui indiquent des spcificits respectivement positive et ngative de l'accroissement ; (i.e. un sur-emploi et un sous-emploi spcifique par rapport aux parties prcdentes). La dernire colonne indique la priode (pr.) i.e. la partie du corpus concerne par le diagnostic d'accroissement spcifique. Pour chaque terme, la colonne Fx donne le nombre des occurrences de ce terme dans le groupe de priodes
Il s'agit des deux premiers facteurs issus de l'analyse du tableau croisant formes graphiques de frquence suprieure 20 et priodes (1 397 formes x 7 priodes).
291
Bibliographie
217
prcdentes.
Tableau 8. Chronique des spcificits maximales pour Mitterrand1
terme nationalisations israel monsieur nouvelle caldonie rfrendum trs chane la france la majorit notre nous avons tudiants majorit nous oeuvres pour 100 arabe l iran monde arabe nous F 42 71 430 33 27 627 39 1016 91 442 2059 523 28 212 2059 29 204 34 50 21 2059 Fx 31 56 213 22 19 329 36 722 70 337 1700 488 28 149 1877 24 195 34 50 21 2059 f 0 2 91 20 18 127 34 106 45 35 308 30 27 90 177 19 2 23 41 17 182 spec. pr. /12 2 \11 3 /11 /11 /11 /11 /19 \11 /12 \11 \11 \11 /21 /20 \17 /11 \12 /13 /27 /12 \12 4 4 4 4 5 5 5 5 5 6 6 5 6 6 6 7 7 7 7
Pour une priode donne, la liste des accroissements spcifiques de la priode renseigne sur l'mergence d'un vocabulaire particulier. Le tableau 9 donne les accroissements ainsi calculs pour la 7e partie du corpus constitue par des interventions effectues au cours des annes 1987-1988.
Tableau 9. Accroissements spcifiques majeurs pour la 7e priode de Mitterrand1
218
l iran iran arabe monde arabe d instruction instruction l irak irak lection prsident d armes un prsident politiques armes juge pays nous avons inflation avons jeunes nous
41 41 23 17 16 17 18 18 18 73 15 15 34 32 17 151 27 0 35 2 182
/27 /25 /13 /12 /11 /11 /09 /08 /07 /07 /07 /07 /07 /07 /07 /07 \06 \06 \07 \07 \12
--------------------------------------------------------------------
52.1.2 Formes chrono-homognes Les mthodes prsentes ci-dessus permettent de dcrire, au fil des priodes, l'volution des units textuelles que l'on peut recenser dans un corpus chronologique. Les schmas d'volution tablis pour chacune des units font apparatre des ensembles d'units qui ont tendance voluer de conserve au fil des priodes : les formes chrono-homognes. En fait, l'ide qui sous-tend cette approche est la suivante : pour des formes frquentes dans le corpus, le fait que plusieurs formes voluent de manire proportionnelle tout au long des priodes ne peut tre mis au compte du hasard. Il faut donc, dans chaque cas, dterminer la cause profonde qui est l'origine de ces regroupements. Selon les cas, on trouvera des groupements lis une thmatique, une actualit, etc. La figure 11 prsente un groupe de formes, parmi les plus frquentes de Mitterrand1, qui sont chrono-homognes par rapport la forme je. On retrouve ici un ensemble de marqueurs de la premire personne.
Bibliographie
219
100
80
60
40
20
0 1 2 3 4 5 6 7
L'tude des sries textuelles chronologiques s'opre donc en combinant plusieurs types de mthodes. L'analyse des correspondances permet de vrifier que le corpus chronologique, compte tenu d'une priodisation donne, relve bien du schma gnral d'volution du vocabulaire. Elle permet galement de localiser des carts ventuels avec le schma gnral, qui seront dans la plupart des cas sources d'interrogations utiles. L'examen attentif des accroissements spcifiques signale la fois des moments particuliers dans l'volution du vocabulaire et les units textuelles qui en sont l'origine. Enfin, l'tude des termes chrono-homognes permet de constituer des classes dunits et d'tudier leur volution conjointe au fil des priodes.
53. CONCLUSION
Les analyses portant sur des textes annots apportent un complment d'information important, par rapport aux mmes analyses effectues partir d'un dcoupage en formes graphiques, ds lors qu'il s'agit de mettre en
220
vidence des units textuelles caractristiques pour chacune des parties d'un corpus de textes, encore que ces rsultats soient difficiles manier simultanment. L'utilisation de comptages portant sur les segments rpts d'un corpus pour illustrer les typologies ralises partir des formes permet de dpasser les rsultats obtenus sur les formes isoles de leur contexte immdiat et d'accder la description d'associations remarquables par leur rpartition. Les diffrentes mthodes de calcul des cooccurrences concourent galement ce but. Par exemple, dans le domaine de l'tude des textes politiques, l'exprience a montr que le singulier et le pluriel de certains substantifs renvoient souvent des oppositions profondes au plan de l'idologie politique. On peut dire que de grandes oppositions idologiques se sont souvent exprimes travers l'emploi du singulier ou du pluriel d'une mme forme de vocabulaire. Les classes ouvrires, proclamait le pouvoir monarchique sous Louis-Philippe (1830-1848) ; la classe ouvrire, contestaient les organisations ouvrires. De mme les annes 1970 ont vu s'opposer les dfenseurs des liberts rpublicaines (la gauche et les syndicats) aux dfenseurs de la libert avec, bien entendu, des contenus partiellement diffrents. Cette distinction est en revanche moins pertinente dans le cas de l'tude de Menelas : le comportement du singulier et du pluriel de stnose ne justifie pas qu'on les considre sparment. L'clairage qu'apporte l'approche quantitative la connaissance d'un corpus de textes runis des fins de comparaison s'exprime de manire privilgie sous forme de contrastes entre les units que l'on peut dcompter dans les parties du corpus. Ces circonstances fournissent indirectement un critre quant au choix des units retenir dans les analyses textuelles : si les diffrentes ralisations d'une unit linguistique sont distribues de la mme manire parmi les parties du corpus que l'on compare, il ne sert rien de les distinguer dans les comptages, car elles ne seront pas l'origine des contrastes mis en lumire par les analyses statistiques. Si par contre les ralisattions d'une mme unit ont des ventilations trs diffrentes l'intrieur du corpus considr, le fait de les runir en une mme unit statistique prive le chercheur de constats qui auraient pu l'intresser.
Bibliographie
221
CONCLUSION
G. Leech (1991, p. 25) souligne le tournant des annes actuelles : Ceux qui travaillent sur corpus lectroniques se trouvent soudain dans un univers en pleine expansion. Pendant des annes, la linguistique de corpus a t l'obsession d'un petit groupe qui recevait peu de soutien, que ce soit de la linguistique ou de l'informatique. Ce constat vaut au tout premier chef pour le monde anglo-saxon. Mais si lon fait le bilan du domaine couvert par les linguistiques de corpus, quelles perspectives souvrent, en particulier pour la francophonie ?
54. BILAN
Face un domaine riche en travaux d'horizons thoriques et mthodologiques varis en TALN et en linguistique, nous ne prtendons pas avoir rendu compte des recherches les plus reprsentatives. Comment, face un champ en pleine mouvance, en identifier les grandes tendances ? Il aurait fallu un recul dont nous ne disposons pas et qu notre avis, on ne peut pas encore prendre. Nous avons plutt cherch fournir une typologie de travaux prometteurs. Esprons que cette typologie puisse aussi servir de grille de lecture pour situer dautres recherches que celles qui ont t directement voques.
54.1 Avances
La robustesse est le matre mot des techniques d'annotation qui sont vises pour les textes tout-venant. On est loin de pouvoir en donner une dfinition prcise. Nanmoins, l'examen des outils disponibles et des corpus annots le montre : l'tiquetage est relativement bien matris actuellement, le parsage fruste progresse, mme si les ttonnements dominent encore pour les
222
traitements smantiques. Constatons que certaines tches dannotation sont progressivement automatises, avec ventuellement des phases de pr- ou de posttraitement. On commence mieux cerner ce qui est effectivement automatisable et ce qui ne le sera probablement jamais. Cest ce que nous avons vu avec lacquisition terminologique (chapitre II) : la frontire entre le reprage automatique et ce qui relve de comptences humaines peu formalisables se prcise. Il est frappant de constater que certaines de ces avances reposent sur des techniques somme toute relativement simples. On est tonn par lcart entre les mthodes utilises, parfois frustes, et la richesse des rsultats, comme lindique E. Brill (1995, p. 544) : Les mthodes bases sur les corpus sont souvent capables de russir tout en ignorant la complexit relle du langage, en s'appuyant sur le fait que des phnomnes linguistiques complexes peuvent souvent tre observs indirectement par le biais de simples piphnomnes. Cest le cas pour lalignement de textes, qui utilise parfois une corrlation trs forte entre la longueur des segments qui sont mis en correspondance traductionnelle (Isabelle et Amstrong, 1993), que cette longueur soit mesure en nombre de mots ou en caractres. Cest le cas encore de la production dbauches dentres de dictionnaires par des mthodes comme celles utilises par Grefenstette (1994). Un autre point positif est le recul des illusions en ce qui concerne le traitement automatique de textes tout-venant. Les conditions instutionnelles runir, les performances des outils existants ainsi que le cot de lobtention de corpus annots sont dsormais mieux connus. Les oprations dvaluation des outils et des ressources qui ont t lances dans le monde anglo-saxon et qui dbutent pour la francophonie (Paroubek et al., 1997) sont salutaires : elles fournissent des tats de lart sectoriels et prcis. Lobservation raisonne de donnes volumineuses enrichit la pratique linguistique. Elle fournit des donnes que lintuition du linguiste aurait refuses (taxes dinacceptables) ou quelle naurait pas prvues (variation dexpressions toutes faites et de termes). Elle accrot la prcision des descriptions ou les rectifie (en linguistique diachronique par exemple). Elle rend manifeste le poids des diffrentes rgles. Les traitements multidimensionnels permettent de reprer des corrlations inattendues et en tout cas non perceptibles directement entre des phnomnes langagiers relevant de niveaux distincts de lanalyse linguistique.
54.2 Limites
Les ressources pour le franais sont encore denre rare. Il n'existe pas d'quivalents pour le franais de Brown, LOB et de BNC, pour la langue contemporaine, ou d'Archer, pour l'histoire de la langue, c'est--dire des corpus diversifis, associant des registres diffrents et offrant aux linguistes
Bibliographie
223
comme aux informaticiens des objets dtude varis. Il nexiste pas non plus dtiqueteur-lemmatiseur immdiatement accessible ni dquivalent franais de WordNet pour lannotation smantique. Le risque est que soient baptiss du nom de corpus des rassemblements de textes lectroniques disponibles noffrant pas les mmes garanties de diversit quant aux types de texte inclus, ce qui biaiserait les tudes ultrieures. Une autre limite est celle de ltanchit des communauts concernes. Institutionnellement, en France, le TALN et la linguistique292 relvent de deux secteurs disciplinaires aux fonctionnements loigns : entre ces domaines, les passerelles et les collaborations sont encore fragiles. Les formations autour du traitement automatique du langage, par exemple, relvent dans limmdiat dun secteur ou de lautre, mais pas dune convergence des deux. Lvolution actuelle peut enfin conduire marginaliser des travaux perus comme moins directement utiles . Ltude diachronique de la langue en fournit un exemple. Mais lexprimentation de formalismes sophistiqus peut galement ptir du nouveau contexte.
54.3 Questionnements
Du ct linguistique, les travaux que nous avons prsents poussent examiner, ou rexaminer sur des bases renouveles, des phnomnes jusqu' prsent insuffisamment tudis : place de la ponctuation, structuration globale des textes et grammaires textuelles, articulation langue gnrale / langues de spcialit, etc. Du ct informatique, le succs pratique du mtissage des traitements rgles et des traitement numriques pose sur le fond la question de modles qui articulent finement observation et appel la comptence des locuteurs et lexpertise des spcialistes. Une question reste ouverte : quelles gnralisations permettent les multiples constats, si fins soient-ils, oprs sur les corpus annots ?
55. PERSPECTIVES
Sans nous risquer prdire l'avenir des linguistiques de corpus, nous soulignons la fois les menaces qui psent sur leur dveloppement et les espoirs qui semblent permis. Nous terminons par ce qui nous parat tre les conditions d'une volution positive du domaine.
292
Il faudrait en outre mentionner le secteur de l'informatique documentaire, dont les recherches sont mal connues en linguistique et en TALN, bien qu'elles soient riches d'enseignement pour le traitement des corpus annots.
224
55.1 Menaces
Les menaces sont de trois ordres : les retards mthodologiques et techniques dans les moyens d'utiliser des corpus annots, les dimensions laisses dans l'ombre par les linguistiques de corpus, et enfin des impasses intellectuelles. Les moyens matriels de calcul ne cessent de progresser. Le versant logiciel des traitements de corpus accuse un retard d'autant plus sensible, ce qui retarde dautant les exprimentations et partant, les avances thoriques. On sait mmoriser des corpus et des ressources langagires de plus en plus vastes. Malgr des initiatives de mise en convergence, il n'existe pas encore de chanes de traitement standard pour ces donnes. La normalisation commence devenir effective pour les corpus. Elle ne l'est pas encore pour les programmes correspondants, qui restent la plupart du temps exprimentaux. On est encore assez loin de stations de travail textuelles qui permettraient d'articuler des traitements diversifis sur des corpus : tiquetage, correction interactive, parsage, annotation smantique, dcomptes et modlisation ... Certaines dimensions restent peu abordes en linguistique de corpus. C'est le cas de la textualit en tant que telle293. Mme les tudes de Biber, lorsqu'elles caractrisent les types de texte comme des constellations de traits linguistiques, ne rendent pas compte de l'organisation des textes au del de la phrase, de l'enchanement des noncs. La dimension pragmatique s'efface galement, en raison de la primaut accorde la morpho-syntaxe. Nous avons dj cit l'adage de G. Sampson (1994, p. 180) : la linguistique de corpus prend le langage tel qu'il est. Le pige serait ... de le laisser tel qu'il est, c'est--dire de n'introduire aucun dplacement thorique. La manipulation des corpus annots est lourde. Le dferlement des donnes peut aussi drouter, par son intrication complexe de phnomnes multiples294. Tout le langage s'engouffre. Le risque est alors un empirisme linguistique radical295, fleur de donnes et sans recul. Ceux qui mettent au point traitements et outils peuvent tre de leur ct tents par une certaine commisration pour les tudes proprement linguistiques. Ces dernires ne se confronteraient jamais au langage rel .
293 294
J.-P. Sueur (1982, p. 144) dgage tout de mme des pistes et montre des premiers rsultats. C. Filmore et B. Atkins (1994) montrent la complexit de lanalyse du verbe risk lorquon part, comme eux, de corpus : 1 743 contextes fournis par lAPHB (American Publishing House for the Blind) et de 470 extraits du corpus la base du dictionnaire COBUILD. Ils comparent les tendances observes dans ces contextes avec le traitement opr dans dix dictionnaires. Ils insistent sur les choix thoriques comme seuls moyens de sorienter dans le flux des attestations. L'expression est de M.-P. Pry-Woodley (1995, p. 216).
295
Bibliographie
225
55.2 Espoirs
Les recherches dont nous venons de dgager les grands traits renouvellent la dimension empirique et exprimentale de la linguistique, en particulier en ce qui concerne la quantification des faits langagiers. Pour reprendre les termes de C. Jacquemin, une linguistique vritablement exprimentale est possible. Puisque les corpus et les outils entrent de plus en plus dans le domaine public, les rsultats prsents par les recherches sont vrifiables sur les mmes donnes ou au contraire amendables par confrontation avec d'autres donnes. Les faits deviennent un peu plus ttus. Exprimenter, c'est aussi pouvoir construire des modles, symboliques ou quantitatifs, et les tester sur des donnes. Comme lcrit J. Sinclair (1991, p. 100) : La langue a l'air assez diffrente quand on en examine un grand morceau d'un coup. Les distinctions tranches s'estompent. Aux diffrents niveaux de l'analyse linguistique, on peut sparer usuel, exceptionnel et tout fait improbable. On peut dsormais quantifier de nouveaux phnomnes. On peut aussi examiner les corrlations entre des traits linguistiques multiples. Mais il reste acqurir pour la syntaxe et la smantique une exprience similaire celle qui a t dveloppe en analyse statistique du lexique. Elle permettra d'attribuer leur vritable dimension aux rsultats obtenus actuellement.
55.3 Conditions
Les linguistiques de corpus se rvleront fructueuses comme domaine de recherche si l'on accepte l'imparfait, c'est--dire des ressources toujours impures , et si saffirment des collaborations soutenues entre linguistes et informaticiens. Les corpus annots comme les outils d'annotation reposent sur des approximations. L'ampleur des moyens runir force des solutions qui, sans tre jamais vraiment consensuelles, reposent sur des compromis entre des communauts distinctes et des impratifs techniques multiples. Ces solutions dpendent galement de lusage prvu en aval pour les ressources annotes. Cette imperfection ne constitue pas pour autant un obstacle majeur. Nous l'avons vu, il est souvent possible de faire des dtours pour isoler les phnomnes viss. Sans doute faut-il aussi abandonner l'horizon, illusoire, de corpus parfaitement annots et d'outils ne faisant pas d'erreur. Pourquoi attendre de la machine une cohrence et une perfection que l'annotation manuelle n'atteint pas ? La collaboration de l'Universit de Lancaster et du centre de recherche d'IBM Watson (Black et al., 1993) est exemplaire d'une coopration fructueuse entre les deux communauts concernes au premier chef, la linguistique et le TALN. Les linguistes ont vu leur attention attire sur des
226
phnomnes souvent conus comme marginaux et sur la ncessit de les intgrer dans leur description. Les informaticiens ont appris modliser des comportements langagiers plus fins que ceux qu'ils traitaient initialement. Les deux communauts ont l'intrt le plus vif cooprer. La constitution de vastes corpus finement annots et la mise au point des outils ncessaires supposent des recherches informatiques importantes et coteuses. Les linguistes en bnfieront. Inversement, seuls des travaux pousss en linguistique descriptive permettent de mieux matriser les causalits l'uvre : influence des types de textes, jeu entre sous-langages et langue gnrale, poids du temps, etc. Les informaticiens y trouveront matire amliorer leurs modles et leurs techniques. Parce que les corpus lui semblent le moyen de constituer les ressources linguistiques ncessaires des traitements effectifs, le TALN se confronte dsormais toute la complexit du langage. Disposer de corpus annots renouvelle les mthodes et les objectifs de la linguistique descriptive. Le foisonnement des recherches tmoigne de la vigueur du champ. Il y a probablement une chance historique saisir : celle d'une coopration enfin fructueuse.
Bibliographie
227
DEMARCHE SUIVIE ........................................................................................................ 10 6.1 LES CORPUS ANNOTES ET LEURS UTILISATIONS ................................................................. 10 6.2 DIMENSIONS TRANSVERSALES .......................................................................................... 11 6.3 METHODOLOGIES ET TECHNIQUES ..................................................................................... 11
7.
PRINCIPAUX CORPUS CITES ....................................................................................... 11 7.1 CORPUS ANGLAIS OU AMERICAINS..................................................................................... 12 7.2 CORPUS FRANAIS............................................................................................................. 13
8.
DEFINITIONS .................................................................................................................... 15 8.1 EXEMPLES ......................................................................................................................... 16 8.2 L'INEVITABLE EPARPILLEMENT DES ETIQUETAGES ............................................................ 17 8.3 UNE REPRESENTATION CANONIQUE ................................................................................... 19 8.4 TYPES D'ETIQUETAGE ........................................................................................................ 21 8.4.1 Etiquetage intgral ou partiel ................................................................................. 21 8.4.2 Une tiquette ou plusieurs tiquettes ...................................................................... 21 8.4.3 Une vision large de l'tiquetage ............................................................................. 22
9.
TIQUETAGE PARTIEL ET TYPOLOGIE DE TEXTES ........................................... 23 9.1 CIRCULARITE DES DEMARCHES TYPOLOGIQUES HABITUELLES .......................................... 23 9.2 DEGAGER LES CORRELATIONS DE TRAITS LINGUISTIQUES : D. BIBER ................................ 23 9.3 GENERALITE DES TYPOLOGIES INDUITES ........................................................................... 25
10. TIQUETAGE INTEGRAL ET SOCIO-STYLISTIQUE ............................................. 27 10.1 10.2 10.3 10.4 REPERER LES CATEGORIES ET LES SUITES DE CATEGORIES DE DIFFERENTS LOCUTEURS 27 VARIER LE JEU D'ETIQUETTES SELON LES PHENOMENES OBSERVES ............................... 27 UNE PREMIERE OPPOSITION : STYLE NOMINAL ET STYLE VERBAL ................................. 30 EXAMEN DES PATRONS SYNTAXIQUES CARACTERISTIQUES DE CHAQUE TYPE DE LOCUTEUR 31
228
10.5 10.6 PRECISER L'EMPLOI DES ADJECTIFS : QUALIFICATIFS ET RELATIONNELS ....................... 32 EVALUATION ET PERSPECTIVES .................................................................................... 32
11. UTILISER ETIQUETEURS ET CORPUS ETIQUETES .............................................. 33 11.1 ADAPTER L'ETIQUETAGE AUX OBJECTIFS DE RECHERCHE.............................................. 33 11.1.1 Un tiquetage est orient par une famille de tches .......................................... 33 11.1.2 Un tiquetage peut tre dtourn ................................................................. 34 11.1.3 Le r-tiquetage est incontournable................................................................... 34 11.2 ENVIRONNEMENTS DE CATEGORISATION ET DE MANIPULATION DE TEXTE ETIQUETE.... 35 11.2.1 Catgoriser......................................................................................................... 35 11.2.2 Manipuler des corpus tiquets ......................................................................... 35 12. ENJEUX THEORIQUES ................................................................................................... 36 12.1 12.2 12.3 LE DIT EST LE DIRE ....................................................................................................... 36 LINGUISTIQUE ET TEXTUALITE...................................................................................... 37 ANALYSES MULTI-DIMENSIONNELLES .......................................................................... 37
13. DIVERSITE DES CORPUS ARBORES........................................................................... 39 13.1 NOTER DES RELATIONS SYNTAXIQUES .......................................................................... 40 13.1.1 Arbres, graphes et relations ............................................................................... 40 13.1.2 Grammaires de constituants et grammaires de dpendance ............................. 41 13.1.3 Notations textuelles ............................................................................................ 42 13.2 OBTENIR DES ANALYSES ............................................................................................... 45 13.3 TYPES D'ANALYSE ........................................................................................................ 45 13.3.1 Analyse partielle / analyse complte .................................................................. 45 13.3.2 Une seule analyse ou plusieurs .......................................................................... 46 13.3.3 Sous-spcification .............................................................................................. 47 13.4 ANALYSEURS DE TEXTE TOUT-VENANT .................................................................. 47 13.5 NIVEAUX D'ANALYSE.................................................................................................... 49 14. UNE REALISATION EXEMPLAIRE : SUSANNE ........................................................ 51 14.1 14.2 UNE ANNOTATION EXHAUSTIVE .............................................................................. 51 INFORMATIONS FOURNIES DANS SUSANNE ................................................................... 52
15. PHRASEOLOGIE ET TRAITEMENTS SYNTAXIQUES ............................................ 53 15.1 LE RENOUVEAU DES ETUDES LINGUISTIQUES DE LA PHRASEOLOGIE ............................. 53 15.2 LA FLEXIBILITE EN CORPUS D'EXPRESSIONS POLYLEXICALES ........................................ 55 15.2.1 Les variations en corpus d'expressions toutes faites .................................... 55 15.2.2 " Mesurer " la flexibilit ..................................................................................... 56 15.2.3 valuation .......................................................................................................... 57 15.3 LA VARIATION DE TERMES EN LANGUE DE SPECIALITE.................................................. 58 15.3.1 Une reprsentation syntaxique contrainte des termes ....................................... 59 15.3.2 Engendrer des variantes possibles de termes .................................................... 60 15.3.3 Reprage des variations syntaxiques engendres .............................................. 63 15.3.4 Vers une grammaire de la variation terminologique ......................................... 63 15.4 LA RECHERCHE DE CANDIDATS TERMES........................................................................ 64 15.4.1 Isoler les groupes d'allure dnominative ........................................................... 65 15.4.2 Le corpus comme norme .................................................................................... 66 15.4.3 Vers une grammaire des dnominations complexes possibles ........................... 67 15.5 ENJEUX PRATIQUES ET THEORIQUES ............................................................................. 68 15.5.1 Amliorer la description lexicographique.......................................................... 68 15.5.2 Distinguer variantes et variations ...................................................................... 69
Bibliographie
15.5.3 15.5.4 16.1 16.2
229
Importance quantitative de la variation ............................................................. 69 Caractriser la flexibilit normale ............................................................... 70
16. UTILISER DES PARSEURS ET DES CORPUS ARBORES......................................... 70 UTILISER DES PARSEURS ............................................................................................... 70 UTILISER DES CORPUS ARBORES ................................................................................... 71
17. UN OBJECTIF: LA DESAMBIGUISATION LEXICALE ............................................ 74 18. UNE OPPOSITION FONDAMENTALE : CONSTRUCTION LEXICALE OU CONCEPTUELLE ....................................................................................................................... 75 18.1 BASES DE CONNAISSANCES LEXICALES ......................................................................... 76 18.1.1 Dictionnaires ...................................................................................................... 76 18.1.2 Thesaurus ........................................................................................................... 78 18.1.3 Terminologies..................................................................................................... 80 18.2 BASES DE CONNAISSANCES CONCEPTUELLES ................................................................ 80 18.3 UNE OPPOSITION REELLE MAIS FLOUE........................................................................... 81 19. UNE GRANDE DIVERSITE DE RESSOURCES LEXICALES ................................... 82 19.1 DES DISTINCTIONS DE SENS PLUS OU MOINS FINES ........................................................ 82 19.2 DES RESSOURCES GENERALES OU SPECIALISEES ........................................................... 83 19.3 DES SOURCES PLUS OU MOINS INFORMATISEES ............................................................. 85 19.3.1 Dictionnaires et thesaurus sur support lectronique ......................................... 85 19.3.2 Ressources lectroniques ................................................................................... 85 19.3.3 Ressources informatises ................................................................................... 86 20. UN EXEMPLE DE RESEAU LEXICAL : WORDNET ................................................. 87 20.1 UN PROJET AMBITIEUX ................................................................................................. 87 20.1.1 Reprsenter les sens de mots .............................................................................. 87 20.1.2 Mettre les sens en rseau ............................................................................. 88 20.1.3 Quelques chiffres................................................................................................ 89 20.2 UNE STRUCTURE RICHE ET DIFFERENCIEE ..................................................................... 90 20.2.1 Des hirarchies de noms .................................................................................... 90 20.2.2 Des classes dadjectifs ....................................................................................... 91 20.2.3 Des rseaux de verbes ........................................................................................ 92 21. TABLER SUR LEXISTANT ............................................................................................ 92 22. DEFINITIONS ET ENJEUX ............................................................................................. 95 22.1 UN OBJECTIF COMMUN : ACCEDER AU SENS .................................................................. 95 22.2 DES APPLICATIONS VARIEES ......................................................................................... 96 22.2.1 Analyse de contenu............................................................................................. 96 22.2.2 Recherche documentaire .................................................................................... 97 22.2.3 Acquisition de connaissances ............................................................................. 97 23. CONSTRUIRE AUTOMATIQUEMENT DES ENTREES DE DICTIONNAIRE....... 99 23.1 DES EBAUCHES DENTREES DE DICTIONNAIRES ............................................................. 99 23.1.1 Des donnes quantitatives ................................................................................ 100 23.1.2 Le corpus dorigine .......................................................................................... 101 23.1.3 Les noms voisins............................................................................................... 101 23.1.4 Les verbes oprateurs ...................................................................................... 101
230
23.1.5 Les expressions ................................................................................................ 102 23.1.6 Les variantes .................................................................................................... 102 23.2 UNE METHODE ENTIEREMENT AUTOMATIQUE ............................................................. 103 23.2.1 Une seule donne, le corpus............................................................................. 103 23.2.2 Un ensemble de traitements simples ................................................................ 103 23.3 LES LIMITES DUNE APPROCHE EMPIRIQUE.................................................................. 105 24. FAIRE DES DISTINCTIONS DE SENS DE MOTS POUR LA RECHERCHE DOCUMENTAIRE ..................................................................................................................... 107 24.1 RETROUVER DES TEXTES DANS UNE BASE DOCUMENTAIRE ......................................... 107 24.1.1 Principe gnral ............................................................................................... 107 24.1.2 La question de la variation lexicale ................................................................. 108 24.2 DESAMBIGUSER DES CORPUS A LAIDE DE WORDNET ............................................... 109 24.2.1 Un article dsambigus................................................................................... 110 24.2.2 Mesurer la distance entre les nuds de WordNet ........................................... 111 24.2.3 Dsambiguser un ensemble de mots ............................................................... 114 24.3 DE LA DESAMBIGUSATION LEXICALE A LA RECHERCHE DOCUMENTAIRE ................... 115 24.3.1 La granularit de la description lexicale ......................................................... 116 24.3.2 La couverture des bases lexicales .................................................................... 116 25. UN MEME PARTI PRIS DEMPIRISME ..................................................................... 117 25.1 25.2 25.3 25.4 25.5 FONDER UNE SEMANTIQUE SUR LES CORPUS ............................................................... 117 EXPLOITER DES RESULTATS APPROXIMATIFS .............................................................. 118 COMBINER DES TECHNIQUES SIMPLES ......................................................................... 119 MODELISER PAR AJUSTEMENTS SUCCESSIFS ............................................................... 120 EXPERIMENTER POUR MIEUX EXPLIQUER .................................................................... 121
26. DEFINITIONS ET ENJEUX ........................................................................................... 123 27. UN CORPUS POUR L'ETUDE DE LA DIACHRONIE : ARCHER ........................... 124 27.1 27.2 27.3 27.4 L'ANGLAIS ET L'AMERICAIN DE 1650 A AUJOURD'HUI ................................................. 124 ECHANTILLONNAGE DES REGISTRES ........................................................................... 125 STRUCTURATION TEMPORELLE ................................................................................... 126 REPRESENTER LES ETATS DE LANGUE OU DES IDIOLECTES ? ....................................... 126
28. TUDES DE LA DIACHRONIE..................................................................................... 127 28.1 LA COURTE DUREE...................................................................................................... 127 28.2 LE MOYEN TERME ....................................................................................................... 128 28.3 LA LONGUE DUREE ..................................................................................................... 129 28.3.1 La position des adjectifs en moyen anglais tardif ............................................ 129 28.3.2 L'alternance that / zro .................................................................................... 130 28.3.3 L'volution des dmonstratifs en franais ........................................................ 131 29. PROBLEMES METHODOLOGIQUES ........................................................................ 133 29.1 29.2 29.3 29.4 DES CORPUS PETITS ET PEU ANNOTES ................................................................... 133 VERIFIER ET PRECISER LES EVOLUTIONS ..................................................................... 135 ACCEPTABILITE ET FREQUENCE .................................................................................. 135 AFFINER LES EXPLICATIONS ....................................................................................... 136
30. DEFINITION ET EXEMPLES ....................................................................................... 138 31. UTILISATION DES TEXTES ALIGNES ...................................................................... 140
Bibliographie
231
32. METHODES D'ALIGNEMENT ..................................................................................... 141 33. PROBLEMES ET ENJEUX............................................................................................. 143 34. DEFINITIONS ET TYPOLOGIE DES CORPUS ......................................................... 145 35. LANGUE GENERALE .................................................................................................... 148 35.1 35.2 35.3 ETUDIER UNE DIMENSION PARTICULIERE .................................................................... 148 CONSTITUER UN CORPUS DE REFERENCE..................................................................... 149 PEUT-ON CONSTITUER DES ECHANTILLONS REPRESENTATIFS ? ................................... 150
36. LANGUES DE SPECIALITE ET SOUS-LANGAGES ................................................. 151 36.1 LES HYPOTHESES DE Z. HARRIS .................................................................................. 151 36.2 ANALYSES DE SOUS-LANGAGES .................................................................................. 152 36.2.1 La mthodologie harrissienne .......................................................................... 152 36.2.2 Les analyses ralises dans ce cadre ............................................................... 153 36.3 EVALUATION ET PERSPECTIVES .................................................................................. 153 37. ARTICULER TYPOLOGIE INTERNE ET TYPOLOGIE EXTERNE ..................... 155 37.1 37.2 38.1 38.2 39.1 39.2 40.1 40.2 TYPOLOGIE DES TEXTES, GENRES ET REGISTRES ......................................................... 156 TYPOLOGIE DES PARAMETRES SITUATIONNELS ........................................................... 156 REPRESENTATIONS LOGIQUES : SGML ....................................................................... 157 LES TYPES DE TEXTES : TEI ........................................................................................ 159 ORIGINE ET HISTOIRE DU CORPUS ............................................................................... 161 JURISPRUDENCE D'ANNOTATION ................................................................................. 161 ASSISES INSTITUTIONNELLES ...................................................................................... 162 PROBLEMES JURIDIQUES ............................................................................................. 163
41. NETTOYAGE ET HOMOGENEISATION ................................................................... 165 42. SEGMENTATION ............................................................................................................ 166 42.1 42.2 42.3 43.1 43.2 43.3 43.4 43.5 43.6 44.1 REPERER LES UNITES .................................................................................................. 166 TECHNIQUES ............................................................................................................... 167 DIFFICULTES ............................................................................................................... 168 TAUX D'AMBIGUTE .................................................................................................... 169 DESAMBIGUSATION PAR REGLES ............................................................................... 170 DESAMBIGUSATION PROBABILISTE ............................................................................ 171 PERFORMANCES.......................................................................................................... 172 POST-TRAITEMENT ET COUTS...................................................................................... 173 EVALUATION ET NOUVELLES TENDANCES .................................................................. 173 STRUCTURATION PAR REGLES ..................................................................................... 175
232
44.1.1 Rgles ngatives ......................................................................................... 175 44.1.2 Rgles " positives " ........................................................................................... 175 44.2 STRUCTURATION PROBABILISTE ................................................................................. 175 44.3 PERFORMANCES ET EVALUATION................................................................................ 176 44.4 POST-TRAITEMENT ET COUTS...................................................................................... 178 44.5 COUTS ........................................................................................................................ 182 44.6 DIFFICULTES ............................................................................................................... 182 45. TIQUETAGE SEMANTIQUE ...................................................................................... 183 45.1 CONSTRUIRE DES CATEGORIES SEMANTIQUES ............................................................ 184 45.1.1 Dfinir un contexte ........................................................................................... 184 45.1.2 Calculer des similarits.................................................................................... 186 45.1.3 Construire des classes de mots ........................................................................ 187 45.1.4 Procder par itrations .................................................................................... 187 45.2 PROJETER DES CATEGORIES SUR UN CORPUS ............................................................... 188 45.2.1 Segmentation en units smantiques ................................................................ 188 45.2.2 Dsambigusation smantique ......................................................................... 188 46. POURQUOI QUANTIFIER ? ......................................................................................... 191 46.1 46.2 46.3 47.1 47.2 47.3 47.4 48.1 48.2 48.3 48.4 49.1 49.2 TUDIER LA VARIATION DE TRAITS LINGUISTIQUES DANS UN CORPUS ........................ 191 REALISER DES TYPOLOGIES DE TEXTES ET DE DOCUMENTS ......................................... 192 DECELER DES CORRELATIONS ENTRE PHENOMENES .................................................... 192 NORMES DE DEPOUILLEMENT ..................................................................................... 194 DECOMPTES AUTOMATISES......................................................................................... 195 INCIDENCE DE LA NORME SUR LES DECOMPTES ........................................................... 196 EXEMPLE : L'ACCROISSEMENT DU VOCABULAIRE........................................................ 197 SEQUENCES D'UNITES ................................................................................................. 198 QUASI-SEGMENTS ....................................................................................................... 200 COOCCURRENCES ....................................................................................................... 200 FILTRAGE DES RESULTATS .......................................................................................... 201 ORGANISER LA PARTITION DU CORPUS........................................................................ 203 REPERER LES FAITS SAILLANTS ................................................................................... 204
50. APPROCHES MULTIDIMENSIONNELLES ............................................................... 206 50.1 CLASSER LES UNITES ET LES TEXTES ........................................................................... 206 50.1.1 Classification ascendante hirarchique ........................................................... 207 50.1.2 Classifications de formes ................................................................................. 208 50.1.3 Classifications descendantes ............................................................................ 209 50.2 L'APPROCHE FACTORIELLE ......................................................................................... 209 51. ARTICULER DES CONSTATS SUR DES UNITES DIFFERENTES........................ 212 51.1 51.2 ARTICULER UNITES ISOLEES ET SEQUENCES D'UNITES ................................................. 212 ARTICULER DIFFERENTS SYSTEMES D'UNITES ............................................................. 213
Bibliographie
52.1.1 52.1.2
233
Accroissements spcifiques ............................................................................. 216 Formes chrono-homognes ............................................................................ 218
53. CONCLUSION .................................................................................................................. 219 54. BILAN ................................................................................................................................ 221 54.1 54.2 54.3 55.1 55.2 55.3 AVANCEES .................................................................................................................. 221 LIMITES ...................................................................................................................... 222 QUESTIONNEMENTS .................................................................................................... 223 MENACES ................................................................................................................... 224 ESPOIRS ...................................................................................................................... 225 CONDITIONS ............................................................................................................... 225
234
BIBLIOGRAPHIE
ABREVIATIONS UTILISEES
55.3.1.1 Actes
ACL : Association for Computational Linguistics ANLP : Applied Natural Language Processing COLING : International Conference on Computational Linguistics EACL : European Chapter of the Association for Computational Linguistics EURALEX : International Congress on Lexicography FRANCIL : Journes du rseau FRANais des Industries de la Langue IJCAI : International Joint Conference in Artificial Intelligence JADT : Journes de lAnalyse des Donnes Textuelles SIGIR : Special Interest Group in Information Retrieval (ACM)
55.3.1.2 Revue
TAL : Traitement Automatique des Langues
55.3.1.3 Association
ACM : Association for Computing Machinery
AARTS J. Corpus linguistics : an appraisal, in : Computers in Literary and Linguistic research, Hamesse J., Zampolli A., Champion-Slatkine, Paris-Genve, 1990, 1328. ABEILLE A. Les nouvelles syntaxes : grammaires dunification et analyse du franais, Armand Colin, Paris, 1993. AGIRRE E., RIGAU G. Word sense disambiguation using conceptual density, in : COLING96, Copenhague, Danemark, 1996, tm. 1, 1622. ALTENBERG B. Recurrent verb-complement constructions in the London-Lund corpus, in : English language corpora : design, analysis and exploitation, Aarts J., de Haan P., Oostdijk N., Rodopi, Amsterdam, 1993, 227246. AMSTRONG S. (ed.) Using Large Corpora, The MIT Press, Cambridge, Massachusetts, 1994. ASSADI H., BOURIGAULT D. Classification dadjectifs extraits dun corpus pour laide la modlisation de connaissances, in : JADT95, 1995. ATWELL E., HUGHES J., SOUTER C. Amalgam : Automatic mapping among lexicogrammatical annotation models, in : The Balancing Act : Combining Symbolic and Statistical Approaches to Language, Las Cruces, USA, 1994, 1121. AUTHIER-REVUZ J. Mta-nonciation et (d)figement, in : La locution en discours, MartinsBaltar M., ENS de Fontenay/St Cloud, Paris, 1995, 1740. BARKEMA H. Determining the syntactic flexibility of idioms, in : Creating and using English language corpora, Fries U., Tottie G., Schneider P., Rodopi, Amsterdam, 1994, 3952.
Bibliographie
235
BARKEMA H. Idiomaticy in english NPs, in : English language corpora : design, analysis and exploitation, Aarts J., de Haan P., Oostdijk N., Rodopi, Amsterdam, 1993, 257278. BARNBROOK G. Language and Computers - A practical Introduction to the Computer Analysis of Language, Edinburgh University Press, Edinburgh, 1996. BASILI R., DELLA ROCCA M., PAZIENZA M. T. Contextual word sense tuning and disambiguation, Applied Artificial Intelligence, 11, 1997, 235262. BASILI R., PAZIENZA M., VELARDI P. A not-so-shallow parser for collocational analysis, COLING94, 1994, 447453. BASILI R., PAZIENZA M., VELARDI P. Acquisition of selectional patterns in sublanguages, Machine Translation, 8, 1993, 175201. BASILI R., PAZIENZA M., VELARDI P. Semi-automatic extraction of linguistic information for syntactic disambiguation, Applied Artificial Intelligence, 7, 1993, 339364. BASILI R., PAZIENZA M., VELARDI P. What can be learned from raw texts ?, Machine Translation, 8, 1993, 147173. BECUE M., BOLASCO S. Les quasi-segments pour une classification automatique des rponses ouvertes, in : JADT, Montpellier, 1993, 310325. BENSCH P. A., SAVITCH W. J. An occurrence-based model of word categorization, Annals of Mathematics and Artificial Intelligence, 14, 1995, 116. BENZECRI J.-P. Lanalyse des correspondances, Dunod, 1973. BENZECRI J.-P. La taxinomie, Dunod, 1973. BERGOUNIOUX A., LAUNAY M.-F., MOURIAUX R., SUEUR J.-P., TOURNIER M. La parole syndicale, Presses Universitaires de France, Paris, 1982. BIBER D. Dimensions of register variation : a cross-linguistic comparison, Cambridge University Press, Cambridge, 1995. BIBER D. Representativeness in corpus design, Linguistica Computazionale, IX-X, 1994, 377408. BIBER D. Variation accross speech and writing, Cambridge University Press, Cambridge, 1988. BIBER D., FINEGAN E. Intra-textual variation within medical research articles, in : Corpusbased research into language, Ooostdijk N., de Haan P., Rodopi, Amsterdam, 1994, 201 222. BIBER D., FINEGAN E., ATKINSON D. ARCHER and its challenges : compiling and exploring a representative corpus of historical english registers, in : Creating and using English language corpora, Fries U., Tottie G., Schneider P., Rodopi, Amsterdam, 1994, 114. BLACK E., GARSIDE R., LEECH G., EYES E., MCENERY A., LAFFERTY J., MAGERMAN D., ROUKOS S. Statistically-driven computer grammars of English : the IBM/Lancaster approach, Rodopi, Amsterdam, 1993. BLACKWELL S. From dirty data to clean language, in : English language corpora : design, analysis and exploitation, Aarts J., de Haan P., Oostdijk N., Rodopi, Amsterdam, 1993, 97106. BLANCHE-BENVENISTE C. Approches de la langue parle en franais, Ophrys, Paris, 1997. BLANK I. Sentence alignment : methods and implementations, TAL, 36, 1-2, 1995, 81 100. BOGURAEV B., PUSTEJOVSKY J. (eds.) Corpus processing for lexical acquisition, The MIT Press, Cambridge, 1996. BOLASCO S. Sur diffrentes stratgies dans une analyse des formes textuelles : une exprimentation partir de donnes denqute, in : JADT, Barcelone, 1992, 6988.
236
BOUAUD J., HABERT B., NAZARENKO A., ZWEIGENBAUM P. Regroupements issus de dpendances syntaxiques en corpus : catgorisation et confrontation deux modlisations conceptuelles, in : Actes Ingnierie des connaissances, Roscoff, 1997, 207223. BOURIGAULT D. Analyse syntaxique locale pour le reprage de termes complexes dans un texte, TAL, 34, 2, 1993. BRILL E. Transformation-based error-driven learning and natural language processing : A case study in part-of-speech tagging, Computational Linguistics, 21, 4, 1995, 543565. BRISCOE T. Prospects for practical parsing of unrestricted text : robust statistical parsing techniques, in : Corpus-based research into language, Ooostdijk N., de Haan P., Rodopi, Amsterdam, 1994, 97120. BRONCKART J.-P., BAIN D., SCHNEUWLY B., DAVAUD C., PASQUIER A. Le fonctionnement des discours : un modle psychologique et une mthode danalyse, Delachaux & Niestl, Lausanne, 1985. BROWN P., LAI J., MERCER R. Aligning sentences in parallel corpora, in : ACL91, Berkeley, USA, 1991. BRUNET E. Le Vocabulaire de Marcel Proust, Slatkine-Champion, Genve-Paris, 1983. BRUNET E. Le vocabulaire franais de 1789 nos jours, daprs les donnes du Trsor de la langue franaise, Slatkine-Champion, Genve-Paris, 1981. BRUNET E. What do statitistics tell us, in : Research in humanities Computing, Clarendon Press, Oxford, tm. 1, 1991, 3546. BURNAGE G., DUNLOP D. Encoding the British National Corpus, in : English language corpora : design, analysis and exploitation, Aarts J., de Haan P., Oostdijk N., Rodopi, Amsterdam, 1993, 7996. BURNARD L. Users Reference Guide for the British National Corpus, British National Corpus Consortium, Oxford University Computing Services, Oxford, UK, may 1995. BURNARD L. What is SGML and how does it help ?, Computers and the Humanities, 29, 1995, 4150. BURNARD L., SPERBERG-MCQUEEN C. M. La TEI simplifie : une introduction au codage des textes lectroniques en vue de leur change, Cahiers Gutenberg, 24, 1996, 23151. CALLIOPE (COLLECTIF). La parole et son traitement automatique, Masson, Paris, 1989. CHANOD J.-P., TAPANAINEN P. Creating a tagset, lexicon and guesser for a french tagger, in : Proceedings of EACL SIGDAT workshop on From Texts To Tags: Issues In Multilingual Language Analysis, 1995, 5864. CHANOD J.-P., TAPANAINEN P. Tagging French comparing a statistical and a constraintbased method, in : EACL95, Dublin, 1995, 149156. CHARLET J., BACHIMONT B., BOUAUD J., ZWEIGENBAUM P. Ontologie et rutilisabilit : exprience et discussion, in : Acquisition et ingnierie des connaissances : tendances actuelles, Aussenac-Gilles N., Laublet P., Reynaud C., Cpadus Editions, Toulouse, 1996, 6987. CHISHOLM D., ROBEY D. Encoding verse texts, Computers and the Humanities, 29, 1995, 99111. CHURCH K. W. Char Align: A program for aligning parallel texts at the character level, in : ACL93, Columbus, Ohio, 1993. CHURCH K. W. One term or two ?, in : SIGIR, Seattle, USA, 1995, 310318. CHURCH K. W., HANKS P. Word association norms, mutual information, and lexicography, Computational Linguistics, 16, 1, 1990, 2229.
Bibliographie
237
CHURCH K. W., MERCER R. L. Introduction to the special issue on Computational Linguistics Using Large Corpora, Computational Linguistics, 19, 1, 1993, 124. CHURCH K., GALE W. Concordance for Parallel Texts, in : Proceedings of the 7th Annual Conference of the UW Centre for the New Oxford English Dictionary and Text Research, Oxford, 1991. COVER R. C., ROBINSON P. M. W. Encoding textual criticism, Computers and the Humanities, 29, 1995, 123136. COWIE J., GUTHRIE J., GUTHRIE L. Lexical disambiguation using simulated annealing, in : COLING92, Nantes, 1992, 359365. CUTTING D., KUPIEC J., PEDERSEN J., SIBUN P. A practical part-of-speech tagger, in : ANLP92, 1992. DAGAN I., ITAI A., SCHWALL U. Two languages are more informative than one, in : ACL91, Berkeley, USA, 1991, 130137. DAILLE B. Reprage et extraction de terminologie par une approche mixte statistique et linguistique, TAL, 36, 1-2, 1995, 101118. DAILLE B. Study and implementation of combined techniques for automatic extraction of terminology,in : Actes The Balancing Act - Combining Symbolic and Statistical Approaches to Language, Las Cruces, USA, 1995, 2936. DALADIER A. Aspects constructifs des grammaires de Harris, Langages, 99, 1990, 5784. DUNLOP D. Practical considerations in the use of TEI headers in large corpora, Computers and the Humanities, 29, 1995, 8598. DUPUIS F., LEMIEUX M., GOSSELIN D. Consquences de la sous-spcification des traits de Agr dans lidentification de Pro, Language Variation and Change, 3, 1992, 275299. EEG-OLOFSSON M., ALTENBERG B. Discontinuous recurrent word combinations in the London-Lund corpus, in : Creating and using English language corpora, Fries U., Tottie G., Schneider P., Rodopi, Amsterdam, 1994, 6378. EL-BZE M., SPRIET T. Intgration de contraintes syntaxiques dans un systme dtiquetage probabiliste, TAL, 36, 1-2, 1995, 4766. ENGWALL G. Not chance but choice : Criteria in corpus creation, in : Computational Approaches to the Lexicon, Atkins B., Zampolli A., Oxford University Press, Oxford, 1994, 4982. EVANS D. A., ZHAI C. Noun-phrase analysis in unrestricted text for information retrieval, in : ACL96, Santa Cruz, USA, 1996. EYES E., LEECH G. Progress in UCREL research : improving corpus annotation practices, in : English language corpora : design, analysis and exploitation, Aarts J., de Haan P., Oostdijk N., Rodopi, Amsterdam, 1993, 125143. FELLBAUM C., GROSS D., MILLER K. Adjectives in WordNet, in : Five Papers on WordNet, http://www.cogsci.princeton.edu/ wn/ (sept. 1997), 1993, 2639, revised version. FIALA P., HABERT B. La langue de bois en clats : les dfigements dans les titres de la presse quotidienne franaise, MOTS, 1989, 8398. FILLMORE C. J., ATKINS B. Starting where the dictionaries stop : The challenge of corpus lexicography, in : Computational Approaches to the Lexicon, Atkins B., Zampolli A., Oxford University Press, Oxford, 1994, 349396. FINEGAN E., BIBER D. That and zero complementisers in late modern english : exploring archer from 1650-1990, in : The verb in contemporary English. Theory and description, Aarts B., Meyer C. F., Cambridge University Press, Cambridge, 1995, 241257. FUCHS C. (resp.) Linguistique et traitement automatique des langues, Hachette, Paris, 1993.
238
GALE W. A., CHURCH K. W. A program for aligning sentences in bilingual corpora, Computational Linguistics, 19, 1, 1993, 75102. GAUSSIER E., GREFENSTETTE G., SCHULZE M. Traitement du langage naturel et recherche dinformation : quelques expriences sur le franais, in : FRANCIL97, 1997, 914. GAUSSIER E., LANGE J.-M. Modles statistiques pour lextraction de lexiques bilingues, TAL, 36, 1-2, 1995, 133156. GAZDAR G., KLEIN E., PULLUM G. K., SAG I. A. Generalized Phrase Structure Grammar, Harvard University Press, Cambridge, MA, 1985. GAZDAR G., MELLISH C. Natural Language Processing in Lisp, Addison Wesley, Reading, 1989. GIORDANO R. The TEI header and the documentation of electronic texts, Computers and the Humanities, 29, 1995, 7585. GOLDFARB C. F. The SGML Handbook, Clarendon Press, 1990. GOOSSENS M. Introduction pratique SGML, Cahiers Gutenberg, 19, 1995, 2758. GRANGER S. International corpus of learner english, in : English language corpora : design, analysis and exploitation, Aarts J., de Haan P., Oostdijk N., Rodopi, Amsterdam, 1993, 5771. GREENBAUM S. The tagset for the International Corpus of English, in : Corpus-Based Computational Linguistics, Souter C., Atwell E., Rodopi, Amsterdam, 1993, 1124. GREENBAUM S., YIBIN N. Tagging the British ICE corpus : English word classes, in : Corpus-based research into language, Ooostdijk N., de Haan P., Rodopi, Amsterdam, 1994, 3346. GREENSTEIN D., BURNARD L. Speaking with one voice : Encoding standards and the prospects for an integrated approach to computing in history, Computers and the Humanities, 29, 1995, 137148. GREFENSTETTE G. Automatic thesaurus generation from raw text using knowledge-poor techniques, in : Proceedings of the 9th Conference on Oxford English dictionary, Oxford, 1993. GREFENSTETTE G. Corpus-derived first, second and third order affinities, in : EURALEX, Amsterdam, 1994. GREFENSTETTE G. Evaluation techniques for automatic semantic extraction : Comparing syntactic and window based approaches, in : Corpus Processing for Lexical Acquisition, Boguraev B., Pustejovsky J., The MIT Press, Cambridge, Massachusetts, 1996, 205216. GRISHMAN R., KITTREDGE R., (eds.): Analyzing Language in Restricted Domains. Sublanguage Description and Processing., Lawrence Erlbaum Ass., Hillsdale, 1986. GRISHMAN R., STERLING J. Generalizing automatically generated selectional patterns, in : COLING94, Kyoto, 1992, tm. 3, 742747. GROSS G. Classes dobjets et description des verbes, Langages, 115, 1994, 1530. GROSS G. Degr de figement des noms composs, Langages, 90, 1988, 5770. GUHA R., LENAT D. B. Enabling agents to work together, Communications of the ACM, 37, 7, 1994, 127142. GUILLET A. Fondements formels des classes smantiques dans un lexique-grammaire, Langages 98, 1990, 70102. GUTHRIE J., GUTHRIE L., WILKS Y., AIDINEJAD H. Subject-dependent co-occurrences and word sense disambiguation, in : ACL91, Berkeley, USA, 1991. HABERT B. (resp.) Traitements probabilistes et corpus, TAL, 36, 1-2, 1995.
Bibliographie
239
HABERT B. tudes des formes spcifiques et typologie des noncs (les rsolutions gnrales des congrs de la CFTC-CFDT de 1945 1979), MOTS, 11, 1985, 127154. HABERT B. Lanalyse des formes spcifiques. Bilan critique et propositions dutilisation, MOTS, 7, 1983, 97124. HABERT B., HERVIOU-PICARD M.-L., BOURIGAULT D., QUATRAIN R., ROUMENS M. Un outil et une mthode pour comparer deux extracteurs de groupes nominaux, in : FRANCIL97, 1997, 509-516. HABERT B., NAULLEAU E., NAZARENKO A. Symbolic word clustering for medium-size corpora, in : COLING96, Copenhague, Danemark, 1996, tm. 1, 490495. HABERT B., SALEM A. Lutilisation de catgorisations multiples pour lanalyse quantitative de donnes textuelles, TAL, 36, 1-2, 1995, 249276. HARRIS Z., GOTTFRIED M., RYCKMAN T., MATTICK JR P., Daladier A., Harris T., Harris S. The Form of Information in Science, Analysis of Immunology Sublanguage, Kluwer Academic Publisher, Dordrecht, 1989. HATZIVASSILOGLOU V., MCKEOWN K. Towards the automatic identification of scales : Clustering adjecives according to meaning, in : ACL93, Columbus, USA, june 1993, 172 182. HEARST M. A. Automatic acquisition of hyponyms from large text corpora, in : COLING92, Nantes, 1992, 539545. HERDAN G. Quantitative Linguistics, Butterworths, Londres, 1964. HERZOG O., ROLLINGER C. (eds.): Text Understanding in LILOG, Springer-Verlag, Heidelberg, 1991. HINDLE D. A parser for text corpora, in : Computational Approaches to the Lexicon, Atkins B., Zampolli A., Oxford University Press, Oxford, 1994, 103152. HINDLE D. Noun classification from predicate argument structures, in : ACL83, Berkeley, USA, 1990, 268275. HOLMES D. I. The analysis of literary style - A review, J.R. Statistic. Soc., 148, Part 4, 1985, 328341. HUMPHREY B. L., LINDBERG D. A. Building the Unified Medical Language System, in : Proceedings of the 6th Annual SCAMC, IEEE, Washington, 1989, 475480. IDE N., SPERBERG-MCQUEEN C. M. The Text Encoding Initiative its history, goals and future development, Computers and the Humanities, 29, 1995, 516. IDE N., VRONIS J. (eds.) The Text Encoding Initiative: Background and context, Kluwer Academic Publishers, Dordrecht, 1995. IDE N., VRONIS J. Encoding dictionaries, Computers and the Humanities, 29, 1995, 167 180. ISABELLE P. La bi-textualit : vers une nouvelle gnration daides la traduction et la terminologie, META, 37, 4, 1992, 721737. ISABELLE P., WARWICK-ARMSTRONG S. Les corpus bilingues : une nouvelle ressource pour le traducteur, in : La traductique, Bouillon P., Clas A., Presses de lUniversit de Montral, Montral, 1993, 288306. JACQUEMIN C., KLAVANS J. L., TZOUKERMANN E. Expansion of multi-word terms for indexing and retrieval using morphology and syntax, in : ACL - EACL97, Madrid, 1997, 2431. JACQUEMIN C., ROYAUT J. Retrieving terms and their variants in a lexicalized unificationbased framework, in : SIGIR94, Dublin, 1994, 132141. JOHANSSON S. This scheme is badly needed : some aspects of verb-adverb combinations, in : The verb in contemporary English. Theory and description, Aarts B., Meyer C. F., Cambridge University Press, Cambridge, 1995, 218240.
240
JOHANSSON S. Continuity and change in the encoding of computer corpora, in : Corpusbased research into language, Ooostdijk N., de Haan P., Rodopi, Amsterdam, 1994, 13 32. JOHANSSON S. The encoding of spoken texts, Computers and the Humanities, 29, 1995, 149158. JUSTESON J. S., KATZ S. M. Principled disambiguation : Discriminating adjective senses with modified nouns, Computational Linguistics, 21, 1, 1995, 128. KARLSSON F. Robust parsing of unconstrained text, in : Corpus-based research into language, Oostdijk N., de Haan P., Rodopi, Amsterdam, 1994, 121142. KARLSSON F., VOUTILAINEN A., HEIKKILA J., ANTILLA A. Contraint Grammar : a LanguageIndependent System for Parsing Unrestricted Text, Mouton de Gruyter, 1995. KLEIBER G. Dnomination et relations dnominatives, Langages, 76, 1984, 7794. KROCH A. S. Reflexes of grammar in patterns of language change, Language Variation and Change, 3, 1990, 275299. KROVETZ R. Lexical acquisition and information retrieval, in : Lexical Acquisition : Exploiting On-Line Ressources to build a Lexicon, Zernik U., Lawrence Erlbaum, USA, 1991. KUCERA H., NELSON F. Computational Analysis of Present-Day American English, Brown University Press, Providence, 1967. KYT M. A supplement to the Helsinki corpus of english texts : the corpus of early american english, in : English language corpora : design, analysis and exploitation, Aarts J., de Haan P., Oostdijk N., Rodopi, Amsterdam, 1993, 289298. LABBE D. Le vocabulaire de Franois Mitterrand, Presses de la Fondation Nationale des Sciences Politiques, Paris, 1990. LAFON P. Analyse lexicomtrique et recherche des cooccurrences, MOTS, 3, 1981, 95 148. LAFON P. Sur la variabilit de la frquence des formes dans un corpus, MOTS, 1, 1980, 128165. LAFON P., SALEM A. Linventaire des segments rpts dun texte, Mots, 6, 1983, 161 177. LANGE J.-M., GAUSSIER E. Alignement de corpus multilingues au niveau des phrases, TAL, 36, 1-2, 1995, 6780. LAVAGNINO J., MYLONAS E. The show must go on : Problems of tagging performance texts, Computers and the Humanities, 29, 1995, 113121. LE PESANT D. Les complments nominaux du verbe lire : une illustration de la notion de classe dobjets , Langages, 115, septembre 1994, 3146. LEBART L., SALEM A. Statistique textuelle, Dunod, Paris, 1994. LEECH G. The state of the art in corpus linguistics, in : English Corpus Linguistics, Aijmer K., Altenberg B., Longman, London, 1991, 829. LEECH G., BARNETT R., KAHREL P. Preliminary recommendations for the Syntactic Annotation of Corpora, Rap. tech., EAGLES (Expert Advisory Group on Language Engineering Standards), march 1996, CEE. LEECH G., BARNETT R., KAHREL P. Syntactic Annotation : Survey of Annotation Practices, Rap. tech., EAGLES (Expert Advisory Group on Language Engineering Standards), april 1995, CEE. LEECH G., GARSIDE R., ATWELL E. The automatic grammatical tagging of the LOB corpus, Newsletter of the International Computer Archive of Modern English, 7, 1983, 1333.
Bibliographie
241
LEECH G., GARSIDE R., BRYANT M. The large-scale grammatical tagging of text : experience with the British National Corpus, in : Corpus-based research into language, Ooostdijk N., de Haan P., Rodopi, Amsterdam, 1994, 4764. LIBERMAN M. Y. The Trend towards Statistical Models in Natural Language Processing, in : Natural Language and Speech, Klein E., F. Veltman, Springer-Verlag, 1991, 1-7. LIGOZAT G. Reprsentation des connaissances et linguistique, Armand Colin, Paris, 1994. MAINGUENEAU D. Lanalyse du discours : introduction aux lectures de larchive, Hachette, Paris, 1991. MAIR C. Changing patterns of complementation, and concomitant grammaticalisation, of the verb help in present-day british english, in : The verb in contemporary English. Theory and description, Aarts B., Meyer C. F., Cambridge University Press, Cambridge, 1995, 258271. MAIR C. Is see becoming a conjunction ? the study of grammaticalisation as a meeting ground for corpus linguistics and grammatical theory, in : Creating and using English language corpora, Fries U., Tottie G., Schneider P., Rodopi, Amsterdam, 1994, 127137. MARANDIN J.-M., CORI M. Grammaires darbres polychromes, TAL., 34, 1, 1993, 101132. MARANDIN J.-M. Analyseurs syntaxiques. Equivoques et problmes, TAL, 34, 1, 1993, 5 34. MARCHELLO-NIZIA C. Lvolution du franais : ordre des mots, dmonstratifs, accent tonique, Armand Colin, Paris, 1995. MARCUS M. P., HINDLE D., FLECK M. M. D-theory : Talking about talking about trees, in : ACL83, 1983, 129136. MARCUS M., SANTORINI B., MARCINKIEWICZ M. A. Building a large annotated corpus of english : The Penn Treebank, Computational Linguistics, 19, 2, 1993, 313330. MATHIEU-COLAS M. Les mots traits dunion. Problmes de lexicographie informatique, Paris, 1994. MCENERY T., WILSON A. Corpus Linguistics, Edinburgh University Press, Edinburgh, 1996. MCMAHON J. G., SMITH F. J. Improving statistical language model performance with automatically generated word hierarchies, Computational Linguistics, 22, 2, 1996, 217 247. MCNaught J. User needs for textual corpora in natural language processing, Literary and Linguistic Computing, 8, 9, 1993, 227234. MELCUK I. Paraphrase et lexique dans la thorie linguistique sens-texte, Lexique, 6, 1988, 1354. MELBY A. E-TIF : an electronic terminology interchange format, Computers and the Humanities, 29, 1995, 159166. MELIS-PUCHULU A. Les adjectifs dnominaux : des adjectifs de relation , Lexique, 10, 1991, 3360. MERIALDO B. Modles probabilistes et tiquetage automatique, TAL, 36, 1-2, 1995, 722. MERIALDO B. Tagging english text with a probabilistic model, Computational Linguistics, 20, 2, 1994, 155171. MILKHEEV A., FINCH S. P. A workbench for acquisition of ontological knowledge from natural language, in : Actes, 9th Knowledge Acquisition for Knowledge-Based Systems Workshop, Banff, 1995. MILLER G. A. Nouns in WordNet : A lexical inheritance system, in : Five Papers on WordNet, http://www.cogsci.princeton.edu/ wn/ (sept. 1997), 1993, 1025, revised version.
242
MILLER G. A., BECKWITH R., FELLBAUM C., GROSS D., MILLER K. J. Introduction to WordNet: An on-line lexical database, Journal of Lexicography, 3, 1990, 235244. MILLER G. A., BECKWITH R., FELLBAUM C., GROSS D., MILLER K. Introduction to WordNet : An on-line lexical database, in : Five Papers on WordNet, http://www.cogsci.princeton.edu/ wn/ (sept. 1997), 1993, 19, revised version. MILNER J.-C. Introduction une science du langage, Des Travaux, Seuil, Paris, 1e dn., 1989. MULLER C. Initiation aux mthodes de la statistique linguistique, Hachette, Paris, 1973. NEDERHOF M. J., KOSTER K. A customized grammar workbench, in : English language corpora : design, analysis and exploitation, Aarts J., de Haan P., Oostdijk N., Rodopi, Amsterdam, 1993, 163180. NEVALAINEN T. Diachronic issues in english adverb derivation, in : Creating and using English language corpora, Fries U., Tottie G., Schneider P., Rodopi, Amsterdam, 1994, 139147. NUNBERG G. The Linguistics of Punctuation, CSLI, Menlo Park, 1990. PAROUBEK P., ADDA G., MARIANI J., RAJMAN M. Les procdures de mesure automatique de laction GRACE pour lvaluation des assignateurs de parties du discours pour le franais, in : FRANCIL97, Avignon, 1997, 245252. PARTEE B. H., MEULEN A. T., WALL R. E. Mathematical models in linguistics, Kluwer Academic Publishers, 1990. PCHEUX M. Analyse automatique du discours, Dunod, Paris, 1969. PEREIRA F., TISHBY N., LEE L. Distributional clustering of english words, in : ACL93, Columbus, USA, 22-26 june 1993, 183190. PERY-WOODLEY M.-P. Quels corpus pour quels traitements automatiques ?, TAL, 36, 1-2, 1995, 213232. PERY-WOODLEY M.-P. Les crits dans lapprentissage : cls pour analyser les productions des apprenants, F References, Hachette, Paris, 1993. PETERS P. American and british influence in australian verb morphology, in : Creating and using English language corpora, Fries U., Tottie G., Schneider P., Rodopi, Amsterdam, 1994, 149158. PUJOL N. Corpora : lments pour un Guide Juridique, Rap. tech., Institut de Recherches Comparatives sur les Institutions et le Droit - CNRS, Ivry-sur-Seine, 1993. QUIRK R., GREENBAUM S., LEECH G., SVARTVIK J. A Comprehensive Grammar of the English Language, Longman, London, 1985. RAJMAN M. Approche probabiliste de lanalyse syntaxique, TAL, 36, 1-2, 1995, 157201. RAUMOLIN-BRUNBERG H. The position of adjectival modifiers in late middle english noun phrases, in : Creating and using English language corpora, Fries U., Tottie G., Schneider P., Rodopi, Amsterdam, 1994, 159168. REINERT M. Alceste, une mthodologie danalyse des donnes textuelles et une application : Aurlia de Grard de Nerval, Bull. de Mthod. Sociol., 26, 1990, 2454. RENOUF A. A word in time : first findings from the investigation of dynamic text, in : English language corpora : design, analysis and exploitation, Aarts J., de Haan P., Oostdijk N., Rodopi, Amsterdam, 1993, 279288. RESNIK P. Disambiguation noun groupings with respect to WordNet senses, in : Third Workshop on Very Large Corpora, Yarowsky D., Church K., Cambridge, USA, 1995, 54 68. RESNIK P. Using information content to evaluate semantic similarity in a taxonomy, in : IJCAI95, 1995.
Bibliographie
243
REY A., CHANTREAU S. Dictionnaire des expressions et locutions, Le Robert, Paris, 1979. RILOFF E. Little words can make a big difference for text classification, in : SIGIR, Seattle, USA, 1995, 130136. ROLE F. Le codage informatique des apparats critiques : valuation des recommandations de la Text Encoding Initiative, Cahiers Gutenberg, 24, juin 1996, 153165. RYCKMAN T. De la structure dune langue aux structures de linformation dans le discours et dans les sous-langages scientifiques, Langages, 99, 1990, 2128. SAGER N., FRIEDMAN C. (eds.) Medical Language Processing : Computer Management of Narrative Data, Addison-Wesley, Reading, 1987. SALEM A. Pratique des segments rpts : essai de statistique textuelle, Kliencksieck, Paris, 1987. SALTON G. Automatic Text Processing: The Transformation, Analysis and Retrieval of Information by Computer, Addison-Wesley, Reading, 1989. SAMPSON G. Susanne : a domesday book of english grammar, in : Corpus Based Research into Language, Oostdijk N., de Haan P., Rodopi, Amsterdam, 1994, 169187. SAPORTA G. Probabilits analyse des donnes et statistique, Technip, Paris, 1990. SCHMIED J. Analysing style variation in the east african corpus of english, in : Creating and using English language corpora, Fries U., Tottie G., Schneider P., Rodopi, Amsterdam, 1994, 167174. SILBERZTEIN M. Dictionnaires lectroniques et analyse automatique de textes. Le systme INTEX, Informatique linguistique, Masson, Paris, 1993. SIMARD M., FOSTER G., ISABELLE P. Using cognates to align sentences in bilingual corpora, in : Proc. of the Fourth International Conference on Theoretical and Methodological Issues in Machine Translation (TMI 92), Montreal, Canada, 1992. SIMONIN-GRUMBACH J. Pour une typologie des discours, in : Langue, discours, socit (pour Emile Benveniste), Seuil, Paris, 1975, 85121. SINCLAIR J. Preliminary recommendations on Corpus Typology, Rap. tech., EAGLES (Expert Advisory Group on Language Engineering Standards), may 1996, CEE. SINCLAIR J., HANKS P., FOX G., MOON R., STOCK P. (eds.): Collins COBUILD English Language Dictionary, Collins, Glasgow, 1987. SMADJA F. Retrieving collocations from text: Xtract, Computational Linguistics, 19, 1, 1993, 143177. SOUTER C. Towards a standard format for parsed corpora, in : English language corpora : design, analysis and exploitation, Aarts J., de Haan P., Oostdijk N., Rodopi, Amsterdam, 1993, 197212. SOUTER C., ATWELL E. Using parsed corpora : a review of current practice, in : Corpusbased research into language, Ooostdijk N., de Haan P., Rodopi, Amsterdam, no. 12 dans Language and computers : studies in practical linguistics, 1994, 143158. SRINIVASAN P. Thesaurus construction, in : Information Retrieval : Data Structures and Algorithms, Frakes W. B., Baeza-Yates R., Prentice Hall, New Jersey, 1992. STEIN A., SCHMID H. tiquetage morphologique de textes franais avec un arbre de dcision, TAL, 36, 1-2, 1995, 2336. SUEUR J.-P. Pour une grammaire du discours : laboration dune mthode; exemples dapplication, MOTS, 5, 1982, 145185. SUSSNA M. Word sense disambiguation for free-text indexing using a massive semantic network, in : Proceedings of the Second International Conference on Information and Knowledge Management, Bhargava B., Finin T., Yesha Y., ACM, 1993, 6774.
244
SVARTVIK J., EEG-OLOFSSON M., FORSHEDEN O., ORESTR B., THAVENIUS C. Survey of Spoken English, Lund University Press, Lund, 1982. TAPANAINEN P., JRVINEN T. Syntactic analysis of natural language using linguistic rules and corpus-based patterns, in : EACL95, Dublin, 1995. TODOROV T. M. Bakhtine, Le principe dialogique, Le Seuil, Paris, 1981. TZOUKERMANN E., RADEV D. R. Using word class for part-of-speech disambiguation, in : Fourth Workshop on Very Large Corpora, Ejerhed E., Dagan I., Copenhague, Danemark, 1996, 113. USHIODA A. Hierarchical clustering of words and application to nlp tasks, in : 4th Workshop on Very Large Corpora, Ejerhed E., Dagan I., Copenhague, Danemark, 1996, 2841. VAN HALTEREN H., DEN HEUVEL T. V. Linguistic exploitation of syntactic databases : the use of the Nijmegen Linguistic DataBase program, Rodopi, Amsterdam, 1990. VAN HALTEREN H., OOSTDIJK N. Towards a syntactic database : the TOSCA analysis system, in : English language corpora : design, analysis and exploitation, Aarts J., de Haan P., Oostdijk N., Rodopi, Amsterdam, 1993, 145162. VAN HERWIJNEN E. SGML pratique, International Thomson Publishing France, Paris, 1995. VAN DER LINDER E. J. Incremental processing and the hierarchical lexicon, Computational Linguistics, 18, 2, 1992, 218237. VRONIS J., IDE N. Word sense disambiguation with very large neural networks extracted from machine readable dictionaries, in : COLING90, Helsinki, Finlande, 1990, 389394. VERONIS J., KHOURI L. tiquetage grammatical multilingue : le projet MULTEXT, TAL, 36, 1-2, 1995, 233248. VIJAY-SHANKER K. Using descriptions of trees in a Tree Adjoining Grammar, Computational Linguistics, 18, 4, 1992, 482516. VOORHEES E. M. Query expansion using lexical-semantic relations, in : SIGIR94, 1994. VOSSEN P. Right or wrong : Combining lexical resources in the EuroWordNet project, in : EURALEX 96, Sude, 1996, tm. II, 715728. VOUTILAINEN A., HEIKKIL J. An english constraint grammar (ENGCG): a surface-syntactic parser of english, in : Creating and using English language corpora, Fries U., Tottie G., Schneider P., Rodopi, Amsterdam, 1994, 189200. WARNESSON I. Applied linguistics : optimization of semantic relations by data aggregation techniques, Applied Stochastic Models and Data Analysis, 1, 1985, 121141. WRIGHT S. In search of history : English language in the eighteenth century, in : English language corpora : design, analysis and exploitation, Aarts J., de Haan P., Oostdijk N., Rodopi, Amsterdam, 1993, 2539. WRIGHT S. The place of genre in corpus, in : Corpora across the centuries, Kyt M., Rissanen M., Wright S., Rodopi, Amsterdam, 1994, 101110. YAROWSKY D. Word-sense disambiguation using statistical models of Rogets categories trained on large corpora, in : COLING92, Nantes, 1992, p. 454460. ZWEIGENBAUM P. MENELAS: an access system for medical records using natural language, Computer Methods and Programs in Biomedicine, 45, 1994, 117120.
INDEX
Abeill, 18, 47, 53 accroissement du vocabulaire, 189 accroissements spcifiques, 205 acquisition de connaissances, 83, 92 acquisition des connaissances lexicales, 177 adjectif qualificatif, 90 relationnel, 90 Agirre, 82 AlethCat, 26, 30 alignement, 140 aligns (textes) Voir corpus dfinition, 137 ambigut, 6 morpho-syntaxique, 165 Amstrong, 211 analogie, 136 analyse des correspondances, 201 analyse du discours, 95 analyse multi-dimensionnelle, 37 analyse syntaxique, 105 partielle, 44 totale, 44 analyse syntaxique automatique ambigut, 45 descendante, 48 environnements informatiques, 69 montante, 48 niveaux d'annotation, 48 partielle, 62, 63 robuste, 47 sous-spcification, 46 Andr, 156 annotation jurisprudence, 158 smantique, 72 annot Voir corpus anti-dictionnaire, 109, 110, 117, 118 antonyme, 75, 77 antonymie, 91, 112 directe, 91 indirecte, 91 apprentissage analyse syntaxique, 65 arbor Voir corpus arbors (corpus) notations textuelles, 41 relations, 39 utilisation, 52 arbre, 39 description logique, 40 arbre hirarchique, 197 arbres squelettiques, 44 Archer, 6, 11, 123, 124, 125, 129, 133, 145, 147, 153, 211 archive Voir archive Assadi, 178, 180 Atkinson, 123 attestation, 105 Atwell, 45, 70 Authier-Revuz, 68 Bakhtine, 36 balisage, 154 Barkema, 54, 55, 56, 57, 67, 68, 69, 71, 138, 139, 146 base conceptuelle, 74, 77 de connaissances, 73 lexicale, 74 base lexicale lectronique, 84 informatise, 85 sur support lectronique, 86 basic level, 90 Basili, 82, 83, 91, 178, 180, 181 Bensch, 179, 180 Benveniste, 22, 36 Benzcri, 199 Bergounioux, 122 Biber, 7, 22, 23, 24, 25, 33, 35, 37, 123, 124, 125, 126, 129, 133, 147, 148, 149, 153, 213 bi-concordanciers, 140 bilingues (corpus) Voir aligns (textes) Birmingham (corpus de), 54, 56, 139, 146 bi-texte Voir aligns (textes) Black, 45, 46, 47, 70, 145, 150, 157, 158, 168, 170, 171, 172, 175, 176, 214 Blackwell, 161 Blanche-Benveniste, 7, 135 BNC, 2, 7, 11, 20, 133, 145, 147, 148, 156, 159, 166, 168, 211 Bouaud, 82, 152, 178, 179, 180 Bourigault, 63 Bourrigault, 178, 180 Brill, 2, 168, 211 Briscoe, 45, 176 Bronckart, 24 Brown, 2, 6, 8, 11, 50, 127, 145, 147, 153, 181, 211 Brown P., 141 bruit, 6 Burnard, 148 Calliope, 166 caractres dlimiteurs, 188 catgorie conceptuelle, 74, 78 smantique, 78 universelle, 80 catgorie smantique, 180
18
fine, 181 gnrale, 90, 91, 92 grossire, 180 catgories grammaticales, 186 catgories smantiques, 177 chanes de Markov, 166, 168 champ smantique, 178 Chanod, 17, 164, 165, 166, 167 Chantreau, 53 Charlet, 83 Charrette, 132 Church, 2, 5, 140, 141, 178, 179, 192 classe, 197 classe de mots, 177, 180 classe smantique, 179 classification, 180 classification ascendante hirarchique, 197 classification automatique, 179, 180 Classifications descendantes, 199 CLAWS, 17, 168 cl dindexation, 106 clef d'indexation, 117 COBUILD, 67 co-dtermination des sens, 113 collection Voir corpus Collins, 111 collocativit, 69 comptence, 134 compositionnalit, 69 concept, 74, 80 concepts dans WordNet, 86 concordances, 182 constituants (grammaires de), 40 contexte, 108 dfinition de, 177 documentaire, 104, 178 graphique, 104, 178 phrase, 104 significatif, 179 syntaxique, 178 contexte documentaire, 179 contextes, 182 contrainte de slection, 178 contrls (langages), 150 cooccurrence, 177 cooccurrences, 191 Corbin, 52 Cori, 39 corpus align, 8 annot, 2, 7 arbor, 2, 16, 38 archive Voir archive collection, 145 comparables, 145 de rfrence, 145, 148 de suivi, 126, 146 de taille moyenne, 181 de textes, 145 d'chantillons, 145 dfinition, 5, 145
246
partir de dfinitions, 110 distinction de domaine, 81 distinction de sens, 81 grossire, 81 homographique, 81 distinctions de sens, 74, 76 distribution, 179 DTD, 154 Dunlop, 157 Dupuis, 136 chantillonnage, 125, 129 El Bze, 165 lagage, 169 El-Bze, 165, 166, 168 embrayeurs, 22 ENCG, 40, 169, 171, 172 encodage de dictionnaire, 84 Enfants, 15, 18, 19, 21, 26, 32, 33, 35, 181, 190, 194, 198, 199, 200 Enfants, 73 ENGCG, 46, 48 Engwall, 146 enrichi Voir corpus quivalence relation de, 178 tiquetage, 14 ambigut, 20 comparaison, 34 dtournement, 33 environnements informatiques, 34 finalis, 32 intgral, 20, 26 manuel, 181 partiel, 20, 23 transformation, 26, 33 tiquetage smantique, 73 exemples, 73 tiquet Voir corpus tiqueteur, 20 tiquette smantique, 73 tiquettes, 186 EuroWordnet, 92 expansion Voir dpendant expansion de requtes, 107 expressions figes, 190 expressions figes ou semi-figes, 178 Eyes, 44 famille de sens, 81 FASTER, 62, 67 fentres de mots, 178 feuilles, 39 Fiala, 56, 162 Fidditch, 46, 47, 172 figement, 54, 69 filtrage, 35 des contextes, 179 filtrages, 192 Finch, 180 Finegan, 123, 124, 125, 126, 129, 133, 147
flexibilit Voir phrasologie (variation) flexibilit syntaxique, 69 formes chrono-homognes, 207 francophonie ressources, 211 Frantext, 2 Frei, 135 Fuchs, 3 Gale, 140, 141 Gaussier, 141 Gazdar, 5, 40, 53, 54 genres, 153 grammaires locales, 163 grammaires locales, 163 grammaires locales, 166 granularit de la description, 73, 115 graphe, 39 Grefenstette, 78, 94, 98, 99, 101, 102, 103, 104, 105, 117, 118, 119, 120, 177, 178, 179, 180, 211 Grishman, 117, 151, 178, 180 Gross, 38, 54, 151 Guha, 80 Guillet, 53 Guthrie, 76, 81, 108, 114 Habert, 12, 25, 26, 53, 56, 66, 71, 162, 196, 203 Halteren, 44, 46, 70, 171, 172 Hanks, 178, 179, 192 Hansard, 137, 139 Hansard, 145 Harris, 149, 150, 151, 152 Hatzivassiloglou, 117 Hearst, 177 Heikkila, 46, 48 Helsinki, 8, 11, 123, 125, 128, 129, 133, 147 Herdan, 183 Herzog, 116 Heuvel, 70 hirarchie, 78, 85, 90 conceptuelle, 80 lexicale, 81 profondeur, 113 Hindle, 46, 47, 117, 121, 172, 178, 179 histoire, 22, 36 Holmes, 184 homognisation, 161 HTML, 155 Humphrey, 83 hyponymie, 74, 89, 112, 177 et distance, 82 hyponymie et frquence, 99 ICE, 17 Ide, 76, 111, 119, 154, 156 identification, 183 implication, 91 indexation, 106, 118 infrence linguistique, 105 information mutuelle score d'association, 120, 121 Intelligence Artificielle, 74, 80 interprtation, 180 INTEX, 163
247
247
18
IS-A, 74 Isabelle, 139, 140, 141, 142, 211 Jacquemin, 53, 57, 58, 62, 68, 213 jeux d'tiquettes diversit, 16 Justeson, 117, 179 Karlson, 147 Karlsson, 40, 47, 169, 172 Katz, 117, 179 Khouri, 17, 20 Kittredge, 151 Kleiber, 64 Koster, 69, 170 Kroch, 136 Kyt, 123, 124 Labb, 4, 12, 188, 192 Lafon, 178, 179, 192 l'analyse multi-dimensionnelle, 136 Lancaster/IBM Treebank, 11 langage artificiel, 3, 47 naturel Voir TALN Lang, 141 langue gnrale, 82 spcialise, 82, 177 langue de spcialit, 57 langue spcialise, 100 LDB, 70 LDOCE, 45, 70, 146 Le Monde, 126 Le Pesant, 151 Lebart, 12, 179, 183, 196, 199 Leech, 4, 41, 44, 48, 49, 51, 167, 168, 169, 210 lemmatisation, 117, 119 lemme, 6 lemmes, 188 Lenat, 80 lexique smantique, 80 Lexter, 63, 64, 65, 66, 67 LEXTER, 45, 67 Ligozat, 18, 21 Lindberg, 83 linguistique textuelle Voir typologie des textes LOB, 6, 8, 11, 22, 127, 145, 147, 211 locutions, 190 London-Lund, 11, 23 Longman Dictionary of Contemporary English, 82, 111, 115 MacKeown, 117 MacMahon, 180 Maingueneau, 151 Mair, 127, 128, 134 Marandin, 39, 176 Marchello-Nizia, 130, 131, 132, 134, 135, 136 Marcus, 40, 44, 50, 70, 144, 167, 172, 175 Mathieu-Colas, 162 Mel'cuk, 40, 48, 53 Mellish, 5 Menelas, 7, 12, 28, 58, 62, 65, 68, 97, 103, 149, 152, 159 projet, 80, 82, 83
248
polysmie, 80, 107 ponctuation, 163 pondration des analyses, 178 prcdence relation, 39 prcision, 6, 107 pr-terminaux (noeuds), 39 primitive ontologique, 80 quantification, 135, 183 quasi-segments, 191 Quirk, 3 Rajman, 170 rappel, 6, 107 Raumolin-Brunberg, 128, 129 recherche documentaire, 96, 106, 115 registres, 122, 123, 124, 127, 129, 130, 134, 153 relation hirarchique, 88 lexicale, 88 smantique, 88 relation de dpendance Voir contexte:syntaxique relationnels (adjectifs), 28, 31, 57 Renouf, 127, 162 reprsentativit Voir requte, 106 expansion de, 107 mots clefs, 106 requtes expansion de, 107 rseau de sens, 77 smantique, 74, 79 Resnik, 82, 111, 117, 120, 121 ressources lexicales, 72 rutilisabilit, 83 Rey, 53 Rigau, 82 Rogets thesaurus, 78, 79, 80, 81 Rollinger, 116 Ryckman, 151 Sager, 149, 150, 151 Salem, 12, 26, 179, 183, 196, 199, 203 Sampson, 4, 7, 11, 38, 50, 51, 176, 213 Saporta, 179, 197 Savitch, 179, 180 Schmid, 167 score dassociation, 120 segment rpt, 202 segmentation, 162, 183 dfinition, 162 smantique, 181 segments rpts, 190 smantique diffrentielle, 86, 91 distributionnelle, 78 smantique distributionnelle hypothse (de), 98 sens de mot, 73 sens de mots, 86 sries textuelles chronologiques, 205
SGML, 155 Shannon, 192 Silberztein, 53, 162, 163, 166 silence, 6 similarit, 104, 108, 118, 179 mesure de, 177, 179 rseau de, 179 Sinclair, 5, 7, 67, 213 skeleton parsing Voir analyse squelettique Smith, 180 SORTE-DE, 74, 80 sous-langages, 149 Souter, 45, 70 spcificit ngative, 195 spcificit positive, 195 Spriet, 165, 166, 168 statistique multidimensionnelle, 193 Stein, 167 Sterling, 117, 178, 180 structuration de dictionnaire, 85 structure de traits, 58 structure trait-valeur, 18, 20, 39 Sueur, 4, 24, 34 suivi (corpus de) Voir corpus Susanne, 6, 7, 10, 11, 16, 18, 19, 21, 38, 41, 44, 50, 51, 157, 159, 176 Sussna, 108, 109, 110, 111, 112, 113, 114, 115, 117, 118, 119, 120, 177, 181 symboliques (mthodes), 5 synonymes, 75, 77, 85, 86, 87 synonymie, 80, 87, 88, 107 liens de, 112 synset, 86, 87, 88, 89, 90, 91, 92 syntagmatique, 103 description, 102 tagger Voir tiqueteur TALN, 3 Tapanainen, 17, 164, 165, 166, 167 technique de bas niveau, 118 techniques de bas niveau, 102 TEI, 156, 157 terme, 57 terminaux (noeuds), 39 terminologie acquisition, 63 Tesnire, 40, 48 tte, 48, 65 The Guardian, 126, 127, 128 thesaurus, 77, 80, 81, 99, 177 sur support lectronque, 84 THIEF, 193 TLF, 193 Todorov, 36 TOSCA, 44, 46, 47, 170, 171, 172 tout-venant (texte), 47 trace, 69 TransSearch, 137, 140 treebank Voir arbors (corpus) Trsor de la Langue Franaise, 2, 122, 146, 193 troponymie, 91 type, 6
249
249
18
typologie, 199 typologie des textes, 14, 22 fonctionnelle, 22 situationnelle, 22 typologies situationnelles, 153 Tzoukermann, 17, 165, 166, 167, 168 Uitti, 132 UMLS, 83 unification (formalismes d'), 47 Unified Medical Language System, 83 unit de contexte, 192, 199 units polylexicales, 52, 162, 163, 166 van der Linden, 54 van Herwijnen, 155
250
251
251
18
252
253
253
18
254