You are on page 1of 255

Th` ese de doctorat de lUniversit e Paris 6

Sp ecialit e : Informatique m edicale

Pr esent ee par : Natalia Grabar

Pour obtenir le grade de Docteur de lUniversit e Paris 6

Sujet de la th` ese :

Terminologie m edicale et morphologie.


Acquisition de ressources morphologiques et leur utilisation pour le traitement de la variation terminologique

Soutenue le 8 d ecembre 2004

Devant le jury compos e de : Olivier Bodenreider Bernard Fradin Directeur de Recherche CNRS Beno t Habert Professeur, Paris X St efan Darmoni Professeur, Rouen Jean-Gabriel Ganascia Professeur, Paris 6 Monique Slodzian Professeur, INaLCO, Paris Pierre Zweigenbaum Chercheur, DSIAP-HP, INaLCO, INSERM

Examinateur Rapporteur Rapporteur Examinateur Examinateur Examinatrice Directeur de th` ese

Souvent le terme varie Fol est qui sy e

Remerciements
Je tiens tout dabord a ` remercier les chercheurs et les personnes qui ont travaill e et travaillent sur les sujets abord es dans ma th` ese. Cette th` ese est un intertexte , n e et enrichi gr ace a ` ces travaux. Je remercie Monique Slodzian de mavoir mise sur la bonne voie du Traitement Automatique des Langues et des corpus, et de mavoir fait conance dans les travaux sur des projets nationaux et europ eens. Je remercie Pierre Zweigenbaum qui a assum e la direction de mon travail de th` ese, ma transf er e sa passion, (un peu de) ses connaissances et surtout la rigourosit e dans le travail. Avec Pierre, je remercie toute l equipe du Service dInformatique M edicale du CHU de la Piti eSalp etri` ere de mavoir accueillie pendant la dur ee de ma th` ese. Je remercie laction 5 du GdR 2220 du CNRS de mavoir transmis de la possion pour la morphologie. Pour avoir pu utiliser les ressources terminologiques existantes du domaine m edical, jadresse mes remerciements a `: le Dr. R.A. C ot e pour la version pr ecommerciale du R epertoire dAnatomopathologie de la SNOMED en fran cais et I. Emelin pour la version en russe ; lINSERM pour la traduction partielle du thesaurus MeSH ; et la NLM davoir mis a ` disposition des chercheurs, a ` travers lUMLS, les ressources terminologiques et lexicaux du domaine m edical. Je remercie Stefan Darmoni et son equipe pour le cadre de travail quil ma oert avec le portail m edical francophone CISMeF et pour lacc` es aux documents index es dans ce portail. Je remercie les chercheurs pour les outils et les ressources linguistiques mis a ` ma disposition : Didier Bourigault pour loutil Lexter dacquisition de candidats termes dans les corpus, Nathalie Aussenac et Patrick S egu ela pour les patrons lexico-syntaxiques de rep erage de relations s emantiques entre les termes, Yannick Toussaint pour loutil dannotation morphosyntaxique et Pierre Zweigenbaum pour sa transformation en mode emacs, INaLF pour lentra nement de l etiqueteur Brill et sa mise a ` disposition des chercheurs, Fiammetta Namer pour le lemmatiseur Flemm, Thierry Hamon et Didier Bourigault pour les ressources synonymiques de Le Robert, les services dh ematologie et de cardiologie du CHU de la Piti e-Salp etri` ere pour lacc` es aux documents hospitaliers. Je remercie mes coll` egues et amis pour les discussions et collaborations ; Thierry Hamon et Pierre Zweigenbaum pour laide dans la ma trise de lencodage des caract` eres cyrilliques sous ; mes proches pour leur soutien permanent. Je remercie le service dh ematologie du CHU Henri Mondor pour les conditions presquid eales de travail et de r edaction. Je remercie mes relecteurs, Thierry Hamon, Fiammetta Namer et Pierre Zweigenbaum, pour leurs remarques pertinentes et toujours pas susantes. Mais par-dessus tout, je remercie mes rapporteurs, Bernard Fradin et Beno t Habert, davoir accept e cette lourde t ache ; et bien s ur les membres du jury.

R esum e
Notre travail sarticule autour de la variation terminologique et en particulier autour de la variation morphologique des termes. En premier temps, nous eectuons lacquisition de donn ees morphologiques a ` partir des donn ees terminologiques structur ees. Notre m ethode donne des r esultats dune pr ecision elev ee (au-dessus des 90 %) et dun rappel assez important. En deuxi` eme temps, nous eectuons deux exp eriences an d evaluer les ressources morphologiques acquises : une application proche de la recherche dinformation et la structu` c ration des termes. A ot e dautres normalisations, les ressources morphologiques (paires de mots reli es morphologiquement et les r` egles de d esuxation de traitement des pluriels r eguliers) apportent un gain faible mais non n egligeable. De mani` ere g en erale, di erents types de normalisations donnent des r esultats compl ementaires et les ressources sp eciques du domaine sont plus utiles que les ressources de la langue g en erale. Mots cl es. Terminologie, variation terminologique, morphologie, m edecine, acquisition de ressources morphologiques, productivit e morphologique, appariement de termes, structuration de terminologies.

Abstract
In this work we study the terminological variations and particularly variations existing on the morphological level. We rst aim at acquiring morphological data from structured terminologies. Our method gives a very good precision (more than 90%) and an important recall. We then realize two experiences to evaluate acquired morphological resources : information retrieval and terminology structuring. Beside the other normalisations, the morphology (words pairs and stemming rules for regular plurals) gives a minor but important gain. In a general way, dierent normalisations give complementary results, and domain specic resources are more usefull that the general language resources. Key-words. Terminology, terminological variation, morphology, medecine, acquisition of morphological resources, morphological productivity, term matching, terminology structuring.

Table des mati` eres


1 Introduction 1.1 Objectifs du travail . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Plan du travail . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 4 4

I. Etat de lart
2 Variation terminologique 2.1 Types de variation terminologique . . . . . . . . . . . . 2.1.1 Techniques dappariement lexical . . . . . . . . 2.1.2 Donn ees terminologiques ou lexicales structur ees 2.2 La variation terminologique en contexte . . . . . . . . . 2.2.1 Fusion de terminologies . . . . . . . . . . . . . . 2.2.2 Recherche dinformation, indexation et encodage 2.2.3 Acquisition terminologique . . . . . . . . . . . . 2.3 Discussion et conclusion . . . . . . . . . . . . . . . . . 2.4 Pr ecision des objectifs du travail . . . . . . . . . . . . . 3 Morphologie 3.1 Morphologie, une sous-discipline de la linguistique . 3.1.1 Objet de la morphologie . . . . . . . . . . . 3.1.2 Mat eriau de la morphologie . . . . . . . . . 3.1.3 Deux sous-domaines de la morphologie . . . 3.1.4 Familles morphologiques de mots . . . . . . 3.1.5 Pour les cas discutables, d enissons quelques 3.2 Morphologie et TAL . . . . . . . . . . . . . . . . . 3.2.1 Etiquetage morphosyntaxique . . . . . . . . 3.2.2 Production de lexiques morphologiques . . . 3.2.3 Syst` emes danalyse morphos emantique . . . 3.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . vii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6
7 7 8 13 13 14 24 29 32 33 35 36 36 36 39 47 48 54 54 56 57 58

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . fronti` eres... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

II. Explorations morphologiques des donn ees textuelles


4 Induction de connaissances morphologiques ` a partir de terminologies structur ees 4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Travaux en acquisition automatique de connaissances morphologiques . . . 4.2.1 Exploitation de dictionnaires electroniques . . . . . . . . . . . . . . 4.2.2 Exploitation de corpus . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.3 Exploitation dun corpus et dune liste de termes . . . . . . . . . . 4.2.4 Exploitation des couples de suxes et de leurs fr equences . . . . . . 4.2.5 Exploitation dapproches distributionnelles . . . . . . . . . . . . . . 4.2.6 Application dalgorithmes dapprentissage . . . . . . . . . . . . . . 4.2.7 Exploitation des r` egles de formation des lex` emes . . . . . . . . . . . 4.2.8 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Apprentissage a ` partir de s eries de synonymes . . . . . . . . . . . . . . . . 4.3.1 M ethode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Evaluation des r esultats : pr ecision et rappel . . . . . . . . . . . . . 4.3.3 Mat eriel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.4 Analyse et discussion des ressources morphologiques induites avec les s eries de synonymes en trois langues . . . . . . . . . . . . . . . . . 4.3.5 Conclusion et perspectives . . . . . . . . . . . . . . . . . . . . . . . 4.4 Apprentissage a ` partir de s eries de synonymes etiquet ees et lemmatis ees . . 4.4.1 Adaptation de la m ethode . . . . . . . . . . . . . . . . . . . . . . . 4.4.2 Pr eparation de donn ees etiquet ees et lemmatis ees . . . . . . . . . . 4.4.3 Analyse et discussion des ressources morphologiques induites avec des donn ees etiquet ees et lemmatis ees . . . . . . . . . . . . . . . . . 4.4.4 Conclusion et perspectives . . . . . . . . . . . . . . . . . . . . . . . 4.5 Apprentissage a ` partir dautres relations s emantiques encod ees dans les terminologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.1 M ethode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.2 Mat eriel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.3 Analyse et discussion des ressources morphologiques induites avec diverses relations s emantiques . . . . . . . . . . . . . . . . . . . . . 4.5.4 Conclusion et perspectives . . . . . . . . . . . . . . . . . . . . . . . 4.6 Ajustement et maximisation des suxes . . . . . . . . . . . . . . . . . . . 4.6.1 Adaptation de la m ethode . . . . . . . . . . . . . . . . . . . . . . . 4.6.2 Mat eriel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.6.3 Analyse et discussion des ressources morphologiques induites avec la maximisation des suxes . . . . . . . . . . . . . . . . . . . . . . . . 4.6.4 Conclusion et perspectives . . . . . . . . . . . . . . . . . . . . . . . 4.7 Bilan de lacquisition automatique de ressources morphologiques a ` partir de terminologies structur ees et quelques perspectives . . . . . . . . . . . . . .

59
59 60 61 61 62 63 64 64 65 65 65 66 66 68 68 69 76 77 78 78 79 83 84 84 85 85 88 89 89 89 90 91 92

5 Productivit e quantitative des proc ed es morphologiques de ladjectivation d enominale 95 5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 5.2 Travaux en quantication de la productivit e morphologique . . . . . . . . . 96 5.3 M ethode pour l etude de la productivit e de ladjectivation d enominale en corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 5.4 Collecte et pr eparation du corpus . . . . . . . . . . . . . . . . . . . . . . . 99 5.4.1 Le corpus journalistique . . . . . . . . . . . . . . . . . . . . . . . . 100 5.4.2 Le corpus hospitalier . . . . . . . . . . . . . . . . . . . . . . . . . . 101 5.4.3 Le corpus Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 5.4.4 Corpus et occurrences : les corpus a ` comparer . . . . . . . . . . . . 103 5.5 Lexiques nominal et adjectival . . . . . . . . . . . . . . . . . . . . . . . . . 105 5.6 Association semi-automatique des adjectifs d enominaux avec leurs bases . . 105 5.6.1 Collecte semi-automatique des r` egles dassociation . . . . . . . . . . 106 5.6.2 Recensement des adjectifs d enominaux . . . . . . . . . . . . . . . . 107 5.6.3 Fusion de suxes allomorphiques en familles . . . . . . . . . . . . 107 5.7 Analyse et discussion du comportement des adjectifs d enominaux en corpus 107 5.7.1 Di erences de productivit e des proc ed es dadjectivation d enominale a ` lint erieur des groupes de comparaison . . . . . . . . . . . . . . . 109 5.7.2 Etude des adjectivations concurrentes . . . . . . . . . . . . . . . . 115 5.8 Conclusion et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

III. Application des ressources morphologiques

122

6 Appariement des requ etes des utilisateurs avec le vocabulaire contr ol e. Etude des logs dun portail m edical fran cais 123 6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 6.2 Travaux en analyse des logs . . . . . . . . . . . . . . . . . . . . . . . . . . 124 6.3 M ethode dappariement des requ etes des utilisateurs et des termes dindexation126 6.3.1 Normalisations au niveau des caract` eres . . . . . . . . . . . . . . . 127 6.3.2 Normalisations au niveau des mots : application de connaissances morphologiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 6.3.3 Correction orthographique : comparaison approximative de mots . . 128 6.3.4 Encha nement des normalisations . . . . . . . . . . . . . . . . . . . 128 6.3.5 Occurrences et types . . . . . . . . . . . . . . . . . . . . . . . . . . 128 6.4 Description du mat eriel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 6.4.1 Log des requ etes a ` CISMeF . . . . . . . . . . . . . . . . . . . . . . 129 6.4.2 Vocabulaire dindexation : le MeSH . . . . . . . . . . . . . . . . . . 129 6.4.3 Normalisations morphologiques . . . . . . . . . . . . . . . . . . . . 130 6.4.4 Mots vides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 6.5 Analyse et discussion des appariements des vocabulaires . . . . . . . . . . 131 6.6 Conclusion et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

7 Application de connaissances morphologiques en structuration de terminologies 135 7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 7.2 Relations dans les terminologies structur ees . . . . . . . . . . . . . . . . . 136 7.2.1 Relations hi erarchiques . . . . . . . . . . . . . . . . . . . . . . . . . 136 7.2.2 Relations synonymiques et antonymiques . . . . . . . . . . . . . . . 137 7.2.3 Relations transversales . . . . . . . . . . . . . . . . . . . . . . . . . 138 7.3 Travaux en structuration de terminologies . . . . . . . . . . . . . . . . . . 139 7.3.1 Etude de la structure des termes . . . . . . . . . . . . . . . . . . . 139 7.3.2 Etude du contexte des termes . . . . . . . . . . . . . . . . . . . . . 141 7.4 M ethodes dinduction et d evaluation de relations hi erarchiques . . . . . . 143 7.4.1 D etection dinclusions lexicales . . . . . . . . . . . . . . . . . . . . 143 7.4.2 Evaluation par rapport au r ef erentiel existant . . . . . . . . . . . . 144 7.5 Pr eparation et description du mat eriel . . . . . . . . . . . . . . . . . . . . 146 7.5.1 Liste de termes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 7.5.2 Structuration de r ef erence des termes : structure originale du MeSH 146 7.5.3 Connaissances morphologiques . . . . . . . . . . . . . . . . . . . . . 146 7.5.4 Synonymes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 7.5.5 Mots vides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 7.6 Analyse et discussion des relations induites et des termes plac es . . . . . . 149 7.6.1 Evolution des relations induites avec les inclusions lexicales . . . . . 150 7.6.2 Evaluation des inclusions lexicales par rapport au MeSH . . . . . . 152 7.6.3 Analyse manuelle de nouvelles relations . . . . . . . . . . . . . . . 155 7.6.4 Structuration des termes provenant du corpus de la cog en eration . . 159 7.7 Conclusion et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

IV. Discussion, conclusion et perspectives


8 De lutilit e des ressources morphologiques pour le traitement riation terminologique 8.1 Compl ementarit e des di erents niveaux de traitement . . . . . . . ` 8.2 A chaque variation morphologique ses ressources . . . . . . . . . . ` chaque ressource ses heuristiques . . . . . . . . . . . . . . . . . 8.3 A 8.4 Acquisition a ` partir de terminologies structur ees ou de corpus ? . . 8.5 Ressources linguistiques ou r` egles de d esuxation ? . . . . . . . . 8.6 Ressources sp eciques du domaine ou de la langue g en erale ? . . . 9 Perspectives R ef erences bibliographiques

163
de la va163 . . . . . 163 . . . . . 164 . . . . . 166 . . . . . 167 . . . . . 169 . . . . . 170 171 172

Annexes

191

A Acquisition de ressources morphologiques ` a partir de terminologies structur ees 191 A.1 Apprentissage a ` partir de s eries de synonymes . . . . . . . . . . . . . . . . 191 A.1.1 Extrait des s eries de synonymes du R epertoire danatomopathologie (196 s eries sur 2 344) . . . . . . . . . . . . . . . . . . . . . . . . . . 191 A.1.2 R` egles (fr equence 5) . . . . . . . . . . . . . . . . . . . . . . . . . 194 A.1.3 Suxes (fr equence 5) . . . . . . . . . . . . . . . . . . . . . . . . 197 A.1.4 Pr exes (fr equence 5) . . . . . . . . . . . . . . . . . . . . . . . . 199 A.1.5 Familles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 A.2 Apprentissage a ` partir de s eries de synonymes etiquet ees et lemmatis ees . . 208 A.2.1 Jeu d etiquettes morphosyntaxiques Brill INaLF . . . . . . . . . . 208 A.2.2 R` egles (fr equence 5) . . . . . . . . . . . . . . . . . . . . . . . . . 209 A.2.3 Suxes (fr equence 5) . . . . . . . . . . . . . . . . . . . . . . . . 210 A.2.4 Pr exes (fr equence 5) . . . . . . . . . . . . . . . . . . . . . . . . 212 A.2.5 Familles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 A.3 Apprentissage a ` partir dautres relations s emantiques encod ees dans les terminologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 A.3.1 R` egles (fr equence 5) . . . . . . . . . . . . . . . . . . . . . . . . . 218 A.3.2 Suxes (fr equence 5) . . . . . . . . . . . . . . . . . . . . . . . . 219 A.3.3 Pr exes (fr equence 5) . . . . . . . . . . . . . . . . . . . . . . . . 220 A.3.4 Familles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 A.4 Ajustement et maximisation des suxes . . . . . . . . . . . . . . . . . . . 227 A.4.1 R` egles (fr equence 5 : 117 r` egles sur 501) . . . . . . . . . . . . . . 227 A.4.2 Suxes (fr equence 5 : 94 suxes sur 582) . . . . . . . . . . . . . 227 A.4.3 Pr exes (fr equence 5 : 54 pr exes sur 1 251) . . . . . . . . . . . . 228 Index Glossaire 229 231

Liste des tableaux


1.1 2.1 2.2 3.1 3.2 3.3 3.4 3.5 4.1 4.2 4.3 4.4 5.1 5.2 5.3 5.4 5.5 Exemples de la variabilit e des termes dans le domaine m edical. . . . . . . . Les termes pr ef er es et les termes synonymes dans la SNOMED. . . . . . . Les relations hi erarchiques de la SNOMED. . . . . . . . . . . . . . . . . . Contraintes cat egorielles pour laxation. . . . . . . Contraintes cat egorielles avec la conversion. . . . . . Contraintes cat egorielles des compos es populaires. . . Contraintes cat egorielles des compos es savants. . . . . Quelques exemples dexpressions dorigine syntaxique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 18 19 41 42 43 46 49 66 72 85 90 96 104 105 108

Les termes pr ef er es et les termes synonymes dans la SNOMED. . . . . . . Le rappel pour la exion et laxation en anglais. =4 avec notre m ethode. Nombre de s eries des termes a ` lamor cage : relations s emantiques de la SNOMED ([STD], [HIE], [TRN]) et relations hi erarchiques de la CIM10 [CIM10]. Quelques exemples de r` egles avec des suxes maximis es. . . . . . . . . . . Proc ed es morphologiques dadjectivation d enominale retenus. . . . . . . . . Taille des corpus initiaux apr` es segmentation, etiquetage et lemmatisation par TreeTagger et Flemm : types et occurrences des lemmes. . . . . . . . . Groupes de comparaison de corpus d etude. Les corpus dont la taille a et e r eduite sont suivis du facteur de r eduction appliqu e (/N ). . . . . . . . . . . Allomorphes regroup es automatiquement puis compl et es manuellement. . . Nombre de couples {nom, adjectif d eriv e} rep er es par les r` egles de d erivation adjectivale avec la liste de noms de r ef erence dans les di erents groupes de comparaison. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Fr equence et sp ecicit e des suxes concurrents. . . . . . . . . . . . . . . . Exemples de relations induites avec les inclusions lexicales et se trouvant dans la structure originale du MeSH. Indirect signie que la distance entre les deux termes est sup erieur a ` 1. . . . . . . . . . . . . . . . . . . . . . . . Relations analys ees : la tailles des echantillons. . . . . . . . . . . . . . . . . Induction des relations avec les inclusions lexicales et leur validation. . . . Distribution des relations typ ees par sous-domaines. . . . . . . . . . . . . .

5.6 7.1

109 116

7.2 7.3 7.4

151 155 160 160

xiii

Table des gures


4.1 4.2 4.3 5.1 Acquisition de connaissances morphologiques en trois langues : fran cais, anglais, russe. =4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 Acquisition de connaissances morphologiques avec des donn ees etiquet ees et lemmatis ees. =4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 Acquisition de connaissances morphologiques avec diverses relations s emantiques encod ees dans les terminologies. =4. . . . . . . . . . . . . . . . . . . . . . 86 Positionnement des suxes dadjectivation d enominale dans un espace bidimensionnel : productivit e P et nombre de types V . Comparaison entre langue de sp ecialit e (web-signes ) et langue g en erale (Le Monde ). Echelle logarithmique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 Positionnement des suxes dadjectivation d enominale dans un espace bidimensionnel : productivit e P et nombre de types V . Comparaison entre trois sous-domaines m edicaux des documents du Web : h ematologie, n ephrologie et neurologie. Echelle logarithmique. . . . . . . . . . . . . . . . . . . . . . 112 Positionnement des suxes dadjectivation d enominale dans un espace bidimensionnel : productivit e P et nombre de types V . Comparaison entre deux sous-domaines m edicaux des documents hospitaliers : h ematologie et cardiologie. Echelle logarithmique. . . . . . . . . . . . . . . . . . . . . . . . 113 Positionnement des suxes dadjectivation d enominale dans un espace bidimensionnel : productivit e P et nombre de types V . Comparaison entre deux genres m edicaux du sous-domaine dh ematologie : comptes rendus hos pitaliers et documents du Web. Echelle logarithmique. . . . . . . . . . . . . 114 Evolution des appariements a ` chaque etape de la normalisation. . . . . . . 131 Evolution mensuelle des occurrences et des types restant non appari es. . . 133 Relations taxinomiques dans une terminologie structur ee . . . . . . . . . . Relations synonymiques et antonymiques dans une terminologie structur ee Relations transversales dans une terminologie structur ee . . . . . . . . . . ` gauche une Illustration des deux m ethodes d evaluation des r esultats. A ` droite relation correcte est trouv ee dans la structure originale du MeSH. A un terme est correctement plac e dans la structure originale du MeSH. . . . Quantication des relations induites et des termes plac es. . . . . . . . . . . xv 137 138 139

5.2

5.3

5.4

6.1 6.2 7.1 7.2 7.3 7.4

7.5

145 150

7.6 7.7

Utilisation r eelle des ressources linguistiques a ` chaque etape des normalisations. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 Evaluation des relations et placements induits : rappel et pr ecision. . . . . 153

Chapitre 1 Introduction
La langue m edicale dispose dun vocabulaire tr` es riche. Ses nombreuses terminologies 1 totalisent un nombre impressionnant de termes et saisissent ainsi plusieurs de ses facettes. Mais elles ne peuvent cependant pas pr etendre a ` d ecrire le vocabulaire m edical dans son int egralit e. Cela serait, dailleurs, impossible a ` r ealiser faute dune source exhaustive (experts, corpus, etc.). Par ailleurs, dun corpus ou expert a ` un autre, il peut exister des variations notables dans le recensement et la d enomination des objets et notions du domaine. Par exemple, pour parler dune atteinte morphologique (formation de kystes) localis ee dans le rein, nous pouvons employer indi eremment les termes rein kystique ou kyste du rein (exemple 5 du tab. 1.1). La dicult e provient egalement de l evolution permanente du vocabulaire. Les terminologies au vocabulaire incomplet constituent une pierre dachoppement potentielle pour les applications du traitement automatique des langues (TAL). Par exemple, en recherche dinformation, la non reconnaissance dun terme dindexation dans les documents analys es m` ene a ` la production de r esultats lacunaires. Limpossibilit e dune couverture int egrale du vocabulaire m edical demande de disposer de moyens linguistiques et informatiques qui permettraient dapparier un terme dindexation avec les expressions ` condition, qui apparaissent dans les documents, m eme si leurs formes ne co ncident pas... A bien s ur, que les moyens mis en uvre soient adapt es a ` la variation en question. Et il existe en eet di erents types de variation terminologique. Dans le tab. 1.1 nous en donnons quelques exemples puis es dans di erents projets men es dans l equipe : encodage et indexation des dossiers patient (Zweigenbaum et al., 1995; Blanquet & Zweigenbaum, 1999), indexation et recherche dinformation (Darmoni et al., 2001; Zweigenbaum et al., 2001). Dans les deux cas, il sagit de mettre en correspondance deux ensembles de termes : vocabulaire contr ol e (terme cible) et vocabulaire libre (expression source). Les expressions sources correspondent aux expressions telles quelles apparaissent dans les documents ou bien dans les requ etes des utilisateurs. Les termes cibles sont les termes ociels, car recens es par une terminologie. Dans la derni` ere colonne du tableau nous indiquons les terminologies en question :
LUMLS version 2004, un produit terminologique qui vise la fusion de terminologies m edicales existantes (sec. 2.2.1 page 21), recense ainsi plus dun million de concepts d ecrits avec plus de 3 millions de termes anglais et seulement 59 385 termes fran cais.
1

CHAPITRE 1. INTRODUCTION

Expression source Terme cible Terminologie 1 Aspect de leuc emie aigu e de 2904HM : LAM0, LAM1, LAM2 Thesaurus type LAM2 (leuc emie aigu e my eloblastique) dh ematologie 2 Elle met en evidence une St enose de lart` ere interventriculaire Fiche Menedouble st enose serr ee de ant erieure las linterventriculaire ant erieure distale mod er ement calci ee 3 interaction m edicaments tation entre INTERACTION alimen- MEDICAMENT ALIMENT- MeSH

et

4 st enose carotidienne gauche

4331CC : St enose, obstruction, Thesaurus ath erome ou embolie de lart` ere ca- de chirurgie rotide, sans infarctus c er ebral cardiaque REIN KYSTIQUE MeSH

5 kyste du rein 6 st enose valve aorte

STENOSE AORTIQUE VALVULAIRE MeSH Fiche Menelas

7 Il sagit dun patient dysli- Facteur de risque cardiovasculaire pid emique qui pr esente une h er edit e coronaire et qui est un ancien tabagique

Tab. 1.1 Exemples de la variabilit e des termes dans le domaine m edical.

Les deux thesaurus, dh ematologie et de chirurgie cardiaque, sont des extensions de 2 la CIM et visent la couverture des sp ecialit es m edicales correspondantes. Les ches Menelas ont et e elabor ees a ` partir de la CIM dans le cadre du projet Menelas (Zweigenbaum et al., 1995). Elles composent lontologie des maladies coronariennes alors constitu ee. Et enn le MeSH est un thesaurus g en eral du domaine medical utilis e en particulier pour la recherche dinformation. Dans lexemple 5 d ej` a cit e, la variante kyste du rein correspond au terme ociel rein kystique enregistr e dans la terminologie m edicale MeSH. Voyons maintenant dautres exemples du tableau 1.1 et les di erentes variations terminologiques quils pr esentent : Dans les exemples 1 et 2, lappariement entre les expressions sources et les termes
La CIM, une des terminologies m edicales internationales, est surtout utilis ee pour lencodage des dossiers patient (sec. 2.2.1 page 19).
2

cibles est possible a ` travers les mots quils ont en commun (leuc emie aigu e, LAM2 et st enose, interventriculaire, ant erieure), bien que ces mots napparaissent pas dans le m eme ordre, ni dans le m eme contexte. Dans lexemple 3, lordre des mots est egalement di erent. Nous notons de plus la pr esence de la coordination (et), de ladverbe (entre), de la ponctuation (-), mais aussi des formes de mots reli ees morphologiquement : variation exionnelle du nombre {m edicament, m edicaments} et suxation {aliment, alimentation}. Les exemples 4, 5 et 6 pr esentent egalement les di erences dordre des mots, lapparition des mots grammaticaux (pr epositions, articles, adverbes,...) et des mots reli es morphologiquement a ` travers une suxation ({carotide, carotidienne}, {kyste, kystique}, {valve, valvulaire}, {aorte, aortique}). Dans le dernier exemple 7, le terme cible facteur de risque cardiovasculaire peut etre reconnu dans lexpression source a ` travers dyslipid emique, h er edit e coronaire et ancien tabagique, qui sont ses hyponymes (termes plus sp eciques). Mais, pour mener a ` bien cet appariement, linformation s emantique de ce type doit d ej` a etre encod ee, par exemple dans une terminologie structur ee. Certaines des variations du tab. 1.1 peuvent etre neutralis ees assez facilement : suppression de di erences dues a ` lordre des mots, a ` la ponctuation, aux mots grammaticaux, a ` la casse ou aux accents. Mais pour dautres, dues par exemple a ` la pr esence de mots reli es morphologiquement, nous avons besoin de ressources linguistiques ad equates. Tandis que la reconnaissance de termes reli es avec des relations hi erarchiques demande de disposer dune terminologie structur ee qui encode linformation n ecessaire. Remarquons que les termes pr esentent rarement un seul type de variation : di erentes combinaisons apparaissent dans les exemples donn es. Le but de notre travail consiste a ` proposer et a ` tester des appariements de termes qui pr esentent des di erences formelles. Parmi les variations terminologiques montr ees, nous nous int eressons particuli` erement au traitement de la variation morphologique. Trois principaux types de relations morphologiques sont habituellement distingu es : la exion qui g` ere les variations de genre, de nombre, de temps, de mode, etc. : {valvule, valvules } ; laxation qui met en relation les lex` emes appartiennent souvent, mais pas toujours, a ` des cat egories syntaxiques di erentes : {valvul(e)/NOM , valvulaire/ADJ } ; la composition qui combine au moins deux el ements lexicaux : {valvul(e), valvulopathie }. Avec la exion la s emantique des termes ne varie pas beaucoup. Avec laxation elle est egalement sauvegard ee, sinon reste tr` es proche. Tandis quavec la composition, la di erence s emantique entre le compos e et ses el ements peut etre importante. Dans des applications automatiques, o` u, lors du regroupement des variantes de termes, la pr eservation de leur equivalence s emantique est primordiale, les ressources exionnelles et d erivationnelles trouvent leur utilisation plus naturellement. La composition doit etre utilis ee sous contrainte. 3

CHAPITRE 1. INTRODUCTION

1.1

Objectifs du travail

Le traitement de la variation morphologique des termes demande de disposer de ressources morphologiques ad equates. Or, si de telles ressources existent dans certaines langues (anglais, allemand, n eerlandais), elles ne sont pas actuellement disponibles en fran cais. La situation est encore plus d ecitaire pour les langues de sp ecialit e, la langue m edicale dans notre cas. Le premier objectif de notre travail consiste donc a ` proposer des m ethodes pour lacquisition de ressources morphologiques pour le fran cais m edical. Le deuxi` eme objectif consiste a ` v erier lutilit e de ces ressources morphologiques dans le traitement de la variation terminologique et de les evaluer. Nous le faisons a ` travers deux applications : recherche dinformation : nous cherchons a ` eectuer lappariement du vocabulaire contr ol e dindexation avec les expressions des utilisateurs ; structuration des termes avec des relations hi erarchiques : nous cherchons a ` r eduire la variation parmi les termes a ` structurer. Dans les deux cas, il sav` ere que les ressources morphologiques sont dune aide importante dans la neutralisation de la variation terminologique. Nos exp eriences, de m eme que les travaux dautres chercheurs, montrent que lors du traitement des variations des termes au niveau morphologique, il est pertinent de prendre en compte des variations plus el ementaires : ordre des mots, ponctuation, mots grammaticaux, di erences de casse et daccent, etc. Dautant plus que les termes combinent souvent ces di erentes variations. Il appara t egalement que, si les connaissances morphologiques apportent des solutions dans lappariement des termes, elles ne permettent pas de r esoudre tous les probl` emes qui se posent. Dautres moyens doivent etre mis en uvre.

1.2

Plan du travail

Notre travail se pr esente sous forme de chapitres autonomes, bien quil existe une d ependance et des renvois entre eux. Chaque chapitre est centr e sur une probl ematique et, souvent, lexp erience qui lui correspond. La premi` ere partie de notre travail est consacr ee a ` l etat de lart. Nous commen cons par pr esenter plus en d etail la variation terminologique (chap. 2), que nous situons dans di erents contextes : mise en correspondance des termes recens es dans une terminologie avec des expressions des utilisateurs, mise en correspondance de termes provenant de di erentes terminologies dun domaine, mise en correspondance des termes propos es par di erents outils automatiques de constitution de terminologies. Comme nous nous proposons de traiter la variabilit e terminologique au niveau morphologique, nous pr esentons la discipline quest la morphologie (chap. 3) : dabord ses assises th eoriques et les objets quelle manipule et cr ee (sec. 3.1), ensuite les travaux en morphologie qui se situent du c ot e du TAL (sec. 3.2). La deuxi` eme partie de notre travail est consacr ee aux explorations morphologiques de donn ees textuelles. Elles vise a ` satisfaire notre premier objectif : acquisition de ressources morphologiques. Nous proposons ainsi une m ethode pour lacquisition automatique de 4

1.2. PLAN DU TRAVAIL

connaissances morphologiques a ` partir des terminologies structur ees (chap.4). Dans le chapitre suivant (chap. 5) nous eectuons une etude sur la productivit e des proc ed es suxaux dadjectivation d enominale (par exemple {kyst(e), kystique}) dans di erents corpus du domaine m edical. Une des id ees sous-jacentes a ` cette etude concerne la sp ecicit e des proc ed es axationnels aux sous-domaines et genres m edicaux, mais egalement a ` la langue m edicale en g en eral. Nous cherchons alors a ` contraster la productivit e des suxes dans des corpus qui se di erencient par : leur niveau de sp ecialisation (documents hospitaliers destin es aux sp ecialistes vs document provenant du Web et destin es au public non averti) ; leurs domaines de sp ecialit e (par exemple, cardiologie, neurologie) ; leurs genres (documents hospitaliers vs documents du Web). La troisi` eme partie de notre travail, li ee a ` notre deuxi` eme objectif, vise a ` montrer lecacit e des ressources morphologiques acquises pour le traitement de la variation terminologique. Nous pr esentons ainsi deux exp eriences dans lesquelles nous utilisons nos ressources. La premi` ere exp erience met a ` l epreuve les connaissances morphologiques dans un contexte proche de la recherche dinformation (chap. 6) : nous eectuons une analyse des logs du portail m edical CISMeF et etudions dans quelle mesure les connaissances morphologiques am eliorent lappariement des mots des requ etes soumises par les utilisateurs et des termes contr ol es utilis es pour lindexation des documents. La deuxi` eme exp erience concerne la structuration de terminologies (chap. 7) : nous impl ementons lhypoth` ese dinclusion lexicale pour le rep erage de relations hi erarchiques entre les termes. Cette hypoth` ese stipule quil existe une relation hi erarchique entre deux termes si lun de ces termes est inclus dans lautre. Le terme inclus est consid er e comme hyperonyme, le terme incluant comme hyponyme. Nous utilisons des connaissances linguistiques, dont les ressources morphologiques, dans lappariement des termes et la r eduction de la variation terminologique entre eux. Dans chaque chapitre nous commen cons par poser la probl ematique qui lui est propre et pr esentons les travaux ant erieurs. Nous d ecrivons ensuite le mat eriel utilis e et les m ethodes propos ees et appliqu ees. Et enn, nous analysons les r esultats obtenus, dressons les perspectives et concluons. Dans la derni` ere partie de notre travail, nous faisons une discussion g en erale (chap. 8) et donnons quelques perspectives a ` nos exp eriences (chap. 9).

CHAPITRE 1. INTRODUCTION

Chapitre 2 Variation terminologique


Nous consacrons ce chapitre a ` la pr esentation de la variation terminologique. Nous voulons montrer en quoi elle consiste et les moyens mis en uvre pour la neutraliser. Nous pr esentons dabord di erents types de la variation terminologique (sec. 2.1), que nous regroupons de mani` ere suivante : 1. ceux qui sont accessibles aux ressources g en erales de la langue et peuvent etre trait es avec des techniques dappariement lexical : traitements au niveau des caract` eres, au niveau morphologique, abstraction de lordre des mots, suppression des mots vides, transformations morphosyntaxiques, etc. ; 2. ceux qui exigent des connaissances terminologiques du domaine et doivent ainsi sappuyer sur les ressources terminologiques structur ees . Nous situons ensuite la variation terminologique dans trois contextes applicatifs (sec. 2.2) : (1) fusion de terminologies existantes, (2) appariement de requ etes dutilisateurs avec des termes contr ol es ou des documents, et (3) appariement de candidats termes propos es par les outils automatiques de constitution de terminologies. Nous pr esentons alors les traitements automatiques utilis es dhabitude pour le regroupement des variantes des termes. ` A la n du chapitre, nous faisons une discussion des travaux pr esent es (sec. 2.3) et pr ecisons les objectifs de notre travail (sec. 2.4).

2.1

Types de variation terminologique

Les raisons qui se trouvent a ` lorigine de la variation terminologique sont, entre autres, les suivantes (Grabar & Hamon, 2004a) : Variation r egionale. Dun pays a ` un autre, les d enominations peuvent varier : dans une m eme langue : ligne directrice au Canada vs recommandations en France 1 , dans des langues di erentes : par exemple, la variation sur les noms propres dans la d enomination des maladies : maladie de Weber-Christian en fran cais vs maladie de Pfeifer-Weber-Christian en allemand (Bodenreider & Zweigenbaum, 2000).
1

Nous remercions St efan Darmoni pour cet exemple.

CHAPITRE 2. VARIATION TERMINOLOGIQUE

Locuteur. Dun locuteur a ` un autre, les d enominations peuvent egalement varier : di erence didiolectes entre des locuteurs sp ecialistes dun domaine : st enose de laorte vs aorte st enotique, di erence de sp ecialisation et de niveaux de langue entre des locuteurs de cultures m edicales di erentes : infarctus du myocarde vs crise cardiaque, rhagade vs crevasse. Diachronie. La d enomination des objets et notions peut varier dune epoque a ` lautre : oculiste vs ophtalmologue oculiste, form e sur la base latine oculus (il), est apparu vers 1503 (Robert, 1993), ophtalmologue, form e sur la base grecque ophthalmos (il), est apparu vers 1840 (Robert, 1993). Notons egalement qu` a c ot e de ophtalmologue, enregistr e par (Robert, 1993), il existe ophtalmologiste, enregistr e par (Manuila et al., 2001). Les proc ed es morphologiques, ici les suxes, ont donc aussi tendance a ` varier selon les epoques. Strat egie commerciale. La d enomination peut varier an de marquer la di erence entre des produits similaires mais propos es par des industriels di erents : airbag vs coussin de s ecurit e vs coussin gonable. Mais ce qui nous int eresse cest de disposer dune typologie dict ee par les besoins du TAL. Nous cherchons donc a ` regrouper les variantes terminologiques en fonction des ph enom` enes linguistiques quelles pr esentent. Nous supposons en m eme temps que cette typologie sera protable pour d enir les traitements n ecessaires a ` chaque niveau de la variation. Nous en distinguons deux grands types : les variations accessibles a ` la langue g en erale et pouvant etre trait ees avec des techniques dappariement lexical (sec. 2.1.1) et les variations qui n ecessitent lapplication de donn ees terminologiques structur ees (sec. 2.1.2). Nous pr esentons notre typologie dans un ordre qui pourrait correspondre a ` lordre croissant de dicult e de traitement. Mais nimporte lequel de ces traitements peut devenir vite complexe en fonction des techniques et ressources utilis ees.

2.1.1

Techniques dappariement lexical

Dans cette section, nous d ecrivons les variantes qui apparaissent au niveau des caract` eres (casse, accent, orthographe), de lordre des mots2 dans les termes, de mots vides, de mots morphologiquement proches mais formellement di erents, de modications morphosyntaxiques et dinsertion ou de suppression d el ements dans la structure des termes. Les exemples proviennent des terminologies qui seront pr esent ees plus loin, des donn ees obtenues lors de nos exp eriences et des travaux cit es. Niveau des caract` eres. Les variations au niveau des caract` eres englobent : la variation de casse : an evrisme - An evrisme,
Lorsque nous utilisons le terme mot il lest dans le sens informatique : il sagit dune cha ne de caract` eres obtenue suite a ` la segmentation. Quant a ` la segmentation, elle peut etre faite sur les espaces et/ou la ponctuation et/ou les symboles ($, *, etc) et/ou les nombres.
2

2.1. TYPES DE VARIATION TERMINOLOGIQUE

lomission daccents : an evrisme - anevrisme, les variantes orthographiques : an evrisme - an evrysme, les accents erron es : an evrisme - an` evrisme, les fautes de frappe : an evrisme - an evrise. Les termes qui pr esentent des variantes de casse sont les plus faciles a ` traiter et a ` apparier : la mise en minuscules ou en majuscules des caract` eres est ais ee. De plus, ce traitement napporte que tr` es peu dambigu t e et de bruit3 eventuel. La confusion peut cependant appara tre entre les noms propres et les noms communs : pompe vs Pompe, pierre vs Pierre. Les variantes daccentuation ou les accents erron es sont aussi faciles a ` traiter si lon cherche a ` supprimer les accents. Par contre, si le but est leur restauration ou leur rectication, la t ache devient vite dicile. Il sagit dune part de trouver les r` egles (contextuelles) dapparition des caract` eres accentu es (Zweigenbaum & Grabar, 2002b) et dautre part de d esambigu ser en contexte les mots qui pr esentent di erentes accentuations possibles (Spriet & El-B` eze, 1997; Simard, 1998). Quant aux variantes orthographiques, elles peuvent etre enregistr ees a priori, sinon trait ees avec des techniques phon emiques ou bien en calculant la distance des cha nes (Levenshtein, 1966). Les fautes de frappe sont trop impr evisibles pour pouvoir etre enregistr ees a ` lavance. On peut les traiter avec les m emes techniques. Ordre des mots. Lordre des mots , qui re` ete lorganisation syntaxique des termes, constitue une autre source de variation. Nous verrons plus loin que la syntaxe des termes a tendance a ` varier dune terminologie a ` une autre, en fonction de lapplication a ` laquelle une terminologie est destin ee. Dans les exemples : Binders, Abdominal - Abdominal Binders Patches, Eye - Eye Patches lordre des mots nest pas signicatif. Il peut etre ignor e et il lest g en eralement dans les applications comme la recherche dinformation ou lindexation de documents. Les termes sont alors trait es comme des sacs de mots : leur structure originale nest plus consid er e et les mots sont tri es et trait es dans lordre alphab etique. La ponctuation etant supprim ee en m eme temps, nous obtenons la repr esentation suivante des exemples donn es plus haut : Abdominal Binders - Abdominal Binders Eye Patches - Eye Patches Ces sacs de mots sont appariables sans encombre. Mais ( ( les mots diversement rang es font un divers sens et les sens diversement rang es font di erents eets ) ) (Pascal, 1662, pens ee 66). (McCray et al., 1994) appellent cet eet venetian blind - blind venetian. Dans ces cas, lordre des mots devient signicatif et change le sens des termes en question. Labstraction de lordre des mots dans les termes peut donc etre cause derreurs.
3

Le bruit correspond aux donn ees ind esirables et/ou fausses propos ees par un syst` eme automatique.

CHAPITRE 2. VARIATION TERMINOLOGIQUE

Mots vides. Les mots dits mots vides peuvent egalement etre source de variation des termes. Dans les exemples qui suivent, nous opposons des termes qui omettent les mots vides (articles, pr epositions, etc.) a ` leurs formes normales : abandon traitement abandon du traitement carie racine dentaire carie de la racine dentaire implantation prothese vasculaire implantation dune proth` ese vasculaire Les articles et les pr epositions sont certainement consid er es ici comme d enu es de sens et mis de c ot e. Comme pour lordre des mots, lutilisation des mots vides dans les termes semble egalement etre guid ee par les applications. De mani` ere g en erale, lensemble des mots vides regroupe : les mots grammaticaux (articles, pr epositions, pronoms, adverbes, etc.) qui peuvent etre ignor es lors des traitements et ceci pour deux raisons : ils sont polys emiques et tr` es fr equents dans les documents, les mots centraux dun domaine qui sont, de ce fait, egalement tr` es fr equents dans les documents. Il va de soi quil nexiste pas de liste unique de mots vides : ils sont d ependants des domaines et des applications4 . Variation morphologique. Les variations de termes se r ealisent egalement au niveau morphologique , comme en t emoigne lexemple suivant : h ematome an evrismal vs an evrisme de lh ematome. Dans cet exemple, an evrisme et an evrismal sont en relation morphologique (suxation). La morphologie permet de prendre en compte les variations des termes dont les mots impliquent des proc ed es de formation (morphologie constructionnelle) ou de variation (morphologie exionnelle). Nous en faisons ici une pr esentation minimale, qui est reprise et d evelopp ee dans le chapitre suivant. Les principaux proc ed es de la morphologie constructionnelle sont laxation, la conversion et la composition. Nous mentionnons egalement la suppl etion, car elle correspond a ` des donn ees di erentes et demande des traitements (acquisition, stockage) particuliers du point de vue du TAL. La morphologie constructionnelle manipule des lex` emes , unit es linguistiques abstraites dans le sens o` u elles sont d epourvues de marques exionnelles (Lyons, 1968, p. 198) cit e dans (Fradin, 2003). Cest lorsque ces lex` emes sont r ecup er es par la syntaxe, et eventuellement apr` es avoir subi des variations exionnelles, quils deviennent des mots ou formes, ou des mots-formes (dans la terminologie de (Mel cuk, 1993)). Au sein de la morphologie constructionnelle, nous distinguons donc les quatre proc ed es suivants : La conversion traite des lex` emes qui ont la m eme forme graphique, mais dont les cat egories syntaxiques et le sens sont di erents : {muqueuse/Adj , muqueuse/Nom } - muqueux/Adj (muqueuse/Adj) : Qui se rapporte au mucus ou aux mucosit es, qui en contient ou en produit (Manuila et al., 2001),
Quelques listes de mots vides sont disponibles sur lInternet, par exemple http://www.unine.ch/ info/clef/, http://www.up.univ-mrs.fr/~veronis/data/antidico.txt.
4

10

2.1. TYPES DE VARIATION TERMINOLOGIQUE

- muqueuse/Nom : Membrane de rev etement des cavit es naturelles de lorganisme, a ` surface toujours l eg` erement humide (Manuila et al., 2001). Lorsque les donn ees ne sont pas etiquet ees morphosyntaxiquement, la conversion est invisible aux outils du TAL. Laxation traite la formation des lex` emes avec des axes (pr exes et suxes). Les lex` emes ax es ont souvent une cat egorie syntaxique di erente de la cat egorie de leur base. Laxe applique une instruction s emantique sur la base. Lexemple qui suit pr esente la formation dun adjectif a ` partir dun nom (adjectivation d enominale) : {an evrism(e)/Nom , an evrismal/Adj } - an evrisme : ( ( Dilatation au niveau de la paroi dune art` ere, apparaissant l` a o` u la r esistance est diminu ee par une l esion, une malformation, un traumatisme... ) ) (Manuila et al., 2001), - an evrismal : ( ( Qui se rapporte a ` un an evrisme, qui en a les caract` eres. ) ) (Manuila et al., 2001). Mais laxation permet egalement de former des lex` emes de la m eme cat egorie syntaxique que leur base : {h ematom` etre/Nom, h ematom etrie/Nom}. La suppl etion prend en charge la formation de lex` emes qui pr esentent des bases s emantiquement equivalentes mais dont les langues dorigine sont di erentes. Leurs formes graphiques sont donc egalement di erentes. Les exemples qui suivent correspondent a ` la formation dadjectifs d enominaux : {foie/Nom , h epatique/Adj } (h epatique : ( ( Qui se rapporte au foie. ) ) (Manuila et al., 2001)), {estomac/Nom , gastrique/Adj } (gastrique : ( ( Qui se rapporte a ` lestomac. ) ) (Manuila et al., 2001)). Nous voyons que, dans ces exemples, linstruction s emantique des suxes dadjectivation d enominale est exactement la m eme que dans le cas daxation sur une base non suppl etive an evrisme. Les bases suppl etives proviennent essentiellement du latin et du grec. Un des moyens des plus s urs dans le traitement de la suppl etion consiste a ` enregistrer les bases correspondantes a priori. La composition traite egalement la formation des lex` emes, mais au moyen de la combinaison dau moins deux composants. La cat egorie syntaxique peut changer et le sens du compos e r esulte de la combinaison des sens de ses composants : {an evrisme, an evrismorraphie } - an evrisme : ( ( Dilatation au niveau de la paroi dune art` ere, apparaissant l` a o` u la r esistance est diminu ee par une l esion, une malformation, un traumatisme... ) ) (Manuila et al., 2001), - -rraphie : ( ( Suxe5 dorigine grecque signiant suture ) ) (Manuila et al., 2001), an evrismorraphie : ( ( Cure chirurgicale dun an evrisme, qui consiste
-rraphie est consid er e comme un suxe dans (Manuila et al., 2001), mais il sagit plut ot dun el ement de composition suppl etif.
5

11

CHAPITRE 2. VARIATION TERMINOLOGIQUE

a ` ouvrir la poche an evrismale, puis a ` suturer par lint erieur les orices art eriels qui y d ebouchent. ) ) (Manuila et al., 2001). Le compos e peut donc manifester une modication s emantique importante par rapport a ` ses composants. ` A c ot e de la morphologie constructionnelle, la morphologie exionnelle soccupe de linsertion des lex` emes dans les structures syntaxiques. Elle traite la variation des lex` emes quant a ` leur genre, nombre, cas, etc. Les exemples qui suivent pr esentent une variation du nombre et du genre : {an evrisme, an evrismes } {an evrismal , an evrismale }. Lors de lappariement des termes, la pr eservation de l equivalence s emantique est primordiale. Les applications automatiques doivent donc privil egier la conversion, laxation, la exion et la suppl etion ; la composition devant etre soumise a ` une utilisation contr ol ee. La variation morphologique peut etre neutralis ee avec des techniques non linguistiques, comme par exemple lapplication des r` egles de d esuxation (Lovins, 1968; Porter, 1980), ou au contraire avec lutilisation de ressources linguistiques, qui se pr esentent souvent sous forme de paires de mots reli es morphologiquement, par exemple : {muqueuse/Adj , muqueuse/Nom } {an evrism(e)/Nom , an evrismal/Adj } {foie/Nom , h epatique/Nom } {estomac/Nom , gastrique/Nom } {an evrisme, an evrismes } {an evrismal , an evrismale } On cherche alors a ` remplacer la exion par son lemme et le lex` eme construit par sa base. Variations morphosyntaxiques. Les variations morphosyntaxiques regroupent plusieurs des ph enom` enes d ej` a vus. En laissant de c ot e les variations provenant du niveau des caract` eres, les variations morphosyntaxiques g` erent lordre des mots, leurs formes morphologiques et, en plus, leurs d ependances syntaxiques. Les exemples qui suivent peuvent etre pris en charge a ` ce niveau : st enose de laorte - aorte st enos ee kyste du rein - rein kystique Le traitement des variations morpholo-syntaxiques demande des connaissances issues dune etude linguistique et, plus particuli` erement, dune etude syntaxique des termes (Jacquemin & Tzoukermann, 1999). Insertion et suppression des el ements. Linsertion ou la suppression des el ements dans les termes peut egalement etre une source de variation. En voil` a quelques exemples : Insertion : diraction des rayons X diraction des neutrons ou des rayons X cellule du sang cellule mononucl eaire du sang Suppression : usagers en trac local usagers usagers en trac local trac local 12

2.2. LA VARIATION TERMINOLOGIQUE EN CONTEXTE

Pour neutraliser cette di erence, il faut egalement disposer de r` egles qui g` erent les d ependances syntaxiques. Il faut aussi avoir des informations sur les types d el ements dont linsertion ou la suppression sauvegarde la s emantique du terme (Jacquemin, 1999), voire recourir au contexte pour le v erier (Jacques, 2003).

2.1.2

Donn ees terminologiques ou lexicales structur ees

Dans cette section, nous pr esentons les variations qui peuvent etre neutralis ees gr ace a ` lutilisation de ressources terminologiques ou lexicales structur ees avec des relations synonymiques, hi erarchiques et transversales (pour plus de d etails sur la structuration voir la sec. 7.2 page 136). La synonymie relie des termes ou des lex` emes s emantiquement substituables et constitue une piste dans lappariement des termes. De telles ressources peuvent provenir : de ressources g en erales, par exemple le Petit Robert : an evrisme - varice, de ressources sp eciques au domaine trait e, par exemple la terminologie m edicale SNOMED : h ematome an evrismal - h ematome pulsatile. La pertinence et lecacit e de ces deux types de synonymes ne sont pas egales lorsquils sont appliqu es aux documents des domaines de sp ecialit e (sec. 7.6.2 page 152). Les terminologies structur ees hi erarchiquement orent des relations de sp ecialisation entre les termes. Par exemple, le terme facteur de risque cardiovasculaire, de lexemple 7 du tab. 1.1 page 2, peut etre appari e avec ses hyponymes : dyslipid emie est-un facteur de risque cardiovasculaire h er edit e coronaire est-un facteur de risque cardiovasculaire ancien tabagique est-un facteur de risque cardiovasculaire Mais il faut que cette information soit encod ee dans la terminologie qui est utilis ee. Plus loin dans ce chapitre, nous montrons que le recensement et la structuration des termes peut etre d ependante des documents, des domaines et des applications. Il faudrait donc disposer de ressources adapt ees au contexte de travail. Les relations autres que hi erarchiques et synonymiques, que nous appelons relations transversales, peuvent egalement etre utilis ees dans lappariement des termes. Lexemple suivant recourt a ` une relation de ce type (relation dassociation) : accident vs prevention accident. Ainsi, en recherche dinformation, lorsque les utilisateurs recherchent les documents relatifs a ` accident, ils peuvent trouver egalement les documents sur la pr evention des accidents.

2.2

La variation terminologique en contexte

Nous pr esentons maintenant trois contextes applicatifs dapparition de la variation terminologique. Mais notons tout de suite quelle a beaucoup de potentiel et ne reste pas cantonn ee a ` ces contextes : 1. Fusion des termes contr ol es provenant de di erentes terminologies existantes (sec. 2.2.1). Lobjectif g en eralement vis e est linterop erabilit e s emantique entre ces terminologies. 13

CHAPITRE 2. VARIATION TERMINOLOGIQUE

Dans le domaine m edical, o` u il existe un large eventail de terminologies, le besoin dapparier leurs termes est assez pr esent. Or le passage des termes provenant dune terminologie a ` ceux dune autre nest pas evident. 2. Appariement des requ etes des utilisateurs avec les termes dindexation ou des documents (indexation, recherche dinformation) ou des termes dindexation avec les documents (encodage des dossiers patient). Nous pr esentons ces contextes dans la sec. 2.2.2. 3. Dans le domaine de lacquisition terminologique, appariement de candidats termes fournis par di erents outils automatiques (sec. 2.2.3). Pour chaque contexte, nous pr esentons les techniques de regroupement des variantes.

2.2.1

Fusion de terminologies

Une terminologie a pour vocation de recenser et dorganiser le vocabulaire dun domaine de sp ecialit e et donc la connaissance qui y est manipul ee. Dans de nombreux secteurs dactivit e, les terminologies visent a ` combler un vide (Zweigenbaum, 2004). Notons par exemple les secteurs o` u les ressources terminologiques electroniques ne sont pas disponibles et doivent etre constitu ees : t el ecommunications (Maedche & Staab, 2000), tourisme (Giraldo & Reynaud, 2002), a eronautique (Jeannin & Monceaux, 2003), cog en eration (Grabar & Jeannin, 2002). Mais la situation est tout autre dans le domaine m edical, o` u il existe de nombreux produits terminologiques, voir par exemple (Chute, 1995), qui re` etent la multiplicit e de besoins existant dans ce domaine (Ingenerf & Giere, 1998; Zweigenbaum, 1999). Nous pr esentons trois types de terminologies qui correspondent aux trois besoins majeurs du domaine m edical. Les besoins etant di erents, les produits terminologiques correspondants sont egalement di erents. Leurs appellations, mais surtout les contenus et les structures, varient : Un thesaurus , par exemple le MeSH, est utilis e pour lindexation des connaissances m edicales et la recherche dinformation dans les bases de donn ees et les portails m edicaux. Un thesaurus assure lacc` es a ` la litt erature scientique et technique du domaine. Les termes dun thesaurus sont, le plus souvent, des cr eations articielles dont le but est de cerner aussi pr ecis ement que possible le sens dun concept6 . Les nomenclatures , par exemple la SNOMED, sont utiles dans les traitements informatiques des dossiers patient. Elles recensent les termes r eels et permettent ainsi dacc eder aux informations contenues par exemple dans les documents hospitaliers. Les classications , par exemple la CIM, sont utilis ees pour lencodage des dossiers ` patients dans des buts statistiques. A la di erence des nomenclatures, les termes
Nous utilisons le terme concept pour signier des notions et des objets dune mani` ere abstraite. Le terme terme se rapporte aux expressions linguistiques qui sont utilis ees pour d enommer le concept en question. Sans entrer dans des discussions philosophiques, qui sortiraient de nos comp etences, les termes se retrouvent dans les textes, les concepts dans nos cerveaux. Par extension, les produits terminologiques recensent les termes, expressions linguistiques, tandis que les ontologies visent une description plus abstraite dun domaine a ` travers le recensement des primitives s emantiques et des r` egles logiques qui les g` erent.
6

14

2.2. LA VARIATION TERMINOLOGIQUE EN CONTEXTE

contenus dans les classications ne sont pas des cr eations naturelles, mais correspondent a ` un m etalangage articiel. Ils servent a ` sp ecier des classes, par exemple de causes de maladies et de mortalit e. Les trois terminologies mentionn ees (le MeSH, la SNOMED et la CIM) sont des terminologies g en eriques : elles visent a ` couvrir le plus exhaustivement possible le domaine m edical et sont utilis ees dans de nombreux pays a ` travers le monde. Mais il existe egalement des terminologies plus locales, consacr ees a ` un des sous-domaines de la m edecine, ou ayant une port ee nationale (Zweigenbaum, 2004), ou encore destin ees a ` un corps de m etier, par exemple les inrmiers (Bakken, 1999). Signalons aussi que lexistence et laccessibit e des outils automatiques pour la constitution de terminologies stimulent la production dautres terminologies (Le Moigno et al., 2002). Leur objectif consiste souvent a ` satisfaire les besoins l` a o` u les terminologies existantes, n etant pas adapt ees, echouent. Le choix alors se trouve entre lajustement des terminologies existantes et le d eveloppement de nouvelles. Linterop erabilit e entre tous ces produits terminologiques nest pas toujours evidente. Car etant con cus avec des objectifs di erents, ils contiennent des informations di erentes, et ceci a ` plusieurs niveaux : concepts biom edicaux recens es, termes ou expressions linguistiques de ces concepts, relations s emantiques entre eux. Il existe pourtant de nombreux cas o` u linterop erabilit e serait souhaitable (Zweigenbaum, 2004) : les donn ees enregistr ees pour un patient a ` laide dune terminologie comme la SNOMED ne sont pas utilisables pour rechercher dans la litt erature les articles scientiques qui traitent des m emes sympt omes mais sont index es avec le thesaurus MeSH ; les donn ees diagnostiques enregistr ees pour les etudes statistiques avec la CIM ne sont pas r eutilisables pour noter des eets secondaires de m edicaments d ecrits avec les termes dautres terminologies. ` A travers la pr esentation dUMLS, nous verrons les techniques utilis ees pour neutraliser la variation et permettre linteraction entre ces di erentes terminologies. Nous commen cons par pr esenter trois produits terminologiques cl es du domaine m edical : le MeSH pour lindexation et la recherche dinformation, la SNOMED pour linformatisation des dossiers patient, et la CIM pour lencodage et etude statistique des dossiers patient. Pour chacune de ces terminologies, nous pr esentons dabord les objectifs qui ont et ea ` leur origine, ensuite la nature des concepts et des termes, et la nature des relations. Nous faisons une pr esentation assez d etaill ee de ces produits terminologiques, car nous les utilisons dans nos di erentes exp eriences. Cette pr esentation devrait egalement permettre de mieux voir que le contenu de ces terminologies varie en fonction des applications pour lesquelles elles ont et e con cues, et de pr eparer lintroduction dun dernier produit terminologique : lUMLS. Lobjectif de lUMLS est justement la fusion et lint egration de plusieurs terminologies m edicales existantes. Les travaux autour dUMLS illustrent les dicult es qui se posent alors et les techniques dappariement des terminologies.

Thesaurus MeSH pour la recherche dinformation

15

CHAPITRE 2. VARIATION TERMINOLOGIQUE

Contexte et objectifs. Le MeSH (Medical Subject Headings) (NLM, 2001)7 est un thesaurus con cu dans les ann ees 60 par la NLM (U. S. National Library of Medicine) pour la recherche dinformation dans sa base de donn ees biom edicales Medline8 . Il sagit daider lindexation des documents biom edicaux (articles et ouvrages scientiques et techniques). Lindexation est eectu ee manuellement par des indexeurs professionnels. Elle est contr ol ee et consiste a ` d etecter dans les articles les th` emes principaux abord es et a ` les d ecrire avec les termes consign es dans le thesaurus MeSH. Gr ace a ` lindexation, lutilisateur peut ensuite identier les documents qui r epondent aux mots cl es de sa requ ete. Le MeSH peut etre consid er e comme un thesaurus a ` grain n (Zweigenbaum, 1999) : pour indexer et repr esenter un grand nombre de documents biom edicaux les concepts MeSH doivent assurer une couverture maximale du domaine. Termes. Etant cr e es dans le cadre dune application des sciences de linformation, les termes du MeSH sont des expressions articielles qui ne correspondent pas toujours aux expressions r eellement utilis ees dans les documents biom edicaux. Les termes du MeSH sont cr e es avec le souci de re eter le plus d` element possible leur signication et de faciliter ainsi leur utilisation par les indexeurs et les utilisateurs humains. Dans les exemples du MeSH qui vont suivre, les termes anglais sont en caract` eres minuscules, les termes fran cais, lorsque la traduction existe, sont en caract` eres majuscules non accentu es. Nous remarquons tout dabord les termes avec des virgules dont la syntaxe ne respecte pas celle des groupes nominaux : ACTINOMYCETALES, INFECTION ADDISON, MALADIE CANAL ARTERIEL, PERSISTANCE FER, COMPOSES ABERRATION CHROMOSOMIQUE, ANOMALIES Il y a egalement des enum erations qui permettent denglober des termes dun niveau hi erarchique inf erieur : DELIRE, DEMENCE, TROUBLES MNESIQUES ET COGNITIFS HORMONES, SUBSTITUTS HORMONES, ET ANTAGONISTES HORMONAUX Dautres termes t emoignent des omissions darticles et de pr epositions : ABANDON TRAITEMENT CARIE RACINE DENTAIRE IMPLANTATION PROTHESE VASCULAIRE Une r evision importante des termes du MeSH fran cais est en cours a ` loccasion du projet VUMeF par l equipe de lINSERM qui est responsable de sa maintenance (Darmoni et al., 2003). Elle devrait mener a ` des termes plus naturels : accentu es, casse mixte, avec le respect de la syntaxe, etc.
7 8

http://www.nlm.nih.gov/mesh/meshhome.html www.ncbi.nlm.nih.gov/pubmed

16

2.2. LA VARIATION TERMINOLOGIQUE EN CONTEXTE

Relations. Les concepts du MeSH sont structur es. Comme pour les termes, la structure du MeSH vise a ` organiser les concepts dune mani` ere aussi claire et intuitive que possible (Nelson et al., 2001). Les termes principaux ou pr ef er es (main headings), utilis es en indexation, sont reli es a ` leurs variantes ou termes equivalents (entry terms). Les termes equivalents, de leur c ot e, pointent sur les main headings et en constituent autant de points dacc` es. La relation d equivalence ou de substitution regroupe la synonymie et la quasi-synonymie (Nelson et al., 2001). Par exemple, Laser Scalpel et Laser Knife sont synonymes et constituent des pointeurs vers Laser Surgery (CHIRURGIE LASER) (Nelson et al., 2001). Un ensemble de termes equivalents constitue un concept. Chaque concept est repr esent e par son terme pr ef er e, qui semble correspondre au main heading. Les concepts, a ` leur tour, sont regroup es en une classe de descripteurs (ou un descripteur). Par exemple les concepts suivants forment un descripteur : Coronary Disease (VAISSEAUX CORONAIRES, MALADIES) Coronary Occlusion Coronary Stenosis o` u le nom du descripteur correspond au concept pr ef er e Coronary Disease. Les relations hi erarchiques sont situ ees au niveau macroscopique, celui des descripteurs. Chaque descripteur re coit un identiant unique qui indique sa sp ecicit e. Le MeSH propose actuellement jusqu` a 9 niveaux hi erarchiques. Chaque niveau est exprim e avec un code alphanum erique ou num erique. Les niveaux sont s epar es avec des points. Les relations hi erarchiques incluent indif eremment : la relation qui relie un terme g en erique a ` ses termes sp eciques (lhyponymie ) : A02.633.565 (FIBRE MUSCULAIRE) A02.633.565.600 (FIBRE MUSCULAIRE CONTRACTION RAPIDE), la relation qui relie la partie a ` un tout (la m eronymie ) : A01.456.505 (FACE) A01.456.505.733 (NEZ), et la relation consid er ee comme souhaitable en recherche dinformation, car reliant des termes proches (laboutness ) : G03.850.110 (ACCIDENT) et G03.850.110.060 (PREVENTION ACCIDENT). Les relations hi erarchiques etendent un terme g en erique a ` ses termes sp eciques eectuant une explosion de la requ ete. La recherche est alors dite bas ee sur les concepts. Le MeSH est structur e en 15 axes hi erarchiques : cest une terminologie multiaxiale. Parmi les axes du MeSH, on trouve : Anatomie (A), Organismes (B), Maladies (C), Sciences biologiques (G), etc. Dans les identiants hi erarchiques des termes, leur axe est signi e par le premier caract` ere alphab etique. Un terme MeSH, et un descripteur, peuvent appartenir a ` plus dun axe hi erarchique. Ainsi, le terme NEZ est situ e a ` deux endroits dans la structure du MeSH (ORGANES SENS et REGION CORPS). Dans chaque position, il repr esente un sens di erent car les identiants hi erarchiques quil re coit et ses termes g en eriques et sp eciques sont di erents (Nelson et al., 2001) : A09 (ORGANES SENS) A09.531 (NEZ) A09.531.940 (ORGANE VOMERONASAL) 17

CHAPITRE 2. VARIATION TERMINOLOGIQUE

A01 (REGION CORPS) A01.456 (TETE) A01.456.505 (FACE) A01.456.505.733 (NEZ) Le thesaurus indique egalement des relations dassociation, qui pointent sur des termes avec une valeur d enitoire ou bien repr esentent toute autre relation entre les termes des di erents axes. Une relation associative sp ecique indique que certaines combinaisons de descripteurs et/ou de termes forment un autre descripteur (Nelson et al., 2001). Taille. Au d ebut de 2003, le MeSH comportait 21 973 descripteurs et 23 512 entry terms. La traduction fran caise du MeSH, assur ee par lINSERM (INSERM, 2000), est une traduction partielle. Dans la version de la n de 2001, elle comporte environ 19 000 termes et 9 000 synonymes. Nomenclature SNOMED pour linformatisation du dossier patient Contexte. La nomenclature SNOMED (Nomenclature syst ematique des m edecines humaine et v et erinaire) (C ot e et al., 1997) a et e con cue par le CAP (College of Americain Pathologists a ` Northeld) en 1965. Sa premi` ere version visait la description des l esions anatomo-pathologiques et radiologiques. Elle a ensuite et e etendue a ` toute la m edecine. Objectifs et termes. La SNOMED comporte des termes naturels tels quils apparaissent dans les documents m edicaux. Et, malgr e lutilisation de labr eviation m etalangagi` ere SAI (( ( Sans autre indication ) )), la SNOMED est particuli` erement adapt ee a ` linformatisation et aux traitements informatiques du dossier m edical. Relations. Dans la SNOMED, comme dans le MeSH, un concept est form e de termes synonymes. Un code alphanum erique (Code dans le tab. 2.1) sert a ` identier un concept et ses termes (ils ont tous le m eme code). La classe des termes indique le terme pr ef er e dun concept (01) et ses synonymes (02, 03 et 05). Les classes 02 et 03 sont r eserv ees aux substantifs et aux groupes nominaux, la classe 05 aux synonymes adjectivaux ou el ements de composition comme cardio-. Code F-00470 F-00470 F-00470 F-00470 Classe 01 02 05 05 Termes symbiose commensalisme symbiotique commensal

Tab. 2.1 Les termes pr ef er es et les termes synonymes dans la SNOMED.

Les concepts sont organis es hi erarchiquement en onze axes s emantiques (Morphologie (M), Topographie (T), Fonction (F), Organismes vivants (L), Diagnostics (D), etc.). Cest une terminologie multiaxiale (Lussier et al., 1998). Les relations hi erarchiques comprennent 18

2.2. LA VARIATION TERMINOLOGIQUE EN CONTEXTE

lhyponymie et la m eronymie (tab. 2.2). Le premier caract` ere dans le code alphanum erique indique laxe s emantique. Les 5 chires qui suivent repr esentent 5 niveaux hi erarchiques. Plus le niveau est haut, plus il y a de z ero en n de code. Dans les exemples du tableau 2.2 le code alphanum erique re` ete la subsomption hi erarchique des concepts : M-12000 (fracture, SAI) est-une M-10000 (blessure, SAI) M-12010 (fracture transverse) est-une M-12000 (fracture, SAI) M-12020 (fracture oblique) est-une M-12000 (fracture, SAI) M-12200 (fracture ouverte, SAI) est-une M-12000 (fracture, SAI) Code hyponymie M-10000 M-12000 M-12010 M-12020 M-12200 m eronymie T-20000 T-21000 T-21010 T-21100 Classe 01 01 01 01 01 01 01 01 01 Termes blessure, SAI fracture, SAI fracture transverse fracture oblique fracture ouverte, SAI appareil respiratoire, SAI nez, SAI muqueuse nasale partie externe du nez

Tab. 2.2 Les relations hi erarchiques de la SNOMED. Certains concepts de laxe Diagnostics de la SNOMED pointent, avec des relations de r ef erence ou transversales, vers des concepts plus el ementaires. Ces concepts se trouvent dans les axes autres que Diagnostics, par exemple : D3-40220 (thrombose pulmonaire) T-44000 (art` ere pulmonaire, SAI) M-35100 (thrombus, SAI) Dans la SNOMED les relations transversales sont d enitoires et compositionnelles (Spackman & Campbell, 1998; Lussier et al., 1998; Zweigenbaum, 1999). Nous d etaillons ce point dans la sec. 7.2.3 page 138. Taille. La SNOMED comporte actuellement 109 023 concepts (164 180 libell es). Dans nos travaux, nous utilisons la version pr ecommerciale du R epertoire danatomopathologie en fran cais, qui nous a et e aimablement donn ee par le Dr. R. A. C ot e. Elle contient 9 098 concepts (12 554 libell es), ce qui repr esente environ 10 % de lensemble. Classication CIM pour lencodage des dossiers patient et leur etude statistique Contexte et objectifs. La CIM (Classication internationale des maladies et des probl` ee mes de sant e connexes) (OMS, 1995) appara t au XIX si` ecle, faisant suite aux travaux 19

CHAPITRE 2. VARIATION TERMINOLOGIQUE

d etablissement des causes de mortalit e et de morbidit e qui d ebutent a ` partir du 16e si` ecle. En 1946, lOMS (Organisation Mondiale de la Sant e) a repris le maintien de la CIM en vue de son utilisation a ` l echelle mondiale. Actuellement cest la version 10 de la CIM (CIM-10) qui est utilis ee. La CIM est etroitement li ee aux syst` emes de sant e publique des pays du monde. Elle permet lanalyse, linterpr etation et la comparaison des donn ees de mortalit e et de morbidit e (OMS, 1995, p. 2). Gr ace a ` ces etudes statistiques, la CIM permet dassister la lutte contre les maladies, de rompre lencha nement des ph enom` enes morbides ou de mettre en route un traitement ecace (OMS, 1995, p. 33). En France, la CIM est utilis ee pour lencodage des dossiers patient dans le cadre des etudes statistiques r ealis ees pour le PMSI (Programme de m edicalisation du syst` eme dinformation) : enregistrement et comparaison des activit es hospitali` eres des di erents h opitaux, allocation budg etaire de di erents h opitaux et services. Termes. Les termes, appel es aussi rubriques, sont souvent des expressions dun m etalangage plut ot que des expressions que lon trouve r eellement dans les documents hospitaliers. La CIM regroupe les termes en concepts ou classes. Ils constituent des instructions qui guident le choix dune classe a ` laquelle aecter un dossier patient donn e (Zweigenbaum, 1999). Chaque classe est identi ee avec un code alphanum erique. Les termes comportent plusieurs conventions de lecture dont (OMS, 1995, p. 2427) : entre les parenth` eses, sont indiqu es des qualieurs facultatifs, qui ne modient pas le sens : K510 (Ent ero-colite ulc ereuse (chronique)) ; entre les crochets, sont indiqu es les synonymes : K51 (Recto-colite h emorragique [colite ulc ereuse]) ; SAI signie ( ( Sans autre indication ) ) ou ( ( Non pr ecis e) ); NCA signie ( ( Non class e ailleurs ) ); Autre signie que la maladie ne peut pas etre class ee dans les classes qui pr ec` edent : A80 (Poliomy elite aigu e) A800 (Poliomy elite paralytique aigu e, associ ee au virus vaccinal) A803 (Poliomy elites paralytiques aigu es, autres et sans pr ecision) Relations. La CIM est une terminologie monoaxiale. Les concepts sont class es suivant le si` ege anatomique des maladies (Maladies cardio-vasculaires, Troubles mentaux et du comportement) ou bien suivant leur etiologie ou cause (Maladies infectieuses, Tumeurs). Le principe de classication par si` ege anatomique a et e adopt e au 19e siecle. La CIM est divis ee en 21 chapitres. Le premier caract` ere du code est une lettre associ ee, sauf quelques exceptions, a ` un chapitre donn e (OMS, 1995, p. 15), par exemple : A00-B99 (Maladies infectueuses et parasitaires) E50-E90 (Troubles mentaux et du comportement) G00-G99 (Maladies du syst` eme nerveux) La sp ecication des concepts est signi ee par la sp ecication des codes alphanum eriques : plus le code est long plus le concept est sp ecique : 20

2.2. LA VARIATION TERMINOLOGIQUE EN CONTEXTE

A80 (Poliomy elite aigu e) A800 (Poliomy elite paralytique aigu e, associ ee au virus vaccinal) A801 (Poliomy elite paralytique aigu e, virus sauvage import e) ou bien par ladjonction dautres chires adopt ees pour identier di erents si` eges ou vari et es suppl ementaires (OMS, 1995, p. 17). Taille. La version anglaise du volume analytique (structur e) de la CIM comporte 12 318 classes (13 505 libell es), sa traduction fran caise 10 800 classes (9 412 libell es). Il existe egalement un index alphab etique de la CIM qui recense des entr ees suppl ementaires. UMLS ou Unication de terminologies Contexte et objectifs. LUMLS (Unied Medical Language System) est un projet lanc e par la NLM dans le but de faciliter la recherche et lint egration des informations provenant de di erentes terminologies biom edicales (NLM, 2003). Ce besoin a et e ressenti face au volume grandissant dinformations et a ` la dicult e dint egration de ces informations du fait de la di erence du vocabulaire et de la structuration des di erentes terminologies (NLM, 2003, p. 10). La premi` ere version de lUMLS, parue en 1988, sest constamment enrichie de donn ees provenant de nouvelles terminologies. En 2003, elles sont au nombre de 100 en 15 langues. LUMLS est compos e de quatre parties : 1. Le Metathesaurus enregistre les termes des concepts recens es, 2. Le R eseau s emantique etablit un ensemble hi erarchis e de types s emantiques g en eraux pour les concepts, 3. Le Specialist Lexicon pr esente les mots des termes et fournit des programmes pour les traitements informatiques, 4. Les Sources indiquent et d ecrivent les terminologies source. Termes. Les termes de lUMLS proviennent des terminologies source, dont le MeSH, la SNOMED et la CIM. Ils sont recens es dans le Metathesaurus et re coivent un identiant unique. LUMLS enregistre toutes les informations (relations, d enitions, etc.) sur ces termes. Il sut, par exemple, que deux termes soient reli es avec une relation quelconque dans une de ces terminologies pour que cette information apparaisse dans lUMLS. Pour chaque terme, ses terminologies source sont egalement m emoris ees. Lors de lutilisation dUMLS, en s electionnant une source donn ee, il devient possible dextraire le vocabulaire provenant de cette source et toutes les informations qui sy rapportent. Relations. Les termes equivalents provenant de terminologies source sont regroup es en un m eme concept (NLM, 2003, p. 14). Chaque concept re coit un identiant unique. Selon la pr esence et sa signication dans les terminologies source, un terme peut etre li e un ou plusieurs concepts. Lorsque les termes ont des graphies identiques, la fusion des terminologies samorce sans encombre. Mais lorsque les graphies ne sont pas identiques, leur appariement devient 21

CHAPITRE 2. VARIATION TERMINOLOGIQUE

possible gr ace a ` lutilisation des ressources du Specialist Lexicon, qui permettent de traiter les variations suivantes (McCray et al., 1994) : Pour la normalisation de la casse les majuscules sont mises en minuscules : ANOMALIES CONGENITAL MULTIPLE vs Anomalies congenital multiple La ponctuation (tiret, espace, virgule, etc.) est supprim ee : Nerve, Abducens vs Nerve (Abducens) Certaines des variantes orthographiques sont enregistr ees dans les tables de ressources lexicales du Specialist Lexicon : Abdominal pain vs Abd. pain La morphologie exionnelle est g er ee avec des r` egles r eguli` eres de exion et des tables dexceptions. Par exemple, la mise au pluriel r egulier dune forme en -y : Batteries vs battery Laxation est g er ee avec des tables de paires de mots du Specialist Lexicon : ABDOMEN PAIN vs Abdominal Pains La suppl etion est egalement g er ee avec des tables du Specialist Lexicon : Renal disease vs Kidney diseases Lordre des mots nest pas pris en compte : Binders, Abdominal vs Abdominal Binders Patches, Eye vs Eye patches Et enn, les mots vides sont supprim es : splenic artery aneurysm vs Aneurysm of splenic artery Les appariements lexicaux (des termes anglais) de ce type sont donc possibles a ` travers les ressources lexicales du Specialist Lexicon dUMLS, ses programmes de normalisation (norm), ses index normalis es et ses programmes de traitements morphologiques (lvg). En plus des appariements lexicaux des termes, les relations s emantiques des terminologies source sont egalement exploit ees : la signication dun terme est alors donn ee par ses synonymes, ses termes g en eriques ou sp eciques, mais egalement par tous les termes avec lesquels il est reli e (NLM, 2003, p. 55). Les m ethodes de cet appariement sont centr ees en particulier sur la recherche de synonymes et de co-hyponymes (termes qui ont le m eme hyperonyme et qui peuvent, dans certains cas, etre substituables) (Bodenreider et al., 1998). Mentionnons egalement des travaux qui exploitent les terminologies structur ees pour le calcul de la distance s emantique entre termes (Degoulet et al., 1998; Bousquet et al., 2001). Les relations s emantiques de chaque terminologie source senrichissent donc mutuellement : de nouvelles relations sajoutent et dautres, d ej` a existantes mais sous-sp eci ees, sont typ ees de mani` ere plus pr ecise. Par exemple, il existe dans le MeSH une relation associative sous-sp eci ee entre les termes Atrial Fibrillation et Arrhythmia. La nature de cette relation a pu etre pr ecis ee pendant la constitution de lUMLS (NLM, 2003, p. 17) : Atrial Fibrillation est-un Arrhythmia Mais laccumulation dinformations s emantiques provenant de di erentes terminologies peut apporter des ambigu t es et des inexactitudes. (Bodenreider, 2001) etudie par exemple les relations hi erarchiques circulaires dans lUMLS : lorsquun concept peut etre son propre ls ou un descendant quelconque de lui-m eme. Parmi les causes principales de cette cir22

2.2. LA VARIATION TERMINOLOGIQUE EN CONTEXTE

cularit e lauteur indique les di erences de granularit e des terminologies, de sp ecicit e des termes, de choix des relations qui sont consid er ees comme hi erarchiques. (Cimino, 2001) etudie les cas dambigu t e et de redondance : lorsquun concept est assign e a ` des types s emantiques consid er es comme exclusifs, il est ambigu ; lorsque les termes equivalents nont pas pu etre appari es et les concepts fusionn es, ces concepts sont redondants. Les concepts du Metathesaurus sont li es a ` un r eseau s emantique, dont le but est de cat egoriser les concepts et de fournir des relations qui existent entre eux. Le r eseau s emantique se compose de types s emantiques et de relations. Dans la version de 2003, le r eseau contient 135 types et 54 relations s emantiques autres que la synonymie (NLM, 2003, p. 55). Chaque concept est assign ea ` au moins un type s emantique. Les types et les relations s emantiques sont eux-m emes structur es en une hi erarchie (NLM, 2003, p. 6668). Ces couches superpos ees de structures rapprochent lUMLS des ontologies ou du moins le situent entre les terminologies et les ontologies (Zweigenbaum, 2004). Taille. Dans la version de 2003, le Metathesaurus comporte 875 255 concepts (2 140 000 termes) en anglais, dont 23 966 concepts (34 630 termes) sont en fran cais. LUMLS est disponible sous licence gratuite aupr` es de la NLM. Certaines terminologies source imposent des contraintes suppl ementaires pour leur utilisation. Conclusion et Discussion Parmi les nombreuses terminologies existant dans le domaine m edical, nous en avons pr esent e quatre. Chacune delles a et e con cue avec des objectifs et dans des cadres applicatifs di erents. Nous avons vu que les cadres applicatifs conditionnent directement le contenu de ces terminologies. Les concepts recrut es ne sont pas les m emes. La CIM recense les causes de maladies et de mortalit e. Lexhaustivit e de ces causes est primordiale. En 2003, par exemple, la CIM a et e enrichie du terme Pneumonie atypique. Notons n eanmoins que sa couverture laisse a ` d esirer et que de nombreux produits terminologiques sp eciques a ` di erentes sp ecialit es m edicales sont cr e es pour compl eter la CIM. Le MeSH, par contre, cherche a ` indexer les articles et les ouvrages scientiques. Avec le MeSH, le champ dexploration est large : il sagit de la description des sp ecialit es m edicales mais egalement de la formation et de la recherche scientique. La SNOMED recense egalement les diagnostics, et tout particuli` erement les signes et sympt omes. Mais dune part, elle se concentre sur la terminologie des dossiers patient. Et dautre part, elle recense aussi des proc edures chirurgicales, la description anatomique du corps humain, etc. On ne peut donc pas esp erer avoir un recouvrement s emantique complet entre ces terminologies. En eet, (Wang et al., 2001) rapportent que le recouvrement de la SNOMED RT (un d eriv e de la SNOMED) et de Clinical Terms V3 (une norme britannique), a ` travers les relations de synonymie et dhyperonymie, est denviron 28 %. Les termes varient aussi : le MeSH et la CIM les cr eent articiellement an de les rendre les plus explicites possible ; la SNOMED les recense dans les documents m edicaux. 23

CHAPITRE 2. VARIATION TERMINOLOGIQUE

Les principes d etablissement des relations s emantiques sont egalement di erents. La synonymie peut englober des expressions du m eme type syntaxique ou non (la SNOMED enregistre la synonymie entre les noms et les adjectifs). La relation hi erarchique correspond dans certains cas a ` une relation est-un, dans dautres elle peut englober la relation partitive (comme dans la SNOMED), des relations dassociation (comme dans le MeSH) ou encore des relations sous-sp eci ees. Malgr e ces di erences, il existe un besoin r eel de mettre en correspondance les termes de ces di erentes terminologies. Nous avons alors d ecrit, a ` travers la pr esentation de lUMLS, les techniques dappariement des informations contenues dans les di erentes terminologies. Lappariement devient partiellement possible avec les ressources et programmes lexicaux fournis par lUMLS et la structure des terminologies source. Les variations au niveau morphologique sont g er ees a ` travers les programmes lexicaux lvg du Specialist Lexicon. Pour les variations exionnelles, ces programmes utilisent des r` egles exionnelles r eguli` eres et des tables dexceptions. Pour laxation, ils utilisent des tables de paires de mots, y compris laxation sur des bases suppl etives. La composition nest pas trait ee par lvg.

2.2.2

Recherche dinformation, indexation et encodage

Nous nous situons maintenant dans un contexte proche de la recherche dinformation ou de lindexation et de lencodage des documents. Ce contexte nest pas moins important que le pr ec edent, puisquil concerne lusage eectif qui est fait des termes dans un domaine et implique les usagers et les acteurs de ce domaine. Lappariement des termes dans ce contexte suit un mod` ele semblable a ` celui de la section pr ec edente : lordre des mots, la casse, la ponctuation, les accents sont dhabitude ignor es. Les variations du niveau morphologique sont g en eralement prises en compte a ` travers lapplication de r` egles de d esuxation ou lutilisation de ressources motiv ees linguistiquement. La proximit e s emantique des termes (synonymie, hyperonymie, etc.) est d etect ee a ` travers des donn ees structur ees9 . Nous consacrons cette section aux traitements morphologiques. Pour commencer, nous pr esentons les exp eriences eectu ees avec des formes non trait ees (brutes) des termes. Nous rapportons alors les travaux qui appliquent des traitements morphologiques. Nous montrons ensuite quil existe une controverse autour de lutilit e des traitements morphologiques dans ce contexte. Comparaison des formes brutes Quel est le succ` es dappariement des termes dindexation et des requ etes des utilisateurs lorsque aucun traitement lexical nest eectu e ? Il nest pas elev e, comme le rapportent (Furnas et al., 1987) a ` travers des exp eriences dans une base documentaire. Les auteurs demandent aux utilisateurs : de deviner des noms de commandes dun editeur de texte ;
Voir par exemple les communications du workshop Using semantics for information retrieval and ltering de LREC 2002.
9

24

2.2. LA VARIATION TERMINOLOGIQUE EN CONTEXTE

dindexer des recettes de cuisine ; de donner un hyperonyme de mots de la langue courante ; et de donner des synonymes pour des mots de la langue courante. Les propositions des utilisateurs sont ensuite compar ees avec les termes dindexation ociels. Leur correspondance est evalu ee selon quatre protocoles : seulement le premier mot cl e propos e par lutilisateur est accept e; le mot cl e le plus fr equent propos e par les utilisateurs est accept e; les trois mots cl es les plus fr equents propos es par les utilisateurs sont accept es ; les 15 mots cl es les plus fr equents propos es par les utilisateurs sont accept es. Ce travail montre quavec un seul mot cl e lappariement est possible dans 7 a ` 18 % des cas, avec le mot cl e le plus fr equent il varie entre 16 a ` 36 %, avec les 3 mots cl es les plus fr equents entre 38 et 67 %, et enn avec 15 mots cl es les plus fr equents entre 60 et 80 %. Donc, un plus grand choix laiss e aux utilisateurs augmente leur possibilit e de trouver le bon mot cl e et les documents recherch es. L etendue de cette r eussite est grand : 7 a ` 18 %, 16 a ` 36 %, etc. Les valeurs les plus elev ees sont obtenues avec les recettes culinaires, et les moins elev ees avec les commandes informatiques. Une exp erience similaire, mais dans lindexation et la recherche dimages dactions, montre un appariement plus r eussi qui va de 76 a ` 90 % (Turner, 1995). Appariements ` a travers des traitements lexicaux Deux mod` eles sont utilis es pour le traitement de la variation morphologique des termes : la r eduction des variantes morphologiques avec des r` egles de d esuxation ou, plus rarement, avec des ressources morphologiques. Application de r` egles de d esuxation. Lapplication de r` egles de d esuxation est eectu ee a ` travers des outils appel es d esuxeur ou stemmer . Les d esuxeurs permettent de r eduire les variantes morphologiques des mots a ` leur stem , qui correspond, dans lid eal, a ` une base ou bien a ` un lemme, selon que laxation et/ou la exion sont trait ees. Les r` egles sont etablies manuellement et couvrent un ensemble daxes a ` supprimer ou a ` remplacer. Les premiers d esuxeurs, devenus standards, sont ceux de Lovins (Lovins, 1968) et Porter (Porter, 1980). Tous les deux traitent la exion et laxation des mots anglais. Le d esuxeur de (Lovins, 1968) utilise une liste denviron 250 suxes. Apr` es la suppression du suxe le plus long dun mot, lalgorithme v erie si la cha ne de caract` eres 10 11 restante contient au moins 3 caract` eres et, si oui, recompose une nale du mot : magnesia =(ia| ) magnes =(s|s ) magnes magnesite =(ite| ) magnes =(s|s ) magnes magnetize =(ize| ) magnet =(t|t ) magnet magnetometric =(ic| ) magnetometr =(tr|ter ) magnetometer magnetometry =(y| ) magnetometr =(tr|ter ) magnetometer
Ces exemples ont et e reconstitu es selon le cours Indexation et recherche dinformation assur e par Ch. Jacquemin a ` Paris 11 (disponible sur www.limsi.fr/individu/jacquemin/). 11 Dans les exemples qui suivent, repr esente une cha ne vide.
10

25

CHAPITRE 2. VARIATION TERMINOLOGIQUE

Lalgorithme de (Porter, 1980) utilise une liste denviron 1 200 suxes minimaux g er es avec des r` egles contextuelles. Il a un fonctionnement it eratif et pr evoit jusqu` a 5 suppressions de suxes dans un mot : formalize =(alize|al ) formal =(al| ) form operator =(ator|ate ) operate =(ate| ) oper feudalism =(alism|al ) feudal =(al| ) feud Cet algorithme, initialement appliqu e a ` langlais, a donn e lieu au d eveloppement dune s erie de d esuxeurs Snowball12 pour dautres langues (Porter, 2001), y compris pour le fran cais. Cest sans doute le d esuxeur le plus utilis e. Discussion. Comme le montrent les exemples de d esuxation avec Lovins et Porter, les cha nes de caract` eres obtenues apr` es la d esuxation ne correspondent pas toujours a ` des mots de la langue. Ce qui peut g en erer du bruit lorsque les stems ne regroupent pas que des mots reli es s emantiquement. Par exemple (Porter, 1980) regroupe ensemble les mots general, generous, generation et generic, puisquils sont tous r eduits a ` gener (Hull, 1996). Par ailleurs, le non regroupement de mots reli es s emantiquement cr ee des silences13 . De ce point de vue, les algorithmes de d esuxation ne sont que relativement ables. Lapplication des d esuxeurs a donn e des r esultats contradictoires. (Harman, 1991), cit e dans (Hull, 1996; Kraaij & Pohlmann, 1996), compare trois d esuxeurs en anglais (suppression de -s nal, Lovins et Porter) avec la baseline (la non-application des traitements, ici de la d esuxation). La baseline sav` ere alors meilleure que nimporte lequel des d esuxeurs. Alors que dans dautres travaux, des versions adapt ees des d esuxeurs sav` erent etre meilleures que la baseline (Krovetz, 1993; Gaussier et al., 2000). Face a ` ces r esultats contradictoires, (Church, 1995) eectue une etude probabiliste de la corr elation entre les formes de mots passibles d etre trait ees par les d esuxeurs. Selon son hypoth` ese, deux mots sont dautant plus corr el es et donc substituables, quils apparaissent plus souvent dans les m emes documents. Par cons equence, plus ils sont substituables, plus lapplication de la d esuxation est justi ee. Selon cette hypoth` ese : lorsque la corr elation entre deux mots est egale a ` 1 il sagit bien dun m eme mot, ce qui justie la d esuxation ; lorsque la corr elation est egale a ` 0 les deux mots sont bien distincts et laxation na pas lieu d etre appliqu ee : cest la baseline. Lexp erience est faite avec 999 paires des pluriels r eguliers en -s : {hostage, hostages}. Elle montre que la corr elation est toujours sup erieure a ` 0 (il ne sagit pas de deux mots di erents), mais reste toujours inf erieure a ` 1 (il ne sagit donc non plus dun seul mot). En r ealit e, la corr elation ne d epasse pas le seuil de 0,7. Cette corr elation sugg` ere quil ne sagit pas dun mot ni de deux mais denviron 1,5. Lutilisation des d esuxeurs nest donc justi ee qu` a moiti e. Parmi les meilleures corr elations se trouvent : 0,52 pour {hostage, hostages}, 0,43 pour {drug, drugs}. La m eme exp erience, appliqu ee aux variantes de casse (premier caract` ere en majuscule), montre des r esultats similaires (meilleures corr elations : 0,65 pour
12 13

http://snowball.tartarus.org/ Le silence correspond aux r esultats d esirables mais non fournis par un syst` eme.

26

2.2. LA VARIATION TERMINOLOGIQUE EN CONTEXTE

{Hurricane, hurricane}, 0,44 pour {Museum, museum}). Les mots ax es (adverbes en -ly a ` partir des adjectifs) montrent des corr elations plus faibles (0,24 pour {sexual, sexually}, 0,15 pour {illegal, illegally}). Lauteur signale egalement que, parmi les paires de mots etudi ees et en fonction des corpus, certaines paires sont mieux corr el ees que dautres. Ainsi selon les corpus, un m eme mot devrait ou ne devrait pas etre d esux e. En cons equence, lorsque la d esuxation est utilis ee, il est n ecessaire de ladapter aux corpus. La notion de substituabilit e de cette exp erience est sujette aux questionnements : la distribution de deux mots dans les m emes documents est-elle susante pour quils soient consid er es comme substituables ? Toutefois, cette exp erience montre des r esultats plus optimistes que ceux de (Harman, 1991) : la d esuxation devient fond ee, surtout lorsquelle est adapt ee aux corpus (et donc aux domaines) trait es. Utilisation de connaissances motiv ees linguistiquement. Toujours face aux r esultats contradictoires fournis par les algorithmes de d esuxation, dautres chercheurs ont choisi de constituer des ressources morphologiques adapt ees aux corpus et de les utiliser ensuite pour r eduire les variations morphologiques. Ces ressources consistent souvent en un ensemble de paires de mots reli es morphologiquement : {journal, journals} {journal, journalistic} {journalistic, journalistically} Elles sont compar ees avec les d esuxeurs et la baseline. Deux etudes (Hull, 1996; Kraaij & Pohlmann, 1996) font une telle comparaison pour langlais et le n eerlandais respectivement. Dans (Hull, 1996), la baseline est oppos ee aux trois d esuxeurs (suppression de -s nal, Lovins etendu et Porter) et a ` environ un million de paires de mots en relation morphologique. Ces paires sont g en er ees avec des r` egles de exion et daxation (pr exation et suxation) a ` partir de quelques 77 000 formes de base. Il sagit de ressources linguistiques de Xerox. Les d esuxeurs et les ressources morphologiques sont utilis es a ` travers loutil 14 de recherche SMART sur le corpus et les requ etes de TREC (Text REtrieval Confe15 rence). Le calcul du rappel et de la pr ecision montre que la baseline produit les r esultats les moins bons et que les d esuxeurs sont l eg` erement meilleurs que les ressources linguistiques. Plusieurs modications sont eectu ees par lauteur pour mettre en valeur les ressources morphologiques : Le rappel et la pr ecision sont observ es sur les 5 a ` 15 premiers documents (recherche supercielle) et les 50 a ` 150 premiers documents (recherche fouill ee) ; Les r` egles de pr exation sont elimin ees car elles g en` erent trop de bruit ;
Disponible a ` ladresse ftp.cs.cornell.edu/pub/smart/ Le rappel et la pr ecision sont deux mesures d evaluation des r esultats adopt ees a ` lorigine dans le domaine de la recherche dinformation. La pr ecision indique le pourcentage de documents corrects parmi ceux qui ont et e trouv es : il sagit de lexactidude des r esultats. Le rappel indique le pourcentage de documents trouv es par rapport a ` ce qui est attendu : il sagit de la compl etude des r esultats. Les notions de silence et de bruit sont intimement li ees avec la pr ecision et le rappel. Le silence est le compl ementaire du rappel, le bruit de la pr ecision.
15 14

27

CHAPITRE 2. VARIATION TERMINOLOGIQUE

Les requ etes courtes et longues sont distingu ees car elles ne montrent pas les m emes r esultats ; La priorit e dans lanalyse des r esultats est donn ee aux requ etes les plus sensibles a ` la di erence des traitements morphologiques appliqu es. Suite a ` ces modications, les ressources morphologiques et surtout laxation deviennent les meilleures. Lauteur constate aussi que les traitements morphologiques sont surtout utiles avec des requ etes et des documents courts. Cette observation est egalement faite par (Krovetz, 1993). (Kraaij & Pohlmann, 1996) pr esentent des exp eriences semblables sur le n eerlandais. Les auteurs comparent la baseline avec les traitements morphologiques : Porter adapt e au n eerlandais (98 r` egles) et ressources linguistiques compil ees a ` partir de la base Celex (Burnage, 1990)16 . Le d esuxeur et les paires de mots peuvent traiter la exion, laxation et partiellement la composition. Plusieurs versions du d esuxeur et surtout plusieurs combinaisons de ressources morphologiques sont test ees (exion seule, exion et axation, exion et composition, etc.). Cette exp erience montre : la sup eriorit e des traitements morphologiques par rapport a ` la baseline ; quil nexiste pas de grande di erence entre le d esuxeur Porter et les ressources morphologiques. Notons que la m eme conclusion est faite par (Hull, 1996) avant que lauteur ne modie les principes d evaluation des r esultats et najuste les ressources morphologiques ; que la exion seule donne de meilleurs r esultats uniquement lorsquelle est combin ee avec laxation ; que la prise en compte de la composition est utile dans une langue concat enatoire comme le n eerlandais ; et que, de mani` ere g en erale, le rappel est am elior e au d etriment de la pr ecision. Du fait de cette derni` ere constatation, les auteurs concluent que les traitements de la variation morphologique sont surtout utiles pour lam elioration du rappel. Conclusion et discussion Nous avons pr esent e des traitements morphologiques utilis es dans les domaines de lindexation et de la recherche dinformation, quelles soient contr ol ees ou libres. Lappariement de mots bruts laisse une faible possibilit e de retrouver le bon terme (Furnas et al., 1987), et la possibilit e dutiliser une syntaxe plus evolu ee peut etre une cause derreurs (Jansen et al., 2000; Jones et al., 1998). Les traitements lexicaux peuvent donc sav erer utiles. Le traitement de la variation morphologique, qui peut etre prise en charge par des d esuxeurs ou par des ressources morphologiques, donne des r esultats contradictoires. Ils semblent d ependre de plusieurs facteurs : longueur des requ etes et des documents (Krovetz, 1993; Hull, 1996) ;
Les auteurs nindiquent pas la taille des ressources morphologiques, mais la version 3.1 de Celex (1990) couvrait 124 000 lemmes en n eerlandais. Le nombre de paires de mots est au moins tout aussi important que dans lexp erience de (Hull, 1996).
16

28

2.2. LA VARIATION TERMINOLOGIQUE EN CONTEXTE

type exionnel des langues ((Popovic & Willett, 1992) cit e dans (Kraaij & Pohlmann, 1996)) : les langues avec un syst` eme morphologique relativement simple peuvent etre prises en charge par les d esuxeurs, les langues avec un syst` eme morphologique complexe sont dicilement descriptibles avec les r` egles de d esuxation, elles sont plus favorables a ` lutilisation de ressources morphologiques ; principes et mesures d evaluation des r esultats (Hull, 1996) ; contenu des ressources morphologiques (Hull, 1996; Kraaij & Pohlmann, 1996). Il semble n eanmoins que lutilisation de connaissances linguistiques am eliore les r esultats (Krovetz, 1993; Hull, 1996; Gaussier et al., 2000), et ce dautant plus si elles sont adapt ees au domaine etudi e (Church, 1995; Jacquemin, 1997a; Xu & Croft, 1998). On peut aussi se demander si l evaluation des r esultats a ` travers la pr ecision et le rappel re` ete r eellement les performances des appariements. Si les normalisations ne sont pas appliqu ees, le syst` eme reste aveugle face a ` de nombreux ph enom` enes linguistiques. Les normalisations ind esirables pourraient etre ltr ees a priori a ` travers les ressources ou a posteriori avec les r esultats.

2.2.3

Acquisition terminologique

Dans cette section, nous nous situons dans le contexte de la constitution (semi)automatique de terminologies. Les outils dacquisition terminologique mettent en uvre des strat egies di erentes, dont voici une liste non exhaustive : recherche de segments r ep et es dans une fen etre de n mots (Lafon, 1984; Frath et al., 2000; Dias et al., 2003), recherche de patrons syntaxiques correspondant aux groupes nominaux (bo te a ` outils Xelda de Xerox, module GN de loutil AlethIP dEDF), recherche de patrons syntaxiques correspondant aux syntagmes nominaux et adjectivaux, mais cette fois a ` lint erieur des fronti` eres syntaxiques (cat egories syntaxiques qui ne peuvent pas faire partie des termes : coordination, pronoms, verbes conjugu es, adverbes, etc.). Les groupes terminologiques sont ensuite d ecompos es en syntagmes minimaux (Lexter (Bourigault, 1993)), rep erage de syntagmes r ep et es autour de connecteurs grammaticaux (de, de l, du, etc.) et/ou dancres lexicales d ej` a connues (Ana (Enguehard et al., 1992)), application de patrons syntaxiques des bitermes et ensuite de ltres statistiques et de r` egles de variation (Acabit (Daille, 1995)). Qui plus est, les patrons syntaxiques utilis es par les di erents outils ne sont pas les m emes. Parmi les outils cit es certains sont destin es sp eciquement a ` lacquisition terminologique (comme Lexter, Ana ou Acabit), dautres au traitement de la langue naturelle en g en eral (Xelda et AlethIP). Avec ces derniers, les groupes nominaux extraits ne sont pas sp eciques des structures terminologiques, mais d ecrivent plut ot la d ecomposition de la phrase en syntagmes. Tandis que les outils d edi es a ` lacquisition terminologique recherchent sp eciquement des structures des termes. 29

CHAPITRE 2. VARIATION TERMINOLOGIQUE

Parmi les outils terminologiques, il existe en plus des di erences applicatives : Lexter visait a ` lorigine le traitement des documents electroniques en vue de leur indexation, Ana et Acabit la recherche dinformation. Les termes obtenus avec les deux derniers sont donc plus concis, en particulier avec Acabit qui se concentre sur le rep erage des bitermes. La plupart de ces outils analysent des documents d ej` a pr etrait es avec des etiqueteurs morphosyntaxiques. La performance variable des etiqueteurs utilis es, de m eme que les di erences de strat egies et de patrons syntaxiques, sont autant de facteurs qui conditionnent la variabilit e des candidats termes propos es par les outils dacquisition terminologique. Cette variabilit e est potentiellement importante et ne manque pas de se manifester lors des comparaisons de candidats termes provenant de di erents outils ou lors de lint egration doutils dans une m eme plateforme. Dans l evaluation doutils terminologiques, il existe des travaux qui comparent les interfaces, les ressources externes utilis ees, la convivialit e, etc. (B eguin et al., 1997). Dautres eectuent une comparaison plus d etaill ee a ` travers une analyse linguistique des sorties (Habert et al., 1997; Spackman & Hersh, 1996) et leur int egrabilit e (Hamon, 2000). Ce sont ces derniers qui nous int eressent. (Habert et al., 1997) comparent ainsi les sorties de deux outils : AlethIP/GN con cu pour les traitements g en eraux de la langue naturelle et Lexter (Bourigault, 1993) destin e a ` lacquisition terminologique. Lanalyse est eectu ee a ` travers une comparaison des arbres syntaxiques des candidats termes. Elle montre que les arbres identiques propos es par ces deux outils ne repr esentent que la moiti e des r esultats et que les groupes nominaux uniques correspondent a ` environ 10 % pour chaque outil. Le reste correspond essentiellement a ` la subsomption, ou inclusion, darbres syntaxiques. De mani` ere g en erale, AlethIP/GN extrait des arbres moins nombreux mais plus profonds et plus complexes que ceux fournis par Lexter. Les auteurs consid` erent que ces di erences sont dues aux facteurs suivants : La nalit e des outils : Lexter est con cu pour lacquisition terminologique, AlethIP pour le traitement de la langue en g en eral. Le module de lextraction de groupes nominaux dAlethIP ne constitue quun des modules et ne concerne pas sp eciquement lacquisition terminologique. Le fonctionnement : AlethIP utilise des dictionnaires externes, Lexter exploite des r` egles de d ecoupage, des patrons syntaxiques et des r` egles de d ecomposition des groupes nominaux. Lutilisation de dictionnaires permet a ` AlethIP de remettre en cause l etiquetage morphosyntaxique, tandis que Lexter conserve l etiquetage dorigine. Par contre, Lexter d ecompose les groupes nominaux, tandis que AlethIP les garde intacts. Ces facteurs causent donc des di erences dans les r esultats quant a ` la cat egorisation syntaxique des mots et la taille des groupes nominaux. La port ee danalyse : AlethIP eectue lanalyse au niveau de la phrase, Lexter eectue une analyse supercielle locale. AlethIP cherche a ` d ecomposer la phrase en syntagmes, tandis que Lexter eectue la recherche de syntagmes qui correspondent aux patrons terminologiques entre les fronti` eres syntaxiques. 30

2.2. LA VARIATION TERMINOLOGIQUE EN CONTEXTE

De ces deux outils, cest bien s ur Lexter qui est mieux adapt ea ` lacquisition terminologique. Et ses strat egies de recherche des groupes terminologiques et de leur d ecoupage le conrment. (Spackman & Hersh, 1996) eectuent une comparaison de termes propos es par deux autres outils : Xelda et Clarit (Evans & Leerts, 1993), un module de rep erage de syntagmes du syst` eme du m eme nom destin e a ` la recherche dinformation. Les auteurs constatent egalement des subsomptions darbres terminologiques dans les deux sens. Ils comparent ces r esultats avec une liste de termes de r ef erence. Le rappel total des deux outils est de 85,8 %. Parmi lesquels, 59,8 % de termes sont identi es par les deux outils a ` la fois, 8,9 % sont uniques a ` Xelda et 17,1 % a ` Clarit. Malheureusement, les auteurs nindiquent pas les structures syntaxiques qui manquent pour chaque outil. La di erence qui existe entre les candidats termes peut constituer une pierre dachoppement lors de lint egration des outils dans une m eme plateforme. Un exemple dune telle int egration est pr esent e dans (Hamon, 2000, p. 133134). Lauteur utilise les sorties de Lexter et dun autre outil terminologique, Faster (Jacquemin, 1997b), et constate que la mise en correspondance des deux ensembles de candidats termes nest pas ais ee. Nous avons vu ci-dessus que Lexter elimine les conjonctions de coordination et les adverbes, consid er es comme fronti` eres entre les termes. Faster, par contre, etant destin e au rep erage des variantes morphosyntaxiques des termes, conserve les variantes avec les conjonctions de coordination et les adverbes. Sans des traitements appropri es, il est impossible dapparier les termes fournis par ces deux outils. Di erents outils dacquisition terminologique, mais egalement de structuration, ne fournissent donc pas les m emes ensembles de termes. Et m eme parmi les termes propos es par un m eme outil il existe des variantes terminologiques. An de faciliter le travail de validation et dint egration de donn ees, il est souhaitable dappliquer des normalisations pour la r eduction de ces variations. Discussion et conclusion La constitution de ressources terminologiques sappuie, dans les travaux cit es, sur lexploration des donn ees textuelles et la d etection des expressions qui peuvent correspondre a ` des termes. Ces expressions sont rep er ees avec des strat egies de d etection et de s election fort di erentes. Les termes propos es par les outils automatiques sont donc egalement potentiellement di erents. La comparaison des sorties des outils dacquisition terminologique (Spackman & Hersh, 1996; Habert et al., 1997; Hamon, 2000) montre que les di erences proviennent : (1) de lobjectif qui se trouve a ` lorigine de la conception des outils (analyse g en erale de la langue, acquisition terminologique pour lindexation, pour la recherche dinformation), (2) des strat egies de fonctionnement des outils (analyse et d ecoupage de la phrase, d ecomposition en termes) et les ressources linguistiques utilis ees (dictionnaires, r` egles) et (3) de la port ee de lanalyse syntaxique (globale a ` une phrase ou locale). Par ailleurs, (Bourigault & Habert, 1998) indiquent que linuence de lapplication vis ee dans la constitution de ressources terminologiques joue un r ole primordial : pour un m eme domaine et a ` partir du m eme corpus, les termes et les liens retenus sont fonction de lapplication pour 31

CHAPITRE 2. VARIATION TERMINOLOGIQUE

laquelle cette terminologie est cr e ee. Ainsi, plut ot que de parler de la terminologie dun domaine, il convient de parler de di erents produits terminologiques qui correspondent a ` des usages pr ecis (Bourigault & Habert, 1998; Bourigault & Slodzian, 1999). La constitution de terminologies devrait donc etre guid ee par lapplication. Il appara t par ailleurs que les outils con cus sp eciquement pour lacquisition terminologique fournissent de meilleurs r esultats que les outils g en eriques de TAL (Habert et al., 1997). Notons n eanmoins que, dans un contexte multilingue, les outils non sp eciques a ` lacquisition terminologique, mais qui appliquent des strat egies semblables dans di erentes langues, peuvent fournir des r esultats plus comparables et alignables que des outils d evelopp es s epar ement dans chaque langue (Grabar & Haag, 2003).

2.3

Discussion et conclusion

Nous avons vu que les contenus des terminologies g en eriques du domaine m edical varient, de m eme que les strat egies des outils dacquisition terminologique. Nous pouvons donc nous demander quels crit` eres adopter, lors de la constitution de ressources terminologiques, dans le choix des termes ociels parmi toutes les variantes pouvant exister ? Une des causes de cette variabilit e, qui est souvent revenue durant notre expos e, provient du cadre applicatif o` u ces terminologies sinscrivent. Le contenu des terminologies montre ainsi une tendance a ` varier selon leurs objectifs et les applications o` u elles sont utilis ees. Les terminologies m edicales pr esent ees (le MeSH, la CIM, la SNOMED) sont eectivement ech ees. Le choix des termes et des relations entre eux d epend des applications vis ees. Face aux terminologies, de toute mani` ere lacunaires (Hersh et al., 1996; Spackman & Hersh, 1996), ce qui devient de plus en plus saillant gr ace aux traitements automatiques des documents, les techniques dappariement de termes deviennent donc une aide importante dans la reconnaissance des variantes. Il sav` ere ainsi plus crucial de d evelopper des ressources et des outils qui permettent de neutraliser la variation terminologique que de poser des restrictions et des conventions dans le choix et lusage des expressions terminologiques contr ol ees (Bodenreider et al., 2002). Nous avons pr esent e un certain nombre de types de variations terminologiques qui rel` event de di erents niveaux (caract` ere, morphologie, mots vides, syntaxe, hyponymes, etc.) et demandent la mise en place de di erentes techniques et ressources. Nous nous sommes concentr ee en particulier sur les variations morphologiques et leur traitement. Ces variations peuvent etre neutralis ees avec des approches non linguistiques (application de r` egles de d esuxation, qui tronquent un mot d` es quun suxe y a et e reconnu et eventuellement recomposent sa nale) et des approches utilisant des ressources linguistiquement motiv ees (paires de mots reli es morphologiquement, r` egles morphologiques de variations exionnelles r eguli` eres). Lapplication m eme de ces traitements est sujette a ` discussion. Les r esultats sont plut ot contradictoires et semblent d ependre de plusieurs facteurs : longueur des requ etes et des documents ; type exionnel des langues ; principes et mesures d evaluation des r esultats ; contenu des ressources linguistiques. Il semble n eanmoins que lutilisation de connais32

2.4. PRECISION DES OBJECTIFS DU TRAVAIL

sances linguistiques am eliore les r esultats (Krovetz, 1993; Hull, 1996; Gaussier et al., 2000; de Loupy, 2000), dautant plus que ces connaissances sont adapt ees au domaine etudi e (Church, 1995; Jacquemin, 1997a; Xu & Croft, 1998).

2.4

Pr ecision des objectifs du travail

Dans la suite de notre travail, nous continuons de traiter la variation des termes au niveau morphologique. Face au manque de abilit e des r` egles de d esuxation, nous misons en particulier sur lutilisation de ressources motiv ees linguistiquement. Des exp eriences pr esent ees jusquici, nous retenons que ces ressources sont utilis ees avec succ` es dans la reconnaissance de variantes de termes relatives a `: la exion : {an evrisme, an evrismes }, {an evrismal, an evrismale } ; la suxation (la pr exation semble bruiter les r esultats (Hull, 1996)) : {an evrism(e)/Nom , an evrismal/Adj }, {biologie/Nom , biologiste/Nom } ; la suppl etion : {foie/Nom , h epatique/Nom }, {estomac/Nom , gastrique/Nom } ; la conversion, qui devient visible aux outils du TAL uniquement dans les documents etiquet es morphosyntaxiquement : {muqueuse/Adj , muqueuse/Nom } ; la composition, surtout pour les langues concat enatoires et a ` condition d etre utilis ee avec pr ecaution : {an evrisme, an evrismorraphie }. Lorsque ces variations sont r eguli` eres, ce qui est le cas par exemple de la majorit e des exions, elles peuvent etre trait ees avec les r` egles correspondantes. Dans dautres cas, il faut disposer de paires de mots qui mettent en relation les mots reli es morphologiquement. Ces exp eriences nous font egalement retenir que la pertinence des ressources morphologiques augmente lorsque ces derni` eres sont adapt ees aux corpus et domaines trait es. Et que, pour fournir plus decacit e, le traitement des variantes morphologiques doit etre combin e avec le traitement dautres variations des termes. Apr` es avoir pr esent e plus en d etail les proc ed es morphologiques de formation de lex` emes et de leurs variations (chap. 3), nous pr esentons les explorations automatiques des donn ees textuelles. Dabord a ` travers lacquisition de ressources morphologiques, ce qui constitue le premier objectif de notre travail (chap. 4), et avec une etude de la sp ecicit e de certaines suxations selon la sp ecialisation des documents, les domaines et les genres m edicaux (chap. 5). Ensuite nous passons a ` notre deuxi` eme objectif qui consiste a ` observer par nous-m eme la contribution r eelle apport ee par les ressources morphologiques dans le traitement de la variation terminologique. Deux exp eriences sont alors pr esent ees. La premi` ere correspond a ` une application proche de la recherche dinformation (chap. 6). Nous eectuons une analyse des log du portail m edical CISMeF pour comparer le lexique des termes dindexation avec celui des utilisateurs. Nous appliquons les ressources morphologiques et les r` egles de 33

CHAPITRE 2. VARIATION TERMINOLOGIQUE

d esuxation de variations r eguli` eres. La deuxi` eme se situe du c ot e de la structuration de terminologies (chap. 7). Nous appliquons lhypoth` ese dinclusion lexicale pour d etecter des relations hi erarchiques entre deux termes. Dans les deux exp eriences, les traitements morphologiques sont coupl es a ` dautres traitements de normalisation (casse, ordre des mots, ponctuation, nombres, mots vides, synonymes).

34

Chapitre 3 Morphologie
Dans le chapitre pr ec edent, nous avons d ecrit la variabilit e des termes, les contextes dapparition de cette variabilit e et les moyens informatiques utilis es pour la neutraliser. Nous nous sommes concentr ee sur les traitements de la variation des termes au niveau morphologique. Ce chapitre est consacr ea ` la morphologie, une sous-discipline de la linguis1 tique . Pour d ecrire le potentiel de la morphologie dans la neutralisation de la variation terminologique, nous pr esentons dabord ses assises th eoriques (sec. 3.1) : les m ecanismes mis en uvre dans la formation et variation des lex` emes et leurs tenants s emantiques. Les faits morphologiques que nous pr esentons sont alors dict es par les besoins de description des donn ees, en fran cais, anglais et russe, induites et analys ees dans le chapitre 4. Travaillant avec des donn ees ecrites, nous nous attachons surtout au traitement des graph` emes, bien que dans lexpos e propos e ici, les lex` emes soient souvent consid er es selon leurs plans s emantique, morphologique, cat egoriel et phonologique. Mais cest surtout le traitement de la graphie des lex` emes qui nous int eresse. Ensuite, dans la section sec. 3.2, nous pr esentons les travaux en morphologie qui se situent du c ot e du TAL : il sagit de lutilisation des ressources morphologiques pour l etiquetage morphosyntaxique, lanalyse s emantique, etc. Nous terminons avec un bilan, en particulier pour s electionner les proc ed es de morphologies d erivationnelle et exionnelle utiles pour le traitement de la variation terminologique (sec. 3.3).

Nous sommes reconnaissante aux chercheurs de laction 5 du GdR 2220 du CNRS Bases de donn ees constructionnelles et productivit e des proc ed es morphologiques en corpus (Georgette Dal, Bernard Fradin, Nabil Hathout, Fiammetta Namer) davoir partag e avec nous et avec autant de passion leurs connaissances sur le domaine. Nous remercions particuli` erement Fiammetta Namer et notre rapporteur Bernard Fradin davoir eectu e une relecture attentive et critique de ce chapitre et de nous avoir signal e plusieurs r ef erences bibliographiques en rapport avec les sujets abord es. Lensemble de leurs remarques nous a beaucoup aid ee a ` am eliorer cette pr esentation. Les impr ecisions et incoh erences qui persistent ne sont inputables qu` a nous-m emes.

35

CHAPITRE 3. MORPHOLOGIE

3.1

Morphologie, une sous-discipline de la linguistique

La morphologie est une sous-discipline de la linguistique qui met en uvre des proc ed es et des r` egles sp eciques de formation et de variation des lex` emes. Certains de ces proc ed es, lorsquils assurent une continuit e s emantique entre les lex` emes, peuvent etre utilis es dans le rep erage des variantes des termes. Nous pr ecisons dabord lobjet de la morphologie (sec. 3.1.1), nous d ecrivons ensuite le mat eriau quelle manipule (sec. 3.1.2), ses deux branches : formation et variation des lex` emes (sec. 3.1.3), et la notion de famille mor` phologique (sec. 3.1.4). A la n, nous discutons quelques cas qui nont pas dexplication unanime en morphologie (sec. 3.1.5).

3.1.1

Objet de la morphologie

La morphologie assure une double t ache. Dune part, la morphologie d erivationnelle ou constructionnelle soccupe de la construction du lexique, a ` travers l etude des lex` emes 2 complexes construits par les moyens de la grammaire (Fradin & Kerleroux, 2003) : axation, conversion et composition parmi les proc ed es centraux. Dautre part, la morphologie exionnelle propose une description des variations que les lex` emes subissent lorsquils participent a ` la formation des enonc es. Avant de pr esenter ces deux morphologies, nous introduisons le mat eriau quelles manipulent.

3.1.2

Mat eriau de la morphologie

Le mat eriau morphologique est manipul e par les r` egles de formation de lex` emes et les r` egles de leur r ealisation syntaxique. On peut en distinguer trois types : les lex` emes, les bases non autonomes et les axes (Fradin & Kerleroux, 2003). Les lex` emes et les bases non autonomes peuvent servir de base dans les proc ed es de formation de lex` emes. Apr` es la description de ce mat eriau, nous pr esentons lallomorphie qui peut lalt erer formellement. Lex` emes Les lex` emes sont des instances fondamentales du signe linguistique. Ils sont multidimensionnels, etant constitu es de plusieurs plans de repr esentations, dont les plans phonologique, morphologique, cat egoriel et s emantique (Fradin & Kerleroux, 2003)3 . Ils correspondent a ` un el ement obligatoire lors de la formation de lex` emes complexes, construits ou echis. Les lex` emes utilis es de mani` ere autonome par la syntaxe et qui servent egalement de base aux op erations de construction sont appel es bases autonomes . Les lex` emes peuvent etre simples ou bien complexes. Des lex` emes construits ont d ej` a subi des op erations de construction (afxation ou composition, entre autres). Par exemple, la base non construite autonome cellule
Rappelons quun lex` eme est une unit e linguistique abstraite dans le sens o` u elle nest pas pourvue de marques exionnelles, contrairement aux mots-formes qui en sont pourvus (Lyons, 1968, p. 198). 3 Ces plans peuvent aussi etre attach es au niveau des r` egles de formation, comme dans (Corbin, 1987).
2

36

3.1. MORPHOLOGIE, UNE SOUS-DISCIPLINE DE LA LINGUISTIQUE

permet de construire ladjectif cellulaire. Cet adjectif peut servir de base a ` la construction du nom cellularit e. On peut avoir ainsi plusieurs niveaux de d erivations morphologiques. Bases non autonomes Les bases non autonomes , egalement appel ees bases suppl etives , arch eoconstituants , composants n eolatins , bases savantes ou primitifs suppl etifs (Namer, 2003a), napparaissent pas a ` l etat autonome et ne constituent pas un mat eriau direct pour la syntaxe. Etant des bases suppl etives , elles peuvent se substituer aux bases autonomes dans la formation des lex` emes : {foie/Nom , h epatique/Adj } {queue/Nom , caudal/Adj } {estomac/Nom , gastrique/Adj } Dans ces exemples, les bases qui servent a ` la formation des adjectifs sont formellement di erentes des noms auxquels ces adjectifs correspondent. Ces bases suppl etives, bien quelles ne soient pas autonomes actuellement, ont exist e, dans la plupart des cas, a ` l etat autonome dans certaines langues. La langue m edicale recourt largement a ` lutilisation de bases suppl etives, essentiellement dorigine grecque et latine. La cat egorie grammaticale des bases suppl etives est d enie en fonction des r` egles de construction qui sappliquent a ` elles et en fonction des bases autonomes auxquelles elles peuvent se substituer. Dans les exemples ci-dessus, h epat-, caud- et gastr- sont des bases suppl etives qui correspondent a ` des noms, car (1) les adjectifs en question, dits relationnels ou d enominaux, sont form es a ` partir des noms et (2) ces bases suppl etives sont des equivalents s emantiques et r ef erentiels des noms correspondants : foie/Nom, queue/Nom et estomac/Nom. La s election dune des bases d epend entre autre des contraintes phonologiques (Lignon, 1999; Pl enat, 2001; Pl enat & Roch e, 2001b), de sa disponibilit e,... Peut- etre aussi des moyens traditionnels de formation de lex` emes dans une langue de sp ecialit e. Axes Les axes sont des unit es infralex ematiques sans statut syntaxique. Ce ne sont pas des signes linguistiques mais ils entrent dans la construction de tels signes (Fradin & Kerleroux, 2003). Les axes d erivationnels participent a ` la formation des lex` emes, tandis que les axes exionnels marquent leurs variations. Axes d erivationnels. Les axes d erivationnels participent a ` la formation de lex` emes. Selon la place quils occupent dans un lex` eme par rapport a ` la base, on distingue les pr exes , qui apparaissent avant la base, et les suxes , qui apparaissent apr` es la base. Les axes -aire , -al et -ique sont des suxes car ils apparaissent apr` es la base a ` laquelle ils sappliquent : cellulaire/Adj , p ericardique/Adj , h epatique/Adj , caudal/Adj , gastrique/Adj . Dans les exemples suivants, les axes anti- et avant- sont des pr exes : antigrippe/Adj, avant-bras/Nom. 37

CHAPITRE 3. MORPHOLOGIE

En fonction des r` egles daxation, les axes forment des lex` emes avec une s emantique et une cat egorie syntaxique donn ees. La r` egle de formation des adjectifs relationnels s electionne ainsi le suxe -aire pour construire des adjectifs sur des bases nominales avec un sens g en eral ( ( Relatif a `N) ): {cellule/Nom , cellulaire/Adj }. Axes exionnels. Les axes exionnels marquent la variation exionnelle des lex` emes. En fran cais, en fonction de leur cat egorie syntaxique, les lex` emes ont les dimensions de variations exionnelles suivantes (Huot, 2001, p. 105) : substantifs : nombre : {cellule, cellules }, adjectifs, pronoms : nombre : {an evrismal , an evrismaux } ; genre : {muqueux , muqueuse } ; verbes : temps : {pique , piquait }, mode : {pique , piquerait }, personne : {piquons , piquent }, nombre : {piques , piquez }, genre avec les formes verbales au participe pass e : {pris, prise }, innitif : piquer , prendre . Ces traits exionnels des cat egories syntaxiques sont sujets a ` questionnement. Il existe par exemple une discussion sur la nature, exionnelle ou d erivationnelle, du genre et du nombre, comme le montrent les ouvrages de G. Corbett (Corbett, 1991; Corbett, 2000) 4 . Allomorphie Les allomorphies sont des variations phonologiques et donc formelles des el ements morphologiques, d eclench ees par les contextes morphologiques (Corbin, 1987, p. 289). Le plus souvent, les allomorphies sont d eclench ees dans les bases par les axes : post eriorisations phoniques d eclench ees par certains suxes : {abdomen/Nom , abdominal/Adj } {aborig` ene/Nom , aboriginal/Adj } {mer/Nom , marin/Adj } {heure/Nom , horaire/Adj } transformation de /ai/ en /a/ d eclench e par -ien : {ovaire/Nom , ovarien/Adj } {coronaire/Nom , coronarien/Adj } {urticaire/Nom , urticarien/Adj }
Nous remercions Fiammetta Namer de nous avoir signal e ces ouvrages de Greville G. Corbett. Toutefois, nous navons pas pu les consulter au moment de la r edaction de la th` ese.
4

38

3.1. MORPHOLOGIE, UNE SOUS-DISCIPLINE DE LA LINGUISTIQUE

Mais les bases peuvent aussi d eclencher les variations allomorphiques des axes. Ainsi, les pr exes de n egation d e- et a- se r ealisent di eremment selon que la base commence par une voyelle ou un h non aspir e (d es-, an-) ou bien une consonne (d e-, a-) : pr exe d eabase commen cant par une voyelle ou un h d esinfecter, d es equilibrer, d eshydrater ana erobie, analg esique, anhydride base commen cant par une consonne d eliter, d eg en erer, d esaturer atypique, asymptomatique

En outre, lallomorphie peut appara tre dans un axe sous linuence dun autre axe. Ainsi, le suxe -able se transforme en -ible si la base comporte, par exemple, la s equence -sc- (Corbin, 1987, p. 315316) : fermentescible , irascible , reviviscible . Dans (Corbin, 1987, p. 293294), les allomorphies et les suppl etions sont consid er ees comme deux extr emit es dun m eme continuum. Ainsi pour quune alternance phonologique soit consid er ee comme allomorphique, il faut quelle soit reproductible et donc explicable par des propri et es phonologiques. Si ce nest pas le cas, comme dans les exemples qui suivent, il sagit de bases suppl etives : {vierge, virginit e} {nager, natation} {roche, rupestre}. Notons que dans (Bonami et al., 2005), les bases allomorphiques peuvent entrer dans la collection de th` emes dun lex` eme et etre ensuite s electionn ees par les op erations de construction ou par la exion.

3.1.3

Deux sous-domaines de la morphologie

Comme nous lavons d ej` a not e, nous distinguons deux morphologies : la morphologie d erivationnelle, qui d ecrit les proc ed es de construction de lex` emes, et la morphologie exionnelle, qui d ecrit la variation de ces lex` emes lors de leur insertion dans les structures syntaxiques. Morphologie d erivationnelle ou constructionnelle Le but de la morphologie d erivationnelle ou constructionnelle consiste a ` proposer une 5 grammaire explicite de la construction des lex` emes . Les r` egles de construction r eunissent entre autre les contraintes cat egorielles, morphologiques, s emantiques et phonologiques. Soit la r` egle de formation des adjectifs relationnels (ou d enominaux) sur les bases nominales6 : [[X ]N (a)]A
Notons que (Corbin, 1987; Corbin, 1991), dont les travaux sont a ` lorigine de la morphologie constructionnelle, ne parle pas de r` egles de formation de lex` emes, mais de mots. 6 Nous utilisons ici la notation lin eaire propos ee dans (Corbin, 1987). Notons quil existe dautres notations possibles, lin eaires ou non, par exemple celle utilis ee dans (Fradin, 2003), qui rend compte de di erents plans de repr esentations du lex` eme base et du lex` eme construit.
5

39

CHAPITRE 3. MORPHOLOGIE

Selon (Corbin, 1987), la contrainte cat egorielle de cette r` egle pr evoit lapplication dun paradigme daxes (a) a ` une base nominale [X ]N pour la formation dun adjectif A. La contrainte morphologique pr evoit que le paradigme daxes pouvant intervenir dans lop eration comporte, par exemple, les suxes -aire , -al , -el , -eux et -ique . La contrainte s emantique pr evoit que le sens pr edictible et g en eral des adjectifs form es par cette r` egle est ( ( Relatif a `N) ) ou bien ( ( Qui est en rapport avec N ) ). Notons que la contrainte s emantique prime sur la contrainte cat egorielle (Dal, 1997), et que la contrainte phonologique impose une tendance a ` la dissimilation, ce qui evite la jonction dune base et dun suxe trop proches phonologiquement (Lignon, 1999; Pl enat & Roch e, 2001a), comme ce serait le cas de cellulal ou cellulel. Quelques exemples dadjectifs form es par cette r` egle sur les bases cellule, an evrysme, clone et p ericarde et leur sens tel que donn e par les dictionnaires : - cellulaire/Adj : ( ( Qui se rapporte aux cellules ; Qui est constitu e par des cellules ) ) (Manuila et al., 1970) - an evrysmal/Adj : ( ( Qui se rapporte a ` un an evrysme ; Qui en a les caract` eres ) ) (Manuila et al., 2001) - clonal/Adj : ( ( Relatif aux clones ) ) (TLFi, 2001) - p ericardique/Adj : ( ( Qui se rapporte ou qui appartient au p ericarde ) ) (Manuila et al., 1970) La morphologie d erivationnelle met en vre plusieurs proc ed es de formation des lex` emes, parmi lesquels laxation, la conversion et la composition sont consid er es comme centraux (Fradin, 2003, sec. 5.3). Parmi les proc ed es de formation de lex` emes qui se rapprochent de la morphologie mais lui restent p eriph eriques, (Fradin, 2000) distingue entre autres la composition cach ee (concealed compounding ) et les mots valises . La s erie suivante de lex` emes correspond a ` la composition cach ee, o` u la forme tronqu ee du lex` eme handicap est combin ee avec dautres lex` emes tronqu es ou non. Les deux gardent leur contenu s emantique (Fradin, 2003, p. 213) : handi-contact, handiplace, handivie, handimag, handitel, handiscol. Quant aux mots valises, leur formation est soumise a ` des patrons bas es sur des segments phonologiquement identiques ou similaires () dans les lex` emes combin es : A B AB m etropole politique m etropolitique A B AB potiron marron potimarron A B B AB hippie epid emie hippid emie. Bien que la composition cach ee, les mots valises et dautres proc ed es p eriph eriques (accourcissements, axation secr etive, siglaisons, etc.) soient de plus en plus productifs en langue (voir par exemple sec. 8.4 page 167), nous ne les consid erons pas ici. Essentiellement a ` cause de leur caract` ere irr egulier et peu pr evisible. Par contre, laxation, la conversion et la composition peuvent etre trait ees avec les r` egles et contraintes propos ees par la morphologie constructionnelle (voir par exemple (Dal et al., 1999; Hathout et al., 2001; Namer & Zweigenbaum, 2004)). Axation. Laxation consiste en la combinaison dune base et dun axe. Selon le type daxe qui intervient dans les op erations morphologiques en trois langues etudi ees 40

3.1. MORPHOLOGIE, UNE SOUS-DISCIPLINE DE LA LINGUISTIQUE

(fran cais, anglais et russe), une axation peut etre pr exale ou suxale. On appelle les lex` emes qui r esultent dune axation lex` emes construits, lex` emes ax es, lex` emes d eriv es, d erivations ou bien axations. Le passage du lex` eme ax e vers sa base sappelle la racinisation ou la d esuxation 7 . RC Adj Adj Adj Nom Adj V Adj Adv Nom Adj Nom Nom Nom V V Adj V Nom VV Pr exation {mortel, immortel} {niais, d eniais(er)} {grippe, antigrippe} {pesanteur, apesanteur} {moustique, d emoustiqu(er)} Suxation {propre, propret } {mortel, mortalit e} {banal, banalis(er) } {banal, banalement } {mort, mortel } {maison, maisonnette } {pacte, pactis(er) } {pli(er), pliable } {balay(er), balayage } {tap(er), tapot(er) }

{coud(re), d ecoud(re)}

Tab. 3.1 Contraintes cat egorielles pour laxation. Le tab. 3.1, compil ea ` partir de (Corbin, 1987, p. 479) et (Corbin, 1993), pr esente les contraintes ou les rapports cat egoriels (RC) possibles entre une base et un lex` eme form e par pr exation et suxation. Laxation prend en entr ee deux el ements : un lex` eme, autonome ou non, et un axe. Elle produit en sortie toujours un lex` eme construit de cat egorie majeure : noms, adjectifs, verbes. Outre les rapports cat egoriels indiqu es dans le tableau, les num eraux cardinaux et les pronoms peuvent etre sux ees pour former, respectivement, des noms et des adjectifs ordinaux et des verbes (Corbin, 1993) : {deux, douzaine }, {deux, deuxi` eme }, {tu, tutoy(er) }, {vous, vouvoy(er) }. Les rapports cat egoriels sont g er es par des contraintes s emantiques (Dal, 1997). Par exemple, les structures sux ees A A, N N et V V correspondent a ` la construction dun sens evaluatif : la diminution (maisonnette, propret, tapoter) et la p ejoration (vinasse). La structure sux ee N A correspond a ` la construction des adjectifs d enominaux ou relationnels (cellulaire, bronchique). Les axations peuvent etre iso- et transcat egorielles. Dans les axations transcat egorielles , le lex` eme ax e na pas la m eme cat egorie syntaxique que sa base. Les suxes comme les pr exes peuvent former des axations transcat egorielles (Corbin, 1992, p. 129). Par exemple, la formation des adjectifs d enominaux avec les suxes -aire/Adj et -ique/Adj et de pr exation avec anti- et a- :
Chez certains auteurs (Dal & Jacquemin, 1999), la racinisation soppose a ` la d esuxation (stemming ) par le fait que cette derni` ere correspond a ` un proc ed e lin eaire de suppression des axes ou des cha nes nales en g en eral. Tandis que la racinisation sous-entend une analyse linguistique et morphologique. Cest egalement lacception que nous en faisons. Mais notons que les deux termes semploient g en eralement avec le m eme sens de stemming .
7

41

CHAPITRE 3. MORPHOLOGIE

{cellule/Nom , cellulaire/Adj } {bronche/Nom , bronchique/Adj } {p etale/Nom , ap etale/Adj} {grippe/Nom , antigrippe/Adj}. Dans les axations isocat egorielles , la base et le lex` eme ax e appartiennent a ` la m eme cat egorie syntaxique : {cellule/Nom , cellulette/Nom } {ven(ir)/Ver , reven(ir)/Ver } {a erobie/Nom , ana erobie/Nom }. Les axations peuvent se former sur des bases autonomes (exemples 1 a ` 3) ou bien suppl etives (exemples 4 a ` 6) : (1) {cellule/Nom , cellulaire/Adj } (2) {an evrisme/Nom , an evrismal/Adj } (3) {p ericarde/Nom , p ericardique/Adj } (4) {foie/Nom , h epatique/Adj } (5) {queue/Nom , caudal/Adj } (6) {estomac/Nom , gastrique/Adj }. Conversion. La conversion est un autre proc ed e de formation de lex` emes. La conversion peut prendre en entr ee un seul el ement de nimporte quelle cat egorie. Elle produit en sortie un seul lex` eme de cat egorie majeure. Le tab. 3.2, compil ea ` partir de (Corbin, 1987, p. 479) et (Corbin, 1993), pr esente quelques rapports cat egoriels possibles entre un lex` eme convert et sa base. Mais les cat egories syntaxiques mineures et les el ements morphologiques peuvent egalement etre touch ees par la conversion : Peser le pour et le contre avant dagir. Il y a lhibernateur, [...], le synth eticien, le physicien, [...], lendocrinologue, lh ematologue, et quelques autres ciens et logues, les meilleurs du continent. RC Adj Nom Adj V Nom Adj Nom V V Adj V Nom Conversion {alcoolique, alcoolique} {blanc, blanch(ir)} {orange, orange} {singe, sing(er)} {vol(er), vol}

Tab. 3.2 Contraintes cat egorielles avec la conversion. La forme graphique et phonologique des lex` emes converts peut changer par rapport a ` leur base : {blanc/A, blanch(ir)/V}. Mais ce changement nest pas syst ematique. Rappelons par ailleurs, que la d esinence de linnitif des verbes, qui est un axe exionnel, ne concerne pas la morphologie constructionnelle (Corbin, 1987, p. 124129), (Fradin, 2003, p. 137138). 42

3.1. MORPHOLOGIE, UNE SOUS-DISCIPLINE DE LA LINGUISTIQUE

Notons que les exemples du tab. 3.2 concernent le type le plus courant de conversion, la conversion cat egorielle (Fradin, 2003, p. 157161). (Mel cuk, 1996) et (Fradin, 2003, p. 161 165) distinguent en outre la conversion valencielle , la conversion de classe morphologique et la conversion exionnelle que nous ne pr esentons pas ici. Composition. La composition est un proc ed e de formation des lex` emes qui permet de combiner au moins deux lex` emes, autonomes ou non. Les lex` emes qui r esultent de la composition sont dits lex` emes compos es ou compositions. Le sens dun lex` eme compos e est d eni par (1) le sens produit par la r` egle qui impose une structure et un sch ema interpr etatif de combinaison des composants et (2) le sens de chacun des composants (Corbin, 1992). Dans un lex` eme compos e, un des composants tient g en eralement place de l el ement s emantiquement recteur. Selon la place occup ee par cet el ement, mais egalement selon la nature et lorigine des composants, on distingue la composition populaire et la composition savante (Corbin, 1993). Composition populaire. Dans une composition populaire fran caise, l el ement recteur se trouve en premi` ere position. Ce type de composition combine tr` es souvent des bases autonomes de cat egories majeures pour former des noms ou des adjectifs. Le tab. 3.3, compil e a ` partir des informations rencontr ees dans (Corbin, 1993; Namer, 2003a; Villoing, 2002), en pr esente quelques exemples. Le composant soulign e correspond au composant recteur, il se trouve toujours en premi` ere position. N A b eb e- eprouvette, cas-t emoin, m edecin-g en eraliste gris-bleu, sourd-muet porte-drapeau, garde-barri` ere casse-pieds Tab. 3.3 Contraintes cat egorielles des compos es populaires.

N +N A+A V +N

Les compos es de type [N1 N2 ]N3 re coivent une interpr etation selon laquelle le lex` eme construit N3 appartient a ` une sous-classe s emantique de N1 , conform ement a ` lhypoth` ese de linclusion lexicale enonc ee dans (Kleiber & Tamba, 1990). Le deuxi` eme composant N 2 appara t ainsi comme sp ecieur du premier N1 (Corbin, 1994). La transmission des propri et es de N2 a ` N3 varie selon un continuum : linterpr etation de N3 peut aller dun v eritable hyponyme de N1 (g en eralement par projection dune seule propri et e de N2 , comme dans b eb e- eprouvette, cas-t emoin) a ` une combinaison etroite des propri et es de N 1 et N2 dans N3 (ph enom` ene appel e hybridation, comme dans m edecin-g en eraliste, porte-fen etre, libraire editeur) (Lesselingue, 2003). Par contre, dans ce type de structure, rien nindique lesquelles des propri et es de N2 sont transmises a ` N3 (Habert & Jacquemin, 1993). L element recteur N1 du lex` eme compos e [N1 N2 ]N3 joue le r ole s emantique dominant et impose ses traits syntaxiques a ` N3 . Si N1 et N2 ne sont pas du m eme genre, cest N1 qui d etermine le genre 43

CHAPITRE 3. MORPHOLOGIE

du compos e N3 : b eb e- eprouvette, h opital-ville sont tous les deux masculins conform ement au genre de leurs premiers composants (Lesselingue, 2003). Les compos es de type [A1 A2 ]A3 re coivent une interpr etation similaire a ` celle de [N1 N2 ]N3 (Corbin, 1993). Le premier constituant est interpr et e comme lhyperonyme du lex` eme compos e : gris-bleu est un type de gris, sourd-muet est un type de sourd. Enn, les constructions de type [V N1 ]N2 /A combinent un composant verbal et un composant nominal pour former des noms ou des adjectifs : rince-bouche, lave-vaisselle, p` ese-b eb e, chaue-plat. Le fait quun des composants soit dorigine verbale soul` eve la question de lorigine morphologique ou syntaxique des compos es... d ej` aa ` partir du XIXe si` ecle. Les d ebats portent sur le statut de la forme verbale et de la construction. Selon les analyses du XIXe si` ecle, la forme verbale peut correspondre : a ` la forme echie du verbe a ` la 2e personne de singulier de limp eratif (Darmesteter, 1875) cit e dans (Villoing, 2002), a ` la forme echie du verbe a ` la 3e personne de singulier du pr esent de lindicatif (Meunier, 1872) cit e dans (Villoing, 2002), au th` eme verbal (forme verbale non echie) (Boucherie, 1876) cit e dans (Villoing, 2002). Le dernier cas seulement, ne pr esentant pas une forme echie, correspond a ` une construction morphologique. Lanalyse de ces compos es dans le cadre de la grammaire g en erative du XXe si` ecle penche egalement vers la syntaxe parce que : la morphologie ne constitue un domaine autonome de la grammaire (Lieber, 1992) cit e dans (Villoing, 2002), et si elle en constitue un, elle ne peut pas former des lex` emes compos es en g en eral (Barbaud, 1991) cit e dans (Villoing, 2002) ou des compos es de type [V N1 ]N2 (Di Sciullo & Williams, 1987; Zwanenburg, 1991) cit es dans (Villoing, 2002). (Villoing, 2002, p. 172201) montre que le composant verbal correspond au th` eme et que, par cons equence, ces compos es sont form es par la morphologie : Les formes verbales ne sont pas toujours homographes des formes exionnelles a ` limp eratif pr esent de singulier : gu erit-tout vs gu eris, abat-jour vs abats, cuit-uf vs cuis ; ni a ` lindicatif de pr esent a ` la 3e personne du singulier : boitout vs boit, faitout vs fait. On ne peut donc pas etendre les conclusions faites sur la base des homographes (porteplume, ouvre-bo te, cueille-fruits), m eme sils sont fr equents, a ` toutes les formations. Ces formes verbales ne sont marqu ees ni pour un mode, ni pour un temps, ni pour une personne et correspondent, de ce c ot e aussi, au th` eme verbal. Si lon prend en compte tous les homographes possibles du th` eme verbal (3e personne e de singulier de pr esent ou 2 personne de singulier de limp eratif), les constructions ne sont pas homog` enes. Alors que le fait de consid erer la forme verbale comme un th` eme conduit a ` un traitement unique. 44

3.1. MORPHOLOGIE, UNE SOUS-DISCIPLINE DE LA LINGUISTIQUE

Lanalyse du m eme type de compos es en italien conduit (Scalise, 1994) a ` la m eme conclusion : l el ement verbal dans un compos e [V N1 ]N2 nest pas une forme echie, mais un th` eme8 . Lanalyse s emantique de ces compos es montre quil existe di erentes relations non syntaxiques, de type pr edicat-patient et pr edicat-agent entre le V et le N : changement d etat (chaue-plat (le plat a et e chau e)), incr ementalit e ( epluche-l egumes (les l egumes ont et e (` a moiti e ou compl` etement) epluch es)), aectitude (casse-noix (la noix a et e cass ee)), etc. (Villoing, 2002, p. 202252). Composition savante. Dans une composition savante les lex` emes sont souvent des bases non autonomes dorigine latine ou grecque. En outre, le lex` eme recteur se trouve en derni` ere position, sauf de rares exceptions h erit ees souvent de la langue source (misogyne, misanthrope, philosophe) (Corbin, 1993). Graphiquement, les lex` emes sont concat en es directement ou bien au moyen dun tiret ou dun interxe (une voyelle, le plus souvent -o- ou -i-, qui sintercale entre deux composants pour am eliorer la phonologie du lex` eme) (Corbin, 1993; Namer, 2003a). (Cottez, 1985) (cit e dans (Fradin, 2000)) distingue trois types de compos es savants : Emprunt : le lex` eme existe en latin ou en grec et il est utilis e avec le m eme sens en fran cais. Cest le cas du lex` eme h emorragie (( ( Ecoulement de sang hors dun vaisseau sanguin l es e, a ` la surface du corps ou a ` lint erieur dun organe ou dun tissu ) ) (Manuila et al., 2001)), cr e e en latin avec des el ements grecs (Bloch & von Wartburg, 2002). Adaptation : le lex` eme existe en latin ou en grec mais il est utilis e en fran cais avec un sens di erent. Par exemple, physiologie signie en grec ( ( Sciences naturelles ) ) mais prend en fran cais le sens de ( ( Science qui traite des fonctions normales dun organisme animal, v eg etal ou humain ) ) (Manuila et al., 2001). Cr eation : les composants existent en latin ou en grec, mais le lex` eme est form e actuellement. Il sagit par exemple de chronologie, chimioth erapie, taxidermie. Dans ce qui suit, nous ne faisons pas la di erence entre ces trois types de composition, nous les analysons comme un seul proc ed e. Mais cette distinction, en particulier entre lemprunt et ladaptation vs la cr eation, peut etre importante quant a ` la place de l el ement recteur dans le compos e : le grec et le latin ont form e, dans de tr` es rares cas, des lex` emes o` u le composant recteur se trouve en premi` ere position, comme dans les exemples cit es ci-dessus (misogyne, misanthrope, philosophe). Signalons aussi que (Fradin, 2003, p. 197) consid` ere que les proc ed es de construction de la morphologie savante peuvent di erer de ceux existant dans la langue ordinaire. Il nest donc pas s ur quon doive les consid erer comme ayant forc ement appartenu a ` la grammaire de la langue. Les composants savants appartiennent a ` lune des cat egories grammaticales majeures, le r esultat de cette composition est un nom ou un adjectif. Le tab. 3.4, compil e a ` partir des informations rencontr ees dans (Corbin, 1993; Namer, 2003a; Fradin, 2003), en pr esente quelques exemples. Le composant soulign e correspond au composant recteur, il se trouve g en eralement en derni` ere position.
8

Nous remercions Fiammetta Namer de nous avoir signal e cette r ef erence.

45

CHAPITRE 3. MORPHOLOGIE

N +N N +A A+N A+A V +N N +V

N gastroent erite eoc` ene leuc emie, m egalithe philosophe homicide, sexologue

macroc ephale, anglophone misogyne crucif` ere, sexophobe, anthropophage

Tab. 3.4 Contraintes cat egorielles des compos es savants.

Selon (Corbin, 1993), dans les compos es de type [N1 N2 ]N3 le composant recteur N2 se trouve en relation dhyperonymie par rapport au compos e N3 . Ainsi, gastroent erite est un type de ent erite. Ent erite, a ` son tour, est un type dinammation (repr esent ee par le suxe 9 -ite ). Les structures [AN ] peuvent former des noms (similicuir, m egalithe) et des adjectifs (macroc ephale, anglophone). Dans les deux cas, on observe egalement la relation dhyperonymie entre le composant recteur et le compos e (Corbin, 1993). Les structures [V N 1 ]N2 et [N1 V ]N2 , qui impliquent les composants verbaux, peuvent recevoir une interpr etation du proc` es (homicide), sinon dun nom dagent ou dinstrument (anthropophage, crucif` ere) (Corbin, 1993). Le bon usage voudrait que les compos es savants comportent des el ements dune m eme origine (grecque, latine, fran caise,...). Mais il existe enorm ement de compos es qui m elangent des composants dorigines vari ees. On les appelle compos es hybrides (Riegel et al., 1998, p. 550) ou chim` eres (Bouch e, 1994, p. 241) : ad enocancer : du grec ad en (glande) et du latin cancer (crabe), scanographie : du langlais to scan (scruter) et du grec graphein ( ecrire).

Morphologie exionnelle La variation des lex` emes lors de leur insertion dans les enonc es est du ressort de la morphologie exionnelle . Elle consiste en lapplication de marques exionnelles au moyen daxes exionnels (de d esinences ou de exions ) a ` un lex` eme ou un lemme. Le lemme , qui couvre une notion proche de celle de lex` eme, correspond aux formes citationnelles : innitif pour les formes verbales, singulier pour les noms, singulier masculin pour les adjectifs et les pronoms. Les lemmes ou les lex` emes, qui ont subi une variation exionnelle, sont dits formes echies, exions, mots-formes, formes, words, etc. Les variations exionnelles pertinentes pour le fran cais sont celles du nombre (pour les noms, les adjectifs, les verbes et les pronoms), du genre (pour les adjectifs, les pronoms et quelques formes verbales) et de la personne, du temps et du mode (pour les verbes).
Les composants de type -ite montrent la fragilit e des fronti` eres entre laxation et la composition. Nous expliquons nos positions sur ce point dans la sec. 3.1.5 page 51.
9

46

3.1. MORPHOLOGIE, UNE SOUS-DISCIPLINE DE LA LINGUISTIQUE

3.1.4

Familles morphologiques de mots

Pour la morphologie constructionnelle, la notion de famille morphologique couvre lensemble des lex` emes reli es par des relations formelles et s emantiques et g er es par des r` egles ` lorigine dune famille se trouve l de formation (Corbin, 1987, p. 89). A el ement morphologiquement le plus el ementaire, qui donne naissance aux autres membres de cette famille. (Corbin, 1987, p. 119) nous donne un exemple didactique : dans le Robert M ethodique, les mots associ es s emantiquement et formellement a ` labeur et d eriv es de la racine -lab- sont regroup es selon leur degr e de d erivation de la mani` ere suivante : collaborer, collaborateur, collaboration ; elaborer, elaboration ; labeur, laborieux, laborieusement ; laboratoire, laborantin. Dapr` es les critiques de (Corbin, 1987, p. 119), cette liste m ele les d eriv es de premier, deuxi` eme et troisi` eme degr es. Une cha ne d erivationnelle plus correcte serait (Corbin, 1987, p. 89)10 : labeur laborer collaborer collaborateur collaboration elaboration

elaborer laboratoire laborant laborantin laborieux laborieusement

Dans cette cha ne, le lex` eme labeur se trouve a ` la racine de la famille, chaque ` eche repr esente un degr e de d erivation, et pour chaque couple des lex` emes reli es morphologiquement, il existe une r` egle de formation. La notion de la famille morphologique se trouve a ` la base des travaux de (Gruaz, 1998), dont lobjectif est lorganisation synchronique du lexique. Nous verrons que les bases th eoriques et les r esultats sont tr` es di erents de ce qui se fait dans le courant de la morphologie constructionnelle. Ainsi, bien que (Gruaz, 1998) parle des cha nes d erivatives et de la morphologie, il consid` ere que la forme des lex` emes doit etre ecart ee et que l etymologie des mots doit etre modul ee par leur sens. Ce sont donc les s` emes communs des lex` emes qui d enissent si ces lex` emes appartiennent a ` la m eme famille. Les s` emes sont etablis selon les articles dictionnairiques propos es par le Lexis et, ponctuellement, par le Petit Robert. La famille G EN ERER comporte ainsi les entr ees suivantes selon les degr es de d erivation : er 1 degr e de d erivation : g en erer, gen` ese, g enie, engendrer ; 2e degr e de d erivation : prog eniture ; 3e degr e de d erivation : germain.
Le signe devant un mot est utilis e pour signier un lex` eme lacunaire. Dans la cha ne d erivationnelle de lexemple, le lex` eme laborer est lacunaire : il est possible et pr edictible morphologiquement mais nest pas attest e par lusage ni dans les dictionnaires. Notons que les bases de ce type peuvent faire partie de lespace th ematique des lex` emes (Bonami et al., 2005)
10

47

CHAPITRE 3. MORPHOLOGIE

Nous remercions Fiammetta Namer de nous avoir signal e que les lex` emes g en eration et g en eratif sont absents de la famille. Il faudrait certainement en chercher lexplication dans les articles dictionnairiques correspondants. Selon (Gruaz, 1998), les liens entre les mots dans une famille peuvent etre motiv es morphologiquement, comme dans {renard, renardeau}, au moyen de laxation, ou bien avec un morph` eme z ero, comme dans la famille JOUR : jour0 Espace de temps correspondant a ` une rotation compl` ete de la Terre sur ellem eme ; jour1 Espace de temps qui se situe entre le lever et le coucher du soleil ; jour2 Lumi` ere que le soleil r epand sur la Terre ; jour3 Ouverture qui donne de la lumi` ere. Remarquons quil sagit dans ces derniers exemples dune d erivation s emantique plut ot que morphologique. Voir egalement les critiques a ` propos du morph` eme z ero faites dans (Corbin, 1987, p. 134139).

3.1.5

Pour les cas discutables, d enissons quelques fronti` eres...

La morphologie garde encore de nombreuses zones dombre. Nous nous limitons ici a ` discuter celles relatives a ` notre travail : acquisition et utilisation de ressources morphologiques pour le traitement de la variation terminologique. Tout dabord, en sachant que la morphologie et la syntaxe enrichissent toutes les deux le lexique, nous confrontons et t achons de distinguer les constructions que chacune propose, ceci an den d elimiter la port ee. Ensuite, nous t achons de d elimiter la morphologie exionnelle et la morphologie d erivationnelle, ce qui vise a ` etablir une hi erarchie dans lapplication des axes mais egalement a ` d elimiter les eets s emantiques des proc ed es morphologiques. Et enn, nous distinguons laxation et la composition, en sachant que certains composants actuels sont proches des axes d erivationnels. L` a aussi, lenjeu porte sur les eets s emantiques. Pour chaque cas, nous t achons de positionner les d ebats existants et de distinguer les traits discriminants. ...entre les constructions morphologiques et syntaxiques Si la morphologie et la syntaxe permettent toutes les deux denrichir le lexique, elles nont pas acc` es au m eme mat eriau et la nature des constructions qui en r esultent nest pas la m eme (Corbin, 1994). De mani` ere g en erale, (Corbin, 1992, p. 50) avance le crit` ere suivant : ( ( Ne pas compter au nombre des unit es lexicales relevant dune op eration lexicale de composition les unit es qui peuvent etre g en er ees sans dommage par dautres composantes de la grammaire. ) ) Ainsi, contrairement a ` la morphologie, la syntaxe a acc` es aux mots grammaticaux, a ` la n egation et aux mots-formes. Les expressions issues de la syntaxe correspondent souvent a ` des syntagmes nominaux (SN), verbaux (SV) ou autres bien form es. Les expressions du tab. 3.5 sont dorigine syntaxique. Pour plus dexemples de ce type, voir (Fradin, 2003, 48

3.1. MORPHOLOGIE, UNE SOUS-DISCIPLINE DE LA LINGUISTIQUE

Expression rein kystique st enose de laorte dermatite diuse et nodulaire pneumonie non r esolue accident reli ea ` une activit e professionnelle

Structure syntaxique, contenu SN SN, pr eposition, d eterminant SN, conjonction SN, n egation SN, exion, pr eposition, d eterminant

Tab. 3.5 Quelques exemples dexpressions dorigine syntaxique.

p. 199206). De son c ot e, la morphologie seule a acc` es aux el ements suppl etifs et aux axes d erivationnels. Ainsi, les constructions qui suivent sont dorigine morphologique : kystique, gastrique, biochimie, cellulaire, construction, dermatite. Dans ces exemples, -ique , -aire et -tion sont des axes d erivationnels et gastr- une base suppl etive, bio- et -ite pouvant egalement etre consid er es comme des bases suppl etives. Les cas diciles a ` classer rel` event de la composition populaire : il sagit de constructions [V N1 ]N2 et [N1 N2 ]N3 . Analyse des compos es [V N1 ]N2 . La dicult e danalyse des compos es [V N1 ]N2 est due au fait quils mettent en jeu une forme verbale. Nous avons discut e ce point plus haut : les travaux de (Scalise, 1994; Villoing, 2002) montrent que la forme verbale de ces compos es correspond a ` la forme non echie du verbe, le th` eme verbal, et quil sagit par cons equent de constructions morphologiques. Analyse des formations [N1 N2 ]N3 . Lanalyse de formations de type N N est complexe car elles peuvent etre form ees par la syntaxe et par la morphologie. En outre, la vari et e de ces formations est grande. (Fradin, 2003, p. 195206) en donne les exemples suivants : (a) le pr esident Mitterrand, lami Pierre, le camarade Staline (b) code Morse, projet Delors, plan Marshall, voitures Peugeot (c) secteur education, imp ot s echeresse, disquette programme, langage auteur (d) case d epart, impression laser, stylo-bille, sortie pi etons, cigarette ltre (e) auteur compositeur, pr esentateur vedette, moissonneuse-batteuse, boulanger-p atissier (f) cit e dortoir, bateau-lavoir, voiture-balai, probl` eme cl e (Fradin, 2003, p. 195206) recense dans la litt erature di erents tests linguistiques et d enit ainsi les relations s emantiques entre N1 et N2 . Il appara t alors que : Les compos es de type (f) pr esentant des propri et es distinctes des unit es dautres types et des sch emas interpr etatifs plus contraints sont engendr es par la morphologie. Du point de vue s emantique, le compos e N3 est un sous-type de N1 . Le N2 d enote un caract` ere (fonctionnel ou aspectal) de N1 pris comme propri et e discriminante. Dautres unit es sont dorigine syntaxique : 49

CHAPITRE 3. MORPHOLOGIE

Dans les expressions (a), le N2 , qui est un nom propre, fonctionne comme un appellatif et eectue une identication du N1 . Les expressions (b) forment des appellations propres. Le N2 , qui est egalement un nom propre, d esigne celui qui est a ` lorigine du r ef erent de N1 . Dans les expressions (c) et (d), le N3 d esigne egalement un sous-type de N1 . La relation entre N1 et N2 se fonde sur le N1 en ce sens quelle explicite la relation typiquement associ ee a ` la dimension de classication dont d epend ce dernier : chier image : objet de type chier qui contient une image, sortie pi etons : partie dun edice par o` u sortent les pi etons. Dautre part, la multiplicit e des sch emas interpr etatifs de (c) et (d) et linsertion possible dune pr eposition dans (d) font egalement pencher ces expressions du c ot e de la syntaxe. Linsertion de la coordination dans les expressions (e) indique quelles sont egalement dorigine syntaxique. De mani` ere g en erale, les compos es morphologiques pr esentent des sch emas interpr etatifs plus contraints et ne semblent pas supporter linsertion des mots grammaticaux, pr epositions et coordinations dans les tests pr esent es ici. ...entre la morphologie exionnelle et la morphologie constructionnelle Nous avons vu que la morphologie se compose de deux branches : (1) la morphologie constructionnelle, qui traite de la formation des lex` emes, et (2) la morphologie exionnelle, qui traite de leur variation, relative au genre, nombre, personne, temps, etc., lors de leur insertion dans les enonc es. En fran cais, la morphologie exionnelle semble etre gouvern ee par un mod` ele di erent de celui de la morphologie constructionnelle, m eme si les deux branches mettent en jeu des axes. Nous t achons donc de pr esenter les principales di erences telles que signal ees dans (Corbin, 1987, p. 56), (Riegel et al., 1998) et (Huot, 2001, p. 105) : 1. Il ne semble pas exister de contraintes s emantiques lors de lapplication des r` egles de exion, car tous les substantifs ou adjectifs peuvent etre mis au pluriel (et au f eminin pour les adjectifs). Notons toutefois les noms massifs ou massiques (le bl e, largent, le sucre) qui ne peuvent pas etre mis au pluriel. Par contre lapplication daxes d erivationnels est contrainte par la s emantique des bases et des axes. 2. Les axes exionnels ont une valeur grammaticale : ils comportent des indications pour que les lex` emes soient assembl es de fa con a ` former des enonc es grammaticalement corrects. Les axes d erivationnels v ehiculent une instruction s emantique lors de la formation des lex` emes. 3. La exion ne d etermine pas, en principe, la cat egorie grammaticale des mots issus de son adjonction. Par contre, les op erations de la morphologie constructionnelle sont d ependantes de la contrainte cat egorielle autant au niveau des bases quau niveau des lex` emes construits. 4. Contrairement aux constructions morphologiques, le sens des formes echies est toujours pr edictible a ` partir du sens des lemmes, la lexicalisation etant tr` es rare 50

3.1. MORPHOLOGIE, UNE SOUS-DISCIPLINE DE LA LINGUISTIQUE

dans le domaine exionnel. Il existe n eanmoins des cas de lexicalisation des pluriels (d enitions de (Robert, 1993)) : - noce : ( ( Lensemble des personnes qui assistent a ` un mariage, qui forment le cort` ege du mariage. ) ) - noces : ( ( Mariage, ensemble des r ejouissances qui accompagnent un mariage. ) ) - oreillon : ( ( Partie mobile de larmure de t ete, qui prot` ege loreille et la joue. ) ) - oreillons : ( ( Maladie infectieuse, epid emique et contagieuse dorigine virale, caract eris ee par une inammation des glandes parotides et des douleurs dans loreille. ) ) 5. Les r` egles exionnelles sappliquent apr` es les r` egles de formation des lex` emes. Les axes exionnels apparaissent donc toujours en n de lex` eme. Il existe n eanmoins des compos es o` u un des composants est echi : casse-pieds, epluche-l egumes ; ou des formations o` u la morphologie constructionnelle intervient apr` es la morphologie exionnelle : je-men-foutisme, eurdeliser, grand-priser, TOCqu e. 6. Les axes exionnels ne sont pas exclusifs les uns des autres : on peut avoir un axe de f eminin suivi dun axe de pluriel (dans le mot an evrismales la exion de pluriel (-s ) se trouve apr` es la exion de f eminin (-e )). Mais leurs possibilit es dapparition en n de mot sont contraintes, ainsi que leur ordre. Les r` egles d erivationnelles, par contre, g` erent des contraintes phonologiques, s emantiques et cat egorielles. Rappelons n eanmoins quil existe des travaux qui montrent que la fronti` ere entre les morphologies exionnelle et constructionnelle nest pas etanche. Les ouvrages de G. Corbett l` event la question sur la nature, exionnelle ou d erivationnelle, du genre et du nombre (Corbett, 1991; Corbett, 2000). (Aliquot-Suengas, 1996) montre que laxe exionnel - e (ferm e, mang e) est etymologiquement li ea ` trois axes d erivationnels : (1) - e(e) de formation des adjectifs d enominaux (a g e(e), vert ebr e(e)), (2) - ee de formation des noms d enominaux (ann ee, cuiller ee) et (3) - e ou - ee de formation des noms d etat d enominaux (chanoin ee, comt e). ...entre laxation et la composition Si certains lex` emes se trouvent a ` la fronti` ere entre laxation et la composition, comme ent erite page 45, cest essentiellement a ` cause du statut ambigu des el ements qui interviennent dans leur formation (-ite dans le cas dent erite). Il faut donc d enir sil sagit dun el ement de composition ou bien dun axe. Du point de vue s emantique, le r ole des composants et des axes est di erent (Corbin, 1992). Les composants ont un pouvoir r ef erentiel, et le sens du compos e correspond souvent a ` la combinaison des sens de ses composants en fonction de la r` egle de formation impliqu ee. Tandis quun axe ex ecute une instruction s emantique sur la base. Dans cette op eration trois facteurs interviennent : la base, laxe et la r` egle. Dautres principes, mettant en jeu des crit` eres cat egoriels et formels, aident a ` faire la distinction entre les composants et les axes (Iacobini, 1997; Namer, 2003a) : 51

CHAPITRE 3. MORPHOLOGIE

Les composants nont g en eralement pas de position xe dans un compos e, et, selon leur environnement, ils peuvent subir des variations allomorphiques. La base nominale -gyn- (du grec femme) peut etre r ealis ee de di erentes mani` eres, en fonction des contextes morphologiques o` u elle appara t : gynogen` ese, mysogyne, androgyne, gynandre. Les composants ont un sens r ef erentiel et peuvent servir de base lors de laxation (la base nominale h epat- permet de former ladjectif : h epatique) ou etre combin es avec dautres composants pour former des compos es (h epatom egalie). Ils ont une cat egorie stable, inh erente ou bien h erit ee des bases autonomes auxquelles ils se substituent. Les axes ont une place xe dans les lex` emes ax es (les suxes suivent la base et les pr exes la pr ec` edent). Ils nont pas de sens r ef erentiel et ne peuvent pas servir de base dans une construction axale. Ils nappartiennent a ` aucune partie du discours, mais ils d enissent la cat egorie des lex` emes quils forment. Dans les cas diciles, il faut analyser le sens morphologiquement construit du compos e pour statuer sur la cat egorie, le sens et donc le type de ses el ements. Lexploitation des informations historico- etymologiques propos ees dans les dictionnaires peut egalement donner des pistes danalyse. Dans ce dernier cas, il faut cependant etre prudent (Corbin, 1987), voire contraster les informations de plusieurs dictionnaires. Nous analysons maintenant des composants dorigine grecque ou latine, anc etres de composants nominaux, verbaux et les pr exes. Anc etres de composants nominaux. Avec la plupart des bases suppl etives, anc etres de noms, lambigu t e nappara t pas. Par exemple la base suppl etive -gyn- dorigine grecque a, en fran cais, un sens r ef erentiel (( ( femme ) )), une cat egorie syntaxique (nom) ; elle peut appara tre dans plusieurs endroits dans un compos e et sa forme peut alors varier : gynogen` ese, mysogyne, androgyne, gynandre. Par contre, les el ements sux es comme -ose et -ite ont un statut ambigu entre celui dun composant et dun axe. Ces el ements sont proches des axes : (1) ils peuvent appara tre dans un lex` eme uniquement en position nale ; (2) ils ne peuvent pas former de lex` emes par seule combinaison avec un axe. Mais ils sont egalement proches des bases : (1) ils ont un sens r ef erentiel : -ite signie ( ( maladie de nature inammatoire ) ) (Manuila et al., 2001), -ose peut signier, selon les contextes, ( ( maladie non inammatoire, etat, d eg en eration, prolif eration, condition ou exc` es ) ) (Dujols et al., 1991; Manuila et al., 2001) ; (2) etant des primitifs suppl etifs, ils se substituent aux bases autonomes correspondantes dont ils h eritent la cat egorie grammaticale (noms). L evolution diachronique subie par les unit es morphologiques grecques comme -ite et -ose fournit des el ements de r eponse. -ite correspondait a ` lorigine a ` un suxe dadjectivation d enominale (comme -eux ou -ique ) et etait employ e dans des expressions de type nosos arthritis, qui signiait ( ( maladie des articulations ) ). Avec le temps le nom nosos, qui signie ( ( maladie ) ) (Manuila et al., 2001), est devenu facultatif et ladjectif arthritis porteur du sens de toute lexpression (Pacak et al., 1980). Depuis le suxe -ite sest sp eci e s emantiquement : il signie actuellement ( ( maladie de nature inammatoire ) ) (Manuila et al., 2001). Tandis que arthrite signie ( ( inammation des articulations ) ) (Manuila 52

3.1. MORPHOLOGIE, UNE SOUS-DISCIPLINE DE LA LINGUISTIQUE

et al., 2001). -ose et -ase , de leur c ot e, correspondaient en grec a ` un suxe de nominalisation d everbale (comme -ment ou -tion ) (Wol, 1987). Leur evolution est comparable avec celle de -ite . Nous consid erons ces el ements comme composants non autonomes suppl etifs de noms, essentiellement a ` cause de leur charge s emantique importante et du fait quils ont des correspondants autonomes dans la langue. Mais il sagit eectivement dun cas limite entre laxation et la composition : les axes en question ont acquis au cours de leur histoire des propri et es s emantiques de composants. Dailleurs (Corbin & Paul, 1999, p. 6265) ne classent ces unit es morphologiques ni parmi les axes ni parmi les composants. Ils les appellent classieurs suxo des . Car ces unit es permettent didentier, dans la forme des lex` emes construits, la classe superordonn ee a ` laquelle appartiennent les r ef erents de ces lex` emes : -ite r ef` ere aux maladies inammatoires, -ase a ` la classe des enzymes, etc. Descendants de composants verbaux. Le statut morphologique des el ements descendant dun verbe (-phage , -cide , -f` ere , -g` ene ) est plus proche de celui des composants : (1) ils ont un sens r ef erentiel (-phage signie ( ( manger ) ), -cide signie ( ( abattre, tuer ) )) ; (2) etant des primitifs suppl etifs, ils se substituent aux bases autonomes correspondantes dont ils h eritent la cat egorie grammaticale (verbes) ; (3) ils peuvent appara tre dans des positions di erentes dans un compos e. La plupart de ces el ements napparaissent que dans les compos es et ne forment pas de lex` emes par axation (Namer, 2003a). L` a encore, nous les consid erons comme composants non autonomes suppl etifs. Les pr exes et leurs anc etres. Les pr exes ne constituent pas une classe homog` ene : si certains dentre eux ont toujours connu des emplois non autonomes (re- , d e-, dys- ), dautres proviennent d el ements de composition (arch eo-, pseudo-) (Iacobini, 1997) ou de pr epositions et dadverbes (sur- , entre-, sans-) (Amiot, 2001). Leur emploi en tant que pr exes t emoigne de leur grammaticalisation, dont le degr e varie selon les unit es morphologiques. (Iacobini, 1997) propose une s erie de crit` eres pour distinguer un composant dun afxe, dont ceux d ej` a cit es ci-dessus : position xe ou non dans les lex` emes, possibilit e de combinaison avec un autre axe lors de la formation de lex` emes, s emantique et cat egorie grammaticale. Par ailleurs, la distinction entre un adjectif et un pr exe peut etre faite gr ace aux tests s emantiques (Namer, 2003a) : 1. si le premier el ement poss` ede un sens r ef erentiel, et donc si son sens est combin e avec celui de la base nominale, il sagit dun adjectif, et le sens construit est une composition des sens des parties ; 2. si le premier el ement exerce une pr edication sur la base nominale et sert a ` former un nouveau sens a ` partir de celui du N , il sagit dun pr exe. On distingue ainsi deux types pour micro- (Corbin, 1993) : microfaune (( ( faune de petite taille ) )) : micro- signie ( ( petit ) ) composant adjectival microseconde (( ( fraction de seconde ) )) : micro- signie ( ( fraction de ) ) pr exe 53

CHAPITRE 3. MORPHOLOGIE

Cet exemple montre quil existe deux entr ees de micro- ou bien que ces deux constructions ont et e form ees a ` des moments di erents de la grammaticalisation du composant micro-. Le vacillement dunit es morphologiques de ce type se trouve a ` lint erieur de la morphologie constructionnelle. Lorsque les anc etres de pr exes sont les pr epositions et les adverbes, leur niveau de grammaticalisation peut egalement etre di erent (Amiot, 2001). Si cette grammaticalisation est achev ee, comme pour sur- , sous- ou contre-, il sagit daxation. Sinon, les constructions sont s emantiquement h et erog` enes (comme avec sans- : sans-papier, sansabri, sans-dos). Dans ce dernier cas, (Amiot, 2001) propose de consid erer les formations comme des compos es. Sachant que la morphologie constructionnelle, et donc la composition, nont pas acc` es aux mots grammaticaux les el ements en cours de grammaticalisation doivent avoir un statut interm ediaire (Amiot, 2004). Notons egalement la discussion propos ee par (Fradin, 2003, 196-197) notamment face aux constructions comme : surpasser, surestimer, surprendre sous-payer, sous-entendre, sous-louer contre-attaquer, contredire, contrefaire o` u les pr epositions sur, sous, etc. ne se construisent pas avec les verbes. Par contre, les pr epositions qui se construisent syntaxiquement avec les verbes (a `, de) napparaissent jamais dans des constructions semblables. Cette constatation renforce lanalyse s emantique de (Amiot, 2001) et eloigne ces constructions des analyses syntaxiques.

3.2

Morphologie et TAL

Nous pr esentons ici les travaux du TAL qui investissent le domaine de la morphologie. Il sagit en particulier de l etiquetage morphosyntaxique (sec. 3.2.1), de la constitution de lexiques morphologiques (sec. 3.2.2) et de lanalyse morphos emantique des lex` emes (sec. 3.2.3). Nous pr esentons egalement lutilisation de ressources morphologiques pour le traitement de la variation terminologique (chap. 2) et lacquisition automatique de ressources morphologiques (chap. 4).

3.2.1

Etiquetage morphosyntaxique

Les etiqueteurs morphosyntaxiques proposent dassigner une etiquette grammaticale, munie parfois de traits morphologiques, aux mots11 dune phrase. Il en existe pour de nombreuses langues. Les etiqueteurs sont souvent coupl es avec la fonction de lemmatisation , qui consiste a ` d enir, en m eme temps, les lemmes des mots. Ils fonctionnent souvent avec un lexique de mots d ej` a connus. Ce lexique comporte une liste de mots munis d etiquettes (et de traits) morphosyntaxiques. En cas dambigu t e , lorsque plus dune etiquette et/ou
Nous employons le terme mot au sens informatique : il dagit des unit es lexicales obtenues apr` es la segmentation dune phrase sur les espaces blancs et eventuellement dautres signes de ponctuation.
11

54

3.2. MORPHOLOGIE ET TAL

de traits sont disponibles pour un mot, le syst` eme doit r esoudre cette ambigu t e et assigner l etiquette et les traits les plus probables dans un contexte donn e. Le syst` eme doit egalement assigner une etiquette aux mots inconnus. Di erentes techniques peuvent alors etre employ ees. (de Loupy, 1994) en distingue trois, selon le mode dacquisition de r` egles : techniques a ` base de r` egles manuelles, techniques statistiques et techniques mixtes. Nous nous focalisons ici sur deux types de r` egles qui peuvent etre utilis ees pour la r esolution dambigu t es et l etiquetage des mots inconnus : les r` egles contextuelles , qui sappuient sur les mots proches du mot courant, et les r` egles lexicales , qui sappuient sur la forme du mot courant. L etiqueteur con cu par (Brill, 1993), fait usage des r` egles des deux types, mais ce sont les r` egles lexicales qui nous int eressent particuli` erement car elles etablissent un lien avec le syst` eme morphologique dune langue. Les r` egles probabilistes lexicales de Brill se rep` erent par rapport a ` la nale des mots, qui est de quatre caract` eres au maximum dans les exp eriences de la sec. 4.4 page 77. Les cha nes nales correspondent souvent aux axes exionnels et parfois d erivationnels : ique hassuf 4 ADJ :sg 51 suxe dadjectivation es hassuf 2 SBC :pl 23.5 exion de pluriel es deletesuf 2 ADJ :pl 6 exion de pluriel al hassuf 2 ADJ :sg 13 suxe dadjectivation ale hassuf 3 ADJ :sg 17 suxe dadjectivation + exion de f eminin Quelques explications sur le format : la premi` ere colonne contient la cha ne nale qui indique la marque exionnelle et/ou d erivationnelle par rapport a ` laquelle se rep` ere le syst` eme ; la deuxi` eme colonne indique lop eration eectu ee par le syst` eme lors de lassignation des etiquettes (hassuf : le mot contient la cha ne nale donn ee, deletesuf : la cha ne nale peut ne pas appara tre dans ce mot ailleurs dans le texte analys e) ; la troisi` eme colonne indique la longueur de la cha ne de caract` eres qui sert de rep` ere ; la quatri` eme la cat egorie morphosyntaxique que cette r` egle va associer au mot ; la cinqui` eme colonne indique sans doute le rang de abilit e de la r` egle lexicale. Dans la derni` ere, nous avons ajout e les commentaires sur la nature des cha nes nales : correspondent-elles aux axes exionnels ou d erivationnels. Notons quil nest pas toujours aussi ais e de faire cette caract erisation. Par exemple dans la r` egle : ires hassuf 4 ADJ :pl 6 la cha ne qui sert de rep` ere correspond sans doute a ` une sous-cha ne du suxe d erivationnel -aire suivi de laxe de pluriel -s . Dans la m eme optique d etiquetage morphosyntaxique, un autre syst` eme con cu par (Spyns, 1994) pour lanalyse des mots m edicaux n eerlandais inconnus du lexique est egalement bas e sur des marqueurs morphologiques. Dans ce syst` eme, la partie droite du mot, qui correspond le plus souvent a ` son axe exionnel, indique sa cat egorie et ses traits morphologiques. Remarquons que les axes d erivationnels ont egalement un pouvoir de cat egorisation. Le lemmatiseur Flemm (Namer, 2000)12 , egalement bas e sur lapplication de r` egles, se propose de corriger et daner l etiquetage r ealis e par dautres outils actuellement : Brill
12

www.univ-nancy2.fr/pers/namer/Telecharger_Flemm.htm

55

CHAPITRE 3. MORPHOLOGIE

et TreeTagger (Schmid, 1994). Mais les r` egles de Flemm g` erent la variation des mots et non leur agencement dans une phrase : la correction des erreurs est plus locale, elle est faite en fonction de la graphie des formes echies. Cest donc la graphie qui conduit a ` la s election dune r` egle par d efaut pour la correction de l etiquetage et le traitement des mots inconnus. Un autre point sp ecique du syst` eme consiste en lutilisation dune liste dexceptions dans lapplication de r` egles morphologiques.

3.2.2

Production de lexiques morphologiques

Un lexique morphologique se pr esente souvent sous forme de couples {lemme, forme} pour les exions et sous forme de couples {base, d eriv e} pour les d erivations. Signalons que l etablissement de tels lexiques peut etre bas e sur les donn ees morphologiques acquises automatiquement (sec. 4.2 page 61). L etablissement de lexiques exionnels est bien avanc e dans plusieurs langues, dont le fran cais. Par exemple, le syst` eme Intex (Silberztein, 1993) propose de tels lexiques pour le fran cais et une dizaine dautres langues. La base Celex (Burnage, 1990) couvre langlais, lallemand et le n eerlandais. La morphologie d erivationnelle par contre nest pas aussi bien investie et tr` es peu de langues ont des ressources d erivationnelles disponibles. On peut ainsi citer de nouveau la base Celex (Burnage, 1990) qui propose de riches ressources pour le n eerlandais, langlais et lallemand : plus de 124 000 lemmes couverts en n eerlandais (version 3.1 de 1990), et presque 52 000 lemmes en allemand (version 2.5 de 1995). En fran cais, il existe des travaux isol es. Par exemple, l etablissement dune liste de noms d everbaux (Berche et al., 1997), o` u les donn ees acquises automatiquement avec loutil de d esuxage findaffix dUnix sont valid ees manuellement. Une investigation plus fondamentale du domaine d erivationnel fran cais par le TAL a commenc e avec le projet Franlex (Dal & Jacquemin, 1999) et continue avec lanalyseur DeriF (Namer, 1999) du projet MorTAL (Dal et al., 1999; Hathout et al., 2001). Lapproche qui se trouve a ` la base de ces travaux est inspir ee par la morphologie constructionnelle. Dans cette approche, parall` element a ` la construction de la forme des mots, la contrepartie s emantique est egalement trait ee : le sens dun mot construit peut ainsi etre calcul e a ` partir de sa base, de laxe et de la r` egle de construction des mots (Corbin, 1992). Lop eration inverse, calcul du sens de la base a ` partir dune forme d eriv ee, est egalement disponible dans DeriF (Namer, 2002). Actuellement, MorTAL permet de traiter la pr exation avec re-, e-, a-, d e- et in- ; la suxation avec -able , -it e , -et(te) , -is(er) , -i(er) , -aie , -aille , -age , -oir , -tion , -ment et -eur ; et la conversion (Namer, 2002). Lanalyseur DeriF sattaque actuellement a ` la composition (Namer & Zweigenbaum, 2004). Pour la langue m edicale, la seule base de donn ees morphologiques publiquement disponible se trouve dans le Specialist Lexicon dUMLS (McCray et al., 1994), elle permet de traiter la exion et laxation de la langue m edicale anglaise. Cette base se compose dun lexique, de r` egles de formation et de variation des mots r eguliers. Les allomorphies, les bases suppl etives et les variantes orthographiques sont list ees explicitement dans des tables sp eciques. Les programmes pour la g en eration de formes echies et ax ees et pour la r eduction de ces formes a ` leur lemme ou base sont egalement disponibles. Dans la 56

3.2. MORPHOLOGIE ET TAL

continuit e des travaux dUMLS, il existe des initiatives de constitution de lexiques morphologiques (exion et axation) du domaine m edical en allemand (Schulz et al., 1999) et en fran cais (Zweigenbaum et al., 2003a).

3.2.3

Syst` emes danalyse morphos emantique

Il existe dans le domaine m edical une tradition danalyse morphos emantique de lex` emes compos es. Les travaux d ebutent avec (Pacak et al., 1980), o` u les auteurs analysent les lex` emes en -ite et en proposent di erents patrons interpr etatifs en fonction des classes s emantiques auxquelles appartiennent les composants du lex` eme analys e. Le travail recense environ 750 composants dorigine grecque ou latine. Chacun deux est class e sous un des axes s emantiques propos es par la Systematized Nomenclature of Pathology (SNOP, 1965), anc etre de la SNOMED : topologie, morphologie, etiologie ou fonction. Les composants suppl etifs sont lexicalement interpr et es et remplac es par les composants autonomes correspondants. -ite est ainsi remplac e par inammation. Les lex` emes sont analys es de la ` gauche vers la droite. A chaque segmentation le composant le plus long est recherch e. En fonction des types s emantiques des composants, un ou plusieurs patrons sont appliqu es. Les auteurs ont etabli au total 14 patrons s emantiques. Cette etude, etendue de langlais a ` dautres langues (fran cais, italien, allemand et tch` eque), a montr e que le comportement des composants analys es est assez similaire a ` travers ces langues. Dautres travaux investissent les lex` emes avec dautres nales : -tomie , -stomie , -ectomie (Wol, 1987) ; -ose (Dujols et al., 1991). Ou bien ils visent une couverture maximale de compos es m edicaux (Dujols et al., 1991; Lovis et al., 1995; Schulz et al., 1999; Namer & Zweigenbaum, 2004). La majorit e de ces travaux font du paraphrasage : un lex` eme est d ecompos e et paraphras e selon le patron s emantique reconnu. Quelques exemples de (Pacak et al., 1980) : iridochoroiditis inammation of iris and choroid keratoconjunctivitis inammation of conjunctiva with cornication laminitis inammation of lamina Par contre le travail de (Schulz et al., 1999) reste dans la lign ee des travaux en recherche dinformation : les termes m edicaux sont d ecompos es en bases et composants qui sont alors trait es alphab etiquement comme des sacs de composants. La structure des termes telle que g er ee par les patrons interpr etatifs (Pacak et al., 1980; Wol, 1987; Dujols et al., 1991; Lovis et al., 1995) ou les r` egles de formation de lex` emes (Namer & Zweigenbaum, 2004) nest pas prise en compte. Dans cette approche, il sut que deux termes comportent des bases et composants equivalents pour etre consid er es equivalents eux-m emes : Hyperemesis gravidarum : (1) hyper, emet, gravit (2) hyper/high/augmented, emet/vomit, gravid/pregnan/gest Excessive vomiting in pregnancy : (1) excessiv, vomit, pregnan (2) excessiv/high/augmented, vomit/emet, pregnan/gravid/gest 57

CHAPITRE 3. MORPHOLOGIE

3.3

Conclusion

Notre objectif etant lutilisation de ressources morphologiques pour le traitement de la variation des termes, il faut d enir quels proc ed es des morphologies exionnelle et constructionnelle il convient de prendre en compte. Lapport s emantique de la exion est faible : le genre, le nombre, la personne, etc. ne modient g en eralement pas la s emantique des lex` emes et la lexicalisation des formes echies est tr` es rare. Avec les trois proc ed es principaux de la morphologie d erivationnelle (axation, conversion et composition), lapport s emantique dans les lex` emes construits est plus important. Lors de la suxation, le suxe op` ere une instruction s emantique sur la base mais la s emantique du lex` eme construit reste proche de celle de la base, sauf pour les cas de glissement de sens qui ne sont pas du ressort de la morphologie mais de lusage. Par contre les pr exes ne constituent pas une classe homog` ene : elle est nourrie par les adverbes, les pr epositions et les el ements de composition. Tr` es peu d el ements sont dorigine pr exale. Selon le degr e de grammaticalisation des nouvelles unit es, les constructions doivent etre consid er ees comme des axations ou des compositions. La conversion semble pr esenter des sch emas s emantiques proches de la suxation. Enn, avec la composition l equivalence semantique est rompue : il existe, selon la position des composants, une relation hyperonymique ou bien des relations sp eciques, entre eux. Pour le traitement de la variation terminologique la exion, la suxation et la conversion semblent donc etre les plus pertinentes. Par contre, la pr exation et la composition, qui apportent des ruptures s emantiques, ne sont pas souhaitables, et si les ressources correspondantes sont a ` utiliser elles doivent l etre de mani` ere contr ol ee. Mais, comme nous lavons not e, les ressources morphologiques sont plut ot lacunaires en fran cais, et encore plus en fran cais m edical. Le chapitre suivant est donc consacr e a ` lacquisition de ressources morphologiques.

58

Chapitre 4 Induction de connaissances morphologiques ` a partir de terminologies structur ees


Dans le chapitre 2, nous avons montr e que la variation terminologique appara t dans di erents contextes et nous nous sommes alors propos e de la traiter en nous concentrant surtout sur la variation morphologique. Dans le chapitre 3, nous avons d ecrit les moyens mis en uvre par la morphologie lors de la formation des lex` emes et de leurs variations. Nous avons egalement not e les proc ed es morphologiques potentiellement utiles pour le traitement des variantes de termes : la exion, la suxation et la conversion. La pr exation et la composition, pr esentant souvent des ruptures s emantiques entre les lex` emes base et les lex` emes construits, doivent etre utilis ees sous contraites s emantiques. Dans ce chapitre, nous pr esentons nos travaux sur lacquisition de ressources morphologiques. De telles ressources ne sont pas disponibles en fran cais, sinon de mani` ere fragmentaire. La situation est encore plus lacunaire lorsquil sagit dune langue de sp ecialit e comme la langue m edicale. Ces travaux correspondent ainsi au premier objectif que nous nous sommes x e : lacquisition de ressources morphologiques. Nous avons not e auraparavant quil existe deux approches pour le traitement de la variation des termes : une approche de type formel qui consiste en suppression syst ematique de suxes en n des mots et une approche qui implique des connaissances morphologiques motiv ees linguistiques. Nous misons sur lapplication de lapproche linguistique et donc sur lutilisation de ressources motiv ees morphologiquement. De telles ressources ont lavantage de re eter le syst` eme morphologique dune langue (Gaussier, 1999). Nous soutenons egalement que ces ressources doivent etre adapt ees au domaine scientique ou technique trait e pour fournir de meilleurs r esultats. Dans la suite de ce chapitre, nous pr esentons nos motivations pour lacquisition automatique de ressources morphologiques (sec. 4.1) et les travaux existants (sec. 4.2). Ensuite nous d ecrivons les m ethodes automatiques que nous proposons (sections 4.3 a ` 4.6) en pr ecisant a ` chaque fois le mat eriel n ecessaire et en analysant les r esultats obtenus. Notons quun echantillon de ces r esultats peut etre consult ea ` lannexe A. Nous terminons le chapitre en dressant un bilan et en marquant quelques perspectives (sec. 4.7). 59

` PARTIR DE TERMINOLOGIES CHAPITRE 4. INDUCTION DE CONNAISSANCES MORPHOLOGIQUES A STRUCTUREES

4.1

Introduction

Le traitement de la variation morphologique des termes demande de disposer de ressources morphologiques adapt ees de pr ef erence a ` la langue de sp ecialit e etudi ee. Mais une analyse de telles ressources montre quelles sont plut ot lacunaires. Les ressources exionnelles sont les plus etudi ees dans plusieurs langues a ` travers, par exemple, de nombreux outils d etiquetage et de lemmatisation (Brill, 1993; Schmid, 1994; Namer, 2000; Silberztein, 1993; Mertens, 1999). Par ailleurs, la base Celex (Burnage, 1990) comporte une description des syst` emes exionnels de langlais et de lallemand. Quant a ` laxation de 1 la langue g en erale , elle est bien repr esent ee en anglais et en allemand, toujours gr ace a ` la base Celex. En fran cais par contre les ressources pour le traitement de laxation est actuellement en cours de d eveloppement dans le cadre du projet MorTal (Dal et al., 1999; Hathout et al., 2001). Quant a ` la langue m edicale, la seule base de donn ees morphologiques publiquement disponible se trouve dans le Specialist Lexicon dUMLS. Cette base permet de traiter la exion et laxation de langlais. La composition semble etre absente dans les applications de la langue g en erale. Dans la langue m edicale, les ressources sur la composition sont constitu ees essentiellement dans le cadre de travaux danalyse morphos emantique des termes m edicaux (sec. 3.2.3 page 57), elles ne sont pas publiques et restent r eserv ees a ` lutilisation des equipes qui les ont con cues. Notons que sur lexemple dUMLS il existe des travaux de constitution de ressources morphologiques pour la langue m edicale autre que langlais : lallemand (Schulz et al., 1999) et le fran cais (Zweigenbaum et al., 2003a). Ces ressources en cours d elaboration ont pour but de couvrir la exion, laxation et la com` lheure actuelle, il nexiste donc pas de ressources morphologiques disponibles position. A en fran cais, que ce soit pour la langue g en erale ou m edicale. An de pouvoir traiter les variations morphologiques des termes m edicaux en fran cais, nous avons a ` satisfaire un premier objectif de notre travail : proposer une m ethode pour lacquisition automatique de ressources morphologiques et constituer de telles ressources. Parmi les proc ed es morphologiques not es comme int eressants pour notre t ache, nous avons la suxation et la conversion (en cas de donn ees etiquet ees) pour la formation des lex` emes, et la exion pour leurs variations. La pr exation et la composition, impliquant des ruptures s emantiques, doivent etre utilis ees sous contraintes s emantiques. Dans la suite de ce chapitre, nous verrons que les travaux en TAL et en acquisition emploient des acceptions des termes de la morphologie di erentes de celles que nous avons vues dans le chapitre 3. Cest le cas des termes comme pr exe et suxe. Lhypoth` ese souvent partag ee dans les travaux dacquisition de ressources morphologiques suppose que les
Dans notre travail, nous faisons une opposition entre la langue g en erale et la langue de sp ecialit e, ici, la langue m edicale. Une langue de sp ecialit e couvre un domaine scientique ou technique. Elle comporte le lexique sp ecique a ` ce domaine, sa terminologie, mais elle peut egalement pr esenter des particularit es syntaxiques, morphologiques ou autres. La langue g en erale , par contre, nest pas consacr ee a ` un domaine de sp ecialit e pr ecis. Elle re` ete souvent lusage quotidien de la langue, tel que fait par exemple dans la presse grand public. Les articles des journaux ne sont evidemment pas compl` etement neutres de ce point de vue : ils concernent di erents domaines de sp ecialit es (agriculture, cuisine, politique, etc.), mais on consid` ere g en eralement que le niveau de leur sp ecialisation nest pas elev e et le m elange de di erents domaines les neutralise les uns par rapport aux autres.
1

60

4.2. TRAVAUX EN ACQUISITION AUTOMATIQUE DE CONNAISSANCES MORPHOLOGIQUES

mots reli es morphologiquement contiennent une racine commune . Du point de vue de lacquisition automatique, une racine commune est repr esent ee par une cha ne de caract` eres commune souvent en position initiale dans les mots compar es. Cette cha ne initiale commune est souvent appel ee pr exe et les cha nes nales non communes suxes. Il va de soi que les segments de mots trouv es avec les techniques automatiques et appel es pr exe ou suxe ne correspondent pas toujours au d ecoupage morphologique r eel de la langue. Et il serait donc plus correct de parler de cha nes de caract` eres initiales ou nales. De la m eme mani` ere, di erentes segmentations dun m eme mot conduisent vers lallomorphie. Il ne sagit bien s ur pas de lallomorphie morphologique.

4.2

Travaux en acquisition automatique de connaissances morphologiques

Les traitements standards de la variation morphologique, faits au moyens des d esuxeurs comme ceux de Lovins (Lovins, 1968) et Porter (Porter, 1980), ne permettent pas de traiter toutes les variations n ecessaires et surtout ils ne sont pas adapt es aux di erents domaines techniques. Des travaux plus r ecents cherchent a ` proposer des outils et des ressources plus performants quant a ` la couverture des ph enom` enes linguistiques trait es et a ` leur sp ecicit ea ` un domaine technique ou scientique. La plupart de ces travaux visent la constitution de ressources morphologiques a ` travers la segmentation des mots et la d etection de cha nes de caract` eres communes. Mais le fait que les mots partagent une cha ne initiale commune ne garantit pas en soi quils soient reli es s emantiquement. Par exemple, un outil Unix comme findaffix permet de rep erer les mots qui partagent une cha ne initiale commune dune longueur donn ee. Parmi ceux qui partagent une cha ne initiale commune de trois caract` eres, nous avons, dans une liste de 8 874 formes du domaine m edical, 17 formes qui commencent par tro. findaffix les regroupe en une seule famille : trocart, trochl eaire, trois, troisi` eme, troisi` emement, trompe, trompes, tronc, troncs, trop, trophique, trophoblaste, trophoblastique, tropicale, trou, trouble, trouv e. Mais on peut y distinguer en r ealit e au moins 11 familles morphologiques (Grabar & Zweigenbaum, 1999a). Le souci principal des travaux en acquisition automatique de ressources morphologiques consiste donc a ` trouver un contexte s emantique qui garantisse que les mots reli es formellement soient egalement reli es s emantiquement. De nombreuses pistes sont exploit ees.

4.2.1

Exploitation de dictionnaires electroniques

Les dictionnaires peuvent fournir un contexte s emantique tr` es contraint. Les r esultats d ependent alors de la richesse et de la compl etude de ces dictionnaires. (Krovetz, 1993) utilise la version electronique du Longman Dictionary of Contemporary English. Ayant pour but de proposer un d esuxeur plus performant pour le traitement de la exion et de laxation, lauteur exploite ce dictionnaire de deux mani` eres : 61

` PARTIR DE TERMINOLOGIES CHAPITRE 4. INDUCTION DE CONNAISSANCES MORPHOLOGIQUES A STRUCTUREES

sa structure est utilis ee pour le rep erage de mots reli es formellement et s emantiquement : si une entr ee est proche formellement dun des mots de sa d enition, ils sont consid er es etre proches s emantiquement aussi. Par exemple, la d enition de cylindrical contient le mot cylinder ; un syst` eme de d esuxation a ` la Porter est appliqu e it erativement, mais avant chaque it eration le syst` eme v erie si le mot d esux e correspond a ` une des entr ees du dictionnaire. Si cest le cas, la d esuxation sarr ete. Le but est alors de faciliter linterpr etation s emantique en r eduisant les formes trait ees plut ot a ` un mot existant qu` a une racine. Le m eme dictionnaire est utilis e dans (Pentheroudakis & Vanderwende, 1993). Tout dabord, les auteurs etablissent un lexique exionnel en utilisant les tables de conjugaison et les listes dexceptions propos ees par le dictionnaire. Pour la constitution du lexique d erivationnel, plusieurs informations sont exploit ees : comme dans (Krovetz, 1993), le syst` eme v erie si dans la d enition dune entr ee il y a des mots qui lui sont reli es formellement : comme la d enition de journalism comporte le mot journal, ces deux mots sont suppos es etre reli es s emantiquement ; par ailleurs, si une entr ee dictionnairique comporte une liste de suxes le syst` eme est capable de former les mots sux es. Par exemple larticle journalism indique les sufxes -istic/Adj et -istically/Adv et le syst` eme peut alors construire journalistic/Adj et journalistically/Adv ; et enn, les entr ees sont consid er ees proches s emantiquement si leurs d enitions comportent des mots proches formellement. Comme cest le cas de geographer et geography et de cartographer et cartography. (Hathout, 2001) utilise un dictionnaire de synonymes. Les mots simples du dictionnaire sont compar es deux par deux et retenus sils pr esentent une alternance de suxes v eri ee sur au moins une autre paire de mots. Par exemple, lalternance er|ation est retenue car elle est v eri ee avec trois bases verbales : adorer, v en erer et permuter. Les mots mis en relation au moyen des alternances, ou des r` egles, doivent en outre partager un pr exe dau moins 3 caract` eres : les mots du couple {adorer , adoration } partagent un pr exe de 4 caract` eres ador-. Les alternances de suxes permettent de construire un graphe dans lequel lauteur cherche les analogies constructionnelles a ` travers les quadruplets de mots comme : {fouiller, fouilleur} / {fureter, fureteur}. Lexistence de tels quadruplets conrme la relation morphologique. Lextraction des quadruplets peut etre faite de mani` ere stricte ou l ache. Lexemple ci-dessus repr esente un quadruplet strict : les deux alternances de suxes sont identiques. Par contre, les quadruplets {changer, changement} / {permuter, permutation} et {r eunir, r eunion} / {m elanger, m elange} sont l aches, car les suxes en alternance ne sont pas identiques, mais correspondent a ` des op erations morphologiques equivalentes.

4.2.2

Exploitation de corpus

Les corpus de textes permettent deectuer une acquisition de ressources morphologiques sp eciques a ` un domaine. 62

4.2. TRAVAUX EN ACQUISITION AUTOMATIQUE DE CONNAISSANCES MORPHOLOGIQUES

Dans (Xu & Croft, 1998), lhypoth` ese de proximit e s emantique pose que des mots reli es morphologiquement apparaissent souvent dans une fen etre de mots dune certaine taille (50 a ` 100). Les mots reli es morphologiquement sont d etect es avec un d esuxeur agressif bas e sur le rep erage des n premiers caract` eres dans les mots (n = 3). Ensuite un calcul dassociations statistiques entre les mots est appliqu e pour ltrer les cooccurrents. Les paires de mots ltr es peuvent etre regroup ees en familles avec des relations d erivationnelles et exionnelles : uniformity, uniformily, uniformed, uniforms, uniform. Le mot le plus court de la famille (ici uniform) est consid er e comme sa racine. Selon les exp eriences, lexploitation dun corpus sp ecialis e permet eectivement dobtenir les donn ees sp eciques au corpus et au domaine. Par exemple, dans un corpus de nances, les mots stock et stocks se trouvent reli es, mais ce nest pas le cas dans un corpus dhistoire m edi evale o` u stocks signie un outil de torture. La portabilit e des donn ees obtenues a ` partir dun corpus sur un autre d epend de la similarit e entre ces deux corpus. Cette approche fournit des donn ees dautant plus ables que le corpus est repr esentatif du domaine ou de lapplication, susamment volumineux et r ep etitif. Les mots rares, par contre, re coivent des valeurs dassociation plut ot faibles et ne sont pas associ es. Une exp erience similaire, appliqu ee sur un corpus m edical fran cais, a et e eectu ee dans (Zweigenbaum et al., 2003b). La cha ne initiale commune est de 4 caract` eres et la fen etre de mots varie entre 50 et 200 mots. Pour la segmentation des mots et la d etection des pr exes et des suxes, les auteurs utilisent la m ethode que nous d ecrivons dans la sec. 4.3.

4.2.3

Exploitation dun corpus et dune liste de termes

(Jacquemin, 1997a) travaille dans un contexte plus restreint : il utilise une liste de termes contr ol es, un corpus et un ensemble de r` egles de r e ecriture morphosyntaxique des termes. Lauteur exploite le fait que dans les termes contr ol es et ceux des corpus les mots peuvent varier morphologiquement tout en sauvegardant les d ependances syntaxiques. Ainsi, les paires de termes : {gene expression, genic expression} {gene expression, genes expression} donnent les paires de mots {gene, genic} et {gene, genes}. Les meilleurs r esultats sont obtenus avec une distance de 2 mots entre les mots dun terme, sans permutation et avec une longueur de suxe pouvant aller de 2 a ` 5 caract` eres. En plus des relations morphologiques fr equentes dans les variantes de termes (exion, axation), cette approche permet de rep erer : des relations morphologiques rares : {North Africa, Northern Africa}, {pulsating ow, pulsatile ow}, {biliary cirrhosis, biliary cirrhosia}, des variantes et erreurs orthographiques : {coccidioides immitis, coccidiodes immitis}, des variations extra-morphologiques : {alpha lipoprotein, alpha1 lipoprotein}. Les paires de mots reli es sont ensuite regroup ees en familles morphologiques. Etant bas ee sur un corpus et un lexique sp ecialis es, cette approche propose egalement des paires de mots sp eciques au domaine. 63

` PARTIR DE TERMINOLOGIES CHAPITRE 4. INDUCTION DE CONNAISSANCES MORPHOLOGIQUES A STRUCTUREES

4.2.4

Exploitation des couples de suxes et de leurs fr equences

Dans (Gaussier, 1999), lors de la comparaison des mots, cest la fr equence du couple des suxes qui assure la abilit e du contexte s emantique. Si cette fr equence est susamment elev ee (au moins 2), les mots mis en relation sont consid er es comme etant reli es formellement et s emantiquement. Par exemple, les mots deplorable et deploringly fournissent a ` la segmentation le couple de suxes able|ingly . Comme ce couple se retrouve dans dautres paires de mots, il est retenu comme marqueur de la relation morphologique entre les mots. Les paires de mots sont par ailleurs group ees en famille. L` a encore, ce sont les suxes qui assurent la coh erence s emantique des familles. Lauteur suppose quil existe une compatibilit e entre les suxes : lapparition dun suxe co ncide avec lapparition dun autre suxe et les suxes de di erentes familles ne se m elangent pas.

4.2.5

Exploitation dapproches distributionnelles

Les r esultats fournis par les approches distributionnelles sont ltr es avec des pond erations statistiques ou autres informations. Pour d ecouvrir les axes les plus fr equents dune langue, (D ejean, 1998) applique lapproche distributionnelle. Ainsi, si apr` es une s equence de caract` eres se trouve un nombre important de caract` eres di erents, le syst` eme d etecte une fronti` ere entre les morph` emes : direc- peut etre suivi uniquement de t, donc il ny a pas de fronti` ere ; direct- peut etre suivi de i, l, o et e (comme dans direction , directly , director ou directed ), donc il y a une fronti` ere. Pour enrichir la liste daxes, lauteur regarde si les axes d ej` a rep er es peuvent alterner avec dautres. Ainsi, a ` partir des mots o` u le syst` eme reconna t les ax es d ej` a r epertori es (light, lights , lighted , lighting , lightly , lighter ), il est possible den apprendre dautres (lightness , lightest , lighten ) et d elargir ainsi la famille. (Schone & Jurafsky, 2001) entame lacquisition de suxes sur un corpus avec une approche semblable a ` celle de (D ejean, 1998), mais les pr exes les plus fr equents sont identi es en m eme temps. Le syst` eme est capable de traiter non seulement la pr exation ou la suxation, mais egalement la circumxation , propre aux langues comme lallemand et le n eerlandais, qui consiste en un ajout simultan e dun pr exe et dun suxe. Un premier ltrage des paires de mots est fait avec Latent Semantic Analysis (LSA). Le r esultat de ce ltrage est ensuite conrm e avec une mesure de similarit e et pond er e par la fr equence des axes et le contexte syntaxique des mots. Finalement, le syst` eme eectue le regroupement des paires de mots en familles sur la pr esence de mots communs. (Urrea, 2000) eectue egalement une segmentation des mots avec lapproche distributionnelle proche de celle des deux travaux pr ec edents. Les segmentations obtenues sont evalu ees avec plusieurs calculs, dont celui utilis e dans (Pirrelli & Yvon, 1999) (voir le paragraphe suivant). La moyenne des di erents scores donne un score global aux candidats suxes et pr exes. Les axes exionnels, qui sont plus redondants en langue, se laissent d ecouvrir plus facilement que les axes d erivationnels. 64

4.2. TRAVAUX EN ACQUISITION AUTOMATIQUE DE CONNAISSANCES MORPHOLOGIQUES

4.2.6

Application dalgorithmes dapprentissage

Les algorithmes dapprentissage sont egalement appliqu es en acquisition de ressources morphologiques. Ces algorithmes sont entra n es sur une base dexemples quils g en eralisent ensuite aux mots inconnus de la base initiale. Leurs performances d ependent des r egularit es et des analogies dans la langue, et de la compl etude de la base dapprentissage. (van den Bosch et al., 1996) trouvent la base dexemples n ecessaires dans le lexique n eerlandais Celex (Burnage, 1990). (Pirrelli & Yvon, 1999) proposent un algorithme dapprentissage paresseux, qui nest pas sans rappeler lexp erience de (Hathout, 2001). Dans un 4-tuple de type eat:eater = cheat:X, ils peuvent calculer la forme manquante X (cheater) en supposant quil existe une analogie dans la formation de cette forme en r ef erence aux formes d ej` a connues (ici, par analogie avec eat:eater, il sagit de lajout du suxe -er a ` la forme cheat). Les informations a ` calculer peuvent etre plus evolu ees et a ` chaque forme on peut attacher sa prononciation, son etiquette morphosyntaxique ou autre. (Theron & Cloete, 1997) se basent sur un ensemble de paires de mots reli es morphologiquement pour d eduire les r` egles de leur formation. Ces r` egles sont exprim ees dans le mod` ele de la morphologie a ` deux niveaux (Koskenniemi, 1983).

4.2.7

Exploitation des r` egles de formation des lex` emes

Les r` egles de formation de lex` emes issues d etudes linguistiques peuvent egalement servir de base able a ` lacquisition de ressources morphologiques. Ces r` egles sont souvent surg en eratrices et le r esultat doit etre ltr e. Les r` egles propos ees par la morphologie constructionnelle (Corbin, 1987; Corbin, 1991) sont appliqu ees dans le projet MorTAL (Dal et al., 1999; Hathout et al., 2001). Les formes g en er ees automatiquement sont valid ees avec une liste de r ef erence compil ee a ` partir du TLFi (Tr esor de la Langue Fran caise) et sur lInternet (Namer, 2002). Dans le cadre du projet Verbaction, (Berche et al., 1997) utilisent une liste de verbes ` laide de loutil Unix findaffix ils appliquent les r` egalement extraits du TLF. A egles de formation des noms d everbaux daction et gardent ceux qui existent eectivement dans le TLF. Une validation manuelle compl` ete ce ltrage. Une extension du projet Verbaction est propos ee dans (Tanguy & Hathout, 2002). La recherche de nouveaux lex` emes ax es est faite sur lInternet, de m eme que leur ltrage : les lex` emes doivent se trouver dans un m eme document pour entretenir une relation s emantique. (Viegas et al., 1996) valident les lex` emes g en er es avec un dictionnaire et un corpus.

4.2.8

Bilan

Lacquisition de ressources morphologiques est bas ee essentiellement sur la recherche dune cha ne initiale commune lors de la comparaison de deux mots. Cette cha ne commune, ou pr exe, garantit la parent e formelle des mots compar es. Pour sassurer de leur parent e s emantique, les chercheurs contraignent le contexte s emantique dapparition de ces 65

` PARTIR DE TERMINOLOGIES CHAPITRE 4. INDUCTION DE CONNAISSANCES MORPHOLOGIQUES A STRUCTUREES

mots. Lexploitation de la structure des dictionnaires et de di erentes informations quils contiennent, des corpus, des r` egles morphologiques acquises sur les donn ees ou etablies par les morphologues, des calculs statistiques, etc. servent ainsi pour etablir la proximit e s emantique entre les mots qui sont proches formellement. Dans la suite de ce chapitre, nous d ecrivons nos exp eriences en acquisition de ressources morphologiques. Nous trouvons le contexte, qui garantit la parent e s emantique des mots, gr ace a ` lexploitation de ressources terminologiques structur ees. Ainsi, lorsque les termes se trouvent en relation s emantique dans une terminologie, nous supposons que les mots de ces termes, qui sont proches formellement, sont egalement proches s emantiquement. La proximit e s emantique des termes assure ainsi la proximit e s emantique des mots qui les composent. Les di erentes exp eriences en acquisition de ressources morphologiques que nous pr esentons maintenant ont et e eectu ees en etroite collaboration avec Pierre Zweigenbaum. Nous pr esentons chacune de ces exp eriences : acquisition a ` partir de s eries de synonymes (sec. 4.3), de donn ees etiquet ees et lemmatis ees (sec. 4.4), a ` partir dautres relations s emantiques entre termes (sec. 4.5) et avec une normalisation des segmentations (sec. 4.6).

4.3

Apprentissage ` a partir de s eries de synonymes

Comme le montre le tab. 4.1, les termes synonymes peuvent comporter des mots morphologiquement proches, par exemple {pneumonie , pneumopathie } du concept D2-50140 de la SNOMED. Rappelons que le Code correspond a ` lidentiant de concepts de la SNOMED et regroupe les termes synonymes. La Classe 01 indique le terme pr ef er e, 02 son synonyme nominal (nom ou groupe nominal), 05 son synonyme adjectival. SAI, qui appara t dans les libell es des termes, veut dire ( ( Sans autres indications ) ). Code D2-50140 D2-50140 F-00470 F-00470 F-00470 F-00470 T-51110 T-51110 Classe 01 02 01 02 05 05 01 02 Termes pneumonie, SAI pneumopathie inammatoire, SAI symbiose commensalisme symbiotique commensal palais dur, SAI vo ute palatine

Tab. 4.1 Les termes pr ef er es et les termes synonymes dans la SNOMED.

4.3.1

M ethode

La m ethode dacquisition de connaissances morphologiques que nous proposons eectue dabord un amor cage a ` travers une acquisition de r` egles morphologiques sur les s eries de 66

` PARTIR DE SERIES 4.3. APPRENTISSAGE A DE SYNONYMES

synonymes. Ces r` egles sont ensuite g en eralis ees sur une liste de mots de r ef erence. Pour que deux mots soient reli es morphologiquement, il faut : (1) quils partagent une cha ne de caract` eres initiale commune, ou pr exe (au moins trois ou quatre caract` eres selon les exp eriences) ; (2) que lalternance de cha nes nales, qui forment une r` egle morphologique, se v erie sur dautres paires de mots compar es ; (3) et que les mots en question ne soient pas identiques. Nous d etaillons maintenant les etapes principales de la m ethode. Constitution des s eries de synonymes. Tout dabord, en nous basant sur les codes alphanum eriques des termes de la SNOMED, nous constituons les s eries de synonymes. Si ` une s erie comporte au moins deux termes elle est utilis ee dans les etapes qui suivent. A partir des donn ees du tab. 4.1 nous obtenons les s eries de synonymes suivantes : D2-50140 pneumonie, SAI ; pneumopathie inammatoire, SAI F-00470 symbiose ; commensalisme ; symbiotique ; commensal T-51110 palais dur, SAI ; vo ute palatine Alignement de paires de mots reli es morphologiquement et leur segmentation. ` cette A etape, pour chaque paire de termes, nous consid erons chaque paire de mots {P S 1 , P S2 } qui partagent un pr exe P , ou une cha ne initiale commune, susamment long. Nous travaillons avec une cha ne initiale de trois et de quatre caract` eres. Ce seuil reste un param` etre de la m ethode. Les paires de mots suivantes sont ainsi align ees et segment ees : D2-50140 {pneumonie, pneumopathie} = {pneumonie , pneumopathie } F-00470 {symbiose, symbiotique} = {symbiose , symbiotique } F-00470 {commensal, commensalisme} = {commensal, commensalisme } T-51110 {palais, palatine} = {palais , palatine } ` partir des paires Induction de pr exes, de suxes et de r` egles morphologiques. A de mots align es et segment es, nous induisons des r` egles morphologiques qui correspondent aux alternances de suxes, ou de cha nes nales, des mots segment es. Chaque paire {P S 1 , P S2 }, o` u P est la cha ne initiale commune maximale aux deux mots, est g en eralis ee en r` egle S1 |S2 . Celle-ci peut etre interpr et ee de la mani` ere suivante : etant donn e un mot qui nit avec une cha ne de caract` eres S1 , nous pouvons former un mot o` u S1 est remplac e par S2 . Les r` egles sont sym etriques : S2 peut egalement etre remplac e par S1 . Pour quune r` egle soit retenue, il faut quelle se v erie sur au moins deux paires de mots et que le pr exe soit susamment long. Sur chaque paire de mots non identiques, nous induisons ainsi une r` egle S1 |S2 , mais egalement les pr exes communs P et les suxes {S1 , S2 } ( marque une cha ne vide) : Code Pr exe Suxes R` egle D2-50140 pneumo-nie , -pathie nie|pathie F-00470 symbio-se , -tique se|tique F-00470 commensal- - , -isme |isme T-51110 pala-is , -tine is|tine 67

` PARTIR DE TERMINOLOGIES CHAPITRE 4. INDUCTION DE CONNAISSANCES MORPHOLOGIQUES A STRUCTUREES

G en eralisation des r` egles et induction de nouvelles paires de mots. Nous consid erons que les r` egles induites peuvent etre g en eralis ees a ` dautres mots de la liste de r ef erence. Ceci nous permet didentier les paires de mots qui se trouvent en m eme relation morphologique et d etendre ainsi les connaissances morphologiques damor cage. La r` egle se|tique , induite sur la paire {symbiose , symbiotique } permet ainsi de mettre en relation dautres mots et de g en erer les nouvelles paires : {acantholyse , acantholytique }, {art erioscl erose , art erioscl erotique }, {cholestase , cholestatique }, {h emolyse , h emolytique }, {h emostase , h emostatique }, {hypostase , hypostatique }, {m elanose , m elanotique }, {n ecrobiose , n ecrobiotique }, {n ephrose , n ephrotique }, {psychose , psychotique }, {scl erose , scl erotique }, {spongiose , spongiotique }, {st enose , st enotique }, {synapse , synaptique }, {thrombose , thrombotique }. Constitution de familles morphologiques. Les mots mis en relation morphologique dans une paire sont fusionn es en familles morphologiques lorsque : ils ont et e align es pendant l etape damor cage, ils ont alors un m eme pr exe P ; paires de mots qui ont des mots communs. Toujours par rapport aux termes du tab. 4.1, nous obtenons a ` la g en eralisation les familles morphologiques suivantes : - pneumocoque, pneumocoques, pneumoniae, pneumonie, pneumopathie, pneumopathies - symbiose, symbiotique - commensal, commensalisme - palais, palatine, palatines

4.3.2

Evaluation des r esultats : pr ecision et rappel

Pour estimer la qualit e des r esultats obtenus, nous cherchons a ` les evaluer en termes de pr ecision et de rappel. La pr ecision des paires de mots et des familles morphologiques est evalu ee manuellement, avec la consultation des dictionnaires, des terminologies et des sp ecialistes du domaine. Elle correspond a ` la proportion des donn ees correctes par rapport a ` la totalit e des donn ees induites. L evaluation du rappel demande par contre de disposer dune ressource de r ef erence. Comme nous lavons montr e, de telles ressources ne sont actuellement disponibles que pour langlais gr ace a ` Specialist Lexicon de lUMLS. En utilisant le programme lvg, nous pouvons g en erer les paires de mots exionnelles (lvg -m -fi) et d erivationnelles (lvg -m -fRf). Ces paires de mots nous servent de r ef erence pour l evaluation du rappel obtenu sur des sources en anglais. Le rappel correspond a ` la proportion des donn ees induites avec nos m ethodes par rapport aux donn ees propos ees par le Specialist Lexicon.

4.3.3

Mat eriel

Le mat eriel n ecessaire pour lapplication de notre m ethode consiste en une terminologie structur ee avec des relations de synonymie et en une liste de mots de r ef erence. Nous avons 68

` PARTIR DE SERIES 4.3. APPRENTISSAGE A DE SYNONYMES

travaill e sur trois langues : fran cais, anglais et russe. Terminologie structur ee avec des relations de synonymie. Nous utilisons les versions suivantes de la SNOMED qui comporte des relations de synonymie : En fran cais nous utilisons la version pr ecommerciale du R epertoire danatomopathologie (C ot e, 1996), qui nous a et e gracieusement donn ee par le Dr. Roger C ot e. Le R epertoire comporte 12 555 termes. En anglais nous utilisons toute la SNOMED Internationale version 3.5, incluse dans le Metathesaurus de lUMLS de 1999. Les termes de la SNOMED sont reconnaissables a ` leur identiant de source (SAB=SNMI98 : Source Abbreviation = Snomed International, 1998). Nous obtenons 128 855 termes. En russe nous utilisons une version du R epertoire en cours de traduction (Emeline et al., 1995), qui nous a et e gracieusement donn ee par Yvan Emelin. Le R epertoire en russe comportait a ` l epoque des exp eriences (1999-2000) 13 462 termes. Liste de mots de r ef erence. La liste de mots de r ef erence est etablie a ` partir des termes de la SNOMED et de la CIM : En fran cais nous utilisons la version fran caise du R epertoire danatomopathologie de la SNOMED et les termes principaux de la version fran caise de la CIM-10 (OMS, 1995). Nous obtenons un total de 8 874 formes de mots. En anglais nous utilisons la SNOMED Internationale version 3.5 dans son int egralit e et les termes de la CIM-9-CM. Les deux terminologies se trouvent dans le Metathesaurus de lUMLS (pour la CIM-9-CM, SAB=ICD-9-CM). Nous obtenons une liste de 49 627 formes de mots. Pour le russe nous utilisons le R epertoire avec un total de 9 871 formes de mots. Lors de la segmentation des termes en mots, les espaces et la ponctuation, dont le tiret, sont consid er es comme s eparateurs. Les formes avec des nombres ne sont pas prises en compte. Tous les mots sont convertis en minuscules.

4.3.4

Analyse et discussion des ressources morphologiques induites avec les s eries de synonymes en trois langues

La m ethode propos ee est appliqu ee aux trois langues : fran cais, anglais et russe (Grabar, 1999b; Grabar & Zweigenbaum, 1999a; Grabar, 1999a; Grabar & Zweigenbaum, 1999b; Grabar & Zweigenbaum, 2000a). Les donn ees de d epart ne sont pas de la m eme taille pour chacune des langues : les donn ees en anglais sont les plus compl` etes (environ 10 fois plus volumineuses que dans les deux autres langues) : 128 855 termes qui donnent 26 295 s eries de synonymes ; vient ensuite le russe avec 13 462 termes et 2 636 s eries de synonymes ; et le fran cais avec 12 555 termes et 2 344 s eries de synonymes. Les r esultats induits sont globalement proportionnels a ` ces volumes de d epart. 69

` PARTIR DE TERMINOLOGIES CHAPITRE 4. INDUCTION DE CONNAISSANCES MORPHOLOGIQUES A STRUCTUREES

6000

Taille des rsultats

5000 4000 3000 2000

Paires de mots Suffixes Rgles Familles

+341% 20000

Paires amorcage Paires gnralisation Familles amorcage Familles gnralisation

15000

Gain

10000 +205% +416% 5000 +421% +269% 0 +221% anglais russe

1000 0 franais anglais russe

franais

Langues

Langues

(a) Etape damor cage

(b) Etape de g en eralisation

100 98

Paires gener Paires amorc Familles gener Familles amorc

Prcision

96 94 92 90 franais anglais russe

Langues

(c) Pr ecision

Fig. 4.1 Acquisition de connaissances morphologiques en trois langues : fran cais, anglais, russe. =4.

Etape damor cage. Le graphique 4.1(a) montre les r esultats obtenus a ` l etape de lamorc age dans les trois langues, avec une longueur du pr exe x ee a ` quatre caract` eres. La gure indique les nombres de paires de mots, de suxes, de r` egles et de familles morphologiques. Les r esultats sont proportionnellement comparables dans les trois langues, sauf pour les familles morphologiques qui sont proportionnellement moins nombreuses en russe : il sagit sans doute de formes exionnelles, tr` es pr esentes dans cette langue, et qui, une fois regroup ees, forment un nombre de familles moins important que dans les deux autres langues. Par ailleurs, nous pouvons calculer le rendement des paires de mots quant a ` la production de suxes et de r` egles. Nous avons 6 556 paires de mots en anglais, 1 086 en fran cais et 1 535 en russe. Le rendement moyen des paires de mots est le plus elev e en russe, o` u il faut 1,8 paires de mots pour trouver une r` egle et 2,2 paires de mots pour 70

` PARTIR DE SERIES 4.3. APPRENTISSAGE A DE SYNONYMES

un suxe. Il est le moins elev e en anglais, avec 2,1 paires de mots pour une r` egle et 2,6 pour un suxe. En fran cais, ce rendement est moyen avec 1,9 paires pour une r` egle et 2,4 pour un suxe. Ces calculs re` etent, a ` notre avis, la richesse morphologique des langues etudi ees, qui est elev ee en russe et faible en anglais. Le fran cais occupe, de ce point de vue, une place interm ediaire. Les donn ees damor cage en fran cais et en russe constituent environ 10 % des donn ees en anglais, o` u les ressources de la SNOMED sont les plus compl` etes. Ce qui explique la taille des donn ees g en er ees. Par contre, si on nivelle les donn ees en pr elevant un echantillon de 10 % sur les s eries de synonymes en anglais, la comparaison des r esultats ore un tableau plus r ealiste des syst` emes morphologiques de ces trois langues. Avec ce mat eriel damor cage, le nombre de r` egles en anglais devient 445, donc moins important quen fran cais (567) ou en russe (834). Ce qui conrme la gradation de la richesse morphologique entre ces trois langues. ` l Etape de g en eralisation. A etape de g en eralisation, les r` egles morphologiques sont appliqu ees aux mots de la liste de r ef erence, ce qui permet dinduire de nouvelles paires de mots reli es morphologiquement. Ces paires viennent enrichir les familles morphologiques existantes et en former de nouvelles. Le graphique 4.1(b) pr esente le gain en paires de mots et en familles morphologiques eectu e lors de cette etape. La partie basse de chaque colonne pr esente la taille des donn ees a ` lamor cage et la partie haute a ` la g en eralisation. Nous pouvons ainsi voir que le nombre des paires a ` la g en eralisation augmente dans toutes les langues : un gain de 421 % de paires en fran cais, de 416 % en russe et de 341 % en anglais. Il en va de m eme pour les familles morphologiques avec un gain de 269 % en fran cais, de 221 % en russe et de 205 % en anglais. La taille moyenne des familles, non repr esent ee sur les graphiques, augmente egalement. Elle passe de 2,9 a ` 3,48 mots par famille en anglais, de 2,74 a ` 3,38 en russe et de 2,53 a ` 3,08 en fran cais. La richesse et la compl etude du vocabulaire en anglais, par rapport aux deux autres langues, permet dobtenir des familles plus peupl ees. Le russe va au-devant du fran cais avec son syst` eme exionnel plus d evelopp e : en plus des cat egories exionnelles existant en fran cais, le russe pr esente le cas qui sapplique aux noms, adjectifs, pronoms et participes. Pr ecision. L evaluation de la pr ecision des paires de mots et des familles est eectu ee manuellement. En anglais, en raison de la taille des r esultats, la pr ecision est evalu ee sur un echantillon (lintervalle de conance est de 2,2 et 1,3 pour les paires de mots et de 1,6 et 1,5 pour les familles morphologiques, lors de lamor cage et de la g en eralisation respectivement). La g. 4.1(c) montre que la pr ecision est excellente dans les trois langues. M eme si elle est un peu moins bonne pour langlais, elle ne descend pas au-dessous de 90 %. La g en eralisation (barre ne) la d et eriore l eg` erement par rapport a ` l etape damor cage (barre epaisse). Les r` egles morphologiques induites dans un contexte s emantique contraint gardent donc leur exactitude lorsquelles sont appliqu ees a ` une liste plus grande de mots du domaine. Le fait que cette liste comporte les mots des terminologies, donc contr ol es et plut ot centraux dans le domaine m edical, doit contribuer a ` lobtention daussi bons r esultats. 71

` PARTIR DE TERMINOLOGIES CHAPITRE 4. INDUCTION DE CONNAISSANCES MORPHOLOGIQUES A STRUCTUREES

Rappel. Le rappel est evalu e uniquement pour les donn ees en anglais, la seule des langues etudi ees qui dispose de ressources morphologiques du domaine m edical que nous pouvons prendre comme r ef erence. Le programme lvg du Specialist Lexicon de lUMLS nous permet donc de g en erer les paires de mots en relation exionnelle (lvg -m -fi) et d erivationnelle (lvg -m -fRf). Nous comparons nos r esultats a ` ces paires de mots et evaluons ainsi leur rappel. Le tab. 4.2 pr esente les r esultats de cette evaluation. La exion de lUMLS est couverte a ` 91,2 % dans nos r esultats, laxation ne lest qu` a 79,2 %. Les silences sont dus essentiellement au mat eriel linguistique de d epart : une terminologie comme la SNOMED, avec une bonne couverture du domaine m edical (Elkin et al., 2001), reste n eanmoins loin de recenser tous les termes et toutes leurs variantes (Hersh et al., 1997). Mais en m eme temps, notre m ethode permet dobtenir un volume de paires de mots en anglais bien plus important que ce qui est propos e par lvg. Plusieurs raisons peuvent etre mentionn ees pour expliquer cette di erence : environ 10 % des paires des mots g en er ees avec notre m ethode sont erron ees ; lvg ne g en` ere pas les mots compos es, alors que notre m ethode le fait ; les r` egles induites avec notre m ethode peuvent combiner un ou plusieurs suxes el ementaires (par exemple, |es , |le , aire|es ). ements de connaissances El Paires de mots Flexion Axation M ethode 25 740 lvg 2 697 2 973 Rappel 91,2 % 79,2 %

Tab. 4.2 Le rappel pour la exion et laxation en anglais. =4 avec notre m ethode. Un echantillon des r esultats obtenus a ` la g en eralisation pour chaque langue trait ee (r` egles, suxes, pr exes et familles morphologiques) se trouvent dans lannexe A.1 page 191. Ici, nous discutons ces r esultats et en pr esentons quelques exemples. Les fr equences, qui servent de base au classement, sont calcul ees a ` partir du nombre de paires de mots qui fournissent une r` egle, un suxe ou un pr exe. Les familles sont class ees dans lordre alphab etique. R` egles. Parmi les r` egles en fran cais, celles de la variation exionnelle (nombre et genre) viennent en premier : |s , |e , |es . La premi` ere d erivation, avec la r` egle e|ique , appara t au e 2 e 4 rang, elle est suivie par aire|e et ation| e . La premi` ere composition appara t au 14 rang avec la r` egle e|ose . Elle est imm ediatement suivie par ite|o et e|ome . Notons que certaines r` egles combinent plus dune op eration morphologique. Par exemple, la variation simultan ee du genre et du nombre ( |es , |le ) ou le passage dune forme au pluriel a ` un adjectif en -aire (r` egle aire|es ). En anglais la situation est similaire : les r` egles exionnelles arrivent en t ete avec |s . e La r` egle a|us (2 rang) re` ete la particularit e de la terminologie anglaise qui fait un emploi fr equent des mots latins et pr eserve leurs exions dorigine. Les exions des formes verbales
2

Sur notre acception de la composition, voir la discussion de la sec. 3.1.5 page 51.

72

` PARTIR DE SERIES 4.3. APPRENTISSAGE A DE SYNONYMES

arrivent au 8e ( |ing ) et 10e ( |ed ) rangs. La premi` ere d erivation ( |al ) se trouve au 11e rang ; e et la premi` ere composition (a|osis ) est au 12 rang. La particularit e des r` egles en russe est quelles couvrent surtout la exion : genre (a |y , a |oe ), nombre (oe|y , a |ye ), de tr` es nombreux cas (a |ogo , ogo|y , a|y , |h ) parmi les r` egles les plus fr equentes. Comme nous lavons not e, le syst` eme exionnel du russe est plus riche que celui du fran cais ou de langlais. Les r` egles d erivationnelles apparaissent a ` e partir du 22 rang ( |ny , ie|ny , |na , a|na ) ; elles impliquent les suxes de formation dadjectifs. Les r` egles de composition pointent a ` partir du 56e rang (ma|sarkoma ). Dans les trois langues etudi ees la exion vient donc en premier. Langlais a la particularit e dutiliser des mots latins. Labondance des r` egles exionnelles en russe laisse entrevoir la richesse de son syst` eme exionnel qui, en plus des cat egories existant en fran cais, pr esente le cas. Laxation appara t en deuxi` eme, apr` es la exion. La composition arrive en dernier. Certaines r` egles combinent plus dune op eration morphologique : variation simultan ee du genre et du nombre ( |es , |le ), passage dune forme au pluriel a ` un adjectif (r` egle aire|es ). Suxes. Les remarques sur les suxes sont similaires a ` celles sur les r` egles. En fran cais, les marques exionnelles viennent en premier (-s , -e , -es ). Les suxes d erivationnels commencent avec - e au 5e rang et -aire au 6e . Tout de suite apr` es, au 7e rang, vient le premier composant -me (forme tronqu ee de -ome ). Ce composant r eappara t en entier au 10 e rang. Quant au suxe -se (8e rang), il est ambigu et peut etre obtenu suite a ` di erentes segmentations : Mot 1 Mot 2 Pr exe Suxes R` egle muqueux muqueuse muqueu- -x , -se x|se brose brokystique bro-se , -kystique se|kystique psychose psychotique psycho-se , -tique se|tique h emostase h emostatique h emosta- -se , -tique se|tique Nos techniques de recherche de la cha ne initiale commune la plus longue et la nature des mots align es et compar es font qu` a la segmentation nous obtenons un suxe -se , qui peut correspondre en r ealit ea ` laxe exionnel -euse et aux composants -ose et -stase . Notons que dans dautres cas, toujours en fonction de notre m ethode et des mots align es, des mots tronqu es de di erentes mani` eres peuvent donner lieu a ` des suxes allomorphes : Mot 1 Mot 2 Pr exe Suxes R` egle oblit eration oblit erante oblit era-tion , -nte tion|nte oblit eration oblit er e oblit er-ation , - e ation| e obstruction obstructif obstructi- -on , -f on|f obstruction obstru e obstru-ction , - e ction| e progression progressant progress- -ion , -ant ion|ant progression progressif progressi- -on , -f on|f Ici un m eme mot peut fournir des suxes allomorphes : -tion et -ation pour le premier exemple, -on et -ction pour le deuxi` eme, et -ion et -on pour le troisi` eme. Dautres suxes sont dans ce cas : -ose (rang 11) vs -atose (rang 35), -ation (rang 19) vs -ion (rang 38) vs -tion (rang 40), 73

` PARTIR DE TERMINOLOGIES CHAPITRE 4. INDUCTION DE CONNAISSANCES MORPHOLOGIQUES A STRUCTUREES

-ique (rang 9) vs -que (rang 14) vs -tique (rang 37). En anglais aussi, les suxes exionnels, dont les suxes latins, viennent en premier. Laxation (-ic ) est en 7e position, et la composition (-osis ) en 8e . Comme pour les r` egles, les suxes en russe concernent essentiellement la exion. Le premier suxe d erivationnel appara t au 14e rang (-ny ), le second au 16e rang (-na ). Le premier composant -ma (forme tronqu ee de -oma (-ome )) appara t au 20 e rang. Parmi les suxes induits, ceux de la exion sont les plus fr equents. Comme pour les r` egles, laxation vient en deuxi` eme, et les composants en troisi` eme. Nous avons par ailleurs signal e les cas dambigu t e et dallomorphie des suxes rep er es, ceci dans les trois langues etudi ees. Ils sont dus a ` notre m ethode de segmentation des mots en pr exes et en suxes. Pr exes. La m ethode de segmentation a le m eme eet sur les pr exes : ils peuvent egalement etre segment es de di erentes mani` eres selon les paires de mots do` u ils sont induits et former ainsi des allomorphies dues a ` la segmentation : Mot 1 Mot 2 Pr exe Suxes R` egle brose brokystique bro-se , -kystique se|kystique broblastique brosarcome bro-blastique , -sarcome blastique|sarcome brose breuse br-ose , -euse ose|euse brillaire breux br-illaire , -eux illaire|eux ` chaque alignement la segmentation est donc apprise localement. A En anglais, nous trouvons rapidement des pr exes comme hyper- (rang 1), hypo- (rang 18), anti- (rang 36) ou trans- (rang 45) qui nappartiennent pas sp eciquement au domaine m edical, mais y sont tr` es utilis es. Mais la plupart des pr exes, surtout parmi les plus fr equents, sont bien caract eristiques du domaine. Nous avons egalement quelques allomorphes dus a ` la segmentation : neuro- et neur-, phosph- et phospho- ; et des variantes orthographiques : oesophag- et esophag-. Si les pr exes en russe sont majoritairement sp eciques du domaine, d` es les premiers rangs nous trouvons quelques pr exes neutres : t el-, rang 22 (dicile, lourd) et ` part ce m otkryt- rang 28 (ouvert) qui sont tr` es usit es dans le domaine m edical. A elange de langages sp ecialis e et non sp ecialis e, le russe pr esente egalement un m elange de racines slaves (poqeqn-, legoqn-, kostn- ) et de racines grecques et latines (fibro- = bro-). Parfois une m eme notion existe dans les deux versions : kostn- et osteo- (osteo- ), nervet ne ro- (neuro- ). La segmentation des mots en russe fournit egalement des allomorphes (fibro-, fibroz- et fibrozn-). Les pr exes pr esentent un m elange quon peut situer sur laxe de leur sp ecialisation. Bien que les pr exes du domaine soient dominants, ceux de la langue g en erale apparaissent egalement. Ce qui montre quil nexiste pas de fronti` ere etanche entre les langages sp ecialis es et non sp ecialis es mais que les lex` emes peuvent acqu erir une signication sp ecique dans un registre et un contexte donn es. Le russe en plus pr esente une terminologie double qui consiste a ` employer des racines slaves et des racines dorigine grecque ou latine. Parfois une m eme notion peut exister en deux versions. Par ailleurs, comme nous lavons remarqu e 74

` PARTIR DE SERIES 4.3. APPRENTISSAGE A DE SYNONYMES

pour les suxes, les pr exes induits peuvent se pr esenter sous formes allomorphiques suite aux di erents alignements et segmentations. Familles morphologiques. Parall` element aux remarques faites au sujet des pr exes et suxes, les familles morphologiques pr esentent beaucoup de exions, surtout en russe et en fran cais. La exion anglaise est compl et ee par la exion latine. En fonction des familles, les d erivations et compositions peuvent etre fr equentes. En anglais et en fran cais, nous remarquons aussi des familles constitu ees de variantes orthographiques. Dans les trois langues etudi ees les familles sont form ees autour des mots sp eciques du domaine m edical mais des mots neutres ou provenant dautres domaines sont aussi fr equents. Analyse des erreurs. Nous avons signal e plus haut les cas dallomorphie dus a ` la segmentation : la segmentation dun mot en pr exe et en suxe peut varier selon les alignements o` u il appara t. Mais les allomorphies de ce type peuvent etre trait ees avec des m ethodes de recherche de similarit e entre deux cha nes de caract` eres, par exemple (Jacquemin, 1997a), et si besoin regroup ees. La principale source derreurs concerne les cas o` u les cha nes initiales communes nont pas de parent e s emantique, ceci malgr e les contraintes concernant le contexte s emantique et la longueur minimale du pr exe. Les pr exes peuvent correspondre alors a ` des bases d erivationnelles di erentes : {trait, traitement}, {version, versant}, {classique, classe}, {chronique, chrome}, {clino de, clinique}, {glande, gland}, {malaise, malais}, {porteur, porte}. Le couple erron e {chronique, chrome} par exemple est g en er e avec la r` egle me|nique induite sur un couple correct {polyembryome, polyembryonique}. Dans dautres couples la cha ne initiale commune peut correspondre a ` un pr exe d erivationnel. La base, qui pourrait assurer la parent e s emantique des mots du couple, se trouve alors apr` es le pr exe : {microgliome, microcytaire}, {hyperplasie, hyperk eratose}, {h et erogree, h et erologue}. Certaines erreurs proviennent directement du mat eriel damor cage, comme le couple {ant erieur, ant eexion} : M-31030 : d eplacement ant erieur, ant eexion = {ant erieur , ant eexion}, o` u le pr exe ant e- correspond a ` un segment du lex` eme dans ant erieur et au pr exe dans ant eexion. Notons n eanmoins que la r` egle correspondante (rieur|exion ) ne se v erie que sur ce couple de mots. La longueur de la cha ne initiale commune peut egalement jouer un r ole dans la g en eration et le ltrage des erreurs. Ainsi, lorsque le pr exe est de trois caract` eres, la pr ecision diminue. Et laugmentation de la longueur du pr exe a ` quatre caract` eres permet d eviter les erreurs comme : {mal, malaire}, {dur, dural}, {scie, sciatique}, {vis, vision}, {sel, sellaire} ; mais elle passe sous silence les paires de mots correctes o` u le pr exe commun ne d epasse e pas trois caract` eres ou bien qui pr esentent des allomorphies avant le 4 caract` ere : {oed` eme, oed emateux}, {myc etome, mycosique}, {osseuse, ossication}, 75

` PARTIR DE TERMINOLOGIES CHAPITRE 4. INDUCTION DE CONNAISSANCES MORPHOLOGIQUES A STRUCTUREES

Les erreurs qui apparaissent dans les couples de mots sont ensuite propag ees sur les familles morphologiques. Par exemple la famille form ee autour du pr exe hyper- : hypercellulaire, hypercellularit e, hyperchylomicron emie, hyperlipoprot ein emie, hyperostose, hyperplasie, hyperplasique, hypertrophie, hypertrophique, hypertrophi e. Acquisition sur des mots invers es. La m eme m ethode appliqu ee aux mots invers es, lus de droite a ` gauche, par exemple erialucsumartni erialucsum au lieu de intramusculaire et musculaire, permet de les regrouper par rapport a ` leurs cha nes nales. Dans ce cas, ce sont les pr exes qui composent les r` egles. Par exemple, lajout de pr exes : |intra , |sub , |h emi , | epi , |p eri , |multi , |mal ; ou leur substitution : - inamma|r eac et d epigmenta|malnutri avec la nale -tion ; - bili|v esicul , lymph|r eticul , r eticulolymph|r eticul et interm edi|nodul avec la nale -aire . La r` egle esc|esch indique par contre une variante orthographique dans {escarre, escharre}. Cette application de la m ethode est int eressante pour la d etection des pr exes, par exemple a ` travers les r` egles comme : |intra , |sub , |h emi , | epi , etc. Mais, comme nous lavons not e, la proximit e s emantique des paires de mots associ es avec de telles r` egles nest pas assur ee : lapport s emantique de ces pr exes est souvent trop important pour sauvegarder la continu t e morphologique de la paire de mots. Les r esultats g en er es avec cette application ne semblent donc pas etre int eressants pour le traitement de la variation terminologique. Par contre, ils orent une vue compl ementaire dans la segmentation des mots et sont potentiellement int eressants pour le recensement de pr exes dune langue.

4.3.5

Conclusion et perspectives

Nous avons pr esent e les r esultats dacquisition de ressources morphologiques obtenus a ` partir de s eries de synonymes extraites dune terminologie structur ee. Ce contexte correspond a ` un reverse engineering, dans le sens o` u nous ne travaillons pas sur des donn ees brutes mais exploitons des connaissances encod ees auparavant. Notre m ethode est donc d ependante de lexistence de telles ressources. Pour la rendre plus g en erale, nous allons lappliquer a ` dautres relations s emantiques pouvant exister dans une terminologie (sec. 4.5). Ce contexte s emantique tr` es contraint permet dobtenir une excellente pr ecision pour les paires de mots et pour les familles morphologiques en fran cais et russe (entre 97,3 et 99,9%). En anglais la pr ecision se trouve entre 91,91,5% et 95,81,6%. La m ethode, appliqu ee sur des langues de trois types di erents (familles romane, germanique et slave), donne ainsi des r esultats tr` es performants. Le rappel, evalu e uniquement pour les donn ees en anglais, est de 91,2% pour la exion et de 79,2% pour laxation. Avec notre m ethode nous obtenons des paires de mots qui, suite a ` une segmentation permettent dinduire des pr exes, des suxes et des r` egles morphologiques. Par ailleurs les paires de mots sont regroup ees en familles morphologiques. 76

` PARTIR DE SERIES 4.4. APPRENTISSAGE A DE SYNONYMES ETIQUET EES ET LEMMATISEES

Les erreurs identi ees lors de la r evision humaine des paires de mots et des familles sont enregistr ees. Elles peuvent constituer une liste dexceptions pour les exp eriences futures (McCray et al., 1994; Namer, 2000). Nous les appliquons ainsi pour le ltrage dans les exp eriences pr esent ees dans le chapitre 5. Notre m ethode neectue pas de segmentation it erative en pr exes et suxes. Cependant, sans parler de la exion, beaucoup de mots m edicaux ont plus de deux el ements morphologiques : actino-myc-os-ique, ad eno-myom-ateux, an-alg esi-que, apo-n evr-ot-ique. Lordre des op erations, leurs d ependances et les apports s emantiques de chaque el ement doivent etre etudi es dans un mod` ele linguistique plus elabor e, par exemple dans une application de la morphologie constructionnelle (Namer, 1999; Namer, 2003a). Cette perspective va bien au-del` a de nos objectifs qui consistent plut ot a ` appr ehender et amorcer la constitution de ressources morphologiques pour une langue et un domaine qui nen disposent pas. Elle se rapproche des travaux en analyse morphos emantique (sec. 3.2.3 page 57) et pr esente une perspective int eressante. Chaque r` egle morphologique induite a une valeur associative : etant donn e deux suxes de cette r` egle, elle propose de relier deux mots qui comportent ces suxes et un pr exe dune longueur minimale donn ee. Mais souvent elle ne repr esente pas une op eration morphologique pr ecise, comme la formation des adjectifs d enominaux, des noms d everbaux, etc. De ce c ot e aussi, une etude linguistique devra compl eter et aner les r esultats. Les suxes les plus fr equents, comme les r` egles, concernent la exion. En anglais la exion couvre egalement la exion latine. Laxation vient ensuite et la composition suit. Nous rep erons egalement quelques variantes orthographiques. La exion, tr` es pr esente dans les r` egles et les suxes, est souvent combin ee avec les proc ed es de formation des lex` emes : axation et composition. Si des donn ees etiquet ees syntaxiquement sont disponibles, les r` egles induites deviendront plus pr ecises et pourront bloquer la g en eration de certaines paires de mots erron ees. Et si en plus nous disposons de donn ees lemmatis ees, les r` egles et les suxes seront nettoy es des exions. Des axes d erivationnels et des composants pourront ainsi emerger a ` la surface. Cest ce que nous pr esentons dans la section suivante.

4.4

Apprentissage ` a partir de s eries de synonymes etiquet ees et lemmatis ees

Dans la section pr ec edente, la m ethode a et e appliqu ee a ` des donn ees brutes, sans utilisation de connaissances linguistiques a priori . Dans cette section, notre int er et porte sur linuence des connaissances linguistiques, en particulier de l etiquetage morphosyntaxique et de la lemmatisation (Grabar, 1999a; Zweigenbaum & Grabar, 1999). Nous nous attendons a ` ce que les donn ees etiquet ees syntaxiquement permettent de rep erer les cas de conversion, qui ne sont pas d etect es sinon. Elles rendent egalement les r` egles plus contraintes en pr ecisant la cat egorie grammaticale des suxes obtenus. Tandis que les 77

` PARTIR DE TERMINOLOGIES CHAPITRE 4. INDUCTION DE CONNAISSANCES MORPHOLOGIQUES A STRUCTUREES

donn ees lemmatis ees permettent de faire labstraction de la exion et de faire ainsi emerger laxation et la composition.

4.4.1

Adaptation de la m ethode

Dans les donn ees etiquet ees, l etiquette morphoyntaxique assign ee a ` chaque mot est 3 s epar ee de lui par une barre oblique ( (/) ) : tissu/SBC:sg egar e/ADJ:sg pendant/PREP la/DTN:sg manipulation/SBC:sg technique/ADJ:sg La m eme m ethode est alors appliqu ee pour lacquisition de connaissances morphologiques sauf que l etiquette et le s eparateur ( (/) ) doivent faire partie des suxes. L etiquette est ainsi consid er ee comme une prolongation du suxe et permet de le sp ecier.

4.4.2

Pr eparation de donn ees etiquet ees et lemmatis ees

Lorsquon travaille sur une version etiquet ee et lemmatis ee des s eries de synonymes, le reste du mat eriel (liste de mots de r ef erence) doit egalement etre etiquet e et lemmatis e. Nous pr esentons ici le travail de pr eparation de ces donn ees eectu e pour le fran cais. Notons que le travail d etiquetage a et e egalement eectu e pour le russe (Grabar, 1999a), a ` travers une adaptation et un entra nement de l etiqueteur morphosyntaxique de (Brill, 1995) (d esormais Brill). Etiquetage des donn ees. Nous avons etiquet e les termes du R epertoire danatomopathologie en fran cais avec Brill. S epar ement, nous avons etiquet ea ` la main les mots des termes de la CIM-10 qui napparaissent pas dans le R epertoire. Brill est un etiqueteur g en erique que lon peut entra ner sur un corpus pr e etiquet e. Il est fourni par lauteur avec les donn ees r esultant de lentra nement sur un corpus journalistique anglais. Nous utilisons la version Brill INaLF, adapt ee au fran cais par lINaLF a ` travers un entra nement sur des textes litt eraires (Lecomte, 1998). Un jeu denviron 50 etiquettes est alors utilis e. Bien que la SNOMED recense les expressions naturelles de la langue, ces expressions, qui se pr esentent souvent comme des groupes nominaux, ont une syntaxe di erente de celle de phrases. Notons essentiellement : lomission darticle devant un nom : radical libre, bras articiel un nom initial suivi dau moins un adjectif : proth` ese valvulaire cardiaque articielle, vis m etallique orthop edique. Pour obtenir de meilleurs r esultats, nous avons adapt e Brill INaLF aux donn ees sp eciques que sont les termes : nous lavons dabord lanc e sur les termes de la SNOMED ; ensuite, sur un echantillon de 10 % (1 301 termes), nous avons corrig e les erreurs a ` la main 4 . Lors
La signication des etiquettes morphosyntaxiques est indiqu ee dans lannexe A.2.1 p. 208. La rectication des erreurs a et e eectu ee sous emacs. Nous remercions Yannick Toussaint qui nous a fourni gracieusement un programme dassignation et de correction manuelle des etiquettes morphosyntaxiques.
4 3

78

` PARTIR DE SERIES 4.4. APPRENTISSAGE A DE SYNONYMES ETIQUET EES ET LEMMATISEES

de la correction, nous avons ajout e une nouvelle etiquette PFX (pr exe). Elle sapplique aux pr exes et aux composants, qui se terminent souvent en -o et sont s epar es par un trait dunion du reste du mot. Et comme le trait dunion est un des caract` eres utilis es lors de la segmentation des termes en mots, ces el ements sont automatiquement isol es. Il est donc assez logique de leur assigner une etiquette correspondante : D0-10440 dermatose/SBC:sg pustuleuse/ADJ:sg sous/PFX -/- corn ee/SBC:sg D1-50460 bromatose/SBC:sg pseudo/PFX -/- sarcomateuse/ADJ:sg C-10072 radio/PFX -/- isotope/SBC:sg ,/, SAI/ABR D1-21000 ost eo/PFX -/- arthrose/SBC:sg ,/, SAI/ABR D3-20030 bro/PFX -/- elastose/NN endocardique/ADJ:sg L etape suivante a consist e en un r e-entra nement de l etiqueteur sur l echantillon corrig e manuellement. Ce qui a permis dune part denrichir le dictionnaire de mots m edicaux inconnus jusquici, et dautre part dacqu erir des r` egles contextuelles et lexicales sp eciques aux constructions terminologiques et a ` la langue m edicale. La nouvelle version de Brill a et e ensuite appliqu ee a ` tous les termes du R epertoire. Si la version Brill INaLF a montr e une pr ecision de 76,4 %, apr` es le r e-entra nement nous obtenons une pr ecision de 91,4 %. Notons n eanmoins que 13 % des mots restent encore inconnus du syst` eme et ont et e etiquet es a ` la main. Lemmatisation des donn ees. Nous avons appliqu e Flemm (Namer, 2000) pour lemmatiser les termes et mots munis d etiquettes Brill. Flemm permet egalement daner les etiquettes en ajoutant des traits morphologiques (genre, nombre) et de les rectier lorsquune distorsion entre la forme des mots et l etiquette assign ee est d etect ee.

4.4.3

Analyse et discussion des ressources morphologiques induites avec des donn ees etiquet ees et lemmatis ees

Nous avons appliqu e la m ethode aux donn ees en fran cais sur trois versions du mat eriel enrichi linguistiquement : etiquetage [CAT], lemmatisation [LEM], lemmatisation et etiquetage [LEM-CAT]. Nous comparons les nouveaux r esultats avec la version brute des donn ees [STD] telle que d ecrite dans la sec. 4.3.4. Etape damor cage. La g. 4.2(a) pr esente la taille des donn ees induites a ` l etape damor cage : paires de mots, r` egles, suxes et familles morphologiques. Avec les donn ees [CAT], le volume de toutes les donn ees augmente par rapport a ` [STD]. Ceci est d u aux mots polycat egoriels et aux conversions, qui ne sont pas rep er es sur les donn ees [STD] : rompu/ADJ:sg - rompu/ADJ2PAR:sg muqueuse/SBC:sg - muqueuse/ADJ:sg r esistant/ADJ:sg - r esistant/VNCNT. Le m eme fait inuence le contenu des suxes et des r` egles. Il sagit en particulier de : lapparition de r` egles de conversion : /ADJ:sg| /SBC:sg , /ADJ:sg| /VNCNT , /ADJ2PAR:sg| /ADJ:sg ; 79

` PARTIR DE TERMINOLOGIES CHAPITRE 4. INDUCTION DE CONNAISSANCES MORPHOLOGIQUES A STRUCTUREES

1200

1000

Paires de mots Suffixes Regles Familles

5000
+421%

4500 4000 3500 3000

+399%

Paires amorcage Paires generalisation Familles amorcage Familles generalisation

Taille des resultats

800

Gain

600

2500 2000
+269% +261%

+256%

+252%

400

1500
+186% +187%

200

1000 500

0 STD CAT LEM LEM-CAT

0 STD CAT LEM LEM-CAT

Version des donnees

Version des donnees

(a) Etape damor cage

(b) Etape de g en eralisation

100

98

Paires gener Paires amorc Familles gener Familles amorc

Precision

96

94

92

90 STD CAT LEM LEM-CAT

Version des donnees

(c) Pr ecision

Fig. 4.2 Acquisition de connaissances morphologiques avec des donn ees etiquet ees et lemmatis ees. =4.

la sp ecialisation de r` egles existantes : la r` egle aire| e est sp ecialis ee de deux mani` eres : aire/ADJ:sg| e/ADJ:sg = {fasciculaire/ADJ:sg , fascicul e/ADJ:sg } aire/ADJ:sg| e/SBC:sg = {cavitaire/ADJ:sg , cavit e/SBC:sg } ; la r` egle |e ne sapplique plus quaux adjectifs : /ADJ:sg|e/ADJ:sg = {nasal /ADJ:sg , nasale/ADJ:sg }. Cette r` egle g en` ere 27 paires en moins par rapport a ` [STD], dont les erreurs : gland - glande, gain - gaine, vaccin - vaccine, coup - coupe. Avec les donn ees [LEM], la taille des donn ees g en er ees diminue, elle est inf erieur a ` [CAT] et [STD] : la lemmatisation permet de sabstraire des formes echies en les r eduisant a ` leurs lemmes. Le nombre de paires de mots et de r` egles est r eduit en proportion : respecti80

` PARTIR DE SERIES 4.4. APPRENTISSAGE A DE SYNONYMES ETIQUET EES ET LEMMATISEES

vement 14 % et 10 % en moins. Les r` egles qui napparaissent plus concernent les exions (mise au f eminin e| ou au pluriel s| ) ou bien les r` egles qui combinent la exion avec laxation ou la composition (e|al vs e|ale ). Les r esultats de lexp erience [LEM-CAT] sont un croisement des deux exp eriences pr ec edentes. La lemmatisation des donn ees r eduit la exion, l etiquetage fait ressortir les mots polycat egoriels et permet de sp ecier les suxes morphosyntaxiquement. Etape de g en eralisation. La g. 4.2(a) montre le gain r ealis ea ` la g en eralisation pour les paires de mots et les familles morphologiques. Lintroduction de contraintes syntaxiques fait diminuer le gain en paires de mots : il passe de 421 % avec [STD] a ` 399 % avec [CAT]. En eet, certaines r` egles etant sp eci ees syntaxiquement, comme /ADJ:sg|e/ADJ:sg , ne sappliquent plus que dans ce contexte syntaxique pr ecis. Le nombre et la taille des familles morphologiques diminuent egalement. Avec les donn ees lemmatis ees [LEM], le gain diminue drastiquement a ` 256 % : la r eduction des suxes exionnels qui apparaissaient s epar ement ou en combinaison avec laxation et la composition se fait sentir. Les familles morphologiques diminuent encore plus : leur taille, car presque toutes elles comportaient la exion, et leur nombre, car certaines familles ne comportaient que des variantes exionnelles. Le gain avec la version [LEM-CAT] est de 252 %, il est l eg` erement inf erieur a ` [LEM] : le ltrage syntaxique compense la pr esence des conversions. Pr ecision. La pr ecision des familles morphologiques est toujours un peu inf erieure a ` celle des paires (g. 4.2(c)). De mani` ere g en erale, la g en eralisation des donn ees fait diminuer la pr ecision, qui reste pourtant tr` es elev ee. La pr ecision des paires de mots avec [CAT] passe a ` 98,3 % (augmentation dun % par rapport a ` [STD]) : plusieurs paires incorrectes ont pu etre ltr ees avec les contraintes syntaxiques. La pr ecision des paires [LEM] est moins bonne que celle obtenue avec [STD] : avec un volume des paires beaucoup moins elev e certaines erreurs persistent et prennent un pourcentage plus important. Mais ici aussi la di erence est faible, moins dun %. La combinaison [CAT-LEM] r eduit le nombre derreurs par rapport a ` [LEM] et, avec 97,1 % de pr ecision, atteint quasiment le niveau [STD]. La pr ecision [CAT-LEM] vs [LEM] a presque les m emes rapports que [CAT] vs [STD]. ` A c ot e des erreurs ltr ees par l etiquetage syntaxique (gland - glande, gain - gaine, etc.) certaines paires de mots correctes ne sont plus associ ees. Cela vient en partie de lexistence des mots polycat egoriels : le mat eriel damor cage ni la liste de r ef erence ne r epertorient toutes leurs etiquettes possibles. Par exemple la paire {gris, grise} o` u gris est ambigu entre le singulier et le pluriel. Et comme dans le lexique de r ef erence seule la forme plurielle est attest ee gris/ADJ:pl : T-A3040 noyaux/SBC:pl gris/ADJ:pl centraux/ADJ:pl, la r` egle de mise au f eminin /ADJ:sg|e/ADJ:sg ne peut donc pas etre appliqu ee. Il en est de m eme pour la r` egle de formation des pluriels l|ux sp eci ee en l/ADJ:sg|ux/ADJ:pl : elle ne peut etre appliqu ee quaux adjectifs et ne couvre plus les noms comme {canal/SBC:sg, canaux/SBC:pl}. Et comme la r` egle similaire pour la mise au pluriel des noms l/SBC:sg |ux/SBC:pl na pas et e induite, ces deux mots ne sont pas associ es. Ou une autre r` egle 81

` PARTIR DE TERMINOLOGIES CHAPITRE 4. INDUCTION DE CONNAISSANCES MORPHOLOGIQUES A STRUCTUREES

|ose induite sur le couple {hyalin, hyalinose}. Dans la version etiquet ee, cette r` egle devient /ADJ:sg|ose/SBC:sg et ne peut plus associer deux noms comme {cholest erol/SBC:sg, cholest erolose/SBC:sg}. L etiquetage syntaxique am eliore la pr ecision, mais le rappel a tendance a ` diminuer face a ` lincompl etude du mat eriel damor cage et aux mots polycat egoriels non r epertori es. Il faudrait assigner toutes les etiquettes possibles aux mots polycat egoriels, comme le sugg` ere (Krovetz, 1993). Nous analysons maintenant les r esultats obtenus avec les donn ees etiquet ees et lemmatis ees a ` l etape de g en eralisation. L echantillon de ces r esultats se trouve dans lannexe A.2 page 208. Nous discutons les r` egles morphologiques et les suxes parce que cest l` a quapparaissent les principales di erences par rapport aux donn ees [STD]. R` egles. Linjection de connaissances syntaxiques a principalement deux eets : sp ecialisation syntaxique des r` egles et emergence de la conversion. Ces di erences sont observables par rapport aux r` egles [STD]. Ainsi, la r` egle de mise au pluriel r egulier ( |s ), qui appara t au er 1 rang avec [STD], occupe maintenant les deux premiers rangs sous ses formes sp eci ees applicables aux adjectifs ( /ADJ:sg|s/ADJ:pl ) et aux noms ( /SBC:sg|s/SBC:pl ). La r` egle |e , 3e rang avec [STD], est sp eci ee en /ADJ:sg|e/ADJ:sg , 3e rang avec [CAT], et ne sapplique plus que pour former les f eminins dadjectifs. La premi` ere axation, formae tion dadjectifs d enominaux, se trouve au 5 rang (e/SBC:sg|ique/ADJ:sg ). La premi` ere e e composition (ite/SBC:sg|o/PFX ) au 16 . Au 8 rang appara t une r` egle de conversion ( /ADJ:sg| /SBC:sg ). Par ailleurs, certaines r` egles m elangent toujours la exion avec lafxation et la composition, mais dune mani` ere plus explicite : la r` egle aire/ADJ:sg|es/SBC:pl associe un adjectif au singulier avec un nom au pluriel. Comme la lemmatisation r eduit les formes exionnelles, les r` egles de exion napparaissent plus dans [LEM]. Laxation occupe les premiers rangs (e|ique , aire|e , e|que , ation| e , al|o ). La premi` ere r` egle de composition (e|ose ) appara t au 6e rang. Si la plupart des r` egles sappliquent a ` des noms et des adjectifs, les r` egles comme e|er , 23e rang, et e|ant , er 31 rang, impliquent les formes verbales. Dans les donn ees [LEM-CAT], le premier rang est occup e par une r` egle daxation e/SBC|ique/ADJ . Au deuxi` eme rang se trouve une r` egle de conversion /ADJ| /SBC . La premi` ere composition (e/SBC|ose/SBC ) appara t au 7e rang. Suxes. Par rapport aux suxes [STD] les suxes [CAT] sont sp eci es syntaxiquement. Nous pouvons ainsi distinguer deux -s et deux -e , dont lun sapplique aux adjectifs (-s/ADJ:pl , -e/ADJ:sg ) et un autre aux noms (-s/SBC:pl , -e/SBC:sg ). Par ailleurs, les suxes pluriels et singuliers peuvent etre distingu es au moyen de leur trait morphologique du nombre (-al/ADJ:sg vs -ux/ADJ:pl ). La premi` ere axation (-aire/ADJ:sg ) appara t au 6e rang, le premier composant (-me/ADJ:sg ) au 8e . Avec les donn ees [STD], nous avons vu que le suxe -se est ambigu hors contexte : il peut provenir de laxe exionnel -euse ou des composants -ose et -stase . L etiquetage syntaxique permet de le d esambigu ser en 82

` PARTIR DE SERIES 4.4. APPRENTISSAGE A DE SYNONYMES ETIQUET EES ET LEMMATISEES

partie : Mot 1 Mot 2 Suxes muqueux/ADJ:sg muqueuse/ADJ:sg = -x/ADJ:sg , -se/ADJ:sg cas eeux/ADJ:sg cas eeuse/ADJ:sg = -x/ADJ:sg , -se/ADJ:sg brose/SBC:sg brokystique/ADJ:sg = -se/SBC:sg , -kystique/ADJ:sg psychose/SBC:sg psychotique/ADJ:sg = -se/SBC:sg , -tique/ADJ:sg h emostase/SBC:sg h emostatique/ADJ:sg = -se/SBC:sg , -tique/ADJ:sg L etiquette syntaxique pr ecise que le -se adjectival provient dune exion et -se nominal des composants. Par contre, la confusion persiste face aux conversions comme muqueuse/SBC:sg. Avec les donn ees [CAT-LEM], les suxes exionnels napparaissent pas et laxation occupe les premiers rangs. Le premier composant -me (-ome tronqu e) appara t au 6e rang. Notons par ailleurs que le lemmatiseur, m eme performant pour le fran cais g en eral, ne dispose pas toujours de r` egles n ecessaires pour traiter convenablement le langage m edical. La particularit e linguistique, que nous discutons ici, concerne lemploi des mots sp eciques du domaine avec des exions irr eguli` eres et les mots latins. La dicult e appara t surtout avec des mots latins, noms ou adjectifs, termin es par un -s . Lorsque ce sont des noms pluriels ou singuliers, la suppression de -s nal nest pas toujours pertinente : singulier pluriel alcalis/SBC:pl = alcali adipositas/SBC:sg = adiposita fascias/SBC:pl = fascia cutis/SBC:sg = cuti f` eces/SBC:pl = f` ece hydrops/SBC:sg = hydrop Mais la plupart de noms singuliers de ce type sont n eanmoins correctement trait es. Par contre, les cas derreurs de lemmatisation des adjectifs concernent toujours des formes au singulier : abducens/ADJ:sg = abducen biceps/ADJ:sg = bicep chronicus/ADJ:sg = chronicu rectus/ADJ:sg = rectu Le lemmatiseur, comme l etiqueteur, devrait etre adapt e au vocabulaire du domaine de sp ecialit e, ici a ` la langue m edicale.

4.4.4

Conclusion et perspectives

Avec les donn ees etiquet ees syntaxiquement, les r` egles induites deviennent plus sp eciques et peuvent bloquer certaines erreurs. Elles font egalement emerger la conversion. La pr ecision des paires de mots a ` la g en eralisation augmente l eg` erement : elle est de 98,9 %. Par contre, nous constatons en m eme temps des silences dus aux lacunes concernant les mots polycat egoriels. Dans notre mat eriel, ces mots ne re coivent pas toutes les etiquettes possibles et ne peuvent donc plus etre trait es par les r` egles. Avec la lemmatisation la exion est r eduite et les r` egles et suxes font emerger deux autres proc ed es de formation de lex` emes : axation et composition. La pr ecision des paires de mots diminue dun % par rapport aux donn ees [STD], elle est alors de 97,3 %. Comme 83

` PARTIR DE TERMINOLOGIES CHAPITRE 4. INDUCTION DE CONNAISSANCES MORPHOLOGIQUES A STRUCTUREES

certaines erreurs peristent et le volume des donn ees g en er ees est moins important, ces erreurs prennent des proportions plus importantes. Les donn ees lemmatis ees et etiquet ees font abstraction de la exion et b en ecient des contraintes syntaxiques. Nous sommes en pr esence de trois proc ed es de formation des lex` emes : conversion, axation et composition. La pr ecision des paires de mots est presquaussi elev ee quavec les donn ees [STD] : 97,9 %. Malgr e les corrections manuelles des donn ees certaines erreurs d etiquetage persistent. Une correction progressive devrait etre faite et on pourra alors refaire cette exp erience avec des donn ees plus correctes. Dans les deux exp eriences pr esent ees jusqualors nous nous basons sur lexistence de relations de synonymie. Mais ces relations ne sont pas pr esentes dans toutes les terminologies structur ees. Il serait donc int eressant de g en eraliser la m ethode tout en protant du contexte s emantiquement contraint des terminologies. Cest ce que nous faisons dans la section suivante en exploitant dautres relations s emantiques du R epertoire danatomopathologie et de la CIM-10.

4.5

Apprentissage ` a partir dautres relations s emantiques encod ees dans les terminologies

Nous distinguons trois types de relations dans les terminologies : les relations lexicales, dont la synonymie, les relations hi erarchiques et les relations transversales (sec. 7.2 page 136). La relation hi erarchique, de nature conceptuelle et souvent la plus r epandue, pr esente un niveau obligatoire dans la structuration des termes. Les relations lexicales font leur apparition dans les produits terminologiques. Quant aux relations transversales, elles sont tr` es rares bien que, lorsquelles sont etiquet ees, elles permettent deectuer une description plus ne de la connaissance du domaine. An de rendre notre m ethode dinduction de ressources morphologiques plus g en erique, nous lappliquons a ` toutes ces relations, en exploitant le R epertoire danatomopathologie (relations hi erarchiques et transversales) et la CIM (relations hi erarchiques) (Grabar & Zweigenbaum, 2000b). Nous supposons donc que le contexte s emantiquement contraint reste sauvegard e avec ces autres types de relations.

4.5.1

M ethode

Nous utilisons la m eme m ethode que pour les termes synonymes (sec. 4.3.1), mais lamor cage est fait sur des s eries de termes en relation hi erarchique ou transversale. Les s eries de termes reli es hi erarchiquement sont constitu ees sur la base de leurs codes alphanum eriques, leur niveau hi erarchique etant souvent marqu ea ` travers ce code. Dans la SNOMED, le code a ` 5 chires repr esente 5 niveaux hi erarchiques. Plus le niveau est haut, plus il y a de z eros dans le code. Avec la sp ecialisation, les z eros sont pr ecis es par dautres chires : 84

` PARTIR DAUTRES RELATIONS SEMANTIQUES 4.5. APPRENTISSAGE A ENCODEES DANS LES TERMINOLOGIES

D2-53000 pneumoconiose, SAI D2-53400 pneumopathie li ee a ` linhalation de poussi` eres, SAI D2-53900 pneumonie par irradiation Dans la CIM, la sp ecialisation des concepts est signi ee par un principe similaire (ajout et sp ecialisation des chires du code alphanum erique) : A04 Autres infections intestinales bact eriennes A040 Infection ent eropathog` ene a ` Escherichia coli A041 Infection ent erotoxig` ene a ` Escherichia coli A045 Ent erite a ` Campylobacter A047 Ent erocolite a ` Clostridium dicile A049 Infection intestinale bact erienne, sans pr ecision Pour la constitution des s eries de termes reli es avec les relations transversales, nous avons utilis e linformation encod ee dans la SNOMED : D2-50140 (pneumonie, SAI) T-28000 (poumon, SAI) P1-57450 (appendicectomie, SAI) T-59200 (appendice vermiculaire, SAI)

4.5.2

Mat eriel

La liste de mots de r ef erence est la m eme que dans les exp eriences pr ec edentes : 8 874 formes de la SNOMED et de la CIM10. Les s eries de termes de la SNOMED et de la CIM10 sont reli ees par des relations hi erarchiques et transversales.

4.5.3

Analyse et discussion des ressources morphologiques induites avec diverses relations s emantiques

Nous d ecrivons ici les exp eriences eectu ees avec les donn ees en fran cais : relations hi erarchiques [HIE] et transversales [TRN] de la SNOMED, et relations hi erarchiques de la CIM10 [CIM10] que nous comparons avec les relations synonymiques de la SNOMED [STD]. La taille des donn ees de d epart est in egale selon les terminologies et les relations. La CIM10 propose ainsi moins de relations hi erarchiques que la SNOMED (tab. 4.3). STD HIE TRN CIM10 2 344 1 949 2 082 1 554 Tab. 4.3 Nombre de s eries des termes a ` lamor cage : relations s emantiques de la SNOMED ([STD], [HIE], [TRN]) et relations hi erarchiques de la CIM10 [CIM10].

Etape damor cage. La comparaison des volumes de donn ees induites a ` lamor cage (g. 4.3(a)) montre egalement une di erence notable. Ce sont les donn ees [STD] qui permettent dinduire les donn ees les plus volumineuses. Les relations hi erarchiques de la CIM-10 [CIM10], compar ees aux relations hi erarchiques de la SNOMED [HIE], montrent une productivit e sup erieure pour les paires de mots et les familles morphologiques. Mais le nombre 85

` PARTIR DE TERMINOLOGIES CHAPITRE 4. INDUCTION DE CONNAISSANCES MORPHOLOGIQUES A STRUCTUREES

1000

Paires de mots Suffixes Regles Familles

5000
+421%

4500 4000
+644%

+496%

Paires amorc. Paires gener. Familles amorc. Familles gener.


+437%

Taille des resultats

800

3500 3000

Gain

600

2500 2000 1500


+269% +486%

400

+464%

+311%

200

1000 500

0 STD HIE TRN CIM10

0 STD HIE TRN CIM10

Version des donnees

Version des donnees

(a) Etape damor cage

(b) Etape de g en eralisation

100

98

Paires gener Paires amorc Familles gener Familles amorc

Precision

96

94

92

90 STD HIE TRN CIM10

Version des donnees

(c) Pr ecision

Fig. 4.3 Acquisition de connaissances morphologiques avec diverses relations s emantiques encod ees dans les terminologies. =4.

de suxes et de r` egles est sup erieur avec [HIE] de la SNOMED. Les relations transversales de la SNOMED [TRN], avec une di erence entre le nombre de suxes et de r` egles plus importante quailleurs, montrent une grande capacit e combinatoire de ces suxes. Etape de g en eralisation. La gure 4.3(b) montre le gain r ealis e par les r` egles a ` l etape de g en eralisation. La version [HIE] a le gain le plus elev e en paires de mots (644 %) et en familles morphologiques (464 %), tandis que [STD] atteint respectivement 421 % et 269 %. Mais du point de vue du volume des donn ees [STD] en propose le plus a ` la g en eralisation. Notons que, malgr e le gain r ealis e par la CIM (437 % pour les paires de mots et 311 % pour les familles), les volumes des donn ees quelle permet de g en erer restent inf erieurs a ` ceux de la SNOMED. 86

` PARTIR DAUTRES RELATIONS SEMANTIQUES 4.5. APPRENTISSAGE A ENCODEES DANS LES TERMINOLOGIES

Pr ecision. La pr ecision pour les paires de mots et les familles a ` la g en eralisation est excellente pour toutes les m ethodes : entre 97 % et 98 % (g. 4.3(c)). La pr ecision des familles morphologiques est egalement excellente, a ` peine inf erieure dun % a ` la pr ecision des paires de mots. Notons quavec [HIE] la pr ecision augmente a ` la g en eralisation. Un echantillon des r esultats se trouve dans lannexe A.3 page 218. Ici, nous montrons les di erences qui existent entre les suxes et r` egles induits avec les exp eriences [STD], [HIE], [TRN] et [CIM10]. Suxes. Sur 891 suxes au total, il ny en a que 66 qui sont propos es par toutes les 4 exp eriences ([STD], [HIE], [TRN] et [CIM10]). Il sagit bien s ur des exions (-e , -s , -x , - e), y compris les exions latines (-a , -um , -us ). Mais dans la majorit e des cas, ce sont des suxes d erivationnels (-aire , -al , -ant , -ique , -ation ) et leurs variantes exionnelles et de segmentation : -aires et -ire pour -aire ; -aque , -cique , -que , -ques et -tique pour -ique . Nous avons aussi quelques composants tr` es fr equents du domaine : -ite , -me , -opathie , -ose , -pathie . 108 suxes sont partag es par trois exp eriences et 177 par deux exp eriences. Plus de la moiti e des suxes (540) sont uniques a ` lune des exp eriences : 143 avec [STD], 171 avec [HIE], 77 avec [TRN] et 149 avec [CIM10]. La principale di erence de ces suxes uniques provient des composants, qui peuvent etre el ementaires (-glie ) ou bien d ecomposables a ` leur tour (-(o)sarcomatose ) : STD : -dermie , -blastomatose , -leuc emie , -exion , -glie , -graphie , -gree , -logue , -micrographie , -monoblastique , -(o)moteur , -(o)phage , -philie , -(o)rraphie , -plastique , -synaptique HIE : -ad enocarcinome , -alanine , -ang eite , -arthrite , -basal , -blaste , -calice , -cervical , -corps , -cytose , -globine , -lipid emie , -logie , -nucl eaire , -activit e , -(o)rrhexis , -pathologie , -plasmique TRN : -allergique , -carde , -dynie , -ectomie , -cervicite , -myocardique , -dysplasie , -gliome , -g en` ese , -my eloc` ele , -salpinx , -thorax CIM10 : -biotiques , -c er ebrale , -fongiques , -musculaire , -mycose , -globuline , -rhumatismal , -sexuel , -stimulants , -toniques , -pulmonaires Comme dans les exp eriences pr ec edentes, nous avons les variantes exionnelles : -logique (STD, HIE, TRN) vs -logiques (CIM10) -rachidien (HIE) vs -rachidiens (CIM10) -cr anien (HIE) vs -cr anienne (CIM10) vs -cr aniennes (CIM10) vs -cr aniens (CIM10) -apical (STD, TRN) vs -apicaux (TRN) et les variantes de segmentation des composants : -chrome (STD) vs -hrome (HIE) vs -ochrome (HIE) -n ecrose (CIM10) vs -on ecrose (TRN) -o ethyl` ene (STD) vs - ethyl` ene (HIE) Il est int eressant de remarquer que la plupart des suxes uniques de la CIM10 sont au pluriel : -atoses , -bles , -ites , -thies , -logiques , -rachidiens , -cr aniennes , -cr aniens , etc. Il 87

` PARTIR DE TERMINOLOGIES CHAPITRE 4. INDUCTION DE CONNAISSANCES MORPHOLOGIQUES A STRUCTUREES

sagit certainement dune particularit e du m etalangage de la CIM o` u les formes au pluriel acqui` erent une signication plus g en erique. R` egles. Sur la totalit e des 1299 r` egles, 47 sont propos ees a ` la fois par les quatre exp eriences. Il sagit des r` egles de exion (es| , e| , s| , s|e ), mais surtout des r` egles daxation, avec ou sans variation exionnelle (e|aire , e|al , ique|e , nel| , o|aire , o|al , que|e , s|aire , s|dien , tique|se , x|cique ). Et de quelques r` egles de composition : opathie|aque , ose|euse , o|ite , us|ose . Deux tiers des r` egles (921) sont uniques a ` lune des exp eriences : 252 r` egles a ` STD, 304 a ` HIE, 190 a ` TRN, et 175 a ` CIM10 : STD : me|dermie , logue|gree , se|philie , plastique|gree HIE : blaste| , m etriales|cervicales , peroxidase|cytochimique , nucl eaire|corps , orrhexis|aire TRN : myocardique|carde , ique|ectomie , thorax|rragie , ogliome|e CIM10 : mycose|blastomycose , ventriculaire|c er ebrale , fongiques|biotiques Les di erentes terminologies et relations examin ees peuvent identier di erentes relations morphologiques. Les suxes et r` egles de exion et daxation composent un noyau commun assez stable, m eme sil en existe de nombreuses variantes de segmentation. La principale di erence dans les exp eriences pr esent ees provient des composants et des r` egles correspondantes. Les relations hi erarchiques et transversales mettent en jeu des termes qui sont s emantiquement plus eloign es que des synonymes. Nous nous attendions a ` ce que ces relations fournissent le plus grand nombre de composants. Mais il appara t que toutes les relations exploit ees, y compris la synonymie, sont productives en composants et en r` egles de composition. Les r esultats de chacune des relations exploit ees sont plut ot compl ementaires. Les exp eriences [HIE] et [TRN] permettent par exemple dinduire une r` egle de composition assez g en erale ite| , non fournie par [STD]. Cette r` egle g en` ere des paires comme : {tympan, tympanite}, {vagin, vaginite}, {sinus, sinusite}, {m eat, m eatite}.

4.5.4

Conclusion et perspectives

Lexploitation des di erentes relations encod ees dans une terminologie permet de g en eraliser la m ethode et la rend applicable a ` nimporte quelle terminologie structur ee. Nous avons exploit e trois types de relations : lexicales, hi erarchiques et transversales. Lapport de chacune est important et leur combinaison am eliore le rappel. La pr ecision a ` l etape de g en eralisation reste tr` es bonne, entre 97,3 % et 98,5 %. M eme si la prise en compte de di erentes relations dans les terminologies permet denrichir les connaissances morphologiques, le lexique des terminologies nest pas exhaustif : des lex` emes sont absents ou bien ne re coivent pas toutes les formes exionnelles, ni les axations ou compositions. Un travail sur des corpus (Xu & Croft, 1998; Zweigenbaum et al., 2003b) doit permettre dacqu erir une plus grande vari et e de r` egles et de traiter un 5 plus grand nombre de lex` emes .
5

Ces attentes ne pas tout a ` fait justi ees, comme le montre la comparaison de la sec. 8.4 page 167.

88

4.6. AJUSTEMENT ET MAXIMISATION DES SUFFIXES

La principale di erence entre les di erentes relations et terminologies explor ees concerne les suxes et r` egles de composition. Les suxes de exion et daxation semblent former un noyau commun assez stable, bien quils pr esentent de nombreuses variantes exionnelles et de segmentation. Il serait int eressant dhomog en eiser les variantes de segmentation et eventuellement de rapprocher les suxes et pr exes induits des el ements morphologiques r eels. Cest ce que nous essayons de faire dans la section suivante en eectuant un apprentissage endog` ene sur lensemble des formes de la liste de r ef erence.

4.6

Ajustement et maximisation des suxes

Notre objectif ici est d eviter des troncations al eatoires des mots et dinduire des suxes et pr exes linguistiquement plus pertinents. Pour cela, nous mettons en place une maximisation des suxes en eectuant un apprentissage endog` ene sur la totalit e des formes de la liste de r ef erence.

4.6.1

Adaptation de la m ethode

La m ethode standard est focalis ee sur la d etection des cha nes initiales communes maximales lors de la comparaison dune paire de mots. Les pr exes sont alors etendus au maximum vers la droite et le premier caract` ere non commun marque la fronti` ere entre le pr exe et les suxes. Avec la maximisation des suxes, un calcul compl ementaire est eectu e pour etendre en m eme temps ceux-ci au maximum vers la gauche. Ainsi lors de lapplication dune r` egle, les paires de mots qui la v erient sont recherch ees. Comme dans la m ethode standard, une paire est retenue si le pr exe commun est susamment long. En un deuxi` eme temps, nous eectuons un calcul suppl ementaire pour rechercher, dans la paire de mots en question, un segment commun compl ementaire qui etend les suxes vers la gauche. Si ce segment est pr esent dans toutes les paires de mots dune r` egle, cest la version etendue des suxes de cette r` egle qui est retenue. Les pr exes sont diminu es en proportion. La maximisation de suxes est une etape facultative dans la m ethode, laiss ee au choix de lutilisateur. La maximisation ne modie pas les paires de mots ni les familles induites. Elle touche simplement les segments de mots : pr exes et suxes.

4.6.2

Mat eriel

La m ethode ainsi modi ee peut etre appliqu ee a ` nimporte quelle version du mat eriel. Nous lappliquons ici aux s eries de synonymes lemmatis ees. 89

` PARTIR DE TERMINOLOGIES CHAPITRE 4. INDUCTION DE CONNAISSANCES MORPHOLOGIQUES A STRUCTUREES

4.6.3

Analyse et discussion des ressources morphologiques induites avec la maximisation des suxes

Le nombre des paires de mots mis en relations morphologiques et des familles est le m eme que dans lexp erience [LEM]. Il en va de m eme pour l evaluation de la pr ecision. Ce sont les segments de mots, pr exes et suxes, qui sont modi es par cette version de la m ethode. Le nombre de r` egles et leurs rangs restent les m emes mais les suxes qui les composent peuvent changer formellement, comme dans les exemples du tab. 4.4. Dans ce tableau, nous indiquons la r` egle induite avec la m ethode standard, le segment compl ementaire calcul e avec la m ethode [MAX] et la r` egle qui r esulte de cette maximisation. R` egle que|e x|se ux|l ve|f me|sarcome me|se Ajout (i) (eu) (a) (i) (o) (o) R` egle etendue ique|ie eux|euse aux|al ive|if ome|osarcome ome|ose

= = = = = =

Tab. 4.4 Quelques exemples de r` egles avec des suxes maximis es.

Avec la m ethode [MAX] nous obtenons 583 suxes et 1 252 pr exes, alors que dans la version [LEM] il y en avait 409 et 1 431 respectivement. Ainsi, le nombre de suxes augmente et celui des pr exes diminue. Nous discutons maintenant ces di erences. Un echantillon des r esultats [MAX] se trouve dans lannexe A.4 page 227. Suxes. Lexamen des suxes les plus fr equents montre que leurs rangs et fr equences dapparition dans les paires de mots ne sont pas les m emes que dans la version [LEM]. Il en va de m eme pour leur nombre. Le premier suxe dans les deux listes, -e , voit sa fr equence diminuer de 639 avec [LEM] a ` 556 avec [MAX] : il est maximis e selon les contextes et appara t alors sous ses formes etendues. Le suxe qui occupe le 2e rang dans [MAX] appara t 288 fois dans les paires de mots. e Le m eme suxe est au 10 rang dans les r esultats [LEM], avec une fr equence de 102. En m eme temps, le suxe [LEM] -me , 6e rang 17 occurrences, nappara t pas dans les r esultats [MAX]. Il est fusionn e avec -ome , comme dans les paires suivantes : {lipome, lipoblastique}, {h emato, h ematome}, {chondrome, chondroblastome}. Par ailleurs, le suxe -e peut egalement etre maximis e jusqu` a -ome a ` travers par exemple la r` egle etendue ome|omateux , qui est v eri ee sur les paires de mots comme : {lipome, lipomateux}, {ath erome, ath eromateux}, {brome, bromateux}, {ad enobrome, ad enobromateux}, {cylindrome, cylindromateux}. 90

4.6. AJUSTEMENT ET MAXIMISATION DES SUFFIXES

Ainsi, selon les contextes, les suxes [LEM] -me et -e sont maximis es jusqu` a -ome . Ce qui augmente la fr equence de ce dernier dans les paires de mots et le situe au 2e rang. Le suxe -o occupe le 3e rang dans les deux cas, mais il a une fr equence un peu plus importante dans [MAX] : il est d etect e, gr ace a ` la maximisation, dans plus de paires de mots. Le suxe -ique remonte aussi a ` la surface : 254 occurrences avec [MAX] vs 176 avec [LEM]. Comme dans le cas de -ome , il existe plus de paires de mots o` u il est d etectable gr ace a ` la maximisation. Lextension des suxes vers la gauche, lorsque cest possible, conduit vers leur r earrangement. Certains, comme -me , disparaissent en nourrissant leurs formes etendues (-ome ). Dautres, comme -e , sont etendus dans certains contextes seulement et selon ces contextes. ` cot A e de cette tendance r eunicatrice, les suxes qui apparaissent dans les r` egles qui se v erient que sur une seule paire de mots sont etendus au maximum vers la gauche... jusquau d ebut de chaque mot de la paire. Les suxes correspondront alors aux mots entiers. Ceci peut etre consid er e comme un inconv enient de la m ethode face aux r` egles hapax : variante|variation , ut ero|ut erin , tricholeuc emie|tricholymphocyte , thrombus|thrombos e, thorax|thoracique , thrombop enie|thrombocytop enie , etc. Ce cas appara t avec des emprunts (thorax, thrombus, etc.), avec des compos es (tricholeuc emie, thrombop enie, etc.) et les paires de lex` emes en relations morphologiques rares (variante|variation , tache|tachet e ). Dans certains cas, selon le contexte fourni par les paires de mots, la maximisation des suxes est bloqu ee car elle ne se v erie pas sur toutes les paires de mots. Par exemple la r` egle se|tique , qui g en` ere entre autres la paire {st enose, st enotique}, nest pas etendue jusqu` a ose|otique . Car dautres paires, egalement g en er ees par cette r` egle : {synapse, synaptique}, {cholestase, cholestatique}, {ost eolyse, ost eolytique}, etc. bloquent une telle maximisation. Pr exes. Les pr exes, dont le nombre diminue, sont r eajust es en m eme temps que les suxes. Parmi les pr exes les plus fr equents, cest le -o- nal qui dispara t : br-, my el-, lymph-, ost e-, ad en-. Ce -o- est alors joint aux suxes ou bien appara t isol ement. Notons que les donn ees [LEM] peuvent comporter les deux versions de tels pr exes, voire plus : bro- et br- ; my elo-, my el- et my elom-.

4.6.4

Conclusion et perspectives

Lors de la maximisation des suxes, ni les paires de mots ni les familles ne sont touch ees. Par contre la d ecomposition des lex` emes en pr exes et suxes nest pas la m eme. Si lensemble des paires de lex` emes g en er ees par une r` egle permet deectuer une extension des suxes vers la gauche, le segment commun compl ementaire est alors ajout e aux suxes de la r` egle. Mais si une des paires ne permet pas la maximisation, celle-ci est bloqu ee et 91

` PARTIR DE TERMINOLOGIES CHAPITRE 4. INDUCTION DE CONNAISSANCES MORPHOLOGIQUES A STRUCTUREES

les suxes sont alors inchang es. Dans les cas de r` egles hapaxiques, suite a ` une extension maximale vers la gauche, ce sont les mots entiers qui sont retenus comme suxes. Dans la majorit e des cas, les lex` emes ainsi segment es fournissent des pr exes et sufxes qui se rapprochent plus d el ements morphologiques linguistiquement pertinents. Si n ecessaire, un regroupement des el ements qui r esultent alors pourrait etre eectu e en un deuxi` eme temps avec la m ethode de (Jacquemin, 1997a), comme nous le faisons dans la sec. 5.6.3 page 107.

4.7

Bilan de lacquisition automatique de ressources morphologiques ` a partir de terminologies structur ees et quelques perspectives

Comme dans dautres travaux en acquisition de ressources morphologiques, notre m ethode est bas ee sur la recherche de mots poss edant une cha ne initiale commune susamment longue. Nous trouvons un contexte s emantiquement contraint a ` travers les relations s emantiques encod ees dans une terminologie structur ee. La m ethode propos ee demande donc un type particulier de mat eriel damor cage, les terminologies structur ees. Elle est donc d ependante de leur existence et de leur disponibilit e. Si la synonymie est une denr ee terminologique plut ot rare, lapplication de la m ethode aux di erentes relations s emantiques (lexicales, hi erarchiques et transversales) permet de la rendre plus g en erique et plus facilement applicable. La contrainte qui garantit la proximit e s emantique des mots formellement proches reste forte avec tous ces types de relations et donne une pr ecision tr` es elev ee. Nous avons appliqu e la m ethode a ` des langues de trois familles di erentes : romane (fran cais), germanique (anglais) et slave (russe). La pr ecision se montre excellente (sup erieure a ` 90 %) dans ces exp eriences. Malgr e le faible taux derreur, les r esultats induits doivent n eanmoins etre soumis a ` une validation humaine. Le rappel des paires de mots induites en anglais a et e evalu e par rapport aux r esultats founis par lvg dUMLS, la seule base de donn ees morphologiques du domaine m edical disponible publiquement. Le rappel pour les paires exionnelles est de plus de 90 %. Il est moins bon pour laxation : un peu moins de 80 %. Il serait int eressant dappliquer la m ethode a ` dautres langues indo-europ eennes, mais egalement a ` des langues non indo-europ eennes, par exemple les langues id eographiques (japonais, chinois) ou les langues s emitiques. Lors de linduction des connaissances morphologiques nous eectuons une segmentation des mots, ce qui nous permet dobtenir (1) les cha nes initiales maximales communes, appel ees pr exes, et (2) les cha nes nales, appel ees suxes. Dans la m ethode standard la segmentation est eectu ee localement sur chaque paire de mots. Un m eme mot, en fonction des mots avec lesquels il est align e, peut donc etre segment e de di erentes mani` eres et donner lieu a ` des allomorphies dues a ` la segmentation. La maximisation des suxes conduit vers une extension des suxes vers la gauche et permet de r eduire en partie de telles segmentations allomorphiques. Les m ethodes de recherche de similarit e entre deux cha nes de caract` eres, par exemple (Jacquemin, 1997a), peuvent egalement conduire vers 92

` PARTIR DE 4.7. BILAN DE LACQUISITION AUTOMATIQUE DE RESSOURCES MORPHOLOGIQUES A TERMINOLOGIES STRUCTUREES ET QUELQUES PERSPECTIVES

un regroupement de telles allomorphies. Les suxes appris sur une paire de mots forment une r` egle. Ces r` egles ont une valeur associative : etant donn e deux suxes, elles proposent de relier deux mots qui comportent ces suxes et un pr exe dune longueur minimale donn ee. Mais souvent elles ne repr esentent pas une op eration morphologique pr ecise, comme la formation des adjectifs d enominaux, des noms d everbaux, etc. En m eme temps, la m ethode nest pas it erative : les mots sont soumis a ` une seule segmentation, alors que la plupart des mots du domaine se composent de plus de deux el ements morphologiques. Une segmentation plus ne, avec l etablissement dun ordre dans les op erations morphologiques et de d ependances s emantiques, demande un mod` ele morphologique plus elabor e, comme celui impl ement e dans lanalyseur DeriF (Namer, 1999). Une telle analyse rejoint les travaux en analyse morphos emantique des mots m edicaux (sec. 3.2.3 page 57) et constitue une perspective de ce travail. Plus imm ediatement, des connaissances s emantiques pourraient etre introduites a ` travers un typage s emantique des suxes. Ce typage peut etre obtenu par exemple avec les axes s emantiques de la SNOMED o` u ces suxes apparaissent le plus souvent. Les donn ees induites avec notre m ethode permettent donc deectuer un premier abord du syst` eme morphologique dune langue et en fournissent une description sommaire. Elles sont directement utilisables pour le traitement de la variation terminologique a ` travers, par exemple, les paires de mots, les familles ou m emes les r` egles. Lapplication des r` egles aux mots des terminologies m edicales conduit a ` des r esultats dune pr ecision remarquable. Mais le bruit alors g en er e constitue quant m eme une pierre dachoppement a ` lutilisation de ces r` egles. Leur pr ecision risque par ailleurs de diminuer si elle sont appliqu ees aux mots provenant de corpus textuels dont la langue nest pas aussi sp ecialis ee et contr ol ee que dans les terminologies. La abilit e des r` egles peut alors etre contr ol ee a ` travers un seuil de conance, bas e par exemple sur le nombre dexemples o` u ces r` egles sont v eri ees. Ce type de mesure de pertinence est souvent utilis e dans les travaux similaires (Gaussier, 1999; Pirrelli & Yvon, 1999). Il pourrait servir a ` r eduire la taille de la cha ne initiale commune et a ` aider le traitement des mots courts sans perdre de pr ecision. Des listes dexceptions aux r` egles peuvent egalement etre utilis ees. Notons que leur existence sous-entend un travail d ej` a important dans lanalyse des donn ees g en er ees. Si nous comparons le rendement des paires de mots en suxes et en r` egles, il appara t que le russe a le syst` eme morphologique le plus riche ou du moins qui se laisse d ecouvrir le plus vite et avec peu de mat eriel. Il est suivi par le fran cais et par langlais. Notons que la d ecouverte des syst` emes morphologiques nest pas directement proportionnelle a ` la taille du mat eriel damor cage. Comme dans dautres applications du TAL, nous atteignons assez rapidement un niveau minimal. Pour aller au-del` a, il faut disposer de donn ees damor cage bien plus volumineuses et vari ees. Eectivement les terminologies, m eme avec une bonne couverture du domaine m edical comme la SNOMED (Elkin et al., 2001), restent n eanmoins loin de recenser tous les termes du domaine (Hersh et al., 1997). Pour mieux couvrir le domaine m edical, il faudrait compl eter le mat eriel damor cage avec des corpus ou bien compl eter lacquisition avec des m ethodes qui travaillent a ` partir de corpus (Xu & Croft, 1998; Zweigenbaum et al., 2003b). Nous avons appliqu e la m ethode a ` di erentes relations s emantiques dans di erentes ter93

` PARTIR DE TERMINOLOGIES CHAPITRE 4. INDUCTION DE CONNAISSANCES MORPHOLOGIQUES A STRUCTUREES

minologies m edicales. La exion et laxation constituent un noyau commun assez stable. La di erence provient de la composition et des allomorphies de segmentation. Les r esultats induits a ` travers ces di erentes relations et terminologies sav` erent compl ementaires. Nous avons egalement appliqu e la m ethode au domaine de lagriculture a ` travers le thesaurus AgroVoc (Zweigenbaum & Grabar, 2000). Il serait int eressant de lappliquer a ` dautres domaines de sp ecialit e et de faire une comparaison des r` egles et suxes induits. Nous nous attendons a ` ce que ce soit la composition qui constitue la principale di erence dans les donn ees g en er ees. Le fait de varier la taille de la cha ne initiale commune de 3 a ` 4 caract` eres am eliore la pr ecision, mais passe sous silence les paires de mots o` u le pr exe commun ne d epasse pas trois caract` eres ou bien qui pr esentent des allomorphies morphologiques avant le 4 e caract` ere. Les allomorphies, g en eralement non d etect ees avec notre m ethode, de m eme que les suppl etions, pourraient etre enregistr ees a ` lavance (McCray et al., 1994; Namer, 2000), au m eme titre que les exceptions aux r` egles morphologiques. Lorque le travail est eectu e sur des donn ees etiquet ees syntaxiquement, les r` egles deviennent syntaxiquement plus sp eciques et bloquent ainsi la g en eration de certaines paires de mots incorrectes. De mani` ere g en erale, l etiquetage fait augmententer la pr ecision. Et il fait ressortir les conversions. Mais les mots polycat egoriels, qui ne re coivent pas toutes les etiquettes possibles dans le mat eriel dont nous disposons, font diminuer le rappel : certaines paires de mots ne peuvent plus etre g en er ees. Il faudrait pouvoir assigner toutes les etiquettes possibles aux mots polycat egoriels, comme le sugg` ere (Krovetz, 1993). Lutilisation de donn ees lemmatis ees permet de faire abstraction de la exion et de se concentrer sur les proc ed es de formation des lex` emes, laxation et la composition. Avec la lemmatisation, la pr ecision diminue : certaines erreurs persistent et, face au volume plus petit des donn ees induites, prennent des proportions plus grandes. La principale source derreurs g en er ees avec notre m ethode concerne les cas o` u les cha nes initiales communes nont pas de parent e s emantique, ceci malgr e les contraintes concernant le contexte s emantique et la longueur minimale du pr exe. Les pr exes peuvent alors correspondre a ` des bases di erentes ou a ` la pr esence de pr exes d erivationnels. Nous avons travaill e ind ependamment sur di erentes langues. Mais il peut etre int eressant de mettre en parall` ele les terminologies internationales pour collecter le lexique et les ressources morphologiques multilingues (Baud et al., 1997; Schulz et al., 1999). Le travail en multilingue pourrait permettre dam eliorer les ressources morphologiques dans chacune des langues trait ees : les cha nons manquants dans une langue peuvent etre compl et es sur la base des donn ees dautres langues. Par ailleurs, lapprentissage des cognats (mots graphiquement et s emantiquement proches dans di erentes langues : st enose en fran cais vs stenosis en anglais) est une autre perspective que pr esente le travail sur les donn ees multilingues align ees, comme les terminologies internationales. Par rapport aux proc ed es d ecrits dans le chapitre 3, notre m ethode permet de d ecouvrir la exion, la conversion, laxation (suxation et pr exation) et la composition savante. La composition populaire ne semble pas appara tre dans les terminologies explor ees. Nous disposons donc de ressources utiles pour le traitement de la variation morphologique des termes : exion, suxation et conversion. 94

Chapitre 5 Productivit e quantitative des proc ed es morphologiques de ladjectivation d enominale


La productivit e des proc ed es morphologiques est globalement re et ee par la fr equence de leurs emplois. Notons cependant que cette notion est souvent utilis ee sans etre d enie et peut recouvrir de ce fait di erentes r ealit es morphologiques. Nous nous int eressons ici a ` la productivit e quantitative des proc ed es morphologiques relatifs a ` la formation des adjectifs d enominaux. Une des id ees sous-jacentes concerne la sp ecicit e de ces proc ed es dans le domaine m edical, selon ses sous-domaines et genres.

5.1

Introduction

Parmi les di erents emplois de productivit e morphologique , deux approches se d egagent : qualitative et quantitative (Dal, 2003). Elles peuvent etre rapproch ees des notions de disponibilit e et de rentabilit e (Corbin, 1987, p. 176178) : La disponibilit e dun axe concerne sa possibilit e de construire des lex` emes. Elle prend en compte la nature de laxe et les contraintes de son application. Cette notion correspond aux approches qualitatives, qui montrent une image binaire de la productivit e des axes : ils sont productifs ou non productifs. La rentabilit e dun axe concerne la possibilit e quil a de sappliquer a ` un grand nombre de bases et de former un grand nombre de lex` emes construits. Cette notion correspond aux approches quantitatives et consiste souvent en un recensement des formations dun axe. Dans ce cas, la productivit e dun proc ed e est une variable qui se situe sur un continuum qui va du non productif au tr` es productif. Dans ce chapitre, nous nous int eressons a ` la productivit e quantitative et mesurons la productivit e des proc ed es morphologiques de formation dadjectifs d enominaux dans 95

QUANTITATIVE DES PROCED ES MORPHOLOGIQUES DE LADJECTIVATION CHAPITRE 5. PRODUCTIVITE DENOMINALE

Suxe -aire -ais -al - e -el -eux -ien -ier -if -in -ique -oire -ois

Exemples {corpuscule/SBC, corpusculaire/ADJ} { ecosse/SBC, ecossais/ADJ} {h emorro de/SBC, h emorro dal/ADJ} {st enose/SBC, st enos e/ADJ} {cat egorie/SBC, cat egoriel/ADJ} {naus ee/SBC, naus eeux/ADJ} {microbe/SBC, microbien/ADJ} {nourrice/SBC, nourricier/ADJ} {supression/SBC, supressif/ADJ} {ut erus/SBC, ut erin/ADJ} {p ericarde/SBC, p ericardique/ADJ} {respiration/SBC, respiratoire/ADJ} {chine/SBC, chinois/ADJ}

Tab. 5.1 Proc ed es morphologiques dadjectivation d enominale retenus.

la langue m edicale fran caise1 . Ces adjectifs sont form es a ` partir de noms (do` u le nom dadjectifs d enominaux) avec un ensemble de suxes et re coivent linstruction s emantique g en erale ( ( Relatif a `N) ). Ces suxes, recens es en majorit e dans les exp eriences ant erieures (chap. 4), sont pr esent es dans le tab. 5.1. Notons tout de suite que - e est ambigu : dans les traitements automatiques, il peut etre confondu avec - e de formation des participes. Dans la suite de ce chapitre, nous pr esentons des travaux autour de la quantication de la productivit e morphologique (sec. 5.2), d ecrivons notre m ethode pour contraster la productivit e des suxes dadjectivation d enominale dans di erents corpus (sec. 5.3), le mat eriel (sec. 5.4 a ` 5.6) et discutons les r esultats obtenus (sec. 5.7). Nous terminons avec une conclusion et des perspectives (sec. 5.8).

5.2

Travaux en quantication de la productivit e morphologique

Les premiers travaux qui ont su formaliser la notion de productivit e morphologique et la mesurer quantitativement ont consist e essentiellement en un recensement du nombre de types2 qui comportent un axe donn e : dans les dictionnaires et parmi les n eologismes
Ce travail a et e eectu e dans le cadre de laction 5 du GdR 2220 du CNRS Bases de donn ees constructionnelles et productivit e des proc ed es morphologiques en corpus. Il a fait objet dune publication (Grabar & Zweigenbaum, 2003) et a et e pr esent e lors de la journ ee d etude sur la productivit e morphologique organis ee par laction 5 du GdR Morphologie le 12 mai 2003 a ` Paris. 2 En linguistique de corpus, la notion de type correspond a ` chaque forme (ou vocable) di erente qui appara t dans ce corpus. Le type est souvent oppos ea ` loccurrence , qui correspond elle au nombre total dapparitions dun type (forme) dans le corpus.
1

96

MORPHOLOGIQUE 5.2. TRAVAUX EN QUANTIFICATION DE LA PRODUCTIVITE

de colloquial speech (Schultink, 1962) ; uniquement dans les dictionnaires (Arono, 1976; Bauer, 1998) ; ou parmi les n eologismes provenant du discours spontan e (Clark & Clark, 1979) (travaux cit es dans (Baayen & Renouf, 1996)). Dautres chercheurs appliquent des calculs probabilistes ( ecart r eduit de la loi binomiale, analyse vectorielle, loi de Zipf, etc.) sur des corpus diachroniques (Brunet, 1981; Brunet, 1999) ou sur les donn ees des dictionnaires (Wimmer & Altmann, 1995). Nous nous int eressons aux calculs de productivit e pouvant etre eectu es sur des corpus synchroniques et ayant un lien avec les travaux des morphologues. Deux d enitions : ( ( ...by productivity as a morphological phenomenon we understand the possibility for language users to coin, unintentionally, a number of formations which are in principle uncountable... ) ) (Schultink, 1961) ( ( ...the statistically determinated readiness with which an element enters into new combinations. ) ) (Bolinger, 1948) auraient ainsi inspir e les statisticiens qui les formalisent et proposent la mesure de lindice 1 , o` u n1 est le nombre de productivit e P (Baayen, 1991; Baayen & Lieber, 1991) : P = n N dhapax (types poss edant une seule occurrence dans un corpus) dun proc ed e morphologique et N le nombre total de ses occurrences rencontr ees dans ce corpus. La notion dhapax semble etre intimement li ee aux n eologismes (Arono, 1976; Bauer, 1998; Baayen & Renouf, 1996). Dans le dernier travail par exemple les auteurs montrent que ce sont les hapax qui fournissent le plus de n eologismes (mots absents du dictionnaire Websters third new international dictionary of the English language). Quant a ` la notion doccurrence, elle est tr` es exploit ee dans la communaut e dorigine des auteurs, la psycholinguistique. Dans ce domaine, de nombreux travaux et exp eriences ont montr e que les mots les plus fr equents sont activ es par les usagers dans leur stock lexical (ou lexique mental) plus facilement et plus vite que les mots moins fr equents. Il en va ainsi pour la reconnaissance orale de mots dans un ux bruit e, pour les erreurs dorthographe, pour la reconnaissance du lexique sp ecialis e par les sp ecialistes dun domaine (travaux cit es dans (Baayen, 1991)). Ainsi, en psycholinguistique (voir la synth` ese de (Meunier, 2003)), on avance lhypoth` ese selon laquelle (1) les mots fr equents sont stock es dans la m emoire tels quels et lacc` es a ` ces mots est direct ; (2) les mots avec des fr equences faibles ne sont pas stock es en m emoire et lacc` es a ` ces mots est bas e sur des r` egles morphologiques. Faisant le lien avec la productivit e, H. Baayen suppose que les mots fr equents, qui ont une forte activation, correspondent a ` des proc ed es non productifs : ils sont stock es en m emoire directement. Les mots peu fr equents par contre, qui ont un niveau dactivation bas, ne sont pas stock es en m emoire. Ils sont form es avec des axes productifs et lacc` es a ` ces mots se fait a ` travers des r` egles de formation (Baayen, 1991, p. 126), leurs bases et axes. Appliqu ea ` un corpus, P permet dexprimer la probabilit e de rencontrer de nouveaux types avec un axe donn e lorsque N de ses occurrences ont d ej` a et e rencontr ees dans ce corpus (Baayen & Lieber, 1991, p. 809810). La valeur de P peut donc etre vue comme la potentialit e qua un axe a ` former des lex` emes etant donn e un etat de langue observ e. La valeur de P est d ependante du corpus explor e. Il existe egalement une d ependance directe entre n1 et N : plus n1 est important plus P est elev e, mais avec laugmentation de la taille 97

QUANTITATIVE DES PROCED ES MORPHOLOGIQUES DE LADJECTIVATION CHAPITRE 5. PRODUCTIVITE DENOMINALE

du corpus, et donc de N , P tend vers z ero (Baayen & Lieber, 1991, p. 836838). Ce fait peut etre vu comme une limite de la mesure lorsquelle est appliqu ee a ` de tr` es gros corpus. La mesure de productivit e P a et e critiqu ee par (Van Marle, 1991). Les critiques concernent (1) le caract` ere incertain de la notion dhapax, (2) lutilisation du nombre doccurrences et (3) les r esultats obtenus avec lapplication de la mesure P . En ce qui concerne les hapax, dune part les lex` emes qui sont hapax dans un corpus ne le sont pas forc ement dans un autre ; et dautre part avec laugmentation de la taille du corpus le nombre dhapax diminue. Ce dernier point est egalement signal e dans (Baayen & Lieber, 1991). Notons egalement la discussion men ee dans (Dal, 2003) sur le rapport entre les hapax et les n eologismes. Quant au nombre doccurrences, il aurait tendance a ` re eter lusage des lex` emes, tandis que cest le nombre de types qui re` ete le syst` eme linguistique dune langue ((Van Marle, 1991, p. 151), (Brunet, 1981, p. 427)). Le nombre de types serait ainsi plus pertinent pour evaluer la productivit e dun proc ed e morphologique. Mais (Van Marle, 1991) note quil ne sugg` ere aucunement de modier la formule de P en rempla cant le nombre doccurrences N par le nombre de types, mais que la productivit e semble etre plus dicile a ` cerner que ne le laisse entendre la mesure P . Et enn la derni` ere critique de (Van Marle, 1991), qui concerne les r esultats obtenus avec lapplication de P et leur interpr etation. Dans (Baayen, 1991) lauteur compare la productivit e des suxes n eerlandais : -ster (P = 0,231) de formation de noms personnels f eminins appara t ainsi etre plus productif que -er de formation de noms personnels masculins (P = 0,076). Ces r esultats correspondent aux intuitions de (Baayen, 1991). Mais dapr` es (Van Marle, 1991, p. 154155), -er , appartenant a ` une cat egorie non marqu ee s emantiquement, est plus exible et donc potentiellement plus productif que -ster . (Van Marle, 1991) consid` ere ainsi contre-intuitif que les axes marqu es s emantiquement re coivent un degr e de productivit e plus elev e. Face a ` ces critiques, (Baayen, 1992) actualise la mesure P , formalise la mesure de productivit e globale P, et propose deux autres mesures I et A dont nous ne parlerons pas ici. Ainsi, (Baayen, 1992, p. 186) rappelle que lobservation de la productivit e P doit se faire dans un espace bi-dimensionnel, o` u laxe y indique lindice de P et laxe x la taille de V (nombre de types). Une telle projection ore une vue plus compl` ete et globale de la productivit e dun axe. Lauteur va plus loin dans la formalisation de cette relation et 1 o` u n1 est propose une nouvelle mesure P, ou lindice de productivit e globale : P = n h1 le nombre dhapax dun proc ed e et h1 est le nombre total dhapax dans un corpus. P peut etre vu comme une mesure de la contribution relative dun proc ed e morphologique a ` accro tre le vocabulaire dun corpus a ` un moment t (Baayen, 1992, p. 190194). Appliqu ee aux axes n eerlandais, les valeurs obtenues avec P indiquent que -er est eectivement plus productif que -ster , ce qui correspond nalement aux intuitions de (Van Marle, 1991). Parmi ces deux mesures P et P, la premi` ere est dite conditionn ee par laxe et la deuxi` eme par les hapax (Baayen, 1992, p. 192). La premi` ere convient pour distinguer entre les axes productifs et les axes non productifs. Tandis que la deuxi` eme est susceptible d etablir une echelle de productivit e des axes productifs (Baayen, 1992, p. 194). Un autre point distinctif est que P est d ependant de la taille des corpus et devient inexploitable sur de tr` es gros corpus (plus de 100 000 000 occurrences), P n etant pas sensible a ` ce facteur (Baayen, 1992, p. 205). 98

DE LADJECTIVATION DENOMINALE 5.3. METHODE POUR LETUDE DE LA PRODUCTIVITE EN CORPUS

5.3

M ethode pour l etude de la productivit e de ladjectivation d enominale en corpus

Pour l etude de la productivit e des suxes dadjectivation d enominale nous appliquons la mesure P (Baayen & Lieber, 1991). Bien qu etant critiqu ee par les morphologues, cette mesure reste lune des plus utilis ees dans le domaine. Elle a et e con cue pour distinguer les proc ed es morphologiques productifs et non productifs en corpus synchronique. Elle correspond au rapport qui existe entre le nombre dhapax n1 dun proc ed e morphologique 1 . Rappelons et le nombre total de ses occurrences N rencontr ees dans un corpus : P = n N que P re` ete la potentialit e dun axe a ` former des lex` emes dans un corpus donn e. Les valeurs de P sont donc toujours associ ees au corpus etudi e. La collecte et pr eparation du mat eriel pour le calcul de P occupent une place pr epond erante dans cette exp erience. Nous utilisons des corpus textuels : ils repr esentent l etat actuel de la langue, contiennent des donn ees langagi` eres attest ees, qui peuvent de plus etre appuy ees par leurs fr equences doccurrence. Les donn ees quantitatives collect ees dans les corpus peuvent donc etre directement utilis ees pour le calcul de P . Pour l etude de la productivit e des suxes dadjectivation d enominale, nous cherchons a ` les contraster dans di erents sous-corpus qui varient selon leurs degr e de sp ecialisation, genre et sousdomaine. Nous nous attendons a ` ce que ces param` etres inuencent le contenu des corpus (Baayen, 2001, p. 208) et constituent une di erence dans lemploi dadjectifs d enominaux. Les corpus etudi es doivent r epondre a ` une s erie dexigences, dont la repr esentativit e du domaine m edical. Nous d ecrivons les principes de la collecte et de la pr eparation des corpus dans la sec. 5.4. Nous d ecrivons ensuite le recensement des lexiques adjectival et nominal (sec. 5.5). Pour associer les adjectifs avec leurs bases nominales, nous utilisons les r` egles dassociation. Les etapes de ltrage et de pr eparation de ces r` egles sont d ecrites dans la sec. 5.6. Et enn les r esultats de lapplication de la m ethode sont discut es dans la sec. 5.7.

5.4

Collecte et pr eparation du corpus

Un des soucis principaux lors de la constitution de corpus concerne leur repr esentativit e du domaine etudi e. Le corpus exploit e doit donc couvrir susamment la langue m edicale, form ee de nombreuses sp ecialit es et repr esent ee par di erents genres textuels. Mais m eme ainsi, les corpus fournissent une vue partielle de la langue. Lavantage est que les textes sont produits par les locuteurs r eels du domaine et quils re` etent l etat actuel de la langue, le d elai entre leur production et leur utilisation etant potientiellement court. Parmi les di erents param` etres qui inuent sur le contenu et la forme des documents, nous avons distingu e, dans des travaux ant erieurs de constitution du corpus CLEF du fran cais contemporain (Habert et al., 2001), les dimensions externes (facteurs li es au contexte de production du texte) et internes (facteurs que lon retrouve dans le texte lui-m eme) des documents. Dans cette d emarche, nous avons repris, fusionn e et compl et e les propositions de (Sinclair, 1994) et de (Biber, 1994). Parmi les param` etres externes, nous avons distingu e les informations de nature bibliographique (origine, localisation, 99

QUANTITATIVE DES PROCED ES MORPHOLOGIQUES DE LADJECTIVATION CHAPITRE 5. PRODUCTIVITE DENOMINALE

echantillonnage) de celles li ees au contexte de production et de r eception (mode de production et de transmission, cr eateur, destinataire, objectifs). Les param` etres internes comprennent la langue, la taille du texte, le niveau de style, linteraction avec le public, la personnalisation, le genre, le sous-domaine et la technicit e et sp ecialisation des textes. Trois des param` etres internes sont pris en compte dans l etude pr esente : technicit e et sp ecialisation des documents, leurs sous-domaines et leurs genres. La sp ecialisation re` ete le degr e de sp ecialisation technique et scientique dun corpus. Dans notre exp erience, nous contrastons un corpus de langue g en erale destin ea ` un large public de lecteurs et produit a ` partir de mat eriel journalistique et un corpus de la langue de sp ecialit e repr esent ee par la langue m edicale. Les sous-domaines dune langue de sp ecialit e correspondent a ` ses di erentes sp ecialit es qui peuvent se recouvrir partiellement. Dans (Habert et al., 2001), nous avons distingu e environ 70 sous-domaines m edicaux (cardiologie, n ephrologie, neurologie, h ematologie, rhumatologie, p ediatrie, etc.). Le sous-domaine dun texte peut etre d ecrit a ` laide de mots cl es pris par exemple dans un thesaurus de r ef erence, comme le MeSH. Et enn, a ` lint erieur dun m eme domaine, di erents genres (ou registres ) peuvent etre rencontr es. Dans (Habert et al., 2001), nous avons recens e une trentaine de genres de textes m edicaux, correspondant a ` des contextes caract eristiques de production ou de r eception des documents : soin m edical (rapports m edicaux, comptes rendus dhospitalisation, lettres), enseignement (polycopi es, questions de test, notes d etudiants), diusion de connaissances (articles de revues et de conf erences, th` eses de doctorat, articles de vulgarisation), sources de connaissances de r ef erence (dictionnaires, encyclop edies, monographies, ouvrages, guides de bonnes pratiques, documents ociels, syst` emes de codage). Dans la suite de cette section, nous pr ecisons les sous-domaines et genres contrast es. Le sous-domaine inue sur le lexique des documents, qui varie en fonction des notions qui y sont d ecrites. Le niveau de sp ecialisation et le genre exercent egalement une inuence sur le contenu. Par exemple, les termes employ es entre sp ecialistes dans un compte rendu dhospitalisation peuvent etre di erents de ceux que lon trouvera, a ` domaine constant, dans un manuel de cours, dans un article scientique ou encore dans les documents a ` destination des patients : grippe vs inuenza, ` evre jaune vs tiphus amaril, crise cardiaque vs infarctus du myocarde, rhume vs rhinopharyngite. Nous nous attendons a ` ce que ces di erences se r epercutent sur dautres traits linguistiques, comme la morphologie et en particulier sur la formation dadjectifs d enominaux. Dans la suite de cette section, nous d ecrivons la constitution et le contenu du corpus journalistique (sec. 5.4.1), du corpus de comptes rendus hospitaliers (sec. 5.4.2) et du corpus Web (sec. 5.4.3). Cest a ` lint erieur de ces corpus que nous trouvons les param` etres retenus pour l etude (sec. 5.4.4).

5.4.1

Le corpus journalistique

Le corpus journalistique (presse ) que nous utilisons a et e constitu e par (Namer, 2003b) 3 pour une exp erience similaire. Il a et e collect e sur le Web, sur les sites de cinq p eriodiques : Le Monde, Lib eration, Sciences et Avenir, Pour la Science et Challenges. Ce corpus au
3

Nous remercions Fiammetta Namer davoir mis a ` notre disposition ce corpus.

100

5.4. COLLECTE ET PREPARATION DU CORPUS

format texte totalise plus de 27,5 millions doccurrences. Comme nous lindiquons plus loin, cest le corpus Le Monde que nous utilisons dans notre exp erience.

5.4.2

Le corpus hospitalier

Les comptes rendus hospitaliers, qui composent majoritairement notre corpus m edical, correspondent a ` un des genres du domaine m edical. Ils contiennent linformation relative a ` la prise en charge, au diagnostic et au traitement dun patient. Ce type de document est accessible uniquement a ` travers une collecte directe aupr` es des services hospitaliers 4 . Les documents hospitaliers sont anonymis es pour masquer les donn ees personnelles (noms des patients et des m edecins, dates, coordonn ees postales et t el ephoniques, r ef erences de dossiers, etc.) conform ement a ` la loi Informatique et Libert e. Dans notre exp erience, nous utilisons deux corpus de comptes rendus provenant de deux sous-domaines m edicaux : Cardiologie : le corpus cr-cardio, constitu e au cours du projet europ een Menelas (Zweigenbaum et al., 1995), est compos e de comptes rendus dhospitalisation et de lettres de sortie concernant des patients aect es de maladies coronariennes. Il compte 282 documents pour un total de 96 487 occurrences. H ematologie : le corpus cr-h emato, rassembl e pour des tests daide au codage de diagnostics (Blanquet & Zweigenbaum, 1999), compte 100 comptes rendus dhospitalisation totalisant 58 264 occurrences.

5.4.3

Le corpus Web

Pour constituer le corpus Web, nous exploitons le portail m edical fran cais de r ef erence CISMeF (Catalogue et Index des Sites M edicaux Francophones) (Darmoni et al., 2001) 5 . Il recensait, en septembre 2002, plus de 11 000 documents. Chaque document est index e par un ou plusieurs mots cl es du thesaurus m edical MeSH, ce qui permet en particulier de noter la sp ecialit e m edicale concern ee. Une equipe de documentalistes et dinformaticiens m edicaux assure la mise a ` jour hebdomadaire des documents index es dans CISMeF, ce qui garantit la qualit e et la abilit e de ces documents du point de vue m edical. Les auteurs du catalogue CISMeF ont ainsi constitu e et document e ce que lon peut consid erer comme un corpus m edical diversi e. Nous avons utilis e ce catalogue pour constituer les corpus Web 6 m edicaux . Nous consid erons que les documents Web, etant destin es dans leur majorit ea ` un large public, sinscrivent dans le genre de vulgarisation. Pour etudier les oppositions a ` lint erieur de ce genre, nous avons constitu e trois corpus Web m edicaux sopposant par leurs sous-domaines : h ematologie (web-h emato ), neurologie (web-neuro ) et n ephrologie (webn ephro ). Pour etudier lopposition sur la sp ecialisation des corpus, nous avons constitu e
Nous remercions les services de cardiologie et dh ematologie de la Piti e-Salp etri` ere de nous avoir permis dacc eder aux documents hospitaliers.
5 6 4

www.chu-rouen.fr/cismef

Nous remercions l equipe CISMeF, et en particulier St efan Darmoni, de nous avoir permis dutiliser les documents recens es dans ce portail m edical.

101

QUANTITATIVE DES PROCED ES MORPHOLOGIQUES DE LADJECTIVATION CHAPITRE 5. PRODUCTIVITE DENOMINALE

un corpus (web-signes ) qui correspond a ` un extrait transversal des ressources de CISMeF : tous les documents ayant pour th` eme la cat egorie MeSH C23 (signes et sympt omes), tous domaines et genres confondus. Nous pr esentons maintenant les etapes qui permettent de passer dune sp ecication de ressources CISMeF a ` un corpus de travail : (1) d etermination des adresses URL des documents index es par CISMeF et r epondant a ` une sp ecication donn ee, dans notre cas, a ` un des axes s emantiques du MeSH ; (2) t el echargement des documents correspondants ; (3) ltrage des documents et conversion en texte brut. D etermination des adresses URL des pages ` a t el echarger. Le catalogue CISMeF saccompagne dun moteur de recherche interne (Darmoni et al., 2001). Une requ ete sp eciant les mots cl es appropri es (par exemple, n ephrologie) renvoie une page listant les documents index es par ces mots cl es avec pour chacune son adresse URL (Uniform Re source Locator). Etant des utilisateurs r eguliers de CISMeF, nous avons t el echarg e une copie de cette page. T el echargement des documents. Les URL recens ees dans CISMeF pointent la plupart des cas sur la page Web contenant linformation index ee. Cependant, il arrive que les indexeurs de l equipe CISMeF indiquent une page se trouvant un peu plus haut dans la structure hi erarchique du site concern e. Cest notamment le cas lorsque le document vis e est fractionn e en plusieurs pages : lURL indique alors la page daccueil du document, qui prend souvent la forme dun sommaire. Cest egalement le cas lorsque le site change fr equemment le nom de la page vis ee : les indexeurs pr ef` erent alors pointer vers une page de nom plus stable. Pour prendre en compte ces cas, nous avons d ecid e de t el echarger non seulement les URL indiqu ees par CISMeF, mais aussi tous les documents qui se trouvent hi erarchiquement un niveau plus bas sur le m eme site. ` partir dune liste dURL, nous t A el echargeons automatiquement les documents a ` laide dun aspirateur de Web wget (outil GNU fonctionnant sous GNU/Linux comme sous dautres syst` emes dexploitation), param etr e pour t el echarger les URL de la liste et les URL lles :
wget --mirror --no-parent --level=1 --input-file=fichier-urls.txt --force-directories

Filtrage et conversion des documents. Les documents ainsi t el echarg es peuvent etre de types divers. Les plus courants sont des documents au format HTML, mais on trouve egalement des documents aux formats PDF, RTF, images, etc. Nous avons conserv e uniquement les documents HTML, que nous pouvons convertir facilement en texte. Pour d eterminer le type de document, le nom du chier nest pas susant : en eet, certains documents, produits par des programmes sur les serveurs Web (scripts CGI, ASP, etc.), ont un nom qui ne se termine pas par .html ou une autre extension sp ecique. Nous avons utilis e la commande Unix file, qui d etermine le type dun chier en analysant ses premi` eres 102

5.4. COLLECTE ET PREPARATION DU CORPUS

lignes. Nous nous sommes fond es sur le r esultat de file pour s electionner les documents de type HTML. Les traitements appliqu es par la suite travaillent sur du texte brut. Nous avons donc converti dans ce format les documents t el echarg es. Il etait important lors de cette conversion de pr eserver les fronti` eres de paragraphes. La conversion des documents HTML a et e eectu ee par un programme Perl fond e sur le module Format::FormatText en cherchant a ` respecter cette contrainte. Le fait de t el echarger davantage de documents que ceux explicitement list es par CISMeF, apporte des pages qui donnent une traduction de la page dorigine (en anglais, allemand, espagnol, etc.). Pour d etecter et eliminer ces pages, nous avons mis en place un identicateur de langue suivant le principe d ecrit par (Grefenstette & Nioche, 2000). Il se fonde sur des listes de mots grammaticaux fr equents et sp eciques a ` chaque langue. Pour le fran cais, par exemple, nous avons : au aux avec ces cette dans est leur nous ont par pas plus pour qui ses sont sur une vous. Nous avons repris telles quelles les listes publi ees par (Grefenstette & Nioche, 2000).

5.4.4

Corpus et occurrences : les corpus ` a comparer

Tous les corpus constitu es ont et e segment es, etiquet es et lemmatis es avec l etiqueteur TreeTagger (Schmid, 1994) 7 , et ensuite corrig es avec le lemmatiseur Flemm. Ce m eme traitement a et e r ealis e par (Namer, 2003b) sur le corpus presse. L etiquetage nous a permis de recenser les formes etiquet ees comme noms et adjectifs, dont nous retenons les lemmes. Mais certain mots, etiquet es comme noms ou adjectifs, pr esentent du bruit. Il sagit par exemple de mots contenant des chires ou des caract` eres non alphab etiques, qui peuvent appara tre dans les documents dorigine ou bien r esulter de la conversion en texte ou de la segmentation automatique en mots : ).Vancomycine ...pour .chirurgie 1.-infection 10ans Les donn ees de la colonne Toutes cat egories du tab. 5.2 incluent ce bruit de segmentation. Avant dextraire les noms et les adjectifs, nous ltrons tous les mots contenant des chires ou des caract` eres non alphab etiques, ou encore des lettres majuscules. Ce dernier ltrage permet essentiellement d eliminer les noms propres, souvent non reconnus comme tels et donc mal trait es par les outils automatiques. Les colonnes Adjectifs et Noms d ecrivent ` les donn ees epur ees. A titre indicatif, apr` es le ltrage du corpus presse, sa taille descend de 27 531 441 a ` 26 531 554 occurrences et de 201 571 a ` 88 892 types. Et dans le corpus websignes, la liste dadjectifs non ltr es comprendrait 43 785 types (21 659 une fois ltr es), et la liste de noms 40 514 (38 025). Pour chaque corpus, nous avons comptabilis e le nombre de types et doccurrences de ses lemmes nominaux et adjectivaux. La premi` ere constatation
7

www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html

103

QUANTITATIVE DES PROCED ES MORPHOLOGIQUES DE LADJECTIVATION CHAPITRE 5. PRODUCTIVITE DENOMINALE

Corpus web-signes web-h emato web-neuro web-n ephro cr-cardio cr-h emato presse

Toutes cat egories types occurrences 142 545 5 204 901 42 230 1 032 216 106 153 3 794 737 30 524 726 545 5 233 96 487 5 306 58 264 201 571 27 531 441

Adjectifs types occurrences 21 659 507 162 7 893 115 658 17 612 369 130 6 053 95 176 1 016 12 407 1 008 6 304 23 098 4 199 427

Noms types occurrences 38 025 1 188 574 14 101 241 939 31 402 871 155 10 699 171 421 1 635 19 067 1 838 13 980 58 808 10 413 246

Tab. 5.2 Taille des corpus initiaux apr` es segmentation, etiquetage et lemmatisation par TreeTagger et Flemm : types et occurrences des lemmes.

a ` lexamen du nombre doccurrences dans les corpus entiers (Toutes cat egories) est quils sont tr` es in egaux en taille. Or (Baayen, 2001) insiste sur le fait que les statistiques lexicales sont syst ematiquement aect ees par la taille de l echantillon de texte sur lequel elles sont mesur ees. Nous ne pouvons donc pas travailler directement sur des corpus aussi vari es en taille. Nous avons donc eectu e un nivellement de la taille des corpus a ` lint erieur de chaque groupe a ` contraster (sp ecialisation, sous-domaines et genres m edicaux). Ce nivellement est fait par echantillonnage, le souci principal etant de veiller a ` la repr esentativit e du corpus obtenu par rapport au corpus complet initial. L echantillonnage a et e eectu e en tirant au hasard des textes entiers dans chaque corpus a ` r eduire. Lint egrit e de chaque texte est ainsi pr eserv ee, ce qui pr eserve son homog en eit e interne. La mesure compar ee lors du nivellement est le nombre doccurrences dun corpus. Nous supposons que ses autres caract eristiques (nombres de types, de noms, dadjectifs, dadjectifs d enominaux, dhapax, etc.) sont inh erentes a ` ses dimensions stylistiques et seront conserv ees dans la r eduction. Pour la langue g en erale, comme le corpus Le Monde poss` ede une taille tr` es proche de web-signes, nous avons pr ef er e prendre ce corpus en entier plut ot que d echantillonner les di erents corpus de presse dont nous disposions. Le tab. 5.3 pr esente les groupes de comparaison et les corpus nivel es que nous utilisons. Les tailles des corpus m edical et g en eral sont ainsi proches de 5 200 000 occurrences, les tailles des corpus venant du Web se situent entre 700 000 et 1 000 000 occurrences, et les corpus de comptes rendus m edicaux avoisinent les 58 000 occurrences. Les corpus du sous-domaine dh ematologie comptent en moyenne 59 000 occurrences. Nous pouvons voir quavec des tailles de corpus comparables, le nombre dadjectifs quils contiennent peut varier jusqu` a une vingtaine de pourcents (comptes rendus m edicaux, h ematologie vs cardiologie ; Le Monde vs langue m edicale) et le nombre de noms encore plus. 104

5.5. LEXIQUES NOMINAL ET ADJECTIVAL

Toutes cat egories Adjectifs Noms Corpus types occurrences types occurrences types occurrences Langue g en erale (presse) vs langue m edicale (Web) web-signes 142 545 5 204 901 21 659 507 162 38 025 1 188 574 Le Monde 88 052 5 233 503 20 453 415 337 42 513 1 116 548 Sous-domaines documents Web : h ematologie vs n ephrologie vs neurologie web-h emato 42 230 1 032 216 7 893 115 658 14 101 241 939 web-neuro /4 45 077 950 114 7 749 91 260 14 698 218 379 web-n ephro 30 524 726 545 6 053 95 176 10 699 171 421 Sous-domaines comptes rendus m edicaux : h ematologie vs cardiologie cr-h emato 5 306 58 264 1 008 6 304 1 838 13 980 cr-cardio /2 4 004 58 213 807 7 786 1 299 11 652 Genres h ematologie : comptes rendus hospitaliers vs documents Web cr-h emato 5 306 58 264 1 008 6 304 1 838 13 980 web-h emato /15 7 588 60 658 1 594 7 355 3 037 14 445 Tab. 5.3 Groupes de comparaison de corpus d etude. Les corpus dont la taille a et e r eduite sont suivis du facteur de r eduction appliqu e (/N ).

5.5

Lexiques nominal et adjectival

Les lexiques dadjectifs sont compil es a ` partir de chaque corpus analys e. La taille de ces listes correspond aux nombres de types indiqu es dans le tab. 5.3. Dans le but de compl etude lors de la reconnaissance dadjectifs d enominaux, le lexique de r ef erence de noms joint une composante m edicale et une composante de langue g en erale. La composante m edicale provient de deux terminologies m edicales : le R epertoire danatomopathologie et la CIM (4 290 noms) et des corpus m edicaux (55 517 noms). La composante g en erale provient du dictionnaire de lABU8 (36 445 noms) et du corpus presse (58 808 noms). La fusion de toutes ces listes donne un lexique de r ef erence de 105 417 noms di erents.

5.6

Association semi-automatique des adjectifs d enominaux avec leurs bases

Nous avons not e que certains des lemmes etiquet es comme adjectifs constituent des erreurs. Nous avons pu en eliminer une partie gr ace au ltrage de lemmes avec des chires, des caract` eres non alphab etiques ou des lettres majuscules. Mais dautres erreurs restent. Pour assurer une meilleure qualit e lors du recensement des adjectifs d enominaux, nous
8

Association des bibliophiles universels, abu.cnam.fr/DICO.

105

QUANTITATIVE DES PROCED ES MORPHOLOGIQUES DE LADJECTIVATION CHAPITRE 5. PRODUCTIVITE DENOMINALE

utilisons des r` egles dassociation pour eectuer un deuxi` eme ltrage. Ainsi, nous recensons un adjectif comme d enominal sil peut etre associ e a ` un nom de la liste de r ef erence a ` travers une des r` egles de formation dadjectifs d enominaux. Nous d ecrivons maintenant plus en d etail les etapes de ce recensement : collecte des r` egles dassociation (sec. 5.6.1), recensement des adjectifs d enominaux (sec. 5.6.2) et leur fusion en familles (sec. 5.6.3).

5.6.1

Collecte semi-automatique des r` egles dassociation

Nous nous basons sur 513 r` egles induites a ` partir des s eries de synonymes etiquet ees et lemmatis ees (sec. 4.4 page 77) avec un pr exe minimal commun de quatre caract` eres et une maximisation des suxes. Nous avons vu que les relations s emantiques des terminologies constituent une contrainte favorable pour obtenir des donn ees dune pr ecision elev ee. Et la taille x ee a ` quatre caract` eres renforce cette contrainte. La maximisation des suxes am eliore la segmentation des mots et augmente ainsi la qualit e des r` egles dassociation. Quant a ` l etiquetage et a ` la lemmatisation, ils permettent de r eduire la exion et dappliquer ensuite des heuristiques cat egorielles pour le rep erage des r` egles de formation dadjectifs d enominaux. Eectivement, parmi les 513 r` egles nous trouvons les types suivants : r` egles daxation : e/SBC|ique/ADJ { epigastre/SBC , epigastrique/ADJ }, /ADJ|ment/ADV {clinique/ADJ , cliniquement/ADV }, r` egles de conversion : /ADJ| /SBC {liquide/ADJ , liquide/SBC }, r` egles de composition : e/SBC|ose/SBC {polype/SBC , polypose/SBC }, ou bien des r` egles non el ementaires, qui associent un d eriv e avec un compos e sans passer par la base : aire/ADJ|ose/SBC {parasitose/SBC , parasitaire/ADJ }, inique/ADJ|ome/SBC {my elome/SBC , my elinique/ADJ }. Le premier ltrage que nous eectuons consiste a ` ne garder que les r` egles transcat egorielles, qui peuvent etre rapproch ees de laxation et de la conversion et qui peuvent ltrer la composition. Une r` egle comme e/SBC|ose/SBC nappara t donc plus. Suite a ` ce ltrage, nous obtenons 288 r` egles. Le ltrage suivant est eectu e manuellement, il consiste a ` supprimer les r` egles transcat egorielles non el ementaires comme aire/ADJ|ose/SBC ou inique/ADJ|ome/SBC . Il nous reste alors 119 r` egles transcat egorielles. Un dernier ltrage, semi-automatique, consiste a ` garder les r` egles qui permettent dassocier un nom a ` son adjectif d enominal. Nous eliminons ainsi les r` egles dont le suxe adjectival est vide, en supposant que laxation se fait par ajout daxes et non par leur suppression. Une analyse manuelle suppl ementaire permet de ltrer des r` egles de formation de noms a ` partir dadjectifs (le/ADJ|ilit e/SBC ), a ` partir dautres cat egories syntaxiques ou de formations latines. Il nous reste alors 73 r` egles. Nous compl etons cette base manuellement en ajoutant des r` egles pour trois suxes adjectivaux (-in , -ais , -ois ) qui ne gurent pas dans les donn ees g en er ees dans les exp eriences ant erieures. Nous disposons alors de 89 r` egles. 106

5.7. ANALYSE ET DISCUSSION DU COMPORTEMENT DES ADJECTIFS DENOMINAUX EN CORPUS

5.6.2

Recensement des adjectifs d enominaux

Pour recenser les adjectivations d enominales {nom, adjectif d enominal}, nous appliquons l etape de g en eralisation de la m ethode dacquisition de ressources morphologiques (sec. 4.3 page 66) en appliquant ces 89 r` egles aux listes de noms et dadjectifs. Ce recensement est semi-automatique : la partie automatique consiste a ` appliquer la m ethode et a ` associer, a ` travers les r` egles, les bases nominales potentielles avec leurs adjectifs potentiels ; la partie humaine est la validation des couples candidats {nom, adjectif d enominal} ainsi g en er es. La partie automatique g en` ere g en eralement du bruit car les r` egles ne consid` erent que la forme et la cat egorie syntaxique des mots et pas leurs propri et es morphologiques, phonologiques ou s emantiques. Lobjectif de la validation humaine est de limiter ce bruit. La partie automatique conduit egalement a ` un risque de silence : les r` egles etablies, bien que compl et ees manuellement pour les formations manquantes, ne couvrent sans doute pas tout type de formations. Ceci en particulier dans le corpus de la langue g en erale. Pour chaque corpus analys e, les adjectifs proviennent uniquement de ce corpus. Quant a ` la liste de noms, dans un souci de compl etude des r esultats, elle a et e compil ee a ` partir de plusieurs sources.

5.6.3

Fusion de suxes allomorphiques en familles

Lors de la description des exp eriences dans le chapitre 4, nous avons vu que la segmentation des mots en pr exes et suxes est fonction des mots align es et peut varier dun alignement a ` un autre. Cest ce que nous avons appel e lallomorphie due a ` la segmentation. La maximisation des suxes r eduit en partie cette allomorphie mais ne la supprime pas. Par exemple, le suxe adjectival -aire se r ealise ainsi dans nos r` egles : -naire , -ulaire et -culaire . Il faut donc regrouper ces allomorphes par familles. Nous avons cherch e a ` le faire automatiquement en appliquant un algorithme de calcul de similarit e entre deux cha nes de caract` eres (Jacquemin, 1997a). Les propositions g en er ees, valid ees manuellement et compl et ees par la suite, nous ont fourni 10 familles de suxes avec leurs formes allomorphiques (tab. 5.4). Cest donc a ` lint erieur de ces familles que nous eectuons les d ecomptes n ecessaires au calcul de lindice P et a ` son interpr etation : nombres dhapax, doccurrences et de types dun suxe.

5.7

Analyse et discussion du comportement des adjectifs d enominaux en corpus

Dans notre exp erience, les groupes de comparaison sont constitu es de corpus comparables en nombre doccurrences. Nous supposons ainsi que les proc ed es morphologiques etudi es sont fonction des dimensions stylistiques de sp ecialisation, sous-domaine et genre. 107

QUANTITATIVE DES PROCED ES MORPHOLOGIQUES DE LADJECTIVATION CHAPITRE 5. PRODUCTIVITE DENOMINALE

Suxe -aire -ais -al - e -el -eux -ien -in -ique -ois

Allomorphes regroup es -aire , -naire , -ulaire , -culaire -ais , - cais , -elais , -nnais , -nais , -gais , -lais -al , -ial , -inal , -p eriton eal , -arial - e , -n e , -g e -el , -iel , -ionnel , -tiel -eux , -ineux -en , -ien , -gien , -arien , -idien , - een -in , -guin , -atin , -llin -ique , -tique , -atique -ois , -cois , - cois , -geois

Tab. 5.4 Allomorphes regroup es automatiquement puis compl et es manuellement.

Notons que dans des exp eriences similaires, (Namer, 2003b) retient lensemble des documents disponibles et (Fradin et al., 2003; Gaeta & Ricca, 2003) eectuent un echantillonnage en nivelant les donn ees par le nombre doccurrences des axations etudi ees. La mesure P permet de calculer la probabilit e de rencontrer un nouvel adjectif avec un suxe donn e dans le corpus etudi e. P manifeste une tendance g en erale a ` diminuer avec laugmentation de la taille des corpus : le nombre doccurrences N tend alors vers linni et le nombre dhapax n1 vers z ero. P devient carr ement inexploitable dans les tr` es gros corpus (plus de 100 000 000 occurrences (Baayen, 1992, p. 205)), ce qui ne constitue pas ` cause de cette m une limite dans notre etude. A eme d ependance a ` la taille de corpus, P sera plus elev e dans un corpus plus petit. Ce fait ne devrait pas etre perceptible non plus : nos groupes de comparaison comportent des corpus de tailles comparables. Mais nous verrons que les petites di erences des donn ees de d epart inuencent l eg` erement les valeurs de P . Dans le tab. 5.5, nous pr esentons le nombre de r` egles qui ont pu etre appliqu ees dans chaque corpus etudi e et le nombre de paires {nom, adjectif d enominal} alors associ ees. Nous pouvons voir que le nombre de paires reste relativement comparable a ` lint erieur de chaque groupe de comparaison, sauf dans le groupe de corpus contrast es par leur niveau de sp ecialisation : dans le corpus Le Monde, avec un nombre de r` egles utilis ees assez elev e, le nombre de paires lest beaucoup moins que dans son correspondant m edical web-signes. La liste de noms de r ef erence comporte pourtant les noms provenant des sources sp ecialis ees et non sp ecialis ees. Ce fait pourrait etre rapproch e avec la constatation de (LHomme, 2004) : les adjectifs d enominaux sont tr` es fr equents dans le corpus m edical analys e par lauteur ; mais aussi du fait que nos r` egles proviennent en majorit e du domaine m edical et ne sont sans doute pas tr` es sp eciques du corpus g en eral. La partie automatique de notre m ethode, qui consiste en lassociation des noms avec leurs adjectifs d enominaux potentiels g en` ere du bruit : les r` egles ne consid` erent que la forme des mots et pas leurs propri et es morphologiques ou s emantiques. Lobjectif de la validation humaine est de limiter ce bruit. Dun autre c ot e, la base de r` egles, m eme compl et ee manuellement, nest certainement pas parfaite, ce qui peut a ` linverse etre cause de silence : des d eriv es eectifs ne sont pas 108

5.7. ANALYSE ET DISCUSSION DU COMPORTEMENT DES ADJECTIFS DENOMINAUX EN CORPUS

Corpus R` egles Couples web-signes 79 3053 Le Monde 72 1871 web-h emato 75 1841 web-neuro /4 75 1774 web-n ephro 74 1497 cr-h emato 62 414 cr-cardio /2 52 301 cr-h emato 62 414 web-h emato /15 65 628 Tab. 5.5 Nombre de couples {nom, adjectif d eriv e} rep er es par les r` egles de d erivation adjectivale avec la liste de noms de r ef erence dans les di erents groupes de comparaison. relev es, car aucune des r` egles fournies ne sait les mettre en relation avec leur base. Les r` egles apprises sur corpus (Zweigenbaum et al., 2003b) devraient permettre de r eduire le silence. Le lexique de noms de r ef erence, qui fournit les bases candidates, peut lui aussi etre source de silence. Il pourrait egalement etre compl et e. Dans la suite de cette section, nous contrastons dabord lindice P des suxes dadjectivation d enominale a ` lint erieur de chaque groupe de comparaison (sec. 5.7.1). Lexp erience men ee a montr e par ailleurs quil existe des adjectivations concurrentes : lorsquune base nominale autorise lapplication de plus dun suxe et permet de former plus dun adjectif d enominal. Nous pr esentons une ebauche de leur analyse dans la sec. 5.7.2.

5.7.1

Di erences de productivit e des proc ed es dadjectivation d enominale ` a lint erieur des groupes de comparaison

Les corpus a ` lint erieur de chaque groupe de comparaison sont di erenci es selon les param` etres suivants : 1 sp ecialisation des documents : un corpus du domaine m edical (web-signes ) est contrast e avec un corpus de langue g en erale (Le Monde ) ; 2, 3 sous-domaines m edicaux di erents a ` lint erieur dun genre : h ematologie (web-h emato ), neurologie (web-neuro/4 ) et n ephrologie (web-n ephro ) dans les corpus de documents vulgaris es du Web, et h ematologie (cr-h emato ) et cardiologie (cr-cardio/2 ) dans les corpus de comptes rendus hospitaliers ; 4 genres di erents a ` lint erieur du domaine de lh ematologie : comptes rendus (crh emato ) et documents du Web (web-h emato/15 ). Dans les corpus examin es, le nombre dhapax pour un proc ed e morphologique donn e est souvent tr` es faible, de lordre de quelques unit es a ` quelques dizaines. Nous avons effectu e une v erication manuelle de tous les hapax pour supprimer les erreurs. Parmi les d eriv es hapaxiques erron es, nous avons rencontr e des fautes dorthographe (ganglionaire, 109

QUANTITATIVE DES PROCED ES MORPHOLOGIQUES DE LADJECTIVATION CHAPITRE 5. PRODUCTIVITE DENOMINALE

similiaire, microsomial, dierenciel, gestationel), des variantes orthographiques (macro economique vs macro economique, micro-circulatoire vs microcirculatoire), des absences ou erreurs daccentuation (ulceratif, endothelial, operationnel, couteux), et des probl` emes de c esure (franco-bri- tannique qui donne ladjectif tannique). Les donn ees pr esent ees dans ce qui suit tiennent compte de cette correction. Nous faisons lanalyse en projetant lindice P sur laxe x dans un espace bi-dimensionnel, laxe y etant r eserv e pour le nombre de types V dun suxe. Dans cette projection, un indice P elev e d ecale les suxes vers la droite du graphe, un nombre de types V elev e les d ecale vers le haut. De mani` ere g en erale, plus un suxe est productif, plus il tend a ` se positionner dans le coin sup erieur droit du graphe. Deux suxes S1 et S2 etant donn es, ou un suxe dans deux corpus, nous distinguons quatre cas de gures : 1. P S1 > P S2 et VS1 > VS2 : S1 , avec un indice P et un nombre de V plus elev es, est plus productif que S2 . Il se rapproche alors du point id eal (coin sup erieur droit) ; 2. P S1 > P S2 et VS1 = VS2 : S1 , avec un P plus elev e mais un nombre V egal, tend a ` etre plus productif que S2 . Par son P , il se rapproche encore du point id eal ; 3. P S1 = P S2 et VS1 > VS2 : S1 , avec un nombre de V sup erieur mais un indice P egal, tend encore a ` etre plus productif que S2 . Il permet de former plus dadjectifs et son V elev e le rapproche alors du point id eal ; 4. P S1 > P S2 et VS1 < VS2 . Ce cas de gure ne permet pas de trancher facilement en faveur de la productivit e ou non productivit e dun suxe : S2 , ayant un vocabulaire V plus grand, montre logiquement un P plus petit, et vice versa. Pour pouvoir en dire davantage, on pourrait par exemple pr elever des echantillons de corpus de tailles croissantes et comparer les courbes d evolution de P . Sinon faire appel a ` dautres mod` eles (Baayen, 2001). Lapprofondissement de ce cas reste une perspective9 . 1. Langue g en erale et langue de sp ecialit e. La premi` ere comparaison contraste un corpus m edical (web-signes ) et un corpus de langue g en erale (Le Monde ). La g. 5.1 pr esente les r esultats. Le suxe - e 10 montre la productivit e la plus elev ee dans les deux corpus, mais cest dans le corpus de presse que son P est plus important. Le suxe -in a egalement un P plus important dans le corpus de presse, mais le faible nombre doccurrences quil y montre (non repr esent e sur les graphiques, mais pris en compte dans le calcul de P ) peut etre consid er e comme insusant pour examiner sa productivit e. Les suxes -eux et -oire , avec des nombres de types V a ` peu pr` es egaux dans les deux corpus, montrent un P plus elev e dans le corpus de presse. Quant au corpus m edical, le suxe -el y a un P deux fois plus important que dans le corpus de presse, et son nombre de types V y est egalement deux fois plus elev e. Avec des nombres de types a ` peu pr` es egaux dans les deux corpus, -ien a un P plus elev e dans le corpus m edical. -ique et -al y sont egalement plus productifs, avec des V plus elev es et des indices P pas tr` es di erents. Notons que -ique est
Nous remercions Pierre Zweigenbaum de nous avoir aid ee dans la compr ehension et linterpr etation de ce cas de gure. 10 Rappelons que - e reste ambigu entre la formation des adjectifs d enominaux et des participes si la totalit e de ses formations na pas et e revue a ` la main.
9

110

5.7. ANALYSE ET DISCUSSION DU COMPORTEMENT DES ADJECTIFS DENOMINAUX EN CORPUS

1000

ique al aire if eleux ien oire ais ier

1000 ique 100 if aire al ien eux el ier oire ais ois

100

10 in 1 0.0001

ois

10

in

0.001

0.01

0.1

1 0.0001

0.001

0.01

0.1

(a) Langue m edicale (web-signes )

(b) Langue g en erale (Le Monde )

Fig. 5.1 Positionnement des suxes dadjectivation d enominale dans un espace bidimensionnel : productivit e P et nombre de types V . Comparaison entre langue de sp ecialit e (web-signes ) et langue g en erale (Le Monde ). Echelle logarithmique.

de loin le suxe le plus fr equent dans les deux corpus. Les cinq suxes qui restent (-ais , -ier , -ois , -aire et -if ) se trouvent dans le quatri` eme cas de gure, dicile a ` interpr eter avec les projections que nous analysons. En r esum e, le corpus Le Monde se fait remarquer par les suxes - e , -eux et -oire ; le corpus m edical web-signes par -el , -ien , -ique et -al . Remarquons n eanmoins que la plupart des di erences ne sont pas agrantes. 2-3. Comparaison des sous-domaines ` a lint erieur dun genre. Les sous-domaines m edicaux correspondent a ` des communaut es scientiques et sociologiques distinctes. Nous faisons deux oppositions : dans le genre des documents vulgaris es du Web, nous contrastons les sp ecialit es dh ematologie (web-h emato ), de n ephrologie (web-n ephro ) et de neurologie (web-neuro/4 ) ; dans le genre des comptes rendus hospitaliers, nous opposons les sp ecialit es dh ematologie (cr-h emato ) et de cardiologie (cr-cardio/2 ). La g. 5.2 pr esente les r esultats de la premi` ere opposition, au sein des documents du Web. Remarquons tout de suite que les proc ed es morphologiques du corpus web-neuro ont globalement lindice P le plus elev e. Comme dans le groupe de comparaison pr ec edent, le suxe - e est encore le plus productif et -ique le plus fr equent. Cest le corpus de neurologie qui se distingue par la productivit e de nombreux suxes, par rapport a ` un ou m eme les deux corpus du groupe. -eux et -if y ont ainsi une productivit e globale plus elev ee, m eme si les di erences sont faibles par rapport aux deux autres corpus. -al , -el , -ique et -oire , avec un V comparable, y montrent un indice P plus elev e. -aire , avec un P plus elev e, a un V plus elev e que dans le corpus de n ephrologie mais moins elev e que le corpus dh ematologie. -ien a egalement un P plus elev e, mais un nombre de types comparable par rapport au corpus dh ematologie. Il a plus de types et un P comparable dans le corpus de n ephrologie. 111

QUANTITATIVE DES PROCED ES MORPHOLOGIQUES DE LADJECTIVATION CHAPITRE 5. PRODUCTIVITE DENOMINALE

Si - e est globalement productif dans les trois corpus, il se trouve en meilleure position dans web-n ephro. Les suxes -ais , -ier , -in et -ois ont des occurrences faibles dans au moins un des corpus et manifestent en plus le rapport d elicat du 4e cas de gure. Au total, on note peu de di erences importantes dans ces trois corpus entre les proc ed es morphologiques les plus fr equents. Mais de mani` ere g en erale, cest dans le corpus de neurologie que les suxes sont les plus productifs (-eux , -if , -al , -el , -ique , etc.) et dans le corpus dh ematologie quils le sont le moins.

1000

ique aire al if el ien eux oire

1000 ique 100 aireal if el ien eux oire inais 1 0.0001 ois ier 1 0.001 0.01 0.1 1

100

10 ais 1 0.0001

ier ois

10

0.001

0.01

0.1

(a) H ematologie (web-h emato )

(b) N ephrologie (web-n ephro )

1000 ique 100 al if aire el eux ien oire ier ais in 1 0.0001

10

ois

0.001

0.01

0.1

(c) Neurologie (web-neuro/4 )

Fig. 5.2 Positionnement des suxes dadjectivation d enominale dans un espace bidimensionnel : productivit e P et nombre de types V . Comparaison entre trois sous domaines m edicaux des documents du Web : h ematologie, n ephrologie et neurologie. Echelle logarithmique.

La g. 5.3 oppose lh ematologie et la cardiologie dans les comptes rendus dhospitalisation. Globalement les suxes ont un nombre de types et doccurrences plus bas mais 112

5.7. ANALYSE ET DISCUSSION DU COMPORTEMENT DES ADJECTIFS DENOMINAUX EN CORPUS

1000

1000

100 al aire 10

ique if elien eux oire in

100 aire 10

ique al if el ien eux oire

1 0.0001

0.001

0.01

0.1

1 0.0001

0.001

0.01

0.1

(a) H ematologie (cr-h emato )

(b) Cardiologie (cr-cardio/2 )

Fig. 5.3 Positionnement des suxes dadjectivation d enominale dans un espace bidimensionnel : productivit e P et nombre de types V . Comparaison entre deux sous domaines m edicaux des documents hospitaliers : h ematologie et cardiologie. Echelle logarithmique.

un P plus elev e par rapport aux deux groupes de comparaison pr ec edents : la taille des corpus dans le groupe de comptes rendus est plus petite. - e est le seul suxe qui montre une productivit e sup erieure dans le corpus cr-cardio/2, mais il a une fr equence trop basse pour etre pris en compte. -ais , -ier , -ois , -in , -oire et -ien sont dautres suxes avec des fr equences non signicatives. Parmi les suxes qui restent, -aire , -al et -ique ont un indice P et un nombre V sup erieurs dans le corpus cr-h emato. -el , -eux et -if , avec un nombre de types comparable, y montrent un P sup erieur. En r esum e, la productivit e dans cr-h emato est plus importante pour plusieurs proc ed es morphologiques : -ique , -if , -el , -aire , etc. Le corpus cr-cardio/2 est plus r ep etitif, avec davantage doccurrences pour les m emes types : 1 008 types pour 6 304 occurrences pour lh ematologie contre 807 types et 7 786 occurrences pour la cardiologie. 4. Entre les genres m edicaux ` a lint erieur dun sous-domaine. Les genres m edicaux peuvent egalement etre corr el es a ` des communaut es sociologiques di erentes (par exemple : etudiants, patients, praticiens, scientiques, etc.), et a ` des emplois lexicaux et morphologiques di erenci es. Deux genres sont constrast es dans le sous-domaine de lh ematologie : des documents du Web (web-h emato/15 ) et des comptes rendus m edicaux (cr-h emato ). La g. 5.4 pr esente les donn ees sur la productivit e des proc ed es morphologiques dans ces corpus. De nombreux suxes (-ais , -el , -ier , -if , -in , -oire , -ois et - e) ont des fr equences basses dans ce groupe de comparaison, ce qui les rend statistiquement insigniants. Les suxes -aire , -al et -ique sont plus productifs dans le corpus Web autant par rapport a ` lindice P que par le nombre de types V . -eux et -ien sont par contre plus 113

QUANTITATIVE DES PROCED ES MORPHOLOGIQUES DE LADJECTIVATION CHAPITRE 5. PRODUCTIVITE DENOMINALE

1000

1000 ique 100 aire al if el ien eux ier 1 1 0.0001 0.001 0.01 0.1 1

100 al aire 10

ique if elien eux oire in

10

1 0.0001

0.001

0.01

0.1

(a) Documents hospitaliers (cr-h emato )

(b) Documents du Web (web-h emato/15 )

Fig. 5.4 Positionnement des suxes dadjectivation d enominale dans un espace bidimensionnel : productivit e P et nombre de types V . Comparaison entre deux genres m edicaux du sous-domaine dh ematologie : comptes rendus hospitaliers et documents du Web. Echelle logarithmique.

productifs dans le corpus des documents hospitaliers. Bilan. Les observations restent attach ees au corpus sp ecique et au groupe de comparaison dans lesquels elles ont et e eectu ees. Par exemple, un m eme corpus cr-h emato fait emerger les suxes -eux et -ien par rapport a ` web-h emato (g. 5.4(a)), mais -aire , -al , -ique , -el , -eux et -if par rapport a ` cr-cardio/2 (g. 5.3(a)), avec un suxe commun (-eux ) entre les deux groupes. La g en eralisation des constatations a ` dautres textes du m eme genre ou du m eme domaine nest pas acquise et ce dautant plus que les corpus sont de petite taille. Lindice P est ainsi tr` es sensible a ` la taille de corpus. Dune part, dans le corpus web-h emato echantillonn e (g. 5.4(b)) les suxes sont globalement plus productifs, tandis que dans ce m eme corpus pris en entier (g. 5.2(a)) lindice P est moins elev e avec un nombre de types globalement plus elev e. Dautre part, dans le premier groupe de comparaison, le P de - e l eg` erement sup erieur dans le corpus de presse peut etre consid er e comme neutralis e par la taille des donn ees de d epart (tab. 5.3) : le nombre dadjectifs et de noms etant plus elev e dans le corpus m edical, lindice P y est automatiquement moins elev e. De mani` ere g en erale les constrastes observ es ne sont pas tr` es agrants au l des compaer raisons, sauf peut- etre : (1) le suxe -el dans le 1 groupe, (2) le corpus web-neuro/4 dans le 2e , (3) le corpus cr-h emato dans le 3e . Les graphiques montrent par ailleurs que les couples de suxes -aire et -al , -eux et -ien se trouvent souvent a ` proximit e. -ique est de loin le plus fr equent et - e le plus productif dans les corpus de taille plus importante. Les proc ed es de formation dadjectifs d enominaux pr esentent donc globalement peu de di erences. Ils semblent constituer une sorte de trame morphologique. Pour conrmer ces 114

5.7. ANALYSE ET DISCUSSION DU COMPORTEMENT DES ADJECTIFS DENOMINAUX EN CORPUS

r esultats il faudrait eectuer des exp eriences sur dautres corpus, voire appliquer dautres calculs. Il serait ainsi int eressant deectuer une analyse dynamique des corpus en pr elevant des echantillons de taille croissante (Baayen, 2001). Ce qui permettrait peut- etre davoir un jugement sur les suxes avec des fr equences faibles (quelques dizaines doccurrences), consid er es actuellement comme statistiquement non pertinents. Notons aussi que nous avons trouv e une certaine dicult e a ` interpr eter les donn ees statistiques : appliqu ee au mat eriau linguistique, linterpr etation devrait etre appuy ee par des analyses linguistiques parall` eles.

5.7.2

Etude des adjectivations concurrentes

Ce que nous appelons les adjectivations concurrentes correspond aux cas o` u une base nominale s electionne plus dun suxe et produit ainsi plus dun adjectif11 : grippe = grippal vs gripp e sulfure = sulfurique vs sulfureux muscle = musculaire vs musculeux Si les adjectifs concurrents avaient exactement le m eme sens construit, l economie linguistique les emp echerait de coexister. Mais comme ces adjectifs restent dans la langue, nous supposons quil y a une di erence s emantique entre eux. Eectivement, le sens dun lex` eme construit r esulte de la combinaison de linstruction s emantique de la r` egle, du sens h erit e de la base et du sens de laxe (Corbin, 1991). Selon lauteur, la formation de tous les adjectifs d enominaux est soumise a ` une m eme op eration morphologique qui transmet aux adjectifs linstruction s emantique g en erale ( ( Relatif a `N) ). Il faudrait sans doute chercher la di erence entre les adjectifs concurrents dans le sens des suxes et les traits s emantiques que ces suxes s electionnent dans les bases. En nous basant sur les ecrits des morphologues, nous t achons de d egager un ensemble de facteurs statistiques et s emantiques capables dexpliquer lexistence dadjectifs concurrents. Nous faisons pour terminer quelques synth` eses s emantiques de ces proc ed es dans le domaine m edical. La phonologie, egalement importante lors de la formation de lex` emes (Lignon, 1999; Pl enat & Roch e, 2001a), nest pas consid er ee. Pr eparation et nettoyage des donn ees. Les donn ees analys ees proviennent du corpus de presse (Namer, 2003b) (ensemble de documents provenant de Le Monde, Science et Avenir, le Nouvel Observateur, Challenges et Pour la Science ) et de lensemble de corpus m edicaux (web-signes, web-neuro, web-n ephro, web-h emato, cr-cardio, cr-h emato ). Lors du nettoyage des adjectifs g en er es automatiquement, nous avons rep er e des cas dadjectifs d enominaux multiples pour une m eme base qui ne doivent pas etre consid er es comme des adjectivations concurrentes au sens o` u nous lentendons ici (entre parenth` eses sont indiqu ees les fr equences de chaque forme) :
Cette etude a et e eectu ee avec Fiammetta Namer et Pierre Zweigenbaum et pr esent ee a ` loccasion de la journ ee d etude sur la productivit e morphologique organis ee par laction 5 du GdR Morphologie le 12 mai 2003 a ` Paris.
11

115

QUANTITATIVE DES PROCED ES MORPHOLOGIQUES DE LADJECTIVATION CHAPITRE 5. PRODUCTIVITE DENOMINALE

R ealisation de /s/ en t ou c devant i : adventice = adventiciel (5) vs adventitiel (3) interstice = intersticiel (22) vs interstitiel (1087) Blocage de lallomorphie ai a devant -ien : urticaire = urticairien (4) vs urticarien (17) Association de noms fran cais avec des adjectifs dorigine etrang` ere (anglais, etc.) : autosome = autosomal (47) vs autosomique (383) myocarde = myocardial (23) vs myocardique (545) Sp ecialisation du sens des adjectifs : cat egorie = cat egoriel (2) (Relatif a ` cat egorie) cat egorie = cat egorique (6) (non Relatif a ` cat egorie) Bases qui, bien que formellement tr` es semblables, ont des origines di erentes : kl on (pousse) clone = clonal (328) klonos (agitation) clone = clonique (140) Fr equences des suxes concurrents. Dapr` es (Arono & Anshen, 1998), parmi les axes concurrents il y en a toujours un qui sapplique par d efaut. Cest celui-l` a, pr esentant le moins de contraintes, qui va montrer les fr equences les plus hautes. Le tab. 5.6 indique les fr equences des suxes qui sappliquent aux m emes bases nominales dans les corpus presse et web-signes. Nous avons egalement recens e le nombre de types correspondants. Mais comme leur evolution est comparable avec les occurrences, nous indiquons seulement ces derni` eres. Dans le couple -al /- e , le suxe -al appara t 472 fois dans le corpus de presse, - e 96 fois. Selon lhypoth` ese enonc ee ci-dessus, - e est plus contraint que -al dans le corpus de presse. Il en est de m eme dans le corpus m edical. Les paires de suxes -el et -aire , -ique et - e sont dans le m eme cas. La sp ecicit e des suxes des paires -aire et -al , -eux et -ique est invers ee. Les paires de suxes qui ont des fr equences trop insigniantes dans un des corpus ne sont pas repr esent ees dans le tableau. presse Sp ecicit e -al > - e -aire < -al -aire < -el -eux < -ique -ique > - e web-signes Freq Sp ecicit e 263/12 -al > - e 1720/289 -aire > -al 40/616 -aire < -el 284/32 -eux > -ique 1209/280 -ique > - e

Suxes -al /- e -aire /-al -aire /-el -eux /-ique -ique /- e

Freq 472/96 29/87 49/145 67/134 176/25

Tab. 5.6 Fr equence et sp ecicit e des suxes concurrents.

Interaction entre les suxes et les bases nominales. Les suxes ont la propri et e de s electionner un type s emantique de la base nominale a ` laquelle ils peuvent sappliquer et parfois dy s electionner des propri et es s emantiques di erentes (Corbin, 1992) : 116

5.7. ANALYSE ET DISCUSSION DU COMPORTEMENT DES ADJECTIFS DENOMINAUX EN CORPUS

-ique semble etre propre au domaine technique : cest avec le d eveloppement des ecrits techniques quil montre des fr equences remarquables (Brunet, 1981). Appliqu e aux m emes bases que -eux , -ique est plus sp ecique dans le corpus m edical, moins sp ecique dans le corpus journalistique. Appliqu e aux m emes bases que - e , -ique est moins sp ecique dans les deux corpus. -eux sapplique a ` des noms concrets perceptibles sensoriellement, il indique une relation de consubstentialit e et une cause interne (Corbin, 1992) : peau boutonneuse est couverte de boutons, est susceptible de secr eter des boutons. Le tableau 5.6 le montre plus sp ecique que -ique dans le corpus de presse, moins dans le corpus m edical. - e indique une cause externe dun etat (patient gripp e). Mais, selon (Aliquot-Suengas, 1996, p. 228233), il marque surtout une id ee de typicit e et de saturation : art` ere m ening ee se trouve dans les m eninges et en est typique. Il est plus sp ecique que -al ou -ique dans les deux corpus. -ien , -aire , -al , -el , etc. semblent pouvoir sappliquer a ` des bases tr` es vari ees. Par exemple -ien (Corbin, 1992) : zone territoriale (parisien ) ; objet concret, partie du corps (cr anien ) ; nom propre (parkinsonien ). Interaction entre les bases nominales et les noms recteurs. Les contraintes portent non seulement sur la base nominale N2 s electionn ee par les suxes mais egalement sur le nom recteur N1 , avec lequel ladjectif d eriv e appara t dans un groupe nominal N1 [[N2 ]a]A . Il existe deux types de relations entre N1 et N2 (M elis-Puchulu, 1991) : lappartenance et la possession. Avec la relation dappartenance , le nom recteur N1 repr esente le tout et la base nominale N2 une de ses parties. Cette relation concerne - e , -aire , -eux , -in et -ique : couche musculeuse : ( ( couche compos ee de tissu musculaire, de muscles ) ), visc` ere herni ee : ( ( visc` ere qui comporte une hernie (orice) ) ), thrombose h emorro daire : ( ( thrombose avec des h emorro des ) ), acide phosphorique : ( ( acide dans la composition duquel entre le phosphore ) ). Avec la relation de possession , le lien entre N1 et N2 est inverse : N2 repr esente le tout, N1 une de ses parties. Cette relation concerne -al , -aire , -el , -ien , -in , -ique et -ois : fracture vert ebrale : ( ( fracture des vert` ebres, qui se trouve dans la colonne vert ebrale ) ), collapsus pharyng e: ( ( collapsus (aaissement) qui se trouve dans le pharynx ) ), cellule kystique : ( ( cellule qui se trouve dans un kyste, qui compose un kyste ) ). Notons que les suxes -aire , -in et -ique sont ambigus et peuvent appara tre dans les constructions des deux types : Un disque lombaire ou un abc` es lombaire se trouvent dans la r egion lombaire, la partie basse du dos. Tandis que la colonne lombaire est une partie de la colonne vert ebrale. Une h emorragie kystique ou une infection kystique sont localis ees dans un kyste, tandis quun ovaire kystique ou un rein kystique ont tendance a ` d evelopper des kystes. Mais surtout les relations s emantiques pouvant exister entre le nom recteur N1 et la base nominale N2 dans un domaine de sp ecialit e comme la m edecine ne peuvent pas toujours 117

QUANTITATIVE DES PROCED ES MORPHOLOGIQUES DE LADJECTIVATION CHAPITRE 5. PRODUCTIVITE DENOMINALE

etre exprim ees avec les deux relations g en eriques propos ees par (M elis-Puchulu, 1991). La caract erisation est dicile et incompl` ete dans les groupes nominaux comme : complication h emorro daire (complication d evelopp ee suite a ` lapparition dun h emorro de), pathologie h emorro daire (pathologie caract eris ee par lapparition dh emorro des), douleur herniaire (douleur caus ee par des hernies), chirurgie herniaire (chirurgie qui a pour vocation de traiter les hernies). Dans le paragraphe suivant, nous essayons de d egager des relations plus sp eciques. Pour ceci, nous eectuons dabord un typage s emantique des noms N1 et N2 , en nous basant sur les axes s emantiques de la SNOMED, et ensuite un typage de leurs relations. Typage s emantique des noms et de leurs relations s emantiques. Nous avons analys e les syntagmes nominaux N1 [[N2 ]a]A dont les adjectifs sont form es sur des bases nominales N2 appartenant aux axes s emantiques (1) de produits chimiques et de m edicaments (azote (nitre), phosphore, sulfone, soufre, vaccin), (2) de pathologies ou de maladies (grippe, hernie, kyste, macule, tuberculose), et (3) de parties du corps (lobule, muscle, pharynx, vert` ebre, v esicule). Les syntagmes o` u N2 d esigne un produit chimique sont assez ais es a ` analyser : Si N2 est sux e en -al et N1 correspond egalement a ` un produit chimique, le sens de lexpression correspond a ` la relation g en erale dappartenance : agent calmant sulfonal, souche vaccinale. Si N1 est une pathologie, le sens de lexpression re` ete une causalit e (N1 qui est d u a ` N2 ) : enc ephalomy elite post-vaccinale, papule vaccinale, r eaction vaccinale. Sinon, lexpression donne un sens g en eral ( ( N1 relatif a ` N2 ) ) : calendrier vaccinal, echec vaccinal, rappel vaccinal. Si N2 est sux e en - e et N1 d esigne egalement un produit chimique le sens global du syntagme est ( ( N1 riche en N2 ) ), avec une id ee de saturation (Aliquot-Suengas, 1996) : compos e nitr e, sel nitr e, d eriv e sulfon e. Lorsque N 1 d esigne une pathologie le sens de lexpression pourrait etre ( ( N1 caus e par (la pr esence/absence de) N2 ) ): n ecrose phosphor ee, carence phosphor ee. Si N2 est sux e en -ique ou en -eux le sens est ( ( N1 N2 ique contient plus datomes de N2 que N1 N2 eux ) ) : oxyde nitrique vs oxyde nitreux, acide sulfurique vs acide sulfureux, mais aussi vapeur nitreuse, vapeur sulfureuse, ester phosphorique. Dans la langue g en erale sulfureux est surtout employ e au sens gur e (( ( Qui rappelle le d emon, lenfer, qui sent le soufre ) ) (Robert, 1993)) : caract` ere sulfureux, contexte sulfureux, id ee sulfureuse, le Polonais sulfureux, etc. Lorsque N2 d esigne une pathologie N1 correspond souvent a ` une partie du corps ou une autre pathologie : Si N2 est sux e en - e et N1 est un etre anim e ou une de ses parties du corps, le sens de lexpression est ( ( N1 subit un etat N2 ) ) ou une localisation (( ( N2 localis e dans N1 ) ) ): patient gripp e, anse herni ee, tumeur enkyst ee. Si N2 est sux e en -eux et N1 est un etre anim e, le sens de lexpression est ( ( N1 a tendance a ` N2 ) ), o` u N2 constitue une propri et e intrins` eque de N1 : malade tuberculeux. Si N1 est une pathologie, nous avons une relation de causalit e ou de cons equence 118

5.7. ANALYSE ET DISCUSSION DU COMPORTEMENT DES ADJECTIFS DENOMINAUX EN CORPUS

(( ( N1 a pour cause N2 ) )) : eruption maculeuse, angine tuberculeuse. Dans dautres cas, le sens g en erique ( ( N1 relatif a ` N2 ) ) et la relation dappartenance semblent etre susants : ant ec edent tuberculeux, foyer tuberculeux. Si N2 est sux e en -ique et N1 est une pathologie, nous avons une relation de causalit e (( ( N1 caus e par N2 ) ), ( ( N1 avec le d eveloppement de N2 ) )) : ad enomatose kystique, cancer kystique, h emorragie kystique. Si N1 est une partie du corps nous avons une relation de localisation a ` travers lappartenance ( ( N2 localis e dans N1 ) ) (ovaire kystique, rein kystique) ou la possession ( ( N1 localis e dans N2 ) ) (cellule kystique, liquide kystique). Sinon, il sagit du sens g en eral ( ( N1 relatif a ` N2 ) ) : aspect kystique, cartographie kystique. Lorsque N2 est sux e en -al et N1 est une autre pathologie, le sens de lexpression est ( ( N1 relatif au cours de N2 ) ), ( ( N1 caus e par N2 ) ) : complication grippale, otite grippale. Lorsque N1 est un produit chimique, essentiellement un m edicament dans les exemples etudi es, le sens est ( ( N1 utilis e contre N2 ) ) : m edicament antigrippal, vaccin grippal. Dans dautres cas, le sens g en eral ( ( N1 relatif a ` N2 ) ) est susant : saison grippale, variant grippal. Et enn, lorsque N2 est sux e en -aire et N1 est une autre pathologie, nous avons une relation de causalit e (( ( N1 d ua ` N2 ) ), ( ( N1 li ea ` N2 ) )) : douleur herniaire, gastrite herniaire, h emorragie maculaire, d` eme maculaire. Lorsque N 1 est une partie du corps, il sagit de la localisation a ` travers lappartenance (( ( N1 est form e de N2 ) ), ( ( N1 contient N2 ) )) : orice herniaire, sac herniaire, aire maculaire. Dans dautres cas, la relation g en erale est susante (( ( N1 relatif a ` N2 ) )) : chirurgie herniaire, laser maculaire. Lorsque N2 est une partie du corps N1 peut appartenir a ` de nombreux axes s emantiques. Dans les di erentes congurations, la relation privil egi ee est la localisation : la partie du corps sert a ` localiser une pathologie, une autre partie du corps, un acte m edical, etc. Lorsque N2 est sux e en -al , la relation re` ete une localisation. N1 peut alors etre une pathologie (( ( N1 se trouve dans N2 ) )) : arthrose vert ebrale, fracture vert ebrale ; un acte m edical ou les soins (( ( N1 est localis e dans N2 ) ), ( ( N1 est pratiqu e sur N2 ) )) : angiographie vert ebrale, biopsie vert ebrale ; ou une autre partie du corps. Dans ce dernier cas, nous trouvons la possession (( ( N1 se trouve dans N2 ) )) : art` ere vert ebrale, disque vert ebral ; ou lappartenance (( ( N2 se trouve dans N1 ) )) : colonne vert ebrale. Dans dautres cas, la relation g en erale est susante : jet ur et eral, ux vert ebral. Lorsque N2 est sux e en - e et N1 est un etre anim e ou une de ses parties du corps, les relations sont ( ( N1 pourvu de N2 ) ) (animal vert ebr e, h ote vert ebr e), ( ( N1 localis e dans N2 ) ) (amygdale pharyng ee, muqueuse pharyng ee) ou ( ( N1 en forme de N2 ) ) (masse lobul ee), avec une id ee de saturation et de localisation. Si N1 est une pathologie, les relations peuvent egalement etre diverses : ( ( N1 en forme de N2 ) ) (tumeur lobul ee) ou ( ( N1 situ e dans N2 ) ) (douleur pharyng ee, d` eme pharyng e). Si N1 repr esente un acte m edical ou les soins, nous avons une relation de localisation (( ( N1 est pratiqu e sur N2 ) )) : anesth esie pharyng ee, d esinfection pharyng ee. Dans dautres cas, nous avons encore la relation g en erale : aspiration pharyng ee, lumi` ere pharyng ee. 119

QUANTITATIVE DES PROCED ES MORPHOLOGIQUES DE LADJECTIVATION CHAPITRE 5. PRODUCTIVITE DENOMINALE

Lorsque N2 est sux e en -aire il sert a ` localiser N1 . Celui-ci peut alors etre une partie du corps : ( ( N1 se trouve dans N2 ) ) (art` ere lobulaire, paroi musculaire), ( ( N2 est compos e de N1 ) ) (masse musculaire) ; une pathologie (l esion lobulaire, dystrophie musculaire, eruption v esiculaire) ; un acte m edical ou des soins (biopsie musculaire). Dans le reste des cas, ladjectif indique une relation g en erale : apparence lobulaire, tonus musculaire, origine v esiculaire. Lorsque N2 est sux e en -eux , la relation sp ecique privil egi ee est encore la localisation. N1 peut a ` son tour d esigner une partie du corps (bandelette musculeuse, couche musculeuse) ; ou une pathologie (inltration musculeuse, angine v esiculeuse, pharyngite v esiculeuse). Sinon, la relation est de type g en eral (pouss ee v esiculeuse). Et enn, lorsque N2 est sux e en -ien , nous avons toujours la relation de localisation (( ( N1 localis e dans N2 ) )). N1 peut d esigner alors une pathologie : st enose pharyngienne, zona pharyngien ; ou une partie du corps : membrane pharyngienne. Bilan. Nous avons pr esent e une analyse dadjectivations concurrentes observ ees sur des corpus m edicaux sp ecialis es et de langue g en erale. Les observations sont bas ees sur les ecrits de morphologues, mais sont egalement inspir ees par les travaux en analyse morphos emantique des compos es savants (sec. 3.2.3 page 57). Une comparaison plus pouss ee des compos es savants et des constructions syntaxiques reste a ` faire. Il reste egalement a ` etablir un protocole plus strict et complet pour lanalyse des adjectivations concurrentes. Nous avons analys e les suxes dadjectivation dans les contextes doccurrence des adjectifs quils forment : leur apport s emantique est alors un peu plus evident a ` d etecter. Mais linstruction de laxe est intimement li ee avec le sens h erit e de la r` egle et le sens de la base nominale. De mani` ere g en erale, les gloses s emantiques g en erales donnent une indication quant au sens de laxe et de lexpression mais peuvent etre plus pr ecises dans un domaine de sp ecialit e comme la m edecine. Lanalyse est alors appuy ee par le typage s emantique du nom de base de ladjectif et du nom recteur du syntagme nominal. Nous avons ainsi not e quelques constantes : les adjectifs en - e traduisent souvent une id ee de saturation (Aliquot-Suengas, 1996) ; les adjectifs form es sur des bases nominales d esignant une partie du corps servent principalement a ` localiser les pathologies, les actes m edicaux, etc. ; les adjectifs form es sur des bases nominales d esignant des pathologies induisent une relation de causalit e. Cette information s emantique a ` des int er ets applicatifs, par exemple en structuration de termes avec des relations transversales (Grabar & Hamon, 2004b).

5.8

Conclusion et perspectives

Cette etude de la productivit e des suxes dadjectivation d enominale doit etre consid er ee comme une ebauche de comparaison a ` travers les domaines et genres. Les r esultats quelle fait ressortir sont partiels et demandent a ` etre assis plus solidement par dautres etudes statistiques et par une etude morphologique parall` ele. Elle peut egalement etre etendue a ` dautres proc ed es morphologiques et dautres corpus. Sur de petits corpus, une estimation dintervalle de conance pourrait etre associ ee aux mesures appliqu ees. Des 120

5.8. CONCLUSION ET PERSPECTIVES

r esultats plus complets pourront egalement etre obtenus si nous compl etons la base de r` egles et de noms par exemple avec des m ethodes bas ees sur corpus (Zweigenbaum et al., 2003b). Le cas de gure o` u les valeurs P et V sont crois ees (P S1 > P S2 et VS1 < VS2 ) devrait aussi etre etudi e un peu mieux, dautant plus quil concerne un certain nombre de suxes. Cette etude apporterait une vue suppl ementaire sur la totalit e des suxes etudi es. Des exp eriences compl ementaires devraient donc mieux cerner la variation intra-domaniale et intra-genre. L etude des adjectivations concurrentes montre que lapport s emantique des axes va souvent au-del` a des gloses s emantiques g en erales. Ces gloses peuvent etre sp eci ees dans un domaine de sp ecialit e comme la m edecine. Dans les analyses eectu ees, elles d ependent des suxes mais aussi des types s emantiques des noms N1 et N2 : les adjectifs en - e traduisent souvent une id ee de saturation (Aliquot-Suengas, 1996) ; les adjectifs form es sur des bases nominales d esignant une partie du corps servent principalement a ` localiser les pathologies, les actes m edicaux, etc. ; les adjectifs form es sur des bases nominales d esignant des pathologies induisent une relation de causalit e. De mani` ere g en erale, les calculs statistiques appliqu es au mat eriau linguistique devraient etre appuy es par une analyse linguistique parall` ele : il est dicile de retrouver toute la palette de crit` eres qui inuent sur les formations morphologiques a ` travers une formule math ematique. Nous avons etudi e la productivit e des op erateurs dadjectivation d enominale en analysant des corpus di erenci es par des crit` eres socio-linguistiques comme le sous-domaine ou le genre. Une d emarche inverse peut egalement etre entreprise : se baser sur les proc ed es morphologiques pour cat egoriser les documents en cat egories homog` enes r epondant aux notions de genre, sous-domaine ou autre. Des etudes montrent en eet que la morphologie (exionnelle et d erivationnelle), a ` c ot e du lexique, de la ponctuation, de linformation syntaxique ou autre, constitue une source de crit` eres pour le typage des documents (Baayen, 1994; Rillof, 1995; Habert et al., 2000; Arppe, 2002; Valette & Grabar, 2004). Ainsi, contrairement a ` de nombreuses applications o` u lon cherche a ` neutraliser la variation terminologique, le prolage des documents semble tirer prot de la morphologie, en orant un gain dinformation suppl ementaire.

121

QUANTITATIVE DES PROCED ES MORPHOLOGIQUES DE LADJECTIVATION CHAPITRE 5. PRODUCTIVITE DENOMINALE

122

Chapitre 6 Appariement des requ etes des utilisateurs avec le vocabulaire contr ol e. Etude des logs dun portail m edical fran cais
Lexp erience que nous pr esentons dans ce chapitre se situe du c ot e de la recherche dinformation. Elle consiste en un appariement des expressions r eelles des utilisateurs, qui proviennent dans nos exp eriences des logs du portail m edical CISMeF, et dun vocabulaire contr ol e, qui provient lui du thesaurus m edical MeSH utilis e dans CISMeF pour lindexation des documents1 .

6.1

Introduction

Une des vocations premi` eres du TAL et de la linguistique de corpus consiste a ` faire face a ` une masse dinformations sans cesse croissante, a ` laquelle nous avons acc` es gr ace a ` de nombreuses bases de donn ees et a ` lInternet. Dans le domaine m edical, quil sagisse des professionnels de la sant e ou du grand public, les informations sont tout aussi abondantes : (1) les bases de donn ees bibliographiques comme Medline2 orent un acc` es a ` la litt erature scientique ; (2) les sites th ematiques ou les portails m edicaux g en eralistes (CISMeF 3 ou HON4 ) orent des documents de diverses natures. Lapproche classique en recherche dinformations consiste a ` indexer les documents avec des mots cl es qui leur sont sp eciques. Lutilisateur doit alors les deviner pour trouver les documents en question. Pour aider les utilisateurs dans cette recherche, les documents peuvent etre index es a ` laide dun vocaDans la pr esentation de cette exp erience, nous reprenons nos publications ant erieures, par exemple (Grabar et al., 2002) et (Grabar et al., 2003). 2 www.ncbi.nlm.nih.gov/pubmed 3 www.chu-rouen.fr/cismef. 4 Health on the Net : www.hon.ch.
1

123

E. CHAPITRE 6. APPARIEMENT DES REQUETES DES UTILISATEURS AVEC LE VOCABULAIRE CONTROL ETUDE DES LOGS DUN PORTAIL MEDICAL FRANC AIS

bulaire contr ol e et donc connu. Ainsi, Medline, CISMeF et HON, utilisent des mots cl es du thesaurus MeSH. Nous pouvons noter plusieurs avantages de lemploi dun thesaurus comme le MeSH. (1) Avec sa structure hi erarchique, il permet deectuer lexplosion de concept . Ainsi, en interrogeant la base avec une notion g en erique (par exemple, maladies cardiaques), lutilisateur peut retrouver les documents index es par ses termes plus sp eciques (par exemple, isch emies myocardiques) et par l` a m eme augmenter le rappel. (2) Il est r eguli` erement maintenu (par la NLM) et de nouveaux concepts biom edicaux y sont ajout es. (3) Etant un thesaurus ociel, il est connu des utilisateurs mais surtout des documentalistes. Cependant, on ne peut pas attendre de tous les utilisateurs quils ma trisent les termes dun vocabulaire contr ol e. Le MeSH compte environ 20 000 descripteurs et, malgr e lajout de 8 000 synonymes, un utilisateur non sp ecialiste a peu de chances demployer dembl ee le terme canonique d esignant ce quil cherche. ` travers les portails m A edicaux comme Medline ou CISMeF, les utilisateurs interrogent les bases sous forme de requ etes libres. Ces requ etes sont ensuite mises en correspondance avec les termes dindexation. La variation terminologique appara t donc comme un obstacle a ` lappariement des requ etes des utilisateurs avec les termes de lindexation. Dans lexp erience que nous pr esentons, nous nous proposons d etudier lapport de connaissances morphologiques dans lappariement lexical des variantes terminologiques. Ce travail ne concerne pas directement le fonctionnement en ligne de loutil dinterrogation : il est bas e sur l etude des logs du portail m edical et d enit ainsi les conditions de faisabilit e de la mise en correspondance des termes et des requ etes. Nous cherchons ainsi a ` savoir dans quelle mesure les requ etes libres employ ees par les utilisateurs comportent un vocabulaire comparable a ` celui des termes cible. Et si les ecarts observ es peuvent etre r eduits par linjection de connaissances linguistiques. Dans la suite de ce chapitre, nous pr esentons des travaux en analyse des logs (sec. 6.2), mais notons tout de suite que notre exp erience se rapproche surtout des travaux en traitement de la variation terminologique par lappariement lexical. Nous d ecrivons ensuite notre mat eriel : les requ etes, la terminologie cible et les ressources morphologiques (sec. 6.4). Nous expliquons la m ethode suivie pour comparer et normaliser le vocabulaire des requ etes et le vocabulaire cible (sec. 6.3). Nous d etaillons et discutons ensuite les r esultats de ces comparaisons (sec. 6.5). Et enn, nous concluons (sec. 6.6).

6.2

Travaux en analyse des logs

Un des principaux soucis des syst` emes de recherche dinformation concerne l evaluation de la recherche et de linterface et leur am elioration en fonction des attentes des utilisateurs (Jones et al., 2000). Mais comme la recherche dinformation sur le Web est anonyme, les syst` emes de recherche savent peu de choses sur leurs utilisateurs. Pour combler ce vide, un des moyens dobserver les utilisateurs et leur interaction avec le syst` eme passe par l etude des logs. Un log est un chier qui garde les traces des connexions au serveur : adresse Internet (IP) des machines, mots cl es des utilisateurs, dur ee des connexions, etc. Lanalyse des logs, appel ee aussi transaction log analysis, permet ainsi de collecter des informations 124

6.2. TRAVAUX EN ANALYSE DES LOGS

sur le comportement des utilisateurs et de tirer les conclusions utiles a ` lam elioration de linterface, du fonctionnement du syst` eme, etc. Nous pr esentons les etudes r ealis ees autour de deux moteurs de recherche g en eraux, Excite (Jansen et al., 2000) et AltaVista (Silverstein et al., 1998), et un moteur de recherche sp ecialis e de la librairie electronique NZDL (New Zealand Digital Library) consacr ee a ` linformatique et au multim edia (Jones et al., 1998). Le premier travail de ce type a et e r ealis e par (Jansen et al., 1998) sur les logs dExcite. Bien que les travaux qui ont suivi sen soient inspir es, il existe peu de crit` eres en commun. La taille des logs analys es est tr` es variable : elle est denviron 30 000 requ etes sur le portail sp ecialis e NZDL, denviron 51 000 avec le moteur g en eral Excite, et pas loin dun milliard avec AltaVista. Le nombre dutilisateurs avoisine les 18 000 avec Excite et 285 millions avec AltaVista. Lanalyse des logs est concentr ee autour de trois p oles : les sessions : temps de connexion, nombre moyen de requ ete par connexion, IP de la machine, nombre moyen de pages consult ees, etc., les requ etes : nombre moyen de mots par requ ete, utilisation dop erateurs bool eens et de modieurs, etc., les termes : casse, pr esence de nombres et symboles, typage s emantique, etc. Le nombre moyen de requ etes par session correspond au temps pass e avec le moteur. Les utilisateurs dExcite en soumettent en moyenne trois, et ceux dAltaVista et de NZDL deux. Une fois la requ ete soumise, les utilisateurs des moteurs g en eraux vont rarement au`re del` a de la 2e page de r esultats, et 58 % des utilisateurs dExcite ne regardent que la 1e page. Par contre sur le moteur th ematique NZDL lassiduit e des utilisateurs est plus grande, `re avec plus de 87 % qui vont au-del` a de la 1e page : ils sont pr ets a ` creuser consid erant sans doute quils peuvent trouver linformation recherch ee. Le fait que les utilisateurs se bornent a ` consulter uniquement les premi` eres pages de r esultats demande de proposer des syst` emes avec une pr ecision elev ee (Jansen et al., 2000). Lors de la composition des requ etes, les utilisateurs font aussi peu deort. Lusage des op erateurs bool eens (ET, OU, NON, etc.) et des modieurs (NEAR) est tr` es faible. Excite constate en plus que lorsquils sont utilis es, 20 % derreurs de syntaxe sont vite atteints, ce qui d et eriore les r eponses du syst` eme. Sur NZDL, 73 % des utilisateurs se contentent du param etrage par d efaut : les informations sur ce param etrage doivent donc etre visibles et explicitement signal ees en cas de modication. En ce qui concerne le nombre moyen de mots par requ ete, le moteur th ematique NZDL pr esente les valeurs les plus elev ees : 2,43 contre 2,3 avec les moteurs g en eraux. Les utilisateurs dun moteur th ematique semblent ainsi pouvoir mieux cibler leurs demandes. Mais la di erence avec les bases documentaires classiques, o` u les requ etes comprennent entre 7 et 15 mots, reste grande. En analysant les termes des logs dExcite, (Jansen et al., 2000) ont typ e s emantiquement les mots des requ etes les plus fr equentes, qui repr esentent pourtant rarement plus dun % de la totalit e des requ etes. Ces mots concernent le sexe, la g eographie et les voyages, l economie et la recherche de travail, les images, etc. Par ailleurs, lapplication de la loi de Zipf montre la particularit e du lexique utilis e dans les documents du Web (Jansen et al., 2000) : la courbe est allong ee aux extr emit es o` u se trouvent les mots tr` es fr equents et les hapax. (Jones et al., 1998) consid` erent que les mots les plus fr equents sont exploitables lors 125

E. CHAPITRE 6. APPARIEMENT DES REQUETES DES UTILISATEURS AVEC LE VOCABULAIRE CONTROL ETUDE DES LOGS DUN PORTAIL MEDICAL FRANC AIS

de la constitution des index, ce qui permettrait de fournir plus rapidement les r eponses aux mots cl es les plus fr equents. Lanalyse des termes de NZDL montre en plus que parmi les requ etes soumises, 5,61 % des mots ne trouvent pas de r eponses. Ces mots correspondent aux erreurs dorthographe (repesentation, sofhware, algorythm), aux noms propres et noms de marque (geobase, gillingham) et aux termes techniques non r epertori es (jsort, octrie, echocardiology). En r esum e, il existe, dans ces exp eriences, une di erence nette dans le comportement des utilisateurs des moteurs de recherche g en eraux et sp ecialis es. Les moteurs de recherche sp ecialis es re coivent des requ etes plus d evelopp ees et pr esentent une consultation des r esultats plus fouill ee. La th ematique cibl ee et peut- etre laccoutumance des utilisateurs et leur connaissance de la base sont la cause de cette di erence. Mais (Jones et al., 1998) constatent n eanmoins une d elit e mod er ee des utilisateurs de NZDL, qui correspond a ` la r` egle 80/20 : 80 % des utilisateurs ne font quune seule visite sur le site et 20 % restent d` eles. De mani` ere g en erale, les auteurs concluent que la recherche dinformation sur le Web est bien di erente de la recherche documentaire classique. Le peu deort manifest e par les utilisateurs doit etre compens e par ladaptation de linterface et la pr ecision des syst` emes de recherche.

6.3

M ethode dappariement des requ etes des utilisateurs et des termes dindexation

Les travaux en analyse des logs que nous venons de pr esenter sont concentr es sur une etude statistique des informations (nombre moyen de requ etes par session, de mots dans une requ ete, etc.). L etude lexicale des requ etes est rarement eectu ee et reste au niveau des constatations. Lexp erience que nous proposons consiste egalement en une analyse des logs. Mais nous appliquons aux requ etes des traitements de TAL dans le but dobserver lapport des connaissances linguistiques, et surtout morphologiques, lors de lappariement du vocabulaire des utilisateurs avec le vocabulaire contr ol e. La m ethode mise en uvre consiste a ` segmenter en mots les termes source (requ etes des utilisateurs) et cible (thesaurus dindexation, le MeSH), et ensuite a ` comparer les vocabulaires r esultants apr` es des normalisations successives. Tous les traitements sont appliqu es parall` element au vocabulaire source et au vocabulaire cible. La segmentation en mots est faite sur les caract` eres non alphanum eriques (espaces, ponctuations et autres caract` eres). Le r esultat de cette etape est une liste de mots source, et une liste de mots cible. Ces listes permettent de faire une premi` ere evaluation du recouvrement des vocabulaires : on recense ainsi lensemble des mots source qui se trouvent dans la cible (les mots communs aux deux listes) et son compl ementaire, les mots source inconnus des mots cible. La suite des traitements est eectu ee a ` chaque fois sur les mots source restant inconnus. Les deux vocabulaires (mots sources restant inconnus et mots cible) sont soumis a ` une s erie de normalisations r ealis ees au niveau des caract` eres (sec. 6.3.1) et a ` des normalisations 126

6.3. METHODE DAPPARIEMENT DES REQUETES DES UTILISATEURS ET DES TERMES DINDEXATION

qui demandent un apport de connaissances linguistiques (sec. 6.3.2). Les mots vides (mots consid er es comme non pertinents dans les vocabulaires compar es) sont supprim es des deux vocabulaires. Les normalisations appliqu ees permettent dobserver lapport en termes de rappel du moteur de recherche qui re coit ces requ etes, a ` travers le nombre dappariements eectu es. Par contre, nous navons aucun contr ole sur l evolution de la pr ecision.

6.3.1

Normalisations au niveau des caract` eres

Les normalisations au niveau des caract` eres ont et e conditionn ees par la nature du MeSH (mots en majuscules non accentu ees, hormis les termes en minuscules ajout es par l equipe CISMeF), et par la nature non pr evisible des mots employ es dans les requ etes des utilisateurs de CISMeF (mots en minuscules ou en majuscules, accentu es ou non). Nous eectuons deux types de traitement a ` ce niveau : la minusculisation et la d esaccentuation. Ce type de normalisation est el ementaire, mais important du fait des di erences signal ees. La suppression des accents (par exemple, chaque occurrence des lettres e` e e e est convertie en e) est n ecessaire pour homog en eiser lutilisation des caract` eres accentu es, mais egalement pour eliminer les mots accentu es incorrectement (par exemple, athl` etisme). Cette transformation peut eacer les di erences de signication entre certains mots. Par exemple, les mots st enose et st enos e sont r eduits a ` une seule forme : stenose. Vu lambigu t e que ce traitement apporte, nous avons initialement test e son application en n de cha ne des traitements pour ne pas d eteriorer la pr ecision de lappariement. Mais nous avons alors remarqu e que labsence ou bien la di erence daccentuation bloquaient dans beaucoup de cas lapplication des connaissances linguistiques. Nous avons donc nalement test e son application en d ebut de cha ne des traitements (apr` es la minusculisation). Les connaissances linguistiques, qui sont appliqu ees par la suite, sont egalement d esaccentu ees.

6.3.2

Normalisations au niveau des mots : application de connaissances morphologiques

Les traitements au niveau des mots consistent en des normalisations morphologiques, eectu ees avec des connaissances linguistiques et des r` egles de d esuxation des pluriels r eguliers. Les ressources morphologiques couvrent la exion et laxation, qui correspondent chacune a ` une etape s epar ee dans les traitements. Les r` egles de d esuxation prennent en compte uniquement certaines variations exionnelles. Ces traitements sont appliqu es s epar ement ou bien combin es, ce qui donne trois modules : Application des ressources morphologiques ; Application des r` egles de d esuxation des pluriels r eguliers ; Combinaison des ressources morphologiques et des r` egles de d esuxation. Application de ressources morphologiques. Lapplication des ressources morphologiques (sec. 6.4.3) est faite en deux etapes : lemmatisation et racinisation. La lemmatisation r eduit les formes echies dun mot a ` leur forme canonique. La racinisation se place du c ot e 127

E. CHAPITRE 6. APPARIEMENT DES REQUETES DES UTILISATEURS AVEC LE VOCABULAIRE CONTROL ETUDE DES LOGS DUN PORTAIL MEDICAL FRANC AIS

de la morphologie d erivationnelle et permet par exemple de r eduire les adjectifs aux noms a ` partir desquels ils ont et e form es. Il sagit de r eunir les mots qui ont le m eme noyau morphologique. La racinisation est appliqu ee aux mots du vocabulaire cible et sur les listes de mots qui restent inconnus a ` la sortie de la lemmatisation. Application des r` egles de d esuxation des pluriels r eguliers. Ces r` egles sont bas ees sur une heuristique de suppression de la marque du pluriel utilis ee en recherche dinformation, o` u elles montrent de bons r esultats (Savoy, 2002). Elles consistent a ` supprimer les nales en -s , a ` r eduire les -aux en -al et a ` supprimer les nales en -x . Combinaison de ressources morphologiques et de r` egles. La combinaison de connaissances exionnelles et de r` egles de d esuxation permet de viser la pr ecision (par lapplication de connaissances exionnelles) et daugmenter le rappel (avec les r` egles de r eduction des pluriels). Les connaissances linguistiques sont appliqu ees dabord, ensuite, sur les mots non trait es par ces connaissances, nous appliquons les r` egles.

6.3.3

Correction orthographique : comparaison approximative de mots

Les mots qui restent inconnus apr` es les normalisations pr ec edentes sont peut- etre des mots du MeSH mal orthographi es par les utilisateurs, situation fr equente dans les travaux similaires. (Jones et al., 1998; Hawking et al., 2000) notent ainsi jusqu` a 13 % de requ etes mal orthographi ees. Nous avons donc tent e une correction orthographique sur ces mots avec loutil ispell dUnix et le vocabulaire cible comme dictionnaire de r ef erence. Cependant, comme une correction orthographique est trop al eatoire sur les mots courts, nous avons exclu de cette correction les mots de longueur inf erieure a ` cinq lettres. Dans le but dune corretion enti` erement automatique, nous avons egalement exclu les propositions de correction multiples pour un m eme mot.

6.3.4

Encha nement des normalisations

Lencha nement des normalisations est eectu e dans lordre suivant : dabord les normalisations au niveau des caract` eres (minusculisation et d esaccentuation) et la suppression des mots vides, ensuite les trois modules de normalisations morphologiques appliqu es en parall` ele et, enn, la correction orthographique. Dans cette cha ne, seule la d esaccentuation avait une place ottante (car etant potentiellement une cause de perte de pr ecision). Elle est nalement eectu ee apr` es la minusculisation.

6.3.5

Occurrences et types

A chaque etape des traitements, nous calculons les appariements et les mots restant a ` traiter. Nous le faisons en terme doccurrences et de types. Si le nombre doccurrences 128

6.4. DESCRIPTION DU MATERIEL

reste le m eme tout au long des traitements (sauf lorsque les mots vides sont supprim es), le nombre de types diminue au l des normalisations (par exemple, plusieurs formes echies pouvent etre r eduits a ` un seul lemme). Dautre part, comme nous le verrons lors de la pr esentation des r esultats dappariement (g. 6.1), ils ne sont pas parall` eles pour les occurrences et les types.

6.4

Description du mat eriel

Le mat eriel utilis e comprend (1) les requ etes re cues par le moteur de recherche CISMeF de septembre 2000 a ` janvier 2001, (2) le thesaurus dindexation MeSH utilis e dans CISMeF pour lindexation des documents Web, (3) des connaissances morphologiques et r` egles de d esuxation et (4) une liste de mots vides.

6.4.1

Log des requ etes ` a CISMeF

Les requ etes analys ees du portail de sites m edicaux francophones CISMeF ont et e re cues par son moteur de recherche peu apr` es son ouverture, entre septembre 2000 et janvier 2001. Ce sont des requ etes simples, sans utilisation dop erateurs logiques ni de modieurs, do` u nous avons elimin e les requ etes eectu ees par l equipe CISMeF (sur la base de ladresse de la machine source) et les requ etes vides. Nous obtenons ainsi 108 660 requ etes (29 092 requ etes uniques). Nous avons cherch ea ` tenir compte du fait que certaines requ etes sont plus fr equentes que dautres. Pour cela, nous avons compt e pour chaque requ ete le nombre de machines di erentes do` u elle a et e envoy ee. Cela donne 76 341 occurrences de requ etes.machines (requ etes di erentes emises a ` partir de machines di erentes). Cest sur cet ensemble de requ etes que nous travaillons. Il pr esente 131 570 occurrences et 21 112 types de mots. Les requ etes re cues par CISMeF sont compos ees en caract` eres minuscules ou bien majuscules, accentu es ou bien non accentu es.

6.4.2

Vocabulaire dindexation : le MeSH

` l A epoque de lexp erience, CISMeF utilise la traduction fran caise du MeSH 2001 pour lindexation des documents. Elle comporte 19 971 termes, 9 151 synonymes et 83 qualicatifs. Sur les 19 971 termes fran cais du MeSH, 5 336 etaient employ es dans CISMeF au moment de lexp erience, soit 23 % de la totalit e disponible en fran cais. Ces termes sont enrichis par l equipe de CISMeF de 38 m etatermes et 101 types de ressources (Darmoni et al., 2001)5 . Les m etatermes correspondent aux sp ecialit es m edicales (dermatologie, n ephrologie, etc.) ; les types de ressources donnent une indication sur le genre des documents recens es (support de cours, article scientique, etc.). Lensemble de termes que nous avons pris pour cette exp erience comporte au total 29 035 termes di erents (termes +
A titre dinformation, en octobre 2004, CISMeF utilise presque la moiti e des descripteurs MeSH traduits en fran cais : 10 638 sur 22 568, mais aussi 84 qualicatifs, 193 types de ressources et 105 m etatermes. Nous remercions Magaly Douy` ere de l equipe CISMeF pour ces informations.
5`

129

E. CHAPITRE 6. APPARIEMENT DES REQUETES DES UTILISATEURS AVEC LE VOCABULAIRE CONTROL ETUDE DES LOGS DUN PORTAIL MEDICAL FRANC AIS

synonymes - doublons). Ce qui constitue le vocabulaire cible : 58 912 occurrences et 21 475 types de mots. Les termes fran cais du MeSH sont ecrits en majuscules non accentu ees. Les termes employ es dans CISMeF ont et e mis en casse mixte (minuscules, emploi normal des majuscules) et pour certains r eaccentu es.

6.4.3

Normalisations morphologiques

Ressources morphologiques linguistiquement motiv ees. Les connaissances morphologiques que nous avons induites a ` partir de terminologies m edicales (chap. 4) ont et e mises en application ici pour lemmatiser et raciniser les mots. Elles ont et e valid ees 6 manuellement puis compl et ees a ` partir de dictionnaires g en eraux et de di erents corpus m edicaux etiquet es. Ces ressources comportent 308 847 couples {forme, lemme} (par exemple, {abdominaux, abdominal}) pour la lemmatisation et 1 041 couples {base, d eriv e} (par exemple, {abdominal, abdomen}) pour la racinisation. La exion verbale occupe une grande place dans ces couples exionnelles, mais est en principe peu utile ici.

R` egles de d esuxation des pluriels r eguliers. Nous avons impl ement e des r` egles de traitement des pluriels r eguliers. De nombreux travaux en recherche dinformation (par exemple (Savoy, 2002)) ont montr e lecacit e de telles r` egles pour laugmentation du rappel. Ce sont des r` egles tr` es g en erales de r eduction des pluriels : passage dun pluriel en -s a ` un singulier : st enoses st enose ; r eduction des -aux en -al : abdominaux abdominal ; suppression des -x nals qui restent : genoux genou. Par contre, comme nous nutilisons pas de liste dexceptions, les r` egles seront egalement appliqu ees aux formes non plurielles : AIDS, anis, anticorps, Bordeaux, pharynx. Dans la mesure o` u ces normalisations sont appliqu ees egalement au vocabulaire source, elles ne sont pas tr` es g enantes.

6.4.4

Mots vides

Nous avons etabli une liste de mots vides dans une optique de recherche dinformation dans le domaine m edical (Zweigenbaum et al., 2002). Elle comprend des mots grammaticaux (articles, pr epositions, conjonctions, pronoms), des num eraux, certains adverbes et adjectifs et quelques formes verbales, pour un total de 199 formes. Nous avons egalement utilis e une liste de 217 mots vides mise au point pour la recherche dinformation (Savoy, 2002)7 . La fusion de ces deux listes a donn e au total 344 mots vides.
6 7

Lexique de lABU : abu.cnam.fr/DICO Cette liste est disponible a ` ladresse www.unine.ch/info/clef.

130

6.5. ANALYSE ET DISCUSSION DES APPARIEMENTS DES VOCABULAIRES

6.5

Analyse et discussion des appariements des vocabulaires

L etude de la faisabilit e dappariement entre les mots des requ etes des logs et ceux du vocabulaire contr ol e correspond a ` une etude et un traitement de la variation terminologique, ce qui di erencie notre travail de la transaction log analysis traditionnelle. Notre exp erience consiste donc en des normalisations de di erents niveaux appliqu ees progressivement et en parall` ele aux vocabulaires source et cible.
140000 20000 120000 16,3%

Nombre doccurrences

Nombre de types

100000

52,9%

15000 27,7%

80000

83,7% 10000 72,3%

7,7% 9,0% 0,7% 15,8% 92,3%

60000

40000

47,1%

62,5% 5000 13,8% 12,4% 87,6% vides lemme

91%

99,3%

84,2%

20000 37,5% 0 brut min. accent 86,2%

0,9% 99,1% rac.

18,5% 81,5% 0 corr. brut min. accent vides lemme rac. corr.

Normalisations

Normalisations

(a) Occurrences

(b) Types

Fig. 6.1 Evolution des appariements a ` chaque etape de la normalisation. La gure 6.1 pr esente les r esultats de ces appariements pour lensemble de la p eriode allant de septembre 2000 a ` janvier 2001 en termes doccurrences (g. 6.1(a)) et de types (g. 6.1(b)). Chaque colonne correspond a ` une etape : brut appariement direct, min. minusculisation, accent. d esaccentuation, vides suppression des mots vides, lemme lemmatisation, rac. racinisation et corr. correction orthographique. Pour lensemble de mots source restant a ` traiter a ` chaque etape, nous indiquons le pourcentage de mots appari es (partie haute) et le pourcentage de mots restant a ` traiter (partie basse). Les mots qui restent non appari es a ` l etape n correspondent a ` lensemble trait ea ` l etape n + 1. Le vocabulaire cible (MeSH) comporte 58 912 occurrences et 21 475 types. Le vocabulaire source (requ etes) comporte 21 112 types et 131 570 occurrences (colonne brut). Parmi ces mots, 3 438 types et 69 602 occurrences sont appari es directement avec les mots du MeSH. 17 674 types et 61 968 occurrences restent inconnus. Lappariement des mots originaux, sans aucun traitement, permet donc de reconna tre 52,9 % doccurrences, mais seulement 16,3 % de types. La minusculisation apparie en plus 62,5 % doccurrences (27,7 % de types) dans lensemble du vocabulaire source qui reste. 23 217 occurrences (11 806 types) restent inconnues. La d esaccentuation permet dapparier encore 13,8 % ` doccurrences (7,7% de types). A cette etape, 20 004 occurrences (10 420 types) restent 131

E. CHAPITRE 6. APPARIEMENT DES REQUETES DES UTILISATEURS AVEC LE VOCABULAIRE CONTROL ETUDE DES LOGS DUN PORTAIL MEDICAL FRANC AIS

inconnues. L elimination de 33 mots vides correspond a ` la suppression de 85 occurrences. Ce traitement ne produit pas de nouveaux appariements. Les meilleurs r esultats de normalisation exionnelle sont obtenus avec la combinaison de connaissances linguistiques et de r` egles de d esuxation. Ce sont donc ces r esultats que nous pr esentons ici. La lemmatisation apparie 12,4 % doccurrences (9% de types) et la racinisation 0,9% doccurrences (0,7% de types) en plus. La comparaison directe des vocabulaires permet donc de traiter 52,9 % des occurrences, ce qui est plut ot elev e. Par contre seulement 16,3 % des types sont reconnus. Ce qui signie que sans traitements suppl ementaires plus de 85 % de types restent non reconnus et que les utilisateurs obtiendraient donc des r esultats incomplets et dune qualit e moyenne. Mais sachant que la majorit e des termes fran cais du MeSH sont ecrits en majuscules non accentu ees et que les utilisateurs ecrivent avec une casse et une accentuation variables, les r esultats de ce premier appariement peuvent etre consid er es comme elev es. Cela peut provenir de plusieurs origines : (1) un grand nombre dutilisateurs de CISMeF sont des documentalistes, qui connaissent le MeSH (...en anglais) ; (2) un grand nombre de pathologies courantes sont des mots cl es MeSH, utilis es par CISMeF et parfois ecrits en minuscules accentu ees. Par exemple, nous trouvons parmi les vingt requ etes les plus fr equentes en janvier 2002 les mots : euthanasie, anorexie, alcoolisme, hepatite/h epatite, pneumonie, sida, varicelle, paludisme ; (3) enn, certains sites proposent des liens consistant en des requ etes toutes pr etes a ` CISMeF : ces requ etes pointent syst ematiquement sur les bons mots cl es. Lutilisation des normalisations au niveau des caract` eres et des normalisations morphologiques am` ene a ` un taux nal de reconnaissance de lordre de 87% doccurrences et 66 % de types de mots. Moins dun septi` eme des occurrences du vocabulaire des utilisateurs nest alors pas interpr etable. La correction orthographique propose de corriger environ 15,8 % de types (18,5 % doccurrences). Finalement, dans lensemble initial de mots source, 65,5 % de types et 89,3% doccurrences sont reconnus avec les normalisations appliqu ees. Notons n eanmoins que dans les cas o` u les mots cl es des utilisateurs ne sont pas appari es avec les termes du MeSH, le moteur de CISMeF dispose dun recours : il g en` ere une recherche sur le contenu int egral des notices puis des documents. Parmi les normalisations appliqu ees, la normalisation de la casse apporte le plus gros gain (29,5 % doccurrences et 21,4 % de types par rapport au vocabulaire source original), la d esaccentuation ajoute 2,4 % doccurrences et 4,1 % de types aux mots originaux reconnus. Au total, 84,8 % doccurrences et 41,8 % de types du vocabulaire source sont reconnus. Etant donn e la simplicit e de ces m ethodes, les normalisations de caract` eres devraient etre consid er ees comme la base en recherche dinformation dans CISMeF. La contribution totale des connaissances morphologiques est beaucoup plus faible : 2 % pour les occurrences et 4,6 % pour les types (ce qui donne 86,8 % pour les occurrences et 46,4 % pour les types par rapport au vocabulaire dorigine). Alors que le recensement de ces ressources demande davantage deort. Nous entrons ici dans un sch ema classique dans la r esolution de probl` emes : au-del` a dun certain point, les eorts n ecessaires pour am eliorer les r esultats sont de plus en plus importants pour un gain qui va en diminuant. Remarquons n eanmoins que lapport des connaissances morphologiques est plus elev e pour les types (4,6 %) que pour les occurrences (2 %). Notons egalement que la couverture de nos ressources morpho132

6.5. ANALYSE ET DISCUSSION DES APPARIEMENTS DES VOCABULAIRES

logiques pour la lemmatisation et surtout la racinisation nest pas parfaite. Nous lavons not e : ces ressources font d efaut de fa con g en erale pour le fran cais et encore plus pour les domaines de sp ecialit e comme la m edicine.
100

Nombre de types et doccurrences

80 75,2% 60 54,8% 40 53,4% 49,3% 44,7% 39,5% 76,1% 75,4% 73,9% 72,6%

83,7%

47,1% 34,5%

20

26,6% 15,0%

27,4% 13,4%

26,9%

26,1%

24,9%

11,5% 10,7% 9,4% 7,2% occ. type occ. type occ. type occ. type occ. type occ. type total sept. 1999 oct. 1999 nov. 1999 dec. 1999 jan. 2000

Priodes analyses

Fig. 6.2 Evolution mensuelle des occurrences et des types restant non appari es. La gure 6.2 montre l evolution mensuelle de mots qui restent inconnus a ` chaque mois (sept. 1999, oct. 1999, etc.) de la p eriode analys ee. Les d ecomptes sont egalement donn es en occurrences (occ.) et en types (type). Le pourcentage doccurrences et de types restant a ` traiter sont indiqu es pour les appariements initiaux sans aucune normalisation (partie haute) et avec toute la cha ne des normalisations (partie basse). Nous pouvons voir que le pourcentage des occurrences des mots inconnus diminue dune mani` ere assez importante dun mois a ` lautre. Par contre cette diminution est tr` es faible pour les types. La derni` ere colonne (Total) correspond aux r esultats obtenus lorsque les requ etes de chaque mois sont trait ees ensemble. Si le nombre total doccurrences non appari ees correspond a ` la moyenne des occurrences de tous les mois, le nombre de types non appari es est sup erieur a ` cette moyenne : de nouveaux types inconnus viennent sajouter chaque mois. Les normalisations appliqu ees, tout en augmentant le rappel, peuvent mener a ` des ambigu t es et donc a ` la diminution de la pr ecision. Cest rarement le cas pour la mise en minuscules, un peu plus pour la d esaccentuation (st enose et st enos e stenose). Quant aux ressources de lemmatisation et de racinisation, elles ont et e valid ees lors de leur g en eration et sont, en principe, correctes. Nous avons constat e par ailleurs que les ressources morphologiques motiv ees linguistiquement et les r` egles de d esuxation sont compl ementaires. En eet, les r` egles de d esuxation, appliqu ees aux pluriels r eguliers l` a o` u nous ne pouvons pas recenser toutes les formes au singulier et au pluriel, permettent daugmenter le rappel. Il serait int eressant dappliquer le m eme type de r` egles pour le traitement des f eminins, voire des axations. Rappelons n eanmoins que le traitement des f eminins avec les r` egles nest pas evident, surtout sur des donn ees non etiquet ees comme dans notre exp erience ; la racinisation est egalement sujette 133

E. CHAPITRE 6. APPARIEMENT DES REQUETES DES UTILISATEURS AVEC LE VOCABULAIRE CONTROL ETUDE DES LOGS DUN PORTAIL MEDICAL FRANC AIS

a ` la g en eration de bruit (voir lanalyse des erreurs dans la sec. 4.3.4 page 75). Les r` egles de d esuxation de telles formations pourraient alors etre accompagn ees dexceptions. Enn, rappelons que les mesures eectu ees concernent le recouvrement des mots individuels. La plupart des requ etes et des termes MeSH comprennent plusieurs mots et leur appariement demande des conditions et des traitements suppl ementaires (voir par exemple (Jacquemin, 1996; Zweigenbaum et al., 2002)). De mani` ere g en erale, les normalisations que nous appliquons permettent d evaluer l evolution du rappel, mais pas de la pr ecision. Tandis que les evaluations habituelles des syst` emes de recherche visent a ` mesurer les deux (par exemple, (Gaudinat & Boyer, 2002) pour un autre portail m edical).

6.6

Conclusion et perspectives

Les mesures eectu ees dans ce travail montrent limportance de traitements de bas niveau dans lappariement des requ etes en texte libre avec les termes dun vocabulaire contr ol e. Elles indiquent aussi lint er et mais egalement les limites des connaissances morphologiques pour aider cette mise en correspondance. Si lapport de la lemmatisation est net, celui de la racinisation reste extr emement faible dans cette etude. Il faut toutefois noter la di erence quantitative des connaissances mises en jeu : trois cents fois plus importantes pour la lemmatisation que pour la racinisation. Des connaissances plus compl` etes pour cette derni` ere pourraient donc modier ces r esultats. Lutilisation combin ee des connaissances morphologiques avec les r` egles de d esuxation des pluriels r eguliers am eliore le rappel. Du fait quil sagit de la exion r eguli` ere, la pr ecision reste potentiellement elev ee. L etablissement de r` egles pour les f eminins, les variations exionnelles non r eguli` eres ou la morphologie constructionnelle demanderait dappliquer en parall` ele des listes dexceptions. Une correction orthographique est en revanche un facteur dam elioration important. Cependant, ses r esultats sont moins ables, et ses conditions dutilisation restent a ` pr eciser. La proportion de mots non trait es par les m ethodes etudi ees, qui reste importante, t emoigne de la n ecessit e de prendre en compte dautres m ethodes dappariement et dacc` es. Parmi ces autres m ethodes, rappelons lemploi de synonymes (Pouliquen et al., 2002) ou de similarit es distributionnelles. Le repli sur un acc` es classique en texte int egral est une autre option. Une autre perspective consiste a ` sapprocher des travaux classiques en transaction log analysis (Jones et al., 2000; Jansen et al., 2000; Silverstein et al., 1998), qui permettraient eventuellement dapporter des am elioration au syst` eme de recherche et a ` linterface dinterrogation. Les r esultats de cette etude fournissent une mesure utile de lad equation entre vocabulaire des utilisateurs et vocabulaire dindexation ; ils peuvent devenir lune des m etriques servant au suivi r egulier de CISMeF. Notons egalement que les normalisations et les ressources test ees ont et e depuis int egr ees dans le traitement des requ etes en ligne dans CISMeF et ont donn e lieu a ` dautres travaux (Soualmia & Darmoni, 2004; N ev eol, 2004; N ev eol et al., 2004).

134

Chapitre 7 Application de connaissances morphologiques en structuration de terminologies


Dans ce chapitre, nous pr esentons un autre contexte applicatif o` u les termes doivent etre mis en relation : la structuration des terminologies. Les termes a ` structurer peuvent etre contr ol es ou non contr ol es, selon quil sagit de lenrichissement dune terminologie existante ou de la cr eation dune nouvelle terminologie. Les ressources morphologiques peuvent alors etre utilis ees, a ` c ot e dautres ressources, pour la normalisation des termes lors de leur structuration.

7.1

Introduction

La structuration dune terminologie repose sur la d etection de relations entre les termes dun domaine. Lensemble de ces termes et relations forme un syst` eme dans le but de ` repr esenter la connaissance du domaine etudi e. A la di erence de listes de termes ` a plat, les terminologies structur ees permettent a ` partir dun terme dacc eder a ` dautres termes du domaine qui lui sont li es. Par exemple, en recherche dinformation, lutilisation de la relation de synonymie permet denrichir la requ ete avec des termes equivalents, et lexplosion de concept , qui correspond a ` la prise en compte de termes plus sp eciques que le terme en question, active les relations hi erarchiques. Les terminologies structur ees sont relativement rares mais le domaine m edical fait gure dexception, car ses principales terminologies sont structur ees. Le besoin de construction de nouvelles terminologies ou bien denrichissement ou dadaptation de terminologies existantes y existe n eanmoins. Lapproche manuelle de construction et de structuration de terminologies ne peut plus suivre ces besoins. Elle nest pas non plus adapt ee au traitement de la masse dinformation existante. Des approches (semi)automatiques sont propos ees pour prendre la rel` eve. Les outils informatiques sont alors consid er es comme une assistance a ` la constitution de terminologies structur ees ; et les donn ees g en er ees automatiquement, avant d etre utilis ees, sont soumises a ` des valideurs 135

CHAPITRE 7. APPLICATION DE CONNAISSANCES MORPHOLOGIQUES EN STRUCTURATION DE TERMINOLOGIES

humains qui prennent la d ecision nale quant aux termes et relations entre eux. Cette intervention manuelle repr esente la partie co uteuse dans le processus de construction et de structuration de terminologies. Pour lall eger, certains chercheurs travaillent avec des ressources riches, qui sopposent alors aux ressources pauvres. Lacquisition a ` partir de ressources pauvres est bas ee sur l etude des donn ees textuels brutes, dont on fait emerger les termes et les relations entre eux. Cette approche est pr econis ee par le courant de la terminologie textuelle (Bourigault & Slodzian, 1999), o` u les documents produits dans un domaine de sp ecialit e sont suppos es contenir linformation n ecessaire a ` la cr eation de terminologies de ce domaine. Les terminologies ainsi constitu ees nont pas une vocation universelle, mais sont con cues dans le cadre dune application donn ee du domaine explor e. Les travaux qui explorent les ressoures riches sont bas es sur les informations contenues dans les dictionnaires g en eraux ou encyclop edies (par exemple (Calzolari, 1991; Montemagni & Vanderwende, 1992; Agirre et al., 1994)), ou des DTD (Document Type Denition) de documents XML (Giraldo & Reynaud, 2002) dans les travaux plus r ecents. Le contenu de ces sources inuence directement le contenu des terminologies obtenues. (Grefenstette, 1994) signale quelques biais de ces approches : (1) les mises a ` jour des dictionnaires sont rares, (2) les termes sp ecialis es en sont absents et, (3) lorsquils sont r epertori es, leurs sens et relations restent ambigus et souvent non acceptables pour un domaine de sp ecialit e. Quant a ` lutilisation des DTD, les arbres et les noms d el ements sous-entendent d ej` a une structuration du domaine sp ecique a ` un site Web et varient dun site a ` lautre (Giraldo & Reynaud, 2002). Dans dautres travaux, toujours dans le but dacc elerer le processus, la constitution de terminologies structur ees est amorc ee sur une ressource s emantiquement riche et ensuite compl et ee avec des donn ees provenant de sources pauvres (Maedche & Staab, 2000). Dans nos travaux, nous exploitons les ressources pauvres : corpus de textes et listes de termes ` a plat. Dans la suite du chapitre, nous pr ecisons les types de relations distingu es dans une terminologie structur ee (sec. 7.2) et etablissons un etat de lart en structuration de terminologies a ` partir de ressources pauvres (sec. 7.3). Nous pr esentons ensuite notre m ethode de structuration (sec. 7.4) et le mat eriel utilis e (sec. 7.5). Nous analysons et discutons alors les relations induites (sec. 7.6), et concluons (sec. 7.7).

7.2

Relations dans les terminologies structur ees

Nous distinguons trois types de relations dans les terminologies structur ees : les relations 1 hi erarchiques, synonymiques et antonymiques, et transversales .

7.2.1

Relations hi erarchiques

Les relations hi erarchiques relient deux concepts dont lun recouvre une notion plus large que lautre. Elles permettent dorganiser les termes en un arbre hi erarchique et
La pr esentation des types des relations dans une terminologie structur ee est fortement inspir ee de celles faites dans (Zweigenbaum & Grabar, 2000; Grabar & Hamon, 2004a).
1

136

7.2. RELATIONS DANS LES TERMINOLOGIES STRUCTUREES

Fig. 7.1 Relations taxinomiques dans une terminologie structur ee

d etablir ainsi une arborescence du domaine (gure 7.1). Ces relations sont aussi appel ees g en eriques, hyperonymie ou relation est-un. Le terme g en erique est appel e hyperonyme , le terme sp ecique hyponyme . Par exemple dans la SNOMED, lappendicite est une des maladies de lappendice. Les relations partitives , appel ees aussi relation partie-de ou m eronymie, identient les parties dun objet et servent a ` d ecrire les objets manufactur es ou artefacts. Elles sont parfois regroup ees avec la relation hi erarchique et participent alors aussi a ` la constitution de larborescence du domaine. Le terme qui d esigne le tout est appel e holonyme , le terme qui d esigne la partie m eronyme . Mais ces relations peuvent etre distingu ees de la relation hi erarchique et appara tre comme une relation a ` part enti` ere ou encore tomber dans lanonymat des relations transversales. Dans la SNOMED, lappendice vermiculaire fait partie du gros intestin, qui fait a ` son tour partie de lappareil digestif. Ces relations structurantes sont les plus etudi ees car elles fournissent la colonne vert ebrale des terminologies structur ees. Mettre en place une hi erarchie de concepts selon la relation est-un est un acte cl e dans la construction dune terminologie ou dune ontologie. En recherche dinformation en particulier mais aussi dans dautres applications, ces relations permettent dadapter la granularit e de la recherche selon les besoins de lutilisateur. Lexplosion de concept prend en compte, pour un concept g en erique, ses concepts sp eciques. Ce qui permet dam eliorer le rappel et de proposer des r eponses plus cibl ees. Et si un terme ne gure pas dans une terminologie, la d etection et lutilisation dun hyperonyme permet de proposer n eanmoins une r eponse. La relation de taxinomie peut rev etir un aspect plus pragmatique. Par exemple, dans le MeSH, elle couvre egalement la relation daboutness (voir-aussi), consid er ee comme souhaitable en recherche dinformation, car reliant des termes proches. Ainsi, les termes accident et prevention accident font partie de la relation hi erarchique.

7.2.2

Relations synonymiques et antonymiques

La synonymie (gure 7.2(a)) met en relation des expressions qui ont, dans un contexte donn e, des sens equivalents. Sortie de ce contexte, la relation de synonymie peut satt enuer ou bien perdre de la pertinence. Dans les terminologies, les synonymes sont attach es a ` un m eme concept. Par exemple le concept T-50100 de la SNOMED regroupe les termes voies digestives, tractus gastro-intestinal et tube digestif. La relation de synonymie ne constitue 137

CHAPITRE 7. APPLICATION DE CONNAISSANCES MORPHOLOGIQUES EN STRUCTURATION DE TERMINOLOGIES

synonyme synonyme synonyme


(a) Synonymie (b) Antonymie

Fig. 7.2 Relations synonymiques et antonymiques dans une terminologie structur ee

pas une information obligatoire dans les terminologies. Mais lorsquelle est encod ee, la synonymie peut etre utilis ee de di erentes mani` eres : en indexation et analyse de contenu, les synonymes aident dans lappariement dexpressions formellement di erentes ; en recherche dinformation, les synonymes viennent enrichir la requ ete et permettent ainsi daugmenter le rappel ; en r edaction technique, ils permettent d eviter les r ep etitions ; dans les travaux de fusion de terminologies, la relation de synonymie sert a ` apparier les concepts equivalents provenant de di erentes sources ; la terminologie normative en fait une utilisation discriminative et les synonymes doivent alors etre strictement pr ef er es a ` leurs equivalents. Notons egalement quen construction dontologie, le terme pr ef er e peut recevoir une vocation formelle et servir d etiquette symbolique a ` son concept. Lantonymie (gure 7.2(b)) relie des notions contraires ou oppos ees. Formellement, elle met en relation des termes co-hyponymes qui ne sont pas synonymes (Amsili, 2003). Lantonymie appara t rarement dans les terminologies. Elle peut pourtant servir pour cerner une requ ete et eliminer ainsi les documents qui comportent un terme ind esirable en recherche dinformation ou dans dautres applications.

7.2.3

Relations transversales

Les relations transversales correspondent aux relations entre des termes situ es dans les di erentes branches de la hi erarchie (gure 7.3). Elles permettent didentier des rapports entre termes que les relations synonymiques, antonymiques ou hi erarchiques ne peuvent pas re eter. Il sagit par exemple des r oles th ematiques (objet, instrument, agent, patient, etc.), des relations causales, temporelles, spatiales, mais surtout des relations sp eciques a ` un domaine. Dans une terminologie traditionnelle, la relation transversale est exprim ee le plus souvent avec un lien voir-aussi, et la relation daboutness sen rapproche aussi. voir-aussi sert de pointeur g en eral vers des notions apparent ees, sans pr eciser la nature de ce rapport. Il joue alors un r ole dassociation entre les termes. Lexplicitation et le typage de telles relations est un apport tr` es important dinformation. Ces relations peuvent correspondre a ` 138

7.3. TRAVAUX EN STRUCTURATION DE TERMINOLOGIES

Fig. 7.3 Relations transversales dans une terminologie structur ee

des liens d enitoires. Dans la SNOMED par exemple, qui parle de relations de r ef erence, elles sont utilis ees pour d ecomposer un concept en dautres concepts plus el ementaires. Le terme appendicite poss` ede ainsi une relation de localisation anatomique avec appendice vermiculaire et une relation datteinte morphologique avec inammation : D2-50140 appendicite localis e-dans T-28000 appendice vermiculaire a-pour-atteinte M-40000 inammation Cette derni` ere utilisation des relations transversales est propre aux terminologies dites postcoordonn ees , qui permettent de composer un terme complexe etant donn ee une s erie de termes simples (Spackman & Campbell, 1998; Zweigenbaum, 1999). Les relations transversales peuvent servir en recherche dinformation, o` u elles peuvent aider lutilisateur a ` elargir la requ ete ou bien, lorsquils ne sont pas s urs des mots cl es, a ` la formuler en s electionnant un des termes propos es.

7.3

Travaux en structuration de terminologies

Les travaux en structuration de terminologies que nous pr esentons ici eectuent une acquisition a ` partir de ressources pauvres : corpus de textes ou liste de termes. Lacquisition est bas ee sur l etude de la structure interne des termes (sec. 7.3.1) ou bien sur leur contexte (sec. 7.3.2). Dans les deux cas, les approches peuvent etre endog` enes, cest-` a-dire que seules les informations pr esentes dans le corpus sont utilis ees, ou bien bas ees sur lexploitation de connaissances ext erieures, sous forme de ressources lexicales, de marqueurs, etc. 2 .

7.3.1

Etude de la structure des termes

L etude de la structure interne des termes permet dacqu erir des relations hi erarchiques et des relations synonymiques ou bien des variantes morphosyntaxiques. Inclusions lexicales des termes. Lhypoth` ese dinclusion lexicale d ecrite notamment par (Kleiber & Tamba, 1990) consiste a ` identier des relations dhyperonymie lexicalement
2

Cette pr esentation est fortement inspir ee de lexpos e fait dans (Grabar & Hamon, 2004a).

139

CHAPITRE 7. APPLICATION DE CONNAISSANCES MORPHOLOGIQUES EN STRUCTURATION DE TERMINOLOGIES

fond ees selon le principe suivant : ( ( ...pour passer dun hyponyme a ` son hyperonyme, il sut denlever le second el ement sp ecicateur du compos e. ) ) Par exemple, a ` partir du terme st enose s ev` ere, par suppression du modieur s ev` ere, nous obtenons son hyperonyme st enose. Ce type de formation de termes est naturellement utilis e dans les langues de sp ecialit e. (Bodenreider et al., 2001) appliquent cette hypoth` ese pour acqu erir des relations dhyperonymie et compl eter ainsi la structure dUMLS, en se basant sur : une liste de modieurs (ou sp ecicateurs) adjectivaux (autoimmune, hemolytic, etc.) les termes complexes dont la structure est conforme a ` la syntaxe. Ne sont pas trait es les termes articiels comme Patient transfer, in-hospital, unit-to-unit. Les termes hyperonymes sont d eduits par suppression des modieurs dans les termes trait es. Par exemple, les modieurs autoimmune et hemolytic sont supprim es du terme autoimmune hemolytic anemia pour produire trois nouveaux termes hemolytic anemia, autoimmune anemia et anemia, ainsi que les relations dhyperonymie entre ces termes. Le traitement denviron 63 000 termes et 5 400 modieurs adjectivaux produit environ 60 000 relations dhyperonymie parmi lesquelles 50 % sont d ej` a pr esentes dans lUMLS et 25 % mettent en relation des termes co-hyponymes dUMLS. Les 25 % de relations qui restent sont absentes de lUMLS et doivent etre analys ees manuellement. Lanalyse syntaxique des termes peut egalement conduire a ` lidentication dinclusions lexicales. Lutilisation des d ependances syntaxiques entre les composants permet de d ecomposer un terme en t ete et expansion (Bourigault, 1993). Cette technique, qui permettait a ` lorigine de d etecter des termes plus el ementaires, sest av er ee utile en structuration de termes en un r eseau. Ainsi, lanalyse syntaxique indique que le terme st enose s ev` ere a pour t ete st enose. R` egles de transformation pour le rep erage de synonymes et de variantes morphosyntaxiques. Lobjectif des travaux qui exploitent des r` egles de transformation consiste a ` d ecrire et a ` regrouper les variantes morphosyntaxiques ou les synonymes. Ainsi, st enose de laorte et st enose aortique sont des variantes morphosyntaxiques d esignant le m eme terme. La d etection de variantes morphosyntaxiques peut etre utilis ee pour identier des variantes de termes contr ol es fournis par un thesaurus ou bien pour rep erer les variantes a ` lint erieur dun m eme corpus (Jacquemin, 1996). Lacquisition de ces variantes repose sur lhypoth` ese que la relation de d ependance entre les composants du terme contr ol e est pr eserv ee dans ses variantes. Trois variations morphosyntaxiques sont autoris ees : Coordination de termes : X ray diraction / X ray or neutron diraction (diraction des rayons X / diraction des neutrons ou des rayons X) ; Insertion et juxtaposition de modieurs : blood cell / blood mononuclear cell (cellule du sang /cellule mononucl eaire du sang) ; Permutation : 140

7.3. TRAVAUX EN STRUCTURATION DE TERMINOLOGIES

data transmission / transmission of data (transmission de donn ees / transmission de donn ees). Pour acqu erir des relations de synonymie entre termes complexes, (Hamon & Nazarenko, 2001a) font lhypoth` ese de la propagation compositionnelle des relations de synonymie. Ainsi, deux termes complexes sont consid er es comme synonymes si leurs composants sont identiques ou synonymes. Trois r` egles sont d enies pour inf erer des relations de synonymie entre les termes complexes (Hamon & Nazarenko, 2001b) : Variation sur lexpansion : les t etes sont identiques et les expansions sont synonymes action de protection / action de sauvegarde ; Variation sur la t ete : les t etes sont synonymes et les expansions sont identiques capacit e faible / puissance faible ; Variation sur la t ete et lexpansion : les t etes et les expansions sont synonymes classement d equipement / classication de mat eriel. An d eviter la surg en eration, les termes mis en relation doivent etre attest es en corpus.

7.3.2

Etude du contexte des termes

L etude du contexte des termes consiste a ` rep erer les r egularit es dapparition de ces termes dans les textes an de d etecter les relations qui existent entre eux. La nature des relations peut etre d enie a ` lavance, comme dans le cas des marqueurs et des patrons lexico-syntaxiques ou bien typ ee a posteriori a ` lint erieur des classes de termes. Les marqueurs. Les marqueurs sont des el ements textuels caract eristiques dune relation. Dans les exemples qui suivent is a et including sont des marqueurs de lhyperonymie, et entra ne est un marqueur de la causalit e. La d etection dun marqueur dans un segment de texte d eclenche une analyse d etaill ee de ce contexte. Les marqueurs permettent de d etecter di erentes relations : hyperonymie, m eronymie, synonymie et relations transversales (Kavanagh, 1995), causalit e (Garcia, 1998). Pour identier les phrases contenant les relations de synonymie, les d enitions, lintroduction de nouveaux termes et lexpansion dabr eviations dans des corpus techniques anglais, (Pearson, 1998) utilise des marqueurs suivants : i.e., e.g., ( ), known as, called, qui lui permettent de d etecter les phrases comme : Cells or organs which can detect stimuli (e.g. smell, temperature, touch,...) Amba. It swims using short hairs called cilia. The cilia also P 19... A signal of limited duration known as a measuring signal... Lapplication de ces marqueurs sur trois corpus portant sur des domaines di erents montre des r esultats variables selon les corpus. La coordination peut egalement relier des termes s emantiquement proches. Cest la piste suivie par (Lame, 2002, sec.6.1) dans son travail avec les textes juridiques. Les conjonctions de coordination et et ou permettent ainsi de d etecter les relations entre : a erodromes et installations a ` usage a eronautique artisants et commer cants d eductions scales et r eductions dimp ot. 141

CHAPITRE 7. APPLICATION DE CONNAISSANCES MORPHOLOGIQUES EN STRUCTURATION DE TERMINOLOGIES

Patrons lexico-syntaxiques. Lutilisation de patrons lexico-syntaxiques repose egalement sur la pr esence dindices linguistiques (such as, including, tel que, certain) dans les textes. Mais a ` la di erence des marqueurs, les patrons identient la relation recherch ee plus pr ecis ement en d enissant a ` la base les contraintes syntaxiques ou typographiques du contexte, la position des termes en relation, etc. Lutilisation des patrons lexico-syntaxiques dans le traitement de corpus sp ecialis es d ebute avec le travail de (Hearst, 1992), qui les exploite pour lacquisition de relations dhyperonymie. Cette approche a et e reprise et impl ement ee par (Morin, 1999) pour assister le rep erage de patrons lexico-syntaxiques. Les patrons sp eciques du corpus etudi e sont d enis a ` laide dun thesaurus : (1) les termes du thesaurus, qui ont une relation dhyperonymie entre eux, sont projet es sur un corpus ; (2) les segments de texte pertinents sont utilis es pour construire les patrons candidats ; (3) les patrons pertinents sont s electionn es manuellement et (4) ensuite projet es sur le corpus pour d etecter de nouveaux termes en relation dhyperonymie. Ainsi, la projection de la relation dhyperonymie glyc erol est-un polyol permet dextraire le patron ( ( SN tel que LISTE SN ) ) de la phrase : Lhydrolyse des substrats est activ ee par le glucose et les polyols tels que le sorbitol et le glyc erol. Et lapplication de ce patron sur le corpus permet de d etecter a ` partir de la phrase : Des cations tels que le sodium, le potassium, le calcium et le magn esium peuvent etre dos es par des m ethodes de routine. de nouvelles relations dhyperonymie : sodium est-un cation, potassium est-un cation, calcium est-un cation et magn esium est-un cation. La d enition de patrons lexico-syntaxiques pour la d etection de di erentes relations (hyperonymie, m eronymie, synonymie, relations transversales) peut etre bas ee sur les marqueurs caract eristiques propos es dans la litt erature (S egu ela & Aussenac-Gilles, 1999). Le souci principal est alors leur adaptation aux nouveaux corpus a ` traiter. Les patrons peuvent aussi provenir dune etude linguistique du corpus trait e (Condamines & Rebeyrolle, 1998). Constitution de classes de termes. La constitution de classes s emantiques de termes est bas ee sur l etude de la similarit e de la distribution (occurrences et voisinages) des termes en corpus. Le principe distributionnel (Harris, 1971), qui se trouve a ` la base de ces travaux, stipule que les termes qui apparaissent dans les contextes similaires ont un sens proche. La repr esentation du contexte par lanalyse distributionnelle peut etre une fen etre de mots ou une relation de d ependance syntaxique. Pour obtenir cette derni` ere, il faut eectuer une analyse syntaxique. Deux mots ou termes sont alors consid er es comme s emantiquement proches sils partagent les m emes d ependances. Ces d ependances peuvent etre recherch ees au sein de : groupes nominaux, adjectivaux, pr epositionnels, etc. (Grefenstette, 1994), groupes nominaux (Habert et al., 1996; Assadi, 1998), 142

7.4. METHODES DINDUCTION ET DEVALUATION DE RELATIONS HIERARCHIQUES

groupes verbaux (Bourigault & Fabre, 2000). Un calcul dassociation entre les mots ou termes permet ensuite de forger les classes. Les groupes de similarit e ou les classes peuvent avoir une forte proximit e s emantique interne. Par exemple (Grefenstette, 1994) obtient les groupes suivants : large : small, important, major, great, various, main, dierent, eld, new patient : case, group, child, day, treatment, woman Un typage manuel des relations conduit a ` la d etection de : antonymie (large, small) ; synonymie (large, important, great) ; m eronymie (patient, group) ; hyperonymie (patient, child, woman) ou bien des relations plus sp eciques et d ependantes du corpus et du domaine (patient, treatment). Le domaine de la fouille de textes propose des m ethodes qui exploitent le mod` ele des r` egles dassociation. Ainsi, (Toussaint & Simon, 2000) prennent en compte lapparition de termes dans un document et en d eduisent des r` egles dassociation du type : T erme1 , T erme2 T ermeA , T ermeB , ... Une telle r` egle associe les termes T erme1 et T erme2 aux termes T ermeA et T ermeB et suppose quil existe une relation s emantique entre ces deux groupes de termes. Comme dans les travaux pr ec edents, le typage des relations entre les termes de chaque r` egle est eectu e manuellement. Lapplication de lapproche sur un corpus de r esum es darticles scientiques dans le domaine de lagriculture permet de calculer des r` egles dassociation qui inf` erent des relations dhyperonymie (histamine est-un biogenic amine), de cohyponymie (spermidine est-un-fr` ere putrescine) et des relations sp eciques au domaine (acids se-transforment-en esters, silica utilis e-pour chromatography). La dicult e principale des approches de classication r eside dans linterpr etation indispensable des classes construites. Lintervention de lutilisateur, quil soit terminologue ou expert, est primordiale et co uteuse.

7.4

M ethodes dinduction et d evaluation de relations hi erarchiques

Linclusion lexicale est naturellement utilis ee dans la formation de termes. Nous voulons donc exploiter ce fait pour la d etection de relations hi erarchiques. De plus, une telle approche se pr ete facilement au traitement de la variation terminologique et a ` linjection de connaissances suppl ementaires, y compris au niveau morphologique. Aux termes du MeSH mis a ` plat nous appliquons lhypoth` ese dinclusion lexicale pour induire des relations hi erarchiques entre eux (sec. 7.4.1). Nous utilisons ensuite la structure originale du MeSH comme le r ef erentiel pour evaluer le rappel et la pr ecision des relations induites avec notre m ethode (sec. 7.4.2).

7.4.1

D etection dinclusions lexicales

La m ethode que nous proposons pour la d etection de relations hi erarchiques est bas ee sur l etude dinclusions lexicales. Elle consiste a ` v erier si un terme P (parent ) est inclus 143

CHAPITRE 7. APPLICATION DE CONNAISSANCES MORPHOLOGIQUES EN STRUCTURATION DE TERMINOLOGIES

dans un autre terme F (ls ). Nous supposons que ce type dinclusion constitue une cl e de la relation hi erarchique entre les termes, comme dans lexemple : acides gras / acides gras indispensables. Notre m ethode sapparente donc aux travaux, d ecrits dans la sec. 7.3.1, qui appliquent la m eme hypoth` ese. Mais elle se distingue par le fait quelle nest pas restreinte a ` lanalyse dune liste pr ed enie de modieurs (Bodenreider et al., 2001), elle nexploite pas les d ependances syntaxiques dans les groupes nominaux (t etes et expansions syntaxiques) (Bourigault, 1993). Pour d etecter la relation dinclusion entre deux termes, nous v erions si tous les mots du terme P apparaissent dans le terme F . Nous eectuons les tests sur les termes segment es, qui se pr esentent alors chacun sous forme de sac de mots : lordre des mots dans les termes nest plus respect e et les mots sont ordonn es alphab etiquement. Les tests sont faits dabord sur les formes brutes des mots et ensuite avec une s erie de normalisations (les ressources utilis ees pour chaque normalisation sont d ecrites dans la section 7.5) : normalisation de base : conversion en caract` eres minuscules, suppression daccents, de la ponctuation, de nombres et de mots vides ; normalisations avec des ressources morphologiques exionnelles (de la langue m edicale et g en erale), d erivationnelles et allomorphiques ; normalisations avec des synonymes de la langue m edicale, de la langue g en erale et les synonymes de la langue g en erale ltr es sur les corpus m edicaux. Pour acc el erer le calcul des inclusions, les termes sont index es par les mots qui les composent. Lorsque les normalisations sont appliqu ees, les termes sont index es avec les mots normalis es. Nous consid erons alors que le terme P est lexicalement inclus dans F si tous les mots normalis es de P apparaissent dans F . Les ressources linguistiques utilis ees sont egalement soumises aux normalisations. Comme les termes du MeSH sont ecrits en majuscules non accentu ees et les ressources morphologiques et synonymiques en minuscules accentu ees, les normalisations de base permettent de ramener a ` une base commune les deux ensembles. Les normalisations morphologiques et synonymiques permettent deectuer des tests dappariement plus complets. De mani` ere g en erale, les normalisations lexicales appliqu ees a ` la liste de termes couvrent un nombre croissant de variations terminologiques et permettent dinduire un nombre croissant de relations entre les termes. Lobjectif de cette exp erience est donc de v erier la validit e de lhypoth` ese de linclusion lexicale sur une liste de termes m edicaux. Mais aussi dexaminer linuence des normalisations appliqu ees et des connaissances linguistiques inject ees sur les r esultats induits.

7.4.2

Evaluation par rapport au r ef erentiel existant

Nous evaluons les relations induites et les termes plac es en les comparant avec la structure originale du MeSH. Nous evaluons les r esultats selon deux m ethodes (gure 7.4) : 1. la premi` ere m ethode prend en compte le nombre de relations induites et les compare avec les relations qui existent dans la structure originale du MeSH. Nous cherchons a ` savoir si nous induisons toutes les relations pr esentes dans le MeSH ; 144

7.4. METHODES DINDUCTION ET DEVALUATION DE RELATIONS HIERARCHIQUES

(a) Induction dune relation

(b) Placement dun terme

` gauche une reFig. 7.4 Illustration des deux m ethodes d evaluation des r esultats. A ` droite un terme est lation correcte est trouv ee dans la structure originale du MeSH. A correctement plac e dans la structure originale du MeSH.

2. la deuxi` eme m ethode prend en compte le placement des termes individuels dans la structure hi erarchique du MeSH. Nous cherchons alors a ` savoir si nous arrivons a ` placer les termes dans au moins une position correcte dans la hi erarchie du MeSH. En sachant que les termes du MeSH peuvent avoir plusieurs positions hi erarchiques et donc plusieurs p` eres, il est plus facile de placer un terme (2) que de le placer dans toutes ses positions et sous tous ses p` eres (1). Dans chaque cas, le rappel et la pr ecision sont calcul es selon deux versions : stricte (ou directe) : seules les relations directes entre un p` ere et un ls sont consid er ees comme correctes, tol erante (ou indirecte) : toute relation vers un anc etre est consid er ee comme correcte. Le rappel direct ou strict Rs est mesur e avec le nombre de relations directes d induites divis e par le nombre de relations directes D existant dans le MeSH (26 094). Le rappel tol erant Rt est mesur e par le nombre de relations directes et indirectes d + i induites, divis e par le nombre total (directes et indirectes) de relations du MeSH D + I (95 815) : Rs = d d+i ; Rt = D D+I

L evaluation de la pr ecision est faite selon les m emes principes : si d est le nombre de relations directes induites, i le nombre de relations indirectes induites, et n le nombre de relations extra-MeSH induites, les pr ecisions stricte Ps et tol erante Pt correspondent a `: Ps = d+i d ; Pt = d+i+n d+i+n

Nous avons egalement test e un sch ema mixte : le poids donn ea ` chaque relation d ependait de la distance entre les deux termes reli es dans la structure originale du MeSH. Plus la distance est grande plus le poids de la relation induite est faible. Mais nous ne pr esentons pas ses r esultats, car ce sch ema donnait des evaluations tr` es proches du sch ema tol erant. 145

CHAPITRE 7. APPLICATION DE CONNAISSANCES MORPHOLOGIQUES EN STRUCTURATION DE TERMINOLOGIES

7.5

Pr eparation et description du mat eriel

Dans ces exp eriences nous utilisons une liste de termes a ` structurer (sec. 7.5.1), le r ef erentiel de leur structuration (sec. 7.5.2), des connaissances morphologiques (sec. 7.5.3), des connaissances synonymiques (sec. 7.5.4) et une liste de mots vides (sec. 7.5.5).

7.5.1

Liste de termes

La liste de 19 638 termes a ` structurer est extraite du MeSH (voir ci-dessous).

7.5.2

Structuration de r ef erence des termes : structure originale du MeSH

Le thesaurus international MeSH comporte des termes qui ne sont pas des expressions naturelles, mais ont et e compos es par ses cr eateurs dans le but de d ecrire le mieux possible les concepts du domaine. La version fran caise du MeSH 2001 que nous utilisons comporte 19 638 termes, 26 094 relations directes p` ere-ls et 95 815 relations directes ou bien indirectes p` ere-ls. Les termes du MeSH fran cais sont ecrits en majuscules non accentu ees.

7.5.3

Connaissances morphologiques

Connaissances exionnelles. Pour normaliser les variations exionnelles des mots, nous utilisons en parall` ele deux ressources : ressources sp eciques au domaine m edical et ressources provenant du lexique g en eral. Les ressources exionnelles sp eciques au domaine m edical (lem-med) ont et e induites a ` partir de la SNOMED et de la CIM avec la m ethode appliqu ee aux terminologies structur ees (chap. 4). Elles comportent 3 470 couples {lemme, forme}. Les ressources exionnelles de la langue g en erale (lem-gen) proviennent 3 du lexique ABU (Association des bibliophiles universels) et de corpus m edicaux (cardiologie, h ematologie, soins m edicaux, monographies de m edicaments) etiquet es et lemmatis es. Elles contienent 308 812 couples {lemme, forme}. Connaissances d erivationnelles. Pour les d erivations (rac-med), nous utilisons 2 418 couples {base, d eriv e} induits a ` partir de terminologies structur ees (chap. 4). Connaissances allomorphiques. Pour compl eter les d erivations avec des formations suppl etives et allomorphiques, nous avons extrait de la SNOMED les synonymes simples qui appartiennent a ` des classes di erentes (01, 02 et 03 pour les noms et les syntagmes nominaux, 05 pour les adjectifs et les el ements de composition). Nous supposons ainsi que parmi ces synonymes nous trouverons des mots reli es morphologiquement. Apr` es un ltrage manuel, nous obtenons 462 couples de type {estomac, gastrique}. Nous disposons alors de 2 716 couples d erivationnels (allom).
3

http://abu.cnam.fr/DICO/

146

7.5. PREPARATION ET DESCRIPTION DU MATERIEL

7.5.4

Synonymes

Comme pour les exions, nous utilisons deux ensembles de synonymes entre mots : les synonymes de la langue m edicale (dictionnaire Masson4 ) et de la langue g en erale (le Petit Robert). Dans ce dernier, les renvois, simples et doubles, qui semblent avoir et e utilis es pour etablir les relations de synonymie, peuvent correspondre en r ealit ea ` plusieurs relations (synonymes, analogies, th` emes dexpressions, variantes orthographique, sous-entr ees, hyperonymes, etc.) mettant ainsi ensemble des donn ees qui sont fondamentalement h et erog` enes (Marcus, 2003) d ej` a dans la langue g en erale. Nous avons donc d ecid e de les ltrer an de les adapter au domaine m edical. Un autre de nos soucis concernait la directionnalit e de cette relation. La synonymie, reliant des mots ou expressions contextuellement interchangeables, peut sans doute etre consid er ee comme une relation bidirectionnelle, o` u tous les synonymes dune famille sont egaux quant a ` leurs emplois. Nos ressources synonymiques par contre sont ordonn ees : {entr ee dictionnairique, famille de synonymes} ou {entr ee dictionnairique, synonyme}. Nous avons pr ef er e de garder cet ordre pour nos exp eriences. Ce qui semble etre raisonnable, surtout face aux ressources de la langue g en erale qui regroupent des lexiques de di erents registres : {boulimie, cynorexie}, {boulimie, hyperorexie}, {boulimie, hyperphagie}, {boulimie, sitiomanie}, {boulimie, faimcalle}, {boulimie, app etit}, {boulimie, avidit e}. Dans les ressources sp ecialis ees la stabilit e s emantique des synonymes est plus grande. Boulimie y re coit quatre synonymes : {boulimie, cynorexie}, {boulimie, hyperoxie}, {boulimie, hyperphagie}, {boulimie, polyorexie}. ` titre dexemple, si nous consid A erons la synonymie comme une relation bidirectionnelle, la famille boulimie est enrichie, dans les ressources de la langue g en erale, de faim, fringale et fr en esie. Et les mots qui ont un sens sp ecialis e dans le domaine m edical mais qui sont egalement employ es hors du domaine ont une expansion s emantique encore plus importante : ventre passe de 11 synonymes a ` 19, trouble de 22 a ` 64. Synonymes sp eciques au domaine m edical. Lensemble de synonymes sp eciques au domaine m edical (syno-med) provient du dictionnaire m edical Masson. Il comporte 831 paires de synonymes simples. Synonymes de la langue g en erale. Lensemble de synonymes de la langue g en erale (syno-gen) provient du dictionnaire Le Petit Robert5 . Il comporte 140 141 paires de synonymes simples. Pour les raisons qui nous venons dexposer, nous avons d ecid e de les ltrer sur des corpus m edicaux an de les adapter au domaine.
En ligne a ` l epoque de ce travail sur www.AtMedica.com Nous remercions lINaLF et Didier Bourigault davoir rendu disponibles ces ressources et Thierry Hamon de nous les avoir fournies nettoy ees et format ees.
5 4

147

CHAPITRE 7. APPLICATION DE CONNAISSANCES MORPHOLOGIQUES EN STRUCTURATION DE TERMINOLOGIES

Synonymes de la langue g en erale ltr es sur les textes m edicaux. Les synonymes de la langue g en erale sont ltr es a ` travers un corpus m edical denviron 8,5 millions doccurrences (voir sec. 5.4 page 99). Le corpus contient des documents hospitaliers (lettres, comptes rendus hospitaliers) et des documents grand public collect es sur le Web a ` travers le portail m edical CISMeF. Nous appliquons trois approches pour eectuer le ltrage : (1) projection de patrons lexico-syntaxiques, (2) projection de marqueurs de coordination et (3) calculs dassociation entre les mots. Les patrons lexico-syntaxiques de synonymie proviennent du travail de (S egu ela & Aussenac-Gilles, 1999). Nous avons par exemple les patrons suivants (X et Y correspondent aux termes synonymes) : ( ( X appel e Y ) ) ( ( X est d efini comme 1-MOT Y ) ) ( ( X est confondu avec Y ) ) ( ( X nest autre que 1-MOT Y ) ) Nous trouvons alors des contextes qui valident les couples suivants : {gonement, d` eme} : Ld` eme est d efini comme un gonement palpable produit par lexpansion du volume interstitiel liquidien. {rhinopharynx, cavum} : Le rhinopharynx appel e cavum est situ e sous la base du cr ane, en arri` ere des fosses nasales, au-dessus de loropharynx et en avant des 2 premi` eres vert ebres cervicales. {repos, sommeil} : Trop souvent, repos est confondu avec sommeil et activit e avec eveil. Notons que nous navons pas d etect e de patrons dans les documents hospitaliers. Cela semble raisonnable : ces documents sadressent a ` des sp ecialistes avec, comme but principal, la transmission dinformations sur les patients. Par contre dans les documents du Web, destin es a ` un public plut ot non averti, les reformulations et le recours a ` la synonymie sont fr equents. Notons aussi que nous avons projet e les synonymes sans eectuer une analyse syntaxique. Une telle projection touche vite a ` ses limites. Dans le premier exemple qui suit, lun des synonymes (court) fait partie dun terme plus grand (texte court) et reste donc sous-sp eci e dans cette relation de synonymie. Le deuxi` eme exemple pr esente le m eme cas : il sagit dun syndrome h epato-r enal qui est-une sorte dinfection : {r esum e, court} : A chaque maladie est associ e un texte court appel e r esum e (moins de 200 mots) pr esentant les grandes caract eristiques dans un langage relativement simple. {syndrome, aection} : Cette aection est appel ee le syndrome h epato-r enal qui est d eni comme une augmentation progressive de la cr eatinine plasmatique, sans cause evidente autre chez un patient atteint de maladie h epatique avanc ee. Les patrons lexico-syntaxiques permettent de retenir 46 paires de synonymes. Notre deuxi` eme piste vient du travail de (Lame, 2002, sec.6.1), o` u lauteur note que dans les documents juridiques les marqueurs de coordination (et, ou) relient des termes poss edant des sens proches. Partant de cette constatation, nous supposons que si ces marqueurs relient 148

7.6. ANALYSE ET DISCUSSION DES RELATIONS INDUITES ET DES TERMES PLAC ES

dans notre corpus les mots dune paire de synonymes, il sagit eectivement de synonymes du domaine m edical. Nous avons ajout e dautres marqueurs qui sav` erent fr equents dans les documents m edicaux : la coordination n egative ni et la particule de la n egation pas. ` A lanalyse des r esultats, il appara t que ces marqueurs relient plut ot des co-hyponymes, comme la d ej` a remarqu e (Pearson, 1998) : {bruit, soue} : Examen cardiaque : bruits bien frapp es aux 4 foyers sans soue ni bruit surajout es. {orthopn ee, dyspn ee} : Examen cardio-vasculaire : pas de dyspn ee, pas dorthopn ee, pr esence dd` emes des membres inf erieurs avec un godet positif. Les marqueurs de coordination utilis es permettent de retenir 1 736 paires de synonymes. Une derni` ere approche de ltrage d erive de la m ethode d ecrite dans (Zweigenbaum et al., 2003b), o` u les auteurs appliquent une mesure statistique (log likelihood ratio (Manning & Sch utze, 1999)) pour d etecter lassociation entre les mots reli es morphologiquement. Nous lutilisons pour le ltrage des paires de synonymes, dans une fen etre de 2*150 mots 6 pleins . Nous obtenons, par exemple, les associations suivantes : {abc` es, phlegmon}, {biopsie, ponction}, {dernier, culot}, {signal, appel}. Ce ltrage propose aussi des erreurs, comme {dernier, culot} dans : Dernier culot re cu le 24/09/1888. O` u culot signie ( ( amas d erythrocytes ) ) ou ( ( pochette de globules rouges ) ) (il sagit dune transfusion de globules rouges) et dernier est un qualicatif. Le sens ( ( fond, d ep ot, r esidu ) ) du couple {dernier, culot} est assez eloign e de cette acception. En gardant 60 % meilleurs couples, tels que class es par ordre d ecroissant de mesure dassociation, nous obtenons 15 589 paires. Le ltrage complet nous donne un ensemble de 16 154 paires de synonymes (syno-gen-f), ce qui correspond a ` une r eduction de presque 90 % par rapport a ` lensemble synonymique de d epart.

7.5.5

Mots vides

Nous utilisons une liste de mots vides compos ee uniquement de mots grammaticaux qui apparaissent dans les termes du MeSH et qui ne sont pas ambigus. Elle comprend au total 15 mots, essentiellement des articles et pr epositions : au, aux, d, de, des, du, en, et, l, la, le, les, ses, un, une.

7.6

Analyse et discussion des relations induites et des termes plac es

Dans la pr esentation des r esultats, nous discutons les points suivants : l evolution du nombre de relations induites avec les inclusions lexicales (sec. 7.6.1), leur evaluation par
Les mots pleins sopposent aux mots vides. Il sagit donc des cat egories majeures : noms, adjectifs, verbes et adverbes.
6

149

CHAPITRE 7. APPLICATION DE CONNAISSANCES MORPHOLOGIQUES EN STRUCTURATION DE TERMINOLOGIES

rapport a ` la structure originale du MeSH (sec. 7.6.2), lanalyse des relations hors-MeSH (sec. 7.6.3) et lapplication de la m ethode a ` dautres termes (sec. 7.6.4)7 .

7.6.1

Evolution des relations induites avec les inclusions lexicales

Nous avons appliqu e notre m ethode de d etection des inclusions lexicales a ` une liste a ` plat de 19 638 termes du MeSH. La gure 7.5 montre les r esultats quantitatifs obtenus a ` chaque etape des normalisations : normalisation des caract` eres et suppression des mots vides (base), application des ressources exionnelles de la langue g en erale (lem-gen) et de la langue m edicale (lem-med), application des ressources d erivationnelles (rac-med) et compl et ees avec les suppl etions et allomorphies (allom), application des synonymes de la langue m edicale (syno-med), de la langue g en erale (syno-gen) et des synonymes de la langue g en erale ltr es (syno-gen-f). La gure 7.5(a) montre le nombre de relations induites. Nous indiquons les valeurs pour la totalit e des relations induites, parmi lesquelles les liens directs et indirects du MeSH et les nouveaux liens. La gure 7.5(b) indique le nombre de termes plac es sous un terme plus g en eral avec notre m ethode.

30000 25000 20000 15000 10000 5000 0 base lemgen

Nombre de liens

Nombre de termes

liens induits liens directs liens indirects nouveaux liens

14000 12000

Noeuds placs

10000

8000

synomed

synogen

synogenf

lemmed

racmed

allom

6000 synomed synogen lemgen base lemmed synogenf racmed allom

Types de normalisation

Types de normalisation

(a) Liens induits

(b) Termes plac es

Fig. 7.5 Quantication des relations induites et des termes plac es.

Comme attendu, le nombre de relations augmente avec lapplication des normalisations successives. Les ressources exionnelles de la langue m edicale (lem-med) permettent de relier plus de termes que les ressources exionnelles de la langue g en erale (lem-gen) : 12 857 vs 12 210 relations. La m eme observation est vraie pour le placement des termes : la couverture est egalement meilleure avec lutilisation des ressources exionnelles sp eciques du domaine (10 929 vs 10 560 termes). Comme les ressources lem-med sont plus performantes, la suite des normalisations est encha n ee a ` cette branche. Les paires d erivationnelles de
Dans cette pr esentation nous reprenons les discussions faites dans nos publications ant erieures (Grabar & Zweigenbaum, 2002a; Grabar & Zweigenbaum, 2002b; Grabar & Jeannin, 2002).
7

150

7.6. ANALYSE ET DISCUSSION DES RELATIONS INDUITES ET DES TERMES PLAC ES

Normalisation base direct base indirect lem-gen lem-gen lem-med lem-med rac-med rac-med allom allom
direct indirect direct indirect direct indirect

P` ere P accouchement acides gras intervention chirurgicale intervention chirurgicale agents adrenergiques chromosomes humains

Fils F accouchement provoque acides gras indispensables interventions chirurgicales obstetricales interventions chirurgicales voies biliaires inhibiteurs captage agent adrenergique chromosome humain 21

aberration chromosomique, anomalies aberrations chromosomes sexuels, anomalies eosinophilie poumon eosinophile poumon estomac eau extravasculaire pulmonaire cellule parietale gastrique sucrose alimentaire fracture maxillaire inferieur traitement par art

direct indirect direct

syno-med syno-med syno-gen syno-gen

saccharose indirect fracture machoire therapeutique

direct indirect

Tab. 7.1 Exemples de relations induites avec les inclusions lexicales et se trouvant dans la structure originale du MeSH. Indirect signie que la distance entre les deux termes est sup erieur a ` 1.

mots augmentent encore le nombre de relations induites (14 695 avec rac-med vs 12 857 avec lem-med) et de termes plac es (11 511 vs 10 929). Lutilisation des allomorphies et suppl etions (allom) permet dinduire 189 relations et de placer 61 termes en plus quavec rac-med. Toutes les ressources synonymiques sont appliqu ees en parall` ele apr` es la totalit e des normalisations morphologiques (allom). Les synonymes m edicaux induisent 8 nouvelles relations et placent en plus 7 termes. Lapplication de synonymes de la langue g en erale montre un gain impressionnant : 15 085 relations induites et 1 314 termes plac es de plus quavec allom. Avec les synonymes g en eraux ltr es le gain est l eg` erement moins important : 12 102 relations et 1 039 termes plac es de plus quavec allom. Dans le tableau 7.1 nous pr esentons des exemples des termes reli es a ` chaque etape de normalisation : nous indiquons les termes p` ere P et ls F correspondant aux relations directes et indirectes dans la structure originale du MeSH. ` travers la gure 7.6 nous voulons montrer lutilit A e des di erentes ressources. Pour chaque etape de normalisation, nous indiquons le nombre de mots dans la ressource linguistique en question, le nombre de mots dans les termes du MeSH (15 446 apr` es la suppression des mots vides et des nombres), et le nombre de mots qui sont r eellement trait es lors du calcul des inclusions lexicales. Nous pouvons ainsi voir que la totalit e des ressources est rarement utilis ee, surtout avec les ressources de la langue g en erale (lem-gen et syno-gen). ` c A ot e de la contribution a ` linduction des relations, cest un autre facteur qui milite pour ladaptation de ressources linguistiques g en erales au domaine etudi e. 151

CHAPITRE 7. APPLICATION DE CONNAISSANCES MORPHOLOGIQUES EN STRUCTURATION DE TERMINOLOGIES

300000 250000 200000 150000 100000 50000 0 base

Taille du matriel

taille de ressources taille MeSH rellement analyss

Types de normalisation

Fig. 7.6 Utilisation r eelle des ressources linguistiques a ` chaque etape des normalisations.

Bilan Linjection successive de connaissances linguistiques permet daugmenter le nombre de relations induites et de termes plac es. Notons que les relations sont plus sensibles a ` linjection de telles connaissances. Alors que la normalisation lexicale de base permet de relier les termes gr ace a ` lappariement des mots identiques, les connaissances linguistiques (ressources morphologiques et synonymiques) introduisent un aspect s emantique dans lappariement des termes. La lemmatisation ajoute une exibilit e face aux variantes exionnelles des mots. Et la racinisation permet de relier les termes dont les mots, bien que formellement di erents, sont en relation morphologique et s emantique tr` es proche. Et enn, les paires de synonymes aident a ` induire des relations entre les termes en appariant les mots qui sont en relation s emantique proche, au moins dans certains contextes. Nous avons not e egalement que les ressources sp eciques au domaine sav` erent plus utiles lors des traitements.

7.6.2

Evaluation des inclusions lexicales par rapport au MeSH

L evaluation des donn ees induites par rapport a ` la structure originale du MeSH nous permet de calculer leurs rappel et pr ecision. Dans tous les cas, nous prenons en compte la nature des relations induites (directe ou indirecte par rapport a ` la structure originale du MeSH) et calculons les variantes stricte et tol erante. Rappelons que le rappel strict et la pr ecision stricte prennent en compte uniquement les relations directes ; le rappel tol erant et la pr ecision tol erante prennent en compte les relations directes et indirectes. La gure 7.7 montre les r esultats de cette evaluation. Lorsque nous consid erons les relations, le rappel augmente avec linjection de connaissances linguistiques suppl ementaires. Les connaissances morphologiques (exion, d erivation et ensuite les allomorphies et suppl etions) participent a ` lam elioration du rappel, qui va de 10,3 % avec la normalisation de base jusqu` a 13,6 avec allom pour le rappel strict, et de 13,7 % a ` 21,6 % pour le rappel tol erant. Notons que le rappel des relations obtenues 152

synogenf

synomed

lemgen

allom

synogen

lemmed

racmed

7.6. ANALYSE ET DISCUSSION DES RELATIONS INDUITES ET DES TERMES PLAC ES

40 35 30

rappel direct/strict rappel tolrant

100

prcision stricte prcision tolrante

80

Prcision
synogen

Rappel

25 20 15 10 5 0 lemgen synomed base lemmed synogenf allom racmed

60

40 20

0 synomed synogen lemgen base lemmed synogenf synogenf racmed allom

Types de normalisation

Types de normalisation

(a) Rappel des relations

(b) Pr ecision des relations

40 35 30

rappel strict rappel tolrant

100

prcision stricte prcision tolrante

80

Prcision
synogen

Rappel

25 20 15 10 5 0 lemgen synomed base lemmed synogenf allom racmed

60

40 20

0 synomed synogen lemgen base lemmed racmed allom

Types de normalisation

Types de normalisation

(c) Rappel des termes plac es

(d) Pr ecision des termes plac es

Fig. 7.7 Evaluation des relations et placements induits : rappel et pr ecision.

avec les connaissances morphologiques sp eciques du domaine (lem-med, rac-med ou allom) est meilleur : 19,3, 21,4 et 21,6 % contre 18,3 % obtenus avec lem-gen. Lapplication de synonymes du domaine m edical augmente tr` es l eg` erement le rappel, par contre avec les synonymes de la langue g en erale il atteint un sommet. Le rappel strict augmente ainsi jusqu` a 14 % et le tol erant jusqu` a 37,6 %. Avec les synonymes ltr es, le rappel strict est de 13,9 % et le tol erant de 34,6 %. Comme cest souvent le cas, l evolution de la pr ecision est oppos ee : linjection de connaissances morphologiques (d erivation vs exion) et ensuite synonymiques apporte plus de risque dans la g en eration de relations incorrectes entre les termes. Par rapport a ` la conguration de base, la pr ecision stricte diminue de 29,3 % a ` 23,9 % avec allom et syno-med, et jusqu` a 12,2 % avec syno-gen. Les synonymes ltr es la remontent a ` 13,5 %. Lorsque nous acceptons les relations quelle que soit leur nature (directe ou indirecte), la pr ecision est plus elev ee que lorsque seules les relations directes 153

CHAPITRE 7. APPLICATION DE CONNAISSANCES MORPHOLOGIQUES EN STRUCTURATION DE TERMINOLOGIES

sont consid er ees. Par exemple, avec la normalisation de base, lapproche tol erante montre une pr ecision de 43,3 % alors que la pr ecision stricte est de 29,3 %. Et avec syno-gen et syno-med, la pr ecision tol erante est respectivement de 20,4 % et 39 % et la stricte de 12,2 % et 23,9 %. Selon la cha ne de normalisation et le sch ema d evaluation, jusqu` a 43,8 % de relations induites sont correctes (approche tol erante avec lem-med), et jusqu` a 14 % de relations directes par rapport au MeSH (approche stricte avec syno-gen). Quant aux placements des termes, les courbes du rappel et de la pr ecision sont moins sensibles aux normalisations. Le rappel augmente avec lutilisation de ressouces exionnelles, mais ensuite il evolue beaucoup plus doucement. La pr ecision augmente avec linjection des connaissances morphologiques (lem-med) et ensuite diminue, surtout a ` l etape dinjection des synonymes de la langue g en erale non ltr es (syno-gen). Jusqu` a 31 % des termes MeSH sont correctement plac es sous leurs anc etres (approche tol erante avec syno-gen ou syno-gen-f) ; et les placements propos es sont corrects jusqu` a 65 % (approche tol erante avec lem-med). De mani` ere g en erale, les connaissances linguistiques sp eciques au domaine m edical sont plus protables dans nos traitements que les connaissances qui proviennent de la langue g en erale. La pr ecision elev ee obtenue a ` ces etapes en est le t emoin. Linduction de nouvelles relations semble etre plus r eactive a ` linjection de connaissances linguistiques, et surtout aux ressources synonymiques. La pr ecision des relations chute avec les synonymes de la langue g en erale, elle est l eg` erement am elior ee avec les synonymes g en eraux ltr es. L evolution du rappel est alors inverse : il augmente fortement. Tandis que le placement des termes, tout en ayant des valeurs de rappel et de pr ecision plus elev ees, montre une evolution tr` es douce. Comme attendu, il est plus facile de placer un terme dans un seul endroit de la hi erarchie que de trouver tous ses parents existants dans le MeSH. Bilan La comparaison avec la structure originale du MeSH montre quavec linjection de ressources linguistiques et selon le sch ema de normalisation, jusqu` a 43,8 % de relations induites sont correctes (approche tol erante avec lem-med), et jusqu` a 14 % de relations directes par rapport au MeSH (approche stricte avec syno-gen). En ce qui concerne les placements de termes, jusqu` a 31 % des termes MeSH sont correctement plac es sous leurs anc etres (approche tol erante avec syno-gen ou syno-gen-f) et ces placements sont corrects jusqu` a 65 % (approche tol erante avec lem-med). Ici encore, nous notons que lapport des ressources linguistiques, morphologiques ou synonymiques, est meilleur lorsquelles sont sp eciques au domaine trait e. Nous observons que leur contribution est similaire a ` celle signal ee par (Hamon et al., 1998) : les ressources de la langue g en erale permettent daugmenter le rappel, tandis que les ressources sp eciques au domaine am eliorent la pr ecision. Ladaptation des ressources de la langue g en erale au domaine trait e permet de r eduire la di erence entre les deux. Les valeurs de rappel et de pr ecision plus elev ees pour linduction des relations montrent quil est plus facile de placer un terme dans un endroit que de trouver tous ses parents. 154

7.6. ANALYSE ET DISCUSSION DES RELATIONS INDUITES ET DES TERMES PLAC ES

Normalisations base rac-med

T ete Expan. Autres 22 31 14 37 57 33

Tab. 7.2 Relations analys ees : la tailles des echantillons.

7.6.3

Analyse manuelle de nouvelles relations

Jusquici nous avons analys e et evalu e, parmi les relations induites, celles qui existent dans la structure originale du MeSH. Mais notre m ethode g en` ere jusqu` a 70 % de relations consid er ees comme erron ees ou bien nouvelles, cest-` a-dire de relations qui nexistent pas dans le MeSH. Nous analysons maintenant la nature de ces relations et cherchons a ` savoir pourquoi elles ne sont pas encod ees dans le MeSH. Selon la position du terme p` ere dans le terme ls, nous distinguons trois ensembles de relations nouvelles : le terme p` ere se trouve en position de t ete (syntaxique et s emantique) dans le terme ls : absorption / absorption intestinale ; le terme p` ere se trouve en position dexpansion dans le terme ls : abdomen / tumeur abdomen ; le terme p` ere se trouve dans dautres types de positions dans le terme ls. Pour lanalyse, nous avons pr elev e un echantillon de 20 % des relations induites avec la normalisation de base et avec la cha ne de normalisations allant jusqu` a rac-med . Le tableau 7.2 indique le nombre de relations analys ees de chaque type, au total 194 relations. Ensemble t ete Nous avons adopt e un crit` ere heuristique pour d eterminer la t ete des termes : elle doit appara te en d ebut de termes. Cette heuristique marche bien en g en eral (penicillines / penicilline g), sauf quelques exceptions o` u la t ete ne se trouve pas au d ebut des termes. Termes invers es. Parmi les termes du MeSH, cr e es pour la plupart articiellement, il sagit des termes qui ont une structure invers ee et comportent g en eralement une virgule : loviridae / loviridae, infections quinones / quinone reductases neurone / neurone moteur, maladie Nous avons trait e ces termes tels quels. Mais ils devraient etre r eorganis es a ` la main pour etre analys es dans les cat egories correspondantes ou bien ignor es (Bodenreider et al., 2001). ` c Enum erations. A ot e des termes invers es, nous avons dautres cas o` u le terme incluant nest pas le ls du terme inclus qui se trouve en position t ete. Ceci pour des raisons syntaxiques. Dans les termes : acides amines / acides amines, peptides et proteines 155

CHAPITRE 7. APPLICATION DE CONNAISSANCES MORPHOLOGIQUES EN STRUCTURATION DE TERMINOLOGIES

le terme incluant est une enum eration et ses constituants sont reli es entre eux avec un OU logique. Le terme inclus (acides amines), au m eme niveau que dautres constituants (peptides et proteines), est un terme plus sp ecique que le terme acides amines, peptides et proteines. Le sens de la relation hi erarchique est ainsi invers e. Rupture s emantique. La s emantique peut etre rompue si les traits d enitoires ne sont pas transmis du terme p` ere au terme ls. Par exemple, un chat moul e nest pas un chat (un mammif` ere, qui...). Dans les donn ees g en er ees, nous avons trouv e plusieurs chats moul es : personnalite/personnalite compulsive voix/voix sophagienne Personnalite d ecrit le comportement caract eristique dun individu, tandis que personnalite compulsive correspond aux troubles psychiques. Les troubles (ou maladies) et le comportement sont des objets di erents dans le MeSH. De la m eme mani` ere, voix se rapporte a ` la physiologie humaine, tandis que voix sophagienne aux traitements et a ` la th erapeutique. La t ete est ambigu e. Ce cas est proche du pr ec edent, mais il est d u au choix des libell es des termes dans le MeSH. Les termes comme absorption, investissement, etc. sont polys emiques. Pour d eterminer le sens pr ecis, ils doivent etre sp eci es par leurs contextes : investissement/investissement (psychanalyse), absorption/absorption cutanee, goitre/goitre ovarien. Investissement tout seul a un sens nancier, tandis que dans investissement (psychanalyse), ce mot re coit un autre sens sp ecique. De la m eme mani` ere, absorption a un sens sp ecique en chimie, et goitre employ e tout seul correspond au d esordre de la glande thyro dale. Il faut noter que ces cas sont souvent non-ambigus dans la version originale du MeSH, en anglais. Par exemple, investissement (psychanalyse) en fran cais est la traduction de cathexis en anglais. Des situations similaires apparaissent lorsque le libell e du terme p` ere est sous-sp eci e: acides/acides pentanoiques, acne/acne rosacee. Dans ces exemples, acides correspond a ` acides inorganiques et acne a ` acne vulgaris, mais la convention adopt ee veut que le terme simple repr esente le concept correspondant. Engagement ontologique. Les cas qui viennent sont int eressants car, bien qu etant des relations hi erarchiques potentielles, ils sont absents dans le MeSH : les concepteurs du MeSH ont d ecid e de ne pas les encoder ou bien de les encoder di eremment. Par exemple : amyotrophies/amyotrophies spinales enfance, hyperplasie/hyperplasie epitheliale focale, centre public sante/centre public sante mentale, rectocolite/rectocolite hemorragique, penicillines/penicilline g. 156

7.6. ANALYSE ET DISCUSSION DES RELATIONS INDUITES ET DES TERMES PLAC ES

Les terminologies m edicales (par exemple MeSH, SNOMED), di erencient les signes et sympt omes et les maladies ( etat pathologique plus caract eris e). Cest le cas de amyotrophies et hyperplasie (signes et sympt omes ) vs amyotrophies spinales enfance et hyperplasie epitheliale focale (maladies du syst` eme nerveux ou de la bouche). Pour des raisons que nous ignorons, le terme centre public sante mentale ne partage pas tous les attributs de centre public sante, ce qui les emp eche d etre en relation hi erarchique dans le MeSH : ils sont fr` eres. Il en est de m eme pour rectocolite hemorragique et rectocolite, qui sont tous les deux ls de colite. Penicillines a et e choisi dans le MeSH pour d esigner une classe th erapeutique de m edicaments (sous antibiotiques, sous actions chimiques), tandis que penicilline g est consid er e comme une substance chimique. La structuration impliqu ee dans ces exemples re` ete lengagement ontologique des concepteurs du MeSH, qui ne peut pas etre induit avec les approches automatiques et donc les inclusions lexicales. Erreur de traduction. La relation induite entre acide linoleique et acide linoleique alpha se trouvait parmi les erreurs. Lanalyse de la structure du MeSH en anglais et les recherches eectu ees sur la page Web du MeSH ont alors montr e que le terme anglais alpha linolenic acide traduit par acide linoleique alpha aurait d u etre traduit par acide linolenique alpha. Ensemble expansion Dans la majorit e des cas, lorsque le terme p` ere se trouve en position dexpansion (position nale) dans le terme ls, nous supposons que la t ete s emantique du terme ls est modi ee. La relation induite nest pas donc une relation hi erarchique. Relation partitive. Plusieurs relations induites sont des relations partitives (partie du corps, continent et son peuple, substances chimiques) : abdomen/muscle droit abdomen, amerique centrale/indien amerique centrale, argent/nitrate argent. Relations sp eciques. Sinon, ce sont des relations plus sp eciques, que nous avons essay e de caract eriser : virus myxome caus e-par myxome, comportement alimentaire atteint-par troubles comportement alimentaire, bovin localise pneumonie interstitielle atypique bovin, hopital a-pour-caract eristique capacite lits hopital, services sante a-pour- etat fermeture service sante, macrophage a-pour- etat activation macrophage. 157

CHAPITRE 7. APPLICATION DE CONNAISSANCES MORPHOLOGIQUES EN STRUCTURATION DE TERMINOLOGIES

Notons que certaines de ces relations impliquent des noms et les d erivations adjectivales d enominales correspondantes : cubitus contient nerf cubital, genes subit-analyse epreuve complementation genetique. Enum erations. Dans cet ensemble, nous avons egalement des cas d enum eration (voir plus haut, page 155) : immunodepresseurs / antineoplasiques et immunodepresseurs. Ambigu t e syntaxique. Dans le cas dambigu t e syntaxique relev e, deux termes (oncogene et antigene viral oncogene) comportent le mot oncogene, qui est un nom dans le premier terme et un adjectif dans le second. Ensemble autre Dans cet ensemble, le terme p` ere semble se trouver dans des positions autres que t ete ou expansion. Il peut alors etre non-contigu dans le terme ls et contenir des modieurs ou autres el ements ins er es : bacterie aerobie/bacterie gram-negatif aerobie, sommeil/troubles sommeil extrinseques, dent/implantation dentaire sous-periostee, diphosphate/uridine diphosphate acide glucuronique. Les termes p` eres de ces exemples sont en r ealit e en position t ete ou expansion. Mais comme nous neectuons pas danalyse syntaxique des termes, ces cas restent sous-sp eci es dans lensemble autre. Homographe. Nous avons d etect e un cas dhomographie due a ` labsence de caract` eres accentu es dans le MeSH fran cais. Dans cilie/cellule ciliee externe les mots cilie (nom, organisme invert ebr e) et ciliee (forme echie de ladjectif cilie, qui caract erise un type de cellule) sont regroup es avec la lemmatisation. Dans la version accentu ee du MeSH ladjectif serait not e cili e, ce qui le rendrait non ambigu. Erreurs Et enn, nous avons d etect e des cas derreurs, dont certaines sont dues aux d erivations. Deux mots peuvent etre correctement reli es par une relation d erivationnelle dans labsolu, mais lorsquils apparaissent dans les termes cette relation peut perdre (une partie de) sa pertinence : contracture/contraction musculaire, biologie/testament biologique, 158

7.6. ANALYSE ET DISCUSSION DES RELATIONS INDUITES ET DES TERMES PLAC ES

ici, contracture et contraction ont et e correctement reli es par une relation d erivationnelle, mais dans ces exemples contracture signie une maladie du muscle et contraction le fonctionnement normal du muscle. Dans le deuxi` eme exemple, ladjectif biologique est d eriv e du nom biologie, mais son sens sav` ere etre plus sp ecique que le sens de biologie. Bilan Lanalyse des relations hors-MeSH montre, entre autre, que les relations hi erarchiques ne sont pas les seules a ` etre propos ees a ` travers notre application de lhypoth` ese des inclusions lexicales. Des relations plus sp eciques du domaine emergent dans les ensembles expansion et autre. Dautre part, toutes les relations induites, m eme potentiellement correctes, ne satisfont pas toujours les choix de mod elisation du domaine ni lengagement ontologique des concepteurs du MeSH. Ces choix ontologiques ne peuvent pas etre induits avec des m ethodes automatiques et correspondent a ` une part humaine lors de la constitution des terminologies. Parmi les am eliorations possibles de la m ethode, le recours au r eseau s emantique dUMLS pourrait etre utile pour faciliter le typage des relations et leurs s election. L etiquetage morphosyntaxique (des termes a ` structurer et des ressources linguistiques) devrait egalement etre utilis e pour limiter la g en eration des relations erron ees (Jacquemin & Tzoukermann, 1999). La r eaccentuation des termes du MeSH constitue une autre am elioration possible des r esultats. Notons que la r eaccentuation a et e entreprise (Zweigenbaum & Grabar, 2002a), et que, de mani` ere ind ependate, lINSERM propose, depuis 2004, le MeSH sous forme accentu ee.

7.6.4

Structuration des termes provenant du corpus de la cog en eration

Nous avons egalement appliqu e notre m ethode de structuration, a ` c ot e dautres m ethodes, aux termes provenant dun corpus sur la cog en eration (Grabar & Jeannin, 2002) 8 . L evaluation des relations induites a et e eectu ee manuellement, car il nexiste pas de r ef erentiel dans ce domaine. La m ethode est appliqu ee a ` quatre sous-corpus distingu es dans le domaine de la cog en eration : ecologie, economie, r` eglementation et technique. Nous avons test e les inclusions lexicales avec une normalisation de base : (1) nous ne disposons pas de ressources morphologiques compl` etes et valid ees du domaine et (2) les termes trait es nont pas et e valid es, ce qui augmente le risque de g en eration de bruit. Il est eectivement tr` es elev e (tab. 7.3). Ce tableau montre egalement que le nombre de relations induites avec les inclusions lexicales est tr` es variable selon les corpus et que le taux de rejet des relations est important. Le domaine technique pr esente ainsi la meilleure pr ecision avec seulement 88,3 % de bruit. Pour faciliter les validations, il serait int eressant de s eparer les relations induites en des
La cog en eration est une technique de production combin ee d electricit e et de chaleur (eau chaude, vapeur). Ce travail a et e r ealis e dans le cadre du projet national SAFIR visant a ` concevoir un m etamoteur de recherche s emantique.
8

159

CHAPITRE 7. APPLICATION DE CONNAISSANCES MORPHOLOGIQUES EN STRUCTURATION DE TERMINOLOGIES

ensembles t ete, expansion et autre. Nous nous attendons a ` ce que lensemble t ete fournisse le plus de relations pertinentes. Domaine Ecologie Economie R` eglementation Technique Candidats Relations termes induites 18 865 17 702 24 747 1 309 18 595 33 374 16 553 17 353 Relations % s electionn ees de bruit 940 94,7 % 73 94,4 % 172 99,5 % 2 135 88,3 %

Tab. 7.3 Induction des relations avec les inclusions lexicales et leur validation.

Ecologie Economie R` eglementation Technique

anto caract. conduit hypero m ero produit syno utilise induit punit r` egle consomme 7 137 3 547 39 20 4 161 1 10 3 3 13 49 8 53 95 2 5 24 4 33 9 1 852 70 35 30 102 -

Tab. 7.4 Distribution des relations typ ees par sous-domaines. Nous avons en m eme temps typ e manuellement les relations (Grabar & Jeannin, 2002). Le r esultat de ce typage est pr esent e dans le tableau 7.4. Pour chaque domaine nous indiquons les types de liens et le nombre de relations correspondantes. Les relations hyperonymiques (hypero) correspondent g en eralement a ` la majorit e des relations s electionn ees. Si elles sont pr esentes dans chaque corpus, elles ne sont pas les seules a ` avoir et e distingu ees : il existe aussi la relation partitive (m ero), les relations lexicales (anto et syno) et un ensemble de relations transversales (produit, utilise, conduit, etc.). La relation caract erise regroupe des relations sous-sp eci ees : elle est proche du traditionnel voir aussi. Bilan Lapplication de la m ethode a ` des termes non valid es montre une pr ecision tr` es faible. Il serait donc int eressant deectuer une validation des termes avant de chercher a ` les structurer. Les inclusions lexicales ont permis de d etecter un ensemble de 12 relations parmi lesquelles des relations taxinomiques, lexicales et transversales. Cette exp erience a montr e egalement lint er et de lutilisation de di erentes approches de structuration des termes : elles sav` erent etre compl ementaires (Kavanagh, 1995). Mais noublions pas que chaque approche de structuration demande un travail de validation et danalyse cons equent. 160

7.7. CONCLUSION ET PERSPECTIVES

7.7

Conclusion et perspectives

Nous avons pr esent e une application de lhypoth` ese des inclusions lexicales pour la d etection des relations hi erarchiques entre les termes. Nous supposons que le terme P est un p` ere eventuel du terme ls F si tous les mots de P apparaissent dans F . Les tests sont eectu es avec des normalisations linguistiques successives (morphologiques et synonymiques). Nous appliquons notre m ethode aux termes dune terminologie existante, le MeSH, et comparons les relations induites avec celles encod ees dans la structure originale du MeSH. Cette evaluation montre ainsi quavec linjection de ressources linguistiques et selon le sch ema de normalisation, jusqu` a 43,8 % de toutes les relations induites et jusqu` a 14 % de relations directes se trouvent dans le MeSH. Et jusqu` a 65 % de termes du MeSH sont plac es correctement sous leur anc etre. Ces chires font appara tre quil est plus facile de placer un terme que de le placer dans tous les bons endroits de la hi erarchie. Nos exp eriences ont montr e que la pr ecision des ressources linguistiques, morphologiques ou synonymiques, est meilleure lorsquelles sont sp eciques au domaine trait e. Mais les ressources de la langue g en erale permettent daugmenter le rappel (Hamon et al., 1998). ` c A ot e des relations hi erarchiques, la m ethode propose dautres types de relations : partitive, lexicales mais surtout transversales. Toutes les relations induites, m eme potentiellement correctes, napparaissent pas dans les terminologies : lengagement ontologique, qui d enit les connaissances a ` encoder, sous-entend une d ecision humaine que les approches automatiques ne peuvent pas induire. La pr ecision que nous obtenons nest pas tr` es elev ee. Une am elioration possible pourrait etre obtenue gr ace a ` lutilisation des donn ees etiquet ees (termes et ressources linguistiques), ce qui permettrait de sp ecier les mots syntaxiquement et deectuer une analyse des d ependances syntaxiques dans les termes. Ce dernier point conduirait par ailleurs a ` un v eritable traitement des termes complexes, contrairement au traitement des sacs de mots que nous faisons actuellement. Lutilisation du MeSH accentu e est une autre source dam elioration. Notons quune initiative de son accentuation a et e entreprise dans les travaux de (Zweigenbaum & Grabar, 2002b). Par ailleurs, lINSERM, le traducteur ociel du MeSH en fran cais, en fournit maintenant une version accentu ee. Si nous disposons de ressources morphologiques plus compl` etes, les r esultats pr esenteront un meilleur rappel. Pour compl eter ces ressources, les approches a ` partir de corpus (Zweigenbaum et al., 2003b) constituent une des pistes, de m eme que lapplication parall` ele des ressources morphologiques et des r` egles de d esuxation pour le traitement des variations exionnelles r eguli` eres. Les termes du MeSH sont des expressions articielles cr e ees par les concepteurs du MeSH an de repr esenter le mieux possible les concepts m edicaux. Le traitement de telles expressions avec des moyens automatiques pr esente parfois des dicult es. Nous avons egalement appliqu e la m ethode aux termes de la SNOMED, qui eux sont plus proches des expressions trouv ees dans les documents textuels. Par contre, nous navons pas pu evaluer compl` etement les relations induites : la structure hi erarchique de la SNOMED est plus dicile a ` d ecoder a ` travers ses identiants. Une des dicult es, il nous semble, vient du fait que, pour le nombre de concepts recens es dans la SNOMED, sa hi erarchie nest 161

CHAPITRE 7. APPLICATION DE CONNAISSANCES MORPHOLOGIQUES EN STRUCTURATION DE TERMINOLOGIES

pas tr` es profonde. Ainsi, les concepts oreillette (T-32100), oreillette droite (T-32200) et oreillette gauche (T-32300) sont tous ls de cur (T-32000). Alors quavec notre m ethode, nous induisons les relations hi erarchiques oreillette / oreillette droite et oreillette / oreillette gauche. Mais nous pouvons nous trouver ici aussi face a ` un engagement ontologique des d eveloppeurs. Dans tous les cas, il serait int eressant de pousser plus en avant l evaluation des relations obtenues avec les termes de la SNOMED. Dautant plus que la SNOMED propose des relations transversales. Pour ladaptation de ressources synonymiques g en erales au corpus, il serait aussi int eressant dappliquer lapproche distributionnelle (Nazarenko et al., 2001), ce qui permettrait de les ltrer a ` travers leur substituabilit e paradigmatique. Alors que les m ethodes appliqu ees jusquici (patrons lexico-syntaxiques, marqueurs, associations des mots dans une fen etre donn ee) exploitent les relations syntagmatiques entre les mots. Dans nos exp eriences, nous avons aussi calcul e un poids de mise en relation de deux termes pour evaluer la distance s emantique entre eux. Nous nous sommes inspir es alors de (Aronson, 2001) : les normalisations de base ont un co ut nul, la lemmatisation 0,1, la racinisation 0,3 et les synonymes 0,5. Nous disposons donc dune distance entre deux termes mis en relation. Pour le moment, nous navons pas exploit e cette information. Elle pourrait fournir une limite au-del` a de laquelle les relations seraient analys ees avec plus de pr ecaution. Mais il est possible que ce genre de limite soit surtout utile dans les applications automatiques comme la recherche dinformation. Cest dailleurs dans ce contexte que (Aronson, 2001) la met en place. Notre m ethode, moyennant de faibles modications, a et e adapt ee a ` la d etection des termes equivalents et contraires (Grabar & Hamon, 2004b). Elle g en` ere alors des relations similaires aux variations morphosyntaxiques (Jacquemin, 1996) et aux termes contraires (Daille, 2003). Par rapport a ` dautres applications de la m eme hypoth` ese, notre m ethode nest pas li ee par une liste d etermin ee de modieurs comme dans (Bodenreider et al., 2001), et, contrairement a ` (Bourigault, 1993), elle vise a ` proposer des relations s emantiques entre termes. Toujours contrairement a ` ce dernier travail, notre m ethode neectue pas actuellement une analyse syntaxique des termes. Par rapport a ` ces deux travaux, nous g en erons plus de propositions, au risque dune diminution de la pr ecision. Mais le point fort de notre m ethode est la possibilit e dapplication des normalisations linguistiques. Les inclusions lexicales, comme dautres m ethodes, sont sensibles a ` certains types de relations apparaissant dans certains contextes. Pour obtenir une structure des termes plus compl` ete, il est plus int eressant dappliquer cette hypoth` ese en combinaison avec dautres m ethodes (Kavanagh, 1995; Grabar & Jeannin, 2002).

162

Chapitre 8 De lutilit e des ressources morphologiques pour le traitement de la variation terminologique


` travers nos travaux o` A u nous utilisons et evaluons des ressources morphologiques acquises a ` partir de termiologies m edicales (mise en relation des vocabulaires de lindexation et des utilisateurs, structuration des termes), nous montrons que ces ressources sont b en eques pour le traitement de la variation terminologique. Cette constatation est assortie toutefois de plusieurs remarques relatives a ` lacquisition de ressources morphologiques et a ` leur utilisation, que nous reprenons ici. Elles peuvent etre vues comme des recommandations vis-` a-vis des traitements automatiques dans lesquels un appariement des termes et/ou expressions est vis e.

8.1

Compl ementarit e des di erents niveaux de traitement

Nous avons distingu e plusieurs types de variations terminologiques qui se r ealisent a ` di erents niveaux linguistiques, dont la casse, lorthographe, la morphologie, la syntaxe, la synonymie, etc. Chacun de ces types de variation demande des m ethodes de traitement et des ressources sp eciques, chaque variation n etant accessible que lorsque la connaissance requise est disponible. Par cons equent, pour obtenir des r esultats plus complets dans lappariement des termes et expressions, di erentes m ethodes et ressources doivent etre utilis ees de mani` ere compl ementaire. Certaines m ethodes apportent des gains tr` es importants dans les appariements. Cest le cas de certaines normalisations au niveau des caract` eres (casse, accentuations) ou au niveau des mots (ordre ds mots). En plus, les eorts fournis pour leur traitement sont minimes. Ce sont des traitements peu co uteux, peu ambigus et ecaces. Vu la simplicit e de ces m ethodes, elles devraient etre consid er ees comme la base des traitements de la variation 163

DES RESSOURCES MORPHOLOGIQUES POUR LE TRAITEMENT DE LA CHAPITRE 8. DE LUTILITE VARIATION TERMINOLOGIQUE

terminologique, surtout dans les contextes que lon sait instables et non soign es de ce point de vue (requ etes des utilisateurs, sources non accentu ees, certains types de documents du Web (messages, forums, sites personnels), etc.). Les traitements se compliquent lorsque les variations d epassent le niveau formel des termes et touchent a ` la s emantique. L` a, des ressources externes sont n ecessaires. Il en est ainsi par exemple, pour les variations morphologiques des termes et la synonymie. Deux questions se posent alors. Dune part, si lon veut traiter ce genre de variations il faut disposer des ressources n ecessaires. Et si elles ne sont pas disponibles, ce qui est souvent le cas, il faut disposer de moyens et de sources pour les constituer. Notons aussi que parfois les ressources en question sont disponibles mais ne sont pas forc ement adapt ees aux donn ees et/ou a ` la t ache. Dans ce cas, la raison voudrait que leur utilisation ecace soit conditionn ee par leur adaptation. Dautre part, comme il nexiste pas dunanimit e sur lutilit e des ressources qui impliquent la s emantique, lon peut se poser justement la question sur leur utilisation, leur ecacit e et surtout sur leur apport. Face aux eorts de constitution ou dadaptation de ces ressources, elles risquent de (re)devenir ambigu es une fois reprojet ees sur les textes. Nos exp eriences ont aussi montr e quen arrivant aux normalisations morphologiques, nous entrons dans un sch ema classique de la r esolution de probl` emes : les eorts n ecessaires pour am eliorer les r esultats sont de plus en plus importants pour un gain qui va en diminuant. La contribution des connaissances morphologiques est tr` es faible compar ee a ` celle des normalisations au niveau des caract` eres, alors que le recensement des ressources morphologiques demande justement davantage deort. Le questionnement sur l evaluation de lapport de chaque normalisation pousse aussi a ` se demander si les mesures de rappel et de pr ecision et les conditions de leur application y sont adapt ees. Car, sans les normalisations, les syst` emes automatiques resteraient aveugles face a ` plusieurs types de variation de termes. Mais en m eme temps, linjection des connaissances requises augmente le risque deectuer de mauvais appariements, ce qui est re et e de mani` ere g en erale par la diminution de la pr ecision. Nous pensons donc quil nest pas tr` es judicieux d evaluer de la m eme mani` ere des appariements bruts et des appariements obtenus avec des normalisations. Une etape de ltrage pourrait ainsi etre pr evue avant l evaluation du rappel et de la pr ecision des donn ees normalis ees. Chaque connaissance suppl ementaire inject ee donne ainsi acc` es a ` des appariements nouveaux. La morphologie permet deectuer des appariements l` a o` u dautres m ethodes et ressources ne peuvent pas agir. Il faut ainsi disposer de ressources morphologiques pour mettre en relation les termes dont les mots pr esentent des variations de nombre, de genre, dadjectivation, etc. La m eme remarque doit n eanmoins etre prise dans lautre sens : si la morphologie conduit aux appariements, elle na abolument pas acc` es a ` toutes les variations (Light, 1996) et doit donc etre combin ee avec dautres informations.

8.2

` chaque variation morphologique ses ressources A

De la m eme mani` ere que di erents types de variation sont accessibles a ` di erentes m ethodes et ressources, di erentes ressources morphologiques donnent acc` es chacune a ` un 164

` CHAQUE VARIATION MORPHOLOGIQUE SES RESSOURCES 8.2. A

type donn e de variation. Nous lavons not e : la morphologie met en uvre plusieurs proc ed es pour la formation des lex` emes et leurs variations. La morphologie constructionnelle recourt ainsi a ` laxation (ou d erivation), la conversion et la composition, parmi les proc ed es centraux. La suppl etion et lallomorphie peuvent egalement intervenir dans ces formations. La morphologie exionnelle d ecrit les variations de nombre, genre, personne, temps, mode, etc. Lutilisation de ressources couvrant ces proc ed es conduit a ` la d ecouverte des variantes de termes correspondantes. Il nexiste donc pas une seule ressource morphologique mais des ressources morphologiques requises pour une variation. Une raison de les distinguer est quelles nassurent pas toutes le m eme apport s emantique dans les termes. La exion na ainsi quun faible apport et les lexicalisations de pluriels ou de f eminins, m eme si elles existent, sont tr` es rares dans ce domaine. La suxation et la conversion ont un apport s emantique plus important. Elles appliquent de nombreuses instructions aux bases permettant entre autre de construire des adjectifs d enominaux (sens g en eral etant ( ( Relatif a `N) )), des noms d everbaux dagent (( ( Celui qui V ) )) ou daction (( ( Action de V ) )), des adjectifs d everbaux (( ( Qui peut etre V ) )). Dans ces formations, les r` egles de construction et les axes appliquent une instruction a ` la base, et comme seule la base v ehicule le sens r ef erentiel, la s emantique du lex` eme construit lui reste proche. Lapport s emantique est beaucoup plus important en cas de pr exation et de composition, on peut m eme parler dune rupture s emantique. Ce qui conduit vers la rupture tient a ` la nature des el ements combin es. Dans la composition, nous avons ainsi au moins deux el ements de composition qui sont porteurs chacun dun sens r ef erentiel. Lors de leur combinaison, qui est g er ee par la r` egle morphologique, les deux sens r ef erentiels sont articul es pour en former un nouveau. Selon la place des composants dans le lex` eme construit, nous pouvons avoir des relations dhyperonymie ou des relations transversales : gastroent erite est ainsi une sorte dent erite, ent erite est une sorte dinammation localis ee dans la muqueuse de lintestin gr ele. Quant aux pr exes actuels, ils sont nourris par des el ements aux ant ec edents di erents : certains dentre eux ont toujours connu des emplois pr exaux (re- , d e-, dys- ), dautres proviennent d el ements de composition (arch eo-, pseudo-) ou de pr epositions et dadverbes (sur-, entre- , sans-). Leur emploi en tant que pr exes t emoigne donc de leur grammaticalisation, dont le degr e varie selon les el ements morphologiques. Lorsque la grammaticalisation est avanc ee, la charge s emantique diminue, devient plus g en erale et donc proche dune instruction. En attendant (que la grammaticalisation sach` eve), la pr exation et la composition sont assez loin des relations construites avec laxation, la exion ou la conversion, que lon peut caract eriser de proches. La pr exation et la composition doivent donc etre utilis ees avec pr ecaution dans les applications automatiques o` u lon doit assurer une continuit e s emantique, en particulier dans le traitement de la variation terminologique. Di erentes ressources morphologiques seront donc utilis ees selon que les applications visent a ` d etecter des variations de termes tr` es proches ou non. Un maximum dinformation morphologique peut etre utile l` a o` u le rappel est privil egi e. Dans ces cas, la pr exation et la composition peuvent intervenir. Elles peuvent alors etre compar ees avec la relation daboutness (ou voir aussi) qui sav` ere utile en recherche dinformation. Par contre, lorsque 165

DES RESSOURCES MORPHOLOGIQUES POUR LE TRAITEMENT DE LA CHAPITRE 8. DE LUTILITE VARIATION TERMINOLOGIQUE

seules les relations d equivalence sont recherch ees, lon devrait se satisfaire avec la exion, (la majeure partie de) la suxation et la conversion.

8.3

` chaque ressource ses heuristiques A

La d ecouverte de ressources morphologiques peut se faire de di erentes mani` eres. L etude des grammaires et lexpertise des morphologues constituent lune des pistes. Mais les applications informatiques ont souvent besoin de donn ees linguistiques plus exhaustives que celles utilis ees par les humains et il est alors n ecessaire dindiquer des relations morphologiques entre mots tout a ` fait banales et evidentes. Cest l` a que des m ethodes dacquisition automatique sav` erent utiles car elles permettent deectuer un d epouillage morphologique plus syst ematique des sources. Les ressources d ecouvertes sont alors a ` limage des donn ees de d epart et de la sensibilit e des outils dacquisition. La piste principale pour la d ecouverte de mots reli es morphologiquement est bas ee le plus souvent sur la pr esence dune sous-cha ne commune susamment longue et se trouvant souvent en premi` ere position. Cest la piste suivie dans nos exp eriences et dans dautres travaux pr esent es. Le contexte s emantique de lacquisition garantit la qualit e des r esultats. Si la d ecouverte de mots aux sous-cha nes initiales communes permet de mettre au jour des relations morphologiques entre eux, cela ne permet pas de typer automatiquement ces relations. Des heuristiques suppl ementaires sont alors n ecessaires. Dans nos exp eriences, elles sont bas ees sur l etiquetage morphosyntaxique et la lemmatisation, deux traitements linguistiques des donn ees textuelles qui peuvent etre consid er es actuellement comme basiques. La d ecouverte et/ou le typage de la exion rel` eve ainsi directement de l etiquetage et de la lemmatisation. Si le travail est fait a ` partir de donn ees etiquet ees, il sut denregistrer les formes des mots qui apparaissent dans les textes et les lemmes correspondants. Notons que les erreurs d etiquetage alors g en er ees seront r epercut ees (et ampli ees) lors de lapplication des ressources exionnelles. Et comme les erreurs portent rarement sur les cat egories mineures ou la ponctuation, mais sur les cat egories majeures (noms, adjectifs, etc.), la correction de l etiquetage peut alors etre utile. Nous le faisons dans nos exp eriences avec les terminologies structur ees (12 555 termes de la SNOMED, qui comportent 8 874 types). Mais lorsque lon travaille sur des donn ees plus importantes la correction de lint egralit e de ces donn ees est inimaginable. Elle peut etre concentr ee alors sur un sous-ensemble (hapax, etiquetages multiples, noms, etc.). La exion peut etre aussi typ ee a ` travers les r` egles exionnelles qui, re etant la grammaire dune langue, sont en nombre ni. On devra ensuite eliminer les erreurs, du point de vue synchronique, comme {rat, rate} ou {chapeau, chapelle}. La conversion cat egorielle peut etre d etect ee uniquement sur des donn ees etiquet ees et lemmatis ees. Mais elle est ais ee a ` d etecter, ceci dautant plus si l etiquetage et la lemmatisation sont corrects : les mots mis en relation doivent avoir la m eme forme, les axes exionnels, dont la nale des verbes a ` linnitif, mis de c ot e, et des cat egories syntaxiques di erentes. 166

` PARTIR DE TERMINOLOGIES STRUCTUREES 8.4. ACQUISITION A OU DE CORPUS ?

Le typage des proc ed es daxation est plus in egal : il y en a plusieurs types et certains dentre eux sont formellement proches de la composition. Laxation transcat egorielle est ainsi rep erable heuristiquement a ` travers le fait quelle permet de former des lex` emes dune autre cat egorie syntaxique que celle de la base. Quant a ` la composition, on peut consid erer quelle met en relation des mots de la m eme cat egorie grammaticale : principalement des noms dans les donn ees m edicales. Pour di erencier les compositions des axations isocat egorielles, il est possible de se baser sur la longueur du suxe. Dans les compositions, o` u il correspond aux el ements lexicaux, il est souvent plus long. Rappelons n eanmoins que -ite , -ase et autres sont courts mais composants quand m eme. Il reste aussi des cas o` u nous avons des relations morphologiques encha n ees entre les mots : adjectif ou forme au pluriel reli es a ` un compos e sans que cette relation mentionne la forme de base des deux formations ({arthropathies, arthropathique}, {carcinomateuse, carcino de}). De mani` ere g en erale, lexploration morphologique des donn ees textuelles est souvent bas ee sur des heuristiques grossi` eres et approximatives. La pr ecision de l etiquetage et de la lemmatisation laisse aussi a ` d esirer. Tous ces facteurs peuvent causer des inductions erron ees des syst` emes dacquisition automatiques. Une telle exploration morphologique des donn ees textuelles propose donc un premier d ebroussaillage. Les r esultats de ce d ebroussaillage peuvent servir tels quels, une fois valid es, ou bien constituer le mat eriel dune etude linguistique plus pouss ee, et etre ensuite incorpor es dans un mod` ele morphologique plus evolu e.

8.4

Acquisition ` a partir de terminologies structur ees ou de corpus ?

Les ressources morphologiques utilis ees dans nos exp eriences ont et e acquises a ` partir de terminologies structur ees. Ce contexte s emantique permet dinduire des donn ees dune pr ecision tr` es elev ee (toujours sup erieure a ` 90 %) et dun rappel int eressant (entre 79 et 91 % par rapport aux donn ees en anglais encod ees dans lUMLS). Nous avons montr e par ailleurs que cette m ethode peut etre appliqu ee a ` tout type de relations s emantiques entre termes. Les r esultats obtenus avec ces di erentes relations sav` erent compl ementaires, surtout dans la d ecouverte des el ements de la composition. En plus dune coh esion s emantique forte entre termes, les terminologies g en eriques, comme la SNOMED, le MeSH ou autre, orent une couverture importante du domaine (Elkin et al., 2001). Nous pouvons donc pr etendre disposer des termes principaux, tout en sachant que les terminologies ne recensent pas tous les termes ni tout le lexique m edical (Hersh et al., 1997). Mais le frein principal de la m ethode reste quelle est d ependante de la disponibilit e des terminologies structur ees qui constituent notre mat eriel damor cage. Nous avons donc d ecid e de comparer les donn ees induites avec notre m ethode et les donn ees induites avec une approche a ` partir de corpus textuels (Zweigenbaum et al., 2003b). Les exp eriences d ecrites dans (Zweigenbaum et al., 2003b) travaillent sur des donn ees etiquet ees et lemmatis ees. Nous avons donc choisi lexp erience correspondante (sec. 4.4 167

DES RESSOURCES MORPHOLOGIQUES POUR LE TRAITEMENT DE LA CHAPITRE 8. DE LUTILITE VARIATION TERMINOLOGIQUE

page 77) a ` partir des terminologies structur ees. Nous avons not e que la segmentation des mots en pr exes et suxes peut varier en fonction des mots qui sont align es et quun m eme mot peut etre segment e de di erentes mani` eres. Ces segmentations multiples, ou les allomorphies, constituent la principale dicult e lors des comparaisons. La premi` ere etape dans la pr eparation des donn ees consiste donc a ` fusionner les el ements morphologiques identiques ou proches. Comme auparavant, pour fusionner les suxes, nous utilisons lalgorithme de distance entre cha nes de caract` eres propos e dans (Jacquemin, 1997a) avec un seuil de proximit e x ea ` 0,5 (0 correspond aux cha nes identiques et au-dessus de 0,5, il nous semble, lalgorithme g en` ere trop de bruit). Pour la fusion des pr exes nous utilisons une des etapes de notre m ethode (sec. 4.3.1 page 68) qui eectue la fusion des paires de mots en familles morphologiques. Le but des familles etant donc de regrouper des allomorphies de pr exes et les lex` emes form es avec. Le travail est fait avec les parties du discours accessibles a ` la morphologie : noms, adjectifs, verbes et adverbes. Les r esultats de la comparaison montrent que nous d ecouvrons plus de pr exes a ` partir de corpus : presque 4 000 familles contre 1 078 avec les terminologies structur ees. Ce qui veut dire quen travaillant sur corpus nous d ecouvrons, a ` travers la vari et e des bases, un plus grand vocabulaire. Quant aux suxes, les d erivations semblent encore former le noyau commun. Les corpus pr esentent toutefois de tr` es nombreuses variations dans leurs segmentations, de m eme que de nombreuses exions verbales quasiment absentes des terminologies. La di erence principale provient, comme dans la comparaison des donn ees morphologiques g en er ees a ` partir de di erentes relations s emantiques entre termes, des el ements de composition. Ceux-ci sont plus vari es dans les terminologies. Les corpus ont par ailleurs lavantage de re eter plus imm ediatement l etat actuel de la langue : nous trouvons des compositions cach ees (handiplace) ou des mots-valises (sidaction) 1 qui sont absents des terminologies ocielles. Pour r esumer, les principales di erences viennent des el ements morphologiques a ` sens r ef erentiel (bases dans les axations et elements de composition), des exions verbales et des proc ed es p eriph eriques de formation de lex` emes, comme la composition cach ee et les mots-valises. Avec les familles induites a ` partir des terminologies structur ees, nous avons une pr ecision de 97,1 % (31 familles erron ees) ; avec les corpus, elle est de 76,8 % (913 familles incorrectes). En ce qui concerne la pr ecision des couples de mots, elle avoisine 98 % avec les terminologies et se trouve entre 98 et 30 %, en fonction du rang des association des mots, dans les donn ees g en er ees a ` partir de corpus. Parmi les erreurs, nous avons les m emes que celles signal ees auparavant : cha nes initiales communes nayant pas de parent e s emantique, pr exes d erivationnels se trouvant en premi` ere position. Mais nous trouvons egalement des mots etrangers, des mots coll es a ` dautres mots (qui se trouvaient d ej` a dans les documents dorigine ou bien sont apparus lors de la conversion des documents html en texte), la c esure, et nalement les erreurs qui proviennent des documents sources (accentuations, orthographe, etc.). L etiquetage et la lemmatisation ajoutent une autre couche derreurs. En r esum e, les corpus pr esentent une plus grande diversit e de bases, de formations p eriph eriques comme les mots-valises ou la composition cach ee, mais aussi plus de bruit
1

Voir (Fradin, 2000; Fradin, 2003) pour une description de ces proc ed es.

168

` 8.5. RESSOURCES LINGUISTIQUES OU REGLES DE DESUFFIXATION ?

(erreurs de g en eration, mots etrangers, erreurs dorthographe, etc.). Ils demandent donc un travail plus important lors de la validation. Les corpus orent par ailleurs des ressources morphologiques qui y sont plus d` element adapt ees. Quant aux terminologies, orant un contexte s emantique plus contraint, elles montrent une pr ecision elev ee et une assez grande couverture en fonction des domaines m edicaux couverts. Elles sont plus g en ereuses en el ements de composition (mais il sagit peut- etre dune particularit e de la SNOMED). Les deux types dapproches conduisent vers la constitution de ressources morphologiques pour une langue et, plus sp eciquement, pour un domaine de sp ecialit e, tout en en orant des vues suppl ementaires.

8.5

Ressources linguistiques ou r` egles de d esuxation ?

En revenant sur le d ebat sur lecacit e des normalisations morphologiques par rapport a ` la baseline, nous pensons avoir montr ea ` travers nos exp eriences que ces normalisations sont n ecessaires si lon veut d ecouvrir les variantes de termes qui se produisent au niveau morphologique. Nous discutons ici les contributions relatives de ressources morphologiques motiv ees linguistiquement, qui se pr esentent souvent sous forme de paires de mots, et de r` egles de d esuxation. Les di erentes exp eriences cit ees auparavant montrent que les r esultats d ependent de plusieurs facteurs. Tout dabord, la longueur des requ etes et des documents exerce une inuence : les documents et requ etes courts, norant pas beaucoup dautres amorces dans lappariement, sont plus sensibles a ` linjection de connaissances morphologiques. Lapport relatif des connaissances morphologiques varie aussi en fonction du type exionnel des langues : les langues avec un syst` eme morphologique relativement simple peuvent etre prises en charge par les d esuxeurs, tandis que les langues avec un syst` eme morphologique complexe sont dicilement descriptibles avec les r` egles de d esuxation, elles sont alors plus favorables a ` lutilisation de ressources morphologiques. Pour une langue comme le fran cais, nos exp eriences montrent quil existe une compl ementarit e des r` egles et des ressources linguistiques. Les r` egles sont ecaces dans le traitement des formations exionnelles r eguli` eres, comme les pluriels. Par contre, en axation o` u il existe des irr egularit es morphologiques, s emantiques ou autres, des allomorphies et suppl etions, il est pr ef erable de recourir aux ressources motiv ees linguistiquement. Lors de lacquisition de ressources morphologiques a ` partir de corpus (Zweigenbaum et al., 2003b) nous nous sommes aper cus ainsi que la pr ecision des donn ees varie en fonction des r` egles : certaines dentre elles ne g en` erent pas derreurs, ou tr` es peu ; tandis que dautres pr esentent une tr` es faible pr ecision. Notons a ` ce sujet lexp erience d etablissement de relations morphologiques entre les synsets dans WordNet (Fellbaum & Miller, 2003), donc sur des lex` emes anglais (langue consid er ee comme peu riche morphologiquement). Dans cette exp erience, la d etection des axations est eectu ee en lan cant un grep sur les axes trait es. Les axations sont ensuite valid ees et reli ees manuellement a ` leurs bases. Les auteurs justient cette d emarche par le fait que les programmes informatiques ne peuvent pas traduire les r` egles de la langue et encore moins la connaissance lexico-s emantique beaucoup trop 169

DES RESSOURCES MORPHOLOGIQUES POUR LE TRAITEMENT DE LA CHAPITRE 8. DE LUTILITE VARIATION TERMINOLOGIQUE

irr eguli` ere. Il sagit sans doute dune position un peu extr emiste vis-` a-vis des traitements automatiques et du TALN. Il peut etre plus raisonnable de les consid erer comme une aide dans lexploration syst ematique des donn ees textuelles. Cette aide sav` ere dautant plus ecace que les programmes informatiques sont contraints quant aux objectifs demand es. L evaluation de lapport des normalisations morphologiques d epend aussi des principes et mesures utilis es. Nous nous sommes demand ee ainsi si les mesures de pr ecision et de rappel et les conditions de leur application re` etent d` element cet apport. (Hull, 1996) va plus loin et eectue plusieurs modications lors de l evaluation : (1) Le rappel et la pr ecision sont observ es sur les 5 a ` 15 premiers documents, qui repr esentent une recherche supercielle, et les 50 a ` 150 premiers documents qui correspondent a ` une recherche fouill ee ; (2) La priorit e dans lanalyse des r esultats est donn ee aux requ etes les plus sensibles a ` la di erence des traitements morphologiques appliqu es. Suite a ` ces modications, il sav` ere que les ressources morphologiques, surtout celles concernant la suxation, sont plus utiles que la d esuxation. Notons aussi que les r` egles de d esuxation sont plus exhaustives et sav` erent plus utiles lorsque le rappel est privil egi e. Mais il est vrai quelles eectuent un traitement agressif des donn ees. Les listes dexceptions aux r` egles g en erales constituent donc une pr ecaution utile. Lexistence de ces listes sous-entend d ej` a une analyse et une validation de ressources morphologiques. Les exceptions devront par ailleurs etre adapt ees aux nouvelles donn ees trait ees. Quant aux ressources morphologiques, elles demandent plus deort lors de leur constitution. Mais elles eectuent des normalisations plus nes.

8.6

Ressources sp eciques du domaine ou de la langue g en erale ?

Nos exp eriences de structuration de termes montrent que les ressources sp eciques au domaine (morphologiques et synonymiques) permettent de relier les termes avec une meilleure pr ecision. Les ressources morphologiques sp eciques au domaine peuvent donner egalement un rappel plus elev e (comme dans notre exp erience de structuration de termes). Quant au rappel avec les synonymes, il est plus elev e avec les ressources g en eriques. Lorsque des ressources sp eciques au domaine nexistent pas ou ne sont pas accessibles, les ressources g en eriques peuvent etre adapt ees a ` ce domaine, comme nous le faisons avec les synonymes. Cet eort suppl ementaire est alors recompens e par un rapport pr ecision / rappel plus int eressant. Les exp eriences de (Burgun & Bodenreider, 2001; Bodenreider & Burgun, 2002; Bodenreider et al., 2003) montrent que lors de ladaptation de ressources g en erales, elles peuvent egalement etre enrichies de notions, de relations et surtout de termes sp eciques au domaine.

170

Chapitre 9 Perspectives
Les perspectives principales concernent les am eliorations pouvant etre apport ees a ` lacquisition de ressources morphologiques : leur qualit e et leur couverture. Nous reprenons ici quelques unes de celles d ej` a signal ees. Il serait ainsi int eressant de pouvoir segmenter les mots en sous-cha nes plus proches des el ements morphologiques et donc plus directement utilisables dans di erentes applications. Sans oublier quun mot (typographique ou informatique) peut etre compos e de plus de deux elements. Lapplication de la m ethode aux langues dautres familles (langues s emitiques par exemple) ou bien dans un contexte multilingue (acquisition de cognats) est un autre p ole dinvestigation. La combinaison de notre m ethode avec les approches a ` partir de corpus constitue egalement un facteur potentiel dam elioration. Le recours a ` des m ethodes de pond eration des r esultats est dans tous les cas souhaitable et permettra daborder avec plus daisance les validations. Par ailleurs, les corpus textuels orent toujours une source dinformation pour des etudes ponctuelles des proc ed es morphologiques, quelles aient une vis ee linguistique ou applicative. Mais les perspectives vont bien s ur au-del` a des explorations morphologiques des donn ees textuelles. Elles concernent aussi les domaines applicatifs abord es dans notre travail : indexation et recherche des documents, cat egorisation, structuration des terminologies. La principale perspective est alors la prise en compte des d ependances syntaxiques dans les termes complexes, ce qui nous permettrait de d epasser le niveau de traitement du mot. Vu tout ce que nous avons rapport e, une comparaison plus pouss ee et compl` ete des r` egles de d esuxation et des ressources morphologiques simpose. Les ressources morphologiques devront alors etre compl et ees. Et nalement, un de nos int er ets particuliers concerne la constitution et la structuration des terminologies. Dune part en ce qui concerne le rep erage des relations entre termes et leur typage. Dautre part laide aux validations qui fait, de mani` ere g en erale, d efaut dans ce domaine.

171

CHAPITRE 9. PERSPECTIVES

172

Bibliographie
Agirre, E., Arregi, X., Artola, X., de Llarraza, A. D., & Sarasola, K. (1994). Intelligent dictionary help systems. In M. Brekke, I. Andersen, T. Dahl & J. Myking, Eds., Applications and implementations of current LSP research, Norway. Aliquot-Suengas, S. (1996). R ef erence collective/Sens collectif. La notion du collectif a ` travers les noms sux es du lexique fran cais. Th` ese de doctorat en linguistique, Universit e de Lille III, Lille, France. Amiot, D. (2001). Pr exes ou pr epositions ? Les cas de sur- , sans-, contre- et les autres. Lexique, 16. Amiot, D. (2004). Des pr exes aux pr epositions. Th eorie morphologique et grammaticalisation. Habilitation a ` diriger la recherche, Universit e dArtois, Arras. Amsili, P. (2003). Lantonymie en terminologie : quelques remarques. In Terminologie et Intelligence Articielle (TIA), pp. 3140, Strasbourg. Aronoff, M. (1976). Word formation in generative grammar. Cambridge, MA: MIT Press. Aronoff, M. & Anshen, F. (1998). Morphology and the lexicon: lexicalisation and productivity, In The handbook of morphology, pp. 237247. A. Spencer and A.M. Zwicky. Aronson, A. R. (2001). Eective mapping of biomedical text to the UMLS Metathesaurus: the MetaMap program. In Annual Symposium of the American Medical Informatics Association (AMIA), Washington. Arppe, A. (2002). The usage patterns and selectional preferences of synonyms in a morphologically rich language. In Journ ees de traitement automatique des donn ees textuelles (JADT), Saint Malo. Assadi, H. (1998). Construction dontologies a ` partir de textes techniques Application aux syst` emes documentaires. Th` ese de doctorat en informatique, Universit e de Paris 6, Paris, France. Baayen, H. (1991). Quantitative aspects of morphological productivity. Yearbook of Morphology, pp. 109149. Baayen, H. (1992). On frequency, transparency and productivity. Yearbook of Morphology, pp. 181208. Baayen, H. (1994). Derivational productivity and text typology. Journal of quantitative linguistics, 1(1), 1634. 173

BIBLIOGRAPHIE

Baayen, H. (2001). Word frequency distributions, volume 18 of Text, Speech and Language Technology. Dordrecht, The Netherlands: Kluwer Academic Publishers. Baayen, H. & Lieber, R. (1991). Productivity and English derivation: a corpus-based study. Linguistics, 29(5), 801843. Baayen, H. & Renouf, A. (1996). Productive lexical innovations in an English newspaper. Language. Journal of the Linguistics Society of America, pp. 6998. Bakken, S. (1999). On a path to a reference terminology for nursing concepts: the science and synergy. In C. G. Chute, Ed., International Medical Informatics Assiciation Working Group 6 (IMIA WG6), Phoenix, Arizona. Barbaud, P. (1991). Fondements grammaticaux de lacquisition des mots compos es. Canadian Journal of Linguistics, 36(3), 215253. Baud, R. H., Lovis, C., Rassinoux, A.-M., Michel, P.-A. & Scherrer, J.-R. (1997). Extracting linguistic knowledge from an international classication. In Medical Informatics in Europe (MIE). Bauer, L. (1998). Is there a class of neoclassical compounds, and if so is it productive? Linguistics, 36(3), 403422. Berche, A., Mougin, F., Hathout, N. & Lecomte, J. (1997). Verbaction : constitution dun lexique d everbal du fran cais. Rapport technique, INIST. Biber, D. (1994). Representativeness in corpus design. Linguistica Computazionale, IX-X, 377408. Current Issues in Computational Linguistics: in honor of Don Walker. Blanquet, A. & Zweigenbaum, P. (1999). A lexical method for assisted extraction and coding of ICD-10 diagnoses from free text patient discharge summaries. Supplementary for the Journal of American Medical Informatics Association. Bloch, O. & von Wartburg, W. (2002). Dictionnaire etymologique de la langue fran caise. Paris: PUF. Bodenreider, O. (2001). Circular hierarchical relationships in the UMLS: etiology, disgnosis, treatment, complications and prevention. In Annual Symposium of the American Medical Informatics Association (AMIA), Washington. Bodenreider, O. & Burgun, A. (2002). Characterizing the denitions of anatomical concepts in WordNet and specialized sources. In Proceedings of the First Global WordNet Conference, pp. 223230. Bodenreider, O., Burgun, A. & Mitchell, J. A. (2003). Evaluation of WordNet as a source of lay knowledge for molecular biology and genetic diseases: a feasibility study. In Medical Informatics in Europe (MIE), pp. 379384. Bodenreider, O., Burgun, A. & Rindflesch, T. C. (2001). Lexically-suggested hyponymic relations among medical terms and their representation in the UMLS. In URI INIST CNRS, Ed., Terminologie et Intelligence articielle (TIA), pp. 1121, Nancy. Bodenreider, O., Mitchell, J. A. & McCray, A. T. (2002). Evaluation of the UMLS as a terminology and knowledge resource for biomedical informatics. In Annual Symposium of the American Medical Informatics Association (AMIA), pp. 6165. 174

BIBLIOGRAPHIE

Bodenreider, O., Nelson, S. J., Hole, W. T. & Chang, F. (1998). Beyond synonymy: exploiting the UMLS semantics in mapping vocabularies. In C. G. Chute, Ed., A paradigm shift in health care information systems: clinical infrastructures for the 21st certury. Annual Symposium of the American Medical Informatics Association (AMIA), pp. 815819, Orlando, Philadelphia. Disponible a ` http://www.nlm.nih.gov/mesh/beyond. html. Bodenreider, O. & Zweigenbaum, P. (2000). Strat egies didentication des noms propres a ` partir de nomenclatures m edicales parall` eles. Traitement automatique des langues (TAL), 41(3), 727758. Bolinger, D. L. (1948). On dening the morpheme, In Forms of English, Accent, Morpheme, Order, pp. 183189. Harvard University Press: Cambridge, MA. Bonami, O., Boy e, G. & Kerleroux, F. (2005). Lallomorphie radicale et la relation exion-construction. Boucherie, A. (1876). Bibliographie. Revue des langues romanes, II, 264275. e, P. (1994). Les mots de la m edecine. Paris: Belin. Bouch Bourigault, D. (1993). Analyse syntaxique locale pour le rep erage de termes complexes dans un texte. Traitement Automatique des Langues (TAL), pp. 105117. Bourigault, D. & Fabre, C. (2000). Approche linguistique pour lanalyse syntaxique de corpus. Cahiers de Grammaire, 25, 131152. Bourigault, D. & Habert, B. (1998). Evaluation of terminology extractors: Principles and experimentation. In Language Resources and Evaluation (LREC), pp. 299305, Grenade. Bourigault, D. & Slodzian, M. (1999). Pour une terminologie textuelle. In Terminologie et Intelligence Articielle (TIA), Nantes. Bousquet, C., Jaulent, M.-C., Chatellier, G. & Degoulet, P. (2001). R eutilisation de la nomenclature multi-axiale SNOMED pour mesurer une distance s emantique entre termes m edicaux. In URI INIST CNRS, Ed., Terminologie et Intelligence articielle (TIA), pp. 139148, Nancy. Brill, E. (1993). A Corpus-Based Approach to Language Learning. PhD thesis, University of Pennsylvania, Philadelphia. Disponible a ` http://www.cs.jhu.edu/~brill/ acadpubs.html. Visit e le 23/08/99. Brill, E. (1995). Transformation-based error-driven learning and natural language processing: A case study in part-of-speech tagging. Computational Linguistics, 21(4), 543 565. Brunet, E. (1981). Les suxes, In Le vocabulaire fran cais de 1789 a ` nos jours. Dapr` es les donn ees du Tr esor de la langue fran caise, pp. 415493. Librairie Slatkine. Brunet, E. (1999). Aper cu statistique sur l evolution du vocabulaire fran cais, In Nouvelle histoire de la langue fran caise, pp. 675627. Editions du Seuil. 175

BIBLIOGRAPHIE

Burgun, A. & Bodenreider, O. (2001). Comparing terms, concepts and semantic classes in WordNet and the Unied Medical Language System. In Proceedings of NAACL Workshop WordNet and Other lexical Ressources: Applications, Extensions and Customizations, pp. 7782. Burnage, G. (1990). CELEX - A Guide for Users. University of Nijmegen: Centre for Lexical Information. B eguin, A., Jouis, C. & Mustafa, W. (1997). Evaluation doutils daide a ` la construction de terminologie et de relations s emantiques entre termes a ` partir de corpus. In AUPELF-UREF & FMA, Eds., Actes des Premi` eres Journ ees Scientiques et Techniques (JST), pp. 419126, Avignon. Calzolari, N. (1991). Acquiring and representing semantic information in a lexical knowledge base. In J. Pustejovsky, Ed., Proceedings of the ACL workshop on lexical semantics and knowledge representation (SIGLEX), pp. 188197. Church, K. W. (1995). One term or two? In Proceedings of SIGIR-95, 18th ACM International Conference on Research and Development in Information Retrieval, pp. 310318, Seattle, US. Chute, C. G. (1995). Medical concept representation: from classication to understanding. In Annual Synposium on Computer Applications in Medical Care (SCAMC), Washington. Tutoriel T33. Cimino, J. (2001). Battling Scylla and Charybdis: the search for redundancy and ambiguity in the 2001 UMLS Metathesaurus. In Annual Symposium of the American Medical Informatics Association (AMIA), Washington. Clark, H. H. & Clark, E. V. (1979). When nouns surface as verbs. Language, 55, 767811. Condamines, A. & Rebeyrolle, J. (1998). CTKB : A corpus-based approach to a terminological knowledge base. In Proceedings of Computerm98 (First Workshop on Computational Terminology), pp. 2935, Coling-ACL98, Universit e de Montr eal, Montr eal, Quebec, Canada. Corbett, G. G. (1991). Gender. Cambridge: Cambridge University Press. Corbett, G. G. (2000). Number. Cambridge: Cambridge University Press. Corbin, D. (1987). Morphologie d erivationnelle et structuration du lexique, volume 1. Lille: Presse universitaire de Lille. Corbin, D. (1991). La formation des mots : structures et interpr etations. Lexique, 10, 730. Corbin, D. (1992). Hypoth` ese sur les fronti` eres de la composition nominale. Cahiers de grammaire, 17, 2555. Corbin, D. (1993). French (indo-european : Romance). Encyclop edie internationale de morphologie, 121. 176

BIBLIOGRAPHIE

Corbin, D. (1994). Locutions, compos es, unit es polylex ematiques : lexicalisation et mode de construction. In La locution, pp. 53101, ENS Fontenay/Saint-Cloud. Corbin, D. & Paul, J. (1999). Aper cu sur la cr eativit e morphologique dans la terminologie de la chimie. La banque des mots, 60, 5168. Cottez, H. (1985). Dictionnaire des structures du vocabulaire savant. Paris: Le Robert. t Co e, R. A. (1996). R epertoire danatomopathologie de la SNOMED internationale, v3.4. Universit e de Sherbrooke, Sherbrooke, Qu ebec. t Co e, R. A., Brochu, L. & Cabana, L. (1997). SNOMED Internationale R epertoire danatomie pathologique. Secr etariat francophone international de nomenclature m edicale, Sherbrooke, Qu ebec. Daille, B. (1995). Rep erage et extraction de terminologie par une approche mixte statistique et linguistique. Traitement Automatique des Langues (T.A.L.), 36(1-2), 101 118. Daille, B. (2003). Conceptual structuring through term variations. In Proceedings of the ACL Workshop on Multiword Expressions : Analysis, Acquisition and Treatment, pp. 916. Dal, G. (1997). Du principe dunicit e cat egorielle au principe dunicit e s emantique: incidence sur la formalisation du lexique construit morphologiquement. Bulag (num ero sp ecial), pp. 105115. Dal, G. (2003). Productivit e morphologique : d enitions et notions connexes. Langue fran caise, 140, 323. Dal, G. & Jacquemin, C. (1999). FRANLEX. Base de donn ees lexicales sur la morphologie d erivationnelle en fran cais contemporain. Description du projet, SILEX - LIMSICNRS. Disponible a ` http://m17.limsi.fr/Individu/jacquemi/FRANLEX/index.html. Visit e le 17/08/99. Dal, G., Namer, F. & Hathout, N. (1999). Construire un lexique d erivationnel : th eorie et r ealisations. In P. Amsili, Ed., Traitement Automatique des Langues Naturelles (TALN), pp. 115124, Carg` ese. Darmesteter, A. (1875). Trait e de la formation des mots compos es dans la langue fran caise compar ee aux autres langues romanes et au latin. Paris: Librairie Honor e Champion. Version revue et refondue en 1894. Darmoni, S. J., Thirion, B., Leroy, J.-P., Douy` ere, M., Lacoste, B., Godard, G., Rigolle, I., Brisou, M., Videau, S., Goupy, E., Piot, J., Qu er e, M., Ouazir, S. & Abdulrab, H. (2001). A search tool based on encapsulated MeSH thesaurus to retrieve quality health resources on the Internet. MIIM, 26(3), 165178. Darmoni, S. J., Eric Jarousse, Zweigenbaum, P., Le Beux, P., Namer, F., t e, R., Buemi, A., Bourigault, D., ee, H., Co Baud, R., Joubert, M., Vall e, G., Jeanneau, S. & Rodrigues, J.-M. (2003). VUMeF : Extending the Recourc french involvement in the UMLS Metathesaurus. In Annual Symposium of the American Medical Informatics Association (AMIA). 177

BIBLIOGRAPHIE

de Loupy, C. (1994). La m ethode d etiquetage dEric Brill. Traitement automatique des langues (TAL), 36(1-2), 3746. de Loupy, C. (2000). Evaluation de lapport de connaissances linguistiques en d esambigu sation s emantique et recherche dinformation. Th` ese de doctorat en informatique, Universit e dAvignon et des Pays de Vaucluse, Aix-Marseille, France. Degoulet, P., Sauquet, D., Jaulent, M.-C., Zapletal, E. & Lavril, M. (1998). Rationale and design considerations for a semantic mediator in health information systems. Methods in Informatics and Medicin (MIM), 37, 518526. Di Sciullo, A.-M. & Williams, E. (1987). On the denition of Word. Cambridge: MIT Press. Dias, G., Carapinha, L., Trindade, R., Mota, S. & Ribeiro, M. (2003). Construire et acc eder a ` une base de donn ees dexpressions g ees a ` partir des ressources de la toile. In Terminologie et intelligence articielle (TIA), pp. 92101, Strasbourg. Dujols, P., Aubas, P., Baylon, C. & Gr emy, F. (1991). Morphosemantic analysis and translation of medical compound terms. Methods in Informatics and Medicin (MIM), 30, 3035. D ejean, H. (1998). Morphemes as necessary concept for structures discovery from untagged corpora. In Workshop on Paradigms and Grounding in Natural Language Learning, pp. 295299, Adelaide. Elkin, P., Ruggieri, A., Brown, S., Buntrock, J., Bauer, B., WahnerRoedler, D., Litin, S., Beinborn, J., Bailey, K. & Bergstrom, L. (2001). A randomized controlled trial of the accuracy of clinical record retrieval using SNOMED-RT as compared with ICD9-CM. In Annual Symposium of the American Medical Informatics Association (AMIA), Washington. Emeline, I. V., Levenson, R., Perov, Y. L. & Rykiv, V. V. (1995). A Russian version of SNOMED-International. In R. A. Greenes, Ed., Medical Informatics in Europe (MIE). Enguehard, C., Malvache, P. & Trigano, P. (1992). Indextion de textes : lapprentissage des concepts. In International Conference on Computational Linguistics (COLING), Nantes, 23-28 ao ut. Evans, D. A. & Lefferts, R. G. (1993). Design and evaluation of the CLARITTREC-2 system. In Text REtrieval Conference, pp. 137150. Fellbaum, C. & Miller, G. A. (2003). Morphosemantic links in WordNet. Traitement Automatique des Langues (TAL), 44(2), 6980. Fradin, B. (2000). Combining forms, blends and related phenomena. Extragrammatical and marginal morphology, pp. 1159. Fradin, B. (2003). Nouvelles approches en morphologie. Paris: Presses universitaires de France (PUF). Fradin, B., Hathout, N. & Meunier, F. (2003). La suxation en -et et la question de productivit e. Langue fran caise, 140, 5678. 178

BIBLIOGRAPHIE

Fradin, B. & Kerleroux, F. (2003). Introduction. Langages : Quoi de neuf en morphologie ?, 152, 311. Frath, P., Oueslati, R. & Rousselot, F. (2000). Identication de relations s emantiques par rep erage et analyse de cooccurrences de signes linguistiques. In J. Charlet, M. Zacklad, G. Kassel & D. Bourigault, Eds., Ing enierie des Connaissances Evolutions r ecentes et nouveaux d es, chapter 18. Eyrolles. Furnas, G. W., Landauer, T. K., Gomez, L. M. & Bell, S. T. D. (1987). The vocabulary problem in human-system communication: an analysis and a solution. In Communications of the ACM, pp. 964971. Disponible a ` http://citeseer.nj.nec. com/furnas87vocabulary.html. Visit e le 10/09/2002. Gaeta, L. & Ricca, D. (2003). Frequency and productivity in Italian derivation: a comparison between corpus-based and lexico-graphical data. Italian Journal of Linguistics (Rivista di Linguistica), 15(1). Garcia, D. (1998). Analyse automatique des textes pour lorganisation causale des actions. R ealisation du syst` eme informatique Coatis. Th` ese de doctorat nouveau r egime en informatique, Universit e de Paris-Sorbone (Paris IV), Paris, France. Gaudinat, A. & Boyer, C. (2002). Automatic extraction of MeSH terms from Medline abstracts. In R. Baud & P. Ruch, Eds., Workshop Natural Language Processing in Biomedical Applications of Medical Informatics in Europe (MIE), pp. 6368, Cyprus. Gaussier, E. (1999). Unsupervised learning of derivational morphology from inectional lexicons. In A. Kehler & A. Stolcke, Eds., ACL workshop on Unsupervised Methods in Natural Language Learning, College Park, Md. Gaussier, E., Grefenstette, G., Hull, D. & Roux, C. (2000). Recherche dinformation en fran cais et traitement automatique des langues. Traitement automatique des langues (TAL), 41(2), 473493. Giraldo, G. & Reynaud, C. (2002). Construction semi-automatique dontologies a ` partir de DTDs relatives a ` un m eme domaine. In Actes de la conf erence Journ ees Francophones de lIng enierie des Connaissances (IC), Rouen. Grabar, N. (1999a). Acquisition automatique de connaissances morphologiques a ` partir dun th esaurus: Prise en compte de contraintes syntaxiques en fran cais et en russe. M emoire de DEA, INaLCO. Grabar, N. (1999b). Pr eparation de ressources lexicales pour laide au codage automatique par extension de la requ ete. M emoire de DESS, INaLCO. Grabar, N. & Haag, K. (2003). Des textes parall` eles vers une terminologie trilingue. In Terminologie et intelligence articielle (TIA), pp. 102111, Strasbourg. Grabar, N. & Hamon, T. (2004a). Les relations dans les terminologies structur ees : de la th eorie a ` la pratique. Revue dIntelligence Articielle (RIA), 18(1). Grabar, N. & Hamon, T. (2004b). Rep erage de relations s emantiques entre termes : sur la piste de la morphologie d erivationnelle. In Ing enierie des connaissances (IC), pp. 237248, Lyon. 179

BIBLIOGRAPHIE

Grabar, N. & Jeannin, B. (2002). Contribution de di erents outils a ` la construction dune terminologie pour la recherche dinformation. In C. Greboval, Ed., Ing enierie des connaissances (IC), Rouen. Poster. Grabar, N. & Zweigenbaum, P. (1999a). Acquisition automatique de connaissances morphologiques sur le vocabulaire m edical. In Traitement Automatique de Langues Naturelles (TALN), pp. 175184. Grabar, N. & Zweigenbaum, P. (1999b). Language-independent automatic acquisition of morphological knowledge from synonym pairs. JAMIASUP, pp. 7781. Grabar, N. & Zweigenbaum, P. (2000a). Automatic acquisition of domain-specic morphological resources from thesauri. In Recherche dInformation Assist ee par Ordinateur (RIAO), pp. 765784. Grabar, N. & Zweigenbaum, P. (2000b). A general method for sifting linguistic knowledge from structured terminologies. JAMIASUP, pp. 310314. Grabar, N. & Zweigenbaum, P. (2002a). Lexically-based terminology structuring: a feasibility study. In Workshop terminologie de Language Resources and Evaluation (LREC), Canaries. Grabar, N. & Zweigenbaum, P. (2002b). Lexically-based terminology structuring: Some inherent limits. In L.-F. Chien, B. Daille, K. Kageura & H. Nakagawa, Eds., Proceedings of Second International Workshop on Computational Terminology (COMPUTERM 2002), pp. 3642, Taipei, Taiwan: ACLCLP. Grabar, N. & Zweigenbaum, P. (2003). Productivit ea ` travers domaines et genres : d eriv es adjectivaux et langue m edicale. Langue fran caise, 140, 102125. Grabar, N., Zweigenbaum, P., Soualmia, L. & Darmoni, S. (2002). Les utilisateurs de DocCISMEF peuvent-ils trouver ce quils cherchent ? Une etude de lad equation du vocabulaire des requ etes au MeSH. In Journ ees Francophones dInformatique M edicale (JFIM), Qu ebec, Canada. Grabar, N., Zweigenbaum, P., Soualmia, L. & Darmoni, S. (2003). Matching controlled vocabulary. In Medical Informatics in Europe (MIE), Saint-Malo, France. Grefenstette, G. (1994). Explorations in automatic thesaurus discovery. Kluwer Academic Publishers. Grefenstette, G. & Nioche, J. (2000). Estimation of English and non-English language use on the WWW. In Recherche dInformation Assist ee par Ordinateur (RIAO), pp. 237246, Paris. Gruaz, C. (1998). La hi erarchie d erivationnelle dans les familles synchroniques. Prototypie, polys emie et homonymie. In Congr` es Linguistique et Philologie romanes, Bruxelles. Habert, B., Grabar, N., Jacquemart, P. & Zweigenbaum, P. (2001). Building a text corpus for representing the variety of medical language. In Corpus Linguistics, Lancaster. 180

BIBLIOGRAPHIE

Habert, B., Herviou-Picard, M.-L., Bourigault, D., Quatrain, R. & Roumens, M. (1997). Un outil et une m ethode pour comparer deux extracteurs de groupes nominaux. In Journ ees Scientiques et Techniques FRANCIL, Avignon. Habert, B., Illouz, G., Lafon, P., Fleury, S., Folch, H., Heiden, S. & Pr evost, S. (2000). Prolage de textes : cadre de travail et exp erience. In M. Rajman, Ed., 5` emes Journ ees dAnalyse des Donn ees Textuelles (JADT), Lausanne. Habert, B. & Jacquemin, C. (1993). Noms compos es, termes, d enominations complexes : probl ematiques et traitements automatiques. Traitement Automatique des Langues (TAL), 34(2), 541. Habert, B., Naulleau, E. & Nazarenko, A. (1996). Symbolic word clustering for medium-size corpora. In International Conference on Computational Linguistics (COLING96), volume 1, pp. 490495, Copenhagen, Danmark. Hamon, T. (2000). Variation s emantique en corpus sp ecialis e : Acquisition de relations de synonymie a ` partir de ressources lexicales. Th` ese de doctorat en informatique, Universit e Paris Nord, Paris. Hamon, T. & Nazarenko, A. (2001a). Detection of synonymy links between terms: experiment and results. In Recent Advances in Computational Terminology, pp. 185208. John Benjamins. Hamon, T. & Nazarenko, A. (2001b). Exploitation de lexpertise humaine dans un processus de constitution de terminologie. In Traitement Automatique des Langues Naturelles (TALN), pp. 213222, Tours. Hamon, T., Nazarenko, A. & Gros, C. (1998). A step towards the detection of semantic variants of terms in technical documents. In International Conference on Computational Linguistics (COLING-ACL98), pp. 498504, Universit e de Montr eal, Montr eal, Quebec, Canada. Harman, D. (1991). How eective is suxing? Journal of the American Society of Information Science, 42(1), 715. Harris, Z. S. (1971). Structures math ematiques du langage. Paris: Monographies de linguistique math ematique. Dunod. Traduit par C. Fuchs. Hathout, N. (2001). Analogies morpho-syntaxiques. In Traitement Automatique des Langues Naturelles (TALN), Tours. Hathout, N., Namer, F. & Dal, G. (2001). An experimental constructional database: the MorTAL project. In P. Boucher, Ed., Morphology book. Cambridge, MA: Cascadilla Press. Hawking, D., Bailey, P. & Craswell, N. (2000). An Intranet Reality Check For TREC Ad Hoc. Technical report, CSIRO Mathematical and Information Sciences, Canberra, Australia. Disponible a ` http://pigfish.vic.cmis.csiro.au/~nickc/pubs/. Hearst, M. A. (1992). Automatic acquisition of hyponyms from large text corpora. In Proceedings of the Fourteenth International Conference on Computational Linguistics, Nantes, France. Disponible a ` http://sern.ucalgary.ca/KSI/KAW/KAW99/papers/ Gery1/index.html. Visit e le 26/08/99. 181

BIBLIOGRAPHIE

Hersh, W. R., Campbell, E. H., Evans, D. A. & Brownlow, N. D. (1996). Empirical, automated vocabulary discovery using large text corpora and advanced natural language processing tools. In Annual Symposium of American Medical Informatics Association (AMIA), pp. 159163. Hersh, W. R., Campbell, E. M. & Malveau, S. E. (1997). Assessing the feasibility of large-scale NLP in a corpus of ordinary medical records: a lexical analysis. Journal of American Medical Informatics Association (JAMIA), 4 suppl., 580584. Hull, D. A. (1996). Stemming algorithms: A case study for detailed evaluation. Journal of the American Society of Information Science, 47(1), 7084. Huot, H. (2001). Morphologie, forme et sens des mots du fran cais. Paris: Armand Collin. Iacobini, C. (1997). Distinguishing derivational prexes from initial combining forms. In First mediterranean conference of morphology, Mytilene, Island of Lesbos, Greece. Ingenerf, J. & Giere, W. (1998). Concept-oriented standartization and statisticsoriented classication: continuing the classication versus nomenclature controversy. Methods in Informatics and Medicin (MIM), 37, 527539. INSERM (2000). Th esaurus Biom edical Fran cais/Anglais. Institut National de la Sant e et de la Recherche M edicale, Paris. Jacquemin, C. (1996). A symbolic and surgical acquisition of terms through variation. In S. Wermter, E. Riloff & G. Scheler, Eds., Connectionist, Statistical and Symbolic Approaches to Learning for Natural Language Processing, pp. 425438, Springer. Jacquemin, C. (1997a). Guessing morphology from terms and corpora. In ACM SIGIR. Jacquemin, C. (1997b). Variation terminologique : Reconnaissance et acquisition automatique de termes et de leurs variantes en corpus. M emoire dhabilitation a ` diriger des recherches en informatique, Universit e de Nantes. Jacquemin, C. (1999). Syntagmatic and paradigmatic representations of term variation. In 37th Annual Meeting of the Association for Computational Linguistics (ACL99), pp. 341348, University of Maryland. Jacquemin, C. & Tzoukermann, E. (1999). NLP for term variant extraction: A synergy of morphology, lexicon, and syntax. In T. Strzalkowski, Ed., Natural Language Processing and Information Retrieval, chapter 2, pp. 2574. Boston, MA: Kluwer. Jacques, M.-P. (2003). Rep erage de termes r eduits : int er et et limites de lanalyse distributionnelle. In Terminologie et intelligence articielle (TIA), pp. 135144, Strasbourg. Jansen, B. J., Spink, A., Bateman, J. & Saracevic, T. (1998). Real life information retrieval: A study of user queries on the web. In SIGIR Forum, pp. 517. Disponible a ` http://jimjansen.tripod.com/academic/pubs/ipm98/ipm98.html. Visit e le 08/02/2002. Jansen, B. J., Spink, A. & Saracevic, T. (2000). Real life, real users, and real needs: a study and analysis of user queries on the Web. Information Processing and Management, 36(2), 207227. 182

BIBLIOGRAPHIE

Jeannin, B. & Monceaux, A. (2003). Constitution de dictionnaires bilingues a ` partir de donn ees terminologiques trilingues. In F. Rousselot, Ed., Terminologie et Intelligence Articielle (TIA), Strasbourg. Poster. Jones, S., Cunningham, S. J. & McNab, R. J. (1998). Usage analysis of a digital library. In ACM DL, pp. 293294. Disponible a ` http://citeseer.nj.nec.com/ steve98usage.html. Visit e le 08/02/2002. Jones, S., Cunningham, S. J., McNab, R. J. & Boddie, S. J. (2000). A transaction log analysis of a digital library. Internal Journal on Digital Libraries, 3(2), 152169. Disponible a ` http://citeseer.nj.nec.com/330107.html. Visit e le 08/02/2002. Kavanagh, J. (1995). The Text Analyser: A Tool for Extracting Knowledge From Text. Master of computer science thesis, University of Ottawa, Ottawa, Canada. Kleiber, G. & Tamba, I. (1990). Lhyperonymie revisit ee : inclusion et hi erarchie. Langages, 98, 732. Lhyponymie et lhyperonymie (dir. Marie-Fran coise Mortureux). Koskenniemi, K. (1983). Two-level morphology: a general computational model for word-form recognition and production. PhD thesis, University of Helsinki Department of General Linguistics, Helsinki. Kraaij, W. & Pohlmann, R. (1996). Viewing stemming as recall enhancement. In SIGIR. Krovetz, R. (1993). Viewing morphology as an inference process. In Proceedings of the 16th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, pp. 191202. Lafon, P. (1984). Champion-Slatkine. D epouillements et statistiques en lexicom etrie. Paris-Gen` eve:

Lame, G. (2002). Construction dontologies a ` partir de textes. Une ontologie du droit d edi ea ` la recherche dinformation sur le Web. Th` ese de doctorat en informatique temps r eel, robotique et automatique, Ecole des Mines de Paris, Paris. Le Moigno, S., Charlet, J., Bourigault, D., Degoulet, P. & Jaulent, M.C. (2002). Terminology extraction from text to build an ontology in surgical intensive care. In Annual Symposium of the American Medical Informatics Association (AMIA), pp. 430434. Lecomte, J. (1998). Le cat egoriseur Brill14-JL5 / WinBrill-0.3. INaLF. Cat egoriseur dEric Brill, entra n e pour le fran cais a ` lINaLF. Lesselingue, C. (2003). Les noms compos es [N N ]N holonymiques : illustration de la sp ecicit e s emantique des unit es construites morphologiquement. Silexicales, 3, 100107. 3e rencontres du Forum de Morphologie. Actes du colloque de Villeneuve dAscq. 19-21 septembre 2002. Levenshtein, V. I. (1966). Binary codes capable of correcting deletions, insertions and reversals. Soviet physics. Doklady, 707(10). 183

BIBLIOGRAPHIE

LHomme, M.-C. (2004). Adjectifs d eriv es s emantiques (ADS) dans la structuration des terminologies. In Journ ees d etude Terminologie, Ontologie et repr esentation des connaissances, Lyon. Lieber, R. (1992). Deconstructing morphology : word formation in syntactic theory. Chicago/London: The University of Chicago Press. Light, M. (1996). Morphological cues for lexical semantics. In Proceedings of the 34th Meeting of the Association for Computational Linguistics (ACL), University of California, Santa Cruz, CA, USA. Lignon, S. (1999). Suxasser ou suxailler ? Silexicales, 2, 117126. 2e rencontres du Forum de Morphologie. Actes du colloque de Toulouse. 29-30 avril 1999. Lovins, J. B. (1968). Development of a stemming algorithm. Mechanical translation and computational linguistics, 11, 2231. Lovis, C., Michel, P.-A., Baud, R. & Scherrer, J.-R. (1995). Word segmentation processing: a way to exponentially extend medical dictionaries. In Medical Informatics in Europe (MIE), pp. 2832. te , R. A. (1998). The SNOMED model : Lussier, Y. A., Rothwell, D. J. & Co a knowledge source for the controlled terminology of the computerized patient record. Methods in Informatics and Medicin (MIM), 37, 161164. Lyons, J. (1968). Introduction to theoretical linguistics. Cambridge: Cambridge University Press. 2 vol. Maedche, A. & Staab, S. (2000). Mining ontologies from text. In R. Dieng & O. Corby, Eds., EKAW 2000, Juan les Pins. tze, H. (1999). Foundations of statistical natural language Manning, C. D. & Schu processing. Cambridge, MA: MIT Press. Manuila, A., Manuila, L., Nicoulin, M. & Lambert, H. (1970). Dictionnaire fran cais de m edicine et de biologie. Paris: Masson et Cie. 3 volumes. Manuila, L., Manuila, A., Lewalle, P. & Nicoulin, M. (2001). Dictionnaire m edical. Paris: Masson. 9e edition. Marcus, A. (2003). Dictionnaires electroniques et hypertextualit e. Analyse critique des renvois doubles du Grand Robert. M emoire de DESS, CRIM/INaLCO. Sous la direction de David Piotrovsky. McCray, A. T., Srinivasan, S. & Browne, A. C. (1994). Lexical methods for managing variation in biomedical terminologies. In Proceedings of the Annual SCAMC, pp. 235239. uk, I. (1993). Cours de morphologie g Melc en erale. Premi` ere partie : Le mot. Montr eal: Presses Universitaires de Montr eal - CNRS Editions. uk, I. (1996). Cours de morphologie g Melc en erale. Troisi` eme partie : Moyens morphologiques. Quatri` eme partie : Syntactiques morphologiques. Montr eal: Presses Universitaires de Montr eal - CNRS Editions. 184

BIBLIOGRAPHIE

Mertens, P. (1999). Un algorithme pour la g en eration de lintonation dans la parole de synth` ese. In P. Amsili, Ed., Traitement Automatique des Langues Naturelles (TALN), pp. 233242, Carg` ese. Meunier, F. (2003). La notion de productivit e morphologique : mod` eles psycholinguistiques et donn ees exp erimentales. Langue fran caise, 140, 2437. Meunier, L. F. (1872). Etude sur les compos es syntactiques en grec. Paris: A. Durand and Pedone Lauriel. Montemagni, S. & Vanderwende, L. (1992). Structural patterns vs. string patterns for extracting semantic information from dictionnaries. In International Conference on Computational Linguistics (COLING), pp. 546552, Nantes. Morin, E. (1999). Acquisition de patrons lexico-syntaxiques caract eristiques dune relation s emantique. Traitement Automatique des Langues (TAL), 40(1), 143166. M elis-Puchulu, A. (1991). Lexique, 10, 3360. Les adjectifs d enominaux : les adjectifs de relation.

Namer, F. (1999). Traitement automatique de la d erivation : le cas des noms et adjectifs en -et(te) . Silexicales, 2. Namer, F. (2000). FLEMM : un analyseur exionnel du fran cais a ` base de r` egles. Traitement Automatique des Langues (TAL), 41(2), 523547. Namer, F. (2002). Acquisition automatique de sens a ` partir dop erations morphologiques en fran cais : etude de cas. In Traitement Automatique de la Langue Naturelle (TALN), pp. 235244, Nancy. Namer, F. (2003a). Les mots compos es morphologiquement. Note technique faite dans le cadre du projet UMLF, LANDISCO, Universit e Nancy 2. Namer, F. (2003b). Productivit e morphologique, repr esentativit e et complexit e de la base : le syst` eme MoQu ete. Langue fran caise, 140, 79101. Namer, F. & Zweigenbaum, P. (2004). Acquiring meaning for French medical terminology: contribution of morphosemantics. In Annual Symposium of the American Medical Informatics Association (AMIA), San-Francisco. Nazarenko, A., Zweigenbaum, P., Habert, B. & Bouaud, J. (2001). Corpusbased extension of a terminological semantic lexicon. In Recent Advances in Computational Terminology, pp. 327351. John Benjamins. Nelson, S. J., Johnston, D. & Humphreys, B. L. (2001). Relationships in Medical Subject Headings. In C. A. Bean & R. Green, Eds., Relationships in the organization of knowledge, pp. 171184, New York: Kluwer Academic Publishers. NLM (2001). Medical Subject Headings. National Library of Medicine, Bethesda, Maryland. http://www.nlm.nih.gov/mesh/meshhome.html. NLM (2003). UMLS Knowledge Sources Manual. National Library of Medicine, Bethesda, Maryland. www.nlm.nih.gov/research/umls/. 185

BIBLIOGRAPHIE

N ev eol, A. (2004). Indexation automatique de ressources de sant ea ` l?aide d?un vocabulaire contr ol e. In Rencontre des Etudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL), F` es, Maroc. N ev eol, A., Douy` ere, M., Rogozan, A. & Darmoni, S. J. (2004). Construction de ressources terminologiques en sant e pour un syst` eme d?indexation automatique. In Journ ees INTEX/NOOJ 2004, Tours, France. OMS (1995). Classication statistique internationale des maladies et des probl` emes de sant e connexes Dixi` eme r evision. Organisation mondiale de la Sant e, Gen` eve. Pacak, M. G., Norton, L. M. & Dunham, G. S. (1980). Morphosemantic analysis of -itis forms in medical language. Methods in Medical Informatics (MIM), 19(2), 99105. Pascal, B. (1662). Pens ees. Livre de poche de la Librairie g en erale fran caise. Edition consult ee : 1962. Pearson, J. (1998). Terms in Context, volume 1 of Studies in Corpus Linguistics. Amsterdam/Philadelphia: John Benjamins. Pentheroudakis, J. & Vanderwende, L. (1993). Automatically identifying morphological relations in machine-readable dictionaries. In Ninth annual confenrence of the UW Center for the New OED an d Text Research, pp. 114131. Pirrelli, V. & Yvon, F. (1999). The hidden dimension: a paradigmatic view of datadriven NLP. JETAI, 11, 391408. Pl enat, M. (2001). Jean-Louis Fossat : fossatissime. Note sur la morphophonologie des d eriv es en -issime . Cahier d etudes romanes, 10. Hommage a ` Jean-Louis Fossat. Pl enat, M. & Roch e, M. (2001a). Entre morphologie et phonologie : la suxation d ecal ee. Lexique, 16. Pl enat, M. & Roch e, M. (2001b). Prosodic constraints on suxation in French. In J. DeCesaris, Ed., Selected papers from the Third Mediterranean Morphological Meeting, Barcelona, Espagne. Popovic, M. & Willett, P. (1992). The eectiveness of stemming for natural-language access to Slovene textual data. Journal of the American Society of Information Science (JASIS), 43(5), 384390. Porter, M. (1980). An algorithm for sux stripping. Program, 14(3), 130137. Porter, M. (2001). Snowball: a language for stemming algorithms. Technical report. Disponible a ` http://snowball.tartarus.org/texts/introduction.html. Visit e le 5/09/2003. Pouliquen, B., Delamarre, D. & Le Beux, P. (2002). Indexation de textes m edicaux par extraction de concepts, et ses utilisations. In Journ ees de traitement automatique des donn ees textuelles (JADT), pp. 617628. Riegel, M., Pellat, J.-C. & Rioul, P. (1998). Grammaire m ethodique du fran cais. Paris: PUF. 186

BIBLIOGRAPHIE

Rillof, E. (1995). Little words can make a big dierence for text classication. In SIGIR, pp. 130136, Seattle, Washingthon. Robert (1993). Le nouveau petit Robert. Paris: Dictionnaires Le Robert. Savoy, J. (2002). Morphologie et recherche dinformation. Cahier de recherche en informatique CR-I-2002-01, Universit e de Neuchatel, Division economique et sociale, Facult e de Droit et des Sciences Economiques. Scalise, S. (1994). Morfologia. Bologna: Il Mulino. Schmid, H. (1994). Probabilistic part-of-speech tagging using decision trees. In Proceedings of the International Conference on New Methods in Language Processing, pp. 4449, Manchester, UK. Schone, P. & Jurafsky, D. (2001). Knowledge-free induction of inectional morphologies. In Workshop NA de ACL. Schultink, H. (1961). Produktiviteit als morfologisch fenomeen. Forum der Letteren, 2, 110125. Schultink, H. (1962). De morfologische valentie van het ongelede adjectief in modern Nederlands [The morphological valency of the simplex adjective in modern Dutch]. The Hague: Van Goor and Zonen. Schulz, S., Romacker, M., Franz, P., Zaiss, A., Klar, R. & Hahn, U. (1999). Towards a multilingual morpheme thesaurus for medical free-text retrieval. In Medical Informatics in Europe (MIE). Silberztein, M. (1993). Dictionnaires electroniques et analyse automatique de textes. Le syst` eme INTEX. Paris: Masson. Silverstein, C., Henzinger, M., Marais, H. & Moricz, M. (1998). Analysis of a Very Large AltaVista Query Log. Technical report, Digital systems research center. Disponible a ` http://citeseer.nj.nec.com/silverstein98analysis.html. Visit e le 08/02/2002. Simard, M. (1998). Automatic insertion of accents in French text. In 3rd Conference on Empirical Methods in Natural Language processing, Grenade. Sinclair, J. (1994). EAGLES. Corpus typology. Technical report, EAG-CWG-IR-2. Disponible a ` http://www.ilc.pi.cnr.it/EAGLES96/. Visit e le 02/03/2003. SNOP (1965). Systematized Nomenclature of Pathology. College of American Patholo gists, University of Chicago, Etats-Unis, Illinois. Soualmia, L. F. & Darmoni, S. J. (2004). Combining dierent standards and dierent approches for health information retrieval in a quality-controlled gateway. International Journal of Medical Informatics (IJMI). Spackman, K. & Campbell, K. (1998). Compositional concept representation using SNOMED: Towards further convergence of clinical terminologies. In Journal of American Medical Informatics Association (JAMIA), pp. 740744. 187

BIBLIOGRAPHIE

Spackman, K. A. & Hersh, W. R. (1996). Recognizing noun phrases in medical discharge summaries: an evaluation of two natural language parsers. In Annual Symposium of American Medical Informatics Association (AMIA), pp. 155158. `ze, M. (1997). R Spriet, T. & El-Be eaccentuation automatique de textes. In FRACTAL, Besan con. Spyns, P. (1994). A robust category guesser for Dutch medical language. In Proceedings of ANLP 94 (ACL), pp. 150155. ela, P. & Aussenac-Gilles, N. (1999). Extraction de relations s emantiques egu S entre termes et enrichissement de mod` eles du domaine. In Actes dIng enierie des Connaissances (IC), pp. 7988, Palaiseau, France. Tanguy, L. & Hathout, N. (2002). Webax : un outil dacquisition morphologique d erivationnelle a ` partir du web. In Traitement Automatique des Langues Naturelles (TALN), pp. 245254, Nancy. Theron, P. & Cloete, I. (1997). Automatic acquisition of two-level morphological rules. In ANLP, pp. 103110. TLFi (2001). Tr esor de la Langue Fran caise - I. INaLF/ATILF. Disponible a ` ladresse www.tlfi.fr. Toussaint, Y. & Simon, A. (2000). Building and interpreting term dependencies using association rules extracted from Galois lattices. In Recherche dInformation Assist ee par Ordinateur (RIAO), pp. 16861692, Paris. Turner, J. (1995). Comparing user-assigned terms with indexer-assigned terms for storage and retrieval of moving images : research results. In Meeting of American Society of Indexers, pp. 210. Urrea, A. M. (2000). Automatic discovery of axes by means of a corpus : a catalog of Spanish axes. Journal of quantitative linguistics, 7(2), 97114. Valette, M. & Grabar, N. (2004). Caract erisation de textes a ` contenus id eologiques : statistique textuelle ou extraction de syntagme ? Lexemple du projet PRINCIP. In Journ ees de traitement automatique des donn ees textuelles (JADT), Li` ege, Belgique. van den Bosch, A., Daelemans, W. & Weijters, T. (1996). Morphological analysis as classication: an inductive-learning approach. In International Conference on Computational Linguistics (COLING). Van Marle, J. (1991). The relationship bertween morphological productivity and frequency: a comment on Baayens performance-oriented conception of morphological productivity. In G. Booij & J. Van Marle, Eds., Yearbook of Morphology, pp. 151163, Netherlands: Kluwer Academic Publishers. Viegas, E., Gonzales, M. & Longwell, J. (1996). Morpho-semantics and constructive derivational morphology: A transcategorical approach. In Memoranda in Computer and Cognitive Science. Disponible a ` http://crl.nmsu.edu/Research/Projects/mikro/ htmls/misc-htmls/mikro-pub.%html. Visit e le 17/08/99. 188

BIBLIOGRAPHIE

Villoing, F. (2002). Les mots compos es [V N ]N/A du fran cais : r eexions epist emologiques et propositions danalyse. Th` ese de doctorat, Universit e de Paris X Nanterre, Paris. Discipline : Sciences du langage. Wang, A. Y., Barrett, J. W., Bentley, T., Markwell, D., Price, C., Spackman, K. A. & Stearns, M. Q. (2001). Mapping between SNOMED RT and Clinical Terms version 3: a key component of the SNOMED CT development process. In Annual Symposium of the American Medical Informatics Association (AMIA), Washington. Wimmer, G. & Altmann, G. (1995). A model of morphological productivity. Journal of quantitative linguistics, 2(3), 212216. Wolff, S. (1987). Automatic coding of medical vocabulary. In N. Sager, C. Friedman & M. S. Lyman, Eds., Medical Language Processing. Computer Management of Narrative Data, chapter 7, pp. 145162. New-York: Addison-Wesley. Xu, J. & Croft, B. W. (1998). Corpus-based stemming using co-occurrence of word variants. ACM Transactions on Information Systems, 16(1), 6181. Zwanenburg, W. (1991). D ependances et hi erarchies en morphologie lexicale. LInformation grammaticale, 50, 3842. Zweigenbaum, P. (1999). Encoder linformation m edicale : des terminologies aux syst` emes de repr esentation des connaissances. Information de Sant e Innovation Strat egie (ISIS), 2(3), 2747. Zweigenbaum, P. (2004). LUMLS entre langue et ontologie : une approche pragmatique. Revue dintelligence articielle (RIA), 18. Zweigenbaum, P., Bachimont, B., Bouaud, J., Charlet, J., Ben Sa d, M., Boisvieux, J.-F., Dujols, P., Fieschi, M., Volot, F., Beux, P. L., Delamarre, D., Burgun, A., Keane, M. T., Nangle, B., Flinter, S., McAllister, B., Mc Namara, S., Johnston, R., McDermott, M., OSullivan, K., Willems, J. L., Spyns, P., Ogonowski, A., Guillotin, T., Fargues, J., Landau, M.-C., Bradea, A., Moens, M., Whittemore, G., Grover, C. & Mikheev, A. (1995). Menelas Final Report. Deliverable report AIM-Menelas 17, DIAM-SIM/INSERM U.194. Zweigenbaum, P., Baud, R., Burgun, A., Namer, F., Eric Jarrousse, Grabar, N., Ruch, P., Duff, F. L., Thirion, B. & Darmoni, S. (2003a). Towards a Unied Medical Lexicon for French. In Medical Informatics in Europe (MIE). Zweigenbaum, P. & Grabar, N. (1999). A contribution of medical terminology to medical language processing resources: Experiments in morphological knowledge acquisition from thesauri. In Work Group 6 of IMIA, pp. 155167. Zweigenbaum, P. & Grabar, N. (2000). Liens morphologiques et structuration de terminologie. In Ing enierie des connaissances (IC), pp. 325334. Zweigenbaum, P. & Grabar, N. (2002a). Accentuation de mots inconnus : application au thesaurus biom edical MeSH. In Ttraitement Automatique des Langues Naturelles (TALN), pp. 5362. 189

BIBLIOGRAPHIE

Zweigenbaum, P. & Grabar, N. (2002b). Restoring accents in unknown biomedical words: application to the French MeSH thesaurus. International Journal of Medical Informatics (IJMI), pp. 113126. Zweigenbaum, P., Grabar, N. & Darmoni, S. J. (2001). Lapport de connaissances morphologiques pour la projection de requ etes sur une terminologie normalis ee. In Traitement Automatique des Langues Naturelles (TALN), pp. 403408. Zweigenbaum, P., Grabar, N. & Darmoni, S. J. (2002). Projection de requ etes en langue naturelle sur les termes du MeSH : lapport de connaissances morphologiques. In INFSANT 2002, pp. 5562. Zweigenbaum, P., Hadouche, F. & Grabar, N. (2003b). Apprentissage de relations morphologiques en corpus. In Traitement Automatique des Langues Naturelles (TALN).

190

Annexe A Acquisition de ressources morphologiques ` a partir de terminologies structur ees


A.1
A.1.1
Fran cais
A-00100 : dispositif, SAI ; appareil, SAI A-38100 : dispositif de protection, SAI ; appareil de protection, SAI C-10092 : produit chimique organique, SAI ; compos e organique, SAI C-20070 : emanations chimiques, SAI ; vapeurs chimiques, SAI C-20821 : chloroforme ; trichlorm ethane D0-10430 : pemphigo de, SAI ; pemphigus b enin, SAI D0-90150 : panniculite f ebrile nodulaire r ecidivante non suppur ee ; maladie de Weber-Christian D2-02400 : polype nasal, SAI ; polype de la cavit e nasale, SAI D2-53140 : amiantose ; asbestose D2-60100 : syndrome de d etresse respiratoire de ladulte, SAI ; SDRA D3-81670 : ang eite allergique ; vasculite leucocytoclastique D4-85150 : absence cong enitale de l epith elium germinal des testicules ; aplasie germinale des testicules D5-34300 : ulc` ere peptique, SAI ; ulc` ere gastro-duod enal, SAI D5-80700 : cirrhose biliaire ; cirrhose cholestatique ; angiocholite chronique non suppur ee D6-11110 : ob esit e constitutionnelle ; ob esit e familiale D6-34750 : pseudo-goutte, SAI ; chondrocalcinose articulaire idiopathique ; chondrocalcinose articulaire due aux cristaux de pyrophosphate D6-50430 : glycog enose de type VII ; maladie de Tarui D6-60210 : ab etalipoprot ein emie ; maladie de BassenKornzweig D6-70232 : mucopolysaccharidose, MPS-III-B ; maladie de Sanlippo de type B ; d ecit en alpha-Nac etylglucosaminidase D6-72760 : d ecit en triacylglyc erol lipase pancr eatique ; absence cong enitale de la lipase pancr eatique D6-76130 : maladie de Tay-Sachs ; d ecit s ev` ere en hexosaminidase A D6-98300 : diab` ete insipide n ephrog enique h er editaire, SAI ; diab` ete insipide pitresso-r esistant D7-11600 : hypoplasie r enale, SAI ; hypoplasie r enale dorigine inconnue D7-12434 : n ephrite tubulo-interstitielle fongique aigu e ; n.t.i. fongique aigu e D7-23570 : prolapsus de lur` etre ; ur etroc` ele D7-71460 : pyom` etre ; pyom etrie D8-00110 : grossesse molaire, SAI ; m ole de grossesse, SAI D9-13100 : anorexie mentale ; anorexie psychog` ene DB-02110 : ad enomatose pluri-endocrinienne, type 1 : syndrome de Wermer DC-11440 : aplasie chronique constitutionnelle isol ee de la lign ee rouge ; an emie de Blackfan-Diamond DC-38000 : polyglobulie, SAI ; polyglobulie secondaire, SAI DE-12100 : granulome inguinal ; granulome v en erien DE-40000 : mycose, SAI ; maladie dorigine mycosique, SAI DE-69240 : infection ` a Filaria ozzardi ; infection ` a Mansonella ozzardi F-06100 : etat post-vaccination ; etat post-inoculation F-32320 : shunt, SAI ; d erivation, SAI

Apprentissage ` a partir de s eries de synonymes


Extrait des s eries de synonymes du R epertoire danatomopathologie (196 s eries sur 2 344)

191

` PARTIR DE TERMINOLOGIES ANNEXE A. ACQUISITION DE RESSOURCES MORPHOLOGIQUES A STRUCTUREES

F-58605 : v esicule biliaire non fonctionnelle ; absence de fonction de la v esicule biliaire ; v esicule biliaire exclue F-65830 : acide uridylique ; uridine-monophosphate F-81170 : m enorragie ; hyperm enorrh ee F-C0B00 : chimiotactisme, SAI ; chimiotaxie, SAI F-D0105 : arr et de la maturation erythrocytaire ; arr et de la maturation erythro de G-0008 : pas dant ec edents de ; aucun ant ec edent de G-1010 : diagnostic clinique ; dx clinique G-4004 : etat post ; apr` es G-7170 : p eriode d enie ; p eriode limit ee G-A213 : in egal ; in egalit e de G-A358 : fasciculaire ; fascicul e G-A417 : local ; localis e ; topique ; r egion limit ee G-A506 : ` a r ep eter ; r ep et e G-A617 : epais ; epaissi G-C001 : d u` a ; caus e par G-D820 : isogree ; gree isog enique ; gree syng enique J-00000 : profession, SAI ; m etier, SAI ; travail, SAI L-25116 : Streptococcus pneumoniae ; Diplococcus pneumoniae ; pneumocoque L-36212 : virus de lherp` es simplex, type 2 : HSV-2 L-55841 : Necator americanus ; ankylostome des Am eriques L-58050 : tr ematode du foie, SAI ; douve du foie, SAI M-01000 : anomalie morphologique, SAI ; modication morphologique, SAI ; changement morphologique, SAI ; aspect tissulaire anormal, SAI M-01530 : fusion, SAI ; fusionn e M-02501 : variante normale de la taille ; variante normale du volume M-03000 : masse, SAI ; bosse, SAI ; masse localis ee, SAI M-05150 : d edoublement ; duplication ; d edoubl e ; dupliqu e M-09030 : art efact, SAI ; art efact morphologique, SAI M-11100 : br ulure, SAI ; l esion par br ulure, SAI ; br ulure thermique ; br ul e M-12590 : pseudarthrose, SAI ; n earthrose ; n eoarthrose M-14100 : plaie p en etrante ; plaie perforante ; perforation traumatique M-17010 : amputation par traumatisme ; formation anatomique amput ee par traumatisme M-20700 : communication anormale cong enitale, SAI ; lien anormal cong enital, SAI ; insertion anormale cong enitale, SAI M-22170 : prolapsus cong enital, SAI ; ptose cong enitale, SAI M-26360 : vestige du canal de M uller ; vestige du canal param eson ephrique ; hydatide sessile de Morgagni M-30040 : calcul urique ; calcul uratique M-31050 : prolapsus ; d eplacement inf erieur ; d eplacement caudal ; ptose ; procidence ; d eplacement vers le bas M-32360 : an evrisme cylindrique ; an evrisme tubulaire M-33152 : com edon ` a follicule ferm e ; point blanc M-33780 : kyste chyleux ; kyste lymphatique ; chyloc` ele M-35120 : thrombus non occlusif ; thrombus annulaire ; thrombose partielle M-36410 : spongiose ; oed` eme p ericellulaire de l epiderme M-37004 : h emorragie massive ; saignement massif M-38350 : ulc` ere superciel ; erosion ; ulc eration supercielle M-40200 : inammation s ereuse, SAI ; transsudat inammatoire, SAI M-41300 : inammation brineuse aigu e, SAI ; inammation s ero-brineuse aigu e, SAI M-42000 : inammation subaigu e, SAI ; inammation chronique et aigu e, SAI ; inammation chronique active, SAI ; inltration inammatoire subaigu e, SAI M-43610 : abc` es chronique ; abc` es froid

M-44710 : granulome bro-cas eeux ; nodule bro-cas eeux M-50062 : corps hyalins ; drusen M-50560 : d eg en erescence spongieuse ; changement spongieux ; status spongiosus M-52200 : art erioloscl erose, SAI ; art erioloscl ereux M-54370 : carnication ; carnisation M-54810 : infarctus limitrophe ; infarctus de la zone vascularis ee limitrophe ; infarctus de la zone art erielle limitrophe M-55880 : d ep ot dor ; chrysopexie M-57560 : neurones min eralis es ; neurones incrust es M-58130 : atrophie neuropathique ; atrophie neurale ; atrophie n evritique M-61110 : aneuplo die, SAI ; modication du nombre de chromosomes, SAI M-63300 : macrocyte ; m egalocyte ; macrocytose M-67000 : atypie cellulaire, SAI ; pr esence de cellules atypiques, SAI M-67210 : macronucl eus ; caryom egalie M-69060 : r eaction osmiophile ; osmiophilie ; osmiophile M-71090 : pseudo-hypertrophie ; fausse hypertrophie M-72100 : hyperplasie lobulaire ; hyperplasie multilobulaire M-72920 : k eratose invers ee ; k eratose folliculaire invers ee M-74320 : maladie brokystique, SAI ; maladie brokystique non prolif erative M-75560 : naevus vasculaire ; hamartome vasculaire, SAI M-76810 : polype bro- epith elial ; papillome bro- epith elial ; polype breux ; acrochordon M-78172 : nodules de la microglie ; nodules n evrogliques M-79370 : endom` etre atrophique ; endom` etre postm enopausique ; endom` etre s enile ; endom` etre m enopausique M-80102 : carcinome in situ, SAI ; carcinome intra- epith elial, SAI ; carcinome non invasif, SAI M-80702 : carcinome epidermo de in situ, SAI ; carcinome epidermo de non-invasif, SAI ; carcinome intra- epidermique, SAI ; carcinome epidermo de intra- epith elial ; carcinome spinocellulaire intra- epith elial ; carcinome spinocellulaire in situ, SAI M-80823 : carcinome lympho- epith elial ; lympho- epith eliome ; carcinome nasopharyng e ; tumeur de Regaud ; tumeur de Schminke M-81201 : papillome excr eto-urinaire ; papillome de la vessie ; papillome uroth elial M-81453 : carcinome de type dius ; ad enocarcinome de type dius M-81700 : h epatome b enin ; ad enome solitaire du foie ; ad enome h epatocellulaire ; ad enome ` a cellules h epatiques M-82210 : polypose multiple ; polypes ad enomateux multiples M-82630 : ad enome tubulovilleux, SAI ; ad enome tubulopapillaire M-83130 : ad enobrome ` a cellules claires ; cystad enobrome a cellules claires ` M-83601 : ad enomatose endocrinienne multiple ; polyad enomatose endocrine M-83900 : ad enome des annexes cutan ees ; tumeur des annexes cutan ees ; tumeur annexielle M-84503 : cystad enocarcinome papillaire, SAI ; ad enocarcinome papillokystique M-84813 : ad enocarcinome mucipare ; carcinome mucipare ; ad enocarcinome mucos ecr etant ; carcinome mucos ecr etant M-85050 : papillomatose intracanalaire diuse ; papillomatose intracanalaire, SAI M-85603 : carcinome glandulaire et malpighien ; carcinome mixte glandulaire et spinocellulaire ; carcinome mixte glandulaire et epidermo de M-86203 : tumeur maligne de la granulosa ; carcinome de la

192

` PARTIR DE SERIES A.1. APPRENTISSAGE A DE SYNONYMES

granulosa ; carcinome ` a cellules de la granulosa ; folliculome malin M-86600 : tumeur ` a cellules du hile ; tumeur des cellules hilaires ; tumeur ` a cellules de Berger M-87203 : m elanome malin, SAI ; m elanocarcinome ; naevocarcinome ; m elanosarcome, SAI ; m elanome, SAI M-87453 : m elanome malin desmoplasique ; m elanome malin neurotropique M-88003 : sarcome, SAI ; tumeur maligne des parties molles ; tumeur m esenchymateuse maligne ; sarcome des tissus mous M-88211 : brome envahissant ; tumeur desmo de extraabdominale ; tumeur desmo de, SAI ; brome desmo de M-88523 : liposarcome myxo de ; myxoliposarcome M-89311 : endom etriose cytog` ene ; myose stromale endolymphatique ; endom etriose stromale ; myose stromale, SAI M-90000 : tumeur de Brenner solide ; tumeur de Brenner, SAI ; tumeur de Brenner kystique M-90503 : m esoth eliome malin ; m esoth eliome, SAI M-90800 : t eratome b enin ; t eratome adulte, SAI ; t eratome adulte kystique, SAI ; dysembryome adulte M-91200 : h emangiome, SAI ; angiome, SAI ; angiochoriome M-91803 : ost eosarcome, SAI ; sarcome ost eog enique ; ost eochondrosarcome ; sarcome squelettog` ene ; sarcome ost eoblastique M-92511 : tumeur ` a cellules g eantes des parties molles, SAI ; tumeur ` a cellules g eantes des tissus mous, SAI M-93103 : am eloblastome malin ; adamantinome malin (` a lexception du tibia et des os longs M-92613) ; epith elioma adamantin M-93841 : astrocytome sous- ependymaire ` a cellules g eantes ; astrocytome sous- ependymaire ` a grosses cellules fusiformes M-95003 : neuroblastome, SAI ; sympathoblastome M-95350 : m eningiome angioblastique ; m eningiome h emangioblastique M-95903 : lymphome malin, SAI ; lymphome, SAI M-96823 : lymphome malin dius ` a grandes cellules ` a noyaux non encoch es ; lymphome malin ` a grandes cellules ` a noyaux non encoch es M-97013 : maladie de S ezary ; syndrome de S ezary M-97661 : l esion immunoprolif erative angiocentrique ; granulomatose lympho de M-98503 : leuc emie ` a cellules lymphosarcomateuses ; leucosarcomatose M-99403 : leuc emie ` a tricholymphocytes ; leuc emie ` a tricholeucocytes ; tricholeuc emie ; leuc emie ` a cellules chevelues P1-03050 : r esection radicale ; r esection etendue P1-0D000 : transplantation, SAI (acte chirurgical) ; gree, SAI (acte chirurgical) P3-45060 : cytopathologie, r evision des lames et rapport par le m edecin dun sp ecimen dorigine non g enitale ; cytopathologie, r evision de sp ecimen obtenu par lavage bronchioalv eolaire T-01120 : couche claire de l epiderme ; stratum lucidum T-02120 : peau de la face, SAI ; peau du visage, SAI T-04280 : prolongement axillaire du sein ; lobe de Spence du sein T-11085 : os des extr emit es, SAI ; os dun membre, SAI T-1151D : anneau breux p eriph erique du disque intervert ebral, SAI ; anneau breux du disque intervert ebral, SAI T-12380 : os pelviens, SAI ; bassin osseux T-12730 : rotule, SAI ; os du genou, SAI ; rotulien T-15001 : articulation, SAI ; articulaire

T-18950 : apon evrose plantaire, SAI ; fascia plantaire, SAI T-1A310 : glande, SAI ; glandulaire ; glanduloT-21300 : partie interne du nez, SAI ; cavit e nasale T-24470 : commissure du larynx, SAI ; commissure laryng ee, SAI T-28052 : pneumocyte, type 2 : pneumocyte granuleux T-32100 : oreillette, SAI ; oreillette cardiaque ; auriculaire (coeur) T-32411 : cloison auriculo-ventriculaire ; septum atrioventriculaire T-32830 : faisceau auriculo-ventriculaire, SAI ; faisceau de His T-40500 : circulation c er ebrale, SAI ; vaisseaux c er ebraux, SAI T-42340 : crosse aortique en amont du canal art eriel ; r egion pr eligamentaire de la crosse aortique T-44290 : branche basale externe de lart` ere pulmonaire droite ; art` ere lat ero-basale droite T-44460 : branche apicale lobaire inf erieure de lart` ere pulmonaire gauche ; art` ere apicale du lobe inf erieur gauche T-46200 : art` ere thoracique interne, SAI ; art` ere mammaire interne, SAI T-48003 : r eseau veineux, SAI ; plexus veineux, SAI T-49102 : syst` eme veineux profond du membre sup erieur ; veines profondes du membre sup erieur T-49848 : sinus basilaire ; sinus occipital transverse T-51004 : cavit e buccale, SAI ; cavit e orale, SAI T-53001 : corps de la langue ; portion ant erieure de la langue ; deux tiers ant erieurs de la langue T-55300 : hypopharynx, SAI ; laryngopharynx, SAI ; hypopharyng e ; laryngo-pharyng e T-58082 : follicules lympho des agmin es de lintestin gr ele ; plaques de Peyer T-59900 : anus, SAI ; anal ; anoT-62260 : cellule parenchymateuse h epatique ; h epatocyte T-70250 : appareil g enital, SAI ; g enital T-82000 : vagin, SAI ; vaginal ; vaginoT-94000 : testicule, SAI ; gonade masculine, SAI ; testiculaire ; testiculoT-A0421 : macroglie ; macroglial T-A1112 : m eninges c er ebrales, SAI ; m eninges cr aniennes, SAI T-A4000 : thalamus, SAI ; thalamique T-A8020 : nerf olfactif, SAI ; premier nerf cr anien T-A8780 : nerf accessoire, SAI ; onzi` eme nerf cr anien ; nerf spinal T-AA200 : corn ee, SAI ; corn een T-AB320 : membrane du tympan, SAI ; tympan, SAI T-B6050 : cellule parafolliculaire de la glande thyro de ; cellules C T-C1120 : pronormoblaste ; pro erythroblaste T-C1700 : monocyte, SAI ; monocytaire T-C4900 : ganglions lymphatiques du corps dans son entier ; ganglions lymphatiques dans plusieurs territoires ; tous les ganglions T-D0AA0 : sexe f eminin, SAI ; f eminin T-D2700 : p erin ee, SAI ; p erin eal T-D4500 : m esent` ere, SAI ; m esent erique T-E0000 : cellule, SAI ; cellulaire T-F1900 : emplacement de nidation du foetus ; emplacement foeto-maternel ; emplacement du placenta

193

` PARTIR DE TERMINOLOGIES ANNEXE A. ACQUISITION DE RESSOURCES MORPHOLOGIQUES A STRUCTUREES

A.1.2

R` egles (fr equence 5)

Fran cais (153 r` egles sur 567)


1140 |s 290 |e 143 |es 74 e|ique 67 e|aire 64 e|que 60 e|s 55 e|ation 53 x|se 43 l|ux 42 o|al 42 e|o 40 le|ux 40 e|ose 38 o|ite 36 es|aire 36 e|ome 34 |ment 34 f|ve 33 |ne 33 |le 32 e| e 31 me|sarcome 31 e|atose 28 f|on 26 o|aire 23 se|tique 23 on|ve 23 o|ique 23 me|se 23 e|ienne 21 20 20 20 20 20 20 19 19 19 18 18 18 18 18 18 18 18 17 17 17 17 16 16 16 16 15 15 15 14 13 |ux |se ome|ique eux|ose e|ques ee|ation e|ale |use e|ant e|al t|ce s|ne me| de me|blastome f|ves es|ose es|ome e|ement x|ses |me e| ee e|ateux ose|euse es|que e|ien e|ie ose|aire |les e|o de e|it e se| de 13 ome|aire 13 nt|tion 13 al|um 12 e|ateuse 11 o|um 11 ose|ique 11 nte|tion 11 de|sarcome 11 e|urie 11 |ement 11 al|ome 10 |ur 10 o|eux 10 e|ure 10 e|es 10 e|ant 9 s|ux 9 o| e 9 |o 9 |nelle 9 |nel 9 |n 9 me|brome 9 me|blastique 9 |ion 9 eux|aire 9 e|ion 9 e|aire 9 | e 9 |al 8 us|ale 8 te|enne 8 sarcome|blastome 8 sarcome|blastique 8 me|lipome 8 matose|blastome 8 |l 8 ite|ose 8 ite|opathie 8 ire|tion 8 ique|o de 8 |ique 8 de|mateuse 8 e|ocyte 8 e|isation 8 e|ante 8 ale|ome 8 |aire 8 a|e 7 |x 7 que|sme 7 ome|ales 7 |ome 7 o|ien 7 me|carcinome 7 ion|oire 7 euse|o de 7 es|o de 7 e|cation 7 cytome|blastome 6 us|ique 6 se|pathie 6 se|matose 6 o|us 6 |is e 6 de|blastique 6 eux|o de 6 e| emie 6 e|atique 6 a|o 6 al|us 5 x|g e 5 |virus 5 |ssement 5 ses|tique 5 qu e|cation 5 ome|inique 5 o|ienne 5 |n e 5 me|cytaire 5 le|ilit e 5 |isation 5 ire|ris 5 ion|oires 5 g` ene|sarcome 5 e|yome 5 er|` ere 5` ene| enique 5` eme| emateux 5 e|iase 5 aire|euse

Anglais (747 r` egles sur 3 039)


1285 |s 362 a|us 330 |e 290 |i 281 a|um 243 m|s 225 |a 218 |ing 214 |is 193 |ed 192 |al 188 a|osis 166 us|idae 166 |l 163 |us 155 ed|ing 147 |es 144 a|c 123 |er 123 a|e 120 ed|ion 118 otomy|ectomy 118 a|idae 115 ic|ate 115 |d 113 |y 112 e|us 109 |ic 105 e|is 103 on|ve 103 i|us 101 us|osis 95 |n 94 y|ic 93 |um 93 al|um 91 sis|tic 91 er|ing 91 e|ing 87 al|us 85 |r 83 |ly 78 e|ase 77 |ase 74 s|ing 69 y|ies 69 68 66 65 63 61 61 60 60 59 59 58 58 57 57 56 53 52 52 51 51 51 50 |ia |ii ectomy|oplasty ng|on e|ic o|al a|s or|ion e|um |osis es|is s|al |ectomy plasty|rrhaphy al|ectomy |ta d|s ed|ation a|o idae|osis al|otomy al|itis dae|formes 49 48 48 47 47 46 46 46 46 45 45 45 45 44 44 44 44 44 44 44 44 43 42 um|osis |plasty |shes emia|aemia |ae |transferase e|osis e|al |ceae o|ectomy |ness |ity e|l y|ia |t s|dae |ine ic|us ic|osis |ensis e|ion es|osis s|t 42 41 41 41 40 40 40 40 39 39 39 39 39 39 39 37 37 37 37 37 37 37 36 |sis tomy|stomy m|phy c|s us|ion |in |head a|ed |otomy |o |ne ion|ory e|y e|ity al|oplasty |na |itis |idae i|al ectomy|ostomy a|ous a|ectomy t|ce

194

` PARTIR DE SERIES A.1. APPRENTISSAGE A DE SYNONYMES

36 36 35 35 34 34 34 34 33 33 33 33 32 32 32 32 32 32 31 31 31 31 31 31 30 30 30 29 29 29 29 29 29 29 28 28 28 28 28 28 28 28 28 28 28 28 28 27 27 27 27 27 27 26 26 26 26 26 26 26 26 26 26 26 26

es|ing ed|us |tosis |ate se|te i|um ic|yl c|n s|ic osis|iasis |ers al|ostomy yl|ate ma|sis itis|opathy ic|ectomy ia|us es|ic |x s|us |ism c|sm a|ic a|es ing|ation |ation a|itis |ted |te s|osis itis|osis |ian ed|ive a|otomy y|ing us|ectomy s|y o|um o|ic nt|tion |ion ic|ase exy|lasty e|uria es|idae c|tis asis|osis y|us |yl |virus stomy|rrhaphy ic|ostomy a|is ve|ons us|ine um|ectomy |tion |tic |oma l|tion emia|uria e|i ed|ions al|osis al|is

26 25 25 25 25 25 25 24 24 24 24 24 24 24 24 24 23 23 23 23 23 23 23 23 23 23 22 22 22 22 22 22 22 22 21 21 21 21 21 21 21 21 21 20 20 20 20 20 20 20 20 20 20 20 19 19 19 19 19 19 19 19 19 18 18

a|ensis |tous sa|us |less |ization es|us |alis s|ne |ry n|s e|o e|ar ea|oea copy|tomy al|ed a|iasis um|otomy |tis s|um o|us ng|ve |ella |ctomy ar|us ar|ectomy a|ia |tidae s|tis ol|yl |mia l|ta i|s ar|itis al|oma yl|ine us|oides |ns ma|sarcoma id|ma ic|oma |ica |ene al|es y|ed us|sis us|ation us|ate |uria o|is le|ular i|ar e|in |ata |an us|otomy um|idae |ous l|ne in|ate ic|oid e|ae c|st |ated |weed us|ing

18 18 18 18 18 18 18 18 18 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15

se|tion l|te |h e|ta e|r e|ation a|oplasty al|ic ae|osis us|sus tomy|centesis |se oma|itis |ol |line |ive is|ate i|oplasty in|um ic|ous |emia |ea a|sm a|on a|n ae|otomy ae|itis yl|ase us|ous us|oplasty um|ate sis|tomy s|idae se|kinase or|ing ns|ting e|ium eal|itis de|ne c|um |ar a|oma a|ity a|ca us|ism us|inus us|aceae um|ation um|ata t|cy s|ty sis|pathy sis|idea s|ectomy osis|ectomy |oid o|ar |ized is|osis |ina |icum ic|oplasty |gia |gen e|yl

15 15 15 15 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 13 13 13 13 13 13 13 13 13 13 13 13 13 13 13 13 13 13 13 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12

emic|aemia e|ine c|ne algia|odynia y|is us|sum us|iformes um|oplasty um|aceae ta|lis s|less sis|lysis s|ctomy |phosphate |m l|s is|ectomy in|osis id|tomy e|yltransferase e|otomy cyte|blast ase|osis a|oid al|oscopy a|ella |water um|tis tomy|lithotomy s|ia ria|tus ne|dae ma|blastoma |lla is|eal in|ase ia|tic e|idae c|as ar|es a|oses a|oidea al|opexy al|ography a|cus us|iasis us|alis s|otomy sis|genic s|dis s|asis |oplasty |nic ne|dine is|otomy id|us ic|on ic|amide ic|aldehyde |form |eus es|otomy es|itis e|ive d|ment

12 |ary 12 ar|osa 12 an|ca 12 al|tis 12 alis|itis 12 a|ida 12 |aceae 11 ty|zation 11 sis|tica 11 sia|tic 11 o|s 11 ol|ine 11 o|ine 11 |nidae 11 l|n 11 itis|odynia 11 i|osis 11 i|oid 11 ia|osis 11 |foot 11 e|ia 11 d|l 11 a|tis 11 ate|ine 11 asis|idae 11 ase|ine 11 a|orrhaphy 11 a|opsis 11 an|um 11 an|ensis 11 al|osus 10 us|ostomy 10 us|inae 10 uria|aemia 10 um|ous 10 stomy|lithotomy 10 stomy|cutaneous 10 s|ng 10 |si 10 s|ation 10 |ral 10 |orum 10 o|ation 10 l|r 10 le|ularis 10 les|ular 10 le|ility 10 |lar 10 itis|opathies 10 |eum 10 e|rum 10 e|oid 10 |ening 10 |cyte 10 |atic 10 ate|okinase 10 ase|uria 10 ar|um 10 an|us 10 al|ine 10 al|ctomy 9 us|ida 9 um|ary 9 |ty 9 stomy|centesis

195

` PARTIR DE TERMINOLOGIES ANNEXE A. ACQUISITION DE RESSOURCES MORPHOLOGIQUES A STRUCTUREES

9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8

s|tic sis|derma s|ca sarcoma|blastoma |sa |ping |phenol |orrhaphy |oides n|us m|tic ma|tic is|oplasty in|oid id|cyte ic|um ic|ography |iasis |ful es|ation e|n emic|aemic e|ism dae|asis c|de ble|tion ar|osis |amide al|ovesical al|opathy al|ogram al|in a|id yl|idase y|ium y|ied x|geal x|cis x|cidae us|orrhaphy us|oidea uria|idase um|ostomy s|tosis stomy|ileostomy s|ion se|ting s|didae s|des ry|tion |pyruvate |phosphotransferase |peptidase |ped os|us |ostomy osis|uria |olysis o|es nt|ting n|tomy n|lysis

8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7

|nal m|phic |lgia |lessness itis|osclerosis ing|ement |iformes i|es id|sa icus|ectomy i|ate ia|os |iae |grass es|ous e|ous emia|aemic e|ii ed|cation ed|atus ed|able e|ated eal|ostomy ca|sm |berry |ating ase|inase a|ostomy a|ography |ans al|one al|oid al|ocele yl|inase yl|ide y|ization y|ius y|al |viridae |viral ve|onal us|ica us|ary um|orrhaphy um|asis stomy|gastrostomy sis|rrhaphy sis|pathies sis|matosis s|form s|cular r|ted |peritoneal ory|ions |opathy ol|ate |ography o|eal |nuclear |nsis ma|broma itis|omyelitis

7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6

is|tic |ish ion|ure ine|amine ic|opathy ic|olithotomy |iana i|an ia|emia e|tion er|ra emia|osis ed|ure ed|ory ed|ment |cytic ce|tial |cal ate|oyl ate|ite ase|transferase ase|ose a|oscopy a|opexy a|ogram ant|ive al|ous al|odynia al|ocentesis ae|ous yl|ium y|iness y|ii y|ial y|ectomy x|gitis us|sal us|ian us|ase um|opexy tomy|myotomy |stone s|tes s|pox s|ous s|le se|tase |serine s|daceae s|da s|cle r|tum plasia|trophy |out osis|atidae |oscopy |ocyte n|tic n|sis n|de |nase le|ulectomy

6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5

ium|osis i|osa ion|ation ion|able |io |inum in|ol ine|ylic ide|omethane id|blastoma ic|ol ia|otomy |ial |ette e|ry er|ridae ectomy|oduodenal ea|us ded|sion cytic|blastic |cysteine |ations ate|ectomy ary|ectomy ar|opathy a|olysis |amphetamine a|d y|ous yl|oyl yl|one yl|oid y|ism y|ie y|eutic y|as xillary|ndibular x|cal us|sitis us|oscopy us|opexy us|oenterostomy us|odidae um|oscopy um|orum tis|opathy |snake sm|zation s|lar sis|therapy sis|poiesis sis|matous r|ur |pleural plasty|intestinal pathy|sclerosis pathy|myelitis os|ine on|ectomy |olithotomy ol|ene |ogenic

5 |oenterostomy 5 |ocolic 5 |nut 5 n|rrhaphy 5 ne|sm 5 n|al 5 |mycosis 5 ma|carcinoma 5 lysis|megaly 5 l|rum 5 l|mine 5 le|ulo 5 |led 5 is|orrhaphy 5 in|ene 5 ii|ella 5 |iform 5 |ies 5 |ids 5 ide|oethane 5 ida|oidea 5 ic|ogastrostomy 5 ic|ocyte 5 ic|esis 5 |ianus 5 |hydrolase 5 eum|itis 5 e|ula 5 esthesia|aesthesia 5 |esterase 5 es|iasis 5 e|si 5 ery|ical 5 e|oplasty 5 e|opathy 5 ens|ing 5 emoglobin|aemoglobin 5 eic|oea 5 ed|is 5 d|y 5 cytic|penia 5 c|an 5 |buck 5 |body 5 blastic|sarcoma 5 as|ic 5 ase|izing 5 |arthritis 5 ar|oid 5 a|odynia 5 a|ocele 5 an|ense 5 an|cus 5 al|orum 5 al|on 5 al|ism 5 a|iosis 5 a|iform 5 |aciduria

196

` PARTIR DE SERIES A.1. APPRENTISSAGE A DE SYNONYMES

Russe (205 r` egles sur 834)


460 a |y 243 e| 212 |a 207 a |oe 196 a |o 186 oe|y 140 a |ye 113 o |y 103 a |ogo 98 o|a 97 o|y 96 y |ogo 96 a|y 86 a |i 81 i| 79 |h 74 e|go 73 |go 69 |e 67 e| 62 | 58 |ny 53 oe|ye 53 ie|ny 52 a |yh 51 |ov 51 |na 50 o |ye 50 |y 49 | 49 a|i 40 i| 38 ye|ogo 37 |m 36 |m 35 i |oe 34 |om 32 o|ye 32 |go 32 a|o 32 a|na 30 29 28 27 26 26 25 25 24 24 24 23 22 22 21 20 20 19 19 19 19 19 18 18 18 18 17 16 16 16 16 16 16 16 15 15 15 14 14 14 14 yh|ogo |oz |toz a|ov ma|sarkoma a |ie o |yh i |ny ie|na a|ny aci |irovanny |ovy oe|yh ie|oe z|ma y |ost a|om o|yh i |ogo i|e |e a|ova |noe ma|idna a |ih z|tiqeski |arna ie|ogo |qeski y|ov y|na a |okletoqna |arny |tozny |no |i a |ym oma|al na |nye ma|blastoma a|no 13 |ova 13 |qeska 13 y|al na 12 ka|oqny 12 |al na 12 y|no 12 |tozna 11 oma|arna 11 a |okletoqny 11 z|tiqeska 10 oz|arna 10 |o 10 |kletoqna 10 |l ny 10 ma|fibroma 10 k|qna 10 i | 10 i |na 10 i| 10 e|y 10 y|ny 10 y |okletoqny 10 ym|ogo 10 a|oz 10 a|noe 10 t| 10 t|ci 9 o|al ny 9 k|qny 9 ee| 9 |iqeski 9 v|z 9 |onna 9 |e 9 |al ny 9 |qeskoe 9 y|atoz 9 |al ny 9 sarkoma|blastoma 8 oz|arny 8 na |oma 8 8 8 8 8 8 8 8 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 |kletoqny ma|genna ih|o |onny | a|ovye a| rny ci |tivny o|ny ki|ok ma|lipoma |al na matoz|blastoma i|na ie|nye z|idna i|qeski |iru wi |ny |na y|nye a|ovo al na |oidna |h oma|al nye |ovoe ov|arna ki|oqny my|idna |al ny ma|karcinoma z|matoz |t i|ny e | ik|y ie|y i | noe i | ny |i i|qeskoe 6 6 6 6 6 6 6 6 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 |irovanny |ego |y a|isty a |osti h|mi ci |tivna citoma|blastoma oz|na ok|kovy oma|inova ka|oqno |ma k|qnogo eni |itel na e|ny ie| zi |stiqeski zi |stiqeska i|a it|opati |irovanie |no |no |al noe y|noe y|no y |ny yh|okletoqny yh|okletoqna a|oznoe |ami a|evo a|iqeski a |ny a |ee a| rna t|nt |s cii|tivny |u

A.1.3

Suxes (fr equence 5)

Fran cais (130 suxes sur 447)


1254 -s 1046 -e 268 -es 243 -o 221 - e 212 -aire 169 -me 166 -se 165 -ique 143 -ome 141 -ose 114 -ux 101 -al 99 97 83 81 80 80 79 63 57 56 54 51 51 -que -x - de -f -le -ation -sarcome -eux -ve -on -ite -ne -l 51 50 41 39 38 38 35 35 35 34 34 34 33 -blastome -o de -euse -ale - ee -ant -um -ment -atose -us -tique -ion -cytaire 32 32 31 31 29 24 22 22 22 21 21 21 19 -tion -ienne -ement -blastique -ien -ire -ses -ie -ce -ure -ques -matose -use 18 18 18 17 17 16 16 15 15 14 14 13 13 -ves -t -g` ene -it e -ateux -les -a -nt -carcinome -opathie -isation -ocyte -n 13 13 12 12 11 11 11 10 10 10 10 10 10 -brome - emie -cation -ateuse -urie -scl erose -nte -ur -te -pathie -mateuse -` ene -ante

197

` PARTIR DE TERMINOLOGIES ANNEXE A. ACQUISITION DE RESSOURCES MORPHOLOGIQUES A STRUCTUREES

10 -ales 9 -osarcome 9 -nelle 9 -nel 9 -gliome 9 -cytome 8 -lipome 8 -enne 8 -en

7 7 7 7 7 7 7 7 7

-sme -oire -logique -ielle -` ere -er - enique -cellulaire -atique

7 6 6 6 6 6 6 6 6

-ad enome -ylique -plasie -oblastome -is e -iques -ine -glie -g enique

6 5 5 5 5 5 5 5 5

-endoth eliome -yome -virus -ulaire -ssement -ris -qu e -oires -n e

5 5 5 5 5 5 5 5 5

-mateux -logue -k eratose -inome -inique -ilit e -iforme -iel -iase

5 -gree 5 -g e 5 -` eme 5 - emateux 5 -dermie 5 -chondrosarcome 5 -atif

Anglais (460 suxes sur 2 498)


2484 -s 2247 -a 1970 -us 1696 -e 1233 -al 989 -um 984 -ic 921 -osis 781 -ing 761 -ed 642 -ectomy 613 -y 600 -i 584 -is 531 -es 484 -idae 401 -o 386 -c 367 -l 365 -otomy 364 -ate 361 -ion 348 -itis 335 -sis 319 -m 308 -ase 262 -n 252 -ia 245 -er 227 -yl 225 -on 221 -ar 220 -ation 213 -oplasty 211 -ine 211 -d 210 -tic 166 -in 162 -ve 157 -ous 151 -ne 150 -tomy 150 -r 141 -t 139 -ostomy 138 -ae 131 -tion 130 -x 126 -emia 125 -dae 124 -stomy 124 -id 120 -tis 119 -plasty 119 -ma 117 -uria 113 -oma 110 -ta 110 -se 109 -oid 106 -ity 105 -iasis 102 -ng 102 -an 101 -rrhaphy 95 -le 90 -ii 83 -te 83 -sm 83 -ly 83 -ensis 82 -or 82 -ol 81 -ism 81 -aemia 78 -asis 76 -opathy 76 -ies 75 -ive 73 -transferase 68 -eal 56 -ea 55 -ness 54 -ory 52 -alis 51 -odynia 51 -formes 51 -ella 51 -ary 50 -ca 49 -sarcoma 49 -ctomy 48 -shes 47 -orrhaphy 46 -tosis 46 -ns 46 -ceae 46 -algia 45 -ography 45 -ian 45 -ce 44 -ty 44 43 43 43 42 42 42 41 41 41 41 41 40 39 39 38 38 38 38 37 36 36 36 36 35 35 35 34 33 32 32 32 30 30 30 30 28 28 28 28 28 27 26 26 26 26 26 26 26 24 24 -ry -ted -ene -aceae -sa -ium -cyte -phy -pathy -oidea -ide -de -head -nt -less -na -lysis -ization -as -oscopy -ular -ers -cytic -ata -ting -opexy -ated -oides -ions -virus -kinase -ica -oea -lasty -ida -blastoma -iformes -form -exy -centesis -amide -tidae -tous -os -ons -lithotomy -genic -emic -cal -osa -ial 24 24 23 22 22 21 20 20 20 20 20 20 20 20 19 19 19 19 19 19 19 19 18 18 18 18 17 17 17 17 17 17 17 17 17 17 17 17 16 16 16 16 16 16 15 15 15 15 15 15 15 -gen -copy -mia -idea -h -ral -weed -therapy -orum -ment -idase -ical -cus -blastic -zation -yltransferase -st -ocyte -nic -inus -inae -ac -sia -les -lar -graphy -sus -one -olysis -olithotomy -ogram -ocele -line -inase -gia -en -dystrophy -aemic -oses -lla -icum -eum -cy -atic -tus -si -sclerosis -rum -plasia -otic -megaly 15 15 15 15 14 14 14 14 14 14 14 14 14 14 14 14 14 13 13 13 13 13 13 13 13 13 13 13 13 13 13 12 12 12 12 12 12 12 12 11 11 11 11 11 11 11 11 11 11 11 10 -logic -ized -ina -blast -ure -sum -ria -phosphate -ovesical -osus -osclerosis -mycosis -lis -lgia -iosis -cutaneous -able -ylic -water -tica -sion -ogenic -ocentesis -itic -iform -iae -foot -eus -ening -dine -atidae -peptidase -oyl -opsis -nidae -matosis -dis -ans -aldehyde -proctostomy -ovirus -ospasm -opathies -nal -io -ility -gastrostomy -didae -ations -active -ularis 10 -serine 10 -phosphotransferase 10 -ose 10 -omegaly 10 -okinase 10 -oenterostomy 10 -broma 10 -da 10 -cular 10 -carcinoma 10 -ble 10 -ating 9 -ur 9 -ulo 9 -tropin 9 -tory 9 -surgery 9 -pyruvate 9 -poietic 9 -poiesis 9 -ping 9 -phenol 9 -ped 9 -ovascular 9 -nsis 9 -nase 9 -myotomy 9 -myelitis 9 -mine 9 -matous 9 -ite 9 -icus 9 -ful 9 -ement 9 -des 9 -derma 9 -chalasia 9 -cation 9 -body 9 -berry 9 -atus 9 -atase 9 -amine 8 -ulotomy 8 -ula 8 -rectal 8 -que 8 -pleural 8 -phic 8 -penia

198

` PARTIR DE SERIES A.1. APPRENTISSAGE A DE SYNONYMES

8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 7 7 7 7 7

-orrhea -opelvic -onal -omyotomy -ogenase -ogen -odidae -metry -lessness -ish -ileostomy -ied -ids -grass -geal -ferase -ens -endothelioma -cytosis -cystic -cis -cidae -viridae -viral -vascular -trophy -tial

7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7

-tase -sidase -rrhage -ra -pox -potassemia -peritoneal -pathies -ostenosis -omyelitis -omycosis -odesis -ocolic -nut -nuclear -myoma -izing -ius -intestinal -iana -hydrolase -gram -go -genous -esis -ent -enia

7 7 7 7 7 7 7 7 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6

-emoglobin -eic -ded -cle -cele -ant -amphetamine -aemoglobin -ylyltransferase -ural -ulosis -ulectomy -tum -tes -stone -snake -sal -ridae -out -osity -omethane -ogenesis -ogastrostomy -oduodenal -ocytosis -nae -led

6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 5 5 5 5 5 5

-kokinesia -itase -inum -insic -iness -ile -ie -hin -gitis -ette -edema -desis -dectomy -daceae -cytoma -cysteine -cosis -cephaly -cardiography -arthritis -activity -zing -xillary -ulus -tia -sy -suria

5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5

-sitis -otripsy -otoxin -otherapy -osidase -orenal -opia -ola -oethane -oderma -nts -ndibular -matosa -lysosome -leiomyoma -lalia -kinetic -kinesia -inoma -ianus -globulin -glioma -fer -eutic -esthesia -esterase -ery

5 -ense 5 -emphraxis 5 -dynia 5 -dism 5 -dermatitis 5 -ctic 5 -cotomy 5 -coccus 5 -clasis 5 -chondrosarcoma 5 -chokinesis 5 -chokinesia 5 -cautery 5 -buck 5 -asthenia 5 -arthrosis 5 -aris 5 -anol 5 -aesthesia 5 -aciduria

Russe (167 suxes sur 673)


1464 -a 1011 -y 625 -a 569 536 -oe 486 -e 398 -o 342 -o 335 314 -ogo 313 -ye 279 -y 277 -i 220 -ny 182 -go 181 -na 163 -ie 162 -i 159 -yh 140 -ma 104 -ov 92 -h 91 -z 87 83 -oz 75 -m 63 -oma 61 -al na 60 -e 59 -om 57 56 51 47 45 44 44 40 38 37 36 36 35 34 33 32 30 30 29 29 28 28 28 27 27 26 26 25 -i -sarkoma -idna -arna -al ny -noe -blastoma -irovanny -ka -no -t -ova -k -aci -toz -ih -qeski -no -arny -okletoqny -nye -ci -okletoqna -ym -ovy -tiqeski -iqeski 22 22 22 21 21 20 19 18 16 16 16 15 15 15 15 14 13 13 13 12 12 12 12 12 12 11 11 11 -oqny -matoz -zi -ok -genna -ost -enny -ki -al nye -tozny -tiqeska -kletoqna -karcinoma -qeskoe -citarny -ee -qeska -tivny -fibroma -l ny -blastny -qny -qna -tozna -ozna -itel na -iru wi 11 11 - rna 10 -oidna 10 -ovidny 10 -ocit 10 -plazi 10 -enie 10 -ik 10 -isty 10 -v 10 - ny 10 - rny 10 -al noe 10 -atoz 10 -cii 10 -citoma 10 -citarna 9 -onna 9 -ozny 9 -idny 9 -zii 9 -stiqeski 9 -stiqeska 9 -u 8 -onnoe 8 -onny 8 -ovye 8 -zna 8 8 8 8 8 7 7 7 7 7 7 7 7 7 7 7 6 6 6 6 6 6 6 6 6 6 6 6 -kletoqny -plastiqeski -eni -ami -s -ovo -ovoe -zny -nt -lipoma -my -evo -genny -izaci -blastna -al no -opati -ovanny -oqno -ocitarna -osti -le koz -mi -matozna -inova -emi -ego -irovanie 6 - noe 6 - ndotelioma 6 - pitelioma 6 - wi 6 -a wi 6 -skleroz 6 -tivna 6 -us 5 -oznoe 5 -ofili 5 -kovy 5 -kaci 5 -ioma 5 -glioma 5 -ial ny 5 -eskoe 5 -itel ny 5 -it 5 -atiqeskih 5 -atiqeska 5 -za 5 -qnogo 5 -hondrosarkoma 5 -s 5 -cirovanny

A.1.4

Pr exes (fr equence 5)

Fran cais (88 pr exes sur 2 879)

199

` PARTIR DE TERMINOLOGIES ANNEXE A. ACQUISITION DE RESSOURCES MORPHOLOGIQUES A STRUCTUREES

29 25 22 22 21 19 16 16 15 13 13 13 12 12 12

my eloost eobrobrad enolympholipogranulangioplasmocytimmunchondrom eningm elanolymphocyt-

11 hyalin11 histiocyt11 h emangio10 neuro9 ulc er9 plan9 n ephro9 lymph9 hyper9 h epat9 corticosurr enal8 synovi8 papul8 myxo8 monocyt-

8 8 8 7 7 7 7 7 7 7 7 7 6 6 6

h epatogliodenttubultuberculsynovialradipapillf ecaldermcarcinoacidspontan er eticulrect-

6 6 6 6 6 6 6 6 6 5 5 5 5 5 5

pustuloligodendrooesophagk erato epith elicutan ebronchart erioamygdaltrach ethrombosegmentprot einplasmocytopigment-

5 5 5 5 5 5 5 5 5 5 5 5 5 5 5

pharyngpharynparasitpalmmicrocytm etacarpm elanocytmaculligamentleucocytl eiomyokystimm ediathistiocytoglom erul-

5 5 5 5 5 5 5 5 5 5 5 5 5

follicul epididym epidermendom etrioendom etricylindrcoupclasscauscardibronchiolastrocytad en-

Anglais (892 pr exes sur 10 942)


68 58 55 50 49 48 43 40 38 36 36 36 35 33 32 32 32 31 31 30 29 29 29 29 28 28 27 27 26 25 25 25 25 24 24 24 24 23 22 22 22 22 22 21 21 hyperureterseptentercystosteobroneuroneuroesophaglimbesophagrectchlorvaginurethrarterihypoformhepatradijejuncarpcardinephrogastrrhinmyelopleurmedidentbromaortsclercholedochantiadenophosphventriculplanphosphoduodendermtympantrans21 21 21 21 21 20 20 20 20 20 20 19 19 19 19 19 19 19 19 19 19 19 19 18 18 18 18 18 18 18 18 18 18 18 17 17 17 17 17 17 17 17 16 16 16 spinhepaticcranicoloacetsulfpylorlymphocostconjunctivangioureteroprostatpostpolyphenpallidhepatoepididymdermatocordadenacidtrachestatpericardimethlymphlipohydrerythrobursbullbronchretinpigmentorbitlinelarynglamincephalacetylradiatprimport16 16 16 16 16 16 16 16 15 15 15 15 15 15 15 15 15 15 15 15 14 14 14 14 14 14 14 14 14 14 14 14 14 14 14 13 13 13 13 13 13 13 13 13 13 omentmicromedicmastenterococcycitrcardiothympapillpalatnuclemethyllactglucofascidisccervicatrianeurysmvulvtarsrosereticulperinephrmuscmenthypodermglycergastroelectroelectrdiverticularterventricutertrabecultesttenosplenseversegmentscrotpulp13 13 13 13 13 13 13 13 13 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 11 11 11 11 11 11 11 11 11 11 11 11 11 11 microspormeninglutelonglabihymengingivchondroantrweightvesiculthyrothoracsigmoidradioosteorganmonolarynindicimplantgallexendometriductcyclcoronacerecementcandidarthrvestibulvaccintoxicthrombosulfurpulspolymorphpelvinitrnervmyxomeatmammhydro11 11 11 11 11 11 11 11 11 11 11 11 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 granulgalactosfundfoetdigitcountconditioncholcerebrcapsulbenzarthrovesicvalvurethroulcersynovisphenoidsialrickettsiproteinplacentphysiperitoneperinepectinpartparadoxoxaloesophagomyocardimucosmalelymphalentketokeratointerhemogranuloglobesophagocyclocrosscoat10 capillari10 born10 benzo10 atroph10 appendic10 adenyl10 aconit9 trem9 tract9 trac9 thromb9 thora9 sulfon9 sple9 sphincter9 simi9 scal9 sacr9 pyelo9 psych9 psittac9 process9 point9 photo9 pharyng9 pharyn9 pancreatic9 oophor9 nodul9 margin9 levi9 leuko9 irid9 hyalin9 helminth9 haem9 guan9 glutam9 gastri9 fascia9 extract9 epiderm9 dentat9 cysto9 cyan-

200

` PARTIR DE SERIES A.1. APPRENTISSAGE A DE SYNONYMES

9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8

cryocompresscolumbclitoridcisterncilicholecystcestodcamelbulbbranchbasebandarteriolarctalveolalternatalkalafricanadiposventriculovaritubetheileritectstriatstreptococcsleepsinussignseparatschistosomrubrrotarockrestreexpulmonpsychopolyppneumonpneumophysphrenicphenylpenicilliparasitpancreatpancreaovarnicotinmycobacterimucomilkmelanomarklupinlobullaterlactokeratiodiintermediincisileo-

8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7

hairglomerulfrenmbriaexternethmoidduradorsdiuscutanecurvconstrictcondylcompactclonchromchemocervicervcaudacarboxycarboncarbocarbamcanthbromibondbellascariarcticappendiaminoadenoidwormwoodwallvariegatvaginatyphtubercultrypanosomtrichomontransplanttoluthiostrongylstristainspondylsplenospectrsolesepticscarrigidricinquinpullproductperiostepercparapainosteopathopisthorchi-

7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 6 6

obliqumyelmitominimmembranmediamastoidmallelymphocytlumplucilinealimitlaryngolancekingintraintestininfanthemihallhaemophilglycolglucuronglucosgeneganglionfungfrontfollicstulbrinfasciolerectencephaloelasticechinostomdisseminatdermadepressdensdallcytocyclopcryptconjugatcolorcolicococauscalculbronchiolboviblackbasiatrophicaspartanomalannulatamygdalaminacylabdominyellowxylos-

6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6

wartvulvavitreviperventilatvenotrigemintransverstonsiltonguethyroidthickteartannsyringsyndactylsymphysisweatsutursuppressstrangstomatstomastaphylococcsplanchnicsorbserratsenssalmonrhomboidrhinoretroreportradiculpyropustulpulsepseudoporocephalplicaplasmodiplasmacytplasmaplacentaplacephosphatidperiodontperiodpeptidparvpapulpantothenpalmosteochondroosteochondrornatorchioesophagogastroculnitronecronaphthmutamoldmercur-

6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6

melanmediastinmartilobolobatligamentleukleuclarvalaminalabyrinthkillinterruptinhibitinfundibulindiichthyophthirihysterhypophosphathypokalhymenolepihumanhistiocythistidherniahepaticohemorrhoidhandguardgruntgranulomagranulocytgrandgluteglutaminfunctionfructofortformosformicfoliuoroworssurlariferrfelifaintesophagogastrerythrocyterythrequinendometrioendocardiembolielongatdreamdracunculdomesticdipylididiphyllobothridicrocoelicurlcorrect-

6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5

colourcollcoitcoagulacloudclitorchordchondrcholedochochemcatharticcasecaprcanaliculcalcbronchiblockbigeminbasophilbasilbalantidibacteriazurauditatrophiasperasparaginascaridarthropodarginagonaggregataectadipactivacaracanthamoebabscessabomasxeroxanthviviparvirginvertebraverrucaverrucvalvevaginourinuncinattyrosintungtumotuberculotubertryptophantrichostrongyltrichintrematodtrabeculathionthermophilthalamtestiterminal-

201

` PARTIR DE TERMINOLOGIES ANNEXE A. ACQUISITION DE RESSOURCES MORPHOLOGIQUES A STRUCTUREES

5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5

telescoptaurtaenisulfostriastretchstrainsterstellatsteelspringsplintspinossoapsilversigmoidoshowsheathseptiseptasenegalsectionscreenscratchscopscleroscapulascapulscalensaursarcoptsalivasacculsabinrussreticulatrectorecordradia-

5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5

pyroglutampurposepupilpunctatpsoroptprotectpropionicprolpolarpoisonpoikilothermpneumonipneumatplicatplantplacphysicphrenphosphatidylphosphatphenolpericardioperforatpelvpariparentparathyroidparasiticparagonimpapillospancrepalpebrapalmarpalatinpackpacicoxidovalosti-

5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5

opticophthalmocellatobtusobstructobscurnodosneutrophilneuronnematodnecknasopharynnarcomullmorphomoniliamongolminutmilimexicanmetatarsmesentermastomassmarsupialmarinmacroglobulinlymphangiolophilocklipomatoslipidlightleukocytlenticularlamplamellalacunaketon-

5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5

keratinjohnixodisocitrinvolutinversinvaginatinterninstrumentinfarctinducimperfecthypotonhydrahomoiothermhistidinhexamithemangiohaemolytichaemohaemangioglyceriglycglossglobosglandgillgenugastroduodengalegalactofragmentfractionfollowfolliculfoldavshmbri-

5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5

brosfeederythroblastepitheliepiphysepiglottiependymeosinophilendoencounterembolelastechodonovandelaycrurcrotalicrotalcorniculatcoordinatconjunctivocommissurcolpocoloncoccidioidclitoricitrullincingulchoroidchordatchorchloricerebellcentralcaudatcarnosincalvcallcalic-

5 calci5 burn5 breath5 borne5 blatt5 blast5 bilob5 bend5 bear5 bark5 barba5 babesi5 austral5 auri5 attenuat5 atlantic5 atlant5 aster5 argentin5 arab5 anserin5 anseri5 anser5 angi5 angel5 ancylostom5 american5 amazon5 alkyl5 agar5 aegypti5 adrenal5 acut5 acetylglucosamin5 aceton5 acetabul5 aborti-

Russe (330 pr exes sur 2 937)


36 28 24 22 21 21 19 19 19 18 18 17 17 17 17 17 16 16 15 15 14 14 14 14 14 fibrolimfopoqeqnmielolegoqnfibrozzlokaqestvennko nkostnne rokixeqnosteonervdiffuznvro dennbazal npitelihromosomkletoqnadenomyxeqnpolovpeqenoqnndometriarteri14 13 12 12 12 12 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 t elklapanotkrytmembranlimfliponormal nnaru nmoloqnkostmno estvennkrestcovpolippodvzdoxnpuzyrglial nvlagaliwgenital nenskelezdefektndokrinnangiososudistslizistfibrozn11 serozn11 serdeqn11 hirurgiqesk11 hroniqesk11 tubul rn10 krov10 pigment10 perehodn9 le kocit9 limfocit9 lipidn9 lipid9 legk9 kist9 protok9 gemangio9 bronh9 sosud9 umerenn9 fiziqesk9 tromb8 nadgortann8 kollagen8 kopqikov8 mozg8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 lobkovkletmelanolekarstvennlimfatiqeskmedikislotm gkmatoqnomu skpoverhnostnpoqeqnoploskplazmpatologiqeskipatologiqeskpupoqndopolnitel nvospalitel nvospalizmenenglikogenelezisteludoqneludoqkovgiper8 8 8 8 8 8 8 8 8 8 8 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 gepatodistrofibiologiqeskanal namiloidacinarnhondrosmexannspontanntrombocitsrezostrni nmonocitkopqikklinovidnlekarstvmikrocitmiksopoverhnostpo sniqnploskokletoqnpiwevaritel nperviqnpravinfekci-

202

` PARTIR DE SERIES A.1. APPRENTISSAGE A DE SYNONYMES

7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6

elqngipertrofiverhngistiocitdistrofiqeskdyhatel nvaginal nzernistndometrial nxe nzadnarterial nqastiqnsoedinsistemcerebral nhroniqeskiuretrtuqnorgannormnizkko nokostnokletoqnoklitormelkolimfoidnlegoqnolevomegakariocitkixeqnometallmyxeqnokrasnpozvonoqnperedngortanvnutrennimmunnglio-

6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5

izmenennglazglubokgemoglobingemorragigubqatgranulgrudbol xbronhiolndotelilastiqeskadenoidatrofiastrocittonkfollikulsni enntkanevt elosrednesustavopredelenopuholovarial nobrazovannobrazovanosnovnoslo nennnodul rnnenormal nne ronnepolnni nenervnnadpoqeqnikkoneqnkollagenovmozgovlo nkoronarn-

5 5 morfologi5 5 kluboqkov5 5 mezonefr5 5 mezoteli5 5 minimal n5 5 mineral n5 5 le omio5 5 limfocitarn5 5 limfa5 5 mieloidn5 5 metaboliqesk5 5 kerat5 kistozn5 5 kisto5 5 myxc5 5 kapill r5 5 polost5 5 poln5 5 polipovidn5 5 polihrom5 5 pokrov5 5 popereqn5 5 pozvono5 5 5 podobn5 5 podostr5 5 podko n5 5 povyxenn5 5 podagriqesk5 5 povtorn5 5 podslizist5 5 posmertn5 5 portal n5 5 plazmokletoqn5 5 placentarn5 5 perehodno5 5 periferiqesk5 5 perv5 5 pankreatiqesk5 5 papill rn5 5 patologoanatomiqesk- 5

prome utoqnpriobretennpridatoqnpuzyrngolovdobrokaqestvenngormonal nvorsinqatinorodnintersticial nglotoqnimmunodeficitdlinnvlagaliwnvenoznveneqngemorroidal nelezistoelqvewestvgialinovvisoqnvitaminverhnevyzvannvysokvtoriqngranulomatoznistinngrudnbelkovbedrennbakteribazal nobronhial nozinofillastopitelial nremnritrocitaortal n-

5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5

alkogol nzakrytadenomzarodyxevatipiqnatipiacidofil nqerepfollikul rntolstslo nskelettkansluhovspinnomozgovsinussimpatiqesksemennseme nsviwtverdsv zannterminserpovidncervikal nradiacirasxirennrazryvhromosomnurotelistenozuremisrednhr wevhr wfragmentstromal ntrubstruktur-

A.1.5

Familles

Fran cais (187 familles sur 1 678)


abdomen, abdominal, abdominale, abdominales, abdominaux, abdomino acanthomateux, acanthome, acanthose, acanthosique acquisition, acquisitions adh erence, adh erences, adh erent aaissement, aaiss e albumine, albumineuse, albumino de alv eolaire, alv eolaires, alv eole, alv eoles amygdale, amygdales, amygdalien, amygdalienne, amygdalite, amygdalo anesth esie, anesth esique, anesth esiques annulaire, annulaires, annul e ant ec edent, ant ec edents apocrine, apocrines argyrie, argyrose art` ere, art` eres asthmatique, asthme atrophiante, atrophie, atrophique, atrophiques, atrophodermie autolyse, autolytique bandelette, bandelettes bilat eral, bilat erale, bilat erales, bilat eraux blanc, blancs branche, branches, branchial, branchiale bulle, bulleuse, bulleuses, bulleux callosit e, callosit es carcino, carcinog` ene, carcinomateuse, carcinomatose, carcinome, carcinomes, carcinosarcome, carcino de cas eeuse, cas eeux cervical, cervicale, cervicales, cervicaux, cervicite, cervico chimique, chimiques chol ecystite, chol ecystites chyle, chyleux, chyloc` ele, chylurie clinique, cliniquement, clino de colliquation, colliquative complexe, complexes condylomateux, condylome conservation, conserv e contraction, contractions, contracture, contract e, contract ee coronaire, coronaires, coronarien, coronarienne, coronariens couleur, couleurs crois e, crois es cutan e, cutan ee, cutan ees, cutan eo, cutan es cytopathologie, cytopathologique c ote, c otes

203

` PARTIR DE TERMINOLOGIES ANNEXE A. ACQUISITION DE RESSOURCES MORPHOLOGIQUES A STRUCTUREES

dermatophytose, dermatophytoses diamniotique, diamniotiques dilatation, dilat e diss emin e, diss emin ee, diss emin ees dorsal, dorsale, dorsales, dorsaux, dorso, dorsum durable, durables d ecidual, d eciduale, d eciduaux d ecience, d eciences d emy elinisante, d emy elinisantes, d emy elinisation d eshydratation, d eshydrat e, d eshydrat ee ectasie, ectasi e encapsul e, encapsul ee endocrine, endocrines, endocrinien, endocrinienne, endocriniennes, endocriniens enkyst e, enkyst ee enzymatique, enzymatiques, enzyme, enzymes excavation, excav e explicatif, explication, explications extr eme, extr emement, extr emes falciforme, falciformes ferrocalcinose, ferrocalcique uor, uorure force, forces friabilit e, friable fusion, fusionn e gangliocytaire, gangliome genou, genoux globule, globules gonade, gonadique, gonadoblastome gravide, gravidique g emistocyte, g emistocytique herniaire, hernie, hernies, herniorrhaphie hormonal, hormonale, hormonaux, hormone, hormones, hormono hydroc` ele, hydroc` eles hyperkin etique, hyperkin etiques hypochrome, hypochromie hypostase, hypostatique h ematologique, h ematologiques, h ematopo etique, h ematopo etiques h emosid erine, h emosid erinique identiable, identication, identi e immunoprolif erative, immunoprolif eratives incarc eration, incarc er e ind ependant, ind ependantes, ind ependants inammation, inammations, inammatoire, inammatoires instrument, instrumental intermittent, intermittente intoxication, intoxications intrins` eque, intrins` eques ischio, ischion jour, jours labyrinthique, labyrinthiques laryngite, laryngo, laryngopharynx, laryng e, laryng ee, laryng ees, larynx leucok eratose, leucoplasie lingula, lingulaire li ee, li ees long, longs l` evre, l` evres macrocytaire, macrocyte, macrocytose, macroglial, macroglie malade, maladie, maladies maniaque, maniaques massif, massive membre, membres

migraine, migraines, migraineux mod er e, mod er ee moteur, moteurs multiloculaire, multilocularis myobromatose, myobrome, myobrose my elodysplasique, my elodysplasiques m edia, m ediale, m edian, m ediane, m edio m elio dose, m elio doses m esoth elial, m esoth eliale, m esoth eliome, m esoth elium m ethode, m ethodes neuromusculaire, neuromusculaires noir, noire nutrition, nutritionnel, nutritionnelle, nutritionnelles, nutritionnels n evroglie, n evroglique, n evrogliques occlus, occlusif, occlusion, occlusions, occlusive omphalite, omphalo opportuniste, opportunistes original, origine, origines ost eolyse, ost eolytique ovarien, ovarienne, ovariennes, ovarite palp ebral, palp ebrale, palp ebraux, palp ebro parak eratose, parak eratosique parotide, parotidien pemphigo de, pemphigo des, pemphigus petit, petite, petites, petitesse, petits photographie, photomicrographie pilomatricaire, pilomatrixome plasmatique, plasmatiques pneumatique, pneumatose polykystique, polykystiques population, populations poumon, poumons probable, probablement progressant, progressif, progression, progressive proth` ese, proth` eses pr ecipitation, pr ecipit e, pr ecipit es pr ematur e, pr ematur ee, pr ematur ees, pr ematur es psammomateux, psammome pulpaire, pulpe, pulpeux pyom` etre, pyom etrie p en etrant, p en etrante, p en etr e p eriodontale, p eriodontales p et echial, p et echiale, p et echie radical, radicale rayonnement, rayonnements requis, requise rond, rondes, ronds r ecurrent, r ecurrente, r ecurrentes, r ecurrents r eparation, r epar e r etrop eritoine, r etrop eriton eal, r etrop eriton eale sarcomateuse, sarcomateux, sarcomatose, sarcomato de, sarcome, sarcomes, sarco de, sarco dose, sarco dosique second, secondaire, secondaires sept, septique simple, simples, simplex somatoforme, somatoformes sph erocytaire, sph erocyte, sph erocytose spontan e, spontan ee, spontan ees, spontan ement, spontan es staphylocoque, staphylocoques strongylo des, strongylo dose substance, substances, substantia sup erieur, sup erieure, sup erieures, sup erieurs, sup ero symptomatique, symptomatiques syst` eme, syst` emes

204

` PARTIR DE SERIES A.1. APPRENTISSAGE A DE SYNONYMES

s equestration, s equestre, s equestr e teinte, teint e thoracique, thoraciques, thoraco, thorax tige, tiges trach eal, trach eale, trach ee, trach eite, trach eo transport, transports troisi` eme, troisi` emement tumeur, tumeurs t enosynovite, t enosynovites uret` ere, uret` eres ut erin, ut erine, ut erines, ut erins, ut ero, ut erus varice, varices, variqueuse, variqueuses, variqueux

verre, verres villeuse, villeux, villo vocal, vocale, vocales, vocaux v en erien, v en erienne, v en eriens echographie, echographiques elev e, elev ee epicanthique, epicanthus epiplo, epiploon, epiplo que eraure, era e etranglement, etranglements, etrangl e

Anglais (199 familles sur 6 550)


[methylcrotonyl, [methylcrotonoyl accident, accidents, accidental, accidentally acrocephalosyndactyly, acroencephalosyndactyly adjuvant, adjuvants agent, agency, agents, agencies albino, albinotic allocreadium, allocreadiidae america, american, americana, americaine, americanum, americanus, amerindian amphetamine, amphetamines anchor, anchoring anisa, anise anthelmintic, anthelmintica, anthelmintics apatemon, apatemosis apyrexia, apyrexic ariomma, ariommum, ariommus asclepias, asclepiadaceae ataxia, ataxic aulopus, aulopidae avoidant, avoidance ball, baller baso, basophil, basophils, basophilia, basophilic, basophilism bentazon, bentazone bilirubin, bilirubinemia, bilirubinuria blastocyst, blastocystis bombyx, bombycis bozemanae, bozemanii brewer, brewers buetschlia, buetschliidae buttery, butteries, butterysh, butteryshes callistin, callistius cannabis, cannabinum, cannabosis, cannabaceae, cannabinoid, cannabinoids, cannabinosis cardinal, cardinalis, cardinalsh, cardinalshes castellani, castellanii cavum, cavus cercaria, cercariae, cercarial char, chart, charina, charity, charting chlamydoselachus, chlamydoselachidae chromosome, chromosomal, chromosomes, chromosomopathy circumstance, circumstances, circumstantial, circumstantiality cleaved, cleaving cobalt, cobaltosis colliquativa, colliquative compound, composite, compounds, compositae, composition conie, conium, coniine cookei, cookeii corticovirus, corticoviridae crater, craterization croton, crotonic, crotonaldehyde culdotomy, culdocentesis cycad, cycas, cycada, cycadaceae cytotoxic, cytotoxin, cytotoxicity dctp, dctpase deglutition, deglutitive deodorant, deodorants destruction, destructive, destructiveness diaphysis, diaphyseal, diaphysitis, diaphysectomy dihydro, dihydric, dihydrate, dihydrogen dipper, dipping distributed, distribution, distributions dracunculus, dracontiasis, dracunculosis, dracunculiasis, dracunculoidea, dracunculoides duranta, durante dystonia, dystonic eight, eighth emilia, emiliae endo, endocrine, endocytic, endogenous, endocardial, endocardium, endocarditis, endocardiosis, endopeptidase, endocarditides, endocrinopathy, endomyocardial epidermoptes, epidermoptidae erythema, erythematosa, erythematous, erythematosus eumycotic, eumycetoma execution, executions exudate, exudates, exudation, exudativa, exudative, exudativum fast, fastin, fasting feto, fetor accid, accida, accidity uent, uency foramina, foraminotomy friction, frictional furrow, furrows, furrowed gangrene, gangrenes, gangrenosa, gangrenous, gangrenosum genius, genioplasty girdle, girdles, girdlestone glyceria, glyceric, glycerin, glycerol, glyceryl, glycerate, glyceride, glycerite, glycerone, glyceraldehyde, glycerophosphate, glycerolphosphate, glycerophosphatase gordian, gordius grenadier, grenadiers guppy, guppyi haemostasis, haemostatic harmine, harmaline, harmidine hemangiectasia, hemangiectasis

205

` PARTIR DE TERMINOLOGIES ANNEXE A. ACQUISITION DE RESSOURCES MORPHOLOGIQUES A STRUCTUREES

hernia, hernial, hernias, herniated, herniation, hernioplasty, herniorrhaphy himantolophus, himantolophidae holmes, holmesii howler, howling hydroxymethyl, hydroxymethylase, hydroxymethyltransferase hypersplenia, hypersplenism hypothenar, hypothenaris ileovesical, ileoneocystostomy inclusion, inclusions ination, inatable instruction, instructions invaginata, invaginated, invaginatus, invagination isoleucyl, isoleucine, isoleucinemia java, javan, javanica, javanicum, javanicus kell, kelly, keller kyphoscoliosis, kyphoscoliotic lamp, lamps, lampas, lampers, lamprey, lampetra, lampsh, lampreys, lampanyctus leach, leachi leptomeninges, leptomeningeal, leptomeningitis ligase, ligases, ligator, ligation, ligature little, littler, littlehead lophotes, lophotus, lophotidae lutra, lutrae, lutris, lutrensis macrosomia, macrosomic malpresentation, malpresentations marie, mariae measure, measures, measuring, measurement, measurements menispermum, menispermaceae metanephros, metanephrine, metanephrines microdontia, microdontism minnow, minnows mollusk, mollusca, mollusks, molluscum mori, morio multiceps, multicepsosis mycotoxic, mycotoxin, mycotoxicoses, mycotoxicosis myxoid, myxoma, myxozoa, myxosoma, myxobolus, myxomatous, myxosporea, myxobolosis, myxobroma, myxomatosis, myxosarcoma, myxoliposarcoma neck, necked, necker, necking nevi, nevin nonobstetric, nonobstetrical nutricia, nutriens, nutrient, nutrients octomitus, octomitosis olivaceum, olivaceus opposita, opposite, opposition, oppositional orthodon, orthodontic, orthodontics, orthodontist oudemansi, oudemansiella palatoglossal, palatoglossus paracolic, paracolon, paracolostomy paresthesia, paresthetica pathogens, pathology, pathogenic, pathologic, pathological peltata, peltatum pericoronal, pericoronitis pesticide, pesticidal, pesticides philippine, philippinensi, philippinensis physa, physic, physis, physeal, physics, physalis, physical, physidae, physitis, physician, physopsis, physiatric, physically, physicians, physiatrist, physiologic, physiologist, physiological, physiotherapy, physiologically, physiotherapeutic pinon, pinos platyrhynchos, platyrhynchus poikilotherm, poikilothermy, poikilothermia, poikilothermic pomacentrus, pomacentridae

posture, postural, posturing prescribed, prescribing, prescription, prescriptions product, products, productus, production, productive protan, protanopia, protanomaly psitacci, psittaci, psittacus, psittacine, psittacoid, psittacidae, psittacines, psittacinus, psittacosis, psittaciformes punicea, puniceum pyrogallic, pyrogallol rachialgia, rachiodynia recent, recently regressing, regression replace, replaced, replacer, replacing, replacement, replacements retrobulbar, retroexus, retrocession, retroexion, retroorbital, retropyloric rhytides, rhytidectomy, rhytidoplasty rolando, rolandic rugosa, rugosum, rugosus salamander, salamandra, salamanders, salamandridae sarcocystis, sarcocystidae, sarcocystosis, sarcosporidiasis, sarcosporidiosis schultz, schultze, schultzi, schultzea scutata, scutatum, scutatus seminole, seminolis sesame, sesamoid, sesamoidea, sesamoidean, sesamoiditis, sesamoidectomy show, showy, shower, showing siren, sirenia, sirenidae, sirenoform, sirenomelia, sirenomelus snip, snipe, snipesh, snipeshes span, spanish spigelia, spigelian squatina, squatinidae steno, stensen, stenella, stenoses, stenosis, stenotic, stenosing stone, stony, stones strophantin, strophanthin subterranean, subterraneum, subterraneus supercial, supercialis sutton, suttonii syndrome, syndromes talc, talcum, talcosis telephone, telephonic tesselata, tesselatus theo, theox thyme, thymic, thymin, thymol, thymus, thymine, thymoma, thymidine, thymocyte, thymopexy, thymectomy tooth, toothed, toothache, toothless transfusion, transfusions triaenophorus, triaenophorosis trigonocephaly, trigonocephalia, trigonocephalum, trigonocephalus trumpet, trumpets, trumpeter, trumpetsh, trumpetshes twin, twins, twinning unicorn, unicornis urtica, urticaria, urticatus, urticaceae, urticarial vasoprotectant, vasoprotectants verruculosa, verruculosum virgin, virginal, virginia, virginica, virginiana, virginicus, virginianus waccamaw, waccamensis weybridge, weybridgensis worry, worried, worrisome zelleri, zelleriella

206

` PARTIR DE SERIES A.1. APPRENTISSAGE A DE SYNONYMES

Russe (190 familles sur 1 709)


agressivna , agressivny azot, azota ale kemiqeska , ale kemiqeski ameloblastna , ameloblastoma, ameloblastiqeska amfofili , amfofil noe, amfofil ny anemi , anemiqeski , anemiqeskogo apokrinna , apokrinno arteriola, arterioly, arteriol rny ateroma, ateromatoz, ateroskleroz, ateromatozna , ateromatozny , aterosklerotiqeska , aterosklerotiqeski autotransplantat, autotransplantant balans, balansa belye, bely bifurkacii, bifurkaci bolezni, bolezn , bolezne br xna , br xnoe, br xno vaskul rna , vaskul rny ventrikul rna , ventrikul rnye, ventrikul rny vewestv, vewestva, vewestvo, vewestvom vkl qenie, vkl qeni , vkl qa wi , vkl qenny vnutripeqenoqnye, vnutripeqenoqny vozduh, vozduha, vozduxna , vozduxny vosk, voska, voskovidny vskrytie, vskrytii, vskryti , vskrytiem vypadenie, vypadeni gadolinit, gadolini gangrena, gangrenoznoe, gangrenozny gematurii, gematuri generalizovanna , generalizovanny gerpes, gerpesa, gerpesvirus, gerpetiqeska , gerpetiqeski , gerpetiqeskoe, gerpesvirusna giperkeratoz, giperkeratozy gipokalemii, gipokalemi , gipokaliemi , gipokalemiqeska gistoplazma, gistoplazmoz glial no, glial na , glial noe, glial nye, glial ny , glial nyh gl kozy, gl koaminofosfaturie gonada, gonado gruppa, gruppy, gruppovye davlenie, davleni degidrazy, degidrazno dermatofibroma, dermatofibrosarkoma deformaci , deformiru wi , deformirovanny disk, diska, diskov diffuzi , diffuzno, diffuzna , diffuznoe, diffuznye, diffuzny , diffuznym, diffuznyh, diffuznogo drug, druga, drugih, drugo , drugom, drugimi eltoe, eltye, elty , eltogo idkosti, idkost , idkoste , idkost zakl qitel na , zakl qitel ny zatverdenie, zatverdevxi zraqki, zraqok izli nie, izlivxi s immunoglobulin, immunoglobulina, immunoglobulinovy invol cii, invol ci , invol tivna , invol tivny intersticial no, intersticial na , interstitsial noe, intersticial ny infekcii, infekci , infekcie , infekcionna , infektsionnoe, infekcionny istekxi , isteqenie ka doe, ka dy , ka dogo kal kulez, kal kuleza, kal kulezny kanalizaci , kanalizirovanny karman, karmana kislo , kislot, kisly , kislota, kisloty, kislotno, kislotnoe, kislotnogo klinovidno, klinovidna , klinovidnoe, klinovidno , klinovidny kokk, kokki kombinaci , kombinirovanna , kombinirovanny konsistencii, konsistenci , konsolidaci , konsolidirovanny korka, korki kraska, krasiteli kriptokokk, kriptokokkoz krug, kruga ladoni, ladonna legoqno, legoqna , legoqnoe, legoqno , legoqnye, legoqny , legoqnym, legoqnyh, legoqnogo lepra, lepry, leprozna line no, line na , line ny lobkova , lobkovo , lobkovye, lobkovy , lobkovogo luqeva , luqevo massa, masse, massy, masso megakariocit, megakariocity, megakarioblast, megakariocitov, megakariocitoz, megakarioblastny , megakariocitarny me pozvonoqny , me pozvonoqnyh, me pozvonoqnogo melko, melkie, melkoe, melkogo, melkokletoqna , melkokletoqny , melkolimfocitarna merkel , merkeloma metafiz, metafizarny mikoz, mikotiqeska , mikotiqeski miliarna , miliarny mio pitelioma, mio pitelial na , mio pitelioidna moz eqka, moz eqok, moz eqkovo, moz eqkova , moz eqkovy mononukleoz, mononukleoza moxonka, moxonki, moxonoqno, moxonoqny myx k, myx ka naliqie, naliqi neadekvatny , neadekvatnym nedostatok, nedorazvitie, nedorazvito , nedorazvitogo, nedostatoqnoe, nedostatoqny , nedostatoqnogo, nedostatoqnosti, nedostatoqnost , nedostatoqnost ne trofil, ne trofilov, ne trofil na , ne trofil ny neokostenely , neokosteneva wi neprohodimosti, neprohodimost , neprohodimost nefrit, nefroma, nefropati , nefrogenna , nefrogenny , nefrolitiaz, nefroblastoma, nefropatiqeski nishod wa , nishod we , nishod wi , nishod wih nosoglotka, nosoglotki, nosoglotoqna , nosoglotoqny obrazovanie, obrazovani , obrazovaniem, obrazovanna , obrazovannoe, obrazovannye, obrazovanny , obrazu xqi s obyqnoe, obyqno odnostoronnee, odnostoronni , odnostoronn okosteneva wa , okosteneva wi oligofrenii, oligofreni organ, organa, organy, organov oslo nenie, oslo nenna , oslo nennoe, oslo nenno , oslo nenny osteoliz, osteolitiqeskoe otdelenie, otdelenny otnos wi , otnos wi s pazuha, pazuhi paragonimus, paragonimusom parenhimatozna , parenhimatoznokletoqna peregib, peregibe, perednee, peredne , perednie, peredni , peredn , perexeek, perednego, peregnuty , perednebokova , perednebokovo pereponka, pereponqatost periodonta, periodontal ny pigment, pigmentna , pigmentnoe, pigmentny , pigmentaci , pigmentarna , pigmentozna , pigmentirovanny pitanie, pitani , pitatel ny plevra, plevry, plevral no, plevral na , plevral ny plutonit, plutoni podavlenie, podavlenny , podavl wi podmyxeqna , podmyxeqno , podmyxeqny podhod, podhodov pole, pole polovina, poloviny popereqno, popereqna , popereqnoe, popereqny

207

` PARTIR DE TERMINOLOGIES ANNEXE A. ACQUISITION DE RESSOURCES MORPHOLOGIQUES A STRUCTUREES

posmertna , posmertnoe, posmertnye, posmertny pravae, prava , pravoe, pravo , pravy , pravogo prele koz, prele kemiqeski pri iznenna , pri iznennoe, pri iznenny priqin, priqina, priqiny prolaps, prolapsa prosvet, prosvetov profili, profil psevdolipoma, psevdolipomatozna pustula, pustulo, pustul rny rabdomioma, rabdosarkoma, rabdomiosarkoma razdelenie, razdelenna , razdelennye, razdelenny rannee, ranni , rann rast enie, rast eni revmatiqeska , revmatiqeski rezina, reziny rektosigmoidna , rektosigmoidnoe retromol rna , retromol rny rodi , rodi rudimentna , rudimentny , rudimentarny sarkoma, sarkomy, sarkoidoz, sarkoidna , sarkomatoz, sarkoidnogo sv zi, sv z sedaliwna , sedaliwny seme na , seme noe, seme no , seme ny serp, serpovidno, serpovidna , serpovidny , serpovidnyh silikatov, silikatoz sincitioma, sincitial na , sincitial ny skryta , skrytoe, skryty sl na, sl nno, sl nna , sl nno soder awi , soder awih sonna , sonno , sonny soust e, soust spinnomozgova , spinnomozgovo , spinnomozgovye, spinnomozgovogo sredstva, sredstvo steno, stensena stomatocit, stomatocitoz struma, strumozny sumka, sumki

talli , talli telo, telom testikul rno, testikul rna , testikul rny tonka , tonkie, tonki , tonko , tonkogo transplantat, transplantant, transplantata, transplantaci , transplantacionny , transplantirovanna , transplantirovanny triad, triada trofoblastiqeska , trofoblastiqeskie tuqna , tuqny , tuqnyh, tuqnokletoqna , tuqnokletoqnye, tuqnokletoqny udvoenie, udvoenny uplotnenie, uplotnenna , uplotnenny usilenie, usilenna , usilennoe, usilenny falang, falanga, falangi, falangovy fetal na , fetal ny fiksacii, fiksaci , fiksirovanny fruktozo, fruktozy, fruktozemi , fruktozuri , fruktokinazy hlor, hlora, hlorid, hloridov horioidna , horioidnoe carapin, carapina cerebral na , cerebral no , cerebral nye, cerebral ny , cerebral nyh, cerebrovaskul rna , cerebrovaskul rny cirkoni , cirkoni qastic, qasticy qetverty , qetvertyh xe ka, xe ki kzantema, kzantematozny lastoz, lastoma, lastoidna , lastiqeska , lastiqeskie, lastiqeski , lastiqeskih, lastiqeskogo, lastofibroma ndokard, ndokardial ny pendimoma, pendimocit, pendimal na , pendimoblastoma ritema, ritematozna , ritematozny fferentna , fferentny dro, drom

A.2
A.2.1

Apprentissage ` a partir de s eries de synonymes etiquet ees et lemmatis ees


Jeu d etiquettes morphosyntaxiques Brill INaLF
ENCFF verbe etre innitif EPAR:sg participe pr esent du verbe etre NN substantif singulier NNP nom propre PFX pr exe d etach e PREP pr eposition PRO:++ pronom genre ind etermin e PRO:pl pronom pluriel PRO:sg pronom singulier PRV:sg pronom personnel PUL particule REL relatif SBC:pl substantif pluriel SUB$ subordonnant, code par d efaut de que SUB subordonnant VCJ:sg autre verbe conjugu e au singulier VNCFF autre verbe a ` linnitif VNCNT participe pr esent ou g erondif dautres verbes

ABR abr eviation ACJ:sg verbe avoir conjugu e au singulier ADJ2PAR:pl participe pass e adjectival pluriel ADJ2PAR:sg participe pass e adjectival singulier ADJ:pl adjectif pluriel ADJ:sg adjectif singulier ADV adverbe ANCFF verbe avoir a ` linnitif ANCNT participe pr esent ou g erondif du verbe avoir CAR adjectif cardinal COO coordonnant DTC:pl d eterminant du groupe nominal contract e pluriel DTC:sg d eterminant du groupe nominal contract e singulier DTN:pl d eterminant du groupe nominal non contract e pluriel DTN:sg d eterminant du groupe nominal non contract e singulier ECJ:sg verbe etre conjugu e au singulier

208

` PARTIR DE SERIES A.2. APPRENTISSAGE A DE SYNONYMES ETIQUET EES ET LEMMATISEES

A.2.2

R` egles (fr equence 5)

Etiquetage (154 r` egles sur 594)


584 /ADJ:sg|s/ADJ:pl 519 /NN|s/SBC:pl 263 /ADJ:sg|e/ADJ:sg 128 /ADJ:sg|es/ADJ:pl 72 e/NN|ique/ADJ:sg 67 e/NN|aire/ADJ:sg 64 e/NN|que/ADJ:sg 54 /NN| /ADJ:sg 50 ation/NN| e/ADJ:sg 49 x/ADJ:sg|se/ADJ:sg 48 e/ADJ:sg|s/ADJ:pl 42 o/PFX|al/ADJ:sg 39 e/NN|o/PFX 38 o/PFX|ite/NN 38 le/ADJ:sg|ux/ADJ:pl 38 l/ADJ:sg|ux/ADJ:pl 37 e/NN|ose/NN 36 es/SBC:pl|aire/ADJ:sg 34 /ADJ:sg|ment/ADV 32 f/ADJ:sg|ve/ADJ:sg 31 me/NN|sarcome/NN 31 e/NN|ome/NN 31 e/NN|atose/NN 31 /ADJ:sg|ne/ADJ:sg 27 on/NN|f/ADJ:sg 27 e/NN| e/ADJ:sg 26 /ADJ:sg|le/ADJ:sg 25 o/PFX|aire/ADJ:sg 23 se/NN|tique/ADJ:sg 23 me/NN|se/NN 22 o/PFX|ique/ADJ:sg 22 on/NN|ve/ADJ:sg 21 /NN|ux/ADJ:sg 20 ose/NN|eux/ADJ:sg 20 ome/NN|ique/ADJ:sg 20 ation/NN| ee/ADJ:sg 19 /NN|use/ADJ:sg 19 e/NN|ques/ADJ:pl 18 me/NN|blastome/NN 18 18 18 17 17 17 17 17 17 17 16 16 16 16 15 15 14 14 14 14 13 13 13 13 13 12 11 11 11 11 11 11 11 11 11 10 10 10 10 f/ADJ:sg|ves/ADJ:pl e/NN|ienne/ADJ:sg ement/NN| e/ADJ:sg s/ADJ:pl|ne/ADJ:sg /PFX|me/NN ose/NN|es/SBC:pl me/NN| de/ADJ:sg e/NN|ateux/ADJ:sg e/NN|ale/ADJ:sg e/NN|al/ADJ:sg x/ADJ:sg|ses/ADJ:pl ose/NN|euse/ADJ:sg es/SBC:pl|que/ADJ:sg /ADJ:sg| /ADJ2PAR:sg /PFX|se/NN ose/NN|aire/ADJ:sg ome/NN|es/SBC:pl it e/NN|e/ADJ:sg e/NN|ien/ADJ:sg ce/NN|t/ADJ:sg um/NN|al/ADJ:sg se/NN| de/ADJ:sg ome/NN|aire/ADJ:sg e/NN|o de/ADJ:sg /ADJ:sg|les/ADJ:pl e/NN|ateuse/ADJ:sg sarcome/NN| de/ADJ:sg ose/NN|ique/ADJ:sg o/PFX|um/NN ome/NN|al/ADJ:sg /NN|e/ADJ:sg ie/NN|e/ADJ:sg e/NN|urie/NN e/NN| ee/ADJ:sg e/ADJ:sg|ienne/ADJ:sg ure/NN| e/ADJ:sg tion/NN|nte/ADJ:sg o/PFX|eux/ADJ:sg e/ADJ:sg|ant/ADJ:sg 6 us/NN|ale/ADJ:sg 9 s/SBC:pl|ux/ADJ:sg 6 se/NN|pathie/NN 9 /NN|nelle/ADJ:sg 6 se/NN|matose/NN 9 /NN|nel/ADJ:sg 6 /PFX|n/NN 9 /NN| e/ADJ:sg 6 ose/NN|e/ADJ:sg 9 /NN|al/ADJ:sg 6 /NN|o/PFX 9 me/NN|brome/NN 6 de/ADJ:sg|blastique/ADJ:sg 9 me/NN|blastique/ADJ:sg 6 eux/ADJ:sg|o de/ADJ:sg 9 eux/ADJ:sg|aire/ADJ:sg 6 e/NN|ocyte/NN 9 e/ADJ:sg|es/SBC:pl 6 e/NN| emie/NN 9 /ADJ:sg|ement/ADV 6 e/ADJ:sg|ien/ADJ:sg 8 tion/NN|ire/ADJ:sg 6 e/ADJ:sg|aire/ADJ:sg 8 te/NN|enne/ADJ:sg 5 x/NN|g e/ADJ:sg 8 sarcome/NN|blastome/NN 8 sarcome/NN|blastique/ADJ:sg5 us/NN|al/ADJ:sg 5 ses/SBC:pl|tique/ADJ:sg 8 o/PFX| e/ADJ:sg 5 o/PFX|ienne/ADJ:sg 8 ome/NN|ale/ADJ:sg 5 ome/NN|inique/ADJ:sg 8 /NN|l/ADJ:sg 5 ome/NN|e/ADJ:sg 8 me/NN|lipome/NN 5 ome/NN| /ADJ:sg 8 matose/NN|blastome/NN 5 /NN|x/SBC:pl 8 ite/NN|ose/NN 5 /NN|n e/ADJ:sg 8 ite/NN|opathie/NN 5 me/NN|cytaire/ADJ:sg 8 ique/ADJ:sg|o de/ADJ:sg 5 ion/NN|oires/ADJ:pl 8 e/NN|ie/NN 5 ion/NN| /ADJ:sg 7 ur/NN| /ADJ:sg 5 ilit e/NN|le/ADJ:sg 7 tion/NN|nt/ADJ:sg 5 es/SBC:pl|o de/ADJ:sg 7 sme/NN|que/ADJ:sg 5 er/ADJ:sg|` ere/ADJ:sg 7 o/PFX|ien/ADJ:sg 5 e/NN|yome/NN 7 ome/NN|ales/ADJ:pl 5 e/NN|iase/NN 7 /NN|ique/ADJ:sg 5 e/NN|atique/ADJ:sg 7 /NN|aire/ADJ:sg 5 e/NN|ant/ADJ:sg 7 me/NN|carcinome/NN 5 cation/NN|qu e/ADJ:sg 7 ion/NN|oire/ADJ:sg 5 a/NN|o/PFX 7 ion/NN| e/ADJ:sg 7 de/ADJ:sg|mateuse/ADJ:sg 5 aire/ADJ:sg|euse/ADJ:sg 5 /ADJ:sg|ssement/NN 7 euse/ADJ:sg|o de/ADJ:sg 5 /ADJ:sg|is e/ADJ:sg 7 e/NN|ante/ADJ:sg 5 a/ADJ:sg|e/ADJ:sg 7 e/ADJ:sg|cation/NN 7 cytome/NN|blastome/NN 6 us/NN|ique/ADJ:sg

Lemmatisation (117 r` egles sur 501)


77 71 70 64 45 43 41 40 39 39 32 31 31 28 27 e|ique e|aire e|que e|ation o|al e|ose e|o e| e o|ite f|on e|ome me|sarcome e|atose |ux e|al 26 25 24 24 24 24 23 21 20 19 18 18 18 18 18 e|ien o|aire se|tique o|ique eux|ose e|ateux me|se e|er ome|ique e|ement t|ce nt|tion me| de me|blastome |me 17 16 16 15 15 14 14 14 13 13 13 13 13 13 12 e|ant |se e|ie ose|aire al|um |ment e|o de |al se| de ome|aire o| e |nel |ement | e ose|ique 12 ite|opathie 12 e|ant 12 e|aire 12 al|ome 11 o|um 11 o|eux 11 |n 11 |l 11 ite|ose 11 ion|oire 11 de|sarcome 11 eux|aire 11 e|urie 11 e|ure 11 en|te 10 de|mateux 10 er|ation 9 |o 9 me|brome 9 me|blastique 9 |ique 9 e|ion 8 sarcome|blastome 8 sarcome|blastique 8 |ome 8 o|ien 8 me|lipome 8 matose|blastome 8 |is e 8 ire|tion

209

` PARTIR DE TERMINOLOGIES ANNEXE A. ACQUISITION DE RESSOURCES MORPHOLOGIQUES A STRUCTUREES

8 8 8 8 8 7 7 7 7

ique|o de |ion e|it e e| emie |aire se|pathie que|sme |n e me|carcinome

7 7 7 7 7 7 7 7 6

eux|o de e|ocyte ` ene| enique e|cation e|atique cytome|blastome al|us a|e x|g e

6 us|ique 6 |ur 6 |ssement 6 se|matose 6 le|ilit e 6 de|blastique 6 a|o 5 |virus 5 |ure

5 qu e|cation 5 ome|inique 5 me|cytaire 5 |it e 5 |isation 5 de|g` ene 5 g` ene|sarcome 5 e|yome 5 |eux

5 5 5 5 5 5

e|osarcome ` eme| emateux e|ier e|iase e|atif aire|opathie

Etiquetage et lemmatisation (111 r` egles sur 513)


75 75 71 70 61 45 41 41 39 38 36 32 31 31 28 25 24 24 24 24 23 23 22 21 20 19 18 17 e/SBC|ique/ADJ /ADJ| /SBC e/SBC|aire/ADJ e/SBC|que/ADJ e/ADJ|ation/SBC o/PFX|al/ADJ e/SBC|ose/SBC e/SBC|o/PFX o/PFX|ite/SBC f/ADJ|on/SBC e/SBC| e/ADJ e/SBC|ome/SBC me/SBC|sarcome/SBC e/SBC|atose/SBC /SBC|ux/ADJ o/PFX|aire/ADJ se/SBC|tique/ADJ eux/ADJ|ose/SBC e/SBC|ateux/ADJ e/SBC|al/ADJ o/PFX|ique/ADJ me/SBC|se/SBC e/SBC|ien/ADJ er/V| e/ADJ ome/SBC|ique/ADJ e/ADJ|ement/SBC me/SBC|blastome/SBC /PFX|me/SBC 17 me/SBC| de/ADJ 17 e/ADJ|ant/ADJ 16 nt/ADJ|tion/SBC 15 t/ADJ|ce/SBC 15 /PFX|se/SBC 15 ose/SBC|aire/ADJ 15 al/ADJ|um/SBC 14 e/SBC|o de/ADJ 13 se/SBC| de/ADJ 13 /SBC|nel/ADJ 13 ome/SBC|aire/ADJ 13 /ADJ|ment/ADV 12 /SBC| e/ADJ 12 /SBC|al/ADJ 12 ose/SBC|ique/ADJ 12 o/PFX| e/ADJ 12 ite/SBC|opathie/SBC 12 al/ADJ|ome/SBC 11 /SBC|l/ADJ 11 o/PFX|um/SBC 11 o/PFX|eux/ADJ 11 ite/SBC|ose/SBC 11 ion/SBC|oire/ADJ 11 de/ADJ|sarcome/SBC 11 eux/ADJ|aire/ADJ 11 e/SBC|urie/SBC 11 e/SBC|ant/ADJ 11 en/ADJ|te/SBC 11 e/ADJ|ure/SBC 11 e/ADJ|ie/SBC 11 e/ADJ|ien/ADJ 11 /ADJ|ement/ADV 10 er/V|ation/SBC 9 me/SBC|brome/SBC 9 me/SBC|blastique/ADJ 9 de/ADJ|mateux/ADJ 9 e/ADJ|ion/SBC 9 e/ADJ|aire/ADJ 8 /SBC|ique/ADJ 8 sarcome/SBC|blastome/SBC 8 sarcome/SBC|blastique/ADJ 8 o/PFX|ien/ADJ 8 me/SBC|lipome/SBC 8 matose/SBC|blastome/SBC 8 ire/ADJ|tion/SBC 8 ique/ADJ|o de/ADJ 8 e/SBC|ie/SBC 8 e/SBC| emie/SBC 7 se/SBC|pathie/SBC 7 /SBC|o/PFX 7 /SBC|n e/ADJ 7 /SBC|aire/ADJ 7 que/ADJ|sme/SBC 7 me/SBC|carcinome/SBC 7 eux/ADJ|o de/ADJ 7 e/ADJ|it e/SBC 7 e/ADJ|cation/SBC 7 cytome/SBC|blastome/SBC 7 al/ADJ|us/SBC 6 x/SBC|g e/ADJ 6 us/SBC|ique/ADJ 6 se/SBC|matose/SBC 6 /PFX|n/SBC 6 le/ADJ|ilit e/SBC 6 de/ADJ|blastique/ADJ 6 e/SBC|ocyte/SBC 6 e/SBC|atique/ADJ 6 /ADJ|ssement/SBC 6 /ADJ|ome/SBC 6 /ADJ|is e/ADJ 5 /SBC|ion/SBC 5 /SBC|eux/ADJ 5 qu e/ADJ|cation/SBC 5 ome/SBC|inique/ADJ 5 me/SBC|cytaire/ADJ 5 e/SBC|yome/SBC 5 e/SBC|osarcome/SBC 5 e/SBC|iase/SBC 5 e/SBC|ation/SBC 5` eme/SBC| emateux/ADJ 5 e/ADJ|ose/SBC 5 a/SBC|o/PFX 5 aire/ADJ|opathie/SBC

A.2.3

Suxes (fr equence 5)

Etiquetage (142 suxes sur 489)


1202 - /ADJ:sg 726 - /NN 649 -s/ADJ:pl 604 -e/NN 533 -s/SBC:pl 388 -e/ADJ:sg 234 -o/PFX 209 -aire/ADJ:sg 188 - e/ADJ:sg 168 -me/NN 158 -ique/ADJ:sg 141 -ose/NN 137 -ome/NN 128 -es/ADJ:pl 113 -es/SBC:pl 110 -se/NN 98 -que/ADJ:sg 98 -al/ADJ:sg 80 -ation/NN 79 - de/ADJ:sg 78 -f/ADJ:sg 77 -sarcome/NN 76 -ux/ADJ:pl 69 -le/ADJ:sg 67 -x/ADJ:sg 64 - /PFX 62 54 54 53 51 49 48 46 43 41 38 35 35 -eux/ADJ:sg -ve/ADJ:sg -ite/NN -on/NN -blastome/NN -se/ADJ:sg -ne/ADJ:sg -l/ADJ:sg -o de/ADJ:sg -euse/ADJ:sg -ienne/ADJ:sg -ment/ADV -atose/NN 34 34 33 32 32 32 31 30 30 27 26 24 21 -tique/ADJ:sg -ale/ADJ:sg -ien/ADJ:sg -um/NN - ee/ADJ:sg -cytaire/ADJ:sg -blastique/ADJ:sg -ux/ADJ:sg -ion/NN -us/NN -tion/NN -ie/NN -matose/NN 20 20 20 20 19 18 18 17 17 17 17 16 16 -x/NN -ques/ADJ:pl -ire/ADJ:sg -ement/NN -use/ADJ:sg -ves/ADJ:pl -s/NN -ure/NN -ce/NN -ateux/ADJ:sg -ant/ADJ:sg -ses/ADJ:pl -it e/NN

210

` PARTIR DE SERIES A.2. APPRENTISSAGE A DE SYNONYMES ETIQUET EES ET LEMMATISEES

16 15 14 14 13 13 13 12 12 12 11 11 11 10 10 10

- /ADJ2PAR:sg -carcinome/NN -t/ADJ:sg -opathie/NN -les/ADJ:pl -brome/NN - emie/NN -g` ene/ADJ:sg -cation/NN -ateuse/ADJ:sg -urie/NN -scl erose/NN -ocyte/NN -te/NN -pathie/NN -nte/ADJ:sg

9 9 9 9 9 9 9 9 8 8 8 8 8 7 7 7

-nt/ADJ:sg -nelle/ADJ:sg -nel/ADJ:sg -mateuse/ADJ:sg -gliome/NN -ement/ADV -cytome/NN -ante/ADJ:sg -osarcome/NN -lipome/NN -isation/NN -enne/ADJ:sg -a/NN -ur/NN -sme/NN -oire/ADJ:sg

7 7 7 7 7 7 6 6 6 6 6 6 6 6 6 6

-n/ADJ:sg -logique/ADJ:sg - e/NN -cellulaire/ADJ:sg -ales/ADJ:pl -ad enome/NN -ylique/ADJ:sg -plasie/NN -n/NN -iques/ADJ:pl -ine/NN -ielle/ADJ:sg -glie/NN -g enique/ADJ:sg -er/ADJ:sg - enique/ADJ:sg

6 6 6 5 5 5 5 5 5 5 5 5 5 5 5 5

-` ene/ADJ:sg -endoth eliome/NN -atique/ADJ:sg -yome/NN -x/SBC:pl -ulaire/ADJ:sg -ssement/NN -ses/SBC:pl -qu e/ADJ:sg -oires/ADJ:pl -oblastome/NN -n e/ADJ:sg -mateux/ADJ:sg -logue/ADJ:sg -k eratose/NN -is e/ADJ:sg

5 -inome/NN 5 -inique/ADJ:sg 5 -ilit e/NN 5 -iforme/ADJ:sg 5 -iel/ADJ:sg 5 -iase/NN 5 -gree/NN 5 -g e/ADJ:sg 5 -` ere/ADJ:sg 5 -en/ADJ:sg 5 -dermie/NN 5 -chondrosarcome/NN 5 -a/ADJ:sg

Lemmatisation (107 suxes sur 408)


639 -e 265 - e 245 -o 176 -ique 176 -aire 171 -me 124 -al 122 -ose 113 -se 102 -ome 90 -que 86 - de 79 -sarcome 78 -eux 77 -ation 62 -ite 53 -blastome 47 -ien 44 -on 41 -f 40 -um 40 -er 36 35 35 33 32 31 31 31 28 27 25 24 24 23 22 22 21 20 20 19 19 19 -o de -ement -ant -cytaire -atose -tique -ion -blastique -ux -tion -us -ire -ateux -en -ure -ce -matose -x -nt -opathie -mateux -ie 19 -g` ene 18 -t 16 - emie 15 -s 15 -ocyte 15 -n 15 -carcinome 15 -a 14 -ment 13 -te 13 -nel 13 -it e 13 -brome 12 -` ene 12 -cation 11 -urie 11 -scl erose 11 -pathie 11 -oire 11 -l 10 -osarcome 9 -gliome 9 9 8 8 8 8 8 7 7 7 7 7 6 6 6 6 6 6 6 6 6 6 - enique -cytome -lipome -le -is e -ine -atique -sme -n e -ier -cellulaire -ad enome -ylique -ur -ssement -sion -plasie -logique -isation -ilit e -iforme -glie 6 6 6 6 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 -g enique -g e -endoth eliome -atif -yome -virus -ulaire -qu e -oblastome -logue -k eratose -inique -iase -gree -` eme - emateux -dermie -chondrosarcome -ase

Etiquetage et lemmatisation (109 suxes sur 427)


595 -e/SBC 246 - e/ADJ 243 -o/PFX 215 - /SBC 174 -aire/ADJ 169 -me/SBC 168 -ique/ADJ 144 - /ADJ 123 -ose/SBC 119 -al/ADJ 112 -se/SBC 100 -ome/SBC 89 -que/ADJ 81 - de/ADJ 79 -ation/SBC 78 -eux/ADJ 77 64 62 53 50 42 40 40 39 39 34 33 32 32 31 31 -sarcome/SBC - /PFX -ite/SBC -blastome/SBC -ien/ADJ -on/SBC -f/ADJ -e/ADJ -um/SBC -er/V -o de/ADJ -ant/ADJ -cytaire/ADJ -atose/SBC -tique/ADJ -blastique/ADJ 28 28 25 24 23 22 21 21 20 19 19 18 18 18 18 17 -ux/ADJ -ion/SBC -tion/SBC -ateux/ADJ -us/SBC -ie/SBC -matose/SBC -ement/SBC -ire/ADJ -ure/SBC -opathie/SBC -x/SBC -nt/ADJ -mateux/ADJ -ce/SBC -en/ADJ 16 15 15 15 14 13 13 13 13 12 12 11 11 11 11 11 - emie/SBC -t/ADJ -s/SBC -carcinome/SBC -ocyte/SBC -te/SBC -nel/ADJ -ment/ADV -brome/SBC -g` ene/ADJ -cation/SBC -urie/SBC -scl erose/SBC -pathie/SBC -oire/ADJ -l/ADJ 11 -it e/SBC 11 -ement/ADV 10 -osarcome/SBC 9 -gliome/SBC 9 - e/SBC 9 -cytome/SBC 8 -n/ADJ 8 -lipome/SBC 8 -a/SBC 7 -sme/SBC 7 -n e/ADJ 7 -ine/SBC 7 -cellulaire/ADJ 7 -atique/ADJ 7 -ad enome/SBC 6 -ylique/ADJ

211

` PARTIR DE TERMINOLOGIES ANNEXE A. ACQUISITION DE RESSOURCES MORPHOLOGIQUES A STRUCTUREES

6 6 6 6 6 6 6

-ssement/SBC -plasie/SBC -n/SBC -logique/ADJ -le/ADJ -is e/ADJ -ilit e/SBC

6 6 6 6 6 6

-iforme/ADJ -glie/SBC -g enique/ADJ -g e/ADJ - enique/ADJ -` ene/ADJ

6 5 5 5 5 5 5

-endoth eliome/SBC -yome/SBC -ulaire/ADJ -sion/SBC -qu e/ADJ -oblastome/SBC -logue/ADJ

5 5 5 5 5 5 5

-k eratose/SBC -isation/SBC -inique/ADJ -iase/SBC -gree/SBC -` eme/SBC - emateux/ADJ

5 -dermie/SBC 5 -chondrosarcome/SBC

A.2.4

Pr exes (fr equence 5)

Etiquetage (83 pr exes sur 2 784)


29 25 22 22 20 19 16 16 15 13 13 12 12 11 11 11 10 my eloost eobrobrad enolympholipogranulangioplasmocytchondrom eninglymphocytimmunhistiocyth emangiohyalin9 9 9 9 9 9 9 8 8 8 8 8 8 8 8 8 7 ulc erneuron ephrom elanolymphhyperh epatsynovipapulmyxomonocyth epatogliodentcorticosurr enalacidtubul7 7 7 7 6 6 6 6 6 6 6 6 6 5 5 5 5 tuberculradipapilldermspontan er eticulpustulparasitoligodendrooesophagk eratobronchamygdaltrach ethrombosynovialsegment5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 prot einplasmocytopigmentpharyngpharynpalmmicrocytm etacarpm elanocytmacullocalis eligamentleucocytl eiomyokystimm ediathistiocyto5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 glom erulfroidfollicul epith eli epididym epidermendom etriocylindrcutan echol edocardicarcinobronchiolastrocytad en-

Lemmatisation (58 pr exes sur 1 430)


30 25 23 21 19 16 16 15 13 13 12 12 my eloost eobroad enolympholipoangiobrm eningchondrom elanoh emangio11 granul10 lymph9 r eticul9 radi9 plasmocyt9 neuro9 n ephro9 lymphocyt9 hyper8 papul8 myxo8 h epato8 8 7 7 7 7 7 6 6 6 6 6 h epatglioprot einhistiocytglom eruldermcarcinoulc ertubuloligodendrok eratok erat6 6 5 5 5 5 5 5 5 5 5 5 bronchacidtuberculsynovipustulplasmocytopapillpalmmonocytmicrocytm elanmacul5 5 5 5 5 5 5 5 5 5 lipidl eiomyoimmunhypertrophihistiocyto epidermendom etriodentcardiad en-

Etiquetage et lemmatisation (59 pr exes sur 1 451)


30 25 23 20 19 16 16 15 13 my eloost eobroad enolympholipoangiobrm ening13 chondro12 h emangio11 granul10 lymph9 r eticul9 radi9 plasmocyt9 neuro9 n ephro9 9 9 8 8 8 8 8 7 m elanolymphocythyperpapulmyxoh epatoh epatglioprot ein7 7 7 7 6 6 6 6 6 histiocytglom eruldermacidulc ertubuloligodendrok eratok erat6 5 5 5 5 5 5 5 5 bronchtuberculsynovipustulplasmocytopapillpalmmonocytmicrocyt-

212

` PARTIR DE SERIES A.2. APPRENTISSAGE A DE SYNONYMES ETIQUET EES ET LEMMATISEES

5 m elan5 macul5 lipid-

5 l eiomyo5 immun5 hypertrophi-

5 histiocyto5 epiderm5 endom etrio-

5 dent5 chol edo5 cardi-

5 carcino5 ad en-

A.2.5

Familles

Etiquetage (183 familles sur 1 647)


abdomen/NN, abdomino/PFX, abdominal/ADJ:sg, abdominale/ADJ:sg, abdominaux/ADJ:pl, abdominales/ADJ:pl acanthocyte/NN, acanthrocyte/NN acquis/ADJ:sg, acquise/ADJ:sg, acquises/ADJ:pl adipeux/ADJ:sg, adipeuse/ADJ:sg aection/NN, aectant/VNCNT, aectif/ADJ:sg, aectifs/ADJ:pl, aective/ADJ:sg, aections/SBC:pl alcali/NN, alcalis/SBC:pl amiante/NN, amiantose/NN amylase/NN, amylose/NN, amylo de/NN, amylo dose/NN, amyloses/SBC:pl, amylo de/ADJ:sg angiodysplasie/NN, angiodysplasique/ADJ:sg anomalie/NN, anomalies/SBC:pl ant ero/PFX, ant eexion/NN, ant erieur/ADJ:sg, ant erieure/ADJ:sg, ant erieurs/ADJ:pl apon evrose/NN, apon evroses/SBC:pl, apon evrotique/ADJ:sg arrachement/NN, arrach e/ADJ:sg art eriole/NN, art erioles/SBC:pl, art eriolaire/ADJ:sg astrocyte/NN, astrocytome/NN, astrogliome/NN, astroblastome/NN, astrocytes/SBC:pl, astrocytaire/ADJ:sg atteinte/NN, atteintes/SBC:pl autogree/NN, autologue/ADJ:sg, autoplastique/ADJ:sg bandelette/NN, bandelettes/SBC:pl bilat eral/ADJ:sg, bilat erale/ADJ:sg, bilat eraux/ADJ:pl, bilat erales/ADJ:pl blanc/ADJ:sg, blancs/ADJ:pl branche/NN, branches/SBC:pl, branchial/ADJ:sg, branchiale/ADJ:sg bulle/NN, bulleux/ADJ:sg, bulleuse/ADJ:sg, bulleuses/ADJ:pl callosit e/NN, callosit es/SBC:pl carbone/NN, carbonate/NN, carbonique/ADJ:sg cartilage/NN, cartilages/SBC:pl, cartilagineux/ADJ:sg, cartilagineuse/ADJ:sg certain/ADJ:sg, certains/ADJ:pl, certaines/ADJ:pl chimique/ADJ:sg, chimiques/ADJ:pl chol edoque/NN, chol edocho/PFX, chol edoque/ADJ:sg, chol edocien/ADJ:sg, chol edocholithiase/NN chyle/NN, chylurie/NN, chyloc` ele/NN, chyleux/ADJ:sg clinique/ADJ:sg, clino de/ADJ:sg, cliniquement/ADV colle/NN, collo de/ADJ:sg complexe/NN, complexe/ADJ:sg, complexes/ADJ:pl, complexes/SBC:pl conduit/NN, conduits/SBC:pl conservation/NN, conserv e/ADJ:sg contr ole/NN, contr ol e/ADJ:sg, contr ol e/ADJ2PAR:sg coronarien/ADJ:sg, coronariens/ADJ:pl, coronarienne/ADJ:sg couleur/NN, couleurs/SBC:pl croissant/NN, croissants/SBC:pl culture/NN, cultures/SBC:pl cytopathologie/NN, cytopathologique/ADJ:sg c er ebro/PFX, c er ebral/ADJ:sg, c er ebrale/ADJ:sg, c er ebraux/ADJ:pl, c er ebrales/ADJ:pl dermatologique/ADJ:sg, dermatopathique/ADJ:sg diamniotique/ADJ:sg, diamniotiques/ADJ:pl directe/ADJ:sg, directement/ADV, directes/ADJ:pl diss equant/ADJ:sg, diss equante/ADJ:sg douve/NN, douves/SBC:pl dysfonction/NN, dysfonctions/SBC:pl, dysfonctionnel/ADJ:sg d edi erenciation/NN, d edi erenci e/ADJ:sg d eg en er e/ADJ:sg, d eg en erescence/NN, d eg en eratif/ADJ:sg, d eg en erative/ADJ:sg, d eg en eratives/ADJ:pl d epression/NN, d eprim ee/ADJ:sg, d epressif/ADJ:sg, d epressifs/ADJ:pl d etresse/NN, d etresses/SBC:pl embryon/NN, embryonnaire/ADJ:sg enc ephalite/NN, enc ephalopathie/NN, enc ephalites/SBC:pl, enc ephalitique/ADJ:sg enfant/NN, enfants/SBC:pl ent ero/PFX, ent erite/NN, ent eropathie/NN, ent erique/ADJ:sg, ent erites/SBC:pl, ent ero de/ADJ:sg, ent eropathiques/ADJ:pl exag er ee/ADJ:sg, exag er ees/ADJ:pl exocrine/ADJ:sg, exocrines/ADJ:pl extrapyramidal/ADJ:sg, extrapyramidaux/ADJ:pl faible/ADJ:sg, faibles/ADJ:pl fen etre/NN, fen etr e/ADJ:sg ssure/NN, ssur e/ADJ:sg, ssur ee/ADJ:sg, ssuraire/ADJ:sg fonc e/ADJ:sg, fonc ee/ADJ:sg fracture/NN, fractur e/ADJ:sg, fractures/SBC:pl fum ee/NN, fum ees/SBC:pl galactose/NN, galactosurie/NN, galactos emie/NN, galactokinase/NN genou/NN, genoux/SBC:pl globe/NN, globus/NN, global/ADJ:sg, globale/ADJ:sg gonement/NN, gon e/ADJ:sg grie/NN, gries/SBC:pl g en eral/ADJ:sg, g en erale/ADJ:sg, g en eraux/ADJ:pl, g en eralement/ADV, g en erales/ADJ:pl, g en eralis e/ADJ:sg, g en eralis ee/ADJ:sg, g en eralis es/ADJ:pl, g en eralis ees/ADJ:pl hidrad enite/NN, hidrosad enite/NN huile/NN, huilome/NN, huiles/SBC:pl, huileuse/ADJ:sg hydrops/NN, hydropisie/NN hyperparathyro die/NN, hyperparathyro dies/SBC:pl hypoglyc emies/SBC:pl, hypoglyc emique/ADJ:sg hypothalamus/NN, hypothalamique/ADJ:sg h ematie/NN, h emato/PFX, h ematite/NN, h ematome/NN, h ematies/SBC:pl, h ematique/ADJ:sg h epato/PFX, h epatite/NN, h epatome/NN, h epatico/PFX, h epatocyte/NN, h epatopathie/NN, h epatique/ADJ:sg, h epatites/SBC:pl, h epatiques/ADJ:pl, h epatoblastome/NN, h epatocarcinome/NN, h epatocholangiome/NN, h epatocellulaire/ADJ:sg, h epatocellulaires/ADJ:pl, h epatocholangiocarcino-

213

` PARTIR DE TERMINOLOGIES ANNEXE A. ACQUISITION DE RESSOURCES MORPHOLOGIQUES A STRUCTUREES

nentes/ADJ:pl me/NN, h epatocholangiocellulaire/ADJ:sg phlegmon/NN, phlegmoneuse/ADJ:sg ilio/PFX, ilion/NN pian/NN, pianique/ADJ:sg, pianiques/ADJ:pl implant/NN, implants/SBC:pl plantes/SBC:pl, plantaire/ADJ:sg, plantaires/ADJ:pl incompatibilit e/NN, incompatible/ADJ:sg pli e/ADJ:sg, pli ee/ADJ:sg ind etermin e/ADJ:sg, ind etermin ee/ADJ:sg polyembryome/NN, polyembryonique/ADJ:sg inguinal/ADJ:sg, inguinale/ADJ:sg, inguinaux/ADJ:pl pont/NN, ponto/PFX intention/NN, intentionnelle/ADJ:sg postmaturit e/NN, postmature/ADJ:sg intervention/NN, interventions/SBC:pl principal/ADJ:sg, principale/ADJ:sg, principalement/ADV, intramural/ADJ:sg, intramurale/ADJ:sg principales/ADJ:pl investigation/NN, investigations/SBC:pl profondeur/NN, profond/ADJ:sg, profonde/ADJ:sg, projambe/NN, jambes/SBC:pl fonds/ADJ:pl, profondes/ADJ:pl ko locytose/NN, ko locytaire/ADJ:sg proportionn e/ADJ:sg, proportionnel/ADJ:sg laiss e/ADJ:sg, laiss ee/ADJ:sg pro eminent/ADJ:sg, pro eminentes/ADJ:pl lentille/NN, lentilles/SBC:pl eleuc emie/NN, pr eleuc emique/ADJ:sg ligament/NN, ligaments/SBC:pl, ligamenteux/ADJ:sg, liga- pr pr esentation/NN, pr esentations/SBC:pl mentaire/ADJ:sg liquide/NN, liquide/ADJ:sg, liquides/SBC:pl, liqui- pubis/NN, pubien/ADJ:sg, pubienne/ADJ:sg putr efaction/NN, putr e e/ADJ:sg, putrescent/ADJ:sg dienne/ADJ:sg p edoncule/NN, p edoncul e/ADJ:sg lombosacr e/ADJ:sg, lombosacr ees/ADJ:pl p erin ee/NN, p erin eal/ADJ:sg, p erin eale/ADJ:sg lymphorrh ee/NN, lymphorragie/NN p eriapical/ADJ:sg, p eriapicale/ADJ:sg, p eriapicaux/ADJ:pl, l epromateux/ADJ:sg, l epromateuse/ADJ:sg p eriodontique/ADJ:sg, p eriodontiques/ADJ:pl majeur/ADJ:sg, majeure/ADJ:sg, majeures/ADJ:pl radical/NN, radicale/ADJ:sg mamelon/NN, mamelonnaire/ADJ:sg rare/ADJ:sg, rarement/ADV massif/ADJ:sg, massive/ADJ:sg remplacement/NN, remplac e/ADJ:sg membre/NN, membres/SBC:pl rompu/ADJ:sg, rompue/ADJ:sg, rompu/ADJ2PAR:sg migraine/NN, migraines/SBC:pl, migraineux/ADJ:sg r ecidive/NN, r ecidivant/ADJ:sg, r ecidivante/ADJ:sg, mod er e/ADJ:sg, mod er ee/ADJ:sg r ecidivants/ADJ:pl, r ecidivantes/ADJ:pl mort/NN, mort/ADJ:sg, morts/ADJ:pl eparation/NN, r epar e/ADJ:sg multiple/ADJ:sg, multiples/ADJ:pl, multifocal/ADJ:sg, mul- r r etrocession/NN, r etroexion/NN tifocale/ADJ:sg sarco de/NN, sarco dose/NN, sarco dosique/ADJ:sg myobrome/NN, myobrose/NN, myobromatose/NN secondaire/ADJ:sg, secondaires/ADJ:pl my eloplaxe/NN, my eloplaxes/SBC:pl service/NN, services/SBC:pl m edia/NN, m edio/PFX, m edian/ADJ:sg, m ediane/ADJ:sg m eningo/PFX, m eningite/NN, m eningiome/NN, sinusite/NN, sinusites/SBC:pl, sinusienne/ADJ:sg m ening e/ADJ:sg, m eninges/SBC:pl, m ening ee/ADJ:sg, souche/NN, souche/ADJ:sg, souches/ADJ:pl m ening ees/ADJ:pl, m eningiomatose/NN, m eningites/SBC:pl, spina/NN, spinal/ADJ:sg, spinale/ADJ:sg, spinales/ADJ:pl sport/NN , sportif/ADJ:sg, sportive/ADJ:sg, sporm eningiomes/SBC:pl, m eningoth eliome/NN, m eningioblastome/NN , tives/ADJ:pl m eningoth elial/ADJ:sg m etacarpe/NN, m etacarpo/PFX, m etacarpien/ADJ:sg, stature/NN, statural/ADJ:sg, staturale/ADJ:sg structure/NN, structurel/ADJ:sg, structures/SBC:pl, strucm etacarpiens/ADJ:pl, m etacarpienne/ADJ:sg naso/PFX, nasopharynx/NN, nasopharyng e/ADJ:sg, naso- turels/ADJ:pl sudoripare/ADJ:sg, sudoripares/ADJ:pl pharyngien/ADJ:sg surnum eraire/ADJ:sg, surnum eraires/ADJ:pl neutrop enie/NN, neutrop enique/ADJ:sg synapse/NN, synaptique/ADJ:sg nourrisson/NN, nourrissons/SBC:pl s ebac e/ADJ:sg, s ebac ee/ADJ:sg n egligence/NN, n egligences/SBC:pl s eron egatif/ADJ:sg, s eron egative/ADJ:sg observation/NN, observations/SBC:pl odontome/NN, odontog en` ese/NN, odontosarcome/NN, odon- tendineux/ADJ:sg, tendineuse/ADJ:sg, tendineuses/ADJ:pl tog` ene/ADJ:sg, odontog` enes/ADJ:pl, odontog enique/ADJ:sg thrombo/PFX, thrombus/NN, thrombose/NN, thrombocyte/NN, thrombocytose/NN, thrombos e/ADJ:sg, thromoophoro/PFX, oophorite/NN boses/SBC:pl, thrombosant/ADJ:sg, thrombos ees/ADJ:pl, orbite/NN, orbitale/ADJ:sg, orbitaire/ADJ:sg thrombotique/ADJ:sg, thrombocytaire/ADJ:sg orthop edique/ADJ:sg, orthop ediques/ADJ:pl tissus/SBC:pl, tissulaire/ADJ:sg, tissuost eo/PFX, ost eite/NN, ost eome/NN, ost eose/NN, tissu/NN, ost eoblaste/NN, ost eodermie/NN, ost eobrome/NN, laires/ADJ:pl ost eosarcome/NN, ost eo de/ADJ:sg, ost eoblastome/NN, transitionnel/ADJ:sg, transitionnelle/ADJ:sg, transitionnelles/ADJ:pl ost eochondrome/NN, ost eog enique/ADJ:sg, ost eobrosarcome/NN , tricholeuc emie/NN , tricholeucocyte/NN, tricholeucoost eoblastique/ADJ:sg, ost eochondromatose/NN, ost eochondrosarcome/NN , cytes/SBC:pl, tricholymphocytes/SBC:pl ost eocartilagineuse/ADJ:sg tronc/NN, troncs/SBC:pl oxyphile/ADJ:sg, oxyphiles/ADJ:pl efaction/NN, tum e e/ADJ:sg, tum efactions/SBC:pl papille/NN, papillome/NN, papilles/SBC:pl, papilloma- tum etrachlorure/NN, t etrachloro ethyl` ene/NN tose/NN, papillaire/ADJ:sg, papillaires/ADJ:pl, papil- t uropathie/NN, uropathies/SBC:pl lif` ere/ADJ:sg, papillok eratose/NN, papillokystique/ADJ:sg parasite/NN, parasitose/NN, parasite/ADJ:sg, para- vagin/NN, vagino/PFX, vaginite/NN, vaginal/ADJ:sg, vaginale/ADJ:sg, vaginales/ADJ:pl sites/SBC:pl, parasitaire/ADJ:sg, parasitaires/ADJ:pl vasculo/PFX, vasculite/NN, vasculaire/ADJ:sg, vascupathologie/NN, pathologique/ADJ:sg, pathologiques/ADJ:pl permanent/ADJ:sg, permanente/ADJ:sg, perma- laires/ADJ:pl

214

` PARTIR DE SERIES A.2. APPRENTISSAGE A DE SYNONYMES ETIQUET EES ET LEMMATISEES

vert` ebre/NN, vert ebro/PFX, vert` ebres/SBC:pl, vert ebral/ADJ:sg e,pith elium/NN, epith eliale/NN, epith elioma/NN, vert ebrale/ADJ:sg, vert ebraux/ADJ:pl, vert ebrales/ADJ:pl epith eliome/NN, epith elial/ADJ:sg, epith elisation/NN, visuel/ADJ:sg, visuelles/ADJ:pl epith eliale/ADJ:sg, epith eliales/ADJ:pl, epith eliosarcome/NN, vomissure/NN, vomies/ADJ:sg, vomissures/SBC:pl epith elio de/ADJ:sg, epith elio des/ADJ:pl, epith eliomateuse/ADJ:sg xanthome/NN, xanth elasma/NN, xanthomatose/NN, xantho- erythr emie/NN, erythrocyte/NN, erythroblaste/NN, brome/NN, xanthinique/ADJ:sg, xanthomateux/ADJ:sg erythroleucose/NN, erythro de/ADJ:sg, erythroblastose/NN, elargi/ADJ:sg, elargissement/NN erythroleuc emie/NN, erythrocytes/SBC:pl, erythr emique/ADJ:sg, enanth` eme/NN, enanth emateux/ADJ:sg erythrocytaire/ADJ:sg, erythroblastique/ADJ:sg, erythropo etique/ADJ:sg epididyme/NN, epididymo/PFX, epididymite/NN, epididymes/SBC:pl, epididymaire/ADJ:sg

Lemmatisation (178 familles sur 1 064)


abdomen, abdomino, abdominal acanthocyte, acanthrocyte actinomycose, actinomycosique adolescent, adolescence agglutin e, agglutination allergie, allergique amibe, amibien, amibiase amput e, amputer, amputation anastomose, anastomotique anguleux, angulation anormal, anormalement aorte, aorto, aortite, aortique arachno de, arachno dien arthrite, arthrose, arthropathie, arthropathique associ e, associer, association ataxie, ataxique atypie, atypique autologue, autogree, autoplastique baso, basocellulaire, basospinocellulaire bless e, blessure bronche, broncho, bronchite, bronchique, bronchectasie, bronchiectasie, bronchog enique b eryllium, b erylliose calcium, calcaire, calci e, calciant, calcication carbone, carbonate, carbonique cartilage, cartilagineux chang e, changeant, changement chlore, chlorome, chlorure chondromalacie, chondromalacique chrome, chronique circulant, circulaire, circulation, circulatoire coagulant, coagulation colorant, coloration comportement, comportemental conscient, conscience contamin e, contaminer convergent, convergence cortico, cortical cristal, cristallin cutan e, cutan eo cytopathologie, cytopathologique c ero de, c ero do dermatobrome, dermatobrosarcome diagnostic, diagnostique dilat e, dilatation distordu, distorsion duod eno, duod enal, duod enum, duod enite dystrophie, dystrophique d edoubl e, d edoublement d ependant, d ependance d eshydrase, d eshydratase ecchondrome, ecchondrose emphys` eme, emphys emateux endocrin, endocrine, endocrinien enfant, enfance envahissant, envahissement excav e, excavation explicatif, explication fascia, fascial bre, bro, breux, brine, brome, brose, bro de, brineux, brocyte, brosant, brino de, bromyome, brillaire, brinog` ene, broblaste, brolipome, bromateux, bromatose, bromyxome, broplasie, brosarcome, brokystique, broplasique, broscl erose, broscl eros e, broxanthome, broblastique, bromyxolipome, broliposarcome, bromyxosarcome, broam eloblastique, brochondrosarcome ` evre, ` evreux fongique, fongo de fructose, fructosurie, fructos emie, fructokinase f emoro, f emoral gangr` ene, gangreneux glio, gliome, gliose, gliomatose, gliosarcome, glioblastome glucagon, glucagonome gonocoque, gonorrhoeae grippe, grippal helminthe, helminthiase histochimie, histochimique hyalin, hyalinis e, hyalinose, hyalinisation hyperchrome, hyperchromie, hyperchromatique hypers ecr etion, hypers ecr etoire hypokali emie, hypokali emique hypostase, hypostatique h ematom` etre, h ematom etrie h emoglobine, h emoglobinose, h emoglobinurie, h emoglobinopathie h epato, h epatico, h epatite, h epatome, h epatique, h epatocyte, h epatopathie, h epatoblastome, h epatocarcinome, h epatocellulaire, h epatocholangiome, h epatocholangiocarcinome, h epatocholangiocellulaire identi e, identiable, identication implant, implant e, implantation indent e, indentation inltrant, inltration insusant, insusance invagin e, invaginant, invagination isch emie, isch emique kuper, kuperome lactase, lactate, lactose, lactique leptocyte, leptocytose lich eni e, lich enication lipogranulome, lipogranulomatose

215

` PARTIR DE TERMINOLOGIES ANNEXE A. ACQUISITION DE RESSOURCES MORPHOLOGIQUES A STRUCTUREES

local, localis e, localiser, localisation lysosome, lysosomial malade, maladie margin e, margination mention, mentionn e min eral, min eralis e, min eralisation morphologie, morphologique multiple, multifocal myocyte, myocarde, myocardique my elinolyse, my elinoclasie m ediat, m ediation m edullo, m edullaire m esangial, m esangium m etacarpe, m etacarpo, m etacarpien m eth emoglobine, m eth emoglobin emie neutrophile, neutrophilie, neutrophilique nucl eole, nucl eolaire n evrite, n evritique occlu, occlusif, occlusion oligodendrocyte, oligodendroglie, oligodendrocytome, oligodendrogliome, oligodendrocytaire, oligodendroblastome op eration, op eratoire ossi e, ossiant, ossication ouvert, ouverture pallidu, pallidum parane, paranome parent, parental pelvi, pelvis, pelvien, pelvip eritonite phaeohyphomycose, phaeohyphomycosique phosphore, phosphor e pilomatrixome, pilomatricaire plaquette, plaquettaire pneumonie, pneumoniae, pneumocoque, pneumopathie polyurie, polyurique porte, portal, portant, porteur premier, premi` erement profession, professionnel promy elocyte, promy elocytaire prot eine, prot eino, prot einase, prot einose, prot einique, prot einurie pr eleuc emie, pr eleuc emique pr eservatif, pr eservation pulpe, pulpeux, pulpaire pyog` ene, pyog enique p edoncule, p edoncul e p erin ee, p erin eal

p eron e, p eronier radiculaire, radiculopathie recto, rectu, rectal, rectum rhabdomyome, rhabdomyosarcome, rhabdomyoblastique rouge, rougeur r eduit, r eductible r ep et e, r ep eter, r ep etition r etrop eritoine, r etrop eriton eal sacro, sacr e, sacrum schizophr enie, schizophr enique section, sectionn e sertoli, sertolien sinus, sinusal, sinusien, sinusite soup conn e, soup conneux spina, spinal spongioblaste, spongioblastome squame, squameux stomatocyte, stomatocytose st enose, st enos e, st enosant, st enotique superinvolutif, superinvolution synapse, synaptique s equestre, s equestr e, s equestration teint, teinture thalass emie, thalass emique th ecal, th ecome trach ee, trach eo, trach eal, trach eite transplant, transplant e, transplantation trichiura, trichuris, trichoc ephale, trichoc ephalose tubercule, tuberculeux, tuberculose, tuberculosi, tuberculo de t enia, t eniase urine, urinaire utilis e, utilisation valve, valvule, valvulaire vasculo, vasculite, vasculaire, vasculopathie vers, version vitamine, vitamino v eri e, v erication echancr e, echancrure elargi, elargissement epais, epaissi, epaississement epiglotte, epiglotto, epiglottite, epiglottique epith elial, epith elium, epith eliale, epith elioma, epith eliome, epith elio de, epith elisation, epith eliomateux, epith eliosarcome eruptif, eruption evolutif, evolution

Etiquetage et lemmatisation (180 familles sur 1 078)


abdomen/SBC, abdomino/PFX, abdominal/ADJ acanthocyte/SBC, acanthrocyte/SBC actinomycose/SBC, actinomycosique/ADJ administr e/ADJ, administratif/ADJ, administration/SBC aaiss e/ADJ, aaissement/SBC aliment/SBC, alimentaire/ADJ, alimentation/SBC amiante/SBC, amiantose/SBC amphophile/ADJ, amphophilie/SBC analg esie/SBC, analg esique/ADJ, analg esique/SBC angiome/SBC, angiomyome/SBC, angiolipome/SBC, angiomateux/ADJ, angiomatose/SBC, angiomyxome/SBC, angiobrome/SBC, angiosarcome/SBC, angioblastome/SBC, angiochoriome/SBC, angiok eratome/SBC, angiok eratose/SBC, angioscl erose/SBC, angioblastique/ADJ, angiol eiomyome/SBC, angiomyolipome/SBC, angiomyosarcome/SBC, angior eticulome/SBC, angioendoth eliome/SBC, angioendoth eliomatose/SBC annul e/SBC, annulaire/ADJ an emie/SBC, an emique/ADJ appendice/SBC, appendico/PFX, appendicite/SBC, appendiculaire/ADJ arrh enome/SBC, arrh enoblastome/SBC art erio/PFX, art erioveineux/ADJ, art erioscl ereux/ADJ, art erioscl erose/SBC, art erioscl erotique/ADJ astrocyte/SBC, astrocytome/SBC, astrogliome/SBC, astrocytaire/ADJ, astroblastome/SBC atrophie/SBC, atrophiant/ADJ, atrophique/ADJ, atrophodermie/SBC

216

` PARTIR DE SERIES A.2. APPRENTISSAGE A DE SYNONYMES ETIQUET EES ET LEMMATISEES

h ematologique/ADJ, h ematopo etique/ADJ autolyse/SBC, autolytique/ADJ h emolyse/SBC, h emolytique/ADJ baryum/SBC, barytose/SBC h et erotopie/SBC, h et erotopique/ADJ bilieux/ADJ, biliaire/ADJ identi e/ADJ, identiable/ADJ, identication/SBC branche/SBC, branchial/ADJ implant/SBC, implant e/ADJ, implantation/SBC bulle/SBC, bulleux/ADJ indur e/ADJ, induration/SBC calcique/ADJ, calcinose/SBC inammation/SBC, inammatoire/ADJ canal/SBC, canalaire/ADJ cardia/SBC, cardio/PFX, cardite/SBC, cardiaque/ADJ, car- insusant/ADJ, insusance/SBC invagin e/ADJ, invaginant/ADJ, invagination/SBC diopathie/SBC, cardiom egalie/SBC isch emie/SBC, isch emique/ADJ cavit e/SBC, cavitaire/ADJ, cavitation/SBC kuper/SBP, kuperome/SBC chimiotaxie/SBC, chimiotactisme/SBC lactase/SBC, lactate/SBC, lactose/SBC, lactique/ADJ cholest erol/SBC, cholest eatome/SBC leptocyte/SBC, leptocytose/SBC choro de/ADJ, choro de/SBC, choro dien/ADJ lich eni e/ADJ, lich enication/SBC cili e/ADJ, ciliaire/ADJ lipogranulome/SBC, lipogranulomatose/SBC clitoris/SBC, clitorido/PFX, clitoridien/ADJ local/ADJ, localiser/V, localis e/ADJ, localisation/SBC colle/SBC, collo de/ADJ lysosome/SBC, lysosomial/ADJ compl ement/SBC, compl ementaire/ADJ malade/ADJ, maladie/SBC conrm e/ADJ, conrmation/SBC mandibule/SBC, mandibulo/PFX, mandibulaire/ADJ consolid e/ADJ, consolidation/SBC mastite/SBC, mastopathie/SBC contraceptif/ADJ, contraceptif/SBC, contraception/SBC microscope/SBC, microscopie/SBC, microscopique/ADJ, corn ee/SBC, corn een/ADJ microphotographie/SBC coupe/SBC, coupure/SBC modier/V, modi e/ADJ, modication/SBC cryoglobuline/SBC, cryoglobulin emie/SBC morph ee/SBC, morph eiforme/ADJ cyanure/SBC, cyanhydrique/ADJ cytologie/SBC, cytopathie/SBC, cytologique/ADJ, cytopa- multiloculari/ADJ, multiloculaire/ADJ mycose/SBC, mycosis/SBC, mycosique/ADJ thique/ADJ myxome/SBC, myxo de/ADJ, myxolipome/SBC, myxomac er ebro/PFX, c er ebral/ADJ derme/SBC, dermo/PFX, dermite/SBC, dermique/ADJ, teux/ADJ, myxobrome/SBC, myxosarcome/SBC, myxolidermo de/ADJ, dermatite/SBC, dermatose/SBC, dermato- posarcome/SBC m ediastin/SBC, m ediastinal/ADJ sis/SBC m edullo/PFX, m edullaire/ADJ, m edullaire/SBC diaphragme/SBC, diaphragmatique/ADJ m esangial/ADJ, m esangium/SBC discriminant/ADJ, discrimination/SBC m etacarpe/SBC, m etacarpo/PFX, m etacarpien/ADJ donner/V, donn e/ADJ m eth emoglobine/SBC, m eth emoglobin emie/SBC durci/ADJ, durcissement/SBC neutrophile/ADJ, neutrophile/SBC, neutrophilie/SBC, neud ecoll e/ADJ, d ecollement/SBC trophilique/ADJ d eg en er e/ADJ, d eg en eratif/ADJ, d eg en erescence/SBC nutrition/SBC, nutritionnel/ADJ d eplac e/ADJ, d eplacement/SBC n evroglie/SBC, n evroglique/ADJ d esoxyad enosine/SBC, d esoxyad enylique/ADJ occlu/ADJ, occlusif/ADJ, occlusion/SBC ectasie/SBC, ectasi e/ADJ ol ecr ane/SBC, ol ecr anien/ADJ enclav e/ADJ, enclavement/SBC op eration/SBC, op eratoire/ADJ endoscope/SBC, endoscopie/SBC, endoscopique/ADJ ossi e/ADJ, ossiant/ADJ, ossication/SBC enroul e/ADJ, enroulement/SBC ouvert/ADJ , ouverture/SBC esth esioneuro/PFX, esth esioneurome/SBC, esth esioneurocytome/SBC , palmo/PFX, palm e/ADJ, palmure/SBC, palmaire/ADJ, palesth esioneuroblastome/SBC mature/SBC exfoliatif/ADJ, exfoliation/SBC parak eratose/SBC, parak eratosique/ADJ extr eme/ADJ, extr eme/SBC, extr emement/ADV pari eto/PFX, pari etal/ADJ faux/ADJ, faux/SBC pemphigus/SBC, pemphigo de/ADJ, pemphigo de/SBC gure/SBC, gur e/ADJ phalange/SBC, phalangien/ADJ uor/SBC, uor e/ADJ, uorure/SBC photographie/SBC, photomicrographie/SBC fracture/SBC, fractur e/ADJ pinguicula/SBC, pingu ecula/SBC fr equent/ADJ, fr equence/SBC, fr equemment/ADV galactose/SBC, galactosurie/SBC, galactos emie/SBC, galac- plasmocyte/SBC, plasmocytome/SBC, plasmocytose/SBC, plasmocytaire/ADJ, plasmocyto de/ADJ, plasmocytosartokinase/SBC come/SBC gastro/PFX, gastrite/SBC, gastrique/ADJ poil/SBC, poilu/ADJ glissant/ADJ, glissement/SBC polype/SBC, polypose/SBC, polypo de/ADJ, poglycog enose/SBC, glycog enique/ADJ lyad enome/SBC, polyad enomatose/SBC graisse/SBC, graisseux/ADJ positif/ADJ, position/SBC g en eral/ADJ, g en eralis e/ADJ, g en eralement/ADV principal/ADJ, principalement/ADV herp` es/SBC, herp etique/ADJ, herp` esvirus/SBC progresser/V, progressif/ADJ, progression/SBC homologue/ADJ, homogree/SBC propre/ADJ, proprement/ADV hydroc ephale/SBC, hydroc ephalie/SBC ecipit e/ADJ, pr ecipit e/SBC, pr ecipitation/SBC hyperimmunoglobuline/SBC, hyperimmunoglobulin emie/SBC pr pr em enopause/SBC, pr em enopausique/ADJ hypertensif/ADJ, hypertension/ADJ, hypertension/SBC psycho/PFX, psych e/SBC, psychose/SBC, psychique/ADJ, hypopharynx/SBC, hypopharyng e/ADJ psychog` ene/ADJ, psychoactif/ADJ, psychotique/ADJ hypothalamus/SBC, hypothalamique/ADJ

217

` PARTIR DE TERMINOLOGIES ANNEXE A. ACQUISITION DE RESSOURCES MORPHOLOGIQUES A STRUCTUREES

enie/SBC, thrombop enique/ADJ, thrombocypustule/SBC, pustulo/PFX, pustuleux/ADJ, pustulaire/ADJ thrombop top enie/SBC py elo/PFX, py elite/SBC, py elique/ADJ tissu/SBC, tissulaire/ADJ p ericyte/SBC, p ericarde/SBC, p ericardique/ADJ trame/SBC, tramatique/ADJ p eritoine/SBC, p eriton eal/ADJ transs equer/V, transs equ e/ADJ, transversu/ADJ, transverrachis/SBC, rachidien/ADJ sal/ADJ, transneuronal/ADJ, transposition/SBC, transsyratatin e/ADJ, ratatinement/SBC naptique/ADJ, transversalement/ADV respiration/SBC, respiratoire/ADJ trigone/ADJ, trigone/SBC rompre/V, rompu/ADJ trouble/ADJ, trouble/SBC r ecent/ADJ, r ecemment/ADV tympan/SBC, tympanique/ADJ r eg en er e/ADJ, r eg en eration/SBC uridine/SBC, uridylique/ADJ r etine/SBC, r etinien/ADJ, r etinocytome/SBC, r etinoblastome/SBC ur et ero/PFX, ur et eral/ADJ, ur et erite/SBC r evis e/ADJ, r evision/SBC vagin/SBC, vagino/PFX, vaginal/ADJ, vaginite/SBC satellite/ADJ, satellitose/SBC vascularis e/ADJ, vascularisation/SBC scroto/PFX, scrotal/ADJ, scrotum/SBC verrue/SBC, verruqueux/ADJ septal/ADJ, septum/SBC villo/PFX, villeux/ADJ silice/SBC, silicate/SBC, silicium/SBC, silicatose/SBC vulve/SBC, vulvo/PFX, vulvae/ADJ, vulvite/SBC, vulsouche/ADJ, souche/SBC vaire/ADJ sperme/SBC, spermatique/ADJ, spermatozo de/SBC wol/SBP, wolen/ADJ spirale/SBC, spiro de/ADJ ecras e/ADJ, ecrasement/SBC spontan e/ADJ, spontan ement/ADV electron/SBC, electronique/ADJ squirrhe/SBC, squirrheux/ADJ epiderme/SBC, epidermo/PFX, epidermique/ADJ, strie/SBC, stri e/ADJ epidermo de/ADJ subinvolutif/ADJ, subinvolution/SBC epiplo/PFX, epiploon/SBC, epiplo que/ADJ susceptible/ADJ, susceptibilit e/SBC era e/ADJ, eraure/SBC syringoad enome/SBC, syringocystad enome/SBC eventr e/ADJ, eventration/SBC s ev` ere/ADJ, s ev` erement/ADV tendon/SBC, tendineux/ADJ

A.3
A.3.1

Apprentissage ` a partir dautres relations s emantiques encod ees dans les terminologies
R` egles (fr equence 5)

Relations hi erarchiques de la SNOMED (162 r` egles sur 606)


1140 |s 290 |e 143 |es 74 e|ique 67 e|aire 64 e|que 60 e|s 55 e|ation 53 x|se 43 l|ux 42 o|al 42 e|o 40 le|ux 40 e|ose 39 o|ale 38 o|ite 36 es|aire 36 e|ome 34 |ment 34 f|ve 33 |ne 33 |le 32 e| e 31 31 31 28 26 25 23 23 23 23 23 22 22 21 20 20 20 20 20 20 20 20 19 me|sarcome e|ite e|atose f|on o|aire te|que se|tique on|ve o|ique me|se e|ienne o|es e|aires |ux |se ome|ique o|ales eux|ose es|ique e|ques ee|ation e|ale |use 19 18 18 18 18 18 18 18 17 17 17 16 16 16 16 16 15 15 15 15 14 14 13 e|al t|ce |nes me| de me|blastome f|ves es|ose e|ement x|ses e|iques e|ateux ose|euse es|que es|aires e|ien e|ie ose|aire o|aux |les e|o de e|it e |cyte se| de 13 ome|aire 13 nt|tion 13 es|ite 13 al|um 13 ale|ite 12 s|nes 12 e|ateuse 11 o|um 11 ose|ique 11 e|urie 11 al|ome 11 al|ite 11 |ale 10 um|ale 10 |pathie 10 ite|aire 10 e|ure 10 es|ienne 10 e|es 10 e|ant 10 cyte|blaste 9 s|ux 9 o| ee 9 o| e 9 |o 9 |nelle 9 |nel 9 |n 9 me|brome 9 me|blastique 9 e|aire 9 blaste|cytaire 9 |al 8 sarcome|blastome 8 o|iques 8 me|lipome 8 ite|ose 8 ite|opathie 8 ire|tion 8 ique|o de 8 e|isation 8 e|is 8 ale|ome 8 |aire 8 a|e 7 |x 7 que|sme 7 ome|ales 7 |ome 7 o|ine 7 o|ien 7 me|carcinome 7 mateuse|sarcome 7 ion|oire 7 de|cyte 7 es|o de 7 es|it e 7 en|te 7 e|iennes 7 cytome|blastome 7 |blaste 6 us|ique 6 se|pathie 6 se|matose 6 o|us 6 o| ees 6 |ite

218

` PARTIR DAUTRES RELATIONS SEMANTIQUES A.3. APPRENTISSAGE A ENCODEES DANS LES TERMINOLOGIES

6 de|blaste 6 brome|sarcome 6 e|opathie 6 e| emie 6 e|atique

6 6 5 5 5

|cytaire al|us x|g e |virus |vasculaire

5 5 5 5 5

um|que se|tiques se|p enie o|ienne |nement

5 5 5 5 5

|n e me|scl erose me|cytaire ion|oires e|yome

5 5 5 5 5

e|ures es|ien e|on ` ene| enique ` eme| emateux

5 |cytose

Relations transversales de la SNOMED (136 r` egles sur 447)


1140 |s 290 |e 143 |es 74 e|ique 67 e|aire 64 e|que 60 e|s 55 e|ation 53 x|se 43 l|ux 42 o|al 42 e|o 40 le|ux 40 e|ose 39 o|ale 38 o|ite 36 es|aire 36 e|ome 34 |ment 34 f|ve 33 |ne 33 |le 32 e| e 31 31 28 26 25 23 23 23 23 23 22 22 21 20 20 20 20 20 20 20 19 19 19 e|ite e|atose f|on o|aire te|que se|tique on|ve o|ique me|se e|ienne o|es e|aires |ux |se ome|ique eux|ose es|ique e|ques ee|ation e|ale |use e|ant e|al 18 18 18 18 18 17 17 17 17 16 16 16 16 15 15 15 14 13 13 13 13 12 11 |nes f|ves es|ose es|ome e|ement x|ses |me e| ee e|ateux ose|euse es|aires e|ien e|ie o|aux | de e|o de e|it e nt|tion es|ite e|ante al|um e|ateuse o|um 11 nte|tion 11 e|urie 11 al|ite 11 |ale 10 um|ale 10 |pathie 10 o|eux 10 ite|aire 10 ine|ose 10 es|ienne 10 e|es 10 e|ant 9 s|ux 9 o| e 9 |o 9 |nelle 9 |nel 9 |n 9 fs|on 9 eux|aire 9 |al 8 us|ale 8 o|euse 8 8 8 8 8 8 8 8 7 7 7 7 7 7 7 7 6 6 6 6 6 6 6 |l ite|ose ire|tion ique|o de |ique e|is e|ante |aire |x te|ques que|sme |ome o|ien ion|oire en|te e|iennes us|ique se|matose o|us |lyse |ite e|opathie e|atique 6 6 6 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 a|o al|us al|es x|g e |virus um|que |stomie ses|tique o|ectomie |lithiase ire|ris ion|oires es|ien er|` ere e|olyse ` ene| enique ` eme| emateux e|ite e|iase |c` ele aire|euse

Relations hi erarchiques de la CIM10 (75 r` egles sur 247)


1140 |s 290 |e 143 |es 74 e|ique 67 e|aire 64 e|que 60 e|s 55 e|ation 53 x|se 43 s|es 43 l|ux 42 o|al 42 e|o 40 39 38 36 33 33 31 28 26 26 25 23 23 le|ux o|ale o|ite es|aire |ne |le e|ite f|on ux|les o|aire te|que se|tique on|ve 23 22 22 21 20 20 20 19 18 18 18 18 18 e|ienne o|es e|aires |ux es|ique ee|ation e|ale e|al t|ce s|ne |nes me| de f|ves 17 x|ses 17 e|iques 16 ose|euse 16 o|aires 16 es|aires 13 es|ite 13 al|um 12 s|le 12 fs|ve 12 e| es 11 o|um 10 |pathie 9 s|ux 9 9 9 8 8 8 8 8 8 7 7 7 7 |nel me|blastique fs|on us|ale on|ves o|iques |ique fs|ves e|iens |x |uses |pathies es|it e 7 en|te 7 e|iennes 6 o|us 6 ite|ales 6 |ite 6 de|blastique 6 | ee 5 x|g e 5 ses|tique 5 ite|opathies

A.3.2

Suxes (fr equence 5)

Relations hi erarchiques de la SNOMED (131 suxes sur 464)


1248 -s 1099 -e 346 -o 332 -es 203 167 167 164 -aire -me -ique -se 155 149 144 127 - e -ite -ose -que 118 116 113 106 -ome -al -ux -ale 98 83 80 78 -x -ation -f -le 69 62 59 57 - de -on -sarcome -ve

219

` PARTIR DE TERMINOLOGIES ANNEXE A. ACQUISITION DE RESSOURCES MORPHOLOGIQUES A STRUCTUREES

50 47 46 43 40 37 37 36 35 34 34 34 33 31 31 31 30 30

-blastome -um -aires -l -ienne -eux - ee -ne -te -ment -cyte -blaste -ien -o de -iques -atose -tique -nes

29 29 29 28 27 24 22 21 21 21 20 19 19 19 18 18 18 18

-brome -cytaire -ales -us -euse -opathie -it e -tion -ques -n -pathie -use -t -ce -ves -ine -ie -ement

17 17 16 15 15 15 14 14 14 14 14 13 13 13 12 11 11 11

-ses -ateux -les -ure -en -aux -urie -scl erose -nt -ire -ateuse -matose -mateuse -lipome -ion - emie -cytome -carcinome

11 -ant 10 -plasique 10 -plasie 10 -ologique 10 -isation 10 -g enique 10 -blastique 9 -nelle 9 -nel 9 -is 9 -endoth eliome 9 -cellulaire 8 -k eratose 8 -ineuse 8 -ad enome 8 -a 7 -tiques 7 -sme

7 7 7 7 7 6 6 6 6 6 6 6 6 5 5 5 5 5

-p enie -oire -mateux -iennes -cytose -vasculaire -po etique -euses - etique -` ene -` eme - ees -atique -yome -virus -ures -ule -ulaire

5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5

-ul -scl ereux -oplasique -oplasie -oires -nement -n e -myome -iome -inome -illaire -ies -g e - enique - emateux -cellularit e -aque

Relations transversales de la SNOMED (113 suxes sur 317)


1236 -s 1097 -e 338 -es 330 -o 178 -ique 177 - e 169 -aire 129 -se 127 -ite 121 -ose 115 -que 114 -ux 114 -al 94 -x 91 -ale 88 -ome 80 -f 80 -ation 75 -le 64 57 55 51 50 47 45 44 42 42 41 36 35 34 33 33 31 31 29 -on -ve -eux -l -te -um -euse -me - ee -aires -tique -tion -ien -ment -ne -ienne -us -atose -ant 27 26 26 24 22 21 20 20 19 18 18 18 16 15 15 14 14 13 13 -ques -o de - de -ire -ses -ante -ie -ateux -use -ves -nes -ement -aux -n -ine -urie -it e -nt -en 12 -opathie 12 -matose 12 -ion 12 -ateuse 11 -nte 10 -plasie 10 -pathie 10 -olyse 10 -c` ele 9 -s e 9 -nelle 9 -nel 9 -is 9 -fs 9 -a 8 -scl erose 8 -iennes 8 -ectomie 8 -cytes 7 7 7 7 7 6 6 6 6 6 6 6 6 6 5 5 5 5 5 -sme -oire -oc` ele -nne -ico -plasique -otique -oblastome -mateux -lyse - enique -` ene -cytaire -atique -virus -ulaire -trophie -stomie -sant 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 -ris -oscl erose -osante -osa -oires -ocytome -lithiase -iase -g e -` etre -` ere -er -` eme - emateux -ctomie -co -aque -ae

Relations hi erarchiques de la CIM10 (61 suxes sur 240)


1303 -s 764 -e 313 -es 257 -o 141 -ux 132 -aire 108 -ite 102 -ique 93 -que 87 -x 86 -le 81 76 75 72 68 59 55 53 46 45 35 -al -se -ation -on -ale -aires - e -ne -f -l -ve 35 34 33 32 29 29 27 26 25 24 23 -tique -ves - ee -te -les -fs -me -iques - de -um -ses 23 22 18 18 18 18 17 15 15 11 10 -ienne -ose -t -nes -euse -ce -us - es -blastique -uses -pathie 10 -ion 10 -iennes 10 -ales 9 -nel 8 -pathies 8 -opathies 8 -iens 8 -en 7 -ques 7 -it e 6 -ires 6 6 5 5 5 5 -ire -aux -omy elite -nnes -ites -g e

A.3.3

Pr exes (fr equence 5)

Relations hi erarchiques de la SNOMED (121 pr exes sur 2 781) 220

` PARTIR DAUTRES RELATIONS SEMANTIQUES A.3. APPRENTISSAGE A ENCODEES DANS LES TERMINOLOGIES

1248 -s 1099 -e 346 -o 332 -es 203 -aire 167 -me 167 -ique 164 -se 155 - e 149 -ite 144 -ose 127 -que 118 -ome 116 -al 113 -ux 106 -ale 98 -x 83 -ation 80 -f 78 -le 69 - de 62 -on

59 57 50 47 46 43 40 37 37 36 35 34 34 34 33 31 31 31 30 30 29 29

-sarcome -ve -blastome -um -aires -l -ienne -eux - ee -ne -te -ment -cyte -blaste -ien -o de -iques -atose -tique -nes -brome -cytaire

29 28 27 24 22 21 21 21 20 19 19 19 18 18 18 18 17 17 16 15 15 15

-ales -us -euse -opathie -it e -tion -ques -n -pathie -use -t -ce -ves -ine -ie -ement -ses -ateux -les -ure -en -aux

14 -urie 14 -scl erose 14 -nt 14 -ire 14 -ateuse 13 -matose 13 -mateuse 13 -lipome 12 -ion 11 - emie 11 -cytome 11 -carcinome 11 -ant 10 -plasique 10 -plasie 10 -ologique 10 -isation 10 -g enique 10 -blastique 9 -nelle 9 -nel 9 -is

9 9 8 8 8 8 7 7 7 7 7 7 7 6 6 6 6 6 6 6 6 5

-endoth eliome -cellulaire -k eratose -ineuse -ad enome -a -tiques -sme -p enie -oire -mateux -iennes -cytose -vasculaire -po etique -euses - etique -` ene -` eme - ees -atique -yome

5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5

-virus -ures -ule -ulaire -ul -scl ereux -oplasique -oplasie -oires -nement -n e -myome -iome -inome -illaire -ies -g e - enique - emateux -cellularit e -aque

Relations transversales de la SNOMED (101 pr exes sur 2 671)


1236 -s 1097 -e 338 -es 330 -o 178 -ique 177 - e 169 -aire 129 -se 127 -ite 121 -ose 115 -que 114 -ux 114 -al 94 -x 91 -ale 88 -ome 80 -f 80 -ation 75 -le 64 57 55 51 50 47 45 44 42 42 41 36 35 34 33 33 31 31 29 -on -ve -eux -l -te -um -euse -me - ee -aires -tique -tion -ien -ment -ne -ienne -us -atose -ant 27 26 26 24 22 21 20 20 19 18 18 18 16 15 15 14 14 13 13 -ques -o de - de -ire -ses -ante -ie -ateux -use -ves -nes -ement -aux -n -ine -urie -it e -nt -en 12 -opathie 12 -matose 12 -ion 12 -ateuse 11 -nte 10 -plasie 10 -pathie 10 -olyse 10 -c` ele 9 -s e 9 -nelle 9 -nel 9 -is 9 -fs 9 -a 8 -scl erose 8 -iennes 8 -ectomie 8 -cytes 7 7 7 7 7 6 6 6 6 6 6 6 6 6 5 5 5 5 5 -sme -oire -oc` ele -nne -ico -plasique -otique -oblastome -mateux -lyse - enique -` ene -cytaire -atique -virus -ulaire -trophie -stomie -sant 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 -ris -oscl erose -osante -osa -oires -ocytome -lithiase -iase -g e -` etre -` ere -er -` eme - emateux -ctomie -co -aque -ae

Relations hi erarchiques de la CIM10 (80 pr exes sur 2 301)


1303 -s 764 -e 313 -es 257 -o 141 -ux 132 -aire 108 -ite 102 -ique 93 -que 87 -x 86 -le 81 76 75 72 68 59 55 53 46 45 35 -al -se -ation -on -ale -aires - e -ne -f -l -ve 35 34 33 32 29 29 27 26 25 24 23 -tique -ves - ee -te -les -fs -me -iques - de -um -ses 23 22 18 18 18 18 17 15 15 11 10 -ienne -ose -t -nes -euse -ce -us - es -blastique -uses -pathie 10 -ion 10 -iennes 10 -ales 9 -nel 8 -pathies 8 -opathies 8 -iens 8 -en 7 -ques 7 -it e 6 -ires 6 6 5 5 5 5 -ire -aux -omy elite -nnes -ites -g e

221

` PARTIR DE TERMINOLOGIES ANNEXE A. ACQUISITION DE RESSOURCES MORPHOLOGIQUES A STRUCTUREES

A.3.4

Familles

Relations hi erarchiques de la SNOMED (201 familles sur 1 606)


Flavimonas, Flavobacterium absence, absent achromie, achromique actinomycose, actinomycosique adolescence, adolescent agglutination, agglutin e alcool, alcools amibe, amibien, amibienne amylase, amylose, amyloses, amylo de, amylo dose anesth esie, anesth esique, anesth esiques annulaire, annulaires, annul e antirhumatismal, antirhumatismaux an evrismal, an evrisme, an evrismes, an evrysme appendice, appendicite, appendico arthrite, arthrites, arthropathie, arthropathies, arthropathique, arthrose, arthroses ascendant, ascendante ath eromateuse, ath eromateux, ath eromatose, ath erome, ath eroscl ereuse, ath eroscl ereux, ath eroscl erose aucun, aucune avitaminose, avitaminoses bandelette, bandelettes bilirubine, bilirubinique blastes, blastique, blastome brachial, brachiale, brachio bruit, bruits caecal, caeco, caecum capillaire, capillaires carie, caries causant, cause, causes, caus e, caus ee, caus ees champignon, champignons chlore, chlorome, chlorure, chlorures chol elithiase, chol elithiases ch elo de, ch elo dienne clinique, cliniquement, clino de collag` ene, collag` enes, collag enique compensation, compens e complet, complets, composite, compos e, compos ee, compos es conjonctif, conjonctival, conjonctivale, conjonctive, conjonctivite, conjonctivites cons ecutif, cons ecutifs, cons ecutive, cons ecutives cordage, cordages corrosif, corrosifs, corrosion, corrosions, corrosive, corrosives court, courtes, courts crural, crurale cyanose, cyanos e c ementant, c ementante demande, demand e descendant, descendante diamniotique, diamniotiques digestif, digestifs, digestion, digestive, digestives disque, disques donne, donn e duod enal, duod enale, duod enite, duod eno, duod enum dys erythropo ` ese, dys erythropo etique d edoublement, d edoubl e d ehiscence, d ehiscent d epressif, d epressifs, d epression d eviation, d evi e embole, embolie, embolies, embolique enc ephale, enc ephalique, enc ephalite, enc ephalites, enc ephalitique, enc ephalomy elite, enc ephalomy elites, enc ephalopathie engorgement, engorg e environnement, environnemental examen, examens exocrine, exocrines extensif, extension, externe, externes face, faces fant ome, fant omes bre, bres, breuse, breuses, breux, brillaire, brillaires, brine, brineuse, brineux, brino de, bro, broblaste, broblastique, broblastiques, brochondrosarcome, brocyte, brokystique, brolipome, broliposarcome, bromateux, bromatose, brome, bromyome, bromyxolipome, bromyxome, bromyxosarcome, broplasie, broplasique, brosante, brosarcome, broscl erose, broscl eros e, brose, brovasculaire, broxanthome, bro de focal, focale, focales formation, formations fragmentation, fragment e fum ee, fum ees f emoral, f emorale, f emoro gangreneuse, gangreneux, gangr` ene gestation, gestationnel, gestationnelle, gestationnels glom erulaire, glom erulaires, glom erule, glom erulo, glom erulon ephrite, glom erulopathie, glom erul ee gonement, gon e gree, grees, greon, gre e, gre es g emistocyte, g emistocytique haut, haute histologique, histologiques hyalin, hyaline, hyalines, hyalinisation, hyalinis e, hyalinose, hyalins hyperchromatique, hyperchrome, hyperchromie hypersegmentation, hypersegment e hypopharyng e, hypopharynx hypothermie, hypothermique h emolyse, h emolyses, h emolytique, h emolytiques h er editaire, h er editaires il eal, il eales implantation, implant ee inclus, incluses ind etermin e, ind etermin ee inf erieur, inf erieure, inf erieures, inf erieurs instrument, instrumental interlobulaire, interlobulaires intoxication, intoxications intrins` eque, intrins` eques ischio, ischion jour, jours k eratine, k eratinique, k eratinisant, k eratinisation, k eratinis ee, k eratinocyte, k erato, k eratome, k eratose, k eratosique, k eratosiques lame, lames leptocyte, leptocytose limite, limit e, limit ee, limit ees, limit es liquide, liquides, liquidienne

222

` PARTIR DAUTRES RELATIONS SEMANTIQUES A.3. APPRENTISSAGE A ENCODEES DANS LES TERMINOLOGIES

local, locale, localisation, localisations, localis e, localis ee, localis ees, localis es, locaux luxation, luxations l eg` ere, l eg` eres macula, maculaire, macule, maculo maligne, malignes, malignit e, malin manipulation, manipulations massif, massive membre, membres micro, microcytaire, microcyte, microcytose, microcyt emie mixte, mixtes mort, morts multifocal, multifocale myocarde, myocardique, myocardite, myocardites my eline, my elinique m ecanique, m ecanisme m edullo epith eliale, m edullo epith eliome m enopause, m enopausique, m enopausiques, m enorragie m etaphysaire, m etaphyse nasal, nasale, nasales neutrophile, neutrophiles, neutrophilie, neutrophilique nombre, nombres nutrition, nutritionnel, nutritionnelle, nutritionnelles, nutritionnels n evrite, n evritique, n evrotique, n evrotiques occlusif, occlusion, occlusions, occlusive oligodendroblastome, oligodendrocytaire, oligodendrocyte, oligodendrocytome opaque, opaques orbitaire, orbitale, orbite orteil, orteils ost eite, ost eo, ost eoblaste, ost eoblastique, ost eoblastome, ost eocartilagineuse, ost eochondromatose, ost eochondrome, ost eochondrosarcome, ost eoclaste, ost eoclastique, ost eoclastome, ost eocyte, ost eobrome, ost eobrosarcome, ost eog enique, ost eome, ost eomy elite, ost eomy elites, ost eop enie, ost eosarcome, ost eose, ost eo de oxydant, oxyde, oxydes pansement, pansements paranasal, paranasaux partiel, partielle, partiellement, partielles pelvi, pelvien, pelvienne, pelviennes, pelviens, pelvip eritonite, pelvis perte, pertes phobique, phobiques pigment, pigmentaire, pigmentation, pigment e, pigment ee plaquettaire, plaquette, plaquettes plume, plumeuse polychromatophile, polychromatophilie ponction, ponctionn e positif, positifs, position, positions, positive, positives poussi` ere, poussi` eres probable, probablement progressif, progression, progressive proth` ese, proth` eses, proth etique pr eauriculaire, pr eauriculaires pr el` evement, pr el` evements

pr eservatif, pr eservation pubien, pubienne, pubis pustulaire, pustule, pustuleuse, pustuleux, pustulo p enicilline, p enicillines p eriode, p eriodes, p eriodique, p eriodiquement, p eriodiques p et echial, p et echiale, p et echie radial, radiale, radiation, radio, radioactivit e, radiologique, radiologiques, radique, radium, radius, radi ee recanalisation, recanalis e respiration, respiratoire, respiratoires ribonucl eoside, ribonucl eotide r eactif, r eaction, r eactionnel, r eactionnelle, r eactionnelles, r eactions, r eactive, r eactivit e r eparation, r epar e r etrop eritoine, r etrop eriton eal, r etrop eriton eale sarcomateuse, sarcomateux, sarcomatose, sarcomato de, sarcome, sarcomes, sarco de, sarco dose, sarco dosique second, secondaire, secondaires sept, septale, septum signicatif, signication social, sociale, sociales, sociaux soudure, soudures, soud e, soud es spl enique, spl eno sp ecique, sp eciquement, sp eciques stercoral, stercorale structurel, structurels subluxation, subluxations superinvolutif, superinvolution suture, sutures, sutur e synovite, synovites s electif, s elective s eropositif, s eropositive, s eropositives temp erature, temp eratures thymine, thymique, thymome, thymus tissulaire, tissulaires trab eculaire, trab ecule transmis, transmise, transmises tricuspide, tricuspidienne trouv e, trouv ee, trouv ees, trouv es tympan, tympanique, tympanite ulc` ere, ulc` eres uroth elial, uroth eliales, uroth elium vaisseau, vaisseaux ventriculaire, ventriculaires, ventricule, ventricules, ventriculo vestige, vestiges, vestigielle vitamine, vitamines, vitamino vomies, vomissure, vomissures zygomatique, zygomato elastique, elastiques, elastobrome, elastome, elastose eosinophile, eosinophiles, eosinophilie, eosinophilique epididymaire, epididyme, epididymes, epididymite, epididymo episode, episodes, episodique eraure, era e etendu, etendue

Relations transversales de la SNOMED (204 familles sur 1 625)

223

` PARTIR DE TERMINOLOGIES ANNEXE A. ACQUISITION DE RESSOURCES MORPHOLOGIQUES A STRUCTUREES

abdomen, abdominal, abdominale, abdominales, abdominaux, abdomino accidentelle, accidentellement, accidentelles acquis, acquise, acquises adh erence, adh erences, adh erent aaissement, aaiss e aigu, aigus, aigu e, aigu es alt eration, alt erations, alt er e amn esie, amn esique anal, anale, anales angiomateux, angiomatose, angiome, angioscl erose anomalie, anomalies ant ec edent, ant ec edents apn ee, apn ees argyrie, argyrose art` ere, art` eres astrocytaire, astrocyte, astrocytes, astrocytome atteinte, atteintes auto, autolyse, autolytique bacille, bacilles bilat eral, bilat erale, bilat erales, bilat eraux bipolaire, bipolaires bourse, bourses bruit, bruits b enigne, b enignes, b enignit e canaliculaire, canalicules cardiopulmonaire, cardiopulmonaires cas eeuse, cas eeux certain, certaines, certains chimique, chimiques chol edocho, chol edocholithiase, chol edocien, chol edoque chronique, chroniques classe, classes, classique, class e, class ee, class ees, class es cognitif, cognitives commun, commune, communs comportement, comportements conuent, conuents constriction, constrictive contr ole, contr ol e corporel, corporelle couche, couches cristallin, cristalline, cristallines cuisse, cuisses cystique, cystite, cystites, cystome c ero de, c ero des, c ero do dense, densit e desquamation, desquamative dicile, diciles discriminant, discrimination distal, distale, distales dor e, dor es durable, durables d ecidual, d eciduale, d eciduaux d efectueuse, d efectueux d emy elinisante, d emy elinisantes, d emy elinisation d eshydratation, d eshydrat e, d eshydrat ee ectopie, ectopique, ectopiques encapsul e, encapsul ee endoste, endostose entorse, entorses essence, essences excessive, excessives explicatif, explication, explications extr emit e, extr emit es faible, faibles

fente, fentes laire, larienne foetal, foetale, foetales, foeto, foetus fort, forte, fortement froid, froide, froids f ebrile, f ebriles ganglioneuromatose, ganglioneurome genou, genoux globule, globules goitre, goitres grand, grande, grandes gu eri, gu erie hallucinog` ene, hallucinog` enes histiocytaire, histiocytaires, histiocyte, histiocytes, histiocytome, histiocytose, histiocyto de humain, humaine, humains hydropisie, hydrops, hydrosalpinx hyperph enylalanin emie, hyperph enylalanin emies hypokali emie, hypokali emique hypothalamique, hypothalamus h ematie, h ematies, h ematique, h ematite, h emato, h ematome h er editaire, h er editaires il eal, il eales immun, immune, immunes, immunit e, immuno, immunoblastique, immunocyte, immunocytome, immuns incarc eration, incarc er e ind ependant, ind ependantes, ind ependants infestation, infestations insecte, insectes intention, intentionnelle interstitiel, interstitielle, interstitielles intrah epatique, intrah epatiques invasif, invasive isol e, isol ee, isol ees, isol es jumeau, jumeaux lactate, lactose laryngite, laryngo, laryng e, laryng ee, laryng ees, larynx leuco, leucok eratose, leucoplasie limitante, limite, limit e, limit ee, limit ees, limit es lipoprot eine, lipoprot eines li enal, li eno long, longs lymphad enome, lymphangite, lymphatique, lymphatiques, lymphe, lympho, lymphoblaste, lymphoblastique, lymphocytaire, lymphocyte, lymphocytes, lymphocytique, lymphocytome, lymphocytopathie, lymphocytose, lymphoc` ele, lympholyse, lymphomateuse, lymphomateux, lymphome, lymphomes, lymphorragie, lymphorrh ee, lympho de, lympho des l epromateuse, l epromateux main, mains malocclusion, malocclusions marge, marges maternel, maternelle, maternelles, maternels mental, mentale, mentales, mentaux migraine, migraines, migraineux modication, modications mort, morts mullerien, mullerienne, mulleroblastome mycobact erie, mycobact erienne, mycobact eries myo epith elial, myo epith eliale, myo epith eliales my eline, my elinique, my elinolyse, my elite, my elites, my elocytaire, my elocyte, my eloc` ele, my elomateux, my elomatose, my elome, my eloscl erose, my elose, my elo de, my elo des m edical, m edicale, m edicales, m edicaux, m edico

224

` PARTIR DAUTRES RELATIONS SEMANTIQUES A.3. APPRENTISSAGE A ENCODEES DANS LES TERMINOLOGIES

m eningocoque, m eningocoques m esoth elial, m esoth eliale, m esoth elium m ethyl, m ethylique neurinomatose, neurinome nocif, nocifs, nocive, nocives noyau, noyaux n egligence, n egligences observation, observations oculaire, oculaires, oculo omphalite, omphalo opio de, opio des organisation, organisations osmiophile, osmiophilie ost eomy elite, ost eomy elites oxalate, oxalates, oxalose pancr eas, pancr eatico, pancr eatique, pancr eatiques, pancr eatite, pancr eatites, pancr eato paralytique, paralytiques parotide, parotidien, parotidite pelvi, pelvien, pelvienne, pelviennes, pelviens, pelvip eritonite, pelvis pesticide, pesticides phobique, phobiques pilier, piliers plasmatique, plasmatiques pneumocoque, pneumocoques polydipsie, polydipsique pont, ponto postural, posturale primaire, primaires production, productive prolongement, prolong e, prolong ee, prolong ees prot eine, prot eines, prot eino, prot einose, prot einurie pr ec er ebrale, pr ec er ebrales, pr ec er ebraux pr enatal, pr enatals psoriasique, psoriasiques pupillaire, pupillaires, pupille pyramidal, pyramidale p ericarde, p ericardique, p ericardite p eriph erique, p eriph eriques p et echial, p et echiale, p et echie radiologique, radiologiques ratatinement, ratatin e rel achement, rel ach e rhumatismal, rhumatismale, rhumatismales, rhumatisme rupture, ruptures, ruptur e

r eg en eration, r eg en er e r etrop eritoine, r etrop eriton eal, r etrop eriton eale sang, sanguinolent scl ereuse, scl ereux, scl erosant, scl erosante, scl erosants, scl erose, scl eros e, scl erotique semaine, semaines sigmo de, sigmo dectomie, sigmo des, sigmo dienne, sigmo dite si` ege, si` eges soudure, soudures spirad enome, spiro de sp ecial, sp eciale, sp eciales, sp eciaux stercoral, stercorale structure, structurel, structurels, structures substance, substances suppur ee, suppur ees symbiose, symbiotique syphilis, syphilitique s enile, s eniles tachet e, tachet ees terminal, terminale, terminalis, terminaux, termino thrombo, thrombophl ebite, thrombosant, thrombose, thromboses, thrombos e, thrombos ees, thrombotique, thrombus tique, tiques trab eculaire, trab ecule transmissible, transmissibles tricuspide, tricuspidienne trouble, troubles tylome, tylose ulc eratif, ulc eration, ulc ereuse, ulc ereux, ulc ero, ulc er e, ulc er ee, ulc er ees urticaire, urticarienne vaisseau, vaisseaux veinule, veinules vert` ebre, vert` ebres villeuse, villeux, villo voie, voies v en erien, v en erienne, v en eriens eclatement, eclat e emanation, emanations epicanthique, epicanthus epiphysaire, epiphysaires, epiphyse equilibre, equilibr e, equilibr ee, equilibr es eryth` eme, eryth emateuse, eryth emateux evoquant, evoqu e

Relations hi erarchiques de la CIM10 (190 famille sur 1 520)


Ankylostomiase, Ankylostomose Glom erulopathie, Glom erulopathies Ost eon ecrose, Ost eopathie absence, absent achromie, achromique actif, action, active, actives, activit e, activit es ad enocarcinome, ad enocarcino de agent, agents algie, algies amnios, amniotique, amniotiques, amniotite ancien, ancienne annexiel, annexielle ant erieur, ant erieure, ant erieurs apocrine, apocrines argentane, argentanes art erioscl ereuse, art erioscl ereux, art erioscl erose, art erioscl erotique asym etrie, asym etrique atypie, atypique, atypiques auxiliaire, auxiliaires balanique, balanite bilirubine, bilirubinique blastes, blastique branche, branches buccal, buccale, buccaux, bucco calciant, calciante, calcication, calcications canal, canaux carcino, carcinome, carcinomes, carcino de

225

` PARTIR DE TERMINOLOGIES ANNEXE A. ACQUISITION DE RESSOURCES MORPHOLOGIQUES A STRUCTUREES

cataracte, cataractes certain, certaines, certains cha ne, cha nes cholinergique, cholinergiques chorion, chorionique, chor ees cicatrisation, cicatris e cloisonnement, cloisonnements colo, colonne, colonnes comportementales, comportementaux congestion, congestive constriction, constrictive cordage, cordages corpuscule, corpuscules coup, coupe, coups cro ute, cro uteux cyanure, cyanures cytoplasme, cytoplasmique, cytoplasmiques dalgie, dalgies dermatophytose, dermatophytoses dialyse, dialyses, dialys es dilatation, dilat e diss equant, diss equante douloureuse, douloureux dysfonction, dysfonctionnel, dysfonctionnement, dysfonctionnements, dysfonctions d ecoloration, d ecolor e d eni, d enie, d enies, d enis d ependance, d ependant, d ependante d esir, d esir ee eet, eets enc ephale, enc ephalique, enc ephalite, enc ephalites, enc ephalitique, enc ephalomy elite, enc ephalomy elites endoth elial, endoth eliale, endoth eliales, endoth elium envahissant, envahissante, envahissants exanth emateuse, exanth emateux expectoration, expectorations extrins` eque, extrins` eques faible, faibles fermier, fermiers ssur e, ssur ee foetal, foetale, foetales, foeto, foetoplacentaire, foetus fosse, fosses fruit, fruits f econdation, f econd e gastrique, gastriques, gastrite, gastrites, gastro glandulaire, glandulaires, glandulo gonococcique, gonococciques gravide, gravidique g eant, g eante, g eantes halog en e, halog en es histochimie, histochimique hyalinisation, hyalinis e hyperkin etique, hyperkin etiques hypersegmentation, hypersegment e hypophysaire, hypophyse, hypophyso h ematog` ene, h ematog` enes h emosid erine, h emosid erinique idiopathique, idiopathiques imm ediat, imm ediate, imm ediates, imm ediats inconnu, inconnue, inconnues infantile, infantiles inguinal, inguinale, inguinaux insusance, insusances, insusant, insusante, insusantes, insusants interm ediaire, interm ediaires

intralobulaire, intralobulaires inversion, invers e, invers ee jaune, jaunes kyste, kystes, kystique, kystiques lactase, lactose laryngite, laryngo leur, leurs lingual, linguale, linguales, linguo list erienne, list eriennes, list eriose loisir, loisirs lymphad enite, lymphad enites l egal, l egale macroglial, macroglie malformatifs, malformation, malformations manipulation, manipulations masto de, masto dectomie, masto dienne, masto diens, masto dite, masto dites membre, membres migraine, migraines, migraineux modication, modications mort, morts multifocal, multifocale myocarde, myocardique, myocardite, myocardites my elodysplasique, my elodysplasiques m edecin, m edecine m elanocytaire, m elanocyte, m elanocytes m esenchymateuse, m esenchymateux m etaplasie, m etaplasique naturel, naturelle nicotine, nicotinique nourrisson, nourrissons n ecrose, n ecrotique, n ecrotiques n evrotique, n evrotiques occlusif, occlusion, occlusions, occlusive omphalite, omphalo opportuniste, opportunistes organisation, organisations ossiant, ossiante, ossication, ossications ouvert, ouverte, ouvertes palp ebral, palp ebrale, palp ebraux, palp ebro parak eratose, parak eratosique parodonte, parodontite peinture, peintures personnelle, personnels pharyng e, pharyng ee, pharyng ees, pharynx pigment, pigmentation, pigment e, pigment ee plaque, plaques pneumocoque, pneumocoques polynucl eaire, polynucl eaires portal, portale, porte, portes, portion primaire, primaires produit, produits prolymphocytaire, prolymphocyte, prolymphocytes prot einase, prot einose pr ecision, pr ecis e, pr ecis ee, pr ecis ees, pr ecis es, pr ecoce, pr ecoces pr em enopause, pr em enopausique psycho, psycholeptiques, psychologique, psychologiques, psychose, psychosexuel, psychosociales, psychostimulants, psychotique, psychotiques, psychotrope, psychotropes purulent, purulente p enien, p enienne p erioste, p eriostique, p eriostite p et echial, p et echiale, p et echie radial, radiale, radio, radium, radius

226

A.4. AJUSTEMENT ET MAXIMISATION DES SUFFIXES

recanalisation, recanalis e rhabdomyoblastique, rhabdomyome rompu, rompue r ecepteur, r ecepteurs r esistance, r esistant saignement, saignements scl erosant, scl erosante, scl erosants sellaire, selle, selles sid eroblaste, sid eroblastes, sid eroblastique, sid eroblastiques si` ege, si` eges soufre, soufr es spondylite, spondylo, spondylopathies squame, squameuse, squameuses streptococcique, streptocoque, streptocoques subit, subite sujet, sujets surr enal, surr enale, surr enales, surr enalienne, surr enaliennes, surr enaliens synapse, synaptique s eborrh eique, s eborrh eiques s eropositif, s eropositive, s eropositives

tendineuse, tendineuses, tendineux, tendon, tendons thrombos e, thrombos ees tissulaire, tissulaires traitement, traitements transport, transports trompe, trompes tumeur, tumeurs ulc` ere, ulc` eres uropathie, uropathies vacuo, vacuolaire, vacuole vasculaire, vasculaires, vasculite, vasculo, vasculopathies vert` ebre, vert` ebres villosit e, villosit es voisine, voisins v esical, v esicale, v esicales, v esico elev e, elev ee ependymaire, ependyme epileptique, epileptiques equin, equine etablissement, etablissements

A.4
A.4.1
77 71 70 64 45 43 41 40 39 39 32 31 31 28 27 26 25 24 24 24 24 23 21 20

Ajustement et maximisation des suxes


R` egles (fr equence 5 : 117 r` egles sur 501)
19 18 18 18 18 18 17 16 16 15 15 14 14 14 13 13 13 13 13 13 12 12 12 12 e|ement o|ome ome|o de ome|oblastome nt|nce ant|ation e|ant |se e|ie ose|aire al|um |ment e|o de |al ose|o de ome|aire o| e ion|ionnel |ement | e ose|ique ite|opathie e|ant e|aire 12 al|ome 11 tion|toire 11 o|um 11 o de|osarcome 11 o|eux 11 |n 11 |l 11 ite|ose 11 ien|ite 11 eux|aire 11 e|urie 11 e|ure 10 o de|omateux 10 er|ation 9 ome|obrome 9 ome|oblastique 9 |o 9 |ique 9 e|ion 8 osarcome|oblastome 8 osarcome|oblastique 8 ome|olipome 8 |ome 8 omatose|oblastome 8 8 8 8 8 8 8 8 7 7 7 7 7 7 7 7 7 7 7 7 6 6 6 6 o|ien |is e ique|o de |ion e|it e e| emie aire|ation |aire ose|opathie on|onn e ome|ocarcinome ocytome|oblastome ique|isme i e|ication g` ene|g enique eux|o de e|ocyte e|atique al|us a|e us|ique ose|omatose o de|oblastique i|issement 6 6 6 6 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 e|eur ble|bilit e arynx|aryng e a|o |virus |ure qu e|cation ome|omyome ome|ocytaire ome|inique o de|og` ene og` ene|osarcome |it e |isation |eux e|osarcome ` eme| emateux e|ier e|iase e|atif aire|opathie

e|ique e|aire ie|ique e|ation o|al e|ose e|o e| e o|ite if|ion e|ome ome|osarcome e|atose e|eux e|al e|ien o|aire se|tique ome|omateux o|ique eux|ose ome|ose e|er ome|ique

A.4.2

Suxes (fr equence 5 : 94 suxes sur 582)

227

` PARTIR DE TERMINOLOGIES ANNEXE A. ACQUISITION DE RESSOURCES MORPHOLOGIQUES A STRUCTUREES

556 -e 288 -ome 268 -o 254 -ique 239 - e 189 -aire 179 -ose 120 -al 114 -o de 103 -ation 97 -eux 86 -ie 81 -osarcome 73 -ite 72 -ion 58 -ien

57 50 41 41 41 40 38 35 33 31 29 29 26 20 19 19

-oblastome -ant -um -omateux -if -se -er -ement -tique -atose -ocytaire -oblastique -opathie -omatose -us -ure

18 18 17 15 15 15 14 13 13 13 13 13 12 11 11 11

-nt -nce -a -og` ene -ocarcinome - emie -ment -obrome -ocyte -l -it e -ionnel -on -urie -toire -tion

11 -n 10 -oscl erose 10 -is e 9 -isme 9 -arynx 8 -olipome 8 -is 7 -onn e 7 -ogree 7 -ocytome 7 -i e 7 -ication 7 -ier 7 -iase 7 -g enique 7 -g` ene

7 -atique 6 -sion 6 -roglie 6 -rocytaire 6 -ocellulaire 6 -issement 6 -ine 6 -iforme 6 -i 6 -eur 6 -ble 6 -bilit e 6 -aryng e 6 -angioendoth eliome 5 -virus

5 5 5 5 5 5 5 5 5 5 5 5 5 5 5

-u -rogliome -qu e -omyome -ologue -ologique -odermie -isation -inique -breux -en -` eme - emateux -cation -atif

A.4.3
32 26 25 22 21 16 16 16 14 14 brmy ellymphost ead enlipgranulchondrm elanangi-

Pr exes (fr equence 5 : 54 pr exes sur 1 251)


13 plasmocyt12 h epat11 lymphocyt11 histiocyt11 h emangi9 r eticul9 radi9 papul9 myx9 k erat8 8 8 8 7 7 7 7 7 7 n ephrglom erul epith elicarcintubulprot einneurgli ependymderm7 6 6 6 6 6 6 6 5 5 acidulc ertuberculpustulpsychmaculh ematendom etrivulvsegment5 5 5 5 5 5 5 5 5 5 placentpigmentpharyngoesophagmonocytmicrocytm eson ephrlipidl eiomy erythr5 5 5 5 epidermdentamygdalaect-

228

Index
CIM, 1921, 69, 85, 105 MeSH, 1518 SNOMED, 1819, 66, 69, 84, 85, 105, 118 UMLS, 2123, 60, 68, 69 Brill, 55, 78, 78 Celex, 28, 56, 60, 65 Flemm, 55, 79, 103 MorTAL, 56, 60, 65 TreeTagger, 55, 103 lvg, 22, 24, 68 norm, 22 aboutness, 17, 137, 166 adjectivations concurrentes, 115120 axation, 11, 22, 25, 40, 4042, 60, 68, 72, 167 axation isocat egorielle, 42 axation transcat egorielle, 41 axe, 40 allomorphie, 3839, 56, 74, 107, 116, 168 ambigu t e, 54, 73, 117 antonymie, 138 base, 11, 25, 36, 37, 39, 40, 51 base autonome, 36 base non autonome, 37 base suppl etive, 37, 39 baseline, 26 bruit, 9, 26, 103, 107 classication, 15 co-hyponyme, 22, 138, 143, 149 cognat, 94 composant, 12 composition, 3, 12, 4346, 60, 167 composition populaire, 43 composition savante, 45 concept, 14, 66, 124 conversion, 10, 4243, 166 d erivation, 3, 40 d esuxation, 25, 41, 61, 128, 130, 169 d esuxeur, 25, 56 etiquetage morphosyntaxique, 30, 33, 54, 78, 103, 166 explosion de concept, 17, 124, 135, 137 famille morphologique, 4748, 6164, 68 exion, 3, 60, 68, 72, 166 gain dinformation, 121 hapax, 91, 97 holonyme, 137 hypenonyme, 137 hyponyme, 137 hyponymie, 17 interxe, 45 interop erabilit e s emantique, 13 langue de sp ecialit e, 60 langue g en erale, 60 lemmatisation, 54, 78, 79, 103, 166 lemme, 25, 46 lex` eme, 10, 36 marqueur, 141, 148 m eronyme, 137 m eronymie, 17 morphologie constructionnelle, 10, 3946 morphologie exionnelle, 46 mot plein, 149 229

mot-forme, 10 mots grammaticaux, 10 mots vides, 10, 10 nomenclature, 14 occurrence, 96, 97, 104, 128 ordre des mots, 9 patron lexico-syntaxique, 29, 30, 142, 148 pr ecision, 27, 68 racinisation, 41 rappel, 27, 68 r` egle dassociation, 67, 105 r` egle de d esuxation, 25, 128, 130, 169 relation hi erarchique, 137 relation partitive, 137 relation transversale, 138 sac de mots, 9, 144 silence, 26, 72, 107, 109 stem, 25 stemming, 41 suppl etion, 11, 56 synonymie, 137 terme, 14 th` eme verbal, 44 thesaurus, 14 type, 96, 104, 128 variante orthographique, 56 variation morphosyntaxique, 12 variation terminologique, 713

Glossaire
Aboutness, relation s emantique entre termes. Elle relie des termes proches et est alors consid er ee comme souhaitable en recherche dinformation. Elle peut etre rapproch ee de la relation voir-aussi. (p. 17) Axation. Laxation correspond a ` un ensemble de proc ed es de formation de ` travers la pr lex` emes. A exation et la suxation, elle consiste en la combinaison dune base et dun axe : {an evrisme, an evrismal}. (p. 40) Axation isocat egorielle. Dans une axation isocat egorielle le lex` eme ax e a la m eme cat egorie syntaxique que sa base. (p. 42) Axation transcat egorielle. Dans une axation transcat egorielle le lex` eme ax e na pas la m eme cat egorie syntaxique que sa base. (p. 41) Allomorphie. Les allomorphies sont des variations phonologiques et donc formelles des el ements morphologiques, d eclench ees par des contextes morphologiques. (p. 38) Ambigu t e. Il y a ambigu t e l` a o` u il existe plus dun trait en comp etition pour caract eriser un mot. Avec lambigu t e syntaxique, il existe plus dune etiquette syntaxique et/ou trait morphologique disponibles pour un mot. Avec lambigu t e s emantique, il existe plus dune signication pour un mot. Dans les applications automatiques, le syst` eme doit r esoudre ces ambigu t es et assigner les traits les plus pertinents dans un contexte donn e. (p. 54) Antonymie. Lantonymie relie des notions contraires ou oppos ees. Formellement, elle met en relation des termes co-hyponymes qui ne sont pas synonymes. (p. 138) Base. Le terme base regroupe, en morphologie constructionnelle, les lex` emes et les bases non autonomes, deux signes linguistiques qui peuvent servir de base lors de la formation des lex` emes ax es. (p. 36) Baseline. La baseline correspond a ` la non-application des traitements ou bien a ` lapplication dun traitement simple, de base. Dans notre travail, la d esuxation et les traitements linguistiques de la variation morphologique des termes sont oppos es a ` la baseline, la non-application de ces traitements. (p. 26) Base non autonome. Les bases non autonomes napparaissent pas a ` l etat autonome et ne constituent pas un mat eriau direct pour la syntaxe. Elles peuvent se substituer aux bases autonomes dans la formation des lex` emes : {foie/Nom , h epatique/Adj }. On les appelle egalement bases suppl etives, arch eoconstituants, composants n eolatins, bases savantes ou primitifs suppl etifs. (p. 37) Base suppl etive, voir base non autonome. (p. 37) 231

Bruit. Le bruit correspond aux donn ees ind esirables et/ou fausses propos ees par un syst` eme automatique. Le bruit est oppos e au silence. (p. 9) CIM, Classication internationale des maladies et des probl` emes de sant e connexes. (p. 19) Circumxation. La circumxation est propre aux langues comme lallemand et le n eerlandais, elle consiste en un ajout simultan e dun pr exe et dun suxe. (p. 64) CISMeF, Catalogue et Index des Sites M edicaux Francophones. www.chu-rouen.fr/ cismef (p. 101) Classication. Les classications sont utilis ees pour lencodage des documents dans ` la di des buts statistiques. A erence des nomenclatures, les termes contenus dans les classications que nous avons rencontr ees ne sont pas des cr eations naturelles, mais correspondent a ` un m etalangage articiel. Ils servent a ` sp ecier des classes des documents. (p. 15) Cognat. Les cognats sont des mots graphiquement et s emantiquement proches dans di erentes langues : st enose en fran cais vs stenosis en anglais. (p. 94) Co-hyponymes, termes qui ont le m eme hyperonyme et qui peuvent, dans certains cas, etre substituables. (p. 22) Composition. La composition est un proc ed e de formation des lex` emes qui permet de combiner au moins deux composants, que ce soient des lex` emes ou bases non autonomes : {an evrisme, an evrismorraphie}. (p. 43) Composition cach ee. Dans une composition cach ee (concealed compounding), la forme tronqu ee dun lex` eme est combin ee avec dautres lex` emes tronqu es ou non. Les deux gardent leur contenu s emantique. Par exemple, handiplace, handivie, handimag sur la base de handicap. (p. 40) Composition populaire. Dans une composition populaire fran caise, l el ement recteur se trouve en premi` ere position : porte-fen etre. (p. 43) Composition savante. Dans une composition savante les composants sont souvent des bases non autonomes et proviennent du latin ou du grec. Le composant recteur se trouve g en eralement en derni` ere position : {an evrisme, an evrismorraphie}. (p. 45) Concept. Un concept signie des notions et des objets dune mani` ere abstraite. (p. 14) Conversion. La conversion est un proc ed e de formation de lex` emes. La conversion peut prendre en entr ee un seul el ement de nimporte quelle cat egorie. Elle produit en sortie un seul lex` eme de cat egorie majeure. Les cat egories syntaxiques des lex` eme base et lex` eme convert sont di erentes : {muqueuse/Adj, muqueuse/Nom}. (p. 42) D esuxation. La d esuxation correspond a ` un proc ed e lin eaire de suppression des axes ou des cha nes nales en g en eral. Chez certains auteurs, elle soppose a ` la racinisation. (p. 41) D esuxeur. Les d esuxeurs permettent de r eduire les variantes morphologiques des mots a ` leur stem, qui correspond, dans lid eal, a ` une base ou un lemme, selon que laxation et/ou la exion sont trait ees. (p. 25) Disponibilit e. La disponibilit e dun axe concerne sa possibilit e de construire des lex` emes. Elle prend en compte la nature de laxe et les contraintes de son appli-

cation. Cette notion correspond aux approches qualitatives, qui montrent une image binaire de la productivit e des axes : ils sont productifs ou non productifs. (p. 95) Etiqueteur morphosyntaxique. Les etiqueteurs morphosyntaxiques sont des outils automatiques de traitement de donn ees textuelles. Ils proposent dassigner aux mots une etiquette grammaticale (nom, adjectif, etc.), munie parfois de traits morphologiques (nombre, genre, etc.). (p. 54) Explosion de concept. En science de linformation et de communication, on parle de lexplosion dun concept lorsquune notion g en erique est etendue avec ses notions sp eciques. Pour ceci, on utilise les relations hi erarchiques dune terminologie structur ee. (p. 124) Famille morphologique. Une famille morphologique couvre lensemble des lex` emes reli es par des relations formelles et s emantiques a ` travers des r` egles de formation. (p. 47) Hapax, type poss edant une seule occurrence dans un corpus. (p. 97) Holonyme, terme qui d esigne le tout dans une relation partitive. Voir M eronyme. (p. 137) Hyperonyme, terme g en erique dans une relation hi erarchique ou hyperonymique. (p. 137) Hyperonymie, chez certains auteurs, le versant lexical de la relation hi erarchique. Cette derni` ere etant dordre conceptuel. (p. 137) Hyponyme, terme sp ecique dans une relation hi erarchique ou hyperonymique. (p. 137) Interxe, une voyelle, le plus souvent -o- ou -i-, qui sintercale entre deux composants pour am eliorer la phonologie du lex` eme. (p. 45) Langue de sp ecialit e. Une langue de sp ecialit e couvre un domaine scientique ou technique. Elle comporte un lexique sp ecique a ` ce domaine, sa terminologie, mais elle peut egalement pr esenter des particularit es syntaxiques, morphologiques ou autres. (p. 60) Langue g en erale. La langue g en erale nest pas consacr ee a ` un domaine de sp ecialit e pr ecis. Elle re` ete souvent lusage quotidien de la langue, tel que le fait par exemple la presse grand public. Les articles des journaux ne sont evidemment pas compl` etement neutres de ce point de vue : ils concernent di erents domaines de sp ecialit es (agriculture, cuisine, politique, etc.), mais on consid` ere g en eralement que le niveau de leur sp ecialisation nest pas elev e et le m elange de di erents domaines les neutralise les uns par rapport aux autres. (p. 60) Lemmatisation. La lemmatisation consiste a ` d enir les lemmes des mots. (p. 54) Lemme. Un lemme couvre une notion proche de celle de lex` eme. Il correspond aux formes citationnelles des mots : innitif pour les formes verbales, singulier pour les noms, singulier masculin pour les adjectifs et les pronoms. (p. 46) Lex` eme. Un lex` eme est une unit e linguistique abstraite dans le sens o` u elle est d epourvue de marques exionnelles. Le lex` eme soppose au mot-forme, qui est pourvu de marques exionnelles. (p. 10) Lex` eme lacunaire. Dans les travaux de (Corbin, 1987), un lex` eme lacunaire est

possible et pr edictible morphologiquement mais nest pas attest e par lusage ni dans les dictionnaires. (p. 47) Lexique morphologique. Un lexique morphologique se pr esente souvent sous forme de couples {lemme, forme} pour les exions et sous forme de couples {base, d eriv e} pour les d erivations. (p. 56) log, ou journal de bord. Un chier qui garde les traces des ev enements produits par un programme. Un log dun moteur de recherche contient des traces des connexions au serveur : adresse Internet (IP) des machines connect ees, mots cl es des utilisateurs, dur ee des connexions, etc. (p. 125) Marqueurs dune relation s emantique. En structuration de termes, les marqueurs dune relation s emantique sont des unit es textuelles caract eristiques de cette relation. is a et including sont des marqueurs de lhyperonymie, et entra ne est un marqueur de la causalit e. (p. 141) M eronyme, terme qui d esigne la partie dans une relation partitive. Voir Holonyme. (p. 137) M eronymie, voir Relations partitives. (p. 137) MeSH, Medical Subject Headings. (p. 16) Morphologie constructionnelle. La morphologie constructionnelle d ecrit les proc ed es de formation de lex` emes : laxation, la conversion et la composition parmi les proc ed es centraux. La composition cach ee et les mots-valises font partie des proc ed es p eriph eriques. (p. 39) Morphologie d erivationnelle, voir morphologie constructionnelle. (p. 39) Morphologie exionnelle. La morphologie exionnelle d ecrit la variation des lex` emes lors de leur insertion dans les enonc es. Elle consiste en lapplication daxes exionnels (d esinences ou exions) a ` un lex` eme ou un lemme. (p. 46) Mot. Ce terme est employ e dans le sens informatique : il sagit dune cha ne de caract` eres obtenue suite a ` la segmentation dune proposition. Quant a ` la segmentation, elle peut etre faite sur les espaces et/ou la ponctuation et/ou les symboles ($, *, etc) et/ou les nombres. (p. 8) Mots pleins. Les mots pleins sopposent aux mots vides. Il sagit des cat egories majeures : noms, adjectifs, verbes et adverbes. (p. 149) Mots-valises. La formation des mots valises est soumise a ` des patrons bas es sur des segments phonologiquement identiques ou similaires dans les lex` emes combin es. Par exemple : m etropolitique, potimarron, hippid emie. (p. 40) Mots vides. Les mots vides peuvent regrouper les mots grammaticaux (articles, pr epositions, pronoms, adverbes, etc.) et, souvent, les mots tr` es fr equents dun domaine. (p. 10) NLM, U. S. National Library of Medicine. (p. 16) Nomenclature. Les nomenclatures sont utiles dans les traitements informatiques des documents num eriques. Elles recensent les termes r eels et aident ainsi lacc` es aux informations contenues dans ces documents. (p. 14) Occurrence. En linguistique de corpus, la notion doccurrence correspond au nombre total dapparitions dun type (forme) dans le corpus. Loccurrence est souvent oppos ee

au type. (p. 96) OMS, Organisation Mondiale de la Sant e. (p. 19) Partie-tout, voir Relations partitives. (p. 137) Patron lexico-syntaxique. Les patrons lexico-syntaxiques utilis es pour la d etection de relations s emantiques entre termes reposent sur la pr esence dindices linguistiques ` la di (such as, including, tel que, certain) dans les textes. A erence des marqueurs, les patrons identient la relation recherch ee plus pr ecis ement en d enissant a ` la base les contraintes syntaxiques ou typographiques du contexte, la position des termes en relation, etc. (p. 142) Pr ecision. La pr ecision indique le pourcentage de documents corrects parmi ceux qui ont et e trouv es par un syst` eme automatique : il sagit de lexactitude des r esultats. La pr ecision est souvent evalu ee en m eme temps que le rappel. (p. 27) Pr exe. Un pr exe est un axe d erivationnel. Suite aux op erations daxation, il appara t avant la base. Dans les traitements automatiques, un pr exe peut signier la cha ne initiale dun mot. Voir aussi suxe. (p. 38) Productivit e morphologique. La productivit e morphologique est globalement re et ee par la fr equence demploi des axes. Deux acceptions de productivit e se d egagent : productivit e qualitative (disponibilit e) et productivit e quantitative (rentabilit e). (p. 95) Racinisation. Chez certains auteurs, la racinisation soppose a ` la d esuxation. La racinisation sous-entend alors une analyse linguistique et morphologique des mots. Sinon la racinisation couvre la m eme notion que d esuxation ou stemming. (p. 41) Rappel. Le rappel indique le pourcentage de documents trouv es par rapport a ` ce qui est attendu : il sagit de la compl etude des r esultats fournis par un syst` eme automatique. Le rappel est souvent evalu e en m eme temps que la pr ecision. (p. 27) R` egles contextuelles. Les outils d etiquetage morphosyntaxique sappuient sur les r` egles contextuelles pour d enir les traits morphosyntaxiques du mot courant gr ace a ` lanalyse de ses mots proches. (p. 55) R` egles lexicales. Les outils d etiquetage morphosyntaxique sappuient sur les r` egles lexicales pour d enir les traits morphosyntaxiques du mot courant gr ace a ` la forme (souvent sa cha ne de caract` eres nale). (p. 55) Relations hi erarchiques. Les relations hi erarchiques relient deux concepts dont lun recouvre une notion plus large que lautre. Elles permettent dorganiser les termes en un arbre hi erarchique et d etablir ainsi une arborescence du domaine. Les relations hi erarchiques couvrent parfois les relations partitives. Il sagit dune relation structurante. Elle met en relation des hyperonymes et des hyponymes. (p. 137) Relations partitives. Les relations partitives sont aussi appel ees partie-de ou m eronymie. Elles identient les parties dun objet et servent a ` d ecrire les objets manufactur es ou artefacts. Elles sont parfois regroup ees avec la relation hi erarchique et participent alors aussi a ` la constitution de larborescence du domaine. Elles mettent en relation des m eronymes et des holonymes. (p. 137) Relations transversales. Les relations transversales correspondent aux relations entre des termes situ es dans les di erentes branches de la hi erarchie. Elles permettent

didentier des rapports entre termes que les relations synonymiques, antonymiques ou hi erarchiques ne peuvent pas re eter. Il sagit par exemple des r oles th ematiques (objet, instrument, agent, patient, etc.), des relations causales, temporelles, spatiales, mais surtout des relations sp eciques a ` un domaine. (p. 138) Rentabilit e. La rentabilit e dun axe concerne la possibilit e quil a de sappliquer a ` un grand nombre de bases et de former un grand nombre de lex` emes construits. Cette notion correspond aux approches quantitatives de la productivit e morphologique et consiste souvent en un recensement des formations dun axe. Dans ce cas, la productivit e dun proc ed e est une variable qui se situe sur un continuum qui va du non productif au tr` es productif. (p. 95) Sacs de mots. Dans les sacs de mots la structure originale des termes ou expressions nest pas consid er e. (p. 9) Segmentation dune proposition. La segmentation duen proposition en mots peut etre faite sur les espaces et/ou la ponctuation et/ou les symboles ($, *, etc) et/ou les nombres. (p. 8) Silence. Le silence correspond aux r esultats d esirables mais non fournis par un syst` eme. Cest le compl ementaire du bruit. (p. 26) SNOMED, Nomenclature syst ematique des m edecines humaine et v et erinaire. (p. 18) Sous-domaine. Les sous-domaines dune langue de sp ecialit e correspondent a ` ses di erentes sp ecialit es qui peuvent se recouvrir partiellement. Dans le domaine m edical, on peut distinguer environ 70 sous-domaines m edicaux (cardiologie, n ephrologie, neurologie, h ematologie, rhumatologie, p ediatrie, etc.). Le sous-domaine dun texte peut etre d ecrit a ` laide de mots cl es pris par exemple dans un thesaurus de r ef erence. (p. 100) Stem. Un stem correspond, dans lid eal, a ` une base ou un lemme, selon que laxation et/ou la exion sont trait ees. (p. 25) Stemming. Le stemming correspond a ` un proc ed e lin eaire de suppression des axes ou des cha nes nales en g en eral. Selon les auteurs, le stemming couvre la d esuxation ou la d esuxation et la racinisation. (p. 41) Suxe. Un suxe est un axe d erivationnel. Suite aux op erations daxation, il appara t apr` es la base. Dans les traitements automatiques, un suxe peut signier la cha ne nale dun mot. Voir aussi pr exe. (p. 38) Suppl etion. La suppl etion prend en charge la formation de lex` emes qui pr esentent des bases s emantiquement equivalentes mais dont les langues dorigine sont di erentes. Leurs formes graphiques sont donc egalement di erentes. (p. 11) Synonymie. La synonymie met en relation des expressions qui ont, dans un contexte donn e, des sens equivalents. Sortie de ce contexte, la relation de synonymie peut satt enuer ou bien perdre de la pertinence. (p. 137) TAL, Traitement automatique des langues. (p. 1) Techniques dappariements lexicaux, traitements au niveau des caract` eres, au niveau morphologique, abstraction de lordre des mots, suppression des mots vides, etc. (p. 7) Terme. Un terme se rapporte aux expressions linguistiques qui sont utilis ees pour

d enommer les concepts. Les termes se retrouvent dans les textes. (p. 14) Th` eme verbal, forme verbale non echie. (p. 44) Thesaurus. Le thesaurus est utilis e pour lindexation des connaissances et la recherche dinformation dans les bases de donn ees et les portails. Un thesaurus assure lacc` es a ` la litt erature scientique et technique du domaine. Les termes dun thesaurus sont, le plus souvent, des cr eations articielles dont le but est de cerner aussi pr ecis ement que possible le sens dun concept. (p. 14) Transaction log analysis. Il sagit dune analyse des logs des moteurs de recherche par exemple. Cette analyse permet de collecter des informations sur le comportement des utilisateurs et de tirer les conclusions utiles a ` lam elioration de linterface, du fonctionnement du syst` eme, etc. (p. 125) Type. En linguistique de corpus, la notion de type correspond a ` chaque forme (ou vocable) di erente qui appara t dans ce corpus. Le type est souvent oppos e a ` loccurrence. (p. 96) UMLS, Unied Medical Language System. (p. 21) Variation au niveau des caract` eres. Ce type de variations englobe : la variation de casse, lomission daccents, les variantes orthographiques, les accents erron es, et les fautes de frappe. (p. 9)

You might also like