You are on page 1of 25

Mme Natalia Grabar M.

Pierre Zweigenbaum

Productivit travers domaines et genres : drivs adjectivaux et langue mdicale


In: Langue franaise. N140, 2003. pp. 102-125.

Abstract Natalia Grabar & Pierre Zweigenbaum : Productivity through domains and genres: derived adjectives and medical language The productivity of a morphological process generally varies with the type of corpus on which it is observed. Taking as a case study a set of morphological processes of denominal adjectivation, we examine the variation of their productivity with domain and genre. We illustrate this variation on (medical) domain-specific corpora, studying on the one hand their internal oppositions and on the other hand their contrast with an external, large-audience press corpus (Le Monde newspaper). Within a medical specialty, we also examine productivity variation with text genre, between patient discharge summaries and Web sites. This paper describes the design and construction of study corpora, the method for compiling derived adjectives, and the computation of various statistics on these adjectives, -ique derivation is the most frequent adjectivation process in all corpora. It is more productive, in the Baayen sense, in the medical corpus than in the press corpus, as are -el and -al. Productivity differences are also observed between medical specialties among patient discharge summaries, but much less among Web documents. Finally, a few contrasts can be found, in a given medical specialty, between discharge summaries and Web documents.

Citer ce document / Cite this document : Grabar Natalia, Zweigenbaum Pierre. Productivit travers domaines et genres : drivs adjectivaux et langue mdicale. In: Langue franaise. N140, 2003. pp. 102-125. doi : 10.3406/lfr.2003.1068 http://www.persee.fr/web/revues/home/prescript/article/lfr_0023-8368_2003_num_140_1_1068

Natalia GRABAR Pierre Zweigenbaum STIM : Mission de recherche en sciences et technologies de l'information mdicale DSI, Assistance Publique - Hpitaux de Paris & ERM 202, INSERM

PRODUCTIVITE A TRAVERS DOMAINES ET GENRES : DRIVS ADJECTIVAUX ET LANGUE MDICALE

1 . Domaine et genre La productivit des catgories morphologiques peut varier de faon subs tantielle avec des dimensions telles que l'auteur, le style, le registre, le domaine, et le lectorat vis. (Baayen, 2001, p. 208) 1. Le prsent travail vise illustrer cette affirmation en examinant sa porte dans des corpus dont on fait varier certaines dimensions, ici le domaine et le genre. Nous prcisons dans cette introduction ces notions de domaine et de genre, sur lesquelles nous allons btir nos corpus d'tude. /./. Langue gnrale et langues de spcialit L'opposition principale qui nous intressera ici est celle que l'on institue traditionnellement entre langue gnrale et langue de spcialit . Comme langue de spcialit, nous considrerons la langue mdicale, reprsente par un ensemble de textes couvrant diffrentes spcialits mdicales et diffrents genres mdicaux. Ce corpus sera prcis plus bas (section 1.4.). La langue gnrale est, elle, plus difficile caractriser, et son existence mme fait l'objet de dbats. La constitution de corpus de rfrence comme le British National Corpus (BNC, [Burnard, 1995]), visant reprsenter une langue dans son ensemble, se fait d'ailleurs en cherchant y inclure des chantillons de langue d'une grande varit. Plutt que de chercher rsoudre ici cette question pineuse, considrons deux types de corpus souvent considrs comme relevant de la langue gnrale : les corpus littraires (par exemple, Frantext, compos 80 % de textes littraires) et les corpus journalistiques (Le Monde, Libration). Une justification de cette appellation pour les premiers est qu'ils n'ont gnralement pas de spcialisation dans un domaine particulier. Les seconds traitent de domaines relevant des connaissances gnrales : politique, sport, conomie, culture, etc. En y regardant de plus prs, chacun de ces domaines correspond sans aucun doute une langue de spcialit ; la rubrique sportive a son style et son vocabulaire propres, pour dcrire les objets et les vnements qui la concernent, 1. Notre traduction. 102

tout comme la rubrique conomique ou politique. Ce qui fait que l'on considre les corpus journalistiques comme des reprsentants acceptables de la langue gnr aleest, d'une part, que ces diffrents domaines relvent de connaissances gn rales et, d'autre part, que ces domaines sont varis. Gnralit et varit sont galement des caractristiques du corpus littraire Frantext, constitu essentiell ement de romans d'auteurs franais des XIXe et XXe sicles. Dans les expriences ci-dessous, nous emploierons comme corpus de langue gnrale un corpus journalistique (presse) : celui rassembl par F. Namer et dcrit dans ce mme volume. Il se compose de cinq sous-corpus, correspondant cinq priodiques diffrents : Le Monde, Libration, Sciences et Avenir, Pour La Science et Challenges. C'est le sous-corpus Le Monde qui sera finalement utilis ici. 1.2. Sous-domaines Revenons maintenant au corpus mdical, pour faire ressortir un autre constraste que nous tudierons : celui entre sous-domaines. La mdecine se divise en spcialits, qui correspondent des sous-domaines pouvant se recouvrir partiellement : par exemple, cardiologie, nphrologie, neurologie, pneumolo gie, rhumatologie, pdiatrie, chirurgie, obsttrique, etc. Ce dcoupage entre spcialits se retrouve dans les commissions universitaires ou dans les souscommunauts scientifiques (socits savantes, journaux, congrs), et corres ponddonc aussi une ralit sociologique. Il ne serait pas tonnant de ce fait que l'on observe des diffrences dans les langues de spcialit correspondantes. 1.3. Genres l'intrieur d'un mme domaine, diffrents genres (ou encore registres) peuvent se rencontrer. Par exemple, dans le domaine mdical, on trouvera entre autres des articles scientifiques, des cours, des guides de bonnes prati ques, des comptes rendus d'hospitalisation, etc. Le genre d'un texte influe sur sa syntaxe, mais aussi sur son lexique. Par exemple, les termes employs entre spcialistes dans un compte rendu d'hospitalisation peuvent tre diffrents de ceux que l'on trouvera, domaine constant, dans un manuel de cours destin des tudiants ou encore dans un article scientifique2. On peut ainsi s'attendre trouver, accompagnant ces variations lexicales, des variations dans les procds morphologiques employs. 1.4. Un corpus diversifi Un corpus est une collection de donnes langagires qui sont slectionnes et organises selon des critres linguistiques explicites pour servir d'chantillon de langue. (Sinclair, 1996) 3. Comme nous venons de le voir, les corpus peuvent 2. Par exemple, les couples de termes suivants se rencontrent dans des genres diffrents : grippe vs. influenza, fivre jaune vs. tiphus amaril, crise cardiaque vs. infarctus du myocarde, rhume vs. rhinopharyngite. 3. Notre traduction. 103

s'opposer sur diffrentes dimensions, qu'il faut caractriser et documenter. Dans des travaux antrieurs (Habert et al., 2001), nous avons cherch recenser les dimensions utiles pour la constitution d'un corpus mdical diversifi. Nous avons pour cela repris, fusionn et complt pour nos besoins les propositions de (Sinclair, 1996) et de (Biber, 1994). Ces propositions mettent l'accent sur l'opposi tion entre varit externe (les facteurs lis au contexte de production du texte) et varit interne (les facteurs que l'on retrouve dans le texte lui-mme). Cette tude a recens une trentaine de genres de textes mdicaux, corre spondant des contextes caractristiques de production ou de rception : soin mdical (rapports mdicaux, lettres), enseignement (polycopis, questions de test, notes d'tudiants), diffusion de connaissances (articles de revues et de confrences, thses de doctorat, forums de discussion), sources de connais sancesde rfrence (dictionnaires, encyclopdies, monographies, ouvrages, guides de bonnes pratiques, documents officiels, systmes de codage). Ces textes peuvent tre caractriss par des dimensions externes et internes. Parmi les caractristiques externes, on distingue les informations de nature bibliographique (origine, localisation, chantillonnage) de celles lies au contexte de production et de rception (mode de production et de transmission, format logiciel, crateur, destinataire, objectifs, statut de publication, frquence de publication, couverture, droits). Les dimensions internes comprennent la langue, la taille du texte, le niveau de style, la qualit de prsentation, l'interac tion avec le public, la personnalisation, la factualit et la technicit du texte. Enfin, le sous-domaine d'un texte peut tre dcrit l'aide de mots cls pris dans un thesaurus de rfrence, le thesaurus bio-mdical MeSH (Medical Subject Headings, www.nlm.nih.gov/mesh/meshhome.html) (INSERM, 2000). Ce thesaurus, complt par des mta-termes, est utilis entre autres par le Cata logue et Index des Sites Mdicaux Francophones (CISMeF, www.chu-rouen.fr/ cismef) (Darmoni et al., 2000). Nous nous sommes adosss la liste de sousdomaines mdicaux spcialiss qu'il contient pour obtenir environ 70 sousdomaines mdicaux. Dans la prsente tude, nous nous sommes concentrs, l'intrieur du domaine mdical, sur deux des dimensions cites : le genre et le domaine. Le domaine sera caractris par des mots cls de MeSH/CISMeF ; pour le genre, nous opposerons des comptes rendus hospitaliers (contexte gnral soin mdical) des textes issus du Web, qui fournissent typiquement des sources de rfrence (guides de bonnes pratiques) ou qui visent la diffusion de connaissances (articles). Nous avons complt ces oppositions par celles tablies avec le corpus de presse cit prcdemment. 2. Constituer un corpus mdical diversifi : documents publics et privs Nous nous penchons ici sur la constitution pratique d'un corpus reprsen tant diffrents domaines et diffrents genres. 104

Lorsqu'il s'agit de constituer rapidement un corpus textuel, le Web est mainte nant la source laquelle puisent la plupart des chercheurs en traitement automat ique des langues. De fait, avec plus de 3 milliards de pages accessibles4, il constitue actuellement la plus grande collection de documents disponible. Cepend ant, le Web donne une reprsentation biaise de l'existant : l'informatique y est par exemple sur-reprsente. Dans le domaine mdical, de nombreux types de documents sont mis en ligne, en particulier par les facults de mdecine (Le Beux et al., 2002). Mais on ne trouvera bien sr pas en ligne des documents faisant inter venir des donnes prives, comme par exemple les comptes rendus hospitaliers. Pour ce type de document, seule une collecte directe est actuellement possible5. Nous avons heureusement eu l'occasion plusieurs reprises de constituer des corpus de comptes rendus hospitaliers, que nous exploiterons ici. Dans le reste de cette section, nous commenons par aborder le cas des comptes rendus hospitaliers (section 2.1. ). Nous dcrivons ensuite une ressource prcieuse pour collecter des documents mdicaux sur le Web : le cata logue CISMeF (Darmoni et al., 2000) (section 2.2.). Nous expliquons comment passer de cette ressource un corpus (section 23.). Nous terminons par la description de la prparation finale du corpus, qui aboutit des listes d'adject ifs et de noms (section 2.4.). 2.1. Les comptes rendus hospitaliers : un genre de texte absent du Web Nous avons, l'occasion de divers projets, constitu des corpus de comptes rendus hospitaliers. Nous avons ici repris des corpus concernant les spcialits suivantes : Cardiologie : le corpus (cr-menelas) rassembl au cours du projet europen Menelas (Zweigenbaum & Consortium MENELAS, 1994) se compose de comptes rendus d'hospitalisation et de lettres de sortie concernant des patients affects de maladies coronariennes. Il compte 282 documents pour un total de 96 487 mots. Hmatologie : ce corpus (cr-hmato) a t rassembl pour des tests d'aide au codage de diagnostics (Blanquet & Zweigenbaum, 1999). Il compte 100 comptes rendus d'hospitalisation totalisant 58 264 mots. Ces deux corpus sont intgrs au corpus CLEF (Habert et al., 2001). 2.2. Le catalogue CISMeF De mme qu'il existe des annuaires gnralistes (Yahoo, Google, etc.) qui recensent des sites Web et les classent par thmatique (sport, voyages, sant, etc.), il existe quelques annuaires spcialiss dans le domaine de la sant. CISMeF (Cata logue et Index des Sites Mdicaux Francophones, www.chu-rouen.fr/cismef) est le catalogue franais de rfrence pour les sites Web francophones en sant. Il 4. travers le moteur de recherche Google (www.google.fr), en mai 2003. 5. Le projet CLEF (Habert et al., 2001) doit mettre disposition des chercheurs un corpus de tels documents pralablement anonymiss. 105

recensait, en septembre 2002, plus de 11 000 ressources (documents). Chaque ressource est indexe par un ou plusieurs mots cls du thesaurus mdical MeSH (INSERM, 2000), qui en compte prs de 20 000. Ces mots cls permettent en parti culier de noter la spcialit mdicale concerne par une ressource. CISMeF encode galement le type de ressource de chaque document : cours, recommandations, etc., que l'on peut rapprocher de la notion de genre examine plus haut. Une quipe de documentalistes et d'informaticiens mdicaux assure la mise jour hebdomadaire des documents indexs dans CISMeF, ce qui garantit la qualit et la fiabilit de ces documents du point de vue mdical. Les auteurs du catalogue CISMeF ont ainsi constitu et document ce que l'on peut considrer comme un corpus mdical diversifi. Cette diversit porte aussi bien sur le thme des documents (spcialits mdicales et autres mots cls du thesaurus MeSH) que sur leur genre, que les types de ressources aident dterminer. Nous nous sommes donc adosss ce catalogue pour constituer notre corpus mdical de travail. Comme indiqu plus haut, nous cherchons tudier trois oppositions, qui ncessitent des corpus mdicaux possdant les caractristiques suivantes : - des corpus mdicaux s'opposant sur leurs spcialits (sous-domaines). Comme l'tendue des possibles est vaste, notre choix a t guid par des consi drations pragmatiques : la recherche de synergies avec des projets connexes. Nous avons ainsi choisi, pour les documents obtenus sur le Web, les spcialits suivantes : hmatologie, neurologie et nphrologie (respectivement corpus cismef-hmato , cismef-neuro et cismef-nphro). Pour les documents hospitaliers, comme nous l'avons vu ci-dessus, nous avons repris des comptes rendus provenant de services d'hmatologie et de cardiologie (cr-hmato et cr-menelas). - des corpus mdicaux s'opposant sur leurs genres. Les documents obtenus sur le Web peuvent tre contrasts avec les documents hospitaliers, le domaine restant constant. Nous nous servons pour cela des deux corpus d'hmatologie mentionns ci-dessus : Web (cismef-hmato) et comptes rendus hospitaliers (crhmato). - un corpus mdical s'opposant au corpus de langue gnrale (corpus presse) : nous avons employ ici l'union des corpus mdicaux mentionns cidessus. Pour viter la sur-reprsentation d'un domaine ou d'un genre particul ier, nous avons complt ces corpus par un extrait transversal des ressources de CISMeF : celles ayant pour thme la catgorie MeSH C23 (signes et symptmes), tous domaines et genres confondus (corpus cismef-signes). 2.3. Constituer un corpus partir de sources Web Nous rsumons ici comment passer d'une spcification de ressources CISMeF un corpus de travail. Le processus mis en place se dcompose comme suit : 1. Nous avons dtermin les adresses des documents indexs par CISMeF et rpondant une spcification donne (par exemple, spcialit mdicale). Nous avons pour cela utilis le moteur de recherche Doc'CISMeF (Darmoni et al., 2001) (doccismef.chu-rouen.fr) interne CISMeF, en lui spcifiant les mots cls appropris. 106

2. Nous avons tlcharg, l'aide de l' aspirateur de Web wget de GNU, non seulement le document indiqu par CISMeF, mais aussi tous les documents qu'il rfrence directement et qui se trouvent hirarchiquement plus bas sur le mme site. 3. Nous avons conserv uniquement les documents HTML, et nous les avons convertis en texte brut. Nous avons enfin supprim les phrases crites en d'autres langues que le franais, selon le principe dcrit par (Grefenstette & Nioche, 2000). 2.4. Corpus et occurrences : les corpus comparer Chaque corpus a t segment, tiquet et lemmatis avec l'tiqueteur TreeTagger (Schmid, 1994) 6, dont les rsultats ont t ensuite corrigs avec le lemmatiseur FLEMM (Namer, 2000) 7. La segmentation est automatique : elle considre des mots graphiques , dlimits par des espaces. L'tiquetage nous a permis de recenser les mots tiquets comme noms et adjectifs et d'obtenir leurs lemmes (formes de citation dans un dictionnaire). La suite du traitement travaille sur ces lemmes. Un certain nombre de mots bruits, tiquets comme noms ou adjectifs, apparaissent nanmoins aprs segmentation. Il s'agit par exemple de mots contenant des chiffres ou des caractres non alphabtiques, qui peuvent rsulter de collages malencontreux dans les textes d'origine ou bien de la segmentation automatique en mots : ).Vancomycine, ...pour, .chirurgie, 02-may-02, 1. -infection, Wans, 15.1.1 cpha le, : biomtrie . Les donnes de la colonne toutes catgories du tableau 1 incluent ce bruit. Avant d'extraire les noms et les adjectifs, nous filtrons tous les mots contenant des chiffres ou des caractres non alphabtiques, ou encore des lettres majuscules. Ce dernier filtrage permet essentiellement d'liminer les noms propres, souvent non reconnus comme tels et donc mal traits par les outils automatiques. titre indicatif, lorsque l'on limine ces mots du corpus presse, sa taille descend de 27 531 441 26 531 554 occurrences et de 201 571 88 892 types. Et dans le corpus cismef-signes, la liste d'adjectifs non filtrs comprendrait 43 785 types (21 659 une fois filtrs8), et la liste de noms 40 514 (38 025). Les deux colonnes suivantes du tableau contiennent la taille des listes d'adjectifs et des noms une fois filtres. chaque fois, nous avons comptabilis le nombre de types diff rents (nombre de mots diffrents) et le nombre total d'occurrences (somme des nombres d'apparitions de ces mots). Rappelons que les mots dont nous parlons ici sont des lemmes : toutes les formes flchies d'un mme mot ont t ramenes leur lemme commun lors du traitement initial du corpus.

6. www ims.mii-stuttgart.de/projekte/corplex/TreeTagger /DecisionTreeTagger.html. 7. www.univ-nancy2.fr/pers/namer/Telecharger_Flemm.htm. 8. La rduction provient essentiellement des chiffres. 107

Sous-corpus cismef-signes cismef-hmato cismef-neuro cismef-nphro cr-menelas cr -hmato presse

Toutes catgories occurrences types 5 204 901 142 545 42 230 1 032 216 106 153 3 794 737 30 524 726 545 5 233 96 487 5 306 58 264 201 571 27 531 441

Adjectifs types occurrences 21659 7 893 17 612 6 053 1016 1008 23 098 507 162 115 658 369 130 95176 12 407 6 304 4 199 427

Noms types occurrences 38 025 1 188 574 14 101 241 939 31402 871 155 10 699 171 421 1635 19 067 1838 13 980 58 808 10 413 246

Tableau 1 : Taille des sous-corpus initiaux aprs segmentation et tiquetage par TreeTagger : types (nombre de lemmes diffrents) et occurrences (somme des occurrences de tous les lemmes dans le sous-corpus). Baayen (2001) insiste sur le fait que les statistiques lexicales sont systmat iquement affectes par la taille de l'chantillon de texte sur lequel elles sont mesures (le corpus choisi). On ne peut donc comparer directement deux corpus de tailles diffrentes. Or le tableau 1 montre bien que les corpus consti tus prsentent des tailles varies. Plutt que de chercher interpoler ou extrapoler les observations faites sur des corpus de tailles diffrentes, nous avons prfr procder un nivellement de la taille des sous-corpus l'intrieur de chaque groupe contraster. Ce nivellement s'est fait par chantillonnage, le souci principal tant de veiller la reprsentativit du sous-corpus obtenu par rapport au sous-corpus complet initial. L'chantillonnage a t effectu en tirant au hasard des textes entiers dans chaque sous-corpus rduire. L'intgrit de chaque texte est ainsi main tenue, ce qui prserve son homognit interne9. Pour la langue gnrale, comme le sous-corpus Le Monde possdait une taille trs proche de cismef-signes, nous avons prfr prendre ce sous-corpus tel quel plutt que d'chantillonner les diffrents sous-corpus de presse dont nous disposions. Le tableau 2 prsente les groupes de comparaison et les rsultats du nivell ement. Les tailles des corpus mdical et gnral sont ainsi proches de 5 200 000 occurrences, les tailles des sous-corpus venant du Web se situent entre 700 000 et 1 000 000 occurrences, et les sous-corpus de comptes rendus mdicaux avoisinent les 60 000 occurrences. On observe que malgr ce rappro chement des tailles des corpus, le nombre d'adjectifs qu'ils contiennent peut varier jusqu' une vingtaine de pourcent (comptes rendus mdicaux, hmat ologie vs. cardiologie ; Le Monde vs. langue mdicale). 3. Identification des drivs adjectivaux Nous avons choisi d'tudier dans ce travail le fonctionnement de procds morphologiques d'adjectivation dnominale (section .1.). L'identification de 9. Mais des notions de cohsion plus macroscopiques pourraient tre affectes, comme le lien entre les pages d'un mme site Web. 108

Toutes catgories

Adjectifs

Noms

Sous-corpus types occurrences types occurrences types occurrences Langue gnrale (presse) vs. langue mdicale (Web) 1 188 574 cismef-signes 142 545 5 204 901 21659 507 162 38 025 Le Monde 88 052 5 233 503 20 453 415 337 42 513 1 116 548 Sous-domaines - documents Web : hmatologie vs. nphrologie vs. neurologie cismef-hmato 42 230 1 032 216 7 893 14 101 241 939 115 658 cismef-neuro / 4 45 077 950 114 7 749 91260 14 698 218 379 cismef-nphro 30 524 726 545 6 053 95 176 10 699 171 421 Sous-domaines - comptes rendus mdicaux : hmatologie vs. cardiologie cr -hmato 5 306 58 264 1008 6 304 1838 13 980 4 004 807 cr-menelas/2 58 213 7 786 1299 11652 Genres - hmatologie : comptes rendus hospitaliers vs. documents Web cr-hmato 5 306 58 264 1008 6 304 1838 13 980 cismef-hmato/ 7 588 60 658 1594 7 355 3 037 14 445 15 Tableau 2 : Groupes de sous-corpus d'tude. Les corpus dont la taille a t rduite sont suivis du facteur de rduction appliqu (/N). ces procds, des rgles qui leur correspondent (section 3.2.) et de leurs allomorphes (section 3.3.) s'appuie sur des travaux prcdents. Nous avons appliqu les rgles releves pour ces procds aux listes de noms (section 3.4.) et d'adjectifs collectes partir de nos corpus (section 3.5.). Nous calculons enfin l'indicateur de productivit iPpropos par Baayen (section 3.7.).

3.1. Les procds morphologiques tudis Le tableau 3 prsente les procds que nous traitons et des exemples d'adjectifs qu'ils permettent de former. La plupart de ces procds reprsentent une famille de suffixes allomorphes. Notons que dans certains cas, comme par exemple pour -if, il est difficile de dire si l'adjectif supressif/ ADJ est driv du nom supression / SBC, ou bien si les deux mots sont drivs du verbe supprimer. La mme remarque s'applique aux procds - et -is. Suffixe -aire -ais -al - -el -eux -ien Suffixe (corpuscule/ SBC, corpusculaire/ ADJ I -ier (cosse/SBC, cossais/ADJ} -if {hmorrode/ SBC, hmorrodaljADJ} -in -ique {euthanasie/ SBC, euthanasie/ ADJ} -ode {catgorie/ SBC, catgoriel]ADJ} -oire {nause/SBC, nauseux]ADJ} {microbe/SBC, microbien /ADJ i -ois Exemples Exemples {nourrice/ SBC, nourricier/ADJ} {supression/SBC, supressif]ADJ} {utrus/SBC, utrin] ADJ} {pricarde /SBC, pricardique/ ADJ} {varice/SBC, varicode/ADJI {respiration/SBC, respirtvire /ADJ} {chine/SBC, chinois]ADJ}

Tableau 3 : Procds morphologiques d'adjectivation dnominale. 109

3.2. Collecte semi-automatique de rgles de drivation Les rgles de drivation que nous utilisons dans ces expriences ont t recenses lors de travaux prcdents. Elles ont t apprises automatiquement grce l'exploration de la terminologie mdicale SNOMED (Ct, 1996) lemmatise et tiquete (Grabar & Zweigenbaum, 2000). Nous avons fait l'hypothse que les mots qui partagent une chane de caractres initiale commune suffisa mment longue10 (par exemple, stnose / stnotique) et qui sont rencontrs dans un contexte smantiquement contraint sont galement proches morphologique ment. Sans la seconde contrainte, cette heuristique produirait de nombreuses erreurs, comme par exemple les couples : tronc /trouble, trouv /trouble, figue/ figure, etc. Mais lorsque l'on ajoute cette contrainte, nous avons constat que ce risque d'erreur devient trs faible. Une terminologie structure fournit de telles conditions : ainsi, deux termes synonymes ou deux termes en relation hirar chique constituent un contexte dans lequel cette heuristique fonctionne extrme ment bien. Par exemple, la nomenclature SNOMED indique que sinusite, SAI (S AI signifie sans autre indication) est une sorte de maladie du sinus paranasal, SAI. On fait alors l'hypothse que les mots {sinus, sinusite} sont en relation morpholog ique. On en induit aussi qu'une rgle de substitution de suffixes11 <E> ite est l'uvre 12 et peut s'appliquer sur d'autres couples de mots attests du domaine. Applique aux terminologies SNOMED et CIM-10 (OMS, 1993), cette mthode gnre trs peu de bruit (3 5 %) : la quasi-totalit des couples ainsi obtenus concerne des mots effectivement en relation morphologique. Les rgles ainsi obtenues ont t ensuite affines manuellement (Zweige nbaum et al., 2001), ce qui a permis, entre autres, de : les rduire aux couples minimaux : prendre les drivations directes et minimales/ en supprimant les tapes intermdiaires. Nous n'avons par exemple pas gard la rgle qui permet de passer de acidit/ SBC13 acidophile/ADJ14, mais plutt les rgles qui permettent de relier les mots suivants : acide /SBC acidit /SBC et acide/ SBC - acidophile/ADJ, acide/ ADJ - acido/PFX15 ; - garder les rgles transcatgorielles, qui permettent de relier deux mots de catgories diffrentes, par exemple un nom un adjectif : acide/ SBC - acid ophile/ADJ, acide /ADJ - acido/PFX. Puisque, dans l'exprience prsente ici, nous nous intressons aux adjectivations dnominales, nous avons effectu un filtrage supplmentaire pour 10. Typiquement, 3 ou 4 caractres. 11. Suffixe dsigne ici une chane de caractres finale dans un mot. 12. <E> dsigne ici la chane vide. 13. SBC = Substantif Commun ; ADJ = Adjectif ; PFX = composant intervenant gnralement en position prfixe (acido, cardio). 14. L'heuristique ci-dessus est susceptible de collecter non seulement des mots drivs, mais aussi des mots composs, et la langue mdicale est riche en composs savants. 15. Les composants en -o apparaissent quelquefois isolment, et figurent de ce fait dans nos listes et dans les rgles induites. 110 I

conserver uniquement les rgles qui permettent de passer d'un nom un adjectif. De cet ensemble de rgles, nous avons limin celles dont le suffixe adjectival tait vide, en supposant que la drivation se fait par ajout de morphmes et non par suppression. Une analyse manuelle supplmentaire a permis de filtrer d'autres rgles qui consistaient en la formation de noms (vsiculeux/ADJ - vsiculation/SBC, paisible/ ADJ - paisibilit/SBC, perturbant /ADJ perturbation/ SBC). D'autre part, nous avons ajout de nouvelles rgles, tablies manuellement, pour trois suffixes adjectivaux qui ne figuraient pas parmi les rgles induites : -in, -ais, -ois. Nous disposons au final de 91 rgles permettant de former des adjectifs dnominaux pour les suffixes prsents plus haut. 3.3. Familles de suffixes allomorphes Les rgles ci-dessus sont dfinies comme des substitutions de chanes finales ; ces chanes peuvent constituer des groupes d'allomorphes correspon dant un mme procd morphologique. Par exemple, le suffixe adjectival -aire se ralise de faon suivante dans nos rgles : -naire, -ulaire, -culaire. Nous avons cherch regrouper automatiquement ces chanes finales en familles d'allomorphes. Nous avons appliqu pour cela l'algorithme propos par (Jacquemin, 1997). Les propositions gnres ont t valides manuellement et compltes par la suite. Nous avons obtenu par cette mthode 10 familles de suffixes avec leurs formes allomorphes (tableau 4). Suffixe -aire -al -el -ien -eux Allomorphes regroups -naire, -ulaire, -culaire -ial, -inal, -peritoneal, -arial -iel, -ionnel, -tiel -en, -gien, -arien, -idien, -en -ineux Suffixe - -ique -in -ais -ois Allomorphes regroups -n, -g -tique, -atique -guin, -atin, -llin -ais, -elais, -nnais, -nais, -gais, -lais -cois, -ots, -geois

Tableau 4 : Allomorphes regroups automatiquement puis complts manuellement. 3.4. Lexique de noms de rfrence Notre mthode de dtection des adjectifs drivs repose sur leur mise en rela tion avec des noms attests. Ces noms sont rpertoris dans un lexique de rf rence. Ce lexique joint une composante mdicale et une composante de langue gnrale. La composante mdicale provient de deux terminologies mdicales, SNOMED (Ct, 1996) et la Classification internationale des maladies (OMS, 1993). Elle ne comporte pas beaucoup de noms (4 290 types), mais ils sont trs spcifiques du domaine mdical. La composante gnrale provient du dictionnaire de l'ABU16. Elle comporte 36 445 noms. Le lexique nominal unifi des corpus mdi caux contient 55 517 noms. Le lexique de la presse en contient 58 808. La fusion de toutes ces listes donne un lexique de rfrence de 105 417 noms diffrents. 16. Association des bibliophiles universels, abu.cnam.fr/DICO. 111

3.5. Dnombrement des drivs adjectivaux Une fois dtermines les rgles de drivation ci-dessus, les drivs sont recenss semi-automatiquement dans le corpus : - la partie automatique consiste rechercher des mots (adjectifs drivs potent iels) qui peuvent tre mis en relation avec des mots du lexique de rfrence (noms constituant des bases potentielles) par les rgles de drivation ; - la partie humaine est la validation des couples candidats {base, driv) ainsi relevs. La partie automatique gnre gnralement trop de candidats (bruit), car les rgles ne considrent que la forme des mots (et non leurs proprits morpholog iques ou smantiques). L'objectif de la validation humaine est prcisment de limiter ce bruit. Un manque de compltude des rgles peut l'inverse tre cause de silence : des drivs effectifs ne sont pas relevs, car aucune des rgles fournies ne sait les mettre en relation avec leur base. L'absence de spcification d'un allomorphe est l'une des origines possibles de ce silence. Le lexique de rfrence, qui fournit les bases candidates, peut lui aussi tre source de silence s'il n'est pas assez complet. Au total, le dnombrement des drivs adjectivaux dnominaux d'un corpus se droule selon les tapes suivantes : 1. Recensement des adjectifs du corpus. 2. Recensement des couples de drivs [nom, adjectif dnominal} suivant les rgles collectes ci-dessus. Ces couples sont obtenus par application des rgles de drivation adjectivale dcrites dans la section 3.2. la liste d'adjectifs du corpus pour vrifier si ces adjectifs sont en relation avec les noms du lexique de rfrence. Trois listes de noms ont t testes pour chaque corpus : - les noms de ce corpus spcifique (les adjectifs dnominaux et leurs bases se trouvent dans un mme sous-corpus) ; - pour les sous-corpus mdicaux, les noms d'un corpus plus large (les adject ifs dnominaux se trouvent dans le sous-corpus, tandis que leurs bases se trou vent dans n'importe lequel des sous-corpus du corpus mdical) ; - le lexique de rfrence (les adjectifs dnominaux se trouvent dans le souscorpus trait, leurs bases se trouvent dans le corpus global ou bien dans un lexique externe). 3. Validation manuelle des drivations repres. 4. Regroupement en familles des adjectifs drivs comportant des suffixes allormorphes. 5. Recensement des cas o une base nominale permet de produire plus d'un adjectif. Il est en effet possible qu'une mme base nominale soit l'origine de plusieurs drivs adjectivaux alternatifs. l'inverse, un candidat driv peut tre propos par plusieurs rgles, qui le relient plusieurs bases. Nous exami nerons ces diffrents cas plus bas (section 4.). Le dcompte des types et des occurrences est alors effectu. 112

3.6. Dcompte des drivations recenses Nous avons appliqu les rgles dcrites dans la section 3.2. sur les listes d'adjectifs et de noms de chacun des sous-corpus comparer (section 2.4.). Les dcomptes rsultants sont prsents dans le tableau 5. La premire colonne du tableau rappelle le nom du sous-corpus trait. Pour chaque groupe de deux colonnes qui suit, la premire colonne contient le nombre de rgles qui sont intervenues et la seconde le nombre de couples {base, driv}. Dans le premier groupe, les drivs comme les bases se trouvent dans le mme sous-corpus. Dans le deuxime groupe, les bases nominales potentielles comprennent les noms de tous les corpus mdicaux. Dans le troisime groupe, nous prenons galement en compte le lexique de rfrence dfini la section 3.4. Ce tableau montre que le nombre de drivs identifis augmente sensibl ement lorsque l'on prend en compte les bases nominales prsentes dans un corpus plus large, puis dans un lexique de rfrence. Les calculs qui suivent seront donc faits sur le nombre de drivs le plus grand : celui obtenu avec le rfrentiel de bases nominales le plus complet (corpus + lexique) 17. Origine des bases nominales Sous-corpus Corpus mdicaux Corpus + lexique rgles couples rgles couples rgles couples 78 2 307 80 2 619 84 3 093 67 1137 76 1589 1856 79 39 245 65 540 67 633 70 1092 77 1512 79 1784 62 864 74 1303 77 1514 82 50 262 54 304 28 61 39 132 360 65 419 70 1446 76 1892

Sous-corpus cismef-signes cismef-hmato cismef-hmato 11 5 cismef-neuro/4 cismef-nphro cr-tnenelas/2 cr-hmato Le Monde

Tableau 5 : Nombre de couples (nom, adjectif driv} reprs par les rgles de drivation adjecti vale dans les diffrents sous-corpus, selon la liste de bases nominales potentielles considre. 3.7. Calcul de la productivit Pour valuer la productivit d'un procd morphologique, nous avons appliqu la mesure propose par (Baayen & Lieber, 1991), que nous rappelons ici. La mesure (P de Baayen, dfinie pour tudier la propension rencontrer de nouveaux mots dans un corpus de taille N, est dfinie par :

o N est le nombre total d'occurrences de mots dans le corpus C, et , aussi not 17. Notons toutefois que les rgles prpares, bien que nombreuses, ne prtendent pas l'exhaustivit. Il est donc probable que quelques drivs soient laisss de ct par cette procdure opratoire. 113

V(1,N), est le nombre d'hapax legomena (types possdant une seule occurrence dans le corpus) parmi ces mots. permet d'estimer le taux de croissance avec N du nombre de types diffrents, ou vocabulaire V(N) (Baayen, 2001, p. 50) : p(N) = _d_E[V(N)] = dN N

L'examen de correspond au modle suivant : on examine tour tour les occurrences de mots m{ du corpus C. est une estimation de la probabilit, lorsque l'on examinera le prochain mot m?, de rencontrer un nouveau type (dont le nombre d'occurrences sera alors gal un). Si l'on s'intresse des mots possdant une proprit donne, comme les drivs produits par un procd morphologique M, N est alors le nombre total d'occurrences de drivs produits par M dans le corpus ; par exemple, le nombre d'occurrences de drivs adjectivaux en -ique dans ce corpus. Et est le nombre de ces drivs possdant une seule occurrence dans le corpus ; par exemple, le nombre de drivs adjectivaux en -ique y possdant exactement une occurrence. est donc une mesure de la propension du procd morphologique M produire des types nouveaux par rapport ce corpus. (Baayen & Lieber, 1991) montrent que est corrl la productivit de ce procd morphologique. Nous renvoyons Dal (ce volume) pour une discussion de cette corrlation. 4. Exprimentations Nous explorons ici les contrastes qui existent entre les diffrents profils de corpus : corpus contrastant des textes d'un domaine spcialis (mdecine) et de langue gnrale (presse) (section 4.1.) ; corpus contrastant des textes de diff rents domaines mdicaux (hmatologie, neurologie, nphrologie ; hmatologie, cardiologie) (section 4.2.) ; et enfin, corpus contrastant, dans le domaine mdical, des textes de diffrents genres (comptes rendus et documents pour diffusion de la connaissance mdicale sur le Web) (section 4.3.) . Aux tailles de corpus examines, le nombre d'hapax pour un procd morphologique donn est la plupart du temps trs faible, de l'ordre de quel ques units quelques dizaines. Une vrification manuelle de tous les hapax a donc t effectue, et les drivs hapaxiques rsultant d'une identification errone ont t supprims. Parmi les causes d'erreurs d'identification, nous avons rencontr des fautes d'orthographe (ganglionaire, similiaire, microsomial, differenciel, gestationel), des variantes orthographiques (macro-conomique vs. macroconomique, micro-circulatoire vs. microcirculatoire), des absences ou erreurs d'accentuation (ulceratif, endothelial, oprationnel, coteux), et des problmes de csure (franco-bri- tannique qui donne l'adjectif tannique). Les donnes prsent es dans ce qui suit tiennent compte de cette correction. Nous avons galement examin les quelques cas o une base produit plus d'un driv. Une premire classe regroupe des drivs qui possdent des sens diffrents. Pour certains, on peut considrer que les drivs sont forms sur des sens diffrents 114

de la base correction correctif vs. correctionnel, catgorie > catgoriel vs. catgo rique, discrimination (discriminatij vs. discriminatoire). Pour d'autres, les procds morphologiques construisent plusieurs rles autour de la base (accident accidentel vs. accident, anesthsie > anesthsique vs. anesthsi, cilio > ciliaire vs. , condition > conditionnel vs. conditionn ; cellule > cellulaire vs. celluleux). Une deuxime classe contient des drivs de sens proche, en comptition dans le domaine mdical : crne cranial vs. crnien, entro > enterai vs. rique. On peut y inclure des anglicismes bien accueillis : autosome autosomal vs. autosomique, bronche bronchial vs. bronchique, centre central vs. centrique. 4.1. Langue gnrale et langue de spcialit La premire comparaison effectue contraste un corpus mdical (cismefsignes) et un corpus de langue gnrale (presse : Le Monde). Le tableau 6 prsente, pour chaque corpus et pour chaque procd morphologique d'adjectivation dnominale, le nombre de types diffrents recenss, leur nombre total d'occurrences et le nombre d'hapax parmi ces types, ainsi que la valeur P du taux de croissance marginal de ces types. Corpus mdical cismef-signes Procd aire/ADJ ais/ADJ al/ADJ el/ADJ eux/ADJ ien/ADJ ier/ADJ if/ADJ iforme/ADJ in/ADJ ique/ADJ oire/ADJ ois/ADJ ode/ADJ /ADJ Types 258 19 259 136 121 115 23 239 5 6 1106 42 12 36 170 Occ 3 5192 2 067 29 803 11792 6 018 5 075 590 14 800 11 639 53 175 2 863 91 670 2 184 Hapax 31 4 45 25 28 38 4 33 1 1 271 14 5 8 57 <P 0,00088 0,00194 0,00151 0,00212 0,00465 0,00749 0,00678 0,00223 0,09091 0,00156 0,00510 0,00489 0,05495 0,01194 0,02610 Corpus journalistique Le Monde Types 155 34 134 88 106 120 57 173 1 12 467 41 23 0 174 Occ 966 993 508 901 204 934 866 582 4 54 20 922 673 813 0 1 162 10 5 14 8 3 6 2 6 Hapax 20 5 22 11 22 30 12 25 0 3 84 9 5 0 65 T 0,00182 0,00083 0,00152 0,00124 0,00687 0,00433 0,00419 0,00380 0,00000 0,05556 0,00401 0,01337 0,00615 0 0,05594

Tableau 6 : Types, occurrences, hapax et productivit de procds morphologiques d'adjectivation dnominale entre langue de spcialit (mdecine) et langue gnrale (presse). Pour l'analyse de ces tableaux, quelques prcautions sont prendre. On remarque que certains procds morphologiques ne donnent lieu qu' quelques occurrences (colonnes Occ) dans certains corpus. Ainsi, -iforme est rare selon nos rgles dans les deux corpus examins au tableau 6, et -ode est absent dans le corpus Le Monde. Nous considrerons gnralement que ces nombres d'obser vations sont trop faibles pour tirer des conclusions sur la productivit compare de ces procds morphologiques dans ces corpus - hormis le fait qu'ils sont globalement moins frquents que les autres. 115

forme ' 3 5 1 tu :3 3 - -? ? " -g

1 -oi; S ,2 T 'T

. 1

ier i 'I

Ta'^Y ' 1

37

116

Une visualisation de ces mesures sous forme de graphes (figure 1) aide les apprhender. Suivant (Baayen, 2001, p. 205), trois graphes montrent les posi tions respectives des diffrents procds morphologiques tudis selon les dimensions du nombre d'hapax V(1,N), du nombre de types V(N) et de la mesure iP, croiss deux deux. Les suffixes vraiment productifs occupent le coin suprieur droit des trois graphes de la figure [...], une position indiquant qu'ils sont forts la fois en V(N), V(1,N) et 4>. (Baayen, 2001, p. 204). L'examen conjoint du tableau et des graphes nous amne faire les observat ions suivantes : -iforme et -ode ont trop peu d'occurrences dans les deux corpus. Aucun driv en -ode n'a t recens dans Le Monde. Aprs examen, il s'avre qu'il contient 4 lemmes adjectivaux se terminant en -ode {anthropode, bta-amylode, typhode, androde). Parmi ceux-ci, typhode aurait pu tre reli typhus si la rgle appro prieavait t disponible. Des relevs plus prcis sont donc ncessaires pour affirmer que -ode est plus productif dans cismef-signes que dans Le Monde. - est, parmi les procds frquents, celui dont le taux de croissance iPest le plus lev dans les deux corpus. Son iP est suprieur dans Le Monde, mais le nombre de types et d'occurrences correspondants y est plus faible. Comme la courbe typique de l'volution du nombre de types d'un procd morphologique en fonction du nombre d'occurrences a un taux de croissance qui diminue avec le nombre d'occurrences, il est naturel qu'une population plus petite ait un taux de croissance suprieur. -ique, -if, -al, -aire, -ien, -eux, et dans une moindre mesure -el, ont la fois des types et des hapax nombreux dans les deux corpus (colonne (a)). Mais l'examen de la colonne (b) ou (c) montre que -aire et -al ont un taux de croissance plus faible que les autres, alors que -ique, -eux et -ien ont une valeur de ce taux iPplus leve, -ique est de loin le suffixe le plus frquent, en types comme en occur rences, dans les deux corpus. Le taux de croissance de -aire est plus bas dans cismef-signes ; cela peut s'expli quer par le fait que le nombre de types en -aire y est plus lev (258 contre 155), et est donc dans une phase diffrente de sa croissance, -eux et -if sont dans la mme situation. De faon semblable, mais oppose, -ien prsente un taux de croissance T suprieur dans cismef-signes, mais pour un nombre de types et d'occurrences plus faible que dans Le Monde. En revanche, -el a un iPplus lev dans le corpus mdical que dans Le Monde, avec un nombre de types et d'hapax eux aussi plus levs ; -el semble donc effectiv ement plus productif dans le corpus mdical : alors qu'il est dj plus loin dans sa courbe de croissance, il continue un taux d'accroissement plus lev. De mme, -ique a une valeur de T lgrement suprieure dans cismef-signes, alors qu'il y est beaucoup plus frquent que dans Le Monde ; on en conclut qu'il est lui aussi plus productif dans cismef-signes. Le mme raisonnement s'applique -al, dont le taux iP est identique dans les deux corpus, mais dont les nombres de types et d'occur rences sont nettement suprieurs dans cismef-signes. En rsum, ces observations tendent montrer une productivit plus grande des suffixes -el, -ique, -al, et peut-tre -ode dans cismef-signes que dans Le Monde. 117

4.2. Comparaison des sous-domaines l'intrieur d'un genre Les sous-domaines mdicaux correspondent des communauts scientif iques et sociologiques distinctes ; ici, spcialistes en neurologie, en hmatologie et en nphrologie. Nous cherchons faire ressortir les diffrences d'emploi des procds d'adjectivation dnominale dans diffrentes spcialits mdicales travers les relevs effectus sur les sous-corpus prpars. Le tableau 7 est structur comme le tableau 6, mais avec trois corpus au lieu de deux. Il est complt par la figure 2. hmatologie 11455 36 299 i 6 584 27 3 484 8 1820 15 1051 13 111 4 3 509 34 3 1 178 0 14 909 155 1105 8 4 2 320 6 681 25 ] < 0,00314 0,00334 0,00410 0,00230 0,00824 0,01237 0,03604 0,00969 0,33333 0,00000 0,01040 0,00724 0,50000 0,01875 0,03671 153 10 176 88 64 64 16 161 1 4 570 29 7 10 80 neurologie 5 237 510 5 450 2 069 969 1009 112 2 708 1 35 9 755 498 25 90 643 26 5 32 21 18 20 5 31 1 2 161 7 3. 2 31 137 5 146 70 42 43 2 136 0 4 519 21 5 13 60 nphrologie 11255 97 5 891 2 985 1062 695 9 2 835 0 65 12 767 534 16 68 490 24 3 28 13 13 1 28 0 1 124 6 2 3 25

Procd aire/ADJ ais/ADJ al/ADJ el/ADJ eux/ADJ ien/ADJ ier/ADJ if/ADJ iforme/ ADJ in/ADJ ique/ADJ oire/ADJ ois/ADJ ode/ADJ /ADJ

Ol ^ 188 4 175 82 53 55 12 157 2 3 638 29 3 18 79

< 0,00496 0,00980 0,00587 0,01015 0,01858 0,01982 0,04464 0,01145 1,00000 0,05714 0,01650 0,01406 0,12000 0,02222 0,04821-

<

0,00213 0,03093 0,00475 0,00436 0,01036 0,01871 0,11111 0,00988 0. 0,01538 0,00971 0,01124 0,12500 0,04412 0,05102

Tableau 7 : Types, occurrences, hapax et productivit de procds morphologiques d'adjectiva tion dnominale dans trois sous-domaines mdicaux (hmatologie = cismef-hmato, neurologie = cismef-neuro, nphrologie = cismef-nphro) - documents du Web. Comme dans le corpus mdical cismej --signes , -iforme a trop peu d'occur rencesdans ces corpus ; -ois de mme. Par ailleurs, -ier est rare dans cismefnphro. Parmi les suffixes frquents, -, avec un fort taux de croissance, compar abledans les trois corpus, occupe la mme place que dans les deux corpus prcdents, -ique reste partout le suffixe le plus frquent. Sa productivit est stable dans les trois corpus, -aire, -al, -if, puis -el, -ien et -eux sont galement frquents, -el possde davantage de types et d'hapax mais moins d'occurrences dans cismef-neuro que dans cismef-hmato ; son taux de croissance est donc supr ieur. De mme, -aire, pour un nombre d'occurrences similaire, possde plus de types et d'hapax dans cismef-hmato que dans cismef-nphro, et son taux de croi ssance est de ce fait suprieur. -if et -al sont stables entre les trois corpus. Au total, on note peu de diffrences importantes dans ces trois corpus entre les procds morphologiques les plus frquents. 118

.2 ^ X ^ i u i e )-d doma O uso o 'o l-l

-ifd -ois 3 ' 7 -i ier ire ' i -in u T3 ?

-z CL Z -^ o> , p S

16 CX I! II

2S

o o, ^

ojviupif-fauisp

119

Le tableau 8, structur comme le tableau prcdent, oppose hmatologie et cardiologie sur des documents hospitaliers : des comptes rendus d'hospitalisat ion. Il est complt par la figure 3. Pour un nombre d'occurrences proche, crhmato contient beaucoup plus de types et d'hapax pour -ique, et sa productivit ? est suprieure, -if est davantage prsent en nombre d'occurrences dans crmenelas, mais de faon plus varie dans cr-hmato, o il a un taux de croissance suprieur, -al est lgrement plus frquent en types comme en occurrences dans cr-hmato. Avec un nombre de types et d'hapax similaire dans les deux corpus, -el se distingue par une productivit suprieure dans cr-hmato, o il est repr sent par un plus petit nombre d'occurrences. Enfin, -aire possde dans crhmato beaucoup moins d'occurrences, mais distribues sur deux fois plus de types, avec deux fois plus d'hapax. Son taux de croissance y est donc quatre fois suprieur. Le mme phnomne s'observe pour -ien, qui a pour le corpus d'hmatologie un taux de croissance iP quatorze fois suprieur celui du corpus de cardiologie. En rsum, la productivit mesure dans cr-hmato est plus importante pour plusieurs procds morphologiques {-ique, -if, -el, -aire, -ien) que dans cr-menelas. Ce dernier est plus rptitif, avec davantage d'occurrences pour les mmes types, ce qui se retrouve dans les chiffres globaux du tableau 2 (1 008 types pour 6 304 occurrences pour l'hmatologie contre 807 types et 7 786 occurrences pour la cardiologie). hmatologie Hapax Occ 612 682 70 61 46 215 3 906 29 44 36 10 10 6 3 8 14 1 46 3 0 3 0,01634 0,01466 0,08571 0,04918 0,17391 0,06512 0,33333 0,05077 0,10345 0,00000 0,08333 cardiologie Occ Hapax 952 4 600 7 171 6 127 4 248 3 275 9 4 0 995 18 43 1 3 1 39 6 < 0,00420 0,01167 0,03509 0,03150 0,01210 0,03273 0,00000 0,01809 0,02326 0,33333 0,15385

Procd aire/ADJ al/ADJ el/ADJ eux/ADJ ien/ADJ if/ADJ in/ADJ ique/ADJ oire/ADJ ode/ADJ /ADJ

Types 50 57 16 10 17 33 2 121 5 3 8

Types 23 37 17 10 9 30 1 86 6 2 10

Tableau 8 : Types, occurrences, hapax et productivit de procds morphologiques d'adjectivation dnominale dans deux sous-domaines mdicaux (hmatologie = cr-hmato, cardiologie = crmenelas) - documents hospitaliers. 4.3. Entre les genres mdicaux l'intrieur d'un sous-domaine Les genres mdicaux peuvent galement tre corrls des communauts sociologiques diffrentes (par exemple : tudiants, patients, praticiens, scientif iques, etc.), et des emplois lexicaux et morphologiques diffrencis. Deux genres seront constrasts : des documents du Web (diffusion de la connaissance mdicale) et des comptes rendus mdicaux, tous deux dans le sous-domaine de l'hmatologie. Le tableau 9 prsente les donnes habituelles, et est complt par la figure 4. 120

T ire ?

Z > z 5 > iqu i

T3 ^ T T c? 'T s , 13 1 i

TY

4'T

i; '"

'T Y T Y ^ z > o 1 T T f ?. X-ai 1

1 3

.5 01 g o "ta 1 3 O X to ment nap y:^ u > o 'T o; P-. 'bb OJ o ; > ^^ X

8. u Y ireY xc

3" 3 'T T3

.S OJ i

j.

121

Procd aire/ADJ ais/ADJ al/ADJ el/ADJ eux/ADJ ien/ADJ ier/ADJ if/ADJ in/ADJ ique/ADJ oire/ ADJ ode/ADJ /ADJ

comptes rendus hospitaliers P Types Occ Hapax 50 612 10 0,01634 0 0 0 0 57 682 10 0,01466 16 70 6 0,08571 10 61 3 0,04918 17 46 8 0,17391 0 0 0 0 0,06512 33 215 14 2 3 1 0,33333 121 906 46 0,05077 5 29 3 0,10345 3 44 0 0,00000 8 36 3 0,08333

Types 67 1 74 39 11 19 2 54 1 188 7 5 10

documents du Web 2> Occ Hapax 690 17 0,02464 15 0 0,00000 380 24 0,06316 241 13 0,05394 101 3 0,02970 71 8 0,11268 1 0,16667 6 222 17 0,07658 2 0 0,00000 1026 69 0,06725 57 0 0,00000 1 12 0,08333 23 6 0,26087

Tableau 9 : Types, occurrences, hapax et productivit de procds morphologiques d'adjectivation dnominale dans deux genres mdicaux (comptes rendus hospitaliers = cr-hmato, docu ments du Web = cismef-hmato/2) - hmatologie. Globalement, le corpus Web contient un peu plus de types et d'occurrences que les comptes rendus, ce qui peut s'expliquer par le caractre rptitif de ces derniers, -ique et -if sont comparables dans les deux corpus, ainsi que -aire. En revanche, -al possde dans le corpus Web prs de deux fois moins de types et deux fois plus d'hapax que dans les comptes rendus, ce qui dnote un taux de croissance quatre fois plus lev. l'inverse, -el et -eux sont plus frquents dans le corpus Web, et leurs taux de croissance y sont consquemment plus faibles. 5. Discussion Cette tude doit tre considre comme une bauche de comparaison de la productivit morphologique entre domaines et entre genres. Les rsultats qu'elle fait ressortir sont partiels et demandent tre assis plus solidement. Nous discu tonsici quelques-unes de ses limites et pointons sur des pistes de travaux futurs. tant donn les volumes concerns, nous avons procd par reprage semiautomatique des drivs adjectivaux. Ce reprage est ncessairement imparfait, ce qui induit un biais dans la constitution des donnes. Ce biais peut tre rduit d'une part en prenant en considration, en plus des rgles mentionnes, des rgles de drivation apprises sur corpus : nous avons commenc le faire (Zweigenbaum et al., 2003) en adaptant une mthode initialement propose par (Xu & Croft, 1998) en recherche d'information. L'ajout de rgles doit apporter une rduction du silence dans la collecte des drivs. D'autre part, la validation manuelle d'une grande partie des drivs a permis de rduire le bruit. Elle devra tre complte si l'on veut rendre les observations plus fiables. Certaines des observations effectues concernent des nombres faibles. Par exemple, la productivit estime en recensant un hapax sur 18 occurrences ne 122

1/-

123

semble pas significative : l'chantillon constitu par le corpus est dans ce cas trop petit pour tudier de faon fiable ce procd morphologique. Une estima tion d'intervalle de confiance devrait tre associe aux diffrentes mesures produites. Elle permettrait de dcider dans quels cas une observation est fiable, et l'inverse dans quels cas il ne faut pas s'appuyer sur elle. Enfin, stabilits et variations restent difficiles mesurer de faon fiable si l'on n'a pas un contrle trs strict des paramtres des corpus tudis. D'une part, la taille des corpus, en nombre d'occurrences, doit tre compar able.Si ce n'est pas le cas, un chantillonnage ncessite des prcautions pour prserver la cohsion des sources, qui influe sur leur distribution lexicale. Une autre possibilit, que nous n'avons pas explore ici, est d'avoir recours des techniques d'interpolation ou d'extrapolation des courbes de croissance du vocabulaire tudi, techniques qui peuvent tre complexes si l'on veut obtenir des rsultats prcis (voir par exemple [Baayen, 2001, p. 173 seq]). D'autre part, les corpus doivent reprsenter les dimensions que l'on veut tudier (ici, genre et domaine). La constitution d'un corpus de travail est donc, comme toujours, trs dlicate, et les choix faits sont ncessairement sources de biais. En pratique, les observations restent toujours attaches au corpus spci fique sur lequel elles ont t effectues, et leur gnralisation d'autres textes du mme genre ou du mme domaine n'est pas acquise - et ce d'autant plus que le corpus est de petite taille. La variation au sein, par exemple, d'un domaine, est quelquefois plus grande que celle que l'on note d'un domaine l'autre, comme nous l'avons remarqu en comparant les sous-corpus de sousdomaines diffrents (hmatologie et cardiologie) l'intrieur de la mdecine. Ce point pose problme non seulement lors de l'tude des contrastes entre domaines, mais aussi lorsque l'on procde un chantillonnage. Des exp riences complmentaires devraient donc mieux cerner cette variation intradomaniale et intr a-genre. Remerciements Nous remercions Fiammetta Namer d'avoir mis notre disposition le corpus journalistique qu'elle a collect sur le Web ainsi que son lemmatiseur FLEMM ; l'quipe CISMeF, en particulier Stefan Darmoni, pour son aide dans l'exploita tion de ressources du catalogue CISMeF ; les services qui nous ont procur des comptes rendus hospitaliers ; et Georgette Dal, Bernard Fradin et les relecteurs de la revue pour leur lecture attentive et leurs remarques constructives.

Rfrences bibliographiques Baayen, Harald. 2001. Word Frequency Distributions. Dordrecht & Boston, Kluwer Academic Publishers. Baayen, Harald & Lieber, Rochelle. 1991. Productivity and English derivation: a corpusbased study . Linguistics, 29-5, 801-843. 124

BlBER, Douglas. 1994. Representativeness in corpus design . Linguistica Computazionale, IX-X, 377-408. Current Issues in Computational Linguistics: in honor of Don Walker. BLANQUET, Alexandre & Zweigenbaum, Pierre. 1999. A lexical method for assisted extraction and coding of ICD-10 diagnoses from free text patient discharge summaries . Journal of the American Medical Informatics Association, 6-suppl. BURNARD, Lou. 1995. Users Reference Guide for the British National Corpus. Version 1.0. British National Corpus Consortium, Oxford University Computing Services, Oxford, UK. CT, Roger A. 1996. Rpertoire d'anatomopathologie de la SNOMED internationale, v3.4. Universit de Sherbrooke, Sherbrooke, Qubec. Darmoni, Stefan J., Leroy, J.-P., Thirion, Benot, Baudic, F., Douyere, Magaly, & Piot, J. 2000. CISMeF: a structured health resource guide . Methods of Information in Medicine, 39-1, 30-35. Darmoni, Stefan J., Thirion, Benot, Leroy, J.-P., Douyre, Magaly, Lacoste, , Godard, G, RlGOLLE, I, BRISOU, M, VlDEAU, S, GOUPY, E, PlOT, J, QUR, M, OUAZIR, S, & ABDULRAB, H. 2001. A search tool based on 'encapsulated' MeSH thesaurus to retrieve quality health resources on the Internet . Medical Informatics & the Internet in Medicine, 26-3, 165-178. Grabar, Natalia & Zweigenbaum, Pierre. 2000. A general method for sifting linguistic knowledge from structured terminologies . Journal of the American Medical Informatics Association, 7-suppl, 310-314. Grefenstette, Gregory & Nioche, Julien. 2000. Estimation of English and non-English language use on the WWW . In Proceedings of RIAO 2000: Content-Based Multimedia Information Access, 237-246, Paris, France : C.I.D. Habert, Benot, Grabar, Natalia, Jacquemart, Pierre, & Zweigenbaum, Pierre. 2001. Building a text corpus for representing the variety of medical language . In Corpus Linguistics 2001, Lancaster. Institut National de la Sant et de la Recherche Mdicale, Paris. Thsaurus Biomdical Franais/ Anglais. JACQUEMIN, Christian. 1997. Guessing morphology from terms and corpora . In ACM SIGIR. Le Beux, Pierre, Le Duff, Franck, Weber, Jacques, Darmoni, Stefan, & Benhamou, AlbertClaude. 2002. Intgration des nouvelles technologies ducatives dans l'Universit Mdicale Virtuelle Francophone . In P. Staccini, M. Fieschi, D. Benchimol & R. Beuscart ds, Formation mdicale et technologies de l'information et de la communication, volume 14, 3-12. Paris, Springer. Namer, Fiametta. 2000. FLEMM : un analyseur flexionnel du franais base de rgles . Traitement Automatique des Langues, 41-2, 523-547. Organisation mondiale de la Sant, Genve. Classification statistique internationale des maladies et des problmes de sant connexes - Dixime rvision. Schmid, Helmut. 1994. Probabilistic part-of-speech tagging using decision trees . In International Conference on New Methods in Language Processing, 44-49, Manchester, UK. Sinclair, John. 1996. Preliminary recommendations on Text Typology, page WWW http:// nicolet.ilc.pi.cnr.it/EAGLES/texttyp/texttyp.html, EAGLES (Expert Advisory Group on Language Engineering Standards). Xu, Jinxi & CROFT, Bruce W. 1998. Corpus-based stemming using co-occurrence of word variants . ACM Transactions on Information Systems, 16-1, 61-81. Zweigenbaum, Pierre & Consortium Menelas. 1994. Menelas: an access system for medical records using natural language . Computer Methods and Programs in Biomedicine, 45, 117120. Zweigenbaum, Pierre, Darmoni, Stefan J., & Grabar, Natalia. 2001. The contribution of morphological knowledge to French MeSH mapping for information retrieval . Journal of the American Medical Informatics Association, 8-suppl, 796-800. Zweigenbaum, Pierre, Hadouche, Fadila, & Grabar, Natalia. 2003. Apprentissage de relations morphologiques en corpus . In . Daille d, Actes de TALN 2003 (Traitement automatique des langues naturelles), 285-294, Batz-sur-mer : ATALA IRIN. 125

You might also like