Professional Documents
Culture Documents
Traitement smantique par analyse distributionnelle des noms transdisciplinaires des crits scientifiques
Agns TUTIN LIDILEM, Universit Grenoble 3, BP 25, 38040 Grenoble Cedex 09
agnes.tutin@u-grenoble3.fr
Rsum.
Dans cette tude sur le lexique transdisciplinaire des crits scientifiques, nous souhaitons valuer dans quelle mesure les mthodes distributionnelles de TAL peuvent faciliter la tche du linguiste dans le traitement smantique de ce lexique. Aprs avoir dfini le champ lexical et les corpus exploits, nous testons plusieurs mthodes bases sur des dpendances syntaxiques et observons les proximits smantiques et les classes tablies. Lhypothse que certaines relations syntaxiques - en particulier les relations de sous-catgorisation sont plus appropries pour tablir des classements smantiques napparat quen partie vrifie. Si les relations de sous-catgorisation gnrent des proximits smantiques entre les mots de meilleure qualit, cela ne semble pas le cas pour la classification par voisinage.
Abstract. In this study about general scientific lexicon, we aim at evaluating to what extent
distributional methods in NLP can enhance the linguists task in the semantic treatment. After a definition of our lexical field and a presentation of our corpora, we evaluate several methods based on syntactic dependencies for establishing semantic similarities and semantic classes. Our hypothesis that some syntactic relations namely subcategorized relations is more relevant to establish semantic classes does not entirely appears valid. If subcategorized relations produce better semantic links between words, this is not the case with neighbour joigning clustering method.
Mots-cls : Keywords:
corpus crits scientifiques - classes smantiques analyse distributionnelle. corpus scientific writings semantic classes distributional analysis.
1 Introduction
Le traitement smantique des lments du lexique constitue un pralable dans de nombreuses applications du TAL. Dans une application daide la rdaction en Franais Langue Etrangre (Kraif & Tutin 2006), nous souhaitons ainsi effectuer un traitement du lexique transdisciplinaire des crits scientifiques et de ses collocations. Dans ce cadre, nous souhaiterions proposer une approche onomasiologique de ce lexique (i.e. avec un accs par le sens plutt que par la forme), dont ltude pourrait tre facilite si les approches machinales (Habert & Zweigenbaum 2003) de traitement smantique partir danalyse distributionnelle se rvlaient concluantes pour le travail du linguiste. Dans cette tude, nous dsirons plus prcisment valuer la pertinence des mthodes danalyse distributionnelle bases sur des dpendances syntaxiques pour la constitution de classes smantiques homognes de noms transdisciplinaires des crits scientifiques. Nous voudrions en particulier dterminer dans quelle mesure cette mthode, qui sest rvle adapte des sous-langages spcifiques pour la terminologie du droit (Bourigault & Lame 2002), de limmunologie (Harris et al. 1989) ou de la mdecine (Nazarenko et al. (2001), peut tre applique au lexique du genre des crits scientifiques qui prsente davantage de polysmie. Nous faisons lhypothse
Agns TUTIN que certaines relations syntaxiques de dpendance, plus contraintes sur le plan syntaxique et smantique, produiront des associations smantiques de meilleure qualit. Dans un premier temps, nous dfinirons le lexique transdisciplinaire des crits scientifiques, et prsenterons un premier classement smantique manuel bas sur des proprits linguistiques. Dans un second temps, nous valuerons les rsultats de la mthode distributionnelle employe par Didier Bourigault (Bourigault 2002 ; Bourigault et Lame 2002) notre lexique, mthode qui dissocie les voisins en tte des voisins en expansion , et les comparerons au classement manuel. Puis, nous nous pencherons sur une seconde mthode base sur les dpendances syntaxiques que le mot soit recteur ou rgi ( linstar de Grefenstette 1996). Nous comparerons enfin les associations tablies avec les relations syntaxiques de souscatgorisation et les associations issues des relations de modification. Nous finirons par une valuation et une rflexion sur les mthodes distributionnelles machinales pour la tche linguistique qui nous intresse.
Ont t retenus un ensemble de noms (catgorisation de Cordial) apparaissant plus de 15 fois en mdecine, linguistique et conomie dans un corpus de 2 millions de mots.
1 2 3 4 5 6 7
Les noms de processus de lactivit scientifique (analyse, application, choix, ) sont des noms extensifs (se combinent avec lors, durant, des verbes phasiques, souvent avec faire), et ont un agent humain. Les noms dobjets construits par lactivit scientifique ( approche, argument, concept, conception, dmarche, ) ne sont pas extensifs, ont un agent humain, se combinent avec des verbes comme laborer, construire. Les noms dobservables de lactivit scientifique (cas, donnes, chantillon, exemple, facteur,) ne sont pas extensifs, se combinent avec le support tre et avec les verbes analyser, examiner, tudier. Les noms de supports de la rdaction scientifique (article, chapitre, conclusion, document, figure, ) sont la fois concrets et abstraits non extensifs. Ils se combinent avec la prposition dans, et sont sujets du verbe prsenter. Les noms de caractrisation (caractre, caractristique, diffrence, difficult, fonction,) sont des noms intensifs, se combinant souvent avec le support avoir et sont gnralement accompagns dun adjectif. Les noms dacteurs de lactivit scientifique (auteur, chercheur, ) sont des noms humains, souvent sujets des verbes dactivit scientifique (examiner, dcrire, observer ). Les noms de relation logique (but, cause, consquence, corrlation, effet, influence, liaison, lien, rapport, relation), qui sont abstraits et non extensifs, se combinent avec les supports tre et avoir et apparaissent souvent dans des structures : Nlogique de N..
Les noms polysmiques comme rapport ou tude sont bien entendu rattachs plusieurs classes. Ce premier classement sera notre talon pour lvaluation des mthodes distributionnelles automatiques.
Agns TUTIN
5 valuation de mthodes danalyse distributionnelle machinale bases sur des dpendances syntaxiques
Dans les mthodes danalyse distributionnelle machinale, plusieurs dfinitions de la distribution ont t proposes. Les plus rustiques (Cf. par exemple Grefenstette (1996) peuvent simplement prendre en compte les mots pleins partags dans une fentre de quelques mots. Les distributions bases sur les relations syntaxiques partages donnent cependant de meilleurs rsultats sur les lexmes les plus frquents, donc les plus significatifs (Grefenstette Ibid.). Nous adopterons cette dernire mthode en exploitant les dpendances syntaxiques obtenues sur
notre corpus laide des rsultats de lanalyseur Syntex (Bourigault et al. 2005). Nous valuerons les proximits smantiques tablies et les classes smantiques obtenues laide des coefficients de similarit entre les mots.
Tableau 2 : Exemples de voisins en tte extraits laide de loutil Upery de Didier Bourigault Upery a t appliqu notre corpus dcrits scientifiques et sur le lexique des 85 noms transdisciplinaires classs. Nous avons ensuite valu les couples extraits partir des classes tablies manuellement, en examinant tour tour les voisins en expansion et les voisins en tte. Les voisins en tte associent des mots qui sont des recteurs et qui partagent des contextes semblables avec une relation syntaxique donne. Pour la liste de noms slectionns, on obtient 516 rsultats. Nous avons observ pour chaque couple de voisins tabli si les deux lments associs appartenaient la mme classe dans notre classification manuelle. Si tel tait le cas, nous avons considr que la rponse tait acceptable et lavons rejete dans le cas inverse. Par exemple, lassociation figure-chapitre a t considre comme satisfaisante car les deux noms font partie de la classe des supports crits de lactivit scientifique, mais lassociation
La mthode ne prend pas en compte le nombre doccurrences pour chaque contexte, contrairement dautres approches comme celle de Grefenstette (1996) mais seuls sont retenus les contextes apparaissant plus de deux fois. Les relations pourraient ici tre diffrentes pour les deux lments rapprochs.
Agns TUTIN hypothse-section napparat pas valide car les deux lments appartiennent des classes diffrentes. Lobservation des rsultats rvle que 50,5 % des voisins en tte extraits relvent de la mme classe, ce qui est a priori assez peu, tant donn le caractre assez lche des classes tablies manuellement. Les voisins en tte mettent en jeu de nombreuses relations de modification 5 , facultatives, et peu contraintes sur le plan smantique, comme la relation dpithte ou dattribut. Par exemple, les noms cas et modle, assez distincts sur le plan smantique, apparaissent dans 19 contextes adjectivaux communs. Un examen plus pouss montre que nombre de ces adjectifs sont trs peu contraints du point de vue de leur slection nominale (par exemple, autre, dernier, tel, gnral, prcdent) et donc probablement peu informatifs du point de vue smantique. Nous avons ensuite compar ces rsultats avec les voisins en expansion, cest--dire les cas o les noms transdisciplinaires sont rgis dans une relation de sujet ou de complment. Nous faisons lhypothse que ces relations qui mettent souvent en jeu des arguments souscatgoriss mais pas uniquement , souvent obligatoires, seraient davantage significatives pour tablir des proximits smantiques. Les rsultats obtenus, bien que peu nombreux, semblent aller dans ce sens. Utilisant les mmes seuils que pour les voisins en tte, 52 paires de voisins sont dgages, dont 34 apparaissent valides (65,5% des paires). Lexamen plus dtaill des contextes partags montre que les associations Nom-Verbe apparaissent souvent plus significatives que dans les contextes Nom-Adj, lexception des relations o le verbe tre apparat.
Mais pas uniquement. On repre aussi des relations de complments de noms comme dans lefficacit de cette mthode ou llaboration du modle.
En outre, une classification par voisinage (neighbour joining cluster) a t effectue partir dune une matrice contenant tous les coefficients de proximit (jaccard) sans seuil liant les mots (Cf. Fig. 1.a). Sur les 27 classes finales obtenues, 20 constituent des sous-ensembles des 7 classes dfinies manuellement (2 sous-ensembles ont des lments uniques). Les sous-classes rvlent des associations lexicales fines, qui apparaissent pour la plupart appropries pour notre approche onomasiologique.
5.3 Proximits smantiques tablies laide des relations de souscatgorisation vs relations de modification
Nous faisons lhypothse que les relations syntaxiques mettant en jeu la sous-catgorisation sont plus dterminantes pour tablir des proximits smantiques que les relations de modification, parce que les arguments sont davantage contraints sur le plan syntaxique et smantique par les restrictions slectionnelles. Les voisins en expansion - correspondant pour la plupart des relations de sous-catgorisation - obtenus avec la mthode de Didier Bourigault semblaient aller dans ce sens. Nous avons souhait approfondir ce point en observant plus systmatiquement quelques relations de sous-catgorisation. Les relations de souscatgorisation observes ont t la relation objet (confirmer une analyse), la relation sujet (les rsultats infirment ), les complments nominaux en de, que le nom soit recteur (ou tte) (lanalyse des donnes) ou rgi (lefficacit de la mthode) 6 . La mthode a dgag 76 paires, dont 48 ont t considres valides, soit 63 %. Nous avons ensuite compar ces rsultats avec les associations obtenues uniquement avec les modifieurs. Pour cela, nous avons slectionn uniquement les relations liant ladjectif pithte au nom, ainsi que la relation dapposition. 582 paires ont t obtenues, parmi lesquelles 285 ont t valides, soit 49%. On remarque donc que le nombre de paires obtenues par les relations de sous-catgorisation apparat nettement moins important que le nombre de paires obtenues laide des relations de modification. Cette disparit des effectifs semble avoir une incidence sur les classes tablies laide de la mme mthode quen 5.2 (Cf. Fig. 1.b et Fig. 1.c), puisquon relve que les classes obtenues par les relations de sous-catgorisation sont de moins bonne qualit (14 sur 23 classes sont des sous-classes de nos classes manuelles) que les classes obtenues laide des relations de modification (20 sur 29 classes apparaissent valides). Le type de relation sous-catgorisation ou modification semble donc avoir une incidence sur la qualit des associations produites avec la mthode distributionnelle lorsquon observe les proximits entre mots. Les relations adjectivales et apposition, plus lches, permettent moins facilement de rendre compte du sens des noms. Les relations de sous-catgorisation paraissent plus adaptes pour cette tche, mais la supriorit de lanalyse laide des relations de souscatgorisation napparat cependant pas relle si lon observe les classes obtenues laide des coefficients de proximit, probablement du fait dun nombre de relations syntaxiques moins important pour ces distributions syntaxiques.
Les relations incluant dautres prpositions comme sur ou dans nont pas t retenues car elles mettent en jeu des relations de sous-catgorisation ou de modification selon le contexte. Le logiciel Syntex ne fait pas la diffrence entre ces deux types de relations.
Agns TUTIN
Fig. 1 : Classification par voisinage partir des coefficients de proximit (jaccard) entre mots
76
63% 14/23 (61%)
582
49% 20/29 (69%)
6 Conclusion
Les mthodes danalyse distributionnelle automatique appliques notre champ lexical napparaissent quen partie concluantes. Les voisins obtenus partir des distributions syntaxiques apparaissent valides 60% si lon tient compte de lensemble des relations syntaxiques. Nos rsultats sont cependant pratiquement toujours meilleurs que ceux que Grefenstette (1996) obtient avec lanalyse syntaxique en comparant ses rsultats laune du thsaurus Roget. Nos classes sont cependant plus lches. La prise en compte des seules relations de sous-catgorisation augmente la prcision (63%), mais le rappel est plus faible du fait du faible nombre de relations envisages. Les rsultats paraissent plus intressants pour les classes obtenues par voisinage laide du coefficient de proximit (jaccard), surtout si lon prend en compte lensemble des relations syntaxiques (sans privilgier les relations de sous-catgorisation ou les relations de modification). Les classes obtenues confirment souvent la classification manuelle, tout en proposant des regroupements plus fins, probablement trs utiles pour laccs onomasiologique que nous envisageons pour notre application daide la rdaction. Deux types de traitement linguistique pourraient probablement amliorer les rsultats. Tout dabord, il serait souhaitable de normaliser les relations syntaxiques et les ramener des relations plus smantiques. Par exemple, il ny a pas lieu de distinguer la relation entre ladjectif pithte et le nom, et celle qui lie ladjectif attribut et le nom. En outre, pour pallier le manque de donnes, il pourrait tre utile de regrouper les relations par classes smantiques, en utilisant la mthode distributionnelle de faon incrmentale. Enfin, il apparat indispensable dexplorer dautres mesures de similarit, comme la mesure prox, qui prend en compte la productivit de la relation syntaxique, ce qui nest pas le cas de la mesure de jaccard. Pour une application linguistique comme la ntre, la mthode peut nanmoins apparatre utile, si les donnes obtenues sont valides manuellement. Le linguiste pourra ainsi partir des classifications obtenues automatiquement, observer les contextes partags dans le corpus et corriger les donnes. Comme en terminologie, la mthode distributionnelle sera ainsi conue comme une aide la dcision pour le lexicologue.
Agns TUTIN
Remerciements
Tout dabord, un trs grand merci Didier Bourigault qui ma fourni les rsultats de lanalyseur Syntex ainsi que les rsultats du systme danalyse Upery et a relu une premire version de ce papier. Merci galement Kjersti Flttum, de lUniversit de Bergen, qui ma permis dutiliser le corpus KIAP. Toute ma reconnaissance galement Christophe, le roi de Java, pour son aide. Merci aussi Ccile Frrot pour ses conseils et Olivier Kraif pour sa relecture dune premire version de ce papier.
Rfrences
BOURIGAULT D. (2002). Upery : un outil d'analyse distributionnelle tendue pour la construction dontologies partir de corpus. Actes de la 9me confrence annuelle sur le Traitement Automatique des Langues (TALN 2002), Nancy, 2002, 75-84. BOURIGAULT D., FABRE C., FRROT C., JACQUES M.-P. & OZDOWSKA S. (2005), Syntex, analyseur syntaxique de corpus. Actes des 12mes journes sur le Traitement Automatique des Langues Naturelles, Dourdan, France. BOURIGAULT D., LAME G. (2002). Analyse distributionnelle et structuration de terminologie. Application la construction d'une ontologie documentaire du Droit, in TAL, 43-1. CRUSE D.A. (1986). Lexical Semantics. Cambridge, London : Cambridge University Press (Cambridge Textbooks in Linguistics). GALY E., BOURIGAULT D. ( paratre). Analyse distributionnelle de corpus de langue gnrale et synonymie. Actes JLC 2005. Lorient. GREFENSTETTE G. (1996). Evaluation techniques for automatic semantic extraction : Comparing syntactic and window based approaches. In Boguraev, B. and Pustejovsky, J., editors, Corpus Processing for Lexical Acquisition. Cambridge, Massachusset : MIT Press, 205-216. GROSS G. (1994). Classes d'objets et description des verbes. Langages 115 , 15-30. HABERT, B. AND ZWEIGENBAUM, P. (2003). Classer les mots : smantique gros grain et mthodologie harrissienne. Revue de Smantique et Pragmatique, (12), 101119. HARRIS Z., GOTTFRIED M., RYCKMAN T. (1989). The Form of Information in Science, Analysis of Immunology Sublanguage. Kluwer Academic Publisher, Dordrecht, The Netherlands, 1989. KRAIF O., TUTIN A. (2006). Des corpus bilingues aligns annots smantiquement pour l'aide la rdaction: application aux collocations de la langue scientifique gnrale. Aide la rdaction - Apports du Traitement Automatique des Langues, Journe d'tude l'ATALA, Paris. NAZARENKO A., ZWEIGENBAUM P. , HABERT B, BOUAUD J. (2001). Corpus-based Extension of a Terminological Semantic Lexicon. Recent Advances in Computational Terminology. Amtserdam : John Benjamins, 327-351. PECMAN M. (2004). Phrasologie contrastive anglais-franais : analyse et traitement en vue de laide la rdaction scientifique, Thse de doctorat, Universit de Nice Sophia Antipolis, dcembre 2004. PHAL A. (1971). Vocabulaire gnral d'orientation scientifique (V.G.O.S.) - Part du lexique commun dans l'expression scientifique. Paris : Didier, Crdif.