You are on page 1of 184

AVERTISSEMENT

Ce document numris est le fruit d'un long travail approuv


par le jury de soutenance et mis disposition de l'ensemble
de la communaut universitaire largie.
Il est soumis la proprit intellectuelle de l'auteur au
mme titre que sa version papier. Ceci implique une
obligation de citation et de rfrencement lors de
lutilisation de ce document.
D'autre part, toute contrefaon, plagiat, reproduction
illicite encourt une poursuite pnale.
La Bibliothque a pris soin d'adresser un courrier l'auteur
dans lequel elle l'informe de la mise en ligne de son travail.
Celui-ci peut en suspendre la diffusion en prenant contact
avec notre service.

Contact SCD Nancy 1 : theses.sciences@scd.uhp-nancy.fr




LIENS


Code de la Proprit Intellectuelle. articles L 122. 4
Code de la Proprit Intellectuelle. articles L 335.2- L 335.10
http://www.cfcopies.com/V2/leg/leg_droi.php
http://www.culture.gouv.fr/culture/infos-pratiques/droits/protection.htm
Dpartement de formation doctorale en informatique
UFR STMIA
cole doctorale IAE + M
Gnralisation de structures
prdicatives.
Application l'analyse de l'information
"
THESE
prsente et soutenue publiquement le 8 janvier 1999
pour l'obtention du
Doctorat de l'universit Henri Poincar - Nancy 1
(spcialit informatique)
Composition du jury
Prsident .'
par
Nicolas Capponi
Rapporteurs.' Daniel Kayser, Professeur l'Universit Paris 13
Marie-Christine Rousset, Professeur l'Universit Paris-Sud
Didier Galmiche, Matre de Confrences l'Universit Henri Poincar, Nancy
Examinateurs.' Jean-Marie Pierrel, Professeur l'Universit Henri Poincar, Nancy
Amedeo Napoli, Charg de Recherche au CNRS, Nancy
Yannick Toussaint, Charg de Recherche l"INRIA Lorraine, Nancy
Laboratoire Lorrain de Recherche en Informatique et ses Applications - UMR 7503
11
Table des matires
Chapitre 1 Motivations et objectifs 1
Chapitre 2 Apports et limites des travaux en classification conceptuelle 5
2.1 Dfinitions des principales notions utilises. . . . . . . . . 5
2.2 Vue d'ensemble des travaux en classification conceptuelle. 8
2.2.1 Un objectif: construire automatiquement des hirarchies. 9
2.2.2 Les deux types d'approches en classification conceptuelle. 10
2.2.3 Importance de la reprsentation des connaissances pour la classica-
tion conceptuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 12
2.3 Limites de l'approche classique en classification conceptuelle pour organiser
des connaissances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 14
2.4 Classification conceptuelle avec les treillis de concepts : construire toutes les
classes possibles ... .. .. .
2.4.1 Les treillis de concepts
2.4.2 Le systme GALOIS: une approche incrmentale
17
17
18
2.4.3 Travaux de Simon et Napoli : l'apport de la reprsentation par objets 20
2.5 Classification conceptuelle avec les graphes conceptuels: un formalisme plus
puissant . .......... . .
2.5.1 Les graphes conceptuels
2.5.2 La Mthode de Structuration par Gnralisation (MSG) pour gn-
23
23
raliser des objets structurs . . . . . . . . . . . . . . . . . . . . . . . 28
2.5.3 Le systme COING: extension de la MSG pour prendre en compte
des connaissances du domaine. . . . . . . . . . . . . . . . . . . . . . 29
2.6 Les logiques de descriptions : un meilleur compromis expressivit/ complexit 31
2.6.1 Les logiques de descriptions . . . . . . . . . . . . . . . . . . . . . . . 32
2.6.2 Travaux de Cohen et al. : un oprateur de gnralisation pour les LD 37
2.6.3 KLUSTER : construction inductive avec une logique de descriptions 38
2.6.4 Utilisation de l'opration de ppsc pour gnraliser des objets 40
lU
Table des matires
2.7 Conclusion: choix d'une logique de descriptions pour gnraliser les struc-
tures prdicatives . . . 41
Chapitre 3 Proposition de reprsentation des structures prdicatives en
CLASSIC 43
3.1 Prsentation de la logique de descriptions CLASSIC . . . . . . . . 43
3.2 Mthode de reprsentation des structures prdicatives en CLASSIC 45
Chapitre 4 Notre mthode de gnralisation de structures prdicatives 53
4.1 Un algorithme de calcul du PPsc . . . . . . . 53
4.2 Introduction d'une gnralisation en CLASSIC 58
4.3 Des principes et des heuristiques pour la gnralisation 60
4.3.1 Utilisation de la hirarchie comme indice de proximit des structures
prdicatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 61
4.3.2 Une heuristique qui dcompose le problme de gnralisation en deux
tapes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 61
4.3.3 Une heuristique pour traiter le problme de la diversit des structures
prdicatives . . . . . . . . . . . . . . . . . . . . . .
4.4 Premire tape de la gnralisation: prdicat par prdicat
4.5 Deuxime tape de la gnralisation: mise en commun des prdicats
4.6 Complexit du processus de gnralisation
4.6.1 Complexit thorique ..... . . .
4.6.2 Evaluation empirique de la complexit
4.7 Conclusion . . . .... . ........... .
64
66
76
86
86
87
92
Chapitre 5 tude des travaux d'extraction d'informations partir de textes
pour l'analyse de l'information 95
IV
5.1 L'analyse de l'information pour caractriser un ensemble de documents 95
5.2 L'approche terminologique pour extraire l'information de textes scientifiques 98
5.2.1 La terminologie et l'information ...... .
5.2.2 L' acquisition et la reconnaissance de termes
5.3 Les relations entre termes, pour structurer les units d'informations
5.3.1 Deux grands types de relations .. ..... .. . . .. .
98
101
105
106
5.3.2 Les mthodes linguistiques statistiques: classes de mots 107
5.3.3 Les structures prdicat-arguments et les rles thmatiques pour une
meilleure caractrisation des relations 112
5.4 Vers une chane de traitement complte pour l'analyse de l'information 121
Chapitre 6 Les structures prdicatives et leurs gnralisations pour l'analyse
de l'information 125
6.1 Le domaine d'application: rsums bibliographiques sur l' agriculture 125
6.2 Rutiliser le thsaurus AGROVOC pour organiser les termes en hirarchie 128
6.3 Les structures prdicatives pour identifier les associations de type syntag-
matique . ... ... . . ... ... ......... . . ... .. .
6.4 Un prototype pour la prise en compte des structures prdicatives
6.5 Evaluation de la gnralisation pour l'analyse de l'information.
6.5.1 La qualit d'une gnralisation, une notion trs relative
6.5.2
6.5.3
Conclusion
Bibliographie
Une exprimentation avec un documentaliste expert
Conclusion
131
134
142
143
144
154
155
161
v
Table des matires
VI
Table des figures
2.1 Un domaine de rfrence, D, compos de quatres objets gomtriques. . . . 6
2.2 Les principaux types de structures classificatoires . . . . . . . . . . . . . .. 8
2.3 Approche classique en classification conceptuelle d'aprs [Bournaud 96] 10
2.4 Approche Espace de Connaissances en classification conceptuelle d'aprs
[Bournaud 96] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 12
2.5 Le treillis de concepts et les connaissances du domaine relatifs six docu-
ments d'une base bibliographique d'aprs [Carpineto 96] . . . . . . . . . .. 21
2.6 Exemple de base de connaissances avec les graphes conceptuels . . . . . .. 25
2.7 Une petite base de connaissances en logique de descriptions d'aprs [Napoli
97] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 34
2.8 Syntaxe de description d'un concept et d'un rle en logique de descriptions. 35
2.9 Smantique thorie des modles en logique de descriptions . . . . . . . . .. 36
3.1 Syntaxe simplifie de description d'un concept en CLASSIC d'aprs [Resnick
95] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 44
3.2 Six structures prdicatives avec la tte prdicative dosage en CLASSIC . . .. 50
3.3 Dtails de la hirarchie des concepts, avec focus sur les arguments utiliss
par les structures prdicatives de dosage . . . . . . . . . . . . . . . . . . 50
3.4 Hirarchie aprs l'ajout d'une septime structure prdicative en CLASSIC 51
4.1 PPSC de deux concepts et de chacune de leurs composantes 54
4.2 Dtail de la hirarchie des concepts . . . . . . . . . . . . . . 54
4.3 Fonctions ut ilises dans les algorithmes. . . . . . . . . . . . 56
4.4 Hirarchie conceptuelle avec l'introduction de la gnralisation Gl-DOSAGE 59
4.5 Dtail de la hirarchie des concepts .......... .. .. . . ... . " 61
4.6 Un extrait de la hirarchie des verbes de Wordnet, avec leur traduction en
franais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 63
4.7 Hirarchie de sept structures prdicatives DOSAGE-l, ... , DOSAGE- 7 en CLASSIC 66
4.8 Le graphe correspondant aux restrictions du rle objet pour le sous-ensemble
SPi ........ .. . ..... . ......... . . .... .... . ... 70
4.9 Le graphe correspondant aux restrictions du rle moyen pour le sous-ensemble
SPi ..... .... .... . ....... .. ....... . ... .. 74
4.10 Hirarchie en CLASSIC aprs la premire tape de gnralisation . . . 75
4. 11 Hirarchie de concepts possdant la tte prdicative i dentification 77
4.12 Hirarchie li mite aux prdicats et leurs ascendants . . . . . . . . . . 78
4.13 Un exemple de distribution non uniforme de structures prdicatives . 81
4.14 Hirarchie des concepts avant la deuxime tape de la gnralisation 83
vu
Table des figures
Vlll
4.15 Hirarchie des concepts aprs la deuxime tape de la gnralisation 84
4.16 Hirarchie des concepts o seules apparaissent les structures prdicatives .. 85
4.17 Temps de gnralisation en secondes en fonction de N
sp
pour N
tp
= 1 et
deux valeurs de NT : 2 et 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.18 Temps de gnralisation en secondes en fonction de N
tp
pour des valeurs de
N
sp
comprises entre 5 et 30, et NT = 2 . . . . . . . . . . . . . . . . . . . .. 89
4.19 Temps de gnralisation en secondes en fonction de Ntotal pour des valeurs
de N
sp
comprises entre 5 et 30, et NT = 2 . . . . . . . . . . . . . . . . . .. 90
4.20 Temps de gnralisation en secondes en fonction de N
tp
pour des valeurs de
N
sp
comprises entre 10 et 30 et NT = 4 . . . . . . . . . . . . . . . . . . . .. 90
4.21 Temps de gnralisation en secondes en fonction de N
tp
pour des valeurs de
N
sp
comprises entre 10 et 30 et NT = 4 . . . . . . . . . . . . . . . . . . . . . 91
5.1 Un rseau lexical reprsentant les affections corporelles localises d'aprs
[Habert 96b] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.2 Deux classes Cl et C
2
de 5 termes maximum d'aprs [Grivel 95a] . .... . 111
5.3 Une carte thmatique sur un corpus en agriculture, construite avec SDOC
dans le cadre du projet ILC ........................ . .. 113
5.4 Les tapes du traitement des proximits du systme RECIT d'aprs [Rassi-
noux 94] ................... .. . .. .. ..... . ...... 119
5.5 Graphe conceptuel obtenu partir d'une phrase du corpus d'aprs [Rassi-
noux 94] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
5.6 Architecture de la chane de traitement ILIAD d'aprs [Toussaint 98] 121
5.7 Textes initiaux et classes de termes obtenues, d'aprs [Toussaint 98] . 122
6.1 Un rsum extrait du corpus, dont les termes sont souligns . . . . . 126
6.2 Deux entres du thsaurus AGROVOC, AMINE et PRODUIT DE LA RUCHE 128
6.3 Structuration des hirarchies du thsaurus par ajout de la catgorie abstraite
produit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
6.4 La classification du thsaurus n'est pas toujours homogne ... ....... 129
6.5 Termes de la classe CHROMATOGRAPHI E replacs dans la hirarchie ... . . 130
6.6 Termes de la classe CHROMATOGRAPHIE replacs dans la hirarchie, avec
visualisation des liens de co-occurrences . . . . . . . . . . . . . . . . 130
6.7 Gnralisation des liens entre chromatographie, produit laitier, miel 133
6.8 Gnralisation des liens entre dosage, amine biogne, polyamine 133
6.9 Visualisation de la hirarchie des concepts, sans structures prdicatives . . . 135
6.10 Visualisation de la hirarchie des concepts, avec des structures prdicatives
(gnralisations prfixes par la lettre G ) ................ . 136
6.11 Visualisation des termes de la classe CHROMATOGRAPHIE projets sur la
hirarchie .. . .... . . . ... .. .. ....... . ............ 137
6.12 Visualisation de la liste des gnralisations calcules . .. . ... .... .. 138
6.13 Visualisation de la description d'une structure prdicative, obtenue par double-
clic sur un lment de la figure 6.12 .. .. ..... . ... . ....... . . 139
6.14 cran de parcours hypertexte des structures prdicatives, faisant apparatre
les fils de la gnralisation G16-ANALYSE_ QUANTITATIVE . ... .. . .. .. 140
6.15 cran de parcours hypertexte des structures prdicatives, faisant apparatre
les fils de la gnralisation G19 -ANALYSE_ QUANTITATIVE .. . ........ 141
6.16 Visualisation d'une classe de termes par l'interface de SDOC : termes de la
classe CERNE .. . ..... . .. .. . . .... .. .. .. ... ... . .. 145
6.17 Visualisation d'une classe de termes par l'interface de SDOC : associations
internes et externes de la classe CERNE .................... 146
6.18 Visualisation des titres des documents relatifs la classe CERNE . .. .. . 148
6.19 Visualisation de la description et du contenu d'un document relatif la
classe CERNE . ... . . . ...... . . . .......... .. . ..... 149
6.20 cran de parcours hypertexte des structures prdicatives, faisant apparatre
les fils de la gnralisation G16 -ANALYSE_ QUANTITATIVE . ....... . . . 151
6.21 cran de parcours hypertexte des structures prdicatives, faisant apparatre
les fils de la gnralisation G19-ANALYSE_ QUANTITATIVE . . ........ . 152
6.22 Une vue synthtique de la classe CHROMATOGRAPHIE construite partir de
trois structures prdicatives ... . . . .. . .. . . . . ...... . . . . .. 153
IX
Table des figures
x
1
Motivations et objectifs
Nous prsentons dans ce mmoire une mthode originale de structuration de structures
prdicatives par gnralisation. Nous appliquons cette mthode l'analyse de textes scienti-
fiques dans le but d'amliorer une chane de traitement existante, qui est limite par le type
d'informations qu'elle manipule: des termes et des associations entre termes. L'utilisation
de structures prdicatives permet de proposer une analyse plus fine, et leur structuration
par gnralisation permet de disposer d'une vue synthtique du contenu informationnel
des textes, contribuant amliorer le processus d'analyse.
L'analyse de l'information scientifique et technique
Nous nous intressons au traitement de l'information caractre scientifique et tech-
nique, dans le cadre de l'analyse de l'information. Dans un contexte d'augmentation trs
rapide de l'information sous une forme lectronique (banques de donnes documentaires,
documentation technique, ... ), il devient ncessaire de disposer de mthodes informatiques
permettant de bien matriser l'accs cette information.
L'analyse de l'information vise caractriser le contenu d'un ensemble de textes afin d'en
donner une vision globale: il s'agit de permettre une vue synthtique d'une masse de do-
cuments, en faisant merger le contenu informationnel au moyen de mthodes et d'outils
informatiques. In fine, l'analyse est effectue par un expert d'un domaine de spcialit
donn, qui s'appuie sur le contenu extrait des documents pour en raliser l'interprtation.
L'objectif final peut tre la constitution d'un dossier de veille technologique, d'un rapport
de tendance destination de dcideurs ou plus simplement l'tablissement d'un tat de
l'art sur un sujet particulier.
Concrtement, les mthodes d'analyse consistent extraire des informations d'un cor-
pus de documents afin de les structurer et de les prsenter l'utilisateur qui pourra les
interprter. Ces informations prennent donc la forme d'units langagires: mots et groupes
de mots 1 qui renvoient aux connaissances vhicules par les textes. L'identification des
relations entre ces units par le biais de la co-occurrence des termes, notamment au moyen
de mthodes statistiques, permet d'oprer une structuration des units d'information et
de fournir ainsi une image organise du contenu informationnel des textes, partir de
laquelle intervient le spcialiste du domaine. Toutefois, cette image , qui prend la forme
1. Dans un domaine de spcialit, il s'agit de termes simples (un mot) et complexes (plusieurs mots),
qui renvoient des concepts du domaine.
1
Chapitre 1. Motivations et objectifs
de classes de termes (ensemble de termes et de relations entre ces termes) orgamsees au
sein d'une carte thmatique, ncessite un travail important de la part de l'analyste pour
aboutir la caractrisation finale de l'ensemble des documents.
Les structures prdicatives pour accder aux informations des textes
Bien qu'il soit notre sens irraliste de prtendre automatiser compltement un tel
processus, nous dfendons dans cette thse une approche plus exhaustive, propose dans
le cadre du projet ILC (Infomtrie, Langage et Connaissances) 2 : nous faisons l'hypo-
thse qu'une analyse plus fine et plus complte, allgeant le travail de l'analyste, peut
tre obtenue en recherchant dans les textes des informations plus labores: les structures
prdicatives. Les structures prdicatives mettent en jeu plusieurs units d'information re-
prsentes par des units linguistiques de la forme prdicat-arguments. Classiquement, un
prdicat reprsente une action ou un vnement li au domaine, et les arguments prcisent
les objets impliqus dans l'action ou l'vnement . Une structure prdicative permet ainsi
de rendre compte de manire plus fine du contenu informatif des textes que des associations
de co-occurrence entre termes, qui sont par nature peu prcises.
Nous pouvons illustrer ceci par un exemple simple. Dans le domaine de l'agriculture, l'ana-
lyse d'un corpus de textes peut faire merger les relations de co-occurrence suivantes entre
termes:
dosage et amine
dosage et chromatographie
amine et chromatographie
L'analyste, pour en savoir plus sur le contexte de ces associations, doit avoir recours aux
textes o apparaissent conjointement ces termes. L'utilisation de structures prdicatives
permet d' obtenir une information plus riche, sans ncessiter un retour aux textes. Ainsi,
la structure prdicative suivante:
dosage(objet,' amine, moyen,' chromatographie)
permet de prciser comment les termes dosage, amine et chromatographie sont lis. Objet et
moyen sont des rles thmatiques qui prcisent le rapport entre le prdicat et l'argument.
Ainsi, le dosage porte sur des substances, les amines, et le moyen utilis est une technique
d'analyse appele chromatographie.
Nos objectifs
Dans cette thse, nous montrons que l'utilisation de structures prdicatives peut am-
liorer de faon sensible le processus de l'analyse de l'information. Cependant leur utilisation
repose sur une structuration qui prsente une vision synthtique du contenu information-
nel : l'information collecte doit tre organise afin d'tre exploite efficacement. Notre
travail s'est donc dcompos en deux objectifs:
- proposer une mthode de structuration par gnralisation de structures prdicatives
extraites des textes, qui prenne en compte les spcificits de la nature linguistique de
ces structures.
2. Le projet ILe est dvelopp dans le cadre d'une collaboration entre l'quipe RFIA du LORIA-INRIA
Lorraine et le Programme de Recherche Infomtrie de l'INIST.
2
montrer que la mthode propose trouve une application naturelle en analyse de
l'information, en l'intgrant dans une chane de traitements de textes qui repose sur
une approche terminologique et qui permet l'analyse du contenu informationnel d'un
ensemble de documents.
Le coeur de notre travail est la proposition d'une mthode originale de gnralisation de
structures prdicatives. La gnralisation de structures prdicatives n'a pas fait l'objet,
notre connaissance, de t ravaux spcifiques. Toutefois, elle s' inscrit, au moins partiellement,
dans les recherche en apprentissage, et plus particulirement en classification conceptuelle,
dont l'objectif est la construction automatique de hirarchies partir d'un ensemble d'ob-
jets.
L'application de notre mthode de gnralisation l'analyse de l'information reprsente
le deuxime volet de notre travail : elle nous permet d'valuer la mthode et d'tudier
l' aspect linguistique de faon plus approfondie.
Plan du mmoire
Notre mmoire se compose de deux grandes parties.
La premire partie prsente la mthode de gnralisation de structures prdicatives que
nous avons labore.
La deuxime partie prsente une application de notre mthode l'analyse de l'information,
dont l' objectif est de synthtiser l'information contenue dans des documents textuels.
Nous nous sommes peu intresss la manire dont on obtient ces structures prdicatives
car ce n'tait pas notre objectif prioritaire. Le lecteur ne devra donc pas s'attendre
trouver une mthode d'extraction de structures prdicatives, mais plutt une mthode de
structuration et de synthse de ces structures.
La premire partie est focalise sur la gnralisation, et met l'accent sur la partie logique de
notre travail. L'aspect linguistique n' est qu'abord que pour justifier cert ains choix raliss.
Aussi certains aspects trs importants, notamment le lien entre les units linguistiques (les
termes) et les concepts ne sont pas discuts dans cette partie, mais sont abords plus tard.
Dans la deuxime partie, nous nous intressons de manire beaucoup plus approfondie aux
aspects linguistiques de ce travail. Les mthodes et outils permettant la mise en oeuvre
d'un processus automatique d'analyse de l'information sont discuts et l' articulation entre
l'aspect linguistique et l'aspect logique est trait de faon plus complte.
La premire partie, consacre la gnralisation, est constit ue de trois chapitres (cha-
pitres 2, 3 et 4) .
Le chapitre 2 fait l'inventaire des mthodes de gnralisation existantes, principalement
issues du domaine de la classification conceptuelle. Nous distinguons les deux approches
principales utilises en classification conceptuelle, et montrons l'importance du formalisme
de reprsentation de connaissances utilis. L'tude des diffrents travaux nous permet de
choisir un formalisme de reprsentation de connaissances adquat, les logiques de descrip-
t ions.
Dans le chapitre 3, nous prsentons en dtail les connaissances que nous sommes amens
gnraliser, savoir les structures prdicatives, et montrons comment nous reprsentons
ces connaissances avec le formalisme de logique de descriptions utilis, CLASSIC.
Le chapitre 4 constitue le coeur de notre travail : nous y prsentons notre mthode de g-
nralisation avec la logique de descriptions CLASSIC. Les heuristiques utilises, ainsi que les
3
Chapitre 1. Motivations et objectifs
algorithmes correspondants sont dtaills. La complexit de ce processus de gnralisation
est expose.
La deuxime partie, qui montre comment appliquer notre mthode de gnralisation
l'analyse de l'information, est constitue de deux chapitres (chapitres 5 et 6) .
Le cinquime chapitre de notre thse prsente en dtail le processus d'analyse de l'infor-
mation. Nous tudions les mthodes et outils informatiques constitutifs d'une chane de
traitement de documents textuels pour l'analyse. Nous montrons en particulier la ncessit
d'une approche terminologique, et proposons l'utilisation de structures prdicatives comme
moyen d'amliorer la finesse de l'analyse.
Le sixime chapitre prsente une premire valuation du processus de gnralisation
dans le cadre de l'analyse de l'information. Au travers d'une exprimentation sur un corpus
de rsums du domaine de l'agriculture, nous positionnons notre processus dans la chane
de traitement et montrons comment il permet de proposer une vue synthtique des textes,
permettant un accs plus efficace et plus pertinent l'information qu'ils contiennent.
Nous terminons ce mmoire par un rsum des principaux rsultats obtenus, complt
par un aperu des perspectives offertes par notre travail.
4
2
Apports et limites des travaux en
classification conceptuelle
Nous prsentons dans ce chapitre une tude critique des travaux en classification concep-
tuelle qui sont susceptibles d'tre mis contribution pour notre objectif de gnralisation
de structures prdicatives. Nous commenons par donner une ensemble de dfinitions des
principales notions que nous utiliserons (section 2.1). Puis nous prsentons une vue d'en-
semble des travaux en classification conceptuelle (section 2.2). Nous montrons ensuite les
limites des approches classiques (section 2.3), et nous intressons des approches utili-
sant diffrents formalismes de reprsentation des connaissances: les treillis de concepts,
les graphes conceptuels et les logiques de descriptions (section 2.4 2.6). Sur la base des
rsultats de cette tude, nous concluons par le choix d'un formalisme qui sera utilis comme
cadre pour la gnralisation des structures prdicatives (section 2.7) .
2.1 Dfinitions des principales notions utilises
Les relations entre les notions de gnralisation, de classification, de hi rarchie et de
concept, ainsi que quelques notions annexes, sont prsentes ci-aprs travers un ensemble
de dfinitions qui permettront au lecteur de mieux apprhender notre problmatique et la
prsentation de notre travail. Ces dfinitions n'ont pas l' ambit ion d'tre normatives, mais
plutt de situer notre point de vue sur des termes souvent flous et ambigus.
Domaine, concept et objet
En intelligence artificielle, on s' intresse trs souvent la reprsentation d'un domaine
de rfrence, qui est une modlisation du monde ou d'une partie du monde. Un domaine
est dcrit l'aide d'objets individuels, et de concepts, regroupant par abstraction diffrents
objets.
Un concept peut s'apprhender de deux manires complmentaires:
- une vision ensembliste permet de considrer le domaine de rfrence comme un
ensemble, les objets sont alors les lments de cet ensemble, et les concepts des
5
Chapitre 2. Apports et limites des travaux en classification conceptuelle
sous-ensembles 3. Les objets qui appartiennent au sous-ensemble correspondant un
concept sont des instances de ce concept. L'ensemble des instances d'un concept est
l'extension de ce concept.
- alternativement, un concept peut tre peru comme un ensemble de caractristiques
ou proprits. Une instance de concept est alors un objet qui satisfait les proprits
d'un concept. L'ensemble des proprits d'un concept constitue l' intension de ce
concept.
D
FIG. 2.1 - Un domaine de rfrence, V, compos de quatres objets gomtriques
Par exemple, soit un domaine V comprenant quatre objets Pl, P2, P3, P4 (voir figure 2.1).
Le concept de triangle a pour extension l' ensemble {Pl,p3}' Une dfinition en intension du
concept de triangle peut tre: polygone ayant trois cots ou bien alternativement polygone
ayant trois angles.
Classification
Le terme classification, mme en se restreignant au domaine de l'intelligence artifi-
cielle, possde de nombreux sens. Il peut en effet dsigner:
1 un processus inductif qui permet d'aboutir cette structure,
2 un processus dductif qui permet d'identifier la classe d'appartenance d'un objet,
3 un processus dductif qui permet d'insrer un nouvel objet ou une nouvelle classe dans
cette structure,
4 une structure qui organise des objets en classes (ou concepts),
Dans ce mmoire, nous serons amens discuter de ces diffrents sens. Par dfaut, le terme
classification sera utilis pour dsigner un processus inductif [sens 1]4. Pour dsigner la re-
cherche de la classe d'un objet [sens 2], nous parlerons d'identification. Le sens [3] est
utilis dans la section o nous prsentons le formalisme des logiques de descriptions. Nous
conserverons le terme classification, en prcisant qu'il s'agit d'un mcanisme dductif. En-
fin, pour dsigner une structure, nous utiliserons les termes dcrits ci-dessous (paragraphe
suivant).
3. Dans cette vision ensembliste, les concepts sont galement appels classes.
4. Le processus inductif est parfois dsign par le terme catgorisation. Ce terme a t choisi par plu-
sieurs auteurs [Napoli 96] [Euzenat 94]. D'autres prfrent rserver ce terme pour dsigner , en psychologie
cognitive, l' opration mentale de regroupement d'objets semblables [Bournaud 96, page 18].
6
2.1. Dfinitions des principales notions utilises
Structures classificatoires et hirarchies
Une structure classificatoire peut prendre diverses formes . Nous nous intresserons es-
sentiellement aux structures hirarchiques, et nous utiliserons le terme hirarchie pour les
dsigner 5. Nous dfinissons une hirarchie 1-l = (X, , w) comme un graphe orient sans
circuits o :
- X est un ensemble de classes,
- est une relation d'ordre partiel
6
, que l'on appellera relation de spcialisation ou
relation de subsomption,
- west l'lment maximal de X suivant , existe toujours, et est appel la racine de
la hirarchie.
Les classes reprsentent les sommets du graphe, et les arcs correspondent aux relations
entre les classes. Si l'on considre que l'ensemble X reprsente des concepts plutt que de
simples classes, on peut utiliser le terme hirarchie conceptuelle.
tant donn un lment C de la hirarchie 1-l, ses pres reprsentent les antcdents directs
de C dans 1-l; ses fils reprsentent les descendants directs de C.
Lorsque deux lments C et D de la hirarchie 1-l vrifient C D, on dit que D subsume
(est plus gnral que) C. C est le subsum, et D est le subsumant.
Une hirarchie stricte est une hirarchie 1-l o toutes les classes sont disjointes, c'est--
dire o chaque lment C de 1-l possde un seul pre.
Un treillis est une hirarchie 1-l telle que tout couple d'lments (C, D) possde un maxi-
mum C 1\ D et un minimum C V D uniques.
Les deux autres principaux type de structures classificatoires sont la partition, simple
rpartition d'un domaine en classes disjointes, et le recouvrement, rpartition d'un domaine
en classes non ncessairement disjointes [Decaestecker 93]. La figure 2.2 illustre les diffrents
types de structures classificatoires prsentes.
Gnralisation
tant donn une hirarchie 1-l, la gnralisation d'un ensemble X d'objets ou de
concepts 7 est une opration qui consiste calculer un concept 9 qui soit plus gnral (au
sens de la relation de subsomption) que chacun des lments de X. Le concept 9 est appel
un concept gnralisation de X 8 .
Parmi les concepts gnralisations possibles de X, l'ensemble des plus petites gnralisa-
tions communes sont ceux qui ne subsument pas un autre concept gnralisation de X .
Autrement dit, s'il n'existe pas de concept gnralisation c de X tel que c g, alors 9 fait
partie des plus petites gnralisations communes de X.
Par extension, la gnralisation d'un ensemble d'objets (ou de concepts) est un pro-
cessus qui consiste trouver un ensemble de concepts gnralisations qui permette une
organisation synthtique de l'ensemble d'objets (ou de concepts) en hirarchie.
5. Le terme taxinomie est aussi utilis en intelligence artificielle.
6. On se limi te parfois un pr-ordre, c'est--dire une relation transitive, rflexive mais non ncessai-
rement antisymtrique [Leclre 96].
7. X tant ventuellement rduit au singleton.
8. Lorsqu'il n'y a pas d'ambigut, nous utilisons simplement le terme gnralisation.
7
Chapitre 2. Apports et limites des travaux en classification conceptuelle
1 1 1 1 1 1
Partition Recouvrement
Treillis
Hirarchie stricte
Hirarchie gnrale
D classe ( racine
- relation de spcialisation
FIG. 2.2 - Les principaux types de structures classificatoires
Notre objectif de gnralisation de structures prdicatives peut ainsi tre dfini de
manire plus prcise.
tant donns :
- un ensemble de structures prdicatives reprsentes par des concepts,
- une organisation hirarchique des lments (concepts) constituant les structures pr-
dicatives,
Il s'agit de :
- trouver un ensemble de concepts gnralisations synthtisant les structures prdica-
tives 9,
- trouver une organisation hirarchique de ces concepts.
Nous pouvons prsent nous intresser l'tude de l' tat de l'art en classification
conceptuelle.
2.2 Vue d'ensemble des travaux en classification conceptuelle
Nous prsentons une vue d'ensemble de la classification conceptuelle, qui montre que
l'objectif principal de ce domaine de recherche est la construction automatique de struc-
tures classificatoires, et principalement de hirarchies. Nous prsentons ensuite les deux
grands types d'approches qui ont t utilises, et montrons l'importance du formalisme de
reprsentation des connaissances pour la classification conceptuelle.
9. Les concepts gnralisations reprsentent galement des structures prdicatives. Pour tre plus prcis,
lorsque nous employons le terme structure prdicative, il s'agit ici du concept reprsentant une
structure prdicative. Nous discutons ce point plus en dtail au chapitre 3.
8
2.2. Vue d'ensemble des travaux en classification conceptuelle
2.2.1 Un objectif: construire automatiquement des hirarchies
La classification conceptuelle 10 est un champ de l'intelligence artificielle concern
par la construction automatique de structures classificatoires, et plus particulirement de
hirarchies. Initialement, les travaux de classification automatique se sont orients vers
des approches statistiques, qui sont maintenant approfondies dans le cadre de l'analyse
de donnes [Saporta 90J [Celeux 95J comme le montre Ketterlin qui dresse un panorama
de l'activit [Ketterlin 95, pages 7- 14J. La diffrence majeure entre les deux approches
est l'introduction de la notion de concept par les chercheurs en intelligence artificielle, qui
permet de prendre en compte des donnes symboliques et de fournir ainsi une description
des classes qui regroupent les objets.
La classification conceptuelle est une forme d'apprentissage non supervis, dans la me-
sure o les objets regrouper en concepts n'ont pas t classs a priori. Elle s'oppose
l'apprentissage supervis
ll
dont l'objectif est de trouver les concepts permettant d'organi-
ser un ensemble d'objets pralablement diviss en exemples et contre-exemples.
Une dfinition prcise de la classification conceptuelle t donne par Michalski et
Stepp [Michalski 83J :
tant donn un ensemble d'objets et leur descriptions associes, trouver:
- un ensemble de classes regroupant ces objets, et maximisant les similitudes
au sein d'une classe et les diffrences entre classes distinctes,
- une dfinition intensionnelle de chacune des classes,
- une organisation hirarchique des classes.
Une distinction est faite selon que le processus est incrmentaI ou non. Le processus est
dit incrmentallorsqu'il traite les objets de manire squentielle: tant donne la hirarchie
11., le processus dfinit une opration d'insertion d'un nouvel objet dans la hirarchie, qui
modifie celle-ci en consquence. Un processus non incrmental considre l' ensemble des
objets d'un bloc, et retourne la hirarchie correspondante. La classification conceptuelle
incrmentale est connue galement sous le terme formation de concept 12 .
Plusieurs utilisations des hirarchies
Les hirarchies construites automatiquement sont destines diffrents objectifs, dont
les plus courants sont [Bournaud 96J [Godin 95J :
- la prdiction de valeurs de caractristiques inconnues pour de nouveaux objets,
- l'aide la dcouverte scientifique,
- l'organisation de connaissances,
Etant donn un nouvel individu X ne participant pas la hirarchie de concepts,
la prdiction de valeurs de caractristiques inconnues consiste dduire la valeur d'une
proprit a concernant cet individu. Cette proprit a peut tre simplement la classe
laquelle appartient X, et le problme est alors celui de l'identification du nouvel objet X.
10. Traduction de l' expression conceptual clustering. On trouve galement dans la littrature les expres-
sions regroupement conceptuel et catgorisation conceptuelle.
11. Le terme apprentissage de concept est galement utilis.
12. Traduction de concept formation.
9
Chapitre 2. Apports et limites des travaux en classification conceptuelle
Comme le fait remarquer 1. Bournaud [Bournaud 96], l'avantage de ce type d'utilisation est
la facilit de l'valuation du processus: l'ensemble des objets du domaine est divis en deux
ensembles, l'un tant utilis pour l'apprentissage, et l'autre pour tester automatiquement
la prdictivit de la structure classificatoire construite.
L'aide la dcouverte scientifique doit permettre de formuler une thorie ou une loi
empirique, en utilisant la structure classificatoire obtenue sur un grand nombres d'objets.
L'accent est mis sur la comparaison entre diffrentes structures obtenues afin de faire
merger la thorie ou la loi.
L'organisation de connaissances consiste trouver une structure classificatoire qui soit
pertinente pour rendre compte des similarits et des diffrences structurelles entre des
objets. Une structure hirarchique est bien adapte l'organisation des connaissances, et
est utilise par de nombreuses disciplines (biologie, psychologie, reprsentation par objets,
rseaux smantiques, ... ).
Notre objectif nous situe naturellement dans cette dernire catgorie, puisque nous
considrons la gnralisation de structures prdicatives comme un moyen synthtique
d'organiser des informations extraites de textes. Les mthodes proposes en classification
conceptuelle diffrent selon l'objectif vis, et nous nous focaliseront donc essentiellement
sur celles qui favorisent l'organisation de connaissances.
2.2.2 Les deux types d'approches en classification conceptuelle
A la suite de Bournaud [Bournaud 96], nous distinguons deux grandes approches en clas-
sification conceptuelle : l' approche classique et l'approche base sur un Espace de Connais-
sances. Ces deux approches sont schmatises sur les figures 2.3 et 2.4.
Objets
t
Construction des classes Caractrisation des classes
----. .

Hirarchie de classes
Hirarchie de concepts
Evaluation des concepts .......... ---------1
C) classe (extension)
c=J concept (intension)
objet
FIG. 2.3 - Approche classique en classification conceptuelle d'aprs [Bournaud 96}
L'approche classique
L'approche classique peut se caractriser par un dcoupage en trois procdures princi-
pales [Bisson 92] [Bournaud 96] :
- une procdure de construction de classes sous forme hirarchique,
10
2.2. Vue d'ensemble des travaux en classification conceptuelle
- une procdure de caractrisation des classes, qui fournit une description intensionnelle
des classes,
- une procdure d'valuation de la hirarchie, qui permet de juger de la qualit du
rsultat (notamment la capacit de prdiction).
La procdure de construction ncessite de dfinir des critres de regroupement des obj ets
et des classes. tant donn un ensemble X constitu de n objets, il faut trouver les sous-
ensembles Ci qui vont constituer les classes. Le nombre de sous-ensembles possibles est le
cardinal de P(X ), l' ensemble des parties d'un ensemble, qui grandit de manire exponen-
tielle et ne permet pas d'envisager une solution exhaustive. Mme en se restreignant un
ensemble de partitions (c'est--dire que les classes proposes sont exclusives) , il existe plus
de 2
n
solut ions, qu'il n'est pas pensable de construire pour aboutir un rsultat exploitable
pour de grandes valeurs de n.
Les critres de regroupement permettent de ne retenir qu' un ensemble restreint de
solutions, correspondant la meilleure classification possible. Ces critres peuvent tre
bass sur :
- une estimation globale : la plus utilise est celle qui essaye de maximiser la similarit
au sein d'une classe et de minimiser la diffrence entre classes distinctes en s' inspirant
de la notion de category utility issue des travaux en psychologie cognitive (elle est
prsente section 2.3),
- une estimation locale: une mesure de similarit entre objets permet de slectionner
les objets regrouper.
Le processus de caractrisation, qui permet la description des concepts, est souvent bas
sur les algorithmes de l'apprentissage supervis, utilisant des exemples et contre-exemples
de concepts. Il suffit en effet de considrer les objets regroups au sein d'une classe comme
les exemples et les autres objets comme des contre-exemples.
La procdure d'valuation est souvent trs lie au critre de regroupement, utilisant ce
dernier comme mesure.
Nous appelons cette approche classique car elle est reprsentative des premiers travaux
en classification conceptuelle, et a t poursuivie par une grande majorit des chercheurs
du domaine. Elle est cependant essentiellement concerne par la prdiction de valeurs.
Nous dtaillons un des reprsentants les plus connus de cette approche, COBWEB, dans
la section 2.3 et montrons qu'elle n'est pas trs adapte notre objectif.
L'approche de type Espace de Connaissances
L'alternative l'approche classique s'est dveloppe au cours des dernires annes,
notamment partir des travaux sur les treillis de concepts [Godin 95]. Elle se distingue de
l'approche classique en offrant notamment:
- la prise en compte de connaissances sur le domaine, le plus souvent sous la forme
d'une hirarchie de concepts,
un processus de gnralisation des objets guid par les connaissances du domaine,
permettant de construire un Espace de Connaissances (EC) 13 . L'EC est une hirarchie
13. Nous utilisons l'appellation Espace de Connaissances propose par Mineau [Mineau 90]. Bournaud
[Bournaud 96] lui prfre le terme Espace de Gnralisations, mais il s'agit de la mme structure.
11
Chapitre 2. Apports et limites des travaux en classification conceptuelle
de concepts objective, dans le sens o tous les concepts gnralisation exprimables
dans le langage de reprsentation utilis sont calculs,
- un processus d'extraction oprant sur l' EC, qui permet d'obtenir des hirarchies la-
gues selon divers modes. Une hirarchie peut par exemple reprsenter un point de
vue particulier sur les objets 14.
Objets
Cormaissances du
domai ne
Gnrali sation
>-
Espace des gnralisations
c=J concept (intension)
objet
Extraction
,
,
Rvision
Hirarchie conceptuel le
simplifi e
F I G. 2.4 - Approche Espace de Connaissances en classification conceptuelle d'aprs
[Bournaud 96j
Nous prsentons les diverses orientations de cette approche dans les sections 2.4 et 2.5, en
montrant les diffrents avantages offerts par rapport l'approche classique. Nous verrons
qu'elles diffrent essentiellement par l'utilisation de diffrents formalismes de reprsenta-
tion. Ce point important est discut dans la section suivante.
2.2.3 Importance de la reprsentation des connaissances pour la c1assi-
cation conceptuelle
La question de la reprsentation des connaissances est essentielle car elle conditionne
le type d'objets et de concepts que l'on peut manipuler. La reprsentation s'effectue par
l'intermdiaire d'un formalisme de reprsentation des connaissances, conu pour expliciter
la connaissance relative un problme, afin de pouvoir effectuer des raisonnements sur
celle-ci grce des mcanismes d'infrences. En gnral, le formalisme utilis pour dcrire
les concepts est le mme que celui utilis pour dcrire les objets. Le choix d'un formalisme
repose sur un ensemble de critres, dont les principaux sont [Nebel gOaJ [Cercone 87J
- la puissance expressive du formalisme,
- la lisibilit et la clart d'expression du formalisme,
- la dfinition d'une smantique formelle, afin d'expliciter de manire non ambigu le
sens des expressions du langage,
- la disponibilit de mcanismes d'infrences dductifs, qui soient corrects et complets
conformment la smantique formelle du langage, et de complexit calculatoire
rduite,
- la disponibilit de mcanismes d'infrences inductifs, de complexit calculatoire r-
duite.
14. Pour une discussion sur la classification dductive avec points de vue, voir [Marino 93].
12
2.2. Vue d'ensemble des travaux en classification conceptuelle
La runion de tous ces critres est bien videmment hors de porte: il existe un compro-
mis important entre l'expressivit d'un langage et l'efficacit des infrences qui lui sont
associes, qu'elles soient dductives ou inductives. Il faut donc considrer un langage qui
soit suffisamment expressif pour reprsenter les donnes d'un problme et suffisamment
contraint pour ne pas conduire des algorithmes inutilisables. En intelligence artificielle,
le langage de rfrence reste la logique des prdicats, bien matrise pratiquement et tho-
riquement. Cependant la logique des prdicats est un langage trop expressif pour pouvoir
tre utilis avec un processus inductif [Kietz 94J [Ventos 95J : de nombreux travaux se sont
ainsi consacrs la recherche de restrictions de la logique des prdicats prsentant des
proprits inductives satisfaisantes [Saitta 96J.
On distingue gnralement de ce point de vue les langages propositionnels et les langages
relationnels [Saitta 96J. Un langage propositionnel dcrit un concept comme la conjonc-
tion d'un ensemble de paires attribut/valeur (Ai, Vi) o les Vi sont des valeurs nominales.
Un langage relationnel est analogue la logique des prdicats, mais peut tre restreint
de diverses manires, par exemple en n'autorisant que des prdicats unaires ou binaires
au lieu de prdicats n-aires. Un formalisme intermdiaire intressant est ainsi l'extension
du formalisme attribut/valeur des valeurs pouvant tre des objets structurs [Ketterlin
95J [Thompson 91J. Dans le mme ordre d'ides, les formalismes de reprsentation par ob-
jets, ou des formalismes apparents, comme ceux des logiques de descriptions, des graphes
conceptuels et des treillis de Galois ont t utiliss en classification conceptuelle. Ils sont
bien adapts aux approches de type Espace de Connaissances. Nous nous focalisons par
la suite sur ces diffrents formalismes, en montrant les avantages et limites lis chacun
d'entre eux pour une approche de type EC (sections 2.4, 2.5 et 2.6).
Cependant, certaines approches en classification conceptuelle ont prfr utiliser une
dfinition probabiliste des concepts. Un concept probabiliste est dcrit par un ensemble
d'attributs, o chaque attribut se voit associer une distribution de probabilits, qui repr-
sente la frquence d'apparition des diffrentes valeurs de cet attribut pour les objets qui
sont instances du concept. Par exemple, un concept C ayant un attribut couleur et un
attribut taille peut possder les distribution suivantes:
((jaune, 0.2)(rouge, 0.4)(bleu, 0.4)) et
((petit, 0.5)(moyen, 0.4) (grand, 0.1))
A un niveau suprieur , une probabilit d'apparition est associe chaque concept. Cette
reprsentation est utilise par le systme COBWEB et certains de ses descendants qui repr-
sentent l'approche classique de la classification conceptuelle, et sont prsents la section
suivante.
Nous pouvons enfin mentionner un autre formalisme : la programmation logique in-
ductive, qui a fait l'objet de nombreux travaux pour rechercher un langage offrant un bon
compromis entre expressivit et complexit [Muggleton 92J. Dans cette approche, une op-
ration de gnralisation est utilise pour construire des rgles logiques qui synthtisent les
rgles initiales. Toutefois, nous considrons que la lisibilit du formalisme est peu adquate
pour organiser des connaissances: la reprsentation n'est pas hirarchique et il est nces-
saire de bien connatre le langage utilis (similaire Prolog) pour pouvoir exploiter les
rsultats.
13
Chapitre 2. Apports et limites des travaux en classification conceptuelle
Conclusion
Pour conclure sur cette vue d'ensemble des travaux en classification conceptuelle, nous
retiendrons l'existence de deux principales approches: l'approche classique, dont nous mon-
trons la section suivante qu'elle est peu adapte la gnralisation de structures prdi-
catives; l'approche de type Ee, que nous dtaillons travers les diffrents formalismes de
reprsentation utiliss, dans les sections 2.4, 2.5 et 2.6.
2.3 Limites de l'approche classique en classification concep-
tuelle pour organiser des connaissances
Les approches classiques de classification conceptuelle ont conduit la conception de
systmes incrmentaux et de systmes non incrmentaux. Comme le montre [Bournaud
96], ces systmes s'avrent en gnral inadapts la construction de classification pour
l'organisation des connaissances car ils sont conus pour des tches de prdiction. Nous
prsentons dans cette section le systme incrmentaI eOBWEB [Fisher 87] et quelques uns
de ses descendants, ainsi que le systme non incrmentaI KBG 15, et montrons les limites
de ces approches pour l'organisation de connaissances.
eOBWEB et ses successeurs
eOBWEB [Fisher 87] est un systme incrmentaI qui utilise la notion de concept pro-
babiliste (cf. section 2.2.3). L'algorithme incorpore incrmentalement les objets dans une
structure arborescente, o chaque noeud reprsente un concept (classe d'objets), et o les
concepts sont mutuellement exclusifs. L'approche est descendante, et chaque niveau un
oprateur de modification de la hirarchie peut tre appliqu :
- placer l'objet dans une classe existante,
- crer une nouvelle classe,
- fusionner deux classes en une classe unique,
- diviser une classe en plusieurs classes.
La stratgie de parcours choisie est celle du gradient (hill-climbing). Les oprations duales
de fusion et de di vision permettent de simuler un retour arrire (backtracking). A chaque
niveau, les quatre oprateurs sont tests et valus selon le critre de category utility, et
celui ayant le meilleur score est appliqu. L'algorithme s'arrte lorsqu'une nouvelle feuille
(noeud terminal) est cre.
Le critre de category utility est une mesure heuristique originalement dveloppe pour
prdire le niveau de rfrence (basic level) des classification hirarchiques humaines [Fisher
87, page 145]). Le niveau de rfrence est une notion utilise en psychologie cognitive, qui
dsigne les catgories d'une hirarchie qui sont le plus rapidement verbalises lorsqu'elles
sont prsentes sous forme d'images des sujets humains. Par exemple, la catgorie oiseau
fait partie du niveau de rfrence, relativement la catgorie plus gnrale animal, et la
15. Nous renvoyons la thse de Ketterlin [Ketterlin 95J pour une description plus approfondie des
principaux systmes de l'approche classique de la classification conceptuelle.
14
2.3. Limites de l'approche classique en classification conceptuelle pour organiser des connaissances
catgorie canari, plus spcifique. Le critre se traduit en termes probabilistes de la manire
suivante, C
k
tant une classe et Ai = Vij un couple attribut/valeur:
- il faut maximiser la typicit des attributs d'un concept 16 exprime par:
P (A
i
= Vij 1 C
k
), probabilit que l' attribut Ai prenne la valeur Vij sachant que
l'objet est une instance de Ck,
- il faut maximiser la prdictivit des attributs d'un concept 17 exprime par:
P (C
k
1 Ai = Vij ) probabilit que l'objet soit une instance de C
k
, sachant que Ai vaut
Vij.
La mesure de la quali t d'une partition d'un ensemble de classes est donne par une com-
binaison de ces deux valeurs. L'algorithme correspondant est donn ci-aprs (algorithme
1) .
Algorithme 1 COBWEB : un algorithme incrmentaI de classification conceptuelle
COBWEB(O, C)
- est le nouvel objet intgrer
- C est la classe courante, initialement la racine de la hirarchie
intgrer dans la classe C
mettre jour les distributions de probabilits associes C
si C possde des sous-classes alors
selon l'oprateur qui maximise CU, faire une action parmi
fin si
(1) cration d'une nouvelle sous-classe de C restreinte l'objet
(2) placement de l'objet dans une sous-classe Ci de C puis COBWEB(O, Ci )
(3) fusion de deux sous-classes en une classe F puis COBWEB(O, F)
(4) scission d'une sous-classe en j sous-classes puis COBWEB(O, C)
L'auteur de COBWEB, Fisher, value son algorithme selon quatre directions [Fisher 87] :
une discussion informelle sur la qualit des hirarchies obtenues, qui met en avant certains
avantages d'une reprsentation probabiliste des concepts; l'utilit de la classification pour
la prdiction de la classe de nouveaux objets, value quantitativement; le cot de l'in-
corporation d'un nouvel objet; le nombre d'objets ncessaires avant de converger vers une
hirarchie stable. Ceci met en avant deux points essentiels: la difficult d'valuer la ca-
pacit d'organisation d'une hirarchie et le fait que l'obj ectif essentiel du systme est de
maximiser la capacit de prdiction (outre la matrise de la complexit algorithmique du
processus, qui concerne tout concepteur).
De ce fait, COBWEB n'est pas trs adapt notre objectif d'organisation des connais-
sances. Il est de plus limit par d'autres aspects: premirement la hirarchie obtenue est
dpendante de l'ordre d'introduction des objets classer; deuximement il est ncessaire
de fournir une distribution de probabilit aux objets, ce qui peut tre fastidieux. Enfin
les concepts sont limits des couples attribut-valeur et ne permettent pas de dcrire des
objets structurs.
D'autres systmes ont t conus par la suite sur le modle de COBWEB. Le systme
ADECLU [Decaestecker 93] propose une mesure d'valuation des oprateurs diffrente de la
16. Ce qui revient maximiser la similarit des attributs au sein d'une classe.
17. Ce qui revient minimiser la simi larit entre attributs de diffrentes classes.
15
Chapitre 2. Apports et limites des travaux en classification conceptuelle
category utility, base sur la notion de contraste entre concepts ayant le mme pre, mais ne
permet pas de rsoudre les problmes cits ci-dessus. Le systme LABYRINTH [Thompson
91] tend le langage des concepts des objets structurs. Ketterlin en fait une tude critique
dans sa thse et propose galement une extension du langage, avec la possibilit de dfinir
trois nouveaux types d'attributs [Ketterlin 95] :
- des attributs structurs, qui permettent de dcrire les objets composs d'autres ob-
jets, c'est--dire associer un objet 0 un objet 0' par l'intermdiaire d'un attribut,
- des attributs multi-valus, qui permettent d'associer un objet 0 un ensemble d'objets
{Ol,'" ,on} par l'intermdiaire d'un attribut,
- des attributs squentiels, qui permettent de rajouter une relation d'ordre aux attri-
buts multi-valus.
Ces amliorations sont sduisantes, mais cette approche reste essentiellement tourne vers
un objectif diffrent du ntre, comme l'illustre cette citation de Ketterlin [Ketterlin 95,
page 42] :
Une hirarchie de concepts a deux emplois principaux,' la reconnaissance et
la prdiction. La reconnaissance consiste associer une nouvelle observation
[objet] l'un des concepts de la hirarchie . ... Le principe [de la prdiction]
est de prdire, partir d'une description partielle d'une observation [objet], les
valeurs des attributs qui ne sont pas donnes.
Principe d'un systme non-incrmentaI, KBG
Le systme KBG est bas principalement sur la dfinition d'une mesure de similarit
sophistique, qui s'applique sur des objets structurs. La stratgie de classification repose
alors sur le choix d'un des algorithmes statistiques utiliss en analyse de donnes, puisque
la mthode n'impose pas un algorithme dtermin. Avec KBG, un objet est reprsent par
une conjonction de termes prdicatifs, composs d'un prdicat P d'arit quelconque, dont
les arguments sont soit des entits, reprsentes par des symboles Xi, soit des valeurs
Vi ayant un type. Un terme est donc de la forme:
La mesure de similarit entre deux objets repose sur la comparaison des termes, qui est
elle-mme base sur la mise en correspondance des entits des deux objets.
Schmatiquement, le processus de classification se droule comme suit: chaque objet
est initialement affect une classe rduite un singleton; puis les objets les plus similaires
sont rassembls en une ou plusieurs classes; ensuite, les classes sont caractrises l'aide
d'un algorithme de gnralisation symbolique et les objets plus gnraux obtenus par la
gnralisation remplacent les objets regroups; finalement, le processus s'arrte lorsqu'il
n'y a plus qu'une seule classe.
Ces travaux sont galement orients vers la prdiction de valeurs inconnues, et l'utili-
sation d'algorithmes statistiques ncessite de fixer divers paramtres, dont l'influence sur
les rsultats est souvent importante.
16
2.4. Classification conceptuelle avec les treillis de concepts: construire toutes les classes possibles
Conclusion sur les mthodes classiques de classification conceptuelle
Les approches classiques se sont surtout intresses l'aspect infrentiel des hirarchies
construites, c'est--dire la possibilit de prdire des caractristiques relatives de nou-
veaux objets. Elles proposent donc des algorithmes qui ne sont pas forcment adapts
l'organisation des connaissances: d'une part la structure des concepts obtenus ne reflte
pas forcment la structure sous jacentes aux classes du domaine; d'autre part, l' valuation
ne s'intresse pas vraiment cette capacit structurante. Plus prcisment, les approches
classiques ne permettent pas de considrer la nature spcifique des structures prdicatives.
Les classes construites ne peuvent donc pas tenir compte de certaines contraintes, comme
la qualit des gnralisations obtenues. L'aspect qualitatif est nglig au profit de la pr-
dictivit.
De plus, les hirarchies obtenues sont gnralement fixes, c'est--dire qu'elles ne permettent
pas de prendre en compte les points de vue possible sur une ensemble de classes. Elles fixent
une fois pour toute la structure, sur des critres certes sophistiqus, et intuitivement s-
duisants, mais dont la matrise chappe leur concepteur ds lors que les algorithmes sont
appliqus sur de nombreux objets.
Enfin, trs peu d'algorithmes prennent en compte des connaissances sur le domaine.
Dans la perspective de la prdiction, cela peut se justifier par le fait que l'apprentissage
consiste justement faire merger ces connaissances et non les fournir auparavant. Mais
cet argument n'est pas valide dans la perspective de l'organisation de connaissances.
Dans les sections suivantes, nous nous intressons l'approche de type Espace de
Connaissances qui propose des solutions plus satisfaisantes pour l'organisation de connais-
sances.
2.4 Classification conceptuelle avec les treillis de concepts
construire toutes les classes possibles
Les problmes poss par les approches classiques - dpendances divers paramtres,
notamment l'ordonnancement, structure hirarchique stricte - ont conduit certains cher-
cheurs s'intresser aux treillis de concepts pour la classification conceptuelle [Godin 95].
Les travaux sur la classification avec les treillis de concepts ont permis l' avnement d'une
nouvelle approche, qui consiste gnrer toutes les classes possibles pour viter l'utilisation
de critres de slection subjectifs. Nous prsentons dans un premier temps le formalisme
des treillis de concepts 18, initialement dfini par Wille [Wille 84]. Nous prsentons ensuite
deux approches utilisant les treillis de concepts: GALOIS [Carpineto 96], un systme de
classification conceptuelle incrmentaI, puis les travaux de Simon et Napoli [Simon 98]
sur une approche objet pour la fouille de donnes utilisant les treillis de concepts pour
reprsenter des points de vue sur les donnes.
2.4.1 Les treillis de concepts
Un treillis de concepts est dfini comme un contexte C = (0, D , 1) , o 0 est un ensemble
d'obj ets, D un ensemble de descripteurs, 1 COx D une relation binaire entre 0 et
18. Aussi appel treillis de Galois.
17
Chapitre 2. Apports et limites des travaux en classification conceptuelle
D. Intuitivement, chaque objet se voit associer un certain nombre de descripteurs, qui
permettent de le dcrire. On note oId lorsque l'objet 0 possde le descripteur d.
tant donn un contexte C, un concept est une paire (X, Y) o X et Y D avec:
X = {o E 1 (Yd E Y)oId}
y = {d E D 1 (Yo E X)oId}
X est l'extension du concept, Y est l'intension du concept. Seules un certain nombre de
paires (X, Y) reprsentent des concepts admissibles, puisqu'il doit y avoir une correspon-
dance exacte entre les objets et les descripteurs. L'ensemble de tous les concepts est not
C(O, D, 1). On dfinit alors une relation de subsomption sur les concepts par:
(Xl, Yd (X
2
, Y
2
) +---t Xl X
2
ou de manire quivalente (Xl,Yd (X
2
,Y
2
) +---t Yi 2 Y
2
Le thorme fondamental des treillis de concepts permet d'affirmer que (C(O, D, 1), )
est un treillis complet, dont l'intension de la borne infrieure d'un ensemble de concept
est donne par l'intersection des intensions des concepts. De manire duale, l'extension de
la borne suprieure d'un ensemble de concepts est donne par l'union des extensions des
concepts. Ce thorme permet par la suite de ne considrer que les intensions des concepts
dans les algorithmes de construction du treillis. Ce rsultat a permis de mettre en oeuvre
des systmes bass sur les treillis, comme le systme GALOIS.
2.4.2 Le systme GALOIS: une approche incrmentale
Carpineto et Romano proposent une approche incrmentale de construction de treillis
pour la classification conceptuelle, avec le systme GALOIS [Carpineto 96]. L'objectif est
de construire, avec l'aide d'un formalisme restreint, toutes les classes possibles sur les
objets traiter. Il est similaire celui de Mitchell [Mitchell 82], qui proposait de construire
un espace des versions (version spa ce) , consistant gnrer l'ensemble de dfinitions de
concepts possibles pour un processus d'apprentissage supervis.
GALOIS permet de prendre en compte des connaissances du domaine, en tendant la
dfinition de base des treillis de concepts. Pour cela, on dfinit un ensemble de descripteurs
D*, sur-ensemble de D, et une relation d'ordre D' sur D*. La hirarchie obtenue sur D*
est quelconque (non stricte). La dfinition de la relation de subsomption entre concepts en
utilisant leur intension doit tre modifie comme suit:
(Xl, Yd (X
2
, Y2) +---t Yd
2
E Y
2
, 3dl E Yi, dl D' d
2
2 X
2
De mme, le thorme fondamental est modifi, puisque l'intersection des intensions n'est
plus exprimable en terme d'intersection d'ensemble: l'intersection des intensions de deux
concepts (Xl, Yd et (X2, Y
2
) est obtenue en trouvant pour chaque paire (d
l
,d2), dl E
Yi, D
2
E Y
2
, les descripteurs les plus spcifiques de D* qui sont plus gnraux que dl et
d2, puis en ne retenant que les lment les plus spcifiques parmi ceux obtenus.
L'algorithme de construction incrmentaI du treillis repose sur deux principes: d'une
part, lorsqu'un objet est ajout, il n'est pas ncessaire de considrer toutes les combinaisons
possibles d'objets, mais seulement les concepts existants du treillis; d'autre part, lors de
l'introduction d'un nouvel objet , les concepts sont examins en tirant partie de la relation
d'ordre, ce qui permet rduire la complexit du processus. L'algorithme donn (algorithme
1) est la procdure d'introduction d'un objet dans le treillis.
18
2.4. Classification conceptuelle avec les treillis de concepts: construire toutes les classes possibles
Algorithme 2 Algorithme d'insertion d'un nouvel objet dans le systme GALOIS
INSERTION-TREILLIS(T,o)
- T est un treillis
- 0 est le nouvel objet insrer
1: NT +- T ; ; NT est le nouveau treillis
2: pour tout concept c de T faire faire
3: c' +- c n 0
4: si non((c
'
vide) V (c' = c) V (3parent(c) 1 parent(c)
parent (c) :J c')) alors
c') V (3parent(c) 1
5: crer un nouveau noeud n dont l'intension est c'
6: NT +- RELIER (n, NT)
7: fin si
8: fin pour
9: retourner NT
RELIER(n, T)
- n est un noeud
- T est un treillis
1: trouver l'ensemble CPG des concepts le plus gnraux qui sont plus spcifiques que le
noeud, et l'ensemble CPS des concepts les plus spcifiques qui sont plus gnraux que
le noeud,
2: liminer les liens entre les lments de C PG et CP S
3: ajouter les liens entre le noeud et chaque lment de CPG et de CPS
19
Chapitre 2. Apports et limites des travaux en classification conceptuelle
La complexit du processus de construction du treillis crot de mamere linaire ou
quadratique en temps, en fonction du nombre de concepts, et selon divers paramtres. En
pratique, le systme semble atteindre sa limite autour de la prise en compte de quelques
milliers d'objets.
Le systme GALOIS a t appliqu la prdiction de la classe de nouveaux objets et la
dcouverte de classes sur des ensemble de donnes couramment utilises en apprentissage,
en obtenant de bons rsultats [Carpineto 93J. Toutefois le principal objectif du systme est
de pouvoir organiser une base de documents afin de fournir une aide l'activit de recherche
d'information [Carpineto 96J. Les objets du domaine reprsentent ainsi des documents,
tandis que les descripteurs sont des mots-cls dcrivant les documents. Il est alors possible
de t irer partie de la visualisation graphique du treillis pour fournir un systme efficace
d'aide la recherche d'informations. Nous donnons ci-aprs un exemple avec six documents
(numrots de 1 6) catalogus l'aide de huit mots-cls: le tableau 2.1 donne les mots-cls
associs chaque document, et la figure 2.5 montre le treillis de concepts correspondant.
L'approche adopte pour le systme GALOIS, consistant gnrer toutes les classes,
intelligence artificielle x x x x x x
systme expert x x x x x
recherche d'information x x
cataloguer x x x
indexation x
sciences de l'information x
systme de recherche
d'information x
systme base
de connaissances x
TAS. 2.1 - Une base bibliographique reprsente par une matrice document/mot-cl d'aprs
[Carpineto 96}
s'avre pertinente pour l'organisation d'un ensemble de mots-cls: la hirarchie obtenue
n'est pas trop difficile interprter. Cependant, dans le cas de structures prdicatives, qui
sont des units plus sophistiques que les mots-cls, cette solution peut conduire une
structure trop complexe, la fois par sa taille et par l'enchevtrement des liens entre les
classes. L'interprtation devient difficile, et demande beaucoup de temps l'utilisateur, qui
perd le bnfice d'un outil d'analyse automatique du contenu.
2.4.3 Travaux de Simon et Napoli : l'apport de la reprsentation par
objets
Les travaux de Simon et Napoli [Simon 98J s'inscrivent dans le cadre de la foui lle de
donnes 19, mais leur approche a de nombreux liens avec celle du systme GALOIS: un
systme de reprsentation par objets est utilis pour reprsenter des connaissances expertes
sur un domaine, formant une hirarchie conceptuelle. Les donnes traiter sont vues comme
des instances des concepts reprsents. La construction d'un treillis de Galois est alors un
19. La fouille de donnes est dfinie par Simon et Napoli comme l'activit qui consiste analyser des
donnes brutes de faon extraire un ensemble d'units de connaissances pouvant devenir exploitable
[Simon 98).
20
2.4. Classification conceptuelle avec les treillis de concepts construire toutes les classes possibles
intelli gence artificiell
systmes experts
CI 2345)
intelligence artificielle
applicati ons informati ques
systmes base de connaissance
CI 234 5 6)
intelligence art ificiell e
relation de subsomption
entre concepts
systmes base de connaissance
science de l' information
intelli gence artificiell e
systmes experts
intelli gence artificiell e
systmes experts
science de l' infonnation
intelli gence artificiell e
systmes base de connaissance
recherche d'informations
intelligence artificielle
systmes experts
indexation
3
( 145)
intell igence artificiell
systmes experts
cataloguer
25
16
intelligence artificielle
systmes experts
cataloguer
intelligence art ificiell e
systmes experts
recherche d'informations
1
systme de recherche d'informations
Connaissances
du domaine
5
applications systmes base
informatiques de connaissance

l'information sCience de
/\
indexation cataloguer recherche systmes de
d' information
recherche d'information
relation d'ordre
sur D*
FIG. 2.5 - Le treillis de concepts et les connaissances du domaine relatifs six documents
d'une base bibliographique d'aprs [Carpineto 96}
21
Chapitre 2. Apports et limites des travaux en classification conceptuelle
moyen d'obtenir une nouvelle hirarchie de classes reprsentant un point de vue particulier
sur les donnes.
La reprsentation par objets utilise une hirarchie conceptuelle telle que nous l' avons
dfinie. L'extension d'un concept, note Ext (a ), est dfinie de manire classique par l'en-
semble des objets 0 du domaine de rfrence V qui sont des instances de ce concept.
L'intension d'un concept est dcrite par une ensemble de proprits, correspondant des
attributs prenant des valeurs dans un co-domaine. Trois types d'attributs sont possibles:
un attribut symbolique mono-valu correspond une valeur nominale unique; un attribut
symbolique multi-valu correspond une conjonction de valeurs nominales; enfin une rela-
tion met en correspondance une classe {3 (qui reprsente alors le co-domaine de la relation)
avec la classe a possdant l' attribut . Une contrainte de valeurs obligatoires peut tre dfi-
nie pour l 'attribut d'une classe. L'intension d'une classe a s'exprime alors par l' ensemble
des conditions suivantes, ncessaires et suffisantes pour qu'un individu 0 soit une instance
de la classe a :
Att(x ) reprsente l'ensemble des attributs de x (obj et ou concept )
a(o) dsigne l'ensemble des valeurs de l'attribut a pour l'obj et 0
Co - dom(a, a) dsigne l'ensemble des valeurs admissibles pour l'attribut a de
la classe a (le co-domaine)
Valeur(a,a) dsigne les valeurs obligatoires pour l' attribut a de la classe a
Att(o) 2 Att(a ) et Va E Att(a ) : a(o) Co - dom(a, a), Valeurs(a, a) a(o)
La relation de subsomption est dfinie de manire intensionnelle (et note t) 20 par:
Int(a) ?: Int({3) f---t
Att(a) 2 Att({3 )etVa E Att({3 ) : Co-dom(a, a) Co-dom({3, a), Valeurs ({3, a) 2
Valeurs(a, a)
L'ensemble de toutes les intensions qu'il est possible de construire partir d'un ensemble
A d'attributs, ainsi que l'ensemble de toutes les extensions qu'il est possible de construire
partir de l'ensemble V d'objets, forment chacun un treillis sur leurs relations respectives, ?:
et 2. Cette reprsentation permet d'exprimer sous forme hirarchique des objets structurs,
dpassant le cadre attribut-valeur propos par le systme GALOIS.
A partir de cette reprsentation, les auteurs dfinissent un point de vue comme une
hirarchie 1i(V
'
, A'), qui consiste en un treillis de Galois o A' est un sous-ensemble d'at-
tributs de A, et A' est un sous-ensemble d'objets de V'. Chaque classe a de la hirarchie
1i(V
'
, A') est dfinie par le couple (Ext (a ), Int( a)). En faisant varier les ensembles A' et
V', il est possible d'obtenir des points de vue diffrents sur les donnes.
Pour construire les treillis de Galois, Simon et Napoli s'appuient sur l' algorithme incr-
mentaI propos dans GALOIS, qu'ils tendent aux attributs multi-valus et aux relations.
Ils utilisent galement l'organisation des connaissances du domaine dans la construction
des treillis, afin d'assurer que toutes les proprits communes aux objets soient mises en
vidences au sein des concepts. Un autre aspect important est la possibilit de stocker et
de rutiliser les connaissances extraites, puisque connaissances du domaine et point de vue
sont exprims dans le mme formalisme.
L'obj ectif final du systme est d'extraire des rgles partir des points de vue, en s'ap-
puyant sur des raisonnement du type : si une classe a possde en propre (sans les hriter)
20. Nous gardons la notation;;;) pour la relation de subsomption entre concepts, i. e. Cl' ;;;) /3.
22
2.5. Classification conceptuelle avec les graphes conceptuels " un formalisme plus puissant
les proprits pl et P2, et hrite la proprit P3, alors on peut extraire, entre autres, les
rgles Pl -+ P3, P2 -+ P3 et Pl 1\ P2 -+ P3
Ce travail a t appliqu au domaine mdical, notamment sur la fouille de donnes pi-
dmiologiques sur des cancers. L'objectif est de trouver des rgles qui mettent en vidence
des faits, par exemple, que l' amiante est un facteur de risque des cancers Ca et Cb . L'as-
pect le plus intressant est cependant la possibilit d'organiser des connaissances exprimes
en termes d'objets structurs et de calculer des points de vues. Les auteurs ont d'ailleurs
choisi de prsent graphiquement la hirarchie l'analyste plutt que de lui fournir une
liste de rgles, difficile apprhender .
Cette approche favorise l' expressivit du formalisme au dtriment d'une complexit
calculatoire que l'on peut juger leve (elle n'est pas donne par les auteurs). Dans notre
perspective d'analyse de l'information, l'exploit ation de la hirarchie implique trop de
manipulations de la part de l'utilisateur: celui-ci doit choisir des points de vue et explorer
diffrentes structures. Nous devons proposer un processus qui demande moins de travail
d'exploration l'utilisateur, car l'objectif est de l'assister dans son analyse d'un corpus de
textes sans lui imposer une charge de travail annexe.
2.5 Classification conceptuelle avec les graphes conceptuels
un formalisme plus puissant
L'utilisation des graphes conceptuels pour la classification est motive par les mmes
raisons que celles invoques pour les treillis de concepts: l'insuffisance des approches clas-
siques [Godin 95]. Le formalisme des graphes conceptuels [Sowa 84] prsente l'avantage
d'tre plus expressif que les treillis de concepts. Nous verrons que cet avantage est gale-
ment un inconvnient en ce qui concerne la complexit des calculs. Aprs une prsentation
du formalisme (section 2.5.1), nous nous intressons aux deux principales approches qui
ont t mises en oeuvre pour la classification conceptuelle: la Mthode de Structuration
par Gnralisation (MSG) de Mineau (section 2.5.2) et le systme COING, une extension
de la MSG propose par Bournaud (section 2.5.3) .
2.5.1 Les graphes conceptuels
Le formalisme des graphes conceptuels a t initialement propos par Sowa [Sowa 84],
puis a connu de nombreuses extensions par la suite [Mugnier 96]. Ce modle s'inspire la
fois des rseaux smantiques et de la logique, avec l'obj ectif d'tre un systme logique (et
graphique) pour la reprsentation de la smantique du langage naturel [Sowa 91a].
Un domaine de connaissance est reprsent l'aide d'un ensemble de graphes concep-
tuels, composs de sommets concepts, reprsentant des classes ou des individus, et de som-
mets relations, reprsentants des liens entre sommets concepts. Un graphe est fini, connexe
et biparti (il possde deux types de sommets).
Les principales proprits reprsentationnelles des graphes conceptuels sont les sui-
vantes:
- le vocabulaire conceptuel est compos d'un ensemble de types de concepts, Tc, et d'un
ensemble de types de relations, T
r
. Tc et T
r
sont partiellement ordonns selon une
23
Chapitre 2. Apports et limites des travaux en classification conceptuelle
relation de gnralit, et forment des treillis. Les types de concepts reprsentent des
classes d'individus. Un ensemble M de marqueurs individuels reprsente les individus
particulier du domaine reprsent,
- les sommets concepts sont des paires (type, rfrent), composes d'un type apparte-
nant Tc et d'un rfrent, qui peut tre gnrique (not *) ou individuel (appartenant
M). Selon le type de rfrent, un sommet concept reprsente un concept gnrique
(par exemple: [HOMME: *]) ou un concept individuel (par exemple: [HOMME :
Jean]),
- les sommets relations sont des tiquettes nommant le type de relation, et sont lis
n sommets concepts de manire ordonne, n reprsentant l'arit de la relation,
- des signatures de relations permettent d'exprimer des contraintes sur les types de
concepts autoriss comme arguments de relations,
- un mcanisme de -abstraction permet l'introduction de nouveaux types de concepts,
dfinis par genre et diffrence,
- un oprateur d'interprtation logique, <I>, permet la transformation de graphes concep-
tuels en formules bien formes de la logique des prdicats, en prservant la satisfiabi-
lit. L'oprateur <I> fournit ainsi une smantique base sur la thorie des modles au
formalisme.
Les possibilits de raisonnement des graphes conceptuels reposent sur les proprits sui-
vantes:
- un ensemble d'oprations lmentaires sur les graphes permet de dfinir une relation
de spcialisation (subsomption) sur les graphes, note . Des oprations duales de
gnralisation peuvent tre dfinies,
- l'opration de projection, qui est un morphisme de graphes, permet de vrifier qu'un
graphe conceptuel est plus spcifique qu'un autre (G
I
G
2
si et seulement si il existe
une projection de G
2
dans Gd,
- la structure induite sur les graphes par la relation de spcialisation est un treillis,
appel la hirarchie de gnralisation.
Un exemple
Avant de donner une prsentation plus formelle des graphes conceptuels, nous prsen-
tons un exemple simple de base de connaissances (voir figure 2.6).
Les lments maximum et minimum des treillis de types sont nots respectivement T
et 1-. Le formalisme possde deux notations, une graphique et une textuelle. Selon le cas,
un sommet concept est not :
1 HOMME: Jean 1 ou [HOMME: Jean]
et un sommet relation est not (pour une relation binaire)
--(OBJET)---- ou -> (OBJET)- >
Sur la figure 2.6, le treillis des concepts fait apparatre quatre concepts, MANGER,
LIEU, NOURRITURE et ETRE-VIVANT qui sont spcialiss en diffrents sous-concepts,
tous plus gnraux que 1-.
24
2.5. Classification conceptuelle avec les graphes conceptuels : un formalisme plus puissant
Le treillis des relations fait apparatre trois types de relation principales, OBJET,
AGENT et LOCALISATION, cette dernire tant par la suite spcialis par deux sous-
relations. Les signatures des relations contraignent les arguments de celles-ci: par exemple,
la relation AGENT ne peut accepter comme sommet concept source que des concepts
plus spcifiques que le type de concept MANGER (ou des individus qui sont instance de
MANGER).
Le graphe 1 peut tre dcrit par: un homme dgustant une pizza prs d'un jardin.
Dans les trois graphes, il n'y a que des concepts gnriques 21. Une situation particulire
faisant intervenir l'individu Jean serait dcrite en utilisant le sommet concept [HOMME:
Jean].
MANGER LIEU NOURRITURE ETRE_ VIVANT
1
\

VALE
SAVOURER
RUMINER
Signature des relations
OBJET
AGENT LOCALISATION
1 ETRE-VIVANT

PRES-DE DANS
1 MANGER ETRE-VI VANT 1
1 MANGER
.L
Graphes conceptuels
graphe 1
QUICHE 1
graphe 2
'----< DANS -1 CAFE 1
---1 RUMINER HERBE
graphe 3

FIG. 2.6 - Exemple de base de connaissances avec les graphes conceptuels
21. Le rfrent * peut tre omis dans ce cas : [HOMME] est quivalent [HOMME: *]
25
Chapitre 2. Apports et limites des travaux en classification conceptuelle
Dfinition formelle
Nous donnons ici les lments principaux de la dfinition formelle de Chein et Mugnier
[Mugnier 96] pour le modle de base, qui diffre lgrement du modle initial de Sowa. Un
graphe conceptuel est dfini par rapport un support S. Un support est un quintuplet S
= (Tc, T
r
, a, M, T) o :
- Tc, ensemble des types de concepts, est un ensemble partiellement ordonn, dont le
plus grand lment est T (type universel) et le plus petit lment 1.. (type absurde),
- T
r
, ensemble de types de relations, est un ensemble partitionn selon l' arit des
relations, o chaque partition admet un plus grand et un plus petit lment ,
- a, qui correspond la signature des relations, associe tout type de relation le type
maximal autoris pour chacun de ses arguments. Pour tr E T
r
, d'arit n, a(t
1
) est un
n-uplet (Tc)n et pour trl, t
r
2 d'une mme partition, si trl t
r
2 alors a(trt) a(t
r
2)'
On note ai(r) le
eme
argument de a(tr),
- M est l'ensemble dnombrable des marqueurs individuels. * est le marqueur gn-
rique. M U {*} forme l'ensemble des marqueurs, muni d'un ordre partiel o * est
plus grand que n'importe quel mE M, et o m, nE M sont incomparables si m =F n,
- T est une application de M dans Tc \ {1..} qui associe un type de concept tout
marqueur (ou rfrent) individuel.
tant donn un support S, un graphe conceptuel est un multigraphe non orient 22
biparti ; = (C, R, U, etiq) o :
- C et R sont deux ensembles de sommets, respectivement appels sommets concepts
et sommets relations, C tant non vide,
- U est l'ensemble des artes; pour tout sommet relation r, l'ensemble des artes
adjacentes est totalement ordonn (et gnralement numrot de 1 n, n tant l'arit
de la relation). On note Gi(r) le iieme voisin de r,
- etiq est la fonction qui associe chaque sommet du graphe une tiquette:
- Vr E R, etiq(r) = Type(r) E T
r
,
- Vc E C, etiq(c) = (Type(c), Referent(c)) E Tc x (M U {*})
- etiq vrifie les contraintes imposes par a et T :
pour tout r E R, type(Gi(r)) ai(type(r))
pour tout cE C, si marqueur(c) E M, alors type(c) = T(marqueur(c))
Les opration lmentaires de spcialisation d'un graphe G en graphe H sont les sui-
vantes:
- la simplification: si G possde deux relations de mme type et lies aux mmes
sommets concepts, H s'obtient en supprimant une des deux relations,
- la restriction de relation: H s'obtient en remplaant le type d' une relation r de G par
un type plus spcifique, condition que les contraintes fixes par a soient vrifies,
- la restriction de concept: H s'obtient en remplaant l'tiquette d'un sommet concept
c de G par une tiquette plus spcifique (marqueur et type de concept plus spci-
fiques),
- le joint interne: H s'obtient en fusionnant deux concepts Cl et C2 de G ayant la
mme tiquette,
22. C'est--dire qu'il peut exister plusieurs artes entre un sommet concept et un sommet relation.
26
2.5. Classification conceptuelle avec les graphes conceptuels : un formalisme plus puissant
- la somme de deux graphes G
I
et G
2
: H s'obtient par somme disjointe (par juxta-
position) de G
I
et G
2
.
Ces oprations dfinissent ensemble la relation de spcialisation prsente plus haut. La
smantique logique est donne par l'oprateur <1>, qui transforme un graphe syntaxiquement
correct en formule bien forme de la logique du premier ordre. Soit un graphe G, <1>(G) est
obtenu travers les oprations suivantes :
- associer chaque concept gnrique une variable distincte Xi,
- associer chaque marqueur individuel m la constante m,
- reprsenter chaque concept c de G par un prdicat unaire ayant comme nom type(c)et
comme argument la variable ou constante associe c,
- reprsenter chaque relation r, de degr n, par un prdicat n-aire ayant comme nom
type(r) et comme i
eme
argument la variable ou constante associe au sommet concept
li r par la i
eme
arte,
- retourner la conjonction de tous les prdicats,
- fermer existentiellement les variables de la formule (:lx, y)
De mme, <1> est dfini pour interprter les relations de gnralit dfinies sur les treillis
de concepts et de relations Tc et T
r
:
- chaque couple t2 c tl de la relation de spcialisation dfinie sur les types de
concepts, on associe la formule \:Ix, t2(X) ---+ tl(X),
- chaque couple t2 r tl de la relation de spcialisation dfinie sur les les types de
relations, on associe la formule \:IxI ... X
n
, t2(XI, ... , x
n
) ---+ tl(Xl, ... , x
n
) .
Chein et Mugnier ont montr qu'tant donns deux graphes G
l
et G
2
, G
I
G
2
si
et seulement si <1>(Gt) ---+ <1>(G
2
). Il faut toutefois noter que ce rsultat ne s'applique
qu' une partie du formalisme (les constructions de base), constituant un sous-ensemble
de la logique des prdicats. Le formalisme possde en effet de nombreuses extensions, dont
l'expressivit dpasse largement celle de la logique des prdicats.
Proprits inductives des graphes conceptuels
Les graphes conceptuels ont t beaucoup utiliss en traitement automatique du lan-
gage naturel (par exemple, [Zweigenbaum 97] [Rassinoux 94] [Barrire 96]). Cela est d
notamment une grande expressivit, qui, selon Sowa, dpasse celle la logique des pr-
dicats et permet de reprsenter les finesses inhrentes la langue humaine [Sowa 91a].
Cette expressivit a fait le succs des GC en linguistique informatique, mais constitue un
handicap pour son utilisation dans un cadre inductif.
En effet, l'approche inductive avec des objets structurs fait appel une opration
de gnralisation sur ces objets. La gnralisation de deux graphes ncessite tout d'abord
de les apparier . Or ce problme est similaire l'isomorphisme de sous-graphes qui est
un problme NP-complet [HaussIer 89]. Pour mettre en oeuvre un processus inductif, il
est donc ncessaire de restreindre le langage (on parle de biais inductif) pour limiter la
complexit de la gnralisation.
Nous prsentons dans la section suivante la solution propose par Mineau, puis tendue
par Gey et Bournaud, pour contourner cette difficult.
27
Chapitre 2. Apports et limites des travaux en classification conceptuelle
2.5.2 La Mthode de Structuration par Gnralisation (MSG) pour g-
nraliser des objets structurs
La MSG propose par Mineau [Mineau 90] repose sur la construction d'une hirarchie
conceptuelle appele Espace de Connaissances. Les concepts (et objets) sont exprims avec
le formalisme des graphes conceptuels.
tant donn un ensemble D d'objets structurs, l'Ee contient l' ensemble des plus petites
gnralisations communes
23
que l'on peut calculer sur les objets de V. Le choix des g-
nralisations les plus spcifiques est naturel, dans la mesure o l'on cherche trouver des
concepts qui synthtisent les descriptions des objets tout en conservant un maximum d'in-
formations. La hirarchie construite par la MSG est considre comme tant objective
car elle n'limine aucun concept sur la base d'un critre dfini a priori. Elle rejoint en cela
les approches bases sur les treillis de concepts [Carpineto 93], et s'oppose aux mthodes
classiques de classification conceptuelle.
Le nombre de plus petites gnralisations communes que l'on peut dfinir partir de
n objets est gal au nombre de partitions possibles sur ces objets. Toutefois, le nombre de
concepts diffrents qu'il est possible de gnrer peut tre limit par le langage. Ainsi, N
attributs pouvant prendre k valeurs distinctes, le nombre de concepts est limit (k + l)N,
et reste indpendant du nombre d'objets [Bournaud 96, page 73].
Comme nous l'avons vu, le formalisme des graphes conceptuels est trop expressif pour
pouvoir apparier, et donc gnraliser, des concepts de manire efficace. L'approche adopte
par Mineau consiste dcomposer chaque graphe en un ensemble d'arcs indpendants.
Seules les relations binaires sont considres, ce qui conduit des arcs de la forme:
o ct et C2 sont des sommets concepts et r un sommet relation. Si l'on considre une second
arc' :
[ci l -+ (r') -+ [ c ~ ]
les seuls appariements possibles, du fait de l'orientation des arcs sont:
Cl sur ci,
r sur r',
C2 sur c ~
Toutefois, la dcomposition des graphes conduit invitablement la perte d'informations
ds lors que deux sommets concepts ont la mme tiquette dans un graphe [Bournaud 96].
L'ensemble des arcs, obtenus par dcomposition des graphes reprsentant les objets,
sont ensuite gnraliss en utilisant une rgle de gnralisation des types trs simple: tant
donn un type de concept ou de relation tl, la gnralisation de tl est le type gnrique
not ? . Ainsi la MSG n'exploite pas le treillis des types ou des relations gnralement
dfini en GC. Cela revient dire que le type gnrique ? est la racine des types de
concepts et de relations, et que tous les autres types sont incomparables deux deux. Il
existe donc huit gnralisations possibles pour un arc initial, chaque type pouvant tre
gnralis en ? (2
3
possibilits).
L'algorithme de gnralisation est alors le suivant:
- pour chaque arc de chaque objet, appliquer le mcanisme de gnralisation des types
23. Ce terme est dfini page 7.
28
2.5. Classification conceptuelle avec les graphes conceptuels : un formalisme plus puissant
- rechercher les arcs communs toutes les descriptions (arcs initiaux augments de
ceux obtenus par la premire tape)
- ne conserver que les arcs les plus spcifiques de l'ensemble des arcs communs
Cette approche
24
permet de gnraliser des objets exprims avec un langage trs ex-
pressif, puisqu'elle prend en compte tout graphe conceptuel ayant des sommets relations
binaires. Toutefois, elle ne permet pas de prendre en compte des connaissances du domaine,
puisque le treillis des concepts, le treillis des relations, ainsi que la signature des relations
ne sont pas exploits. La mme critique a t formul par Gey [Gey 94], qui a propos une
solution pour remdier ce problme, et dont les travaux ont t poursuivis par Bour-
naud [Bournaud 96]. Nous prsentons dans la section suivante le systme COING propos
par Bournaud, qui en outre permet d'extraire des hirarchies particulires partir de la
hirarchie principale EC.
2.5.3 Le systme COING: extension de la MSG pour prendre en compte
des connaissances du domaine
COING 25 [Bournaud 96] est dfini comme un systme d'aide la construction de hi-
rarchies conceptuelles pour l'organisation de connaissances. Il apporte deux amliorations
principales par rapport la MSG de Mineau : d'une part des connaissances du domaine
peuvent tre prises en compte; d'autre part, il est possible d'extraire, partir de l'espace
des connaissances EC 26, des hirarchies allges en utilisant plusieurs types de critres.
La prise en compte du domaine s'effectue de manire assez naturelle en donnant une
dfinition plus complte de la rgle de gnralisation des types: tant donn un type de
concept ou de relation tl, les gnralisations de tl sont les pres de tl donns par Tc (si
c'est un type de concept) ou TT (si c'est un type de relation). Il faut galement fournir
une rgle de gnralisation des rfrents, qui consiste remplacer tout rfrent individuel
par le rfrent gnrique *. La gnralisation de tous les arcs consiste ainsi en une phase
de saturation o les descriptions sont augmentes en utilisant les treillis de types. De plus,
les signatures des relations sont prises en compte et permettent d'liminer immdiatement
tous les arcs dont la relation n'est pas conforme la signature. En reprenant l'exemple de
base de connaissances donne dans la prsentation du formalisme des graphes conceptuels,
l'arc:
[DEGUSTER] -+ (AGENT) -+ [HOMME: Jean]
peut tre gnralis en
[MANGER] -+ (AGENT) -+ [HOMME: Jean]
par application de la rgle de gnralisation de type sur le concept [DEGUSTER], mais
galement en
[DEGUSTER] -+ (AGENT) -+ [HOMME]
24. Nous renvoyons [Mineau 90] ou [Mineau 951 pour le dtail du processus de construction de l'espace
de connaissances.
25. Pour COnceptual clusterING.
26. Bournaud utilise le terme Espace de Gnralisations, mais nous conservons la dsignation EC pour la
cohrence de la prsentation.
29
Chapitre 2. Apports et limites des travaux en classification conceptuelle
par application de la rgle de gnralisation des rfrents.
Pour remdier la complexit induite par la prise en compte des treillis de types, la
mthode de saturation est diffrente de celle utilise dans la MSG. Les arcs sont classs en
couches selon leur profondeur. La profondeur d'un arc est calcule en effectuant la somme
de la profondeur de chacun des trois sommets composant l'arc, la profondeur d'un sommet
tant la longueur du plus court chemin entre le type (concept ou relation) du sommet et
la racine du treillis Tc ou T
r
(les rfrents individuels n'interviennent pas dans le calcul).
Ainsi l'arc
a = [DEGUSTER] -+ (AGENT) -+ [HOMME]
a pour profondeur Parc (a) = P
type
(D EGU ST E R) + P
type
(AG E NT) + P
type
(H 0 MME)
soit 2 + 1 + 3 = 6. La mthode de saturation par couche dbute par l'initialisation des
couches, puis applique la mthode de la MSG couche par couche, en commenant par la
plus profonde. Ainsi, le nombre d'arcs considr chaque tape est restreint, et les arcs
inutiles sont limins sans avoir considrer l'ensemble des descriptions.
L'algorithme de construction de l'EC s'appuie sur trois tapes distinctes:
- la saturation des descriptions (les arcs) par couche,
- la construction des noeuds de la hirarchie, en regroupant dans un mme noeud les
arcs ayant la mme extension (c'est--dire couvrant les mme objets),
- la mise en place des liens de subsomption entre noeuds de la hirarchie, en utilisant
la relation d'inclusion sur les extensions.
La complexit du processus de construction utilis par COING n'est pas plus leve que
celle de la MSG : dans le pire des cas, elle est en 8(N
2
) o N est le nombre d'objets
classifier. Le nombre de noeuds de l'espace est en 8(N) et le nombre de liens en 8(N
2
).
Cette approche est donc plus efficace que les mthodes utilisant les treillis de Galois.
L'autre apport intressant de COING la classification conceptuelle est la possibilit
d'extraire des hirarchies particulires partir de l'ECo La principale motivation de cette
tape d'extraction est de fournir l'utilisateur une structure classificatoire plus simple et
plus exploitable, o le nombre de concepts et de liens est rduit. Bournaud propose trois
mthodes indpendantes pour y parvenir, dont deux utilisent un critre d'valuation des
noeuds Ce :
- un lagage itratif des noeuds les moins pertinents selon Ce, jusqu' atteindre un
seuil de pertinence ou un pourcentage de noeuds liminer,
- une slection parentale selon Ce, qui consiste choisir un pre unique pour les noeuds
ayant plusieurs pres,
- une slection des noeuds selon un point de vue, qui consiste ne conserver que les
noeuds possdant une certaine caractristique c, c tant souvent un type de relation.
Ces trois mthodes peuvent tre appliques (indpendamment) de manire automatique
sur l' ensemble de la hirarchie, aboutissant ainsi une hirarchie plus simple que l'ECo
Il est galement possible d'utiliser l'lagage et la slection selon un point de vue de ma-
nire interactive: de cette manire, l'utilisateur peut mieux contrler la hirarchie finale.
Bournaud propose deux principaux critres d'valuation des noeuds Cel et C
e2
, bass sur
30
2.6. Les logiques de descriptions: un meilleur compromis expressivit/complexit
le nombre d'objets qui sont dans l'extension d'un noeud (Next(n)) et la longueur de la
description d'un noeud (Ndesc(n)) :
Cel = N e x ~ n ) + (3Ndesc (n)
Ce2 = aNext(n) + N (J (n)
desc
Pour des valeurs de a et (3 gales 1, Cel favorise les noeuds spcifiques, tandis que C
e2
favorise les noeuds gnraux couvrant de nombreux objets. Bournaud a appliqu le systme
COING la classification de caractres chinois, ce qui a permis de montrer l'intrt de la
slection des noeuds par point de vue: par exemple, les caractres ont pu tre classs selon
la relation (PRONONCIATION) et mettre en vidence diffrents groupes selon le type
de prononciation. Une autre application, sur l'organisation de procdures comptables, a
montr galement l'intrt d'une procdure d'lagage avec un critre Ce ad-hoc. Nous
retenons de ces travaux qu'une hirarchie exhaustive telle que l'EC est souvent trop
complexe pour pouvoir tre exploite directement, et qu'il est important de proposer des
hirarchies rduites, selon des critres pertinents pour le domaine considr.
L'approche propose par Bournaud avec le systme COING est une solution pertinente
et gnrale pour organiser des connaissances. Le principal inconvnient de la mthode est la
perte d'informations qui dcoule de la dcomposition des graphes: les noeuds de l'EC sont
constitus par un ensemble d'arcs et non par un graphe, et il est impossible de reconstituer
un graphe dans tous les cas . De plus, l'EC contient des noeuds qui correspondent des
gnralisations partielles des objets initiaux, et qui contribuent gnrer du bruit
dans la structure classificatoire ainsi obtenue. A titre d'exemple, l'EC construit partir des
trois graphes de la figure 2.6, contient un noeud dont la description est l'arc :
[ETRE-VIVANT] --+ (LOCALISATION) --+ [PLEIN-AIR]
L'extension de ce noeud est compose des graphes 1 et 3, et ne correspond pas la gn-
ralisation des deux graphes, mais une partie seulement des deux graphes. Ce problme
est d l' expressivit du formalisme des graphes conceptuels, et il nous semble difficile de
le contourner.
2.6 Les logiques de descriptions un meilleur compromis ex-
pressivit / complexit
Les travaux sur les logiques de descriptions n'ont pas conduit une approche de type
EC comme c'est le cas pour les treillis de concepts ou les graphes conceptuels. Pourtant,
cette famille de formalismes prsente des proprits trs intressantes, car elle offre un
bon compromis entre expressivit et complexit calculatoire. Aprs une prsentation du
formalisme (section 2.6. 1) , nous discutons de plusieurs travaux concernant les proprits
inductives des logiques de descriptions, et qui offrent des perspectives intressantes pour
la gnralisation: la dfinition d'un oprateur de gnralisation par Cohen et al. (section
2.6.2), le systme KLUSTER permettant la construction inductive (section 2.6.3) et le
systme CANDIDE qui met en oeuvre la gnralisation d'objets (section 2.6.4) .
31
Chapitre 2. Apports et limites des travaux en classification conceptuelle
2.6.1 Les logiques de descriptions
Les logiques de descriptions
27
constituent une famille de formalismes issue des travaux
initiaux de Brachman sur le langage KL-ONE ([Brachman 78] [Nebel 90b] [Woods 92]
[Napoli 97]). Ces formalismes s'inspirent d'ides provenant de la logique des prdicats, des
rseaux smantiques et des langages de frames.
Une logique de descriptions (LD) permet de reprsenter un domaine de connaissances
l'aide de concepts, correspondant des classes d'individus, d'instances de concepts, cor-
respondant des individus particuliers, et de rles reprsentant des relations binaires entre
individus. Les proprits reprsentationnelles d'une LD sont les suivantes:
- les concepts et rles sont exprims l'aide d'une description structure, en utilisant
des constructeurs dont le nombre varie selon les formalismes,
- une smantique est associe chaque description, par l'intermdiaire d'ulle fonction
d'interprtation, de manire analogue la logique des prdicats. Les manipulations
syntaxiques sur les descriptions sont ralises en accord avec cette smantique,
- une distinction est ralise entre le niveau terminologique ou TBox, relatif aux concepts,
et entre le niveau assertionnel ou ABox, relatif aux individus,
concepts et rles sont organiss en hirarchie par la relation de subsomption, qui
les ordonne selon leur niveau de gnralit. Intuitivement, un concept C subsume
un concept D si l'ensemble des individus qu'il reprsente contient l'ensemble des
individus reprsents par D.
Au niveau infrentiel, une LD offre deux oprations qui constituent la base du raison-
nement terminologique :
- la classification permet de dterminer automatiquement la position d'un concept dans
la hirarchie,
- l'identification permet de retrouver les concepts dont un individu est une instance.
Concepts et rles
Les entits de base manipules pour construire une base de connaissances en LD sont
les concepts et les rles. Chaque concept C est dcrit de manire structure l'aide de
constructeurs (and, or, not, all, some, atmost, atleast sont les plus courants) qui permettent
d'introduire d'autres concepts, des rles associs C, et des restrictions sur ces rles. Ces
restrictions sont principalement de deux types:
- certaines portent sur le co-domaine du rle, c'est--dire sur le concept associ par le
biais du rle,
- d'autres portent sur la cardinalit du rle, c'est--dire sur le nombre de valeurs l-
mentaires que peut prendre un rle, une valeur lmentaire tant soit une instance
de concept, soit un type prdfini typiquement support par un langage de program-
mation (entier, rel , caractre par exemple).
27. Dsignes galement par le terme logiques terminologiques
32
2.6. Les logiques de descriptions : un meilleur compromis expressivit/complexit
On distingue deux types de concepts: les concepts primitifs et les concepts dfinis. Les
concepts primitifs sont comparables des atomes utiliss pour construire les concepts
dfinis. Ils n'expriment que des conditions ncessaires:
- si un individu i est instance du concept primitif P, alors il possde les proprits de
P.
Les concepts dfinis, au contraire, sont compltement caractriss. Ils expriment des condi-
tions ncessaires et suffisantes:
- si un individu i est instance du concept dfini D, alors il possde les proprits de D,
- si un individu j possde toutes les proprits de D, alors il est reconnu comme instance
de D.
De la mme faon, un rle peut tre primitif ou dfini. C'est l'utilisation de concepts
dfinis qui permet de fournir une opration de classification automatique: puisque toutes
ses caractristiques sont connues, il est possible de dterminer sa position dans la hirarchie.
Un exemple
Avant de prsenter ces lments d'une manire plus formelle, en donnant la syntaxe et
la smantique d'un langage de LD, nous donnons un exemple de description d'une petite
base de connaissances en LD, o apparaissent concepts et rles primitifs et concepts dfinis
(figure 2.6.1).
Le concept TOP est le concept le plus gnral, racine de la hirarchie. De manire
identique, le rle le plus gnral est toprole. La dclaration d'un concept primitif, d'un
concept dfini et d'une instance sont respectivement nots:
CO N CEPT -PRIMITIF -< description-concept
CONCEPT-DEFINI description-concept
Instance :: description-instance
Les concepts PERSONNE, ENSEMBLE, HOMME et FEMME sont primitifs. Les diffrents
constructeurs utiliss sont les suivants:
- and exprime une conjonction de concepts,
- aU exprime la restriction du co-domaine d'un concept pour un rle donn,
- atleast et atmost expriment des contraintes sur la cardinalit d'un rle, respecti-
vement le nombre minimal et maximal de valeurs lementaires que peut prendre ce
rle,
- not exprime la ngation d'un concept (et ne s'applique qu' un concept primitif).
On peut constater que le concept FEMME possde une description, bien qu'il soit primitif.
Il est dfini comme le complmentaire du concept HOMME par rapport PERSONNE.
Les concepts reprsentants des quipes sont quant eux dfinis: le concept EQUIPE
exprime la notion d'ensemble compos d'au moins 2 membres et dont tous les membres
sont des personnes; le concept PETITE-EQUIPE spcialise la notion d'quipe en quipe
n'ayant pas plus de 5 membres. Finalement, le concept EQUIPE-MODERNE spcialise la
notion d'quipe en imposant un nombre de membres infrieur ou gal 4, la prsence d'au
moins 1 chef, tous les chefs devant tre des femmes.
33
Chapitre 2. Apports et limites des travaux en classification conceptuelle
PERSONNE TOP
ENSEMBLE TOP
HOMME PERSONNE
FEMME (and PERSONNE (not HOMME))
membre toprole
chef membre
EQUIPE (and ENSEMBLE
(aH membre PERSONNE)
(atleast 2 membre))
PETITE-EQUIPE (and EQUIPE
(atmost 5 membre))
EQUIPE-MODERNE (and EQUIPE
(atmost 4 membre))
(atleast 1 chef)
(aH chef FEMME)
FIG. 2.7 - Une petite base de connaissances en logique de descriptions d'aprs [Napoli 97}
Syntaxe
Il existe de multiples langages de descriptions, dus l'volution des formalismes et
l'ajout successif de divers oprateurs. Nous prsentons sur la figure 2.6.1 la plupart des
oprateurs existants, en utilisant la syntaxe lisp (il existe une syntaxe allemande,
voir par exemple [N apoli 97]).
Smantique
Le formalisme des LD associe une smantique aux descriptions des concepts et des
rles, en utilisant la thorie des modles de Tarski, comme pour les formules en logique
des prdicats. Pour cela, on dfinit un ensemble d'objets 'D, qui constitue le domaine
de rfrence. Un modle M = ('D, I) est constitu par un domaine 'D et une fonction
d'interprtation I, qui associe chaque concept et chaque rle un sens par rapport au
domaine 'D, ce sens correspondant leur extension. La fonction d'interprtation permet
de dfinir formellement, de manire extensionnelle, le sens intuitif des constructeurs. La
fonction d'interprtation l est donne par la figure 2.6.1 pour les constructeurs prsents.
Ce cadre thorique permet de dfinir formellement la relation de subsomption, qui est
utilise pour organiser les concepts et les rles en hirarchie. Intuitivement, un concept C
subsume un concept D si pour tout modle, l'extension de C contient l'extension de D.
Plus formellement :
34
Un concept C est subsum par un concept D (not C D) si et seulement si
I[C] I[D] pour tout modle M = ('D,I).
2.6. Les logiques de descriptions : un meilleur compromis expressivit/complexit
<concept > --+ top 1
identificateur 1
(and concept+) 1
(or concept+) 1
(not concept) 1
(aIl role concept) 1
(c-some role concept) 1
(atleast entier raIe) 1
(atmost entier role) 1
(sameas (role+) (role+)) 1
< role> --+ toprole 1
identificateur 1
(and-role role+) 1
(or-role role+) 1
(not-role role) 1
(inv role) 1
(domain concept) 1
(range concept)
FIG. 2.8 - Syntaxe de description d'un concept et d'un rle en logique de descriptions
Dans l'exemple (figure 2.6.1), le concept EQUIPE subsume la fois les concept PETITE-
EQUIPE et EQUIPE-MODERNE. De plus, PETITE-EQUIPE subsume EQUIPE-MODERNE,
car toute instance du second concept est galement instance du premier.
Le processus de classification
L'opration de classification consiste trouver la position d'un nouveau concept X
dans la hirarchie H. Elle s'opre en trois phases:
- la recherche des subsumants les plus spcifiques (sps) de X,
- la recherche des subsums les plus gnraux (sPG) de X,
- la mise jour des relations entre X, ses SPS et ses SPG.
Un concept C fait partie des SPS de X si C subsume X et s'il n'existe pas de concept D
tel que X D C. De manire analogue, un concept C fait partie des SPG de X si X
subsume C et s' il n'existe pas de concept D tel que C D X.
Le processus effectue un parcours en profondeur de la hirarchie, en partant de la
racine TOP. Lors de la premire tape, si le concept courant C subsume X, il est intgr
temporairement aux sPs, et sa sous-hirarchie He est inspecte. Si un subsumant spcifique
est trouv dans He, il remplace C, dans le cas contraire C est dfinitivement intgr. Dans
le cas o C ne subsume pas X, il est cart de la recherche, ainsi que la sous-hirarchie
correspondante.
35
Chapitre 2. Apports et limites des travaux en classification conceptuelle
36
Soient C un ensemble de concepts, R un ensemble de rles,
Un modle M est dfini par M = (1), I) o
'D est le domaine de discours,
I: C ----7 iD,
I: R ----7 2
DxD
,
l vrifie les conditions suivantes:
Concepts
I [top] = 1)
I[(and Cl ... Cn) ] = ni=l I[Ci ]
I [(or Cl .. Cn) ] = ~ l I[Ci]
I [(not c) ] = 1) \ I [c]
I [(all r c) ] = {x E 1) 1 Vy( < x, y >E I [r] -t y E I [c]) }
I [(c-some r c)] = {x E 1) 1 3y( < x, y >E I [r] 1\ y E I [c])}
I [(atleast n r)] = {x E 1) 13 n distincts y < x,y >E I [r]}
I[(atmost n r) ] = {x E 1) 1 --,(3 n + 1 distincts y < x, y >E I[r])}
I[(sameas rI r2) ] = {x E 1) 1 Vy < x, y >E I[rl] B< x, y >E I [r2]}
I [toprole] = 1)2
I [(and-role rI .. r n ) ] = ni=l Ih]
I [(or-role rI ... rn)] = Ui=l I [ri ]
I [(not-role c) ] = 1)2 \ I[r]
I [(domain c] = {< x, y >E 1)2 1 x E I[c]}
I[(range c] = {< x, y >E 1)2 1 y E I [c]}
I[(inv r)] = {< x , y >E 1)2 1< y, x >E I[r]}
Les symboles c ou Ci, r ou ri, et n dsignent respectivement des
concepts, des rles et des entiers naturels positifs
FIG. 2.9 - Smantique thorie des modles en logique de descriptions
2.6. Les logiques de descriptions: un meilleur compromis expressivit/complexit
Les diffrentes logiques de descriptions
De nombreuses logiques de descriptions ont t conues depuis le premier systme de
Brachman, KL-ONE. Les choix oprs par les concepteurs se sont situs autour du com-
promis classique entre expressivit du langage et complexit des infrences [Doyle 91J. De
nombreux travaux thoriques ont permis d'atteindre des rsultats trs fins sur la complexit
de la subsomption selon les oprateurs utiliss par un langage ([Heinsohn 92J [Woods 92J
[Donini 97]). Il suffit parfois de modifier ou de rajouter un oprateur un langage de
complexit polynomiale pour basculer dans une complexit exponentielle ou un langage in-
dcidable. Par exemple, l'oprateur sameas introduit une grande complexit: le langage
compos uniquement de and , aIl et sameas est indcidable! Toutefois, lorsque sameas
est restreint des rles fonctionnels, c'est--dire n'acceptant qu'une valeur, le langage
redevient dcidable [Schmidt-SchaufS89J
Divers systmes ont t implments et sont oprationnels. Parmi les plus rcents CLAS-
SIC [Brachman 91J utilise un langage dont l' expressivit est restreinte, mais fournit des
algorithmes efficaces. A l'oppos de la chane, LOOM [MacGregor 94J est un systme qui
utilise un langage trs expressif, et qui reste trs efficace; toutefois, les algorithmes utili-
ss ne sont pas complets, et de nombreuses infrences thoriquement valides ne sont pas
ralises par LOOM.
Les proprits inductives des logiques de descriptions
Le formalisme des LD possde des proprits intressantes pour un processus inductif:
il permet de dpasser l'expressivit restreinte du formalisme attribut-valeur, sans atteindre
la complexit de la logique du premier ordre, puisque les LD constituent une restriction de
cette dernire. De fait, de nombreux auteurs mettent en avant le compromis offert entre
expressivit et complexit infrentielle, qui semble tre un des meilleurs que l'on puisse
esprer trouver [Kietz 94J [Ventos 95J . Cette constatation n'est cependant pas applicable
toutes les LD : seules celles offrant un nombre relativement restreint d'oprateurs per-
mettent de ne pas atteindre une complexit critique. Nous nous intresserons donc aux
LD de ce type. Dans la section suivante, nous prsentons les travaux qui ont permis de
dfinir l'opration de base ncessaire un processus inductif oprant sur une LD.
2.6.2 Travaux de Cohen et al. : un oprateur de gnralisation pour les
LD
L'opration de gnralisation, ncessaire au processus inductif en logique de descrip-
tions, a t initialement propose par Cohen et al. [Cohen 92J. Cette opration permet de
calculer le plus petit subsumant commun (pPSc) 28 d'une paire de concepts, c'est--dire de
trouver, parmi l'ensemble des descriptions qui subsument deux concepts, la description la
plus spcifique. Formellement , le PPsc de deux concepts Cl et C2 est le concept ppSC tel
que :
- Cl ppSC, C2 ppSC
- ppSC d pour tout d tel que Cl d 1\ C2 d
28. En anglais, least common subsumption (Les). Cette notion correspond cell e de plus petite gnrali-
sation commune que nous avons dfini page 7.
37
Chapitre 2. Apports et limites des travaux en classification conceptuelle
Nous dsignons par ppsc l'oprateur qui permet de calculer le PPsc de deux concepts.
Cohen et al. ont dfini cet oprateur pour une logique de descriptions proche de CLASSIC.
Ils ont montr que pour un langage possdant l'oprateur de construction AND (ce qui est
le cas pour toute DL), le PPSC est unique. L'oprateur ppsc peut tre facilement tendu
pour calculer le PPsc d'un ensemble de concepts, en calculant deux deux les diffrents
PPsc.
Ces travaux ont t poursuivis par la suite par Cohen et Hirsh [Cohen 94a] [Cohen 94b].
Les rsultats, essentiellement thoriques, montrent qu'une LD contenant les oprateurs
AND et ALL permet de calculer le PPsc en temps polynomial, et que l'oprateur SAME-AS
pose des problmes de complexit. Pour ne pas retrouver les difficults rencontres avec les
graphes conceptuels, il est donc ncessaire de se restreindre une LD dont l'expressivit est
proche de CLASSIC sans l'oprateur SAME- AS. Ventos et al. ont toutefois tendu ces rsultats
d'apprentissage une logique de descriptions incluant des connecteurs pour exprimer des
valeurs par dfaut et des exceptions [Ventos 95].
Nous montrons dans les deux sections suivantes comment l'oprateur de ppsc, ou un
oprateur similaire, a t utilis pour gnraliser un ensemble d'objets.
2.6.3 KL USTER : construction inductive avec une logique de descrip-
tions
Le systme KLUSTER [Kietz 94] permet l'apprentissage d'une hirarchie de concepts
partir d'un ensemble d'assertions en LD. Sa particularit est de permettre un apprentissage
constructif dans la mesure o de nouveaux termes (noms de concept) sont introduits pen-
dant le processus. La langage utilis par KLUSTER est voisin de celui de la LD BACK, et
comprend les oprateurs and, aU, atleast, atmost, androle, domain, range et inverse.
Il est donc plus expressif que les langages utiliss pour la dfinition de l'oprateur ppsc.
Les donnes fournir KLUSTER sont un ensemble d'assertions correspondant au
niveau de la ABox. L'exemple d'application donn par les auteurs porte sur les effets
secondaires des mdicaments et inclut les assertions suivantes:
containsCaspirin, asa)
containsCadumbran, coffein)
containsCadumbran, oxazepun)
affects Casa, headeache)
sedativeCadumbran)
monodrugCaspirin)
combidrugCadolorin)
Il y a deux types d'assertions possibles: un prdicat binaire exprime une relation (rle)
entre deux instances du domaine, et un prdicat unaire exprime l'appartenance d'une
instance un concept. Ainsi contains est un rle, aspirin est une instance, et monodrug
est un concept. Les auteurs prcisent que ces assertions peuvent tre compltes par des
connaissances du domaine (un ensemble de concepts de la TBox) , mais ne dveloppent pas
ce point.
Le but est d'obtenir une hirarchie de concepts qui organise les assertions initiales, en
utilisant des descriptions aussi spcifiques que possible. Pour construire cette hirarchie,
38
2.6. Les logiques de descriptions : un meilleur compromis expressivit/complexit
KLUSTER utilise trois grandes tapes:
- le calcul d'une hirarchie de concepts et de rles primitifs partir des instances des
concepts et rles connus, qui permet de constituer des classes de concepts mutuelle-
ment disjoints (CMD). Chaque CMD regroupe des concepts disjoints qui possdent
le mme pre,
- le calcul, pour chaque concept de chaque CMD, d'une gnralisation la plus spcifique
(GPS) couvrant toutes les assertions relatives au concept. Si une CMD est suffisam-
ment discriminante, c'est--dire si le nombre d'assertions mal classes est infrieur
un seuil donn E, elle est conserve. Dans le cas contraire, de nouveaux termes (nom
de concept ou de rle) sont introduits pour complter la description des concepts,
condition toutefois de respecter deux paramtres grant la longueur des descriptions,
- pour chaque CMD conserve ou complte, le recalcul de la GPS de chaque concept
si ncessaire (aprs augmentation du langage), puis le calcul pour chaque concept, de
sa discrimination la plus gnrale (DPG), obtenue partir de la GPS en liminant
des restrictions n'affectant pas la discrimination des assertions.
La premire tape gnre par exemple un concept primitif regroupant (entre autres) les
deux concepts initiaux monodrug et combidrug. Ce concept doit tre renomm par l'uti-
lisateur en drug car le systme ne peut gnrer qu'un nom neutre (rootconcept_l). De
mme le rle contains est caractris:
monodrug drug, ext(monodrug)={adumbran, alka_seltzer, aspirin}
combidrug drug, ext(monodrug)={adolorin, anxiolit}
contains and domain(drug) range(substance)
La deuxime tape gnre les GPS pour chaque concept de chaque CMD. Par exemple,
les GPS des deux concepts monodrug et combidrug, appartenant la mme CMD, sont les
suivantes:
MSG(monodrug) = and drug atleast(l, contains) atmost(2, contains)
MSG(combidrug) = and drug atleast(2, contains) atmost(3, contains)
L'valuation de la discrimination d'une CMD se base sur une valuation des GPS le consti-
tuant, prenant en compte la discrimination que permet une GPS par rapport aux autres
concepts, et l'importance relative des rles et restrictions du GPS dans cette discrimination.
La CMD contenant monodrug et combidrug est par exemple insuffisamment discriminante
(relativement au paramtre E). Deux nouvelles relations sont alors introduites pour raffiner
la CMD, conduisant de nouvelles MSG, qui sont:
MSG(monodrug) = and drug atleast(l, contains) atmost(2, contains)
atleast(l, contains_active) atmost(l, contains_active)
atmost(l, contains_add_on)
MSG(combidrug) = and drug atleast(2, contains) atmost(3, contains)
atleast(2, contains_active) atmost(2, contains_active)
atmost(l, contains_add_on)
Les nouvelles relations contains_active et contains_add_on sont plus spcifiques, et
permettent une meilleure discrimination, conduisant une valuation positive. Finalement,
les MSG sont simplifies et conduisent aux DPG suivantes :
monodrug = and drug atleast(l, contains_active)
39
Chapitre 2. Apports et limites des travaux en classification conceptuelle
atmost(l, contains_active)
combidrug = and drug atleast(2, contains_active)
Le systme KLUSTER utilise un langage assez expressif, ce qui permet d'apprcier les
limites ne pas dpasser pour esprer obtenir un processus inductif efficace. Les MSG
peuvent tre calcules en un temps polynomial selon le nombre de concepts. Par contre,
le calcul des meilleurs DPG s'avre exponentiel, et l'algorithme se contente de prendre le
premier trouv. Les oprateurs sur les rles sont galement source de complexit, et les
auteurs essayent de limiter au maximum leur utilisation dans l'algorithme (<< if they are
really needed ). L'introduction de nouveaux termes pendant le processus inductif est int-
ressante, mais oblige l'utilisateur nommer les termes, ce qui reprsente une lourde tche
ds lors que les donnes sont nombreuses. Enfin, la slection des concepts gnrs repose
sur une fonction d'valuation dpendante de paramtres, et prsente le mme inconvnient
que les approches classiques en classification conceptuelle.
Dans la section suivante, nous prsentons deux approches qui utilisent une LD moins
expressive et se basent sur l'opration de ppsc, sans reposer sur une fonction d'valuation.
2.6.4 Utilisation de l'opration de ppsc pour gnraliser des objets
Beck et al. utilisent la DL CANDIDE pour la classification conceptuelle partir d'ins-
tances, applique la conception de schmas de bases de donnes [Beck 94J. Ils dfinissent
une fonction INTERSECT, qui s'avre tre pratiquement quivalente l'oprateur ppsc,
et l' utilisent pour gnraliser des objets (instances). CANDIDE est une DL expressive, qui
met en oeuvre les oprateurs and, aU, sorne, range, atleast, atmost. Le cadre gnral est
le suivant: initialement, on suppose qu'il existe un schma de base de donnes reprsent
par une hirarchie de concepts et d'objets exprims en CANDIDE; une nouvelle classe ou
un nouvel objet est introduit; le rsultat est une hirarchie qui incorpore le nouvel lment.
Le processus de classification conceptuelle est dcrit par l'algorithme 3. La premire partie
Algorithme 3 L'algorithme de classification conceptuelle de Beck et al. pour mettre
jour un schma de base de donne
INSERTION(E)
- E est le nouvel lement (concept ou objet) intgrer
1: si E est un concept alors
2: utiliser l'opration de classification de la DL pour placer E
3: utiliser l'opration de ralisation de la DL pour dterminer les instances du concept
4: fin si
5: si E est un objet alors
6: utiliser l'opration de ralisation de la DL pour dterminer les concepts dont l'objet
est instance
7: utiliser la fonction INTERSECT pour identifier les objets similaires E
8: tester si l'objet reprsente une exception d'un concept existant
9: utiliser la fonction EVOLVE pour faire voluer la hirarchie
10: fin si
de l'algorithme est tout simplement l'utilisation de l'opration de classification automa-
tique de concepts disponible dans n'importe quelle logique de descriptions. L'originalit du
40
2.7. Conclusion,' choix d'une logique de descriptions pour gnraliser les structures prdicatives
processus est le traitement de l'insertion d'un nouvel objet 0 : celui-ci est plac selon ses
caractristiques, puis compar des instances d'autres concepts, en utilisant la fonction
INTERSECT. Pour ne pas comparer 0 toutes les autres instances de la hirarchie, un
ensemble de candidats est dfini ainsi :
CANDIDATS(o) = {i 1 :l1'j E RC(o) tel que i possde le rle 1'j}U
{i 1 :lc tel que i et 0 sont instances de c}
avec RC(o) = {1' 1 (1' est un rle de 0) V (1' est le pre d'un rle de 0) V (1' est
le fils d'un rle de o)}
L'ensemble CANDIDATS impose donc que i possde au moins un rle ou un pre en com-
mun avec o. Cet ensemble peut tre trs grand en pratique. Sachant que chaque instance de
CANDIDATS contribue gnrer une nouvelle classe de la hirarchie, le bruit (classes
inutiles) gnr peut tre trs important. Beck et al. suggrent de guider ce processus en
spcifiant a priori un but sous forme d'une nouvelle classe qui devrait subsumer tous les
concepts acceptables, mais ne dtaillent pas cette ide. L'utilisation de la fonction INTER-
SECT mriterait un processus plus contraint qui permettrait de gnrer des concepts de
meilleure qualit.
Beck et al. ont galement dvelopp des moyens pour contourner la classification rigide
en terme de conditions ncessaires et suffisantes impose par le formalisme des DL. Le test
de condition d'exception permet de classer un objet 0 comme instance d'un concept c s'il
vrifie les conditions suivantes:
- 0 ne satisfait pas les proprits de c
- le rsultat de la fonction INTERSECT applique 0 et d'autres instances conduit
un concept c' tel que :
extension(c) n extension(c') =1= 0 et
extension(c) \ extension(c' ) = {i}.
Une telle opration est trs utile, elle implique toutefois une complexit leve, puisque
beck et al. proposent d'appliquer INTERSECT sur 0 et sur chaque instance diffrente de
la hirarchie. La procdure EVOLVE permet ensuite de crer un nouveau concept pour
prendre en compte l'existence d'une exception. Une autre traitement permet de prendre
en compte la notion de prototype et de valeurs par dfaut. Il est toutefois beaucoup moins
approfondi que la proposition faite par Ventos et al.
Le travail de Coupey et Salotti [Coupey 97] montre une utilisation plus contrainte de
l'oprateur ppsc, dans le cadre d'un systme de raisonnement partir de cas. Le ppsc est
appliqu sur un nombre d'instances rduit, qui doivent satisfaire un concept appartenant
une base d'index. Ceci permet de limiter la complexit du processus et de garantir une
similarit minimale entre instances compares. Nous retenons de ces travaux la ncessit
de dfinir des critres plus fins que ceux proposs par Beck et al.
2.7 Conclusion: choix d'une logique de descriptions pour g-
nraliser les structures prdicatives
Nous avons tudi tout au long de ce chapitre les avantages et les limites des diffrentes
solutions proposes par les travaux en classification conceptuelle, problme qui s'apparente
le plus notre objectif de gnralisation de structures prdicatives. Nous avons distingu
41
Chapitre 2. Apports et limites des travaux en classification conceptuelle
deux grands types d'approches et montr que 1' approche classique tait peu satisfai-
sante dans la mesure o elle privilgiait les aspects prdictifs des structures hirarchiques
obtenues, au dtriment de l'aspect organisation des connaissances. De plus, l'utilisation
d'une fonction d'valuation, dont le comportement avec de nombreuses donnes est peu
prvisible, et l'absence de prise en compte de connaissances du domaine, nous ont fait
choisir une approche diffrente.
L'approche de type EC s'avre plus satisfaisante. Diffrents formalismes ont t utiliss
pour mettre en oeuvre des solutions adaptes une organisation plus objective des
connaissances, prenant en compte des connaissances du domaine: les treillis de concepts,
la reprsentation par objets, les graphes conceptuels. Nous avons cependant remarqu que
les solutions proposes, qui s'avrent satisfaisantes et pertinentes pour les objectifs que se
sont fixs leurs auteurs, ne sont pas adaptes notre objectif de gnralisation de structures
prdicatives :
- le systme GALOIS (section 2.4.2), qui gnre toutes les classes possibles, conduirait
une structure hirarchique trs complexe avec des structures prdicatives. Carpineto
et Romano ne l'utilisent en effet que pour structurer des mots-cls, qui sont des objets
trs simples,
- l'approche de Simon et Napoli (section 2.4.3) propose des mcanismes pour grer
la complexit structurelle d'une hirarchie compose d'objets complexes, avec les
points de vue. Mais, dans notre cas, cela requiert un investissement trop important
de l' utilisateur, qui doit lui-mme gnrer et explorer divers points de vues,
- la MSG et le systme COING (sections 2.5.2 et 2.5.3) posent le problme de la
dcomposition des donnes, qui conduirait clater les structures prdicatives, sans
assurance de pouvoir les recomposer par la suite. De plus, les mthodes d'exploration
proposes pour COING posent le mme problme que l'approche de Simon et Napoli.
Nous avons enfin prsent le formalisme des logiques de descriptions, et montr qu'il
offre un bon compromis entre expressivit et complexit, ainsi qu'un cadre bien dfini pour
une opration de gnralisation. Les quelques travaux autour de la classification concep-
tuelle avec des logiques de descriptions ont montr qu'une approche similaire celle de
l'EC est possible. C'est ce formalisme que nous avons choisi comme cadre pour la gnra-
lisation de structures prdicatives, et plus particulirement le systme CLASSIC, pour son
expressivit suffisamment restreinte pour un processus inductif [Capponi 97a]. Pour clore
ce chapitre, nous numrons les avantages d'un tel choix:
1 une LD offre un cadre formel, avec une smantique clairement dfinie,
2 il existe un oprateur bien dfini pour la gnralisation (pPSc), ne posant pas de problme
de complexit calculatoire,
3 l'opration de classification automatique (dductive) permet une mise jour efficace de
la hirarchie, et allge ainsi le travail ncessaire au processus de gnralisation,
4 la reprsentation des structures prdicatives ncessite de travailler au niveau terminolo-
gique, ce qui est facilit par la sparation des connaissances en TBox et ABox,
5 il existe un systme oprationnel et d'expressivit adquate: CLASSIC
Dans le prochain chapitre, nous prsentons plus prcisment la logique de descriptions
choisie, CLASSIC, et montrons comment nous utilisons ce formalisme pour la reprsentation
des structures prdicatives.
42
3
Proposition de reprsentation des
structures prdicatives en CLASSIC
Nous avons choisi le formalisme des logiques de descriptions comme cadre pour la
gnralisation de structures prdicatives. Parmi les LD existantes, notre choix s'est port
sur CLASSIC dont le compromis expressivit/efficacit semble le plus appropri. Dans ce
chapitre, nous prsentons dans un premier temps les particularits de CLASSIC (section 3.1).
Puis nous nous intressons aux proprits des structures prdicatives que nous utilisons,
et montrons comment elles sont reprsentes en CLASSIC, phase pralable la dfinition
du processus de gnralisation (section 3.2). Nous donnons une dfinition minimale des
structures prdicatives et nous focalisons peu sur l'aspect linguistique, qui est discut de
manire plus approfondie au chapitre 5.
3.1 Prsentation de la logique de descriptions CLASSIC
CLASSIC est un systme implmentant une logique de descriptions [Brachman 91], [Bor-
gida 89J [Resnick 95J. Il est ax sur la simplicit du langage de description de concepts et
d'objets, que nous prsentons figure 3.1. En effet, il n'existe pas de constructeur or, not
ou sorne pour dcrire un concept. De plus, les rles ne peuvent tre que primitifs, puis-
qu' il n'existe pas de constructeur de rles. En revanche, ceux-ci peuvent tre organiss en
hirarchie.
L'expressivit restreinte du langage permet d'obtenir une LD efficace en terme d'inf-
rences, qu'elles soient dductives comme le test de subsomption et la classification (tude
comparative de [Baader 94]) ou inductives comme la gnralisation [Cohen 94aJ . L'algo-
rithme de subsomption utilis est incomplet [Resnick 95], toutefois les cas o la subsomption
n'est pas detecte sont restreints par rapport aux autres LD dont l' efficacit est comparable
[Heinsohn 92J.
Nous ne rappelons pas ici la signification des principaux constructeurs prsents sec-
tion 2.6. Les constructeurs spcifiques CLASSIC sont ceux qui permettent d'introduire
des objets individuels dans les descriptions: fUIs et one-of. CLASSIC est une DL un peu
particulire car elle ne fait pas une sparation nette entre concepts et obj ets: ces derniers
peuvent apparatre dans la dfinition des concepts. Ainsi, fills permet de donner une ou
43
Chapitre 3. Proposition de reprsentation des structures prdicatives en CLASSIC
<concept > ---7 top 1
identificateur 1
(and concept+) 1
(aU role concept) 1
(atleast entier role) 1
(atmost entier role) 1
(fills role instance+) 1
(one-of instance*) 1
(test fonction arguments*) 1
(sameas (attribut+) (attribut+)) 1
un attribut est un rle limit une seule valeur
FIG. 3.1 - Syntaxe simplifie de description d'un concept en CLASSIC d'aprs [Resnick 95}
plusieurs valeurs (objets individuels) un rle. Par exemple, pour exprimer le concept d'un
vin de Bordeaux rouge, on peut utiliser l'expression
(and BORDEAUX (fills couleur Rouge) )
o BORDEAUX est un concept reprsentant un vin de Bordeaux, couleur est un rle et Rouge
est un objet. Le constructeur one-of permet d'exprimer une disjonction de valeurs. Par
exemple, pour exprimer la couleur d'un vin, on peut utiliser l'expression
(aU couleur (one-of Rouge Rose Blanc) ),
qui signifie que couleur peut prendre une ou plusieur des trois valeurs Rouge, Rose ou
Blanc.
Une autre particularit de CLASSIC est l'oprateur test qui permet d'introduire un
comportement procdural pour pallier les problmes d'expressivit: une fonction est ap-
pliqu sur le concept ou l'objet, elle doit retourner la valeur VRAI ou FAUX, permettant
d'exprimer une contrainte particulire sur l'objet. Ce mcanisme est toutefois limit car
il ne peut tre pris en compte pour la classification automatique d'un concept dans la
hirarchie. Par exemple, le concept d'entier pair peut s'exprimer par l'expression
(and ENTIER (test parite))
ENTIER tant un concept et pari te une fonction Lisp retournant VRAI lorsque l'argument
est un entier pair.
Comparaison entre CLASSIC et les autres formalismes de reprsentations
Nous avons prsent dans le chapitre prcdent diffrents formalismes de reprsentation
susceptibles de satisfaire notre problme de reprsentation des structures prdicatives. Nous
comparons brivement la LD CLASSIC avec trois formalismes: la logique du premier ordre,
les reprsentations objet et les graphes conceptuels.
44
3.2. Mthode de reprsentation des structures prdicatives en CLASSIC
Il existe un fort parallle entre logique des prdicats et LD car les deux formalismes
utilisent une structure smantique similaire, la thorie des modles de Tarski [Napoli 97].
Cependant une LD est plus restrictive car elle n'utilise pas de variables: les expressions de
concepts et d'assertions peuvent tre vues comme des cas particuliers de formule logique
o ne figurent que des instances de variables. Les prdicats (au sens logique) utiliss dans
une LD sont de plus limits aux prdicats unaires (concepts) et binaires (rles). CLASSIC
simplifie galement l'expressivit du formalisme en omettant des connecteurs tel que la
disjonction (or) ou la ngation (not). Nous renvoyons [Borgida 96] pour une comparaison
dtaille de l'expressivit des deux formalismes.
Les reprsentations objet utilisent les notions de classe et de frame, qui encapsulent
une description sous forme d'attributs et un comportement sous forme de fonctions acti-
ves par envoi de messages. Les descriptions sont similaires celles utilises par une LD,
et font le mme usage de l'hritage des proprits selon une structure hirarchique. Les
reprsentations objet se distinguent par leur caractre nettement plus procdural, qui ne
permet pas de proposer une smantique formelle aux expressions du langage, mais offre
plus de souplesse en terme d'expressivit [Napoli 97]. CLASSIC propose toutefois l'opra-
teur test qui permet d'introduire une composante procdurale dans une LD. La dernire
version de CLASSIC permet galement d'intgrer ce comportement au mcanisme de clas-
sification, mais cela relve de la programmation avance du systme. Enfin un langage
objets n'offre pas, en gnral, de mcanisme de classification automatique car il ne consi-
dre pas les proprits suffisantes des concepts. Certains travaux ont toutefois dfini un tel
mcanisme pour la classification d'instances [Ducournau 96].
Les graphes conceptuels ont une origine commune avec le formalisme des LD, puisqu'ils
proviennent tous deux des rseaux hritage, et permettent d'organiser des concepts en
hirarchie. Les graphes conceptuels permettent toutefois une reprsentation beaucoup plus
fine des concepts dcrits, grce leur grande expressivit. Des phnomnes complexes inh-
rent au langage naturel peuvent ainsi tre exprims : quantifications labores, distinction
subtile entre individus et concepts gnriques, nombreux types de rfrents, reprsentation
de propositions, ... [Sowa 91a]. Les graphes conceptuels offrent des oprations biens dfinies
sur les graphes, qui permettent des manipulations fines sur les concepts. En contrepartie,
ils n'offrent pas de classification automatique de concepts, et le modle, trs thorique, pose
des problmes de mise en oeuvre: les systmes existants n'offrent que certaines fonction-
nalits du modle (voir par exemple [Munday 95]). Par contraste, une LD offre un langage
bien dfini et relativement simple. En particulier CLASSIC est un systme oprationnel et
simple muni d'un ensemble de fonctionnalits permettant de crer, manipuler et interroger
une base de connaissances exprime avec un langage de descriptions. Quelques travaux
se sont attachs comparer les deux formalismes de manire thorique ([Ounis 95]) ou
pratique ([Nobecourt 98]).
Nous nous intressons prsent aux spcificits des structures prdicatives que nous
manipulons et leur reprsentation en CLASSIC.
3.2 Mthode de reprsentation des structures prdicatives en
CLASSIC
Nous prsentons en premier lieu de faon plus dtaille la notion de structure prdica-
tive que nous utilisons. Celle-ci s' inspire bien videmment de la notion classique utilise en
45
Chapitre 3. Proposition de reprsentation des structures prdicatives en CLASSIC
linguistique, mais en diffre sur certains points, notamment par un moindre degr de so-
phistication : une structure prdicative est pour nous un moyen de reprsenter de manire
concise et structure une unit d'information extraite des textes. Elle s'appuie sur un pr-
dicat, qui reprsente une action ou un venement du domaine considr, et ses arguments,
qui reprsentent des objets (au sens trs gnral) sur lesquels s'appliquent l'action.
Les structures prdicatives
La forme gnrale que nous utilisons pour une structure prdicative est la suivante:
predicat( reh : argl, rel2 : arg2, .. . , rel
n
: arg
n
)
avec argi = terme
ou argi = predicat' : ... )
Les lment de base composant une structure prdicative sont les prdicats ou ttes
prdicatives et les arguments simples (argi) qui apparaissent dans les structures: nous les
appelerons termes
29
. Le lien entre un prdicat et un argument est ralis par une relation
(reli). Nous notons T l'ensemble des termes, et P l'ensemble des prdicats. Les prdicats
forment un sous-ensemble des termes: PET. L'ensemble des structures prdicatives est
not SP.
Nous considrons qu'un prdicat pEP reprsente une notion unique, et ne peut tre
considr comme un lexme pouvant possder plusieurs sens. Par exemple, nous nous inter-
disons d'utiliser le prdicat voler pour reprsenter la fois l'action de se dplacer dans les
airs et l'action de drober un objet. Nous utiliserons deux prdicats distincts, par exemple
voler pour le premier sens) et drober pour le second. Ceci s'applique galement aux autres
termes.
Nous n'imposons a priori aucune contrainte sur le nombre de relations utilisables ou
le sens donn ces relations. Les relations doivent permettre d'exprimer des proprits
de nature diffrentes. Les relations thmatiques classiques sont les plus appropries [Saint-
Dizier 95] 30. Nous en utiliserons une ensemble restreint avec les significations suivantes:
agent: qui est l'origine de l'action,
objet: sur lequel porte l'action (thme) ,
moyen: ce qui est utilis pour raliser l'action,
localisation: au sens large, o se droule l'action,
but: ce pourquoi est ralise l'action.
Nous considrons qu'une relation ne peut tre utilise qu'une seule fois dans une structure
prdicative donne, pour des arguments de mme niveau (cela ne s'applique pas si une
structure prdicative est imbrique dans une autre). Cette contrainte est souvent applique
pour les rles thmatiques, car il est considr que deux arguments ne peuvent jouer le
mme rle smantique [Fillmore 68] . Pour notre part , nous considrons que cette contrainte
permet de simplifier la reprsentation, tout en conservant une expressivit suffisante.
29. Nous utilisons ici la notion de terme comme synonyme d'lement d'une formule ou d'une expression,
sans sa connotation linguistique.
30. Les relations thmatiques sont prsentes de faon plus dtailles section 5.3.3.
46
3.2. Mthode de reprsentation des structures prdicatives en CLASSIC
Reprsentation en CLASSIC
Nous posons comme hypothse l'existence d'un ordre partiel sur les termes, permettant
de les situer les uns par rapport aux autres. En CLASSIC, nous choisissons de reprsenter
les termes par des concepts, et la relation de subsomption permet d'exprimer l'ordre sur
les termes. Les concepts reprsentant les termes peuvent tre primitifs ou dfinis, selon la
finesse des informations dont on dispose a priori. Dans la suite de ce mmoire, nous nous
limitons des concepts primitifs, sans proprits, pour plusieurs raisons: premirement,
notre objectif de gnralisation ne ncessite pas l'emploi de concepts dfinis. Deuxime-
ment, l'utilisation de concepts dfinis ncessite un travail trs important de modlisation,
qui n'est pas justifi pour l'utilisation que nous faisons des structures prdicatives.
Nous caractrisons une structure prdicative sp l'aide d'un concept dfini SP, comme
la conjonction du concept PREDICAT reprsentant la tte prdicative et un ensemble de
rles reprsentants les couples relation/argument (reli,argi) de la structure prdicative 31
SP == (and PREDICAT
(all rell ARG1)
(all re12 ARG2)
(all reln ARGn ))
Par exemple, la structure prdicative
dosage( objet: amine, moyen: chromatographie liquide)
est reprsente en CLASSIC par le concept DOSAGE-l 32 :
DOSAGE-l == (and DOSAGE
(all objet AMINE)
(all moyen CHROMATOGRAPHIE_LIQUIDE) )
o obj et et moyen sont des noms de rles reprsentant les relations objet et moyen. Les trois
concepts primitifs permettant de construire la structure prdicative sont DOSAGE, AMINE et
CHROMATOGRAPHIE_LIQUIDE, les deux derniers tant utiliss comme restriction de rles.
Notre reprsentation de structures prdicatives se situe un niveau terminologique, par
opposition au niveau assertionnel : nous les dfinissons en effet l'aide de concepts, plutt
que par des objets individuels. Une alternative pourrait consister utiliser des instances
de concepts pour les dfinir. En reprenant l'exemple prcdent, la structure prdicative
dosage-l serait dfinie par:
DOSAGE-l :: (and DOSAGE
(fills objet AMINE-l)
(fills moyen CHROMATOGRAPHIE_LIQUIDE-l))
o DOSAGE est galement un concept primitif, AMINE-l et CHROMATOGRAPHIE_LIQUIDE-l
tant deux instances respectives des concepts amine et chromatographie_liquide. Cepen-
dant cette solution conduirait l'introduction d'un nombre important d'objets individuels.
31. Le rle dcrit le couple (rel;,arg;) ; rel; est le nom de rle et al'g; la restriction du rle. Lorsqu'il n'y
a pas d'ambiguit rel; est dsign simplement par le terme rle.
32. Par convention, nous nommons le concept reprsentant une structure prdicative par le nom de sa
tte prdicative suivie d'un nombre.
47
Chapitre 3. Proposition de reprsentation des structures prdicatives en CLASSIC
Plus fondamentalement, notre objectif n'est pas de nous intresser aux particularits de
chaque structure prdicative extraite d'un texte, mais de synthtiser des informations. Nous
nous focalisons donc sur les concept gnriques : lorsque le terme amine apparat dans une
structure prdicative, nous retenons le concept AMINE et non une instance particulire de
ce concept.
Les arguments des structures prdicatives
Une question importante est souleve par l'utilisation de structures prdicatives: le sta-
tut des arguments. En linguistique, un prdicat se voit associer une arit, qui correspond
au nombre d'arguments obligatoires associs au prdicat pour former une structure prdi-
cative. C'est--dire que pour un prdicat d'arit n, la structure prdicative correspondante
doit possder au minimum n arguments, ventuellement complts par des arguments op-
tionnels. Toutefois les structures prdicatives susceptibles d'tre extraite8 des textes ne
respectent pas forcment ces conditions: il existe de nombreux cas o les informations
relatives une structure prdicative sont clates diffrents endroits du texte, et trs dif-
ficile recomposer. Il est donc possible d'obtenir des structures prdicatives incompltes.
Nous illustrons ces propos avec le prdicat dosage.
Le prdicat dosage peut tre considr comme un prdicat trois arguments obliga-
toires : un agent, a priori humain, qui effectue l'action, un objet qui est dos, correspondant
souvent une substance chimique, et une localisation de l'objet dos, correspondant sou-
vent un produit alimentaire ou un vgtal. Un quatrime argument, le moyen utilis
pour le dosage, peut-tre considr comme optionnel. Or, dans le corpus utilis pour notre
application, l'agent n'apparat jamais dans les textes, car il est sous-entendu. De mme, il
est courant que l'objet ou la localisation soient prciss dans des phrases diffrentes de celle
o apparat le prdicat, ce qui rend trs difficile une extraction complte de la structure
prdicative correspondante. Nous trouvons par exemple la structure prdicative DOSAGE-l
dont nous rappelons ici la dfinition en CLASSIC :
DOSAGE-l (and DOSAGE
(aIl objet AMINE)
(aIl moyen CHROMATOGRAPHIE_LIQUIDE
Pour respecter l'arit du prdicat dosage, il peut tre pertinent de dfinir DOSAGE-l de
manire plus complte en ajoutant les rles agent et localisation avec des valeurs par
dfaut:
DOSAGE-l (and DOSAGE
(aIl objet AMINE)
(aIl agent PERSONNE)
(aIl localisation PRODUIT)
(aIl moyen CHROMATOGRAPHIE_LIQUIDE
Les concepts PERSONNE et PRODUIT correspondent aux concepts par dfaut associs
aux rles agent et localisation pour le prdicat dosage
33
. Nous n'avone pas retenu cette
approche, afin de proposer un processus de gnralisation qui soit suffisamment gnral
pour prendre en compte des structures prdicatives non homognes. En effet, si le processus
que nous proposons (dcrit au chapitre suivant) s'applique des structures prdicatives
33. En linguistique informatique, ce sont les restrictions de slection.
48
3.2. Mthode de reprsentation des structures prdicatives en CLASSIC
n'ayant pas forcment le mme nombre de relations, il s'applique a fortiori dans le cas
particulier o les relations sont homognes pour un mme prdicat. Et dans ce cas, le
rsultat obtenu est potentiellement plus satisfaisant.
Reprsentations utilises dans les autres travaux
La reprsentation adopte considre les prdicats comme des concepts. Cette approche
est suivie par de nombreux auteurs: par exemple dans le systme XTRA [J ans en-Winkeln
91], la hirarchie conceptuelle possde les deux concepts THING et PREDIGATE pour clas-
ser respectivement les objets et les prdicats. Des relations thmatiques (subject, agent, des-
tination, source) permettent d'exprimer les liens entre les deux. Forster [Forster 94Jpropose
galement cette solution pour reprsenter la smantique lexicale des verbes relatifs des
activits et des vnements avec la logique de description ALAN. Pour reprsenter des
groupes nominaux dans un rseau smantique " la KL-ONE", Biebow et Szulman in-
troduisent des prdicats et des rles thmatiques comme intermdiaires : ainsi, secrtaire
bilingue est interprt comme le concept secrtaire sachant parler deux langues. Le lien
entre le prdicat parler et les deux arguments sont respectivement agent et objet [Biebow
91J.
Une approche alternative consiste considrer le prdicat comme une relation entre plu-
sieurs objets. Cependant, elle est difficile raliser avec une logique de descriptions, car
dans celle-ci les relations ne peuvent tre que binaires. Une solution pour rendre compte
d'un prdicat soit comme concept, soit comme relation a t propose par [Franconi 94J.
Il s'agit d'introduire la possibilit de rifier les relations, c'est--dire de crer une corres-
pondance entre une relation et sa reprsentation au moyen d'un concept. Par exemple, la
relation peint entre les concepts artiste et oeuvre peut tre transform en concept peindre,
li respectivement artiste et peintre par deux relations agent et sujet.
Un exemple de reprsentation des structures prdicatives
Les structures prdicatives tant introduites en CLASSIC comme des concepts dfinis,
le mcanisme dductif de classification de la LD permet une rorganisation automatique
de la hirarchie chaque introduction d'une nouvelle structure. Par dfinition, chaque
concept reprsentant une structure prdicative est class sous le concept reprsentant sa
tte prdicative. Les positions relatives des structures prdicatives relatives un prdicat
donn sont ensuite dpendantes de leurs caractristiques (c'est--dire de leurs arguments).
Ceci est illustr par la figure 3.2, montrant la hirarchie obtenue aprs l'introduction de
six structures prdicatives ayant la tte prdicative dosage, numrotes de 1 6.
Les relations de subsomption existant entre les diffrents arguments sont illustres par la
figure 3.3. La description textuelle des six concepts en CLASSIC est la suivante :
DOSAGE-l = (and DOSAGE
(all objet HISTAMINE)
(all moyen CLHP))
DOSAGE-2
...:-
(and DOSAGE
(all objet SEROTONINE))
DOSAGE-3
...:-
(and DOSAGE
(all objet CHOLINE)
(all moyen CLHP))
49
Chapitre 3. Proposition de reprsentation des structures prdicatives en CLASSIC
DOSAGE-1
DOSAGE
objet:
DOSAGE-3
DOSAGE
objet: CHOLINE
moyen: CLHP
~ relation de subsomplion
DOSAGE concept primitif
DOSAGE-4
DOSAGE
DOSAGE-6
DOSAGE
obj et: AMINE BIOGENE
moyen: CHROMATOGRAPHIE
EN PHASE GAZEUSE
DOSAGE-5
DOSAGE
objet: SPERMINE
objet: SPERMIDINE
moyen: CHROMATOGRAPHIE
DOSAGE-1 concept dfini
description de concept
FIG. 3_2 - Six structures prdicatives avec la tte prdicative dosage en CLASSIC
TOP
/ \ ~
... ... . ..
/ / ~
DOSAGE COMPOSE AMINE CHROMATOGRAPHIE
t
/------
AMINE CHROMATOGRAPHIE SUR GEL
~ ~
POLYAMINE AMINE BIOGENE
- - - - - t ~ / ~
SPERMIDINE SPERMINE CHOLINE HISTAMINE SEROTONINE
- relation de subsomption
AMINE concept primitif
CLHP
FIG. 3.3 - Dtails de la hirarchie des concepts, avec focus sur les arguments utiliss par
les structures prdicatives de dosage
50
3.2. Mthode de reprsentation des structures prdicatives en CLASSIC
DOSAGE-4 (and DOSAGE
(all objet SPERMIDINE)
(all moyen CHROMATOGRAPHIE
DOSAGE-5 (and DOSAGE
(all objet SPERMINE
DOSAGE- 6 (and DOSAGE
(all objet AMINE_BIOGENE)
(all moyen CHROMATOGRAPHIE_EN_PHASE_GAZEUSE
La figure 3.4 montre la mme hirarchie aprs l'introduction d'une septime structure
prdicative DOSAGE- 7 :
DOSAGE-7 = (and DOSAGE
(all objet SPERMIDINE)
(all moyen CHROMATOGRAPHIE_SUR_GEL
DOSAGE- 7 se trouve ainsi plac sous le concept DOSAGE-5, celui-ci tant plus gnral car
il possde une proprit de moins.
DOSAGE-1
DOSAGE
objet: HISTAMINE
moyen: CLHP
DOSAGE-2
DOSAGE
objet : SEROTONINE
DOSAGE-3
DOSAGE
objet : CHOLINE
moyen: CLHP
DOSAGE

DOSAGE-4
DOSAGE
DOSAGE-6
DOSAGE
objet: AMINE BIOGENE
moyen: CHROMATOGRAPHIE
EN PHASE GAZEUSE
DOSAGE-5
DOSAGE
objet: SPERMINE
objet: SPERMIDINE
moyen : CHROMATOGRAPHIE
DOSAGE-7
DOSAGE
objet: SPERMlNE
moyen: CLHP
------. relation de subsomption DOSAGE-1 concept dfini
DOSAGE concept primitif
FIG. 3.4 - Hirarchie aprs l'ajout d'une septime structure prdicative en CLASSIC
Dans la suite de ce mmoire, et particulirement au chapitre suivant, nous serons ame-
ns manipuler des structures prdicatives et des concepts permettant de les reprsenter.
Par souci de simplification, nous utiliserons souvent:
- le terme structure prdicative pour dsigner le concept reprsentant une structure
prdicative,
- le terme prdicat pour dsigner le concept reprsentant un prdicat.
51
Chapitre 3. Proposition de reprsentation des structures prdicatives en CLASSIC
Ces simplifications seront utilises dans le mesure o il n'y a pas d'ambiguit.
Conclusion
Dans ce chapitre, nous avons prsent la logique de description utilise, CLASSIC, et
nous l'avons brivement compar aux principaux formalismes utiliss pour la reprsenta-
tion de connaissances. Nous avons montr comment utiliser la LD CLASSIC comme cadre
pour la reprsentation des structures prdicatives. Nous avons volontairement laiss de
ct les problmes poss par le passage de textes crit en langage naturel aux structures
conceptuelles d'une langage de reprsentation 34. Nous nous sommes focaliss sur la repr-
sentation, en essayant de montrer comment sont structures les informations reprsentes
au moyen des structures prdicatives. Nous disposons prsent de tous les lment pour
prsenter notre mthode de gnralisation de structures prdicatives, qui fait l'objet du
chapitre suivant.
34. Ces problmes sont discuts dans la deuxime partie, aux chapitres 5 et 6.
52
4
Notre mthode de gnralisation de
structures prdicatives
Nous proposons dans ce chapitre une mthode de gnralisation de structure prdi-
catives base sur la logique de descriptions CLASSIC [Capponi 98a] [Capponi 98b] . Cette
mthode utilise la notion de plus petit subsumant commun (pPsc, cf. section 2.6.2) pour
gnrer un ensemble de structures prdicatives plus gnrales que celles fournies initiale-
ment, et que nous appellerons gnralisations. Dans un premier temps, nous prsentons
en dtail l'algorithme de calcul du ppsc(section 4.1), puis nous montrons comment sont
introduites dans la hirarchie les gnralisations calcules (section 4.2). Dans un deuxime
temps, nous prsentons le processus de gnralisation proprement dit, qui consiste ap-
pliquer l'opration de calcul du PPsc sur des ensembles de structures prdicatives bien
choisis. Nous dtaillons ainsi les heuristiques utilises (section 4.3) , puis les deux tapes
principales dont est constitu l' algorithme (sections 4.4 et 4.5) . Enfin nous nous intressons
la complexit du processus de gnralisation prsent (section 4.6) avant de conclure sur
notre mthode de gnralisation (section 4.7).
4.1 Un algorithme de calcul du PPSC
La notion de PPsc a t prsente section 2.6.2, o nous avons donn une dfinition
pour deux concepts. Nous l'tendons prsent un ensemble C de concepts (non rdui t
au singleton) :
\lc E C,C ppsc,
ppsc d pour tout d tel que \lc E C, c d
L'oprateur de calcul du PPsc peut dsormais s'appliquer un ensemble de n argu-
ments, et s'exprime facilement partir de l'opration sur deux arguments:
ppSC(Cl,'" , cn ) = ppsc(en, ppSC(Cn-l,'" ppSC(C2, cd ... ))
L'unicit du rsultat est assure par l'existence du connecteur and. En effet, supposons
qu'il existe deux PPsc a et b distincts pour un ensemble C, alors la conjonction (and a b)
est plus spcifique que a et b et subsume chaque concept de C : le PPsc de C est unique
et a pour valeur (and ab).
53
Chapitre 4. Notre mthode de gnralisation de structures prdicatives
Un exemple de calcul de PPSC, entre les concepts DOSAGE-1 et DOSAGE-3, est illustr
par la figure 4.1. Nous rappelons les relations de subsomption entre les diffrents concepts
apparaissant dans les structures prdicatives la fi gure 4.2. Le PPsc des concepts DOSAGE- 1
DOSAGE 1 PPsc
DOSAGE
DOSAGE
HISTAMINE 1 PPSC
EIOGENE
CHOLINE
CLHP 1 PPSC

CLHP
DOSAGE-1
(
DOSAGE
objet: HISTAMINE
moyen: CLHP
PPSC
[
DOSAGE
objet: AMINE EIOGENE
moyen: CLHP
DOSAGE-3
[
DOSAGE J
objet: CHOLINE
moyen: CLHP
FIG. 4.1 - PPSC de deux concepts et de chacune de leurs composantes
TOP

... ... . ..
/ /
DOSAGE COMPOSE AMINE CHROMATOGRAPHI E
t

AMINE CHROMATOGRAPHIE SUR GEL

POLYAMINE AMINE BIOGENE

SPERMIDINE SPERMINE CHOLINE HISTAMINE SEROTONINE
- relation de subsomption
AMINE concept primitif
F IG. 4.2 - Dtail de la hirarchie des concepts
CLHP
et DOSAGE-3 est la description conceptuelle exprimant la conjonction de la gnralisation
de chaque proprit des concepts. Puisque nous restreignons l'utilisation des oprateurs de
CLASSIC, une proprit est exprime soit par un nom de concept parent, par exemple,
DOSAGE dans DOSAGE- 1,
54
4.1. Un algorithme de ca/cul du PPsc
soit par un rle, par exemple,
(all obj et HISTAMINE) dans DOSAGE-1.
Ainsi, dans notre exemple, le PPsc calcul possde une proprit mettant en jeu le rle
ob j et car celui-ci est prsent dans les deux concepts gnraliser. La restriction du
rle objet du PPsc est le PPsc de la restriction du rle objet de chacun des deux
concepts DOSAGE-l et DOSAGE-3, de valeurs respectives HISTAMINE et CHOLINE, soit le
concept AMINE_BIOGENE. Pour le rle moyen, les deux restrictions sont identiques, gales
CLHP, la gnralisation de cette proprit est donc triviale. Le PPsc de deux concepts
primitifs dont la dfinition est limite la donne de leur parent s'obtient par une remonte
dans la hirarchie des concepts, qui s'arrte ds qu'un subsumant commun est atteint. Dans
le cas de parents multiples, le rsultat peut tre une conjonction de concepts, si ceux-ci
sont incomparables selon la relation de subsomption.
Nous proposons un algorithme de calcul du PPsc de deux concepts qui se base sur
les fonctions fournies par le systme CLASSIC, contrairement aux algorithmes proposs par
Cohen et al. ([Cohen 92], [Cohen 94b]) ou Vent os et al. ([Vent os 95]) qui reposent sur l'uti-
lisation d'une structure de donnes appele graphe de description, et ncessitent l'accs
aux mcanismes internes d'une logique de descriptions. L'utilisation restreinte des opra-
teurs de construction de concepts, limite and et all, conduit un algorithme simple et
efficace.
L'algorithme de calcul du PPsc comprend trois fonctions: SUBSUMANT-PRIMITIF (al-
gorithme 4) et LISTE-SUBSUMANTS (algorithme 5) permettent de calculer le PPsc de
deux concepts primitifs sans rles par une remonte de la hirarchie des concepts. PPSC
permet de calculer le PPsc de deux concepts quelconques de la hirarchie (algorithme 6).
Les algorithmes utilisent des fonctions de base disponibles en CLASSIC ou en lisp, pr-
sentes figure 4.1. Dans l'ensemble des algorithmes prsents, nous utiliserons les notations
suivantes pour dsigner une table T dont les index sont il, i2, ... , in et les valeurs associes
VI, V2, ... , V
n
:
T reprsente la table entire
T(ik) reprsente la valeur associe au k-me index, soit Vk
Algorithme 4 calcul du plus petit subsumant commun de deux concepts primitifs sans
rles
SUBSUMANT-PRIMITIF(CI, C2)
- Cl : concept primitif sans rles
- C2 : concept primitif sans rles
si SUBSUME( C2, Cl) alors
retourne C2
fin si
ListeConcepts BOTTOM(LISTE-SUBSUMANTS( Cl, C2))
si TAILLE(ListeConcepts) > 1 alors
retourne (and + ListeConcepts + )
sinon
retourne PREMIER(ListeConcepts)
fin si
i iconcept seul
55
Chapitre 4. Notre mthode de gnralisation de structures prdicatives
TAILLE(l: liste) : retourne le nombre d'lments de
la liste 1
PREMIER(l : liste) : retourne le premier lment de
la liste 1
BOTTOM(lc: liste de concepts) : retourne la liste
des concepts Ci de lc tels qu'aucun autre concept de
la liste lc ne subsume Ci
DESCRIPTION(c: concept) : retourne la descrip-
tion en CLASSIC du concept c
RESTRICTION-ALL(r: rle, c: concept) : retourne
le concept qui reprsente le co-domaine du rle r
pour le concept c
LISTE-ROLES(c: concept) : retourne la liste des
rles utiliss pour dans la description du concept
c
SUBSUME(CI: concept, C2: concept): retourne
VRAI si Cl subsume C2, FAUX sinon
FIG. 4.3 - Fonctions utilises dans les algorithmes
Algorithme 5 calcul d'une liste de subsumants communs de deux concepts
LISTE-SUBSUMANTS (Cl, C2)
- Cl : concept primitif sans rles
- C2 : concept primitif sans rles
56
si SUBSUME(CI, C2) alors
retourne (Cl)
fin si
P t- PARENTS(Cl)
ListeConcepts t- 0
pour tout parent pEP faire
ListeConcepts = ListeConcepts U LISTE-SUBSUMANTS(p, C2)
fin pour
retourne ListeConcepts
4.1. Un algorithme de calcul du PPsc
Les algorithmes 4 et 5 permettent de calculer le PPsc de deux concepts primitifs n'ayant
pas de rle, c'est--dire tant seulement dfini par leur(s) parent(s). C'est le cas par exemple
des concepts HISTAMINE et CHOLINE dont le PPSC est AMINE_BIOGENE. La fonction LISTE-
SUBSUMANTS permet d'effectuer un parcours ascendant de la hirarchie partir d'un
des deux concepts, jusqu' trouver un concept qui subsume les deux concept initiaux. En
cas de parent multiple, chacun des parents est examin. La liste finale obtenue par LISTE-
SUBSUMANTS est ensuite filtre par SUBSUMANT-PRIMITIF de faon ne conserver
que les subsumants les plus spcifiques (fonction BOTTOM). La description est complte
par le connecteur and dans le cas o plusieurs concepts sont possibles.
Par exemple, appliquons l'algorithme sur les concepts Cl = SPERMINE et C2 = SEROTONINE.
LISTE-SUBSUMANTS retourne la liste {AMINE_BIOGENE, AMINE}. Celle-ci est rduite au
singleton {AMINE_BIOGENE} par BOTTOM, le rsultat final tant le concept AMINE_BIOGENE.
Supposons qu'il existe une autre substance X qui soit comme SPERMINE, subsume la fois
par AMINE_BI OGENE et POLYAMINE. Dans ce cas, pour C2 = X, LISTE-SUBSUMANTS re-
tourne la liste {AMINE_BIOGENE, POLYAMINE} et le PPSC est :
(and AMINE_BIOGENE POLYAMINE)
Algorithme 6 calcul du plus petit subsumant commun de deux concepts
PPSC( Cl, C2)
- Cl : concept
- C2 : concept
si SUBSUME( cl, C2) alors
retourne DESCRIPTION(cd
fin si
si SUBSUME( C2, Cl) alors
retourne DESCRIPTION(c2)
fin si
Genre f-- SUBSUMANT-PRIMITIF(cI, C2)
Linter f-- LISTE-ROLES(cd n LISTE-ROLES(c2)
Description f-- 0
pour tout role r E Linter faire
restl f-- RESTRICTION-ALL(r, cd
rest2 f-- RESTRICTION-ALL(r, C2)
DescPartielle f-- (aIl + r + PPSC(restl, rest2) + )
Description f-- Description + DescPartielle
fin pour
si Description = 0 alors
retourne Genre
sinon
retourne (and + Genre + Description + )
fin si
L'algorithme 6 permet de calculer le PPSC pour deux concepts quelconques (primitifs
ou dfinis). Aprs avoir vrifi qu'aucun des deux concepts ne subsume l'autre, le PPSC est
57
Chapitre 4. Notre mthode de gnralisation de structures prdicatives
calcul en dcomposant les proprits des deux concepts, rle par rle, en appliquant rcur-
sivement l'algorithme. Si un rle n' apparat que dans un des deux concepts, il sera absent
du PPsc. L'application de SUBSUMANT-PRIMITIF permet de calculer la composante
parentale, c'est--dire le ou les parents du plus petit subsumant commun.
Le calcul du PPsc n'est pas limit aux structures prdicatives simples. Il permet ga-
lement de prendre en compte les structures complexes dans lesquelles plusieurs structures
prdicatives sont imbriques. Appliquons l' algorithme sur un exemple faisant intervenir
une description complexe. Soient les deux concepts suivants:
SIMULATION- l (and SIMULATION
(aIl objet (and CROISSANCE
(aIl objet MAIS
SIMULATION-2 (and SIMULATION
(aIl objet (and DEVELOPPEMENT
(aIl objet MAIS
SIMULATION-l et SIMULATION-2 reprsentent respectivement les groupes nominaux sui-
vants : simulation de la croissance du mais et simulation du dveloppement du mais. Le
PPsc des concepts CROISSANCE et DEVELOPPEMENT est le concept EVOLUTION. L'applica-
tion de l'algorithme PPSC sur SIMULATION-l et SIMULATION-2 conduit au droulement
suivant:
Genre = SIMULATION
Linter = {objet}
Le traitement du rle objet consiste appliquer rcursivement PPSC sur les deux restric-
tions :
(and CROISSANCE (aH obj et MAIS)
et
(and DEVELOPPEMENT (aH objet MAIS))
Finalement, le PPSC est dcrit par:
Gl-SIMULATION (and SIMULATION
(aIl obj et (and EVOLUTION
(aIl objet MAIS
L'algorithme de calcul du PPsc permet ainsi de traiter toutes les structures prdica-
tives que l'on peut exprimer l'aide des oprateurs and et aH, mme lorsque les rles
sont complexes, c'est--dire lorsqu'ils contiennent une structure prdicative interne. Nous
montrons dans la section suivante comment nous utilisons cet oprateur pour introduire
des gnralisations dans la hirarchie des concepts.
4.2 Introduction d'une gnralisation en CLASSIC
Nous savons maintenant comment calculer le PPsc d'un ensemble C de concepts. Le
PPsc obtenu est une description de concept, qui gnralise les structures prdicatives re-
prsentes par les concepts de l'ensemble C, et que nous appelons gnralisation pour faire
58
4.2. Introduction d'une gnralisation en CLASSIC
une distinction avec les PPsc calculables sur tous les ensembles possibles. Pour introduire
de manire effective cette gnralisation dans la hirarchie des concepts, il faut la nommer
et dcider quel statut lui donner :
par convention, une gnralisation sera nomme par un G suivi d'un nombre
unique et du nom de la tte prdicative la composant,
- une gnralisation est introduite comme concept dfini, ceci afin d'exploiter le mca-
nisme de classification (dductif) de la logique de descriptions, qui permet une mise
jour automatique de la hirarchie des concepts.
Reprenons l' exemple des sept structures prdicatives introduites en 3.2, avec la tte
prdicative dosage. Nous avons calcul le PPsc des deux concepts DOSAGE- l et DOSAGE-3
(figure 4.1, page 54) dont la description est la suivante:
(and DOSAGE
(aIl objet AMINE_BIOGENE)
(aIl moyen CLHP))
Si nous voulons introduire cette gnralisation en CLASSIC, nous le faisons l'aide d'un
concept dfini :
Gl-DOSAGE ~ (and DOSAGE
(aIl objet AMINE_BIOGENE)
(aIl moyen CLHP))
DOSAGE
~
DOSAGE-4
DOSAGE-2 DOSAGE
DOSAGE
objet: SEROTONINE
objet: SPERMIDINE
moyen: CHROMATOGRAPHIE
DOSAGE-6 GI-DOSAGE DOSAGE-5
DOSAGE DOSAGE DOSAGE
objet: AMINE BIOGENE objet: AMINE BIOGENE objet: SPERMINE
moyen:
~ : ~ ~ r ~ \
DOSAGE-1 DOSAGE-3 DOSAGE-7
DOSAGE
objet: HISTAMINE
moyen: CLHP
DOSAGE
objet : CHOLINE
moyen: CLHP
DOSAGE
objet: SPERMINE
moyen : CLHP
-- relati on de subsompti on DOSAGE-1 concept dfini
DOSAGE concept primitif
description de concept
F IG. 4.4 - Hirarchie conceptuelle avec l 'introduction de la gnralisation G l - DOSA GE
La hirarchie rsultante, aprs l'introduction de Gl-DOSAGE, est illustre par la figure
4.4. Gl-DOSAGE est par dfinition plus gnral que les concepts qui ont contribu la gn-
rer, DOSAGE-l et DOSAGE-3. D'autre part, DOSAGE-7 est plus spcifique que Gl -DOSAGE est se
59
Chapitre 4. Notre mthode de gnralisation de structures prdicatives
trouve donc plac galement sous ce concept . Le lien existant entre DOSAGE-7 et DOSAGE-5
est conserv car DOSAGE-5 est incomparable avec Gl-DOSAGE, c'est--dire ni plus gnral,
ni plus spcifique. On observe ainsi que l'introduction d'une gnralisation en CLASSIC
conduit rorganiser la hirarchie par la calcul des nouveaux liens de subsomption : la
gnralisation Gl-DOSAGE a t calcule partir de deux concepts, mais en recouvre trois.
Nous pouvons insister ici sur les avantages de l'utilisation d'une logique de descriptions
pour la gnralisation. Le mcanisme dductif de classification des concepts offre un cadre
logique pour comparer et classer les structures prdicatives. Les comparaisons sont effec-
tues selon des critres bien dfinis, ceux de la subsomption. Le caractre inductif de la
gnralisation est assur par l'utilisation de l'opration inductive du PPSC, qui permet de
calculer des concepts plus gnraux. Nous disposons ainsi d'un cadre pour la classification
conceptuelle qui est bien dfini logiquement, oprationnel et efficace.
Nous disposons prsent des lments pour proposer un processus global de gnra-
lisation. Cependant, l'application de l'opration de PPsc doit tre contrainte pour per-
mettre d'aboutir des gnralisations en nombre limit et pertinentes. Nous prsentons et
motivons dans la section suivantes les principes que nous avons choisis d'appliquer pour
atteindre cet objectif.
4.3 Des principes et des heuristiques pour la gnralisation
tant donn un ensemble C de n concepts, reprsentants des structures prdicatives,
chaque lment de P(C), l' ensemble des parties de C, peut tre candidat la gnrali-
sation par application de l'opration de PPsc. Un processus de gnralisation exhaustif
consisterait donc calculer le PPsc de chaque sous-ensemble de P( C), et introduire la
gnralisation correspondante en CLASSIC. Cette approche est cependant peu souhaitable
pour deux raisons principales:
- le nombre de gnralisations calculer est de croissance exponentielle suivant n et
conduit une complexit calculatoire trs leve,
- le nombre de gnralisations obtenues est trs lev (malgr une probable redon-
dance), et une proportion importante de ces gnralisations est de faible qualit,
c'est--dire difficilement interprtable par l'utilisateur final.
Il s'avre donc indispensable de trouver des moyens pour contourner la complexit
calculatoire inhrente au processus tout en favorisant les gnralisations susceptibles d'tre
de bonne qualit. Cette qualit est videmment une notion subj ective qui dpend
fortement de la nature des informations traites et de l'obj ectif final vis. Nous avons
montr dans le chapitre 2 que 1' approche classique de la classification conceptuelle,
par exemple, n'est pas satisfaisante car elle s' intresse surtout la prdiction de valeurs
inconnues. Dans notre cas, il s'agit de retenir des gnralisations qui soient synthtiques
sans tre trop gnrales, et qui soient surtout intelligibles pour l'utilisateur, en rapportant
des informations contenues dans les textes. Les informations doivent tre regroupes en
tenant compte de leur prsentation sous forme de structures prdicatives. Par exemple, la
gnralisation de deux structures prdicatives n'ayant aucun rle en commun donne une
structure prdicative trs peu informative limite un concept primitif reprsentant une
t te prdicative: il est donc inutile d'effectuer l'opration de calcul du PPsc.
60
4.3. Des principes et des heuristiques pour la gnralisation
4.3.1 Utilisation de la hirarchie comme indice de proximit des struc-
tures prdicatives
Toutes les structures prdicatives n'entretiennent pas le mme rapport. Certaines sont
plus proches que d'autres en qui concerne leur contenu informatif, et susceptibles d'tre rap-
proches, c'est--dire d'tre gnralises. Il s'agit donc de juger la similarit des structures
prdicatives. tant donne la forme d'une structure prdicative, deux types d'informations
sont comparables :
- la tte prdicative utilise par chaque structure prdicative,
- les couples relation-argument utiliss par chaque structure prdicative.
Dans les deux cas, nous utilisons l'ordre partiel impos par la hirarchie des concepts comme
base pour la comparaison des concepts (ttes prdicatives et arguments). Les concepts sont
donc regroups selon leur proximit dans la hirarchie. Ceci permet par la suite de regrouper
les structures prdicatives qui doivent tre gnralises ensembles.
Par exemple, considrons une portion de la hirarchie des concepts, illustre par la figure
4.5. La comparaison des concepts SPERMIDINE, CHOLINE et HISTAMINE, conduit regrouper
les deux concepts CHOLINE et HISTAMINE: en effet, ils sont plus proches en terme d'informa-
tion, puisque leur gnralisation conduit au concept AMINE_BIOGENE qui ne recouvre pas le
concept SPERMIDINE. En revanche, la comparaison des concepts AMINE_BIOGENE, POLYAMINE
et HYDROXYLAMINE conduit un seul regroupement contenant les trois concepts, car ceux-ci
ont une position identique dans la hirarchie. Leur gnralisation est reprsente par le
concept AMINE. Ces exemples illustrent l'importance que nous donnons la hirarchie pour
regrouper les concepts, et, par extension, les structures prdicatives pour la gnralisation.
COMPOtE AMINE
AMINE
~ ----------
POLYAMINE AMINE BIOGENE HYDROXYLAMINE
~ ~ / ' \ ~
SPERMIDINE SPERMINE CHOLINE HISTAMINE SEROTONINE
- relation de subsomption
AMINE concept primitif
FIG. 4.5 - Dtail de la hirarchie des concepts
4.3.2 Une heuristique qui dcompose le problme de gnralisation en
deux tapes
Les structures prdicatives peuvent tre regroupes en utilisant la proximit des ttes
prdicatives et la proximit des arguments. Nous pensons que la similarit des ttes prdi-
catives est plus importante que celle des arguments pour gnrer une structure prdicative
61
Chapitre 4. Notre mthode de gnralisation de structures prdicatives
pertinente. En effet, deux structures prdicatives partageant le mme prdicat sont tou-
jours de sens voisin , mme lorsque les arguments diffrent : le prdicat tel que nous
l'avons dfini nous assure une proximit conceptuelle minimum entre les deux structures.
Au contraire, deux structures prdicatives partageant les mmes arguments mais ayant
deux prdicats diffrents peuvent tre trs loignes conceptuellement l'une de l'autre.
Ceci est d'autant plus frquent que le nombre d'arguments est petit.
Par exemple, considrons les trois structures prdicatives suivantes:
1 : dosage (objet : choline)
2: dosage (objet: spermidine)
3 : production (objet: choline)
Les structures prdicatives 1 et 2 doivent tre regroupes en priorit. Le regroupement
des structures 1 et 3, par ailleurs intressant, est moins pertinent car il conduit une
gnralisation dont la tte prdicative est trs gnrale et l'argument trs spcifique.
Cette constatation nous amne proposer une premire heuristique qui consiste dcom-
poser le processus de gnralisation en deux tapes distinctes :
- une premire tape o chaque groupe de structures prdicatives partageant le mme
prdicat est trait isolment,
- une deuxime tape o les informations gnralises pour chaque prdicat sont mises
en commun.
Cette dcomposition permet de ne garder pour la seconde tape que des informations assez
synthtiques, et de donner moins d'importance aux informations marginales relatives un
prdicat donn. Ainsi, de nombreux calculs et gnralisations peu pertinents sont vits.
Par exemple, considrons un ensemble E de vingt structures prdicatives : dix struc-
tures prdicatives possdent la tte prdicative dosage, six structures possdent la tte
prdicative identification, trois structures possdent la tte prdicative analyse et une
structure possde le prdicat production. La premire tape du processus de gnralisa-
tion consiste considrer quatre ensembles D, J, A et P comprenant respectivement les
structures prdicatives dont la tte prdicative est dosage, identification, analyse et produc-
tion. Pour chacun de ces ensembles pris sparment, des gnralisations sont calcules en
appliquant l'opration de calcul du PPsc sur des sous-ensembles choisis selon la proximit
des structures prdicatives (ce processus est dtaill section 4.4).
La premire tape permet d'aboutir quatre ensembles de structures prdicatives D',
J', A' et P', sur-ensembles respectivement de D, J, A et P. Par exemple, J'est l'ensemble
J auquel sont ajoutes les gnralisations calcules sur J. Toutes les structures prdicatives
de l'ensemble J' possdent la tte prdicative identification car les gnralisations ajoutes
J' sont issues de structures prdicatives dont la tte prdicative est identification.
La deuxime tape consiste ne retenir, dans les ensembles D', J', A' et P' contenant
les gnralisations calcules, qu'un petit nombre de structures prdicatives reprsentatives
des informations contenues dans l'ensemble considr. Celles-ci sont alors regroupes prin-
cipalement selon la position hirarchique de leur tte prdicatives : la position relative des
concepts utiliss comme tte prdicative est donc le principal critre de regroupement pour
cette deuxime tape (prsente en dtail section 4.5).
Cette approche pose comme hypothse la possibilit d'tablir une hirarchie de pr-
dicats suffisamment pertinente et intelligible. C'est--dire qu'il doit tre possible, pour le
62
4.3. Des principes et des heuristiques pour la gnralisation
domaine de connaissances considr, d'tablir un ordre partiel non trivial sur les diffrentes
actions ou vnements dcrivant le domaine. Une telle hirarchie a par exemple t tablie
pour la langue gnrale, par les travaux sur Wordnet, une base de connaissances lexicales en
anglais [Miller 93]. Elle montre qu'une telle approche est possible. Nous considrons qu'elle
est plus approprie pour une langue de spcialit, plus contrainte, que pour la langue gn-
rale, soumise une plus grande polysmie 35. Nous pensons toutefois qu'elle doit se limiter
un domaine restreint, voire un sous-domaine, pour tre exploitable. Nous donnons figure
4.6 un extrait d'ordre partiel sur des mots prdicatifs (le plus souvent des verbes) tabli par
la base lexicale Wordnet : un noeud correspond une notion, et s'exprime par un ensemble
de mots qui permettent de cerner la notion considre. La relation d'ordre entre les noeuds
est nomme troponymie (troponomy en anglais) par les auteurs, et signifie intuitivement :
est une faon particulire de . Nous prcisons entre parenthses le sens approximatif
de ces notions en franais, au moyen d'un mot ou d'un ensemble de mots. L'exploitation
d'une telle hirarchie s'avre particulirement ardue cause de la grande polysmie des
mots utiliss. Par exemple, le mot analyse possde trois sens dans Wordnet, dont un seul
est illustr par la figure 4.6.
Se limiter un domaine restreint est donc un moyen de rduire le problme de la polysmie.
D'autre part, pour pouvoir tre exploite efficacement par l'utilisateur final, la hirarchie
doit tre construite de manire consensuelle et doit impliquer l'utilisateur. Cette question
sera approfondie dans le chapitre concernant l'valuation du processus de gnralisation
(chapitre 6).
Par la suite, nous ferons rfrence cette heuristique de dcomposition de la gnralisation
analyse, study, examine
(analyser, tudier, examiner)
.
check, serVice, check up on diagnose, name survey, make a survey 0 compare, draw a companson
(vrifier, contrler) (diagnostiquer) (effectuer une vue d'ensemble) (comparer)
watch, Jbserve, follow eXPlo/eXamine poli, analogize,
(surveiller, observer, suivre) (examiner) (sonder, pointer) (faire une analogie) (interclasser)
. .. / ------- d . Il .
IDvlglhte, proctor guar Clrcu anse
p"""; de ",ni",
patrol, control
(contrler, effectuer une
patrouille)
baby-sit, sit stand guard, stand watch, keep guard
(garder des enfants) (surveiller (sentinelle))
- relation de troponymie
FIG. 4.6 - Un extrait de la hirarchie des verbes de Wordnet, avec leur traduction en
franais
en deux tapes par l'appellation heuristique Hl.
35. Un mot est dit polysmique lorsqu'il renvoie plusieurs notions.
63
Chapitre 4. Notre mthode de gnralisation de structures prdicatives
4.3.3 Une heuristique pour traiter le problme de la diversit des struc-
tures prdicatives
Nous avons dj observ que l'arit des structures prdicatives peut tre sujette des
variations, et que les structures prdicatives susceptibles d'tre extraites des textes peuvent
tre incompltes (cf. section 3.2) . Nous sommes donc confronts pour la gnralisation des
structures prdicatives qui peuvent avoir un nombre de relations diffrent et des relations
diffrentes, mme si elles partagent la mme tte prdicative. Si deux structures prdicatives
n'ont aucune relation commune, leur gnralisation est inutile puisqu'elle ne peut donner
qu'un concept rduit un prdicat, peu intressant: nous pouvons donc rduire le nombre
de gnralisations obtenues en interdisant de regrouper de telles structures prdicatives.
Pour les autres cas de figure, o des structures prdicatives possdent en partie seulement
des relations communes, il existe plusieurs approches possibles, dont les deux extrmes
consistent soit autoriser tous les types de regroupements soit au contraire les limiter
au maximum.
La question que nous nous posons est donc la suivante: sur quels critres deux (et par
extension n) structures prdicatives peuvent elles tre gnralises ensemble? Soient deux
structures prdicatives SPI et SP2, possdant respectivement les relations rIi, 1 i n et
r2i, 1 i m, nous numrons diffrents critres possibles: la gnralisation de SPI et SP2
est autorise si
1 il existe au moins une valeur i et un valeur j tel que rli = r2j, c'est--dire s'il existe
au moins une relation en commun, par exemple:
dosage( objet,' amine, moyen,' chromatographie liquide, localisation,' vin)
dosage( objet,' polyamine),
2 il existe au moins max(m, n) -1 valeurs i et max(m, n) -1 valeurs j tel que rli = r2j,
c'est--dire s'il existe au plus une relation qui n'est pas en commun dans chaque
structure prdicative, par exemple:
dosage( objet,' amine, moyen,' chromatographie liquide)
dosage( objet,' polyamine, localisation ,' farine de poisson),
3 il existe au moins k valeurs i et k valeurs j tel que rli = r2j, c'est--dire s'il existe au
moins k relations en commun (le cas 1 est un cas particulier de celui-ci), par exemple
(pour k = 2) :
dosage( objet,' amine, moyen,' chromatographie liquide)
dosage( objet,' polyamine, moyen,' clhp, localisation,' farine de poisson),
4 m = n et il existe j tel que rli = r2j pour tout i vrifiant 1 i m, c'est--dire si
toutes les relations sont en commun, par exemple:
dosage( objet,' amine, moyen ,' chromatographie liquide)
dosage(objet ,' polyamine, moyen,' clhp).
La solution 1 consiste autoriser la gnralisation d'un ensemble de structures pr-
dicatives si celles-ci possdent au moins une relation en commun : cela signifie que deux
structures prdicatives ayant respectivement les relations objet, localisation et objet, moyen
sont gnralisables. Elles conduisent donc une structure prdicative ne possdant que la
relation objet: les informations initiales sont fortement appauvries, et la gnralisation
rsultante a une forte probabilit de subsumer un nombre beaucoup plus important de
structures prdicatives que le nombre initial qui a contribu son calcul. De plus, cette
solution est celle qui conduit au nombre maximal de gnralisations possibles.
64
4.3. Des principes et des heuristiques pour la gnralisation
La solution 4 est l'oppos de la prcdente, et consiste imposer la correspondance
exacte entre les relations possdes par un ensemble de structures prdicatives pour calculer
leur gnralisation: cela permet d'aboutir des gnralisations qui possdent autant de
relations que les structures prdicatives qui ont contribues leur calcul. Les informations
initiales sont donc appauvries (ou, d'un autre point de vue, synthtises) au niveau des
arguments seulement. Cette solution est galement la plus conomique car elle supprime
un nombre important de gnralisations potentielles, et rduit la complexit calculatoire.
Les solutions 2 et 3 sont des compromis possibles entre les deux solutions extrmes 1
et 4. Cependant, elles sont plus arbitraires que les prcdentes, car il est difficile d'tablir
a priori une limite sur le nombre de relations en commun conduisant une gnralisation
acceptable. Cette limite pourrait tre tablie partir d'exprimentations sur divers
corpus, mais il semble trs peu probable qu'elle puisse tre fixe de manire gnrale.
Nous retrouvons ici le compromis entre la qualit des gnralisations, la complexit
du processus et la couverture des gnralisations: l'approche de classification conceptuelle
utilisant les treillis (section 2.4) ou les graphes conceptuels (section 2.5) consiste gnrer
tous les concepts possibles au dtriment de la complexit et de la qualit des gnralisa-
tions. Toutefois, l'objectif vis par Simon et Napoli [Simon 98] ou Bournaud [Bournaud 96]
permet de tolrer une hirarchie complexe, celle-ci tant explore et simplifie patiemment
par l'utilisateur. En effet, celui-ci tente de reprer des classifications intressantes en utili-
sant les mcanismes de simplifications de hirarchies proposs par les auteurs. Dans notre
cas, l'utilisateur ne doit pas passer du temps tester diverses configurations et diverses
hirarchies car il dsire accder au contenu de manire immdiate.
Dans la mesure o l'objectif est de faciliter l'accs du contenu informationnel du corpus,
il n'est pas souhaitable de surcharger l'utilisateur avec des tches annexes. Ce dernier doit
pouvoir profiter de l'organisation hirarchique sans avoir la modifier ou la simplifier. En
cela, nous sommes proche de l'objectif de Carpineto et Romano [Carpineto 96], qui g-
nrent une hirarchie de thmes pour la recherche d'information et ne peuvent demander
l'utilisateur de modifier la hirarchie. Cependant, leur travail utilise des expressions lin-
guistiques simples, limites des termes, c'est--dire des mots ou groupes de mots. Dans
notre cas, l'utilisation de structures prdicatives contribue une complexit accrue de l'in-
terprtation de la hirarchie. Pour cette raison, nous choisissons de limiter le nombre de
gnralisations qu'il est possible de gnrer, en adoptant la solution 4, c'est--dire en impo-
sant une correspondance exacte entre les relations des structures prdicatives pour qu'elles
puissent tre gnralises ensembles. Ce choix constitue notre deuxime heuristique, H2.
Illustrons ces propos par un exemple: considrons les sept structures prdicatives
DOSAGE-l, DOSAGE-2, ... , DOSAGE- 7 introduites prcdemment (la figure 4.7 reproduit la
hirarchie correspondante). Le choix que nous avons effectu nous conduit limiter les
gnralisations possibles. Ainsi, les concepts DOSAGE-l, DOSAGE-3, DOSAGE-4, DOSAGE-6 et
DOSAGE- 7 peuvent tre gnraliss ensemble car ils possdent le mme ensemble de rles,
{objet, moyen}. Indpendamment, les concepts DOSAGE-2 et DOSAGE-5 peuvent faire l'ob-
jet d'une gnralisation. Si un concept DOSAGE-8 possdant l'ensemble de rle {moyen}
tait galement considr, il ne pourrait tre gnralis avec les autres concepts. Dans la
pratique, une telle varit des ensembles de rles est peu souhaitable, car elle contribue
la difficult de l'interprtation de la hirarchie. Nous faisons l'hypothse que les ensembles
de rles sont relativement homognes pour un prdicat donn.
65
Chapitre 4. Notre mthode de gnralisation de structures prdicatives
DOSAGE1
DOSAGE
objet ,
DOSAGE3
DOSAGE
objet, CHOLINE
moyen, CLHP
DOSAGE4
DOSAGE
DOSAGE-6
DOSAGE
obj et , AMINE BIOGENE
moyen, CHROMATOGRAPHIE
EN PHASE GAZEUSE
DOSAGE-5
DOSAGE
objet, SPERMlNE
objet, SPERMIDINE
moyen, CHROMATOGRAPHIE
DOSAGE?
DOSAGE
objet, SPERMINE
moyen, CLHP
--.. relation de subsomption DOSAGE1 concept dfini
DOSAGE concept primitif
FIG. 4.7 - Hirarchie de sept structures prdicatives DOSA GE -1, . .. , DOSA GE - 7 en CLASSIC
Conclusion
Nous avons nonc les principes et heuristiques suivantes pour la gnralisation des
structures prdicatives:
- les structures prdicatives sont regroupes selon leur proximit smantique, don-
ne par l'ordre dfini par la hirarchie conceptuelle,
- la gnralisation est dcompose en deux tapes, la premire permettant une gn-
ralisation selon la tte prdicative, et la deuxime permettant la mise en commun de
l'ensemble des structures prdicatives (heuristique 1I.I),
- les structures prdicatives regroupes pour conduire une gnralisation doivent
possder le mme ensemble de rles (heuristique 11.2)'
Nous prsentons en dtail les deux tapes du processus de gnralisation dans les deux
section suivantes.
4.4 Premire tape de la gnralisation prdicat par prdi-
cat
Dans cette section, nous considrons un ensemble SP de n structures prdicatives
possdant toutes la mme tte prdicative. L'objectif est de calculer des gnralisations de
ces structures l'aide de l'opration de calcul de PPSC. Nous prsentons tout d'abord de
manire informelle chaque tape du processus, suivi de l'algorithme correspondant, puis
de son application sur un exemple. L'exemple utilis tout au long de cette section est
l'ensemble de structures prdicatives DOSAGE- l, DOSAGE-2, . .. , DOSAGE- 7, dj introduit
au chapitre prcdent (cf. page 48 et suivantes).
66
4.4. Premire tape de la gnralisation: prdicat par prdicat
Dans un premier temps, les structures prdicatives sont spars en plusieurs sous-
ensembles, selon les rles qu'elles possdent, pour respecter l'heuristique 1{2 prsent pr-
cdemment (section 4.3.3). Ainsi, il peut y avoir un sous-ensemble de structures prdica-
tives possdant l'ensemble de rles {objet , moyen} , un autre possdant l'ensemble de rles
{obj et}, et ainsi de suite. Pour chacun des sous-ensembles, nous calculons la gnralisation
de toutes les structures prdicatives le composant, obtenant ainsi la structure prdicative
la plus gnrale possible pour le sous-ensemble. Elle est calcule en premier car elle est
utilise par la suite pour fixer une borne suprieure (au sens de la relation de subsomp-
tion) aux arguments des structures prdicatives. Ce premier traitement est effectu par la
fonction DECOMPOSER-PREDICAT donne par l'algorithme 7. Dans notre exemple, la
Algorithme 7 Traitement des structures prdicatives possdant le prdicat p
DECOMPOSER-PREDICAT(p, LSP)
- p: concept reprsentant un prdicat
- LSP: liste de concepts reprsentant des structures prdicatives
TRoles f- nil ;; TRole est une table
pour chaque structure prdicative SPi de LSP faire
ER f- LISTE-ROLES(spd
TRoles(ER) f- TRoles(ER) U SPi
fin pour
pour chaque ensemble de rles ERi de TRoles faire
si TAILLE(TRoles(ERd) > 1 alors
g f- PPSC(Table(ERd) ;; Table(ER) =(SP1, SP2, ... , sPn)
introduire g en CLASSIC et le marquer comme gnralisation
GENERALISER-ENSEMBLE-DE-ROLES(g, TRoles(ER))
fin si
fin pour
table T RoZ es possde deux entres : l'ensemble de rles {objet, moyen} et l'ensemble de
rles {objet}. Ainsi deux sous-ensembles sont cres, SP
1
et SP
2
:
pour l'ensemble {objet, moyen}
--+ SP
1
: {DOSAGE-l, DOSAGE- 3, DOSAGE-4, DOSAGE- 6, DOSAGE- 7}
pour l'ensemble {objet}
--+ SP2 : {DOSAGE-2, DOSAGE-5}
Une gnralisation est calcule sur chaque sous-ensemble:
pour SP
1
: PPSC( {DOSAGE- l , DOSAGE-3, DOSAGE-4, DOSAGE- 6, DOSAGE-7}) --+
Gl - DOSAGE = (and DOSAGE
(aIl objet AMINE)
(aIl moyen CHROMATOGRAPHIE
pour SP
2
: PPSC( {DOSAGE-2, DOSAGE-5}) --+
G2-DOSAGE = (and DOSAGE
(aIl objet AMINE_BIOGENE)
67
Chapitre 4. Notre mthode de gnralisation de structures prdicatives
Ces gnralisations permettent de fixer une borne suprieure aux arguments : par
exemple, pour toutes les structures prdicatives de SPI, les arguments lis au rle ob-
jet seront plus spcifiques que le concept AMINE. Cette information est utilise par la suite
pour restreindre la recherche des subsumants des arguments lors de leur gnralisation.
L'tape suivante consiste trouver pour chaque sous-ensemble SPi des gnralisations
plus spcifiques, intermdiaires entre les structures prdicatives initiales et la gnralisation
calcule sur le sous-ensemble complet.
Pour chaque sous-ensemble SPi, les structures prdicatives diffrent uniquement par
les arguments associs chaque rle. Comme nous l'avons expliqu la section prcdente,
l'ordre partiel sur les concepts permet de regrouper les structures prdicatives selon la
gnralit de leurs arguments. Toutefois, dans le cas o plusieurs rles sont en jeu, deux
attitudes sont possibles:
- considrer chaque rle indpendamment,
- considrer les rles ensembles, selon une heuristique permettant de simuler un ordre
de gnralit.
Considrons par exemple, deux structures prdicatives SPI et SP2 possdant les rles sui-
vants :
SPI: (all obj et SEROTONINE) (all moyen CHROMATOGRAPHIE)
SP2 : (all objet AMINE) (all moyen CLHP)
Si l'on considre les rles sparment, il est facile d'ordonner les structures prdicatives se-
lon la gnralit de leur argument pour un rle donn. Ainsi , comme l'argument SEROTONINE
est plus spcifique que l'argument AMINE, la structure prdicative SPI possdant l'argument
SEROTONINE est considre comme plus spcifique que la structure prdicative SP2 pour le
rle objet . Par contre, les considrer ensemble ncessite de dfinir une combinaison de la
gnralit des arguments, qui ne peut tre qu'approximative: dans l'exemple, les argu-
ments t ant inversement ordonns selon le rle choisi, deux mthodes diffrentes peuvent
aboutir deux solutions diffrentes. En effet, SPI est plus spcifique que SP2 pour le rle
objet et plus gnrale que SP2 pour le rle moyen.
Nous prfrons donc choisir la premire solut ion, qui s'avre plus exhaustive et repose sur
une opration logique, la subsomption. Bien sr, ce choix a un cot en terme de calculs,
puisque traiter chaque rle sparment multiplie le nombre d'oprations par le nombre de
rles possd par chaque structure prdicative. Toutefois, en pratique, ce nombre reste pe-
t it, puisqu'il dpasse rarement quatre, les structures prdicatives ayant gnralement deux
trois arguments.
Pour mettre en oeuvre la gnralisation des structures prdicatives intermdiaires, nous
traitons chaque rle sparment, et calculons la liste des concepts qui sont des restrictions
du rle. Cette liste est utilise ensuite pour regrouper les structures prdicatives et les
gnraliser selon la spcificit des restrictions. L'algorithme 8 (fonction GENERALISER-
ENSEMBLE-DE-ROLES) dtaille ce traitement. Sur notre exemple, considrons le sous-
ensemble de structures prdicatives SPI. Il y a deux rles traiter, objet et moyen. Les
listes de restrictions respectives sont :
68
LRESTobjet = {AMINE_BI OGENE, CHOLINE, HISTAMINE, SPERMIDINE, SPERMINE}
LRESTmoyen = {CLHP, CHROMATOGRAPHIE, CHROMATOGRAPHIE_EN_PHASE_GAZEUSE}
4.4. Premire tape de la gnralisation " prdicat par prdicat
Algorithme 8 Traitement des structures prdicatives possdant le mme ensemble de
rles
GENERALISER-ENSEMBLE-DE-ROLES(c, LSP)
- c: concept reprsentant une structure prdicative
- LSP : liste de concepts reprsentant des structures prdicatives
LRc +-- LISTE-ROLES(c)
pour chaque role r de LRc faire
LREST +-- 0, Assoc +-- ; ; Assoc est une table associant une structure prdicative
sa restriction sur le rle considr
pour chaque structure prdicative SPi de LSP faire
resti +-- RESTRICTION-ALL(sPi, r)
LREST +-- LREST U resti
Assoc( resti) +-- Assoc( resti) U SPi
fin pour
PARCOURIR(RESTRICTION-ALL(c, r), LREST)
fin pour
La table Assoc est utilise pour retrouver par la suite la structure prdicative correspondant
une restriction. Par exemple, pour le rle moyen, la valeur de Assoc(CLHP) est {DOSAGE-i,
DOSAGE-3, DOSAGE-7}. Les listes de restrictions LREST sont considres comme des en-
sembles, par consquent les restrictions redondantes sont supprimes.
A partir de la hirarchie des concepts, nous construisons une sous-hirarchie limite
aux concepts contenus dans la liste des restrictions et leurs ascendants dans la hirarchie
des concepts (algorithme 9) . Cette sous-hirarchie est reprsente par un graphe orient
distinct du graphe reprsentant la hirarchies des concepts. Le parcours rcursif descendant
du graphe construit permet ensuite de calculer progressivement les gnralisations lors de
la remonte (algorithmes 10 et 11) .
Algorithme 9 Construction du graphe orient partir d'une liste de restrictions et de
leur ascendants
PARCOURIR(ctop, LC)
- ctop: concept reprsentant la restriction maximale sur un rle
- LC : liste de concepts reprsentant les arguments des relations
pour chaque concept Ci de LC faire
LASc(Ci) +-- liste des ascendants de Ci plus spcifiques que ctop
fin pour
LDESC +-- liste inverse de LASC
DEBUT -PARC 0 URS (ctop)
Dans l'algorithme 9, les tables LA SC et LDESC sont les structures de donnes permet-
tant de reprsenter le graphe. Ce sont des listes d'adjacence particulires: LASC contient
la liste de tous les ascendants de chaque restriction qui sont plus spcifiques que ctap;
LDESC est la liste inverse, et associe chaque concept ayant un descendant son ou ses
descendants immdiats. Ainsi, les concepts indexs par LASC concident avec les concepts
69
Chapitre 4. Notre mthode de gnralisation de structures prdicatives
qui sont des restrictions. Et les concepts indexs par LDESC concident avec les concepts
intermdiaires entre la borne suprieure (ctop , gale la restriction de la gnralisation
maximale calcule sur le sous-ensemble trait) et les concepts restrictions (les concepts
intermdiaires pouvant galement tre des concepts restrictions).
Pour illustrer ces propos, nous donnons, sur la figure 4.8, le graphe calcul pour le traite-
ment du rle objet pour le sous-ensemble SPI . Dans ce cas, le concept ct op des algorithmes
9 et 10 est le concept AMINE, qui reprsente la borne suprieure pour les restrictions. Les
listes LASC et LDESC sont les suivantes:
LASC
SPERMIDINE : (POLYAMINE AMINE)
SPERMINE : (POLYAMINE AMINE) (AMINE_BI OGENE AMINE)
CHOLINE: (AMINE_BI OGENE AMINE)
CHOLINE: (AMINE_BI OGENE AMINE)
LDESC
AMINE: (POLYAMINE AMINE_BIOGENE)
POLYAMINE: (SPERMINE, SPERMIDINE)
AMINE_BIOGENE: (SPERMINE, CHOLINE, HISTAMINE)
En pratique, ctop (ici AMINE) est retir de LASC puisqu'il apparat dans chaque entre.
SPERMIDINE
AMINE
AMINE BIOGENE
- relation de subsomption
AMINE concept ayant une entree dans Lasc
c==J concept ayant une entree dans Ldesc
FIG. 4.8 - Le graphe correspondant aux restrictions du rle objet pour le sous-ensemble
SPI
Le graphe construit partir des restrictions et de leurs ascendants permet de regrouper
les restrictions selon leur spcificits, et d'en dduire des gnralisations par application de
l'opration de ppsc sur les structures prdicatives associes aux restrictions.
Le parcours du graphe est effectu partir de la borne suprieure des restrictions (algo-
rithme 10). La fonction PARCOURIR-NOEUD (algorithme 11) traite les diffrents noeuds
70
4.4. Premire tape de la gnralisation.' prdicat par prdicat
du graphe.
Dans l'algorithme 11, les lignes 2 14 traitent le cas o le concept courant fait partie de
la liste des restrictions. Dans ce cas, si le concept courant ne possde pas de descendant
immdiat, il suffit de retourner la structure prdicative associe, ou le cas chant la gn-
ralisation des structures prdicatives associes (fonction SP-ASSOCIEES).
S'il possde des descendants immdiats, alors chaque enfant est parcouru (ligne 7-9), et
l'ensemble constitu du rsultat de chaque enfant augment des structures prdicatives du
concept courant (ligne 10) est gnralis (lignes 11-12).
Les lignes 15 32 considrent le cas o le concept courant ne fait pas partie de la liste
des restrictions. C'est donc un anctre d'une ou plusieurs restrictions.
S'il ne possde qu'un descendant immdiat, il suffit de traiter directement ce dernier, car
le concept courant n'est qu'un concept intermdiaire sans intrt (lignes 17-18) .
Par contre, s'il possde plusieurs descendants immdiats, alors il constitue le PPSC d'un
groupe de restrictions: chaque enfant est parcouru (lignes 21-23) et le rsultat stock dans
la liste Lvalide.
L'ensemble constitu par Lvalide est ensuite gnralis (lignes 25-26), sauf si Lvalide est
limit un lment auquel cas on retrouve directement la structure prdicative correspon-
dante (ligne 29). Ceci est rendu possible par le fait que deux enfants du concept courant
peuvent retourner le mme lment dans Lvalide.
Algorithme 10 Initialisation du parcours
DEBUT-PARCOURS (ctop)
- ctop: concept reprsentant la restriction maximale sur un rle
LTOP = LDESc(ctop)
Lvalide = nil
pour chaque Ci de LTOP faire
Lvalide t--- Lvalide U PARCOURIR-NOEUD(Ci)
fin pour
L'algorithme 12 (fonction SP-ASSOCIEES) montre comment sont recupres la ou les
structures prdicatives associes une restriction.
Dans le cas o une seule structure prdicative correspond une restriction, elle est sim-
plement retourne.
Dans le cas contraire, nous calculons la gnralisation sur l'ensemble des structures prdi-
catives concernes et retournons cette gnralisation.
Une alternative peut consister appeler rcursivement l'algorithme de parcours, afin de
distinguer des gnralisations plus fines. En effet, si plusieurs structures prdicatives pos-
sdent la mme restriction, elles sont gnralises ensemble, sans distinguer des ensembles
plus fins. Toutefois, cela est en partie compens par le traitement des autres rles. D'autre
part, nous prfrons limiter le nombre de gnralisation produites.
Dans notre exemple, pour le sous-ensemble de structures prdicatives SPI et le rle
objet, la fonction DEBUT-PARCOURS est appele avec le paramtre ct op = AMINE. Nous
avons donc (cf. figure 4.8) :
LTOP = {AMINE_BIOGENE, POLYAMINE}
Chaque lment de LTOP est examin par la fonction PARCOURIR-NOEUD. Pour le
71
Chapitre 4. Notre mthode de gnralisation de structures prdicatives
Algorithme 11 Traitement d'un noeud du graphe des restrictions
PARCOURIR-NOEUD(c)
- c: concept
1: si L ASc( c) i- nil alors
2: si LDESc(C) = nil alors
3: retourne SP-ASSOCIEES(c)
4: sinon
5: LC +- LDESc(C)
6: Lvalide +- nil
7: pour chaque concept Ci de LC faire
8: Lvalide +- Lvalide U PARCOURIR-NOEUD(ci)
9: fin pour
10: Lvalide +- Lvalide U SP-ASSOCIEE(c)
11: g +- PPSC(Lvalide)
12: introduire g en CLASSIC et le marquer comme gnralisation
13: retourne g
14: fin si
15: sinon
16: LC +- LDESc(C)
17: si TAILLE(LDEsc) = 1 alors
18: retourne PARCOURIR-NOEUD(PREMIER(LC))
19: sinon
20: Lvalide +- nil
21: pour chaque concept Ci de LC faire
22: Lvalide +- Lvalide U PARCOURIR-NOEUD(Ci)
23: fin pour
24: si TAILLE(Lvalide) > 1 alors
25: g +- PPSC(Lvalide)
26: introduire g en CLASSIC et le marquer comme gnralisation
27: retourne g
28: sinon
29: retourne SP-ASSOCIEES(PREMIER(Lvalide))
30: fin si
31: fin si
32: fin si
72
4.4. Premire tape de la gnralisation : prdicat par prdicat
Algorithme 12 recherche des structures prdicatives associes une restriction
SP-ASSOCIEES(c)
- c: concept reprsentant une restriction
LC +- Assoc(c)
si TAILLE(LC) = 1 alors
retourne PREMIER(LC)
sinon
g +- PPSC(LC)
introduire g en CLASSIC et le marquer comme gnralisation
retourne g
fin si
concept AMINE_BIOGENE, nous somme dans le cas o le concept appartient la fois LASC
et LDESC car c'est une restriction qui possde des descendants (lignes 5-14).
Chacun des descendants est son tour parcouru par PARCOURIR-NOEUD. Les trois
concepts correspondants, CHOLINE, HISTAMINE et SPERMINE sont des restrictions sans des-
cendants, et correspondent donc au cas o le concept appartient LASC mais non LDESC
(ligne 3).
L'appel la fonction SP-ASSOCIEES retourne chaque fois une structure prdicative ini-
tiale, puisque chaque restriction ne correspond qu' une seule structure prdicative. Il en
rsulte que les valeurs retournes sont successivement: DOSAGE-3, DOSAGE-i et DOSAGE- 7.
Nous avons donc :
Lvalide = {DOSAGE-3, DOSAGE-i, DOSAGE-7, DOSAGE-6},
suite l'ajout de DOSAGE-6 (ligne 10).
La premire gnralisation calcule est le PPSC de Lvalide (lignes 11-12) :
G2-DOSAGE = (and DOSAGE
(all objet AMINE_BIOGENE)
(all moyen CHROMATOGRAPHIE))
Ce traitement permet ainsi de gnraliser les structures prdicatives ayant des restric-
t ions de mme niveau hirarchique (CHOLINE, HISTAMINE et SPERMINE), ou d'un niveau
hirarchique immdiatement suprieur, puisque celui-ci est gal au PPsc de ces restric-
tions (ici AMINE_BIOGENE). Rappelons que ce traitement est celui du rle objet: d'autres
regroupements plus fins seront effectus pour le traitement du rle moyen.
Il reste parcourir le deuxime lment de LTOP, POLYAMINE. Nous sommes dans
le cas o le concept appartient L DESC mais non L ASC. Le concept POLYAMINE pos-
sde deux descendant dans le graphe, le traitement est donc similaire celui du concept
AMINE_BIOGENE, la diffrence prs que seuls les descendants renvoient des structures
prdicatives, et qu'il n'y a donc aucune structure prdicative associe POLYAMINE (cas
des lignes 20-27). Nous avons donc:
Lvalide = {DOSAGE-4, DOSAGE- 7}
La gnralisation calcule est le PPSC de Lvalide (lignes 25-26) soit:
G3-DOSAGE = (and DOSAGE
73
Chapitre 4. Notre mthode de gnralisation de structures prdicatives
(all objet POLYAMINE)
(all moyen CHROMATOGRAPHIE))
Le parcours prend fin avec cette dernire gnralisation pour le rle objet.
Le mme processus est appliqu sur le sous-ensemble SP
1
avec le rle moyen. Le sous-
graphe correspondant aux restrictions est reproduit figure 4.9. Nous avons alors ctap =
1
CHROMATOGRAPHIE
1


[ CHROMATOGRAPHIE EN PHASE GAZEUSE [
-
relation de subsomption
CHROMATOGRAPHIE concept ayant une entree dans Lasc

concept ayant une entree dans Ldesc
FIG. 4.9 - Le graphe correspondant aux restrictions du r6le moyen pour le sous-ensemble
SP
1
CHROMATOGRAPHIE et
LTOP = {CLHP, CHROMATOGRAPHIE_EN_PHASE_GAZEUSE}
L'application de PARCOURIR-NOEUD sur CLHP conduit la gnralisation des trois
structures prdicatives associes CLHP, {DOSAGE-l, DOSAGE-3, DOSAGE- 7} (ligne 3)
Gl-DOSAGE (and DOSAGE
(all objet AMINE_BIOGENE)
(all moyen CLHP))
Le parcours de CHROMATOGRAPHIE_EN_PHASE_GAZEUSE retourne simplement la seule
structure prdicative associe DOSAGE-6. Le parcours est alors fini . En effet, les valeurs
retournes par le parcours des concepts de LTOP ne sont pas exploites car elles condui-
raient recalculer la gnralisation sur l'ensemble SP
1
.
Pour le sous-ensemble de structures prdicatives SP
2
, il n'y a que deux structures
prdicatives, et la seule gnralisation possible a dj t calcule (G2-DOSAGE) . Aucun
traitement n'est ncessaire.
Conclusion
L'ensemble des gnralisations calcules sur les sept structures prdicatives DOSAGE-
1, ... , DOSAGE-7 est rsum par le tableau 4.1 accompagn des structures prdicatives
ayant contribues leur calcul. La hirarchie obtenue aprs la gnralisation est illustre
par la figure 4.10.
La premire tape de la gnralisation nous permet ainsi d'obtenir des structures pr-
dicatives, regroupant les structures prdicatives initialement fournies, en se basant sur la
74
4.4. Premire tape de la gnralisation.' prdicat par prdicat
DOSAGE
G5-DOSAGE G4 DOSAGE
DOSAGE DOSAGE
obj et: AMINE BIOGENE obj et: AMINE
~ ~ ~ H ~ H I E
DOSAGE2 DOSAGE-5 G2-DOSAGE G3-DOSAGE
DOSAGE
objet, SEROTONINE
DOSAGE DOSAGE
objet , SPERMINE objet, AMINE BIOGENE
moyen: CHROMATOGRAPHIE
DOSAGE-6 GlDOSAGE
DOSAGE DOSAGE
objet : AMINE BIOGENE
moyen : CHROMATOGRAPHIE moyen : CLHP
DOSAGE-4
DOSAGE
~ ~ ~
objet , SPERMIDINE
moyen: CHROt-1ATOGRAPHIE
DOSAGE-1
DOSAGE
objet, HISTAMINE
moyen: CLHP
~ relation de subsomption DOSAGE-1 concept dfini
Gl-DOSAGE
DOSAGE conccpt primitif
DOSAGE-7
DOSAGE
obj et: SPERMINE
moyen: CLHP
concept d6fmi marqu
comme gnralisation
FIG. 4.10 - Hirarchie en CLASSIC aprs la premire tape de gnralisation
gnralit de leur arguments. Le concept Gl-DOSAGE regroupe ainsi trois structures parta-
geant le mme moyen. Le concept G2-DOSAGE possde un niveau de gnralit suprieur,
et oppose la structure DOSAGE-6 aux trois structures susdites par le moyen utilis. La
structure prdicative calcule la plus gnrale, G4-DOSAGE, constitue une bonne synthse
de l'information vhicule par cinq structures (DOSAGE-l, 3, 4,6,7).
La prsence de deux ensembles de rles distincts, {objet, moyen} et {obj et}, contribue la
distinction de deux points de vue sur les donnes, l'un tant plus spcifique que l'autre car
plus prcis. On observera que le nombre de gnralisation (cinq) est assez lev par rapport
au nombre de structures prdicatives initiales. Nous pensons donc que les choix effectus
pour simplifier le processus, diffrents endroits, sont justifis: un traitement purement
logique gnre trop de donnes pour tre exploitable.
Le traitement propos repose toutefois sur des oprations logiques : la subsomption
et le calcul du PPsc. La hirarchie obtenue est facilement interprtable: la position de
tel ou tel concept est indiscutable car elle dcoule de la subsomption entre les descrip-
tions des concepts. Contrairement aux approches statistiques, on ne s'interroge pas sur
les paramtres qui ont permis d'aboutir telle ou telle hirarchie de concepts. Le proces-
sus n'est cependant pas exhaustif, puisqu'un grand nombre de gnralisations possibles ne
sont pas effectues: cela est indispensable pour ne pas obtenir un trop grand nombre de
gnralisations.
Cette premire tape permet de traiter sparement les ensembles de structures prdica-
tives, prdicat par prdicat. La section suivante expose le processus qui permet de mettre
en commun les structures prdicatives ayant des prdicats diffrents.
75
Chapitre 4. Notre mthode de gnralisation de structures prdicatives
Gnralisation Structures prdicatives sources
Gi-DOSAGE DOSAGE-i, DOSAGE-3, DOSAGE- 4, DOSAGE-6, DOSAGE-7
G2-DOSAGE DOSAGE-i, DOSAGE-3, DOSAGE-6, DOSAGE-7
G3-DOSAGE DOSAGE-4, DOSAGE-7
G4-DOSAGE DOSAGE-i , DOSAGE-3, DOSAGE-7
G5-DOSAGE DOSAGE-2, DOSAGE-5
TAS. 4.1 - Gnralisations et structures prdicatives ayant contribues les gnrer, pour
les structures prdicatives DOSA GE -1, .. . , DOSA GE-7
4.5 Deuxime tape de la gnralisation mIse en commun
des prdicats
Dans cette section, nous considrons des ensembles P REDi de structures prdicatives
issus de la premire tape de la gnralisation, c'est--dire contenant dj des gnralisa-
tions, calcules selon la mthode prsente dans la section prcdente. L'objectif est de
calculer de nouvelles gnralisations qui mettent en commun les informations relatives
plusieurs prdicats, en se basant une fois de plus sur l'opration de calcul de PPSC. Comme
pour la premire tape, nous prsentons d'abord de manire informelle chaque tape du
processus, suivi de l'algorithme correspondant, puis de son application sur un exemple.
L'exemple considr ici sera constitu de deux ensembles de structures prdicatives P RED
1
et P RED
2
. L'ensemble P RED
1
comprend les structures prdicatives DOSAGE-i, DOSAGE-2,
... , DOSAGE- 7, compltes par les gnralisations calcules la premire tape. :
PRED
1
= {DOSAGE-i, DOSAGE-2, DOSAGE-3, DOSAGE-4, DOSAGE-5, DOSAGE-6,
DOSAGE-7, Gi-DOSAGE, G2-DOSAGE, G3-DOSAGE, G4-DOSAGE, G5-DOSAGE}
L'ensemble P RED
2
comprend un ensemble de structures prdicatives ayant la tte prdica-
tive IDENTIFICATION et leurs gnralisations issues de la premire tape, dont la description
textuelle en CLASSIC est la suivante:
IDENTIFICATION-i = (and IDENTIFICATION
(aIl objet SEROTONINE)
(aIl moyen CHROMATOGRAPHIE_SUR_GEL
IDENTIFICATION-2 (and IDENTIFICATION
(aIl objet HISTAMINE)
(aIl moyen CHROMATOGRAPHIE_EN_PHASE_GAZEUSE
IDENTIFICATION-3 (and IDENTIFICATION
(aIl objet SPERMIDINE)
(aIl moyen CLHP
Gi-IDENTIFICATION (and IDENTIFICATION
(aIl objet AMINE
(aIl moyen CHROMATOGRAPHIE
G2 - IDENTIFICATION (and IDENTIFICATION
(aIl objet AMINE_BIOGENE)
(aIl moyen CHROMATOGRAPHIE
La hirarchie correspondant PRE D
2
est reprsente sur la figure 4.11.
76
4.5. Deuxime tape de la gnralisation: mise en commun des prdicats
IDENTIFI CATION
r
G l-IDENTIFICA TION
[ IDENTIFICATION
objet: AMINE
moyen: CHROMATOGRAPHIE
/
----------
G2-IDENTIFICA TION
IDENTIFICATION-3
[IDENTIFICATION
[IDENTIFICATI ON J
objet: AMINE BIOGENE 1
objet: SPERMIDINE
moyen: CHROMATOGRAPHIE
moyen: CLHP

IDENTIFICATION-2 IDENTIFICATION-1
( IDENTIFICATION
IDENTIFICATION
objet: HISTAMINE objet: SEROTONINE
moyen: CHROMATOGRAPHIE EN PHASE GAZEUSE moyen: CHROMATOGRAPHIE SUR GEL
-
rel ation de subsomption DOSAGE-1 concept dfini
GI-DOSAGE
concept dfini marqu
( obj et, XYZ J description de concept
comme gnralisation
DOSAGE concept primitif moyen : ABC
FIG. 4.11 - Hirarchie de concepts possdant la tte prdicative identification
La deuxime tape de la gnralisation repose sur les deux principes suivant :
le regroupement des prdicats selon leur position hirarchique, en utilisant la mme
mthode que celle utilise pour les restrictions,
la slection des structures prdicatives les plus synthtiques dans chaque ensemble
P REDi, qui seules seront utilises pour le calcul de nouvelles gnralisations.
A ce stade, le regroupement des structures prdicatives repose donc sur les ttes prdi-
catives plutt que sur les arguments associs aux relations. En effet, les arguments ont
dj t exploits lors de la premire tape, et mis en commun travers les gnralisations
calcules. Il s'agit maintenant de remonter les informations dans la hirarchie, en re-
groupant prioritairement les structures prdicatives dont les prdicats sont proches dans
la hirarchie, de la mme faon que cela a t fait pour les arguments.
Mais il ne s'agit pas de prendre en compte, ce niveau, toutes les informations: c'est
pourquoi nous choisissons de slectionner, parmi chaque ensemble de structures prdicatives
ayant une tte prdicative donne, celles qui sont les plus gnrales. De cette faon ne
sont mises en commun que des informations synthtiques, un nombre rduit de structures
prdicatives qui reprsentent les informations principales vhicules par l'ensemble des
structures prdicatives extraites.
La premire phase consiste lister tous les prdicats qui apparaissent comme tte
prdicative dans une des structures prdicatives initiales. A partir de cette liste, nous
pouvons alors, comme nous l'avons fait pour les restrictions la premire tape, construire
un graphe orient partir de la hirarchie des concepts, et l' utiliser pour parcourir les
77
Chapitre 4. Notre mthode de gnralisation de structures prdicatives
prdicats du plus spcifique au plus gnral. L'algorithme 13 (fonction GENERALISER-
PREDICATS) correspond cette premire phase. La fonction PARCOURIR, qui permet
de construire le graphe, est quasiment identique celle utilise dans la premire tape
(algorithme 9, page 69). La seule diffrence est l'appel de la fonction DEBUT-PARCOURS-
2 la place de la fonction DEBUT-PARCOURS. La diffrence avec la premire tape se
situe en effet, comme nous allons le voir plus loin, dans l'exploitation du graphe de concepts
construit.
Algorithme 13 Traitement de l'ensemble des prdicats
GENERALISER-PREDICATS(b)
- b: boolen
LP = liste des concepts reprsentant les prdicats
PARCOURIR(TOP, LP) ,.,. TOP est l 'lment maximum de la hi rarchie des concepts
Dans notre exemple, les structures prdicatives sont limites aux deux ensembles P RED1
et P RED2, la liste des prdicats est donc gale :
LP = {DOSAGE, IDENTIFICATION}
Le sous-graphe correspondant est reprsent figure 4.12. Lors de la deuxime tape, le
paramtre ciap est toujours gal la racine de la hirarchie des concepts, le concept TOP,
car toutes les structures prdicatives sont susceptibles d'tre gnralises. En utilisant la
hirarchie de la figure 4.12, nous considrons l 'identification comme une faon particulire
de faire une observation et le dosage comme une faon particulire de faire une analyse.
78
1 TOP 1
t
EVENEMENT
t
ACTIVITE
~
OBSERVATION ANALYSE
~

1 IDENTIFICATION 1
- relat ion de subsomption
ETUDE concept appartenant a Lasc
C:=J concept appartenant a Ldesc
FIG. 4.12 - Hirarchie limite aux prdicats et leurs ascendants
4.5. Deuxime tape de la gnralisation: mise en commun des prdicats
Le parcours du graphe s'effectue partir de la racine, de manire descendante. L'algo-
rithme 14 (fonction DEBUT-PARCOURS-2) est de structure similaire celui utilis lors
de la premire tape. Une diffrence majeure est l'appel la fonction GENERALISE-IPG
(algorithme 16) , utilise pour slectionner les structures prdicatives les plus gnrales pour
calculer des gnralisations (nous la dcrivons page 82).
Dans notre exemple, nous avons LTOP = {EVENEMENT}.
Algorithme 14 canevas gnral du parcours
DEBUT-PARCOURS-20
LTOP = LDESc(Ctop)
Lvalide = nil
pour chaque Ci de LTOP faire faire
Lvalide +- Lvalide U PARCOURIR-NOEUD-2(Ci)
fin pour
si TAILLE(Lvalide) > 1 alors
GENERALISE-IPG(Lvalide)
fin si
Le parcours du graphe est dtaill par l'algorithme 15 (fonction PARCOURIR-NOEUD-
2).
Les lignes 2 16 traitent le cas o le concept courant fait partie de la liste des prdicats.
Dans ce cas, si le concept courant ne possde pas de descendant immdiat, il n'y a aucune
gnralisation calculer, et le concept courant est retourn.
S' il possde des descendants, alors chaque enfant est parcouru (ligne 9-11), et le rsultat
retourn est ajout une liste.
Si cette liste n'est finalement pas limite un seul lment, une gnralisation est calcule
sur les structures prdicatives les plus gnrales associes aux prdicats de la liste, en
appelant la fonction GENERALISE-IPG. On peut noter que le concept courant n'est pas
ajout cette liste: seuls ses descendants immdiats sont considrs pour la gnralisation.
La prise en compte du concept courant n'est ralise, le cas chant, qu'au niveau de son
ascendant direct . Cela contraste avec le traitement effectu lors de la premire tape: il
s'agit ici de remonter les informations un niveau suprieur, sans intgrer directement
ce dernier.
Les lignes 17 35 considrent le cas o le concept courant ne fait pas partie de la liste
des prdicats. C'est donc un parent d'un ou de plusieurs prdicats.
S' il ne possde qu'un descendant immdiat, il suffit de traiter directement ce dernier, car
alors le concept courant n'est qu'un concept intermdiaire sans intrt (lignes 19-21).
S'il possde plusieurs enfants, il correspond au PPsc d'un groupe de prdicats : chaque
descendant est parcouru (lignes 25-27) et le rsultat stock dans la liste Lvalide. La fonction
GENERALISE-IPG permet d'effectuer les gnralisations correspondantes.
La fonction GENERALISE-IPG est donne par l'algorithme 16. Cette fonction permet,
partir d'une liste de prdicats, de slectionner les structures prdicatives les plus gn-
rales, et d' en calculer des gnralisations. Pour cela, nous dfinissons pour un prdicat p,
79
Chapitre 4. Notre mthode de gnralisation de structures prdicatives
Algorithme 15 Traitement d'un noeud du graphe des prdicats
PARCOURIR-NOEUD-2(c)
- c: concept
1: si LASc(C) 1= nil alors
2: si LDESc(C) = nil alors
3: ;; cas o il n 'y a plus de descendants
4: retourne c
5: sinon
6: ;; cas o il y a des descendants
7: LC +- LDESc(C)
8: Lvalide +- nil
9:
10:
pour chaque concept Ci de LC faire faire
Lvalide +- Lvalide U PARCOURIR-NOEUD-2(Ci )
11: fin pour
12: si taille (Lvalide ) > 1 alors
13: GENERALISE-IPG(Lvalide)
14: retourne c
15: fin si
16: fin si
17: sinon
18: LC +- LDESc(C)
19: si taille(LC) = 1 alors
20: ;; lment intermdiaire inutile
21: retourne PARCOURIR-NOEUD-2(PREMIER(LDEsc) )
22: sinon
23: ;; PPSC donc prise en compte
24: Lvalide +- nil
25:
26:
pour chaque concept Ci de LC faire faire
Lvalide +- Lvalide U PARCOURIR-NOEUD-2(Ci )
27: fin pour
28: si TAILLE(Lvalide) > 1 alors
29: GENERALISE-IPG(Lvalide)
30: retourne c
31: sinon
32: retourne PREMIER(Lvalide)
33: fin si
34: fin si
35: fin si
80
; ; S2 nouveau
; ; S2 nouveau
4.5. Deuxime tape de la gnralisation.' mise en commun des prdicats
l'ensemble des informations les plus gnrales (IPG) :
tant donn un prdicat p , IPG(p) est l'ensemble des structures prdicatives
directement subsumes par p.
Ce choix pour slectionner les structures prdicatives repose sur plusieurs considrations :
- les structures prdicatives les plus gnrales sont par dfinition celles qui synthtisent
le plus d'informations,
- la slection est trs simple raliser,
- le nombre de structures prdicatives slectionnes est rduit.
Une alternative possible consiste dfinir un critre plus fin de pertinence et de gnralit
pour les structures prdicatives slectionner. La figure 4.13 illustre par exemple un cas o
les structures sont ingalement distribues: le concept SP-2 est qualitativement beaucoup
plus important que le concept SP-3 puisqu'il synthtise toutes les structures prdicatives
correspondant au prdicat p sauf une. Dans ce cas, nous avons
IPG(p) = { SP-1 }
La slection de la structure SP- 2 peut cependant s'avrer plus pertinente que celle de SP-1,
par exemple, s'il existe une diffrence importante de gnralit entre les deux concepts. En
effet, une structure prdicative trop gnrale fournit peu d'information, et dans ce cas SP-2
couvre une majeure partie de l'information, puisqu'elle subsume toutes les structures
l'exception de SP-3.
Il peut alors tre tentant de dfinir une heuristique qui permettent de slectionner des
structures moins gnrales et plus informatives. Toutefois, nous n'avons pas retenu cette
solution car elle ncessite d'utiliser des critres numriques pour estimer la couverture d'une
structure prdicative (seuil, pourcentage, ... ), qui sont gnralement artificiels et difficiles
tablir.
p
p prdicat
SP-l SP-l structure prdicative
/,
SP-3 SP-2
/"-
SP-4 SP-5
/\
SP-6 SP-7 SP-8 SP-9
FIG. 4.13 - Un exemple de distribution non uniforme de structures prdicatives
Aprs la slection des structures prdicatives pour deux ou plusieurs prdicats, celles-ci
sont tries selon leur ensemble de rles afin de respecter l'heuristique 1i2 (lignes 4-7 de l'al-
gorithme 16) . La gnralisation est ralise directement sur chaque ensemble de structures
prdicatives ainsi obtenues par application de l'oprateur ppsc (lignes 9-15). Il est possible
d'adopter un traitement plus complet, en appliquant sur ces ensembles le processus de
81
Chapitre 4. Notre mthode de gnralisation de structures prdicatives
l'tape numro un, c' est--dire en tenant compte de la spcificit des arguments des diff-
rentes structures prdicatives. Toutefois, l'objectif de cette tape est d'obtenir un nombre
rduit de structures prdicatives assez gnrales, s'appuyant sur celles dj calcules lors de
la premire tape. Appliquer un processus trop fin conduirait ici gnrer des structures
prdicatives peu intressantes, ajoutant des niveaux hirarchiques supplmentaires inutiles
dans la hirarchie des concepts. Nous nous limitons donc au traitement basique indiqu.
Algorithme 16 Gnralisation des informations les plus gnrales d'une liste de prdicats
G ENERALISE-IPG (LP)
- LP : liste de concepts reprsentant des prdicats
1: TableSP +- nil ;; table contenant les struct. prd. indexes par liste de rles
2: pour chaque prdicat p de LP faire faire
3: l PG
p
+- ensemble des structures prdicatives directement subsumes par p
4: pour chaque concept c de l'ensemble IPG
p
faire faire
5: index +- LISTE-ROLES(c)
6: TableSP(index) +- TableSP(index) U c
7: fin pour
8: fin pour
9: pour chaque index de TableSP faire faire
10: LC +- TableSP(index)
11: si TAILLE(LC) > 1 alors
12: g +- PPSC(LC)
13: introduire g en CLASSIC et le marquer comme gnralisation
14: fin si
15: fin pour
L'application du processus de parcours notre exemple donne le rsultat suivant:
les concepts EVENEMENT et ACTIVITE sont parcourus sans aucun effet, puisqu'ils n'appar-
tiennent pas la liste des prdicats et ne possdent qu'un enfant (lignes 3-4). Le concept
ACTIVITE possde deux descendants: OBSERVATION et ANALYSE, qui sont tous deux des
concepts intermdiaires absents de la liste des prdicats, et dont le parcours renvoie res-
pectivement les concepts IDENTIFICATION et DOSAGE.
Nous avons donc Lvalide = {IDENTIFICATION, DOSAGE}.
La fonction GENERALISE-IPG s'applique sur Lvalide. On calcule pour chaque pr-
dicat p son ensemble l PG (p) :
IPG(IDENTIFICATION) = {Gl-IDENTIFICATION}
IPG(DOSAGE) = {G4-DOSAGE, G5 - DOSAGE}
La table TableSP est donne par:
82
TableSP( {objet, moyen} = {G4-DOSAGE, Gl-IDENTIFICATION}
TableSP( {objet} = {G5-DOSAGE}
4.5. Deuxime tape de la gnralisation: mise en commun des prdicats
Seul le premier index conduit une gnralisation, le deuxime tant rduit un lment .
Cette gnralisation est la suivante:
PPSC( {G4-DOSAGE, Gl-IDENTIFICATION}) --+
Gl-ACTIVITE = (and ACTIVITE
(aIl objet AMINE)
(aIl moyen CHROMATOGRAPHIE
Cette gnralisation est introduite dans la hirarchie de concepts, et le processus prend fin.
Conclusion
Nous illustrons le rsultat de cette deuxime tape du processus l'aide de trois sch-
mas : la figure 4.14 montre tout d'abord la hirarchie conceptuelle telle qu'elle se prsente
la fin de la premire tape du processus de gnralisation. La figure 4.15 montre la hi-
rarchie conceptuelle obtenue la fin de la deuxime tape du processus. Enfin la figure 4.16
montre une vue partielle de la hirarchie finale, o seules apparaissent les structures prdi-
catives, initiales et calcules. Sur chacune des ces figures, seules les structures prdicatives
les plus gnrales apparaissent, pour ne pas alourdir la prsentation.
ACTIVITE
~
ANALYSE OBSERVATION
/ ~
DOSAGE
----- ----
GS-DOSAGE G4-DOSAGE
DOSAGE-2
DOSAGE
objet , SEROTONINE
objet, AMINE BIOGENE
moyen: CHROMATOGRAPHIE
DOSAGE-5
DOSAGE
objet, SPERMINE
~ relation de subsomption DOSAGE-' concept dfini
DOSAGE concepl primitif
IDENTIFICATION
~
Gl-IDENTIFICATION
IDENTIFICATION
objet, AMINE
moyen: CHROMATOGRAPHIE
G2-IDENTIFICATION
IDENTIFICATION
objet, AMINE BIOGENE
moyen: CHROMATOGRAPHIE
IDENTIFICATION-3
IDENTIFICATION
objet, SPERMIDINE
moyen: CLHP
Gl-DOSAGE
concept dfini marqu
conuue gnralisation
FIG. 4.14 - Hirarchie des concepts avant la deuxime tape de la gnralisation
La premire figure (4.14) met en vidence les gnralisations issues de la premire tape,
limites un seul prdicat. La deuxime figure (4.15) montre les nouveaux liens mis en
place aprs l'introduction de la gnralisation Gl-ACTIVITE. Enfin, la figure 4.16 permet
une meilleure apprciation de la hirarchie: c'est celle qui est montre l'utilisateur (sans le
trait de sparation), car celui-ci ne s'intresse a priori qu'aux structures prdicatives. Ainsi
sont mis en vidences deux structures prdicatives G5-DOSAGE et Gl - ACTIVITE qui couvrent
83
Chapitre 4. Notre mthode de gnralisation de structures prdicatives
84
ACTIVITE
:---
GlACTIVITE
ANALYSE OBSERVATION
/
DOSAGE IDENTIFICATION

G5DOSAGE G4DOSAGE GlIDENTIFICATlON
DOSAGE IDENTIFICATION
objet : AMINE BIOGENE objet: AMINE objet: AMINE
/ _/yen ,
DOSAGE DOSAGE
DOSAGE2 objet, AMINE BIOGENE objet, POLYAMINE
DOSAGE moyen: CHROMATOGRAPHIE moyen: CHROMATOGRAPHIE
objet,
DOSAGE5
DOSAGE
objet , SPERMINE
-----. relation de subsomption DOSAGE1
DOSAGE concept primitif
G2-IDENTIFICATION
IDENTIFICATION
obj et , AMINE BIOGENE
moyen: CHROMATOGRAPHIE
IDENTIFICATION3
IDENTIFICATION
objet , SPERMIDINE
moyen: CLHP
concept dfini
description de concept
Gl DOSAGE
concept marqu
comme gnralisat ion
FIG. 4.15 - Hi rarchie des concepts aprs la deuxi me tape de la gnralisation
4.5. Deuxime tape de la gnralisation mise en commun des prdicats
GI ACfIVITE
/
G5-DOSAGE G4-DOSAGE GI -IDENTIFICATION
(
DOSAGE 1 DOSAGE IDENTIFICATION
objet: AMINE BIOGEl)E objet : AMINE objet: AMINE
/ .,/yen:
DOSAGE DOSAGE
DOSAGE-2 obj et: AMINE BIOGENE objet : POLYAMINE
DOSAGE moyen: CHROMATOGRAPHI E moyen: CHROMATOGRAPHIE
DOSAGE-5 G2-IDENTIFICATION
DOSAGE IDENTIFICATION
IDENTIFICATION-3
IDENTIFICATION
obj et : SEROTONINE 1
objet: SPERMINE objet: AMINE BIOGENE
moyen: CHROMATOGRAPHI E
objet: SPERMIDINE
relation de subsomption
DOSAGE concept primitif
DOSAGE-l concept dfini
description de concept
GIDOSAGE
moyen: CLHP
concept dfini marqu
comme gnralisation
FIG. 4.16 - Hirarchie des concepts o seules apparaissent les structures prdicatives
85
Chapitre 4. Notre mthode de gnralisation de structures prdicatives
ensemble la totalit des dix structures prdicatives initiales. La gnralisation G1-ACTIVITE
offre une synthse pertinente, comprhensible, d'un ensemble de huit structures prdica-
tives initiales. La gnralisation G5-DOSAGE est moins importante quantitativement , mais
offre une information plus prcise au niveau des termes employs. Cette double couverture
est schmatise sur la figure par la sparation en deux parties des diffrentes structures
prdicatives. Le processus de gnralisation permet ainsi de synthtiser les informations
extraites des textes en offrant un nombre rduit de structures prdicatives plus gnrales.
Nous nous intressons dans la section suivante la complexit calculatoire du processus
de gnralisation, avant de conclure sur les apports de notre mthode (section 4.7).
4.6 Complexit du processus de gnralisation
Un processus de gnralisation est, par nature, gourmand en temps de calcul. Il est donc
ncessaire de s'assurer que la complexit calculatoire du processus n'est pas un obstacle
insurmont able son utilisation. Nous donnons dans un premier temps une estimation de
la complexit thorique en temps de notre processus (section 4.6.1). Nous la compltons
par une valuation empirique sur des donnes de tailles variables afin d'estimer plus prag-
matiquement le temps ncessaire pour une utilisation relle du processus (section 4.6.2).
4.6.1 Complexit thorique
L'opration de base utilise par les algorithmes est l'opration de PPsc. Sa complexit
est en 8 (N) pour le traitement d'un ensemble de N concepts. En effet, soit n
r
le nombre
de rles maximum d'une structure prdicative, nn le nombre maximal de structures pr-
dicatives apparaissant dans une autre structure 36, Prof la profondeur maximale de la
hirarchie, l'algorithme procde au maximum (n
r
+ 1) x nn x Prof oprations pour
calculer la gnralisation de deux concepts. Nous supposons ici que le test de subsomp-
tion fourni par CLASSIC prend un temps constant, ce qui est vrifi pour des concepts peu
complexes, et vrifi en pratique. Les trois paramtres nn, n
r
, Prof peuvent tre borns
par un nombre fixe. nn et n
r
sont toujours infrieurs 10 en pratique. Prof est en fait
born car il dpend de la hirarchie des termes primitifs qui est fixe: seul les concepts
structures prdicatives sont ajouts la hirarchie. Pour N concepts, la complexit est de
(n
r
+ 1) x nn x Prof x N, soit 8(N). Cette opration est donc peu coteuse. C'est son
application sur de grand ensemble de structures prdicatives qui est problmatique.
La premire tape de la gnralisation est de complexit plus leve. Le traitement de
N structures prdicatives ayant le mme ensemble de rles s'applique sur n
r
rles. La liste
des restrictions et son inverse se calculent en 8 (N) . Dans le cas o la hirarchie est stricte,
la parcours du graphe des restrictions effectue au maximum N x Prof calculs de PPSC,
ce qui donne une complexit en 8(N). Cependant, la hirarchie utilise est a priori non
stricte. Le cot du parcours du graphe peut alors tre nettement plus lev: une structure
prdicative peut tre utilise plusieurs foi s pour le calcul du PPsc. La complexit dpend
alors fortement du taux de branchement (le nombre de descendants immdiats d'un noeud)
36. Lorsqu'une structure est imbrique dans une autre. Ce cas est illustr par les concepts SIMULATION-l
et SIMULATION-2 de la section 4.1, o nn = l. En pratique nn est toujours un petit nombre, et souvent
gal zro.
86
4.6. Complexit du processus de gnralisation
et du nombre moyen de parents d'un noeud. Un calcul fin de la complexit dans ce cas est
difficile. Pour les cas vraiment dfavorables, la complexit peut tre en 8(N
2
).
La deuxime tape est similaire la premire en terme de complexit, puisque les
algorithmes utiliss sont structurellement quivalents. La complexit se trouve donc situe
selon les structures hirarchiques utilises entre 8(N) et 8(N
2
) .
La complexit de notre processus est, en toute logique, comparable celle de la m-
thode COING prsente section 2.5.3. Elle n'est toutefois qu'indicative et dpend de divers
paramtres: nous avons dj remarqu l'importance de la structure hirarchique sur la
complexit du processus; cela s'ajoute le fait que notre calcul est galement dpendant
du nombre de prdicats utiliss et du nombre de structures prdicatives possdant un pr-
dicat donn. Nous proposons donc d'effectuer une valuation empirique de la complexit
de notre processus. Celle-ci est prsente dans la section suivante.
4.6.2 Evaluation empirique de la complexit
L'valuation empirique que nous avons effectue prend en compte les divers paramtres
qui peuvent influencer la complexit du processus. Pour construire une base de structures
prdicatives, nous avons utilis une hirarchie de termes drive d'un thsaurus utilis pour
notre application. Les dtails sur ce thsaurus sont donns dans le chapitre dcrivant notre
application (chapitre 6). Il suffit ce stade de savoir que l'on dispose d'un ensemble de
8000 termes environs, constituant une hirarchie de profondeur maximale P = 20. Parmi
ces termes, 450 environ sont utiliss comme prdicats. La hirarchie n'est pas stricte, et
reflte une utilisation relle puisque nous l'avons utilise pour notre exprimentation (i.e,
ce n'est pas une hirarchie artificielle). On compte 610 termes possdant deux parents et
30 termes possdant trois parents.
A partir de cette hirarchie, nous avons construit des bases de structures prdicatives
de tailles diffrentes. Dans toutes les bases, les structures prdicatives sont construites de
manire alatoire, en prenant un prdicat parmi les 450 disponibles et des arguments parmi
les 8000 termes. Lorsque nous faisons des tests avec des prdicats diffrents, nous vrifions
que le mme prdicat n'est pas choisi deux fois. Les structures prdicatives obtenues n'ont
bien entendu aucune signification. Elles sont a priori beaucoup plus htrognes que dans
un cas rel, puisque les arguments d'un mme prdicat peuvent tre trs loigns dans la
hirarchie. Les tests constituent donc des cas dfavorables par rapport une utilisation
normale .
Les paramtres que nous avons pris en compte pour cette valuation sont les suivants :
- le nombre de structures prdicatives ayant une tte prdicative donne, Nsp- Par
exemple, s'il y a trois structures prdicatives possdant le prdicat Pl, trois structures
possdant le prdicat P
2
, et ainsi de suite, alors N
sp
= 3,
- le nombre de ttes prdicatives diffrentes, N
tp
,
- le nombre de rles que possde chaque structure prdicative, N
r
.
Les deux premiers paramtres donnent le nombre total de structures prdicatives traites :
Ntotal = N sp X N tp .
Le comportement du processus de gnralisation tant trs li au nombre N
sp
, nous
avons tout d'abord test des bases de structures prdicatives avec un seul prdicat, soit
87
Chapitre 4. Notre mthode de gnralisation de structures prdicatives
N
tp
= 1, en faisant varier la valeur de N
sp
. Deux valeurs diffrentes de N
r
ont t utilises,
respectivement N
r
= 2 et N
r
= 4. Nous avons fait varier N
sp
pour des valeurs comprises
entre 5 et 2000. Les rsultats sont donns par le graphe 4.17 pour N
r
= 2 et N
r
= 4. Ce
I-+- nr=2 ---- nr=4 1
5500 -0)' ''''''.'''''_.''''''''''-'"'''''''''''' .,"'".,,,._'". ,,, "' ,".""" """.,,'", ,"'" "", ,"'".,,, ,"", '",,,, " """."'",. '"",."' . ... . ,,,,,,.,, "",,."'
5000
4500
4000
_ 3500
! 3000
t 2500 i
1- 2000
1
1500 1
1000
l..-... ;.;;J.;.l .... ... :: ...
o 200 400 600 800 1000 1200 1400 1600 1800 2000
Nsp
FIG. 4.17 - Temps de gnralisation en secondes en fonction de N
sp
pour N
tp
= 1 et deux
valeurs de N
r
: 2 et 4
premier test (figure 4.17) permet de confirmer les valeurs thoriques de complexit tablies
dans la section prcdente: le temps de calcul n'est pas linaire en fonction de N
sp
, mais
crot plus lentement que N;p'
Ce rsultat est comparable, voire lgrement suprieur, celui obtenu par Bournaud [Bour-
naud 96, p. 136] : le systme COING permet par exemple de calculer les gnralisations de
400 objets, possdant en moyenne 9 relations, en 14 minutes. Dans le cas de la figure 4.17,
notre processus traite environ 1100 structures prdicatives pour N
r
= 2, et 600 structures
pour N
r
= 4, en 14 minutes.
Ces chiffres ne sont bien sr qu'indicatifs: les hirarchies utilises sont diffrentes (Bour-
naud utilise un treillis de types de profondeur maximale gale 4), et les structures pr-
dicatives sont diffrentes des objets de Bournaud. Le systme COING semble toutefois
plus limit en mmoire, puisque Bournaud n'a pu l'excuter sur une base de 900 objets
(dpassement de mmoire de l'interprteur Lisp utilis) . Pour N
r
= 4, la limite de notre
processus a t atteinte pour 2000 structures prdicatives (pour la mme raison) .
Le deuxime point important tester est le comportement du processus avec un nombre
important de structures prdicatives, rparties entre plusieurs prdicats. Dans ce cas, nous
avons fait varier N
sp
en proportions moins grandes, entre 5 et 50. Le nombre N
tp
varie
quant lui entre 5 et 200. Nous avons utilis deux valeurs diffrentes de N
r
, respective-
ment N
r
= 2 et N
r
= 4. Les rsultats sont illustrs par les graphes 4.18 et 4.19 pour des
structures prdicatives possdants 2 rles et par les graphes 4.20 et 4.21 pour des structures
prdicatives possdants 4 rles.
Sur la figure 4.18, le temps de calcul est reprsent en fonction du nombre de prdicats
88
4.6. Complexit du processus de gnralisation
I-+- Nsp=10 -_ .. .. Nsp=20 -.- Nsp=30 -<>- NsP=51
350
300
250
/
u
200
41
.!!.
ln
Q.
E
150 41
1-
100
50
0
0 50 100 150 200 250
Ntp
FIG. 4.18 - Temps de gnralisation en secondes en fonction de N
tp
pour des valeurs de
N
sp
comprises entre 5 et 30, et N
r
= 2
diffrents utiliss (N
tp
). Pour les quatre valeurs diffrentes de N
sp
utilises, la progression
est linaire: ceci semble montrer que le principal cot de l'algorithme est fonction de N
sp
et non du nombre de prdicats utiliss.
La figure 4.19 reprsente le temps de calcul en fonction du nombre total de structures
prdicatives (Ntotal) . Nous constatons que pour un nombre Ntotal donn, les temps de cal-
cul pour diffrentes valeurs de N
sp
sont similaires. Ils ont cependant tendance augmenter
avec une valeur de N
sp
croissante.
Les temps de calculs sont sensiblement moins levs que dans le premier test o une valeur
de N
tp
= 1 est utilise. Cela s'explique par le fait que les valeurs de N
sp
sont beaucoup
moins grandes. Ce rsultat est trs intressant puisque nous sommes dans un cas plus
plausible que pour le premier test . Ainsi, notre processus traite 3000 structures prdi-
catives en moins de 300 secondes pour des valeurs de N
sp
gales 20 et 30.
37
Les figures 4.20 et 4.21 appellent globalement les mmes commentaires que les deux
prcdentes, seule la valeur de N
r
tant modifie (N
r
= 4). Nous constatons toutefois
que les temps de calcul sont lgrement suprieurs au double des valeurs constates pour
N
r
= 2, ce qui indiquerait une progression non linraire. Par exemple, il faut environ 150
secondes pour traiter 1500 structures prdicatives avec N
sp
= 30 et N
r
= 2 contre un peu
moins de 350 secondes pour traiter 1500 structures prdicatives avec N
sp
= 30 et N
r
= 4.
Cependant la valeur N
r
= 4 reprsente un maximum possible dans un cas d'utilisation
rel, et les temps calculs restent corrects. La capacit mmoire semble tre atteinte
autour de 2000 structures prdicatives traites.
37. Nous nous sommes limits Ntp = 200, ce qui explique que le chiffre de 3000 structures n'est pas
89
Chapitre 4. Notre mthode de gnralisation de structures prdicatives
I-+- Nsp= 1 0 .. . ... Nsp=20 -,0- Nsp=30 --- Nsp=5 1
350
300
250
." ,.
~ 200
.!!.
..
Il.
~ 150
t-
100
50
0
0 500 1000 1500 2000 2500 3000 3500
Ntotal
FIG. 4.19 - Temps de gnralisation en secondes en fonction de Ntotal pour des valeurs de
N
sp
comprises entre 5 et 30, et NT = 2
460
400
360
'" 300
u
QI
.!!!. 260
1/1
~ 200
QI
1- 160
100
60
o
o
I--lr- Nsp= 1 0 -+- Nsp=30 1
....
~
//
/'/
//
LL
~
~
~
600 1000 1600 2000 2600
Ntotal
FIG. 4.20 - Temps de gnralisation en secondes en fonction de N
tp
pour des valeurs de
N
sp
comprises entre 10 et 30 et NT = 4
90
4.6. Complexit du processus de gnralisation
1-0- NSP:lO --+- Nsp=30 1
450
400
350
"" 300
u
Qi
.!!!. 250
(II
200
Qi
1-
150
100
50
/
1
/
1 /
/
1
/
0
0 50 100 150 200 250
Nsp
FIG. 4.21 - Temps de gnralisation en secondes en fonction de N
tp
pour des valeurs de
N
sp
comprises entre 10 et 30 et N
r
= 4
Notre dernier test tente de reproduire de faon plus exacte une situation relle. Les
valeurs de N
tp
et de N
sp
utilises ne sont pas uniformes pour la base de structures prdica-
tives, mais chelonnes de manire rgulire. Dans les deux exemples ci-dessous, quelques
prdicats possdent un grand nombre de structures prdicatives associes, tandis que la
majorit des prdicats ne possdent que quelques structures.
Exemple 1 :
1 prdicat avec N
sp
= 50, i.e. 50 structures prdicatives possdent ce prdicat,
2 prdicats avec N
sp
= 40,
3 prdicats avec N
sp
= 30,
4 prdicats avec N
sp
= 20,
5 prdicats avec N
sp
= 10,
50 prdicats avec N
sp
= 5.
Pour un total de 600 structures prdicatives rparties sur 65 prdicats et possdant 2 rles
(N
r
= 2), le temps de calcul est de 68 secondes, et conduit 678 gnralisations.
Exemple 2 :
1 prdicat avec N
sp
= 150,
2 prdicats avec N
sp
= 100,
3 prdicats avec N
sp
= 75,
4 prdicats avec N
sp
= 50,
5 prdicats avec N
sp
= 30,
10 prdicats avec N
sp
= 20,
20 prdicats avec N
sp
= 10,
50 prdicats avec N
sp
= 5,
atteint pour les valeurs 5 et 10 de N
sp
.
91
Chapitre 4. Notre mthode de gnralisation de structures prdicatives
100 prdicats avec N
sp
= 3,
250 prdicats avec N
sp
= 2.
Pour un total de 2375 structures prdicatives rparties sur 445 prdicats et possdant 2
rles (NT = 2), le temps de calcul est de 232 secondes (soit un peu moins de 4 minutes),
et conduit 2221 gnralisations. Cela confirme que le temps de calcul dpend surtout de
N
sp
, qui, en pratique, n'est lev que pour un nombre rduit de prdicats. Le nombre lev
de gnralisations calcules n'est pas tonnant dans la mesure o les structures prdicatives
utilises sont trs htrognes.
Cette valuation empirique montre que notre processus peut tre appliqu plusieurs
milliers de structures prdicatives extraites de textes, dans un temps que l'on peut estimer
raisonnable pour une utilisation relle.
4.7 Conclusion
Nous avons prsent un processus de gnralisation de structures prdicatives scind
en deux tapes, en nous basant sur un ensemble de principes et d'heuristiques pour limi-
ter la complexit calculatoire et le nombre de gnralisations produites. Nous concluons
en mettant en vidence les spcificits de notre solution par rapport celles utilises en
classification conceptuelle et prsents dans le chapitre 2.
Tout d'abord, notre processus se distingue nettement des approches classiques (sec-
tion 2.3) : l'algorithme ne repose pas sur une fonction d'valuation et ne ncessite pas
de fixer des paramtres de fonctionnement. Le regroupement des structures prdicatives
(quivalent des objets utiliss pour former des classes) est base sur une opration dfinie
logiquement, et la construction des gnralisations (quivalent des classes) peut tre faci-
lement apprhende. Les approches classiques fonctionnent au contraire comme des boites
noires qui fournissent une hirarchie dont la construction est cache. De plus, pour les
systmes incrment aux, la hirarchie rsultante dpend de l'ordre d'introduction. Notre
solution est non incrmentale et unique pour un ensemble de structures prdicatives don-
nes. La position relative d'une structure prdicative dans la hirarchie dcoule uniquement
de proprits logiques (la subsomption) , alors que dans un systme classique, la position
d'un objet dpend du processus de construction et de la fonction d'valuation associe.
Enfin nous utilisons des connaissances de domaine (la hirarchie sur les termes utiliss
dans les structures prdicatives), ce qui est rarement le cas dans les approches classiques.
Notre processus de gnralisation partage avec les solutions utilisant les treillis de
concepts, la reprsentation par objet et les graphes conceptuels une approche logiquement
fonde, utilisant des connaissances du domaine. Les connaissances du domaine consistent
en un ensemble de concepts organiss en hirarchie. Dans tous ces travaux, la hi rarchie
obtenue est unique. Cependant, ces approches sont caractrises par la recherche de toutes
les classes possibles partir d'un ensemble d'objets. Cela signifie qu'il n'y a pas d'heu-
ristiques pour rduire le nombre de classes gnres, contrairement la solution que nous
avons prsente. Une exception est le travail sur la MSG et l'amlioration propose par
Bournaud : les graphes conceptuels sont dcomposs pour obtenir des arcs et rduire ainsi
le nombre de gnralisations possibles. Cependant, partir des arcs, toutes les gnralisa-
tions possibles sont calcules, et le processus propos par les auteurs ne procde donc
aucun lagage.
92
4.7. Conclusion
En ce qui concerne les travaux de Carpineto et Romano [Carpineto 96], les objets
considrs sont des descripteurs de document: ce sont donc des objets peu complexes, et les
hirarchies obtenues peuvent tre interprtes mme en gnrant toutes les classes possibles.
Appliquer ce mme principe des structures prdicatives aboutirait des hirarchies trs
complexes. Nous sommes donc obligs de proposer des heuristiques qui permettent de
rduire les gnralisations calcules. En cela, notre processus est moins exhaustif, mais
plus appropri au traitement des structures prdicatives.
Les travaux de Simon et Napoli [Simon 98], de Mineau [Mine au 90] et de Bournaud
[Bournaud 96] permettent de considrer des objets plus complexes. Toutefois, la hirarchie
rsultante n'est pas destine tre immdiatemment exploite par l'utilisateur. Ce dernier
doit auparavant s'attacher laguer lui-mme la hirarchie au moyen de mcanismes di-
vers: Simon et Napoli proposent de calculer des points de vues sur la hirarchie initiale,
permettant d'observer plus finement tel ou tel phnomne; Bournaud propose plusieurs
algorithmes pour obtenir, soit automatiquement, soit manuellement, des hirarchies moins
complexe.
Dans notre cas, nous avons prfr dcharger l'utilisateur du travail d'lagage de la hi-
rarchie. En effet, il ne s'agit pas ici de trouver une classification pertinente d'un certain
nombre de phnomnes, mais de proposer une vision synthtique d'un ensemble d'informa-
tions. L'utilisateur ne doit pas passer du temps comprendre la hirarchie. Nos heuristiques
sont le pendant des mthodes de simplification proposes par Bournaud et Simon. Elles
sont moins souples et sans doute plus arbitraires, mais elles prennent en compte la sp-
cificit des structures prdicatives. De plus, nous avons vu que le temps de calcul qui en
dcoule est dans l'ensemble infrieur celui du systme COING. Notre mthode est donc
moins gnrale, mais permet de grer la complexit de la hirarchie induite par l'utilisation
de structures prdicatives, tant au niveau reprsentationnel qu'au niveau calculatoire.
Une comparaison plus pousse des diffrentes mthodes s'avre trs difficile, car au
del des objectifs diffrents des travaux cits, la capacit d'une hirarchie structurer et
organiser des connaissances ou informations est une notion trs subjective. Nous sommes
dans un domaine o l'valuation d'un systme est loin d'tre vidente, car il n'y a pas de
mesure objective, comme c'est le cas par exemple pour la prdiction de valeurs inconnues.
Les deux chapitres suivants (5 et 6) proposent une premire valuation de notre pro-
cessus de gnralisation. En effet, nous abordons la deuxime partie de notre mmoire,
qui dtaille l'application de notre mthode l' analyse de l'information, et notamment
une exprimentation sur un corpus de textes du domaine de l'agriculture. Les structures
prdicatives sont utilises pour amliorer une chane de traitement d'analyse de l'infor-
mation. Par ailleurs, cette deuxime partie prsente de manire plus approfondie l'aspect
linguistique de notre travail.
93
Chapitre 4. Notre mthode de gnralisation de structures prdicatives
94
5
.#
Etude des travaux d'extraction
d'informations partir de textes
pour l'analyse de l'information
Nous nous intressons dans cette deuxime partie l'analyse de l'information. Ce cha-
pitre a pour but de prsenter la notion d'analyse de l'information (section 5.1), puis de
montrer comment on peut automatiser cette analyse, au moyens de mthodes et d'outils
linguistiques et statistiques. Nous montrons ainsi l'intrt d'une approche terminologique
(section 5.2), puis nous intressons aux relations entre termes et aux mthodes d'extraction
existantes (5.3). Nous proposons enfin d'tendre une chane de traitement pour l'analyse
de l'information, pour converger vers une mthode complte, intgrant notre processus de
gnralisation de structures prdicatives (section 5.4).
5.1 L'analyse de l'information pour caractriser un ensemble
de documents
Les progrs technologiques dans le domaine de l'informatique et des tlcommunications
ont permis un accroissement sans prcdent de la diffusion de l'information [Stephens 94].
En ce qui concerne plus particulirement l'information caractre scientifique et technique
(articles, congrs, livres, manuels, ... ), la masse croissante d'informations disponibles rend
ncessaire l'utilisation de mthodes permettant de classer et de structurer le savoir. Ce
problme est du ressort de l'informatique documentaire, qui propose des solutions pour la
recherche d'informations dans des textes disponibles sous forme lectronique 38.
L'informatique documentaire classique propose une mthode en deux tapes pour aider
trouver des informations pertinentes dans un ensemble de documents [Croft 92] :
- une premire tape, l'indexation, consiste assigner automatiquement des mots-cls
ou descripteurs aux textes du corpus,
38. On utilisera le terme corpus pour dsigner une collection de textes, supposs tre disponibles sous
forme lectronique, et donc manipulables par des outils automatiques.
95
Chapitre 5. tude des travaux d'extraction d'informations partir de textes pour l'analyse de l'information
- une deuxime tape, la recherche d'informations, consiste appliquer des stratgies
automatiques de recherche de documents partir d'une requte compose de des-
cripteurs (combinaison boolenne, modles probabilistes, ... ).
L'emploi de quelques descripteurs pour dcrire un texte n'autorise toutefois qu'une vue
trs partielle de ce dernier. Une approche alternative a t propose, afin d'accder de
manire plus fine au contenu des textes: la recherche documentaire conceptuelle [Mauldin
91] [Van-Bakel 96]. Il s'agit d'effectuer une analyse automatique approfondie des textes
et d'en dduire une reprsentation smantique de leur contenu. Les requtes subissent la
mme analyse, et sont mises en correspondance avec les reprsentations des textes. La
recherche est ainsi effectue de manire beaucoup plus complte. Cette approche ncessite
une analyse aux niveaux syntaxique, smantique et pragmatique des textes. Elle requiert
des connaissances spcifiques nombreuses, d'ordre linguistique et conceptuel. Elle n'est donc
applicable que sur des domaines trs restreints, en dehors desquels elle s'avre infructueuse:
d'une part les textes sont trop htrognes pour pouvoir tre analyss correctement, d'autre
part les sources lexicales et conceptuelles ncessaires sont inexistantes [Zweigenbaum 94].
La reprsentation du contenu des textes par des mots-cls est de fait surtout limi-
te par les analyseurs utiliss en informatique documentaire classique, qui intgrent peu
de connaissances linguistiques. L'avnement de mthodes et d'outils d'analyse syntaxique
partielle [Jacquemin 97, p.3] a permis d'amliorer sensiblement l'extraction de contenu avec
des moyens restreints par rapport ceux utiliss par l'approche conceptuelle: ainsi dans
les domaines scientifiques et techniques, les extracteurs de termes permettent de prendre
en compte de vritables units d'information, gnralement exprimes par des groupes no-
minaux, plutt que de simple mots-cls. Comme le dit Jacquemin, il faut prfrer une
analyse fragmentaire et massives des textes pleins une comprhension exhaustive en pro-
fondeur .
Ces nouvelles mthodes dites faibles par opposition aux approches compltes comme
celle de Mauldin, ont permis le dveloppement de travaux connexes la recherche documen-
taire. Nous nous intressons en particulier ceux qui s'attachent extraire et structurer le
contenu informatif des textes. L'objectif est soit d'extraire des informations prcises (Ex-
traction d'Information), soit de synthtiser le contenu d'un ensemble de textes (Analyse
de 1" information) .
L'Extraction d'Information
L'extraction d'informations preCIses partir de textes est l'obj ectif des travaux en
Extraction d'Information 39 [Cowie 96] . Les informations sont extraites pour remplir les
champs d'une base de donnes dfinis trs prcisment. Les textes traits sont typique-
ment des articles de journaux ou de magazines. Le domaine d'application est souvent trs
restreint: par exemple, il peut s'agir de recenser les informations concernant les change-
ments de postes de direction dans des entreprises. L'analyse des textes conduit remplir
des champs structurs par les informations appropris. Par exemple, pour un article de
journal commenant par la phrase (tir de [Cowie 96]) :
A breakthrough in ta Eastern Europe was achieved by McDonald's, the American
fast food restaurant chain . ..
39. De l'anglais Information Extraction.
96
5.1. L'analyse de l'information pour caractriser un ensemble de documents
les champs suivant sont remplis par le systme d'analyse:
ENTITY-1375-12> :=
NAME: MCDonald's
NATIONALITY: U.S.
TYPE: Company
L'extraction d'information fait l'objet de nombreuses recherches, une confrence annuelle
permettant de tester les systmes existant (MUC, Message Understanding Conference).
Les systmes sont gnralement conus comme une suite de composants linguistiques sp-
cialiss, allant du filtrage statistique l'analyse de la rfrence en passant par une analyse
syntaxique partielle et une analyse smantique. Ils sont gnralement trs dpendants du
domaine vis. Un des rsultats majeurs de ces travaux est que les systmes privilgiant une
approche faible sont plus efficaces que les systmes dveloppant des grammaires ou
des modles de discours sophistiqus [Salton 94]. L'extraction d'information n'est toutefois
applicable que sur des domaines trs restreints et des textes homognes, pour les mmes
raisons que pour la recherche documentaire conceptuelle.
L'Analyse de l'Information
L'extraction et la structuration du contenu informatif d'un corpus de textes, afin d'en
obtenir une caractrisation synthtique, est l'objectif de l'Analyse de l'Information [Mul-
ler 97]. C'est une notion rcente, qui ne constitue pas encore un champ de recherches
bien structur comme l'Extraction d'Information. Nous retiendrons la dfinition qui en est
donne par Toussaint et al. [Toussaint 98] :
L'analyse de l'information peut tre dfinie comme un ensemble d'outils et de
mthodes permettant un oprateur humain de collecter l'information contenue
dans un corpus sans le lire de faon squentielle.
L'analyse est en particulier destine des fonds documentaires caractre scientifique et
technique. Elle doit permettre d'identifier l'information utile, comportant un intrt pour
l 'utilisateur.
De faon plus concrte, nous pouvons prsenter deux situations o intervient l'analyse
de l'information. En premier lieu, celle-ci peut tre vue comme l'tape intervenant aprs
une recherche d'informations dans un fonds documentaire [Toussaint 96] . La recherche
d'informations, nous l'avons vu, consiste interroger une base documentaire. Le systme de
recherche fournit une rponse sous forme de liste de documents et de leur rsum. Lorsqu'il
y a beaucoup de rponses, examiner l'ensemble des documents peut prendre beaucoup
de temps. Le processus d'analyse de l'information permet de simplifier ce traitement en
caractrisant le contenu de l'ensemble des documents et en fournissant une reprsentation
synthtique de l'information correspondante.
En second lieu, l'analyse de l'information peut tre utilise dans le cadre de la veille
technologique. Par exemple, l'INIST4o est parfois amen constituer des rapports de
tendances sur l'volution d'un domaine de connaissances : il s'agit de mettre en vidence
les thmes traits sur ce domaine, ainsi que les acteurs concerns, partir d'un fonds
documentaire. Rcemment, l'INIST a ainsi fourni un rapport sur les plantes transgniques.
L'analyse automatique est dans ce cas beaucoup moins prcise que celle ralise pour
40. Institut National de l'Information Scientifique et Technique, Vandoeuvre (54).
97
Chapitre 5. tude des travaux d'extraction d'informations partir de textes pour l 'analyse de l'information
l'Extraction d'Information, car elle ne remplit pas des champs de donnes prcis. Elle
permet de couvrir des domaines plus vastes, moins spcialiss. Elle sert de support au
travail final de synthse ralis par des documentalistes experts d'un domaine.
Nous montrons dans les sections suivantes (5.2 et 5.3) les diffrentes mthodes et ou-
tils qui peuvent tre utiliss en analyse de l'information, en insistant tout d'abord sur
la ncessit d'une approche terminologique. Puis nous discutons d'une des premires ap-
proches utilise pour l'analyse de l'information, qui combine des mthodes linguistiques et
statistiques [Toussaint 97], et proposons une extension prenant en compte les structures
prdicatives (section 5.4).
5.2 L'approche terminologique pour extraire l'information de
textes scientifiques
Les notions de mots-cl ou de descripteur utilises en recherche d'information depuis
trs longtemps sont souvent rductrices. Elles reprsentent les units lexicales qui sont
utilises comme accs l'information, sans considrer leur dimension linguistique. Il s'agit
en fait, la plupart du temps, de termes. La terminologie, dont l'obj et est l'tude des termes,
est un passage oblig pour une meilleure prise en compte des entits de base qui vhiculent
l'information. C'est ce que nous montrons dans cette section (section 5.2.1). Nous tudions
ensuite quelques unes des mthodes permettant l'identification automatique des termes
dans les textes (section 5.2.2).
5.2.1 La terminologie et l'information
La terminologie est une discipline drive de la linguistique, datant du milieu de ce sicle
[Felber 87]. Par terminologie, on peut en fait dsigner trois notions distinctes: une science
fortement linguistique; un ensemble de mthodes pour l'tude et le classement des termes
d'un domaine de connaissances j l'ensemble des termes d'un domaine de connaissances
[Sager 90]. Les deux notions principales associes la terminologie sont le terme et le
domaine.
Le terme peut tre dfini comme une unit signifiante constitue d'un mot [terme
simple] ou de plusieurs [terme complexe] qui dsigne une notion univoque l'intrieur
d'un domaine [Viallet 94]. Par exemple, menu est un terme simple dans le domaine de
l'informatique. De mme, langage orient objet est un terme complexe dans le domaine de
l'informatique. Les termes sont la plupart du temps des groupes nominaux, mais peuvent
galement tre des verbes ou des adj ectifs.
Nous voyons qu'un terme se distingue d'un mot de la langue courante par des caractris-
tiques thoriques bien prcises, notamment [Sager 90] :
- il dsigne une et une seule notion,
- il possde une efficacit fonctionnelle marque, sans connotation motive,
- il est peu dpendant du contexte, c'est--dire que sa signification est stable, quel que
soit le contexte d'utilisation du terme,
- il est li un domaine (technique, science), en dehors duquel il n'a pas de signification,
- il volue peu.
98
5.2. L'approche terminologique pour extraire l'information de textes scientifiques
Au vu de ses proprits, la tentation est grande de considrer un terme comme une simple
tiquette appose sur un concept. Cette vue est toutefois dmentie par la pratique, et
critique par de nombreux auteurs ([Rastier 95], [Skuce 91] [Condamines 97], [Jacquemin
97]). Les termes sont des expressions linguistiques part entire, et leur complexit doit
tre prise en compte. Ainsi, de nombreux phnomnes linguistiques se retrouvent parmi les
termes: les homonymies (A et B ont la mme graphie mais des sens totalement diffrents),
la polysmie (A et B ont la mme graphie, mais possdent des sens voisins), les variations
morphologiques et syntaxiques (A et B sont des expressions linguistiques diffrentes mais
de mme sens). Les variations sont particulirement sous-estimes. Jacquemin a pourtant
montr qu'elles peuvent reprsenter jusqu' 25% des occurrences de termes pour la langue
franaise [Jacquemin 97].
A mi-chemin entre la fluidit d'un mot de la langue courante, dont le sens est bien
souvent multiple 41 , et l'immuabilit et la prcision d'une tiquette, le terme est recherch
parce qu'il est le support privilgi de l'information contenu dans un texte. Cette proprit
dcoule naturellement de sa dfinition, clairement exprime par Jacquemin [Jacquemin
97] :
Les langues de spcialits [relatives un domaine de spcialit] sont le sup-
port de la communication scientifique et technique. L'information y est conte-
nue en priorit dans les termes qui sont la forme linguistique des concepts du
domaine.
Les textes scientifiques et techniques font un usage lev de termes, car ils recherchent
a priori la prcision et l'objectivit des propos, et non l'motion de leurs lecteurs. C'est
pourquoi une approche terminologique est adapte des textes scientifiques, mais non
des textes de la langue courante.
Les travaux de Harris sur la notion de sous-langage (analogue aux langues de spciali-
ts
42
) permettent d'approfondir la notion de contenu informationnel d'un texte [Harris 89].
Prsents de faon schmatique, ses travaux se sont attachs rduire l'information conte-
nue dans un texte un ensemble de formules exprims partir d'un ensemble d'oprateurs
et d'arguments: les phrases sont dcomposes en syntagmes noyaux, units d'information
minimales du corpus correspondant aux termes. Les formules expriment des contraintes sur
la combinatoire des oprateurs et arguments. Les oprateurs et arguments sont regroups
en classes distributionnelles, c'est--dire selon leurs positions possibles dans la structure
d'une phrase.
Par exemple, les huit phrases du tableau 5.1, tir des travaux de Harris et al. sur la mdecine
[Harris 89], possdent le mme contenu informationnel, exprim par la formule:
A V
p
C
z
Vp est la classe des oprateurs qui expriment la notion de production. La classe V
p
est
une sous-classe des oprateurs V exprimant la notion de rponse. V
p
regroupe des termes
divers tel que formation, production, synthse, rsultat. A est un argument qui exprime la
classe des anticorps. C
z
est un argument qui exprime la classe des plasmocytes, qui est une
sous-classe de C, les cellules.
Les classes sont ainsi constitus par un ensemble de termes ayant un contenu informa-
tionnel identique ou voisin. Les formules de Harris permettent de factoriser les multiples
41. Essayer de compter par exemple les sens d'un mot comme march ou bulletin . ..
42. Pour une vue gnrale des langues de spcialits, voir [Lerat 95) .
99
Chapitre 5. tude des travaux d'extraction d'informations partir de textes pour l 'analyse de l'information
1 Les plasmocytes sont producteurs d'anticorps.
2 Les plasmocytes produisent des anticorps.
3 Des ant icorps sont produits par les plasmocytes.
4 Des anticorps sont produits dans les plasmocytes.
5 La production plasmocytaire d'anticorps a t tablie.
6 La production d'anticorps par les plasmocytes a t tablie.
7 La production d'anticorps qu'on observe dans les plasmocytes, a t tablie.
8 L'origine plasmocytaire de la production d'anticorps a t tablie.
TAB. 5.1 - Huit phrases de contenu informationnel identique AVpC
z
d'aprs [Harris 89]
expressions linguistiques pouvant correspondre une information. Le travail ralis par
Harris et al. sur des textes de mdecine est une formidable tentative de formalisation du
contenu. Il reste toutefois hors de porte d'un systme automatique, car il requiert des
transformations complexes des phrases initiales pour aboutir un ensemble de formules.
Notons que la reprsentation que nous utilisons pour la gnralisation est trs voisine de
celle-ci, puisque nos prdicats correspondent aux oprateurs de Harris, et que les classes
sont galement hirarchises. Toutefois, une diffrence importante est que les classes de
Harris sont bases sur la distribution des termes dans les textes, et non sur des proprits
smantiques comme une hirarchie conceptuelle.
Cet exemple nous a permis d'illustrer la varit linguistique pour exprimer une informa-
tion. Pour saisir le contenu informationnel d'un texte, il faut donc tre capable rapprocher
des expressions diffrentes mais conceptuellement lis. La prise en compte de la variation
terminologique permet de rsoudre une partie du problme, comme nous le verrons plus
loin avec le systme FASTER (section 5.2.2) .
Le domaine et les relations entre termes
Le domaine est une notion qui, paradoxalement, est mal dfinie. C'est pourtant un
des fondements de la thorie terminologique [Otman 94] : le domaine reprsente un espace
conceptuel structur, dlimitant une discipline ou une technique, et dont la visibilit passe
par les termes. Au sein d'un domaine, les termes ont une forte cohsion, structurs par un
ensemble de relations les situant les uns par rapport aux autres. Cette vision des choses
peut tre directement compare aux travaux en intelligence artificielle sur les bases de
connaissances. De fait, on retrouve en intelligence artificielle, dans les bases de connais-
sances ou les ontologies 43 relations qui sont utilises depuis longtemps en terminologie, la
plus connue tant la relation de spcialisation, appele hypronymie en terminologie [Ot-
man 93]. Un panorama des relations utilises de part et d'autres (par exemple, [Gouadec
94] pour la terminologie, [Nutter 89] pour l'intelligence artificielle) montre une approche
similaire pour structurer la connaissance. Il ne faut toutefois pas tomber dans un excs
de simplification. Les significations des relations utilises peuvent tre trs diffrentes:
les relations entre concepts ne sont pas les mmes que les relations entre units lexicales.
Nous pouvons reprendre l'exemple de la relation de spcialisation, qui est sans doute la
relation ayant fait l'objet des plus nombreux travaux, aussi bien en reprsentation des
43. Une ontologie peut tre dfinie comme la spcification du vocabulaire conceptuel d'un domaine de
discours, ou comme un modle des catgories de connaissances d'un domaine [Rector 96) [Reynaud 94).
Des exemples bien connus d'ontologies sont CYC [Guha 90) et UMLS [Lindberg 93) .
100
5.2. L'approche terminologique pour extraire l 'information de textes scientifiques
connaissances qu'en terminologie ou en smantique lexicale,: elle correspond dans le cas
de la subsomption dans les logiques de descriptions une relation formalise, pouvant tre
dfinie de manire structurelle, intensionnelle ou extensionnelle [Woods 91] ; dans le cas de
la terminologie, elle correspond une inclusion de proprits [Lerat 90] ; dans le cas de la
smantique lexicale, elle est dfinie par rapport des tests lexicaux (X est un hypronyme
de Y si la phrase c'est un X implique la phrase c'est un Y) [Cruse 86].
En dehors de sa vise thorique, la terminologie est aussi une pratique qui s'attache
recenser les termes et leur comportement dans tous les domaines de spcialits. Les
termes sont reconnus comme tels sur la base de trois critres [Orlac 94] : la frquence, la
syntaxe de la phrase, la place du candidat dans un paradigme (c'est--dire dans le systme
notionnel reprsentant le domaine). Toutefois, ces critres sont approximatifs, et le choix
repose surtout sur l'intuition des terminologues, chargs de leur reconnaissance [Bourigault
95]. Le recensement des termes d'un domaine conduit la construction d'une base de
donnes terminologique, collectant des informations de nature conceptuelle (dfinition,
relations avec les autres termes), linguistique (graphie, variantes) et pragmatique (contextes
d'emploi, usage) sur les termes.
Les chercheurs en intelligence artificielle ont t nombreux voir l'intrt de la termi-
nologie pour les applications sur l'acquisition de connaissances, le langage naturel, et de
manire indirecte, pour la recherche d'informations [Meyer 91], [Meyer 94], [Aussenac-Gilles
95], [Condamines 92], [Otman 94]. Des systmes d'extraction de termes ont vu le jour, afin
d'automatiser les processus d'extraction et de reconnaissance. Ces systmes prennent en
compte les phnomnes linguistiques, et permettent d'obtenir de bien meilleurs rsultats
que les premiers systmes d'indexation automatique ngligeant les connaissances linguis-
tiques. Nous prsentons dans la section suivante diffrents systmes d'extraction de termes,
qui montrent les possibilits actuelles en la matire.
5.2.2 L'acquisition et la reconnaissance de termes
De nombreux travaux ont vu le jour pour automatiser l' extraction de termes dans les
textes ([Bourigault 94a], [Dumas 96], [Oueslati 96], [Herviou 95]). On distingue gnrale-
ment l'acquisition, qui consiste gnrer une liste de candidats termes partir d'un corpus
de textes, et la reconnaissance, qui consiste reprer dans les textes un ensemble de termes
fournis a priori.
L'acquisition terminologique est destine la cration ou l'augmentation d'une termi-
nologie. L'objectif est de constituer la liste des termes lis un domaine, et ventuellement
de les organiser. Les systmes correspondant fournissent de fait des candidats termes, qui
doivent par la suite faire l'objet d'une validation humaine qui conduit gnralement au
rejet d'un bon nombre de candidats.
La reconnaissance terminologique est oriente vers l'indexati on; et se fixe comme objec-
tif de reprer des occurrences de termes et de leur variantes. Elle permet de se focaliser sur
une liste prcise de termes et s'avre plus pertinente pour extraire le contenu des textes: le
bruit gnr est beaucoup moins important que dans le cas de l'acquisition terminologique.
Trois grandes approches sont utilises, que ce soit pour l' acquisition ou la reconnaissance
terminologique: celle utilisant des mthodes linguistiques, celle utilisant des mthodes
statistiques, et celle couplant les deux types de mthodes [J acquemin 97] . Nous prsentons
ici trois systmes d'extraction terminologique: LEXTER utilise une approche linguistique
101
Chapitre 5. tude des travaux d'extraction d'informations partir de textes pour l'analyse de l'information
pour l'acquisition ; ACABIT utilise une approche mixte pour l'acquisition ; FASTER utilise
une approche linguistique pour la reconnaissance. Les approches purement statistiques sont
peu adaptes aux franais et ne seront pas abordes dans ce mmoire (pour un panorama
complet des travaux et systmes, on pourra se reporter [Jacquemin 97]).
Avant de dtailler ces systmes particuliers, nous prsentons les tapes prparatoires
ncessaires au traitement des corpus. Presque tout systme traitant des textes sous forme
lectronique doit en effet procder un pr-traitement de ces textes, qui consiste gnra-
lement en :
- une segmentation du texte en phrase. Mme si premire vue cette tape semble faci-
lement automatisable, certains phnomnes (abrviations, noms propres, .. . ) rendent
difficile un dcoupage automatique parfait,
- un tiquetage des mots par leur catgorie grammaticale : dterminants, noms com-
muns, prpositions, adjectifs, ... ,
- une lemmatisation des mots flchis, qui consiste associer chaque forme flchie,
c'est--dire chaque occurrence d'un mot dans le texte, un lemme et un ensemble
de traits flexionnels (temps, genre, nombre) .
Ce pr-traitement est essentiel car il permet de normaliser les occurrences de mots dans
les textes, et d'ter les ambiguts pour certaines formes lexicales. L'tiquetage est relati-
vement bien matris, notamment par des systmes probabilistes base de rgles tel que
l'tiqueteur de Brill [Brill 93]. Celui-ci, aprs une phase d'entranement sur une partie ti-
quete manuellement du corpus de textes traiter, permet d'obtenir des taux de russites
suprieurs 95%. Pour une langue comme le franais, la lemmatisation est difficile, car la
morphologie flexionnelle est complexe (modles de conjugaison, familles de flexions). Les
systmes automatiques de lemmatisation peuvent tre bass sur la consultation d'un dic-
tionnaire, ou sur un ensemble de rgles, voire sur une combinaisons des deux. L'avantage
des systmes bass sur les rgles est la prise en compte de mots inconnus du dictionnaire
et la dtection de certaines erreurs d'tiquetage. Le pr-traitement permet ainsi de bien
identifier et sparer les units lexicales qui vont tre manipules par la suite [Fuchs 93].
Le systme LEX TER : mthode linguistique pour l'acquisition
Le systme LEXTER [Bourigault 94a] [Bourigault 94b] utilise une mthode linguistique
et est destin l'acquisition. Il procde par dcoupage au sein des phrases d'un texte: un
ensemble de patrons syntaxiques permettent de reprer les portions qui ne peuvent tre
des constituants de termes et signalent ainsi les frontires des termes. Les ambiguts dues
diffrentes possibilits d'application des rgles de dcoupage sont rsolues par des pro-
cdures dites endognes, permettant de chercher par ailleurs dans le texte une situation
quivalente et non ambigu. Les groupes nominaux obtenus sont ensuite dcomposs en
deux constituants, de manire rcursive. Ceci permet d'obtenir des liens entre candidats
termes, et de constituer un rseau terminologique accessible au moyen de fonctions hyper-
textes. Par exemple, tant donn la phrase suivante:
L'alimentation en eau est assure par une pompe d'extraction, qui est relie
l'alimentation lectrique de la pompe de refoulement,
trois groupes nominaux sont extraits:
alimentation en eau,
102
5.2. L 'approche terminologique pour extraire l'information de textes scientifiques
pompe d'extraction,
alimentation lectrique de la pompe de refoulement.
Le premier candidat terme peut tre dcompos en une tte, alimentation et une expansion,
eau. Cette dcomposition permettra par exemple de le relier par exemple au candidat
alimentation en huile par l'intermdiaire de sa tte. Le troisime candidat terme peut tre
dcompos en alimentation lectrique et pompe de refoulement, eux-mme dcomposs
leur tour en alimentation et lectrique et pompe et refoulement. Il sera galement li au
premier candidat par l'intermdiaire de sa tte alimentation.
LEXTER extrait un grand nombre de candidats termes partir d'un corpus de textes.
Il ncessite une vrification manuelle qui peut s'avrer fastidieuse. La prsence d'un mo-
dule hypertexte d'exploration permet toutefois une premire structuration bien utile, plus
pertinente qu'une simple liste. De plus, des modules de structuration supplmentaires ont
t conus pour regrouper des termes selon des rgularits syntaxiques [Assadi 96J. Ces
derniers ont t utiliss en acquisition des connaissances [Assadi 97J.
Le systme ACABIT : approche mixte pour l'acquisition
Le systme ACABIT [Daille 94], destin l'acquisition, utilise une approche mixte,
linguistique et statistique. Il effectue tout d'abord une analyse par automates, permettant
de reprer les squences de mots ayant une structure syntaxique caractristique des termes.
Les squences dtectes sont des noms composs binaires, constitus de deux mots qui
ne sont pas fonctionnels 44. Ces filtres linguistiques sont capables de prendre en compte
certaines variations. Par exemple, la squence:
systme racinaire de surface et de profondeur
peut tre reconnue comme l'occurrence de deux termes, systme de surface et systme de
profondeur, par la rgle suivante:
nprep_ncoordN -+ nprepn COORD PREP NCOMM
nprepn_ ncoordN reprsente la squence entire, dcomposable comme suit: nprepn repr-
sente deux noms communs spars par une prposition (systme de surface), COORD une
coordination ( et), PREP une prposition (de) et NCOMM un nom commun (profondeur).
ACABIT effectue ensuite un filtrage statistique sur les candidats termes binaires obtenus.
Pour chaque phrase, deux candidats termes sont retenus sur la base d'un coefficient de
vraisemblance qui classe les squences selon un ordre de pertinence.
ACABIT, comme LEXTER, permet de recueillir un nombre important de candidats
termes partir d'un corpus de textes, et ncessite une vrification manuelle importante.
L'importance de l'information apporte par tous les candidats est en effet trs variable,
car non contrle.
Le systme FASTER : reconnaissance par mthode linguistique
Le systme FASTER [Jacquemin 95J [Jacquemin 97J est prioritairement destin la
reconnaissance de termes, bien qu' il puisse tre galement utilis dans le cadre de l'ac-
quisition. FASTER, contrairement aux autres approches, utilise une liste de termes pr-
dtermine. Dans ce cas, on parle d'indexation contrle, car les termes retenir ont t
44. Les mots dits fonctionnels sont les prpositions, articles, conjonctions, ...
103
Chapitre 5. tude des travaux d'extraction d'informations partir de textes pour l 'analyse de l 'information
donns par avance. Le systme ne se contente toutefois pas de rechercher les occurrences
des termes de la liste: il met en oeuvre un mcanisme puissant de recherche des variations
des termes, qui permet de prendre rellement en compte la complexit linguistique des
termes.
FASTER utilise une mtagrammaire de la langue traiter, qui dcrit des patrons de
variation terminologique susceptibles d'tre rencontrs (environ une centaine pour le fran-
ais). Cette grammaire est formalise au moyen de mtargles qui expriment les variations,
qui peuvent tre d'ordre morphologique ou syntaxique.
Les variations morphologiques sont :
- les flexions: singulier j pluriel, infinitif, participe pass, .... Par exemple, en agricul-
ture, le pluriel amines est une variation par flexion du terme amine,
- les drivations: passage d'un nom un adjectif, d'un verbe un nom (nominali-
sation) . Par exemple, en agriculture, le groupe nominal systme racinaire est une
variante drivationnelle du terme systme de racine.
Les variations syntaxiques sont les suivantes:
- l'insertion ou modification est l'introduction d'un mot non fonctionnel l'intrieur
d'un groupe nominal. Par exemple, en informatique, le groupe nominal approche
oriente objet est une variation par insertion du terme approche objet,
- la coordination est une forme coordonne de mots (adjectifs, noms) l'intrieur d'un
groupe nominal. Par exemple, en mdecine, le groupe nominal artres bronchiales et
intercostales est une variation par coordination du terme artres bronchiales,
- la permutation implique un lment pivot autour duquel les mots ou groupes de mots
peuvent permuter . Par exemple, en mdecine, pour la langue anglaise, le groupe
nominal dissemination in blood est une variante de permutation du t erme blood
dissemination.
Le systme peut galement prendre en compte des variations morpho-syntaxiques, qui
combinent les deux types de variations. Les meta-rgles sont exprimes l'aide d'un for-
malisme de structure de traits. Voici par exemple une rgle pour traiter un cas simple de
permutation en anglais:
Perm(Xl -+ X2 X3) = Xl -+ X3 P4 X2
<X2 cat ># P
<P4 lemme> = 'of'
<X2 cat > # A
<X3 cat ># P
La partie gauche de la premire ligne dcrit la structure d'un terme Xl qui peut se rcrire
en X2 X3. Le symbole X correspond un mot de catgorie quelconque. Les symboles P
et A sont respectivement utiliss pour dsigner des prpositions et des adj ectifs. La part ie
droite de la premire ligne montre que le terme Xl peut accepter une autre structure o
X2 et X3 sont permuts et spars par la prposition of. Les lignes suivantes reprsentent
des traits associs aux diffrents mots: le trait cat reprsente la catgorie syntaxique, le
trait lemme la racine du mot. Ces traits reprsentent des contraintes sur les mots : X2,
par exemple, ne peut tre ni une prposition, ni un adjectif. Cette rgle est capable par
exemple de reconnatre la variante planting of seed partir du terme seed planting, avec
X2 = seed et X3 = planting.
104
5.3. Les relations entre termes, pour structurer les units d'informations
FASTER est un outil qui permet de prendre en compte la nature complexe des termes,
en traitant les variantes susceptibles d'tre rencontres dans les textes. Il contribue une
amlioration notable de la recherche de descripteurs ou mots-cls, utilise pour l'informa-
tique documentaire [Daille 96]. Il permet d'effectuer une indexation contrle, qui semble
tre la meilleure solution pour extraire des textes un contenu informatif de qualit. Il
peut de plus s'appliquer sur diffrentes langues, selon l'ensemble de meta-rgles utilises.
L'inconvnient est qu'il faut disposer a priori d'une liste prsentant une bonne couverture
des termes prsents dans le corpus de textes traiter. Une approche mixte est alors pos-
sible, utilisant un systme d'acquisition en premier lieu pour constituer une liste de termes
suffisamment complte, et le systme FASTER par la suite. Il est toutefois ncessaire de
contrler manuellement la liste de termes issue du systme d'acquisition.
Conclusion sur les systmes d'extraction terminologique
Les systmes d'extraction terminologique sont indispensables pour reprer les units
d'informations dans un corpus de textes caractre scientifique ou technique. Dans une
perspective d'identification, une systme comme FASTER permettant de reprer les va-
riantes de termes et d'oprer une certaine normalisation semble la meilleure solution. Bien
sr, FASTER est loin de pouvoir identifier comme une unique information les huit phrases
donnes en exemple dans la section 5.2.1, car il opre au niveau des groupes nominaux
et non des phrases entires. La prise en compte de structures plus importantes, jusqu'
la taille d'une phrase, requiert la prise en compte des relations entre les diffrentes units
d'informations que sont les termes. Nous tudions dans la section suivante les diffrents
travaux sur l'identification et la caractrisation de ces relations.
5.3 Les relations entre termes, pour structurer les units d'in-
formations
Nous nous intressons principalement aux relations susceptibles d'apparatre dans les
textes, et qui peuvent faire l'objet d'une extraction. Nous ne prtendons pas ici faire le tour
complet des recherches dans ce vaste domaine qu'est l'acquisition automatique d'informa-
tions lexicales partir de corpus 45 : nous nous focalisons sur certains travaux permettant
d'identifier des relations entre units lexicales 46, afin de mettre jour de manire plus
complte le contenu informationnel des textes. Il s'agit donc de dpasser le simple niveau
des termes pour atteindre des structures syntaxiques plus vastes, mettant en jeu plusieurs
termes au sein des phrases.
Dans cette section, nous faisons tout d'abord une distinction entre deux grands types
de relations, syntagmatiques et paradigmatiques, et montrons que nous sommes principale-
ment intresss par les relations syntagmatiques (section 5.3.1). Puis nous nous intressons
deux types d'approches permettant d'identifier des relations:
- les approches linguistiques statistiques, dont la mise en oeuvre est simple et les
connaissances linguistiques ncessaires limites; elles permettent d'obtenir des re-
45. [Boguraev 96] et [Pichon 97] prsentent une bonne vue d'ensemble de ce domaine.
46. Par dfaut, les units lexicales considres sont des mots. Nous prcisons le cas chant si les travaux
s'appliquent plus particulirement des termes.
105
Chapitre 5. tude des travaux d'extraction d'informations partir de textes pour l'analyse de l'information
lations entre mots ou des classes de mots, sans toutefois pouvoir prciser la nature
ou le sens des relations mises en jeu [Grefenstette 94],
- les approches symboliques, dont la mise en oeuvre est plus complexe et ncessite de
vastes connaissances linguistiques; les relations entre les mots sont reprsentes au
sein de structures prdicats-arguments (structures prdicatives) qui rendent compte
de manire sophistique du contenu informationnel [Saint-Dizier 95J.
Les sections 5.3.2 et 5.3.3 sont respectivement consacres une prsentation critique
de travaux correspondants ces deux types d'approches.
5.3.1 Deux grands types de relations
Les relations entre units d'informations peuvent tre de nature trs diffrentes. La
smantique lexicale retient deux grands type de relations : syntagmatiques et paradigma-
tiques [Lyons 77, p. 240-241J.
Les relations syntagmatiques rsultent de l'association de diffrents syntagmes dans
une mme phrase, c'est--dire de diffrentes units qui peuvent faire partie du mme voisi-
nage syntaxique. Par exemple, l'expression dosage des amines fait apparatre une relation
syntagmatique entre les deux termes dosage et amine.
Les relations paradigmatiques lient des units qui sont substituables les unes aux autres
dans un mme contexte syntaxique, c'est--dire qui ont un rle similaire dans une posi-
tion syntaxique identique. Par exemple, les expressions dosage des amines et dosage des
polyamines font apparatre une relation paradigmatique entre les deux termes amine et
polyamine.
Les relations paradigmatiques sont majoritairement celles qui regroupent les units selon
leur similarit smantique: toutes les units X pouvant apparatre dans l'expression dosage
de X font partie d'une mme classe smantique. Ce raisonnement est toutefois approxi-
matif, car il n'existe pas une parfaite symtrie entre syntaxe et smantique [Habert 96bJ.
On peut trouver des units X qui ne sont pas des substances chimiques, classe smantique
que l'on voudrait associer ces units. Par exemple, dosage de l'activit des amines met
en oeuvre une expression plus complexe. Bouaud et al. ont toutefois montr, en comparant
des classes syntaxiques paradigmatiques et des classes smantiques formes sur un mme
domaine, que les units d'informations sont regroupes selon leur proximit smantique,
mme si les critres divergent [Bouaud 97J. Les relations paradigmatiques sont rappro-
cher des relations structurelles organisant les bases de connaissances ou les ontologies : les
relations de spcialisation et partie-tout, qui permettent de dfinir entre elles les diffrentes
units (concepts ou items lexicaux). Par exemple, la relation entre polyamine et amine est
une relation de spcialisation, qui permet de dfinir polyamine par rapport l'entit plus
gnrale amine.
Au contraire, les relations syntagmatiques expriment les associations accidentelles
entre les units d'informations, qui constituent la substance d'un discours sur un domaine.
Ce sont ces relations qui nous intressent le plus, car elles vhiculent le contenu informatif
du texte. Ainsi, l'association entre dosage et amine nous donne une information sur un
vnement et l'objet associ dans un texte donn, et non une connaissance dfinitoire.
Nous verrons par la suite que les deux types de relations peuvent tre identifis dans
les textes: ce sont toutefois les relations syntagmatiques qui prdominent et qui sont les
plus intressantes pour l'analyse de l'information.
106
5.3. Les relations entre termes, pour structurer les units d'informations
5.3.2 Les mthodes linguistiques statistiques : classes de mots
Pour rechercher des relations entre les mots, la mthode la plus simple est de considrer
la proximit syntaxique de ceux-ci, en se basant sur le constat suivant: deux mots qui ap-
paraissent souvent dans une mme phrase sont probablement lis smantiquement [Habert
97]. Cette constatation ouvre la voie toute une srie de mthodes, dont les deux prin-
cipaux paramtres sont les suivants : le contexte du mot et la fonction statistique utilise
pour dcider de la proximit des mots considrs.
Le contexte du mot correspond son entourage syntaxique. Pour calculer les mots qui
sont en lien avec un mot m, plusieurs contextes diffrents sont possibles [Grefenstette 93] :
- la phrase entire dans laquelle apparat m (on dit que les mots sont co-occurrents),
- une fentre de n mots de part et d'autre de m (n est alors un paramtre supplmen-
taire) ,
les units lexicales VOlsmes de m appartenant une catgorie syntaxique donne
(nom, adjectif, verbe) ou entretenant une relation syntaxique particulire avec m
(sujet d'un verbe, objet d'un verbe).
Parmi ces contextes, les mots fonctionnels sont gnralement ngligs. Les contextes dfinis
au moyen de relations syntaxiques conduisent des mthodes plus complexes mettre en
oeuvre, car elles ncessitent l'utilisation d'analyseurs syntaxique de surface.
Plusieurs mesures statistiques peuvent tre utilises pour calculer le poids relatif de la
relation entre deux mots. La plus connue est sans doute celle de l'information mutuelle
[Church 90], qui s'exprime par la formule:
M I(x, Y) = log(P( x, y)/ P(x)P(y))
o P(x, y) reprsente la probabilit que x et y co-occurrent, et P(x) la probabilit que x
occurre. L'information mutuelle est maximale pour deux mots qui apparaissent toujours
ensemble, et qui sont susceptibles d'tre fortement lis.
Nous allons prsenter plus particulirement quatre approches diffrentes pour identifier
des relations entre units lexicales. Ces quatre approches ont en commun de s' intresser
aux langues de spcialits et donc des termes plutt qu' de simples mots comme c'est
le cas pour Grefenstette [Grefenstette 93] ou Church et Hanks [Church 90].
Les travaux de Assadi et Bourigault : classification de noms et d'adjectifs
Nous avons dj mentionn ces travaux en prsentant le systme d'extraction terminolo-
gique LEXTER (cf. section 5.2.2). A partir du rseau grammatical construit par LEXTER,
les auteurs proposent une mthode pour constituer des classes d'adjectifs et de noms ap-
paraissant dans les mme contextes [Assadi 96], [Assadi 97]. L'objectif est de construire un
systme de consultation de documents techniques qui permette un utilisateur de naviguer
au sein de la documentation l' aide d'un index ou des concepts du domaine.
Les candidats termes expriment des contextes terminologiques pour un groupe nominal
donn. Par exemple, le groupe nominal rseau possde le contexte {national, rgional,
distribution} grce aux termes {rseau national, rseau rgional, rseau de distribution}.
L'ide est de crer des classes de groupes nominaux ayant des contextes terminologiques
similaires. Pour cela, chaque groupe nominal se voit associer un vecteur d'attributs qui
107
Chapitre 5. tude des travaux d'extraction d'informations partir de textes pour l 'analyse de l 'information
Classe Contexte
antenne, barre, cable, cable souterrain, HT, THT, tension, souterrain, MT,
li aison, ligne, niveau, ouvrage, .. . simple, servie, haute tension, prvu
composante, courant , courant de court- maximal,
, .
inverse, nominal , supeneur ,
circuit, court-circuit, hydraulicit, inten- maximum, admissible, harmonique, direct,
sit, longueur, perturbation, puissance, ... minimal, ractif, secondaire, moyen, ...
TAS. 5.2 - Deux classes et leur contextes issues du rseau grammatical de LEXTER d'aprs
!Assadi 97}
dcrit son contexte. Une classification hirarchique ascendante est ensuite effectue sur
ces vecteurs: les deux groupes nominaux partageant le plus proche contexte sont d'abord
regroups, puis le processus est ritr jusqu' regrouper l'ensemble des groupes nominaux.
L'arbre de classification ainsi obtenu est ensuite coup un certain niveau pour former des
classes. Ce processus s'applique aussi bien pour des contextes constitus par des adj ectifs
que pour des contextes constitus par des autres groupes nominaux. La table 5.2 montre
par exemple deux classes et leur contexte dans le domaine de la planification de rseaux
lectriques rgionaux, extraits de [Assadi 97].
Cet outil de classification est complt par des outils de typage conceptuel avec l' aide
du rseau grammatical : dtermination de liens sorte-de, de liens objet-attribut et objet-
action. Ces travaux s'inscrivent dans une mthode globale d'acquisition de connaissances
partir de textes qui attachent une attention particulire aux problmes linguistiques et
la difficult du passage des termes aux concepts [Bourigault 94b] [Assadi 96]. Ils proposent
donc des outils d'exploration ncessitant un travail important de modlisation de la part
de l'utilisateur du systme, qui s'avre peu adapt la caractrisation directe du contenu
des textes.
Les travaux de Habert et al. un rseau lexical pour prsenter une image
rorganise du texte
Les travaux de Habert et al. [Habert 96a] [Habert 96b] entretiennent un troit rapport
avec les travaux de Assadi et Bourigault, puisqu' ils utilisent le mme poiut de dpart,
savoir le rseau grammatical fourni par le systme LEXTER. L'objectif est, dans une
perspective Harissienne (cf. section 5.2.1), de mettre jour les classes d'oprateurs et
d'arguments du domaine de spcialit considr. Ceci afin de proposer un rseau lexical
pouvant constituer une image rorganise du texte initial, utilis pour l'acquisition de
connaissances partir de textes.
La mthode propose consiste dans un premier temps simplifier les groupes nominaux
extraits par LEXTER, de la mme faon que Harris simplifie les phrases pour obtenir des
phrases lmentaires mettant jour les oprateurs et arguments d'un sous-langage. Cela
permet d'obtenir des arbres lmentaires, qui mettent en vidence des collocations entre
diffrentes units lexicales. Ces collocations sont utilises pour constituer des classes de
contextes syntaxiques, la manire des travaux de Assadi et Bourigault. Toutefois, la
diffrence se situe dans l'exploitation qui en est faite: les classes sont directement utilises
pour construire une visualisation graphique sous forme de rseau lexical, montrant les
108
5.3. Les relations entre termes, pour structurer les units d'informations
connexions entre units lexicales. La figure 5.1 reproduit un tel rseau 47.
calcification
- coronarien
- diffus
existence de -
/
plaque
"
- aortique
- coronarien
- proximal
- circonflexe
- coronarien
- diagonal
- non-significatif ________ ..
- residuel
les ion
- non significatif
-proximal
- de /
stenose. .....-------
- de carotide / '\
- de interventriculaire
persistance de -
/
- severe
- de artere
- severe
- significatif - coronarien
- de tronc - severe
severite de -
obstruction
- coronarien
- coronarien
occlusion
- severe
- de artere
/
- coronarien
- de tronc
\
_ coronarien - severe

atteinte
FIG. 5.1 - Un rseau lexical reprsentant les affections corporelles localises d'aprs [Habert
96bj
Habert et al. se situent eux aussi dans un perspective d'acquisition de connaissances.
Ils montrent bien que les travaux d'extraction partir de textes, bass sur la syntaxe,
achoppent sur le passage une reprsentation conceptuelle : les classes mises jour ne
refltent pas forcment la structure conceptuelle du domaine, et une phase d'interprtation
humaine est indispensable [Habert 96bJ. Les auteurs pensent que leur mthode permet
surtout d'amorcer la construction d'une ontologie, en exhibant les objets et relations sus-
ceptibles d'tre reprsents. Ils proposent d'ailleurs une tude comparative trs intressante
avec les relations tablies par des experts du domaine pour la construction d'une ontologie
dans le domaine mdical [Bouaud 97J. Pour les mmes raisons que les travaux de Bouri-
gault et al., la mthode propose n'est pas directement exploitable pour rendre compte
de manire synthtique du contenu des textes: elle demande une tude approfondie et
itrative, peu compatible avec les besoins de l'analyse de l'information.
Les travaux d'Agarwal classes smantiques de noms et de verbes pour un
domaine de spcialit
Agarwal propose une mthode semi-automatique pour construire des classes sman-
tiques qui soient utilisables dans le cadre du traitement automatique des langues naturelles
47. Les accents sont volontairement omis par les auteurs.
109
Chapitre 5. tude des travaux d'extraction d'informations partir de textes pour l 'analyse de l'information
[Agarwal 94] [Agarwal 95]. Sa mthode s'applique sur des corpus de textes techniques. Elle
est compose des tapes suivantes:
- un pr-trai tement (tiquetage) puis une analyse syntaxique partielle qui met en vi-
dence des relations de dpendances syntaxiques t elles que sujet-verbe-objet, verbe-
complment, nom-prposition-nom, ... ,
- la dfinition d'un contexte pour chaque unit lexicale: pour un nom, on retient les
verbes les plus frquemment associs (en tant qu'objet et que sujet) ainsi que les
prpositions,
- la classification l'aide du systme COBWEB/3 48 des termes en classes smantiques,
en utilisant la similarit des contextes,
- l' assignation d'une tiquette smantique aux classes en faisant appel aux concepts de
WordNet 49. On obtient ainsi des motifs lexico-smantiques, comme par exemple:
TREAT- VERB DISORDER with MEDICATION
o TREAT-VERB, DISORDER et MEDICATION sont des classes smantiques re-
groupant plusieurs termes lis.
Le processus est itratif. Plusieurs classifications sont effectues pour dcouvrir de nou-
veaux motifs lexico-smantiques. L'assignation des tiquettes smantiques est initialement
manuelle. De mme, chaque tape requiert une intervention manuelle pour corriger les
motifs errons.
La mthode propose 50 est conue pour l'acquisition lexicale: elle permet de reprer
les motifs lexico-smantiques qui seront ensuite recherchs dans les textes pour une analyse
automatique. D'aprs [Pichon 97], les classifications obtenues sont pertinentes. Ce proces-
sus est simple mettre en oeuvre, mais requiert un travail important de vrification et de
correction diffrentes tapes. Les rsultats obtenus sont toutefois plus prcis que les ap-
proches de Bourigault ou Habert : les motifs lexico-smantiques sont proches des structures
prdicat-arguments dont nous discutons dans la section 5.3.3.
Les travaux de Grivel et Franois : classes de termes pour analyser l'information
bibliographique
Grivel et Franois proposent une station de travail pour analyser l'information biblio-
graphique dans une perspective de veille scientifique [Grivel 95a] [Grivel 95b]. L'objectif
est d' analyser le contenu d'un ensemble de documents partir de leur rsums, titres, et
descripteurs (termes) mais aussi d'analyser les acteurs, les institutions et les types de pu-
blications concernes. Pour cela, ils proposent une chane de traitement infomtrique qui
permet de construire des classes de termes et d'laborer des cartes thmatiques. Une carte
thmatique est dfinie comme une reprsentation de la topologie des relations entre des
disciplines ou des thmes de recherche, telles qu'elles sont matrialises sous la forme de
donnes bibliographiques .
48. Bas sur le mme principe que COBWEB, prsent section 2.3.
49. Base lexicale, que nous avons prsente section 4.3.2.
50. Une approche itrative similaire est adopte par Mikheev et Finch [Mikheev 95), qui propose des
outils statistiques et linguistiques pour reprer des motifs lexico-smantiques en utilisant la base lexicale
WordNet.
110
5.3. Les relations entre termes, pour structurer les units d'informations
Plus prcisment, il s'agit d'utiliser trois types d'indicateurs diffrents pour rpondre
la question: qui fait quoi, avec qui et o? [Grivel 97] :
- des termes, extraits des textes, comme indicateurs de la connaissance vhicule par
le document ,
- des classes de termes, comme indicateurs des thmes ou centres d'intrt autour
desquels s'agrgent l 'information (articles, auteurs, institutions, priodiques) ,
- une carte thmatique, comme indicateur stratgique de la position relative des
thmes dans l'espace de connaissance couvert par les documents analyss .
L'extraction des termes et l'indexation (association des termes aux document correspon-
dant ) repose sur des outils externes, comme le systme FASTER par exemple (cf. section
5.2.2). Grivel et Franois proposent deux outils diffrents pour constituer des classes de
termes: SDOC et NEURODOC 51.
SDOC utilise la mthodes des mots associs : les termes sont regroups selon leur
co-occurrence dans une mme phrase ou un mme rsum. Plus prcisment, la force de
l'association entre deux termes est calcule par l'indice d'Equivalence, qui s'exprime par
la formule:
Eij = Cl)(C
i
x Cj)
C
ij
nombre de co-occurrences des termes i et j
Ci frquence du terme i
Un algorithme de classification hirarchique ascendante construit ensuite des groupes de
termes n'excdant pas une taille maximale fixe par l'utilisateur. Par exemple, la figure 5.2
montre deux classes Cl et C
2
contenant respectivement les termes Tl, ... , T5 et T
6
, ... ,
Tg . L'indice d'quivalence est prcis pour chaque lien. Lorsqu'une classe atteint le nombre
maximal de termes autoriss, ce qui est le cas dans notre exemple pour Cl (max = 5),
les associations supplmentaires reprsentent des relations entre classes. Ainsi la relation
entre les termes Tl et T
6
est une association dite externe, liant les classes Cl et C
2
.
De manire similaire l'indexation, un document est associs une classe de termes
Cl T2 TI C2
.80
.55
.75 .70 .65 .74
T5 T3 Tl T6 T8
.72
.60
T4 T9
FIG. 5.2 - Deux classes Cl et C
2
de 5 termes maximum d'aprs [Grivel 95aj
s'il possde dans sa liste de termes associe au moins un couple pouvant constituer une
51. Nous ne dtaillons pas l'outil NEURODOC, qui est une approche complmentaire de celle utilise par
SDOC dont les principes sous-jacents sont similaires (constitution de classes et cartographie). NEURODOC
est prsent dans [Grivel 97) et [Grivel 95a).
111
Chapitre 5. tude des travaux d'extraction d'informations partir de textes pour l 'analyse de l 'information
association interne ou externe de la classe. Par exemple, un document contenant les termes
Tl et T3 est associ la classe Cl, et un document contenant les termes Tl et T6 est associ
aux classes Cl et C2. Les classes sont nommes par le terme de poids le plus fort parmi les
termes de la classe.
Les classes sont ensuite visualises sur une carte thmatique. Deux indices permettent
de positionner les classes sur une carte:
- la densit, qui reprsente la valeur moyenne des associations entre termes d'une
classe; intuit ivement, plus cette valeur est forte, plus la classe est cohrente et struc-
ture,
- la centralit, qui reprsente la valeur moyenne des associations entre les termes d'une
classe et les termes d'autres classes (associations externes) ; plus cette valeur est forte,
plus la classe est rattache au rseau thmatique.
La proximit de deux classes sur la carte indique seulement une similarit de structure,
et non des contenus smantiques lis. La carte permet un utilisateur d 'apprhender
globalement et localement le contenu d'un corpus bibliographique [Grivel 95aJ.
La figure 5.3 est un exemple de carte construite partir d'un corpus de textes scientifiques
dans le domaine de l'agriculture. Sur la carte, la classe DESHYDRATATION est slection-
ne, et les classes qui lui sont associes sont encadres : SECHAGE, STRESS, SUCRES.
Les classes les plus significatives sont celles situes dans la partie haute droite de la
carte (par exemple, SUCRES, VI GNE, MAIS), correspondant un densit et une centra-
lit leve. Les classes de faible densit et de faible centralit (par exemple, TEXTURE,
EA U, TERRE) sont souvent peu pertinentes, car elles sont formes en dernier et sont trs
htrognes.
Les travaux de Grivel et Franois reprsente une premire approche pertinente pour
l'analyse de l'information. Ils se distinguent des travaux orients vers l'acquisition (lexicale
ou conceptuelle) par un souci de prsentation et d'accessibilit des informations, au dtri-
ment d'une recherche en profondeur, itrative, qui n'est pas concevable pour une utilisation
en veille scientifique ou technique.
Il est toutefois envisageable de pousser plus loin l'analyse propose, en essayant de
mieux caractriser les relations dtectes par des moyens statistiques. Il faut alors s'in-
tresser aux approches symboliques qui permettent de reprer des structures qui rendent
compte de faon moins fragmente du contenu informatif des textes. Ce point est discut
dans la section suivante.
5.3.3 Les structures prdicat-arguments et les rles thmatiques pour
une meilleure caractrisation des relations
Pour obtenir une meilleure caractrisation des relations entre les termes, il est nces-
saire de s'intresser des fragments de phrases, notamment par le biais des structures
prdicatives. Nous avons mentionn le travail de Harris sur les sous-langages, qui consiste
identifier au sein des phrases des oprateurs et leur arguments afin de mettre jour le
contenu informationnel des textes (section 5.2.1). La notion d'oprateur correspond des
actions, des tats ou des vnements qui s'appliquent sur des objets. Il en est de mme
pour le prdicat, terme qui possde un sens gnral, et qui est pourvu d'arguments qui
prcisent ce sens. Le prdicat et ses arguments forment une structure prdicative.
112
45
40
35
30
25
20
15
10
5
e
5.3. Les relati ons entre termes, pour structurer les units d'informations
Qotanique
lectrophores e
fer
nmatode
labour
~ a n t
prin emps
bl
gnome
procd
biomasse
alimentation
plaine
mas
chromatographie
alcool
ravageur
insecticide ~
/-'
dshydra,tation
otype
forestier
minraux
huile
cal
refroidissement
rcolte
march
texture
densit.
ramificati
eau
terre
protine
germination
arbre
rendement
1 1 1 1 JI 1 t t Il 1 1 1 Il 1 1 1 Il 1 1 1 Il 1 1 1 lit 1 1 I l 1 1 1 Il 1 1 1 Il 1 1 1
5 10 15 20 25 30 35 40 45
FIG. 5.3 - Une carte thmatique sur un corpus en agriculture, construite avec SDOC dans
le cadre du projet ILC
113
Chapitre 5. tude des travaux d'extraction d'informations partir de textes pour l'analyse de l'information
On associ e chaque prdicat une structure argumentale, qui spcifie le nombre d' argu-
ments requis [Saint-Dizier 95J. Ces arguments reprsentent les lments qui interviennent
ncessairement dans l'vnement ou l'tat dcrit par le prdicat . Il faut alors distinguer ces
arguments essentiels des arguments optionnels, qui peuvent tre utiliss pour complter
le sens d'un prdicat. Par exemple, pour le verbe donner, qui est un prdicat d'arit 3
(X donne Y Z), il est possible de prciser o, quand, comment se droule l' action. Ces
complments ne rentrent pas en compte dans la structure argumentale de donner. Notons
que la distinction entre arguments essentiels et optionnels est loin d'tre vidente, et qu'il
n'existe pas de consensus pour dterminer de faon stricte l' arit d'un prdicat.
Les prdicats peuvent avoir diffrentes ralisation syntaxiques: si les verbes sont a priori
tous des prdicats, les noms, adjectifs et prpositions peuvent avoir un comportement
prdicatif. En particulier, les nominalisations (noms drivs d'un verbe) ont souvent une
structure argumentale rduite par rapport aux verbes, certains arguments devenant option-
nels. Par exemple, dtruire est un verbe d'arit 2 (X dtruit Y), mais la nominalisation
destruction ne requiert qu'un seul argument: la destruction de la ville.
Les arguments d'une structure argumentale n'entretiennent pas tous le mme rapport
avec le prdicat: si l'on dpasse le niveau strictement syntaxique (sujet, objet direct, objet
indirect, ... ), une certaine rgularit smantique est observable. Par exemple, de nombreux
prdicats possdent un argument qui fait intervenir un participant qui provoque ou est
l'origine de l' action correspondante. Cet argument est gnralement considr comme
l'agent du prdicat. Les relations entre prdicat et arguments sont ainsi factorises en un
ensemble restreint de rles thmatiques, qui correspondent des tiquettes smantiques
assignes aux arguments. Toutefois, il n'existe pas de dfinitions prcises et consensuelles
des rles thmatiques: d'une part, les ensembles de rles, et leur sens, varient selon les
auteurs; d'autre part, il n'existe pas de vritables critres pour distinguer les rles assigner
[Pugeault 95aJ.
Les rles thmatiques font le lien entre la syntaxe de la phrase et la smantique. C'est
pourquoi ils ont t utiliss en traitement automatique de la langue, malgr le manque
de caractrisation et l'absence de mthode de reconnaissance. Les dfinitions de rles les
plus connues sont sans doutes celles de Fillmore [Fillmore 68], Jackendoff [Jackendoff 90J
et Dowty 52. Les rles thmatiques suivants sont parmi les plus utiliss, et possdent une
dfinition a peu prs stable [Saint-Dizier 95J :
- agent: le participant dsign par le prdicat comme celui qui ralise ou cause l'action
(premier argument de manger, regarder, donner),
- patient: le participant subissant l'action ou tant affect par celle-ci (second argu-
ment de tuer, manger)
- source: le participant partir duquel l'action se droule (second argument de partir)
- but: la participant vers lequel l'action est dirige, ou la motivation d'une action
(second argument de arriver),
- localisation : la position, le lieu o l'action se droule,
- bnficiaire : le participant bnfi ciant de l'action (second argument d'offrir)
Les rles thmatiques peuvent tre hirarchiss selon leur probabilit d'tre pris comme
sujet d'une phrase, ce qui est utile pour la conception de systmes d'analyse, qui assignent
des rles aux entits d'une phrase. Ainsi, le rle agent est considr comme celui ayant le
52. Pour une t ude critique, voir [Pugeault 95a].
114
5.3. Les relations entre termes, pour structurer les units d'informations
plus de probabilit d'tre en position de sujet: en cas d'ambigut entre deux rles, agent
est assign. Enfin, il est possible de dcomposer certains rles en des fragments de sens,
correspondant des proprits plus prcises (proto-rles). L'analyse est alors plus fine, et
permet de traiter les cas o la continuit smantique entre deux rles rend le traitement
difficile: c'est le cas des rles agent et patient, dont la distinction est parfois subtile.
De manire gnrale, les chercheurs utilisant les rles thmatiques adoptent leur propre
ensemble de rles , qui sont adapts l'objectif vis et aux types de textes traits. On peut
faire un parallle avec les relations smantiques utilises en reprsentation des connais-
sances : il existe un ensemble restreint de relations incontournables, dont les dfinitions
sont a peu prs stables, et un ensemble potentiellement trs grand de relations moins fr-
quentes et plus prcises, dont les sens possdent une certaine continuit et s'enchevtrent.
De nombreux travaux se sont intresss l'automatisation de l'extraction de structures
prdicatives dans un corpus de textes [Delisle 96] . Nous discutons de deux solutions rcentes
qui montrent les possibilits et les limites des systmes d'extraction : le systme PAPINS,
conu pour l'indexation smantique de textes techniques de la socit EDF, et le systme
RECIT, conu pour la reprsentation smantique de textes mdicaux.
Le systme PAPINS extraction de structures prdicatives pour indexer les
textes
Le systme PAPINS (Prototype d'Analyse pour la Production d'INdex Smantiques)
a t conu pour extraire des informations partir de textes techniques, dans un but de
synthse et d'analyse [Pugeault 95a]. Plus prcisment, il est appliqu des textes relatant
des actions de recherche et dveloppement de la Direction des Etudes et Recherches d'EDF,
qui sont des textes techniques complexes d'environ 300-400 mots. L'objectif est de pouvoir
analyser automatiquement l'activit interne d'EDF, en montrant qui fait quoi, et quels
sont les rsultats disponibles. Il est donc trs proche de l'analyse de l'information, telle que
nous l'avons dfinie.
Pugeault a opt pour une approche linguistique, utilisant la smantique lexicale et met-
tant en oeuvre de nombreuses connaissances syntaxiques et smantiques sur le domaine
considr. L'ide est d'identifier et de reprsenter trois types de connaissances: les ac-
tions caractrisant des tats ou des vnements, les objets intervenant dans le procs d'une
action, et les relations existants entre une action et les objets qui lui sont associs . Pu-
geault a donc choisi d'exploiter des structures prdicatives, extraites partir des phrases
des textes du corpus.
PAPINS est compos de 3 niveaux distincts :
- un niveau pragmatique (niveau 1) qui partir de textes pr-traits identifie des
phrases et des fragments de phrases, et les classe en quatre articulations: thme,
motivations, problmes, ralisations. Le classement est opr par des rgles d'extrac-
tions qui reprent des marqueurs linguistiques dont la liste est tablie au pralable,
- un niveau linguistique (niveau 2) qui extrait automatiquement des structures prdi-
catives partir des fragments de phrases. Cette tape requiert un analyseur morpho-
syntaxique et de nombreuses connaissances linguistico-smantiques (dtailles ci-
aprs),
115
Chapitre 5. tude des travaux d'extraction d'informations partir de textes pour l'analyse de l'information
- un niveau conceptuel (niveau 3) qui utilise le formalisme des structures lexico-concep-
tuelles de Jackendoff53 [Jackendoff 90J pour reprsenter les formes prdicatives
sous un format plus gnrique , et permettre par exemple de travailler sur plusieurs
langues.
Le niveau pragmatique est intressant mais requiert des textes ayant toute la mme typo-
logie et la mme structure, ce qui n'est pas le cas en gnral. Nous ne dvelopperons donc
pas cet aspect. Le niveau linguistique montre que l'extraction de structures prdicatives
partir de phrases complexes est possible.
La solution propose par Pugeault est d'utiliser une grammaire partielle avec un en-
semble de rgles d'assignations de rles thmatiques, qui prennent en compte la syntaxe
et la smantique des prdicats et des arguments mis en jeu dans la phrase. Elle dfinit un
ensemble de rles thmatiques, inspirs des travaux de Levin et Jackendoff principalement.
Elle montre qu'il faut disposer initialement:
- d'une liste des prdicats, qui peuvent tre des verbes, des noms, et des prpositions,
- d'une organisation des prdicats en classes smantiques, qui regroupent des prdicats
de sens voisins. A chaque classe est attribue une grille thmatique, qui donne les rles
associs aux arguments. Par exemple, pour le prdicat manger, la grille thmatique
est (agent, thme) (pour la phrase Julien mange des fruits) ou agent (pour la phrase
Julien mange),
- d'une organisation des prpositions (avec, pour, dans, ... ) en classes, dont certaines
sont prdicatives et possdent une grille thmatiques, et d'autres sont grammaticales
et ne jouent pas le rle de prdicats,
- d'urie organisation hirarchique des arguments des prdicats, afin de pouvoir exprimer
des restrictions de slections, 54
- des rgles d'assignation de rles thmatiques, qui assignent un rle r tant donn un
ensemble de contraintes: l'argument doit tre de catgorie syntaxique N, de type X,
le prdicat doit tre de catgorie C, de classe smantique S, la prposition (ventuelle)
de type P. Par exemple, une rgle assigne le rle agent effectif si le prdicat est un
verbe ou un nom appartenant la liste [caractrisation, ralisation, ... , rponse,
sparation J et si l'argument est un nom commun ou nom propre de type humain.
Pugeault a ainsi dfini environ 90 rgles d'assignation de rles thmatiques pour son proto-
type. Elle considre que celui-ci conduit 78,5% de reprsentations prdicatives correctes.
Les problmes rencontrs sont lis principalement [Pugeault 95bJ
- l'analyseur morpho-syntaxique (tiquetage lexical),
- l'incompltude du lexique, qui contient les informations syntaxiques et smantiques
pour chaque unit lexicale,
- l'incompltude de la grammaire utilise: les phnomnes complexes tels que l'ana-
phore, les rfrences, les ambiguts lexicales, ... ne sont pas traits.
Le niveau conceptuel (niveau 3) n'a pas fait l'objet d'une implmentation et n'a pas t
exploit. Par contre, Pugeault s'est intresse par la suite la gnration automatique de
53. Lexical Conceptual Structure, LCS.
54. Les restrictions de slection sont des contraintes smantiques sur les arguments d'un prdicat, utilises
pour filtrer les arguments valides et non valides pour un prdicat. Dans le cas de PAPINS, une restriction
de slection est soit un type smantique, soit une combinaison de disjonctions et de conjonctions sur des
types.
116
5.3. Les relations entre termes, pour structurer les units d'informations
synthse de textes techniques partir de la reprsentation prdicative du corpus [Pugeault
96]. Il s'agit de pouvoir rpondre automatiquement des questions poses par un utili-
sateur, en s'appuyant sur la connaissance extraite et disponible sous forme de structures
prdicatives. Un algorithme en trois tapes permet alors: 1) d'apparier la question un
type de question qui permet de guider vers un schma de construction de la rponse; 2) de
rechercher les structures prdicatives rpondant la question; 3) de gnrer des phrases
en langages naturel partir des structures prdicatives slectionnes.
Le travail de Pugeault montre que l' extraction automatique de structures prdicatives
est possible et permet de cerner les principales difficults poses: le besoin important de
connaissances sur les units lexicales (prdicats et arguments) et la complexit des phrases
traiter. Toutefois, le prototype PAPINS ne permet de traiter qu'un ensemble trs limit
de textes, dans un domaine restreint. L'extension un autre domaine requiert un nouveau
travail de collecte d'informations lexicales et smantiques qui reprsente une charge impor-
tante de travail. Cette approche est sans doute trop ambitieuse pour une tche d'analyse
de l'information: il n'y a pas vraiment de slection ou de synthse de l'information, mais
une formalisation du contenu sous forme prdicative, sorte de rcriture normalise des
textes. L'analyse sous forme de questions-rponses, propose avec la gnration de phrases
en langues naturelles, ne permet pas de cerner l' ensemble des informations d'un corpus
de textes: elle est plus proche de la recherche d'information, et suppose la formulation
d'une requte. Nous pensons que l'obj ectif de l'analyse de l'information doit conduire des
systmes qui effectuent une analyse moins complte et plus slective, pour offrir une vue
plus synthtique du corpus.
Le systme RECIT: reprsentation du contenu informationnel de textes m-
dicaux
Le systme RECIT (REprsentation du Contenu Informationnel des Textes mdicaux)
a t conu pour extraire automatiquement l'information pertinente de textes mdicaux,
afin de la stocker et de l'utiliser directement pour la recherche d'information [Rassinoux
94]. L'approche choisie se veut pragmatique, et repose sur une description approfondie de
la smantique du domaine trait, la chirurgie digestive, et la prise en compte des spcificits
des textes analyss, des lettres de sorties d'une clinique.
Le systme RECIT effectue une analyse des textes en deux phases :
- une dcomposition des phrases en fragments significatifs, par un traitement des proxi-
mits qui prend en compte les proximits syntaxiques et smantiques des mots pour
les associer en structures significatives,
- une construction d'une reprsentation canonique des phrases l'aide du formalisme
des graphes conceptuels.
Rassinoux spare clairement deux niveaux, lexical et conceptuel :
- le niveau lexical concerne les units lexicales, c'est--dire les mots et les expressions
idiomatiques (groupes de mots considrs comme une squence non dcomposable),
et leur proprits linguistiques,
- le niveau conceptuel concerne la description des connaissances sur le domaine, expri-
mes par des concepts et relations entre concepts, et faisant appel au formalisme des
graphes conceptuels.
117
Chapitre 5. tude des travaux d'extraction d'informations partir de textes pour l'analyse de l 'information
Les concepts sont organiss hirarchiquement, et diviss en plusieurs catgories: acteurs,
vnements, attributs, valeurs et modalits. Les relations sont nombreuses et rparties
en quatre types permettant de prendre en compte les diffrents niveaux d'informations:
relations modales (ngation, possibilit, . . . ), relations thmatiques, relations temporelles
(dure, temps, ... ) et relations inter-phrases (but , cause, condition, . . . ).
Tout le traitement du systme RECIT consiste partir des mots et des expressions
idiomatiques 55, les associer, et calculer une reprsentation utilisant les concepts et
relations dfinies sur le domaine. La reprsentation conceptuelle est en fait trs similaire
aux structures prdicatives, puisqu'elle fait largement appel aux relations thmatiques. Elle
est cependant plus puissante, car elle permet galement de reprsenter des relations non
prises en compte dans les structures prdicatives, telles que les modalits ou les relations
entre phrases.
Tout comme le systme de Pugeault, RECIT ncessite de nombreuses connaissances.
Chaque unit lexicale est dcrite par ses proprits linguistiques et renvoie une descrip-
tion conceptuelle (souvent limite un concept ). Par exemple, les mots fi vre, afbrile et
cholcyst ectomie sont dcrits de la faon suivante dans le dictionnaire 56
fivre: nom (fminin , singulier), [cl _symptome]
afbrile : adjectifC, singulier), [NEG(cl _symptome: fievre)]
cholcystectomie: nom (fminin, singulier),
[cl _ trait _ chirurgical: ablation, [THEME( cl_ organe: vesicule_biliaire) II
La premire information renseigne sur la catgorie syntaxique et les traits flexionnels du
mot. La deuxime information associe une description conceptuelle au mot: ainsi, la cho-
lcystectomie est dcrite comme tant une ablation de la vsicule biliaire.
La figure 5.4 illustre les diffrentes tapes du traitement des proximits et les connais-
sances ncessaires. En plus du dictionnaire, quatre types de rgles sont utilises:
- des rgles morphologiques pour reconnatre certains mots absents du dictionnaire et
drivables partir d'autres mots,
- des rgles d'associations frquentes, qui associent des mots voisins . Par exemple, une
rgle associe deux mots X et Y dont les concepts sont cl_ quantit et cl_ unit_ temps
en une squence XY dont le concept est cl_ duree,
- des rgles de rsolution des ambiguts syntaxiques, qui permettent de dterminer la
catgorie syntaxique d'un mot lorsqu'il y a plusieurs possibilits, en se basant sur les
catgories syntaxiques des mots voisins,
- des rgles de compatibilit syntaxico-smantique, qui tant donn deux mots dont
les concepts sont X et Y et une structure syntaxique respecter, tablit une rela-
tion smantique entre X et Y. Par exemple, si X est un nom qui correspond un
des concepts cl_ zone_corps, ct organe ou cl_ membre, et si Y est un adjectif cor-
respondant au concept ct region, alors la squence XY se voit associer une relation
PARTIE_DE entre les concepts de X et Y,
55. Les expressions idiomatiques, telles que les dfinit Rassinoux, sont en fait des groupes nominaux, la
plupart du temps assimilables des termes.
56. Par souci de clart, nous simplifions la notation utilise par Rassinoux. Les classes smantiques
(cu concepts), par convention, ont un nom commenant par cl_ . Les relations smantiques sont en
caractres majuscules.
118
5.3. Les relations entre termes, pour structurer les units d'informations
PHRASE
identification des
entres lexicales
(mots + expressions
idiomatiques)
1
/
1
/
/
/----------------'
Connaissances utilises
.. " rgles morphologiques
~ dictionnaire excutable
1
.---+- rgles des associations frquentes
,
,
,
..... ~ rgles syntaxiques de dsambiguisation
1
,
,
\
\
\
\
....-_____ -I.... _____ --, structures grammaticales
~ rgles de compatibilit syntaxico-smantique
compatibilits syntaxico-smantique
traitement des groupes fonctionnels
PHRASE DECOMPOSEE
\
\
\
~ procdures fonctionnelles
" .(sujet, groupe, nominal, etc ... )
"
\
\
1
1
/
FIG. 5.4 - Les tapes du traitement des proximits du systme RECIT d'aprs [Rassinoux
94}
Le traitement des proximits permet d'aboutir des phrases dcomposes, dont les princi-
pales units significatives ont t tablies. La deuxime tape effectue la construction des
graphes conceptuels, en s'appuyant sur trois types d'informations:
- des schmas conceptuels, qui associent chaque concept un ensemble de relations
susceptibles d'tre reconnues, et optionnellement une liste de concepts susceptibles
d'tre mis en relation. Par exemple, au concept cl_ douleur est associ la relation LO-
CALISATION, au concept cl_signe_symptome est associ (entre autres) la relation
CAUSE et le concept cl_ maladie,
- des descriptions syntaxico-smantiques des verbes, qui associent chaque verbe un
concept ainsi que des relations conceptuelles et la faon dont elles sont ralises gram-
maticalement par des groupes fonctionnels (sujet, complment, ... ). Ainsi, pour le
verbe hospitaliser, le concept associ est cl_ trait_general :hospitalisation, la relation
INSTIGATEUR est ralise par la fonction grammaticale sujet et la relation EXPE-
RIENT57 est ralise par la fonction grammaticale complment d'objet direct,
- des connaissances par dfaut permettent de complter la description des relations.
Par exemple, la relation LOCALISATION se voit associer par dfaut le concept
cl_partie_ corps.
Les trois types d'informations se combinent, notamment par l'utilisation d'un mcanisme
d'hritage, et permettent ainsi de caractriser compltement les diffrents lments des
phrases. C'est la description des verbes qui permet de faire le lien entre la syntaxe (groupes
fonctionnels) et la smantique (concepts et relations smantiques). Le rsultat final est un
57. Dsigne celui qui subit une action.
119
Chapitre 5. tude des travaux d'extraction d'informations partir de textes pour l'analys e de l 'inf ormation
graphe conceptuel qui formalise le contenu informationnel de la phrase analyse. La fi gure
5.5 illustre le graphe obtenu pour une phrase du corpus mdical.
Ce patient fbrile de soixante et onze ans est hospitalis
depuis environ 2 j ours, l 'hpital de Genve, pour une douleur
pisodique et aigue de la fosse ili aque gauche

[TRAIT _GENERALhospitalisation)-
(EXPER)->[P ATIENT:patient #)-
(CHRC)->[SEXE:masculin)
(CHRC)->[AGE:71, anne)
(EXPER)<-[SYMPTOME:fivre)\
(TEMPS)->[EXPR_ TEMPS:depuis, dure(2, jour))-
(MODIF)->[MODIFICATEUR:environ)\
(LlEU)->[INSTITUTION:hopital #)-
(PREC)->[LIEU:genve)'
(CAUSE)->[DOULEUR)-
(FREQ)->[PERIODE: pisode)
(INTEN)->[AIGUE)
(LOC)->[ZONE_CORPS:fosse_ili aque #) -
(PART)->REGION:gauche)\\'
F IG. 5.5 - Graphe conceptuel obtenu partir d'une phrase du corpus d'aprs [Rassinoux
94)
Le systme RECIT, comme le systme PAPINS, n'effectue aucune synthse de l'infor-
mation : l'exploit ation de l'information extraite est ralise par l'intermdiaire de requtes.
Il s'agit en fait de la recherche d' information conceptuelle dcrite par Mauldin (cf. section
5.1) . RECIT effectue toutefois une analyse complte de textes, qui va plus loin que la
simple reprsentation de structures prdicatives : des infrences sont ralises, le texte est
analys en profondeur. Enfin RECIT est adapt pour prendre en compte plusieurs langues,
le niveau conceptuel tant indpendant de la langue.
Conclusion
Les structures prdicatives, ou des reprsentations smantiques similaires comme dans
RECIT, permettent de mieux apprhender le contenu informationnel. Des solutions existent
pour les extraire directement des textes comme nous l'avons vu avec le systme RECIT et
le systme PAPINS. Mais elles demandent beaucoup de connaissances la foi s syntaxiques
et smantiques: elles ne sont donc pas applicables hors d'un domaine rduit, et les r-
sultats ne sont pas suffisamment satisfaisants pour pouvoir tre utiliss directement, sans
intervention humaine.
De plus, l'extraction de chacune des phrases d'un texte pour en dduire une reprsenta-
tion normalise ne conduit pas une rduction des informations, mais seulement une
120
5.4. Vers une chane de traitement complte pour l'analyse de l'information
tentative de formali sation. Pour rpondre nos besoins en analyse de l'information, il faut
proposer une analyse plus simple. Il est possible de laisser de ct certaines structures trop
complexes, et de se focaliser sur les autres : les structures verbales peuvent par exemple
tre ngliges au profit des structures nominales, beaucoup plus frquentes dans les textes
techniques, comme nous le verrons plus loin. Nous montrons dans la section suivante com-
ment l'extraction de structures prdicatives peut tre mise profit dans une chane de
traitement d'analyse de l'information.
5.4 Vers une chane de traitement complte pour l'analyse
de l'information
Nous avons dcrit plus haut les travaux de Grivel et Franois, qui proposent une ap-
proche d'analyse de l'information utilisant des mthodes infomtriques (section 5.3.2).
Cette approche a t poursuivie dans le cadre du projet ILl AD 58, dont l'obj ectif a t
la construction d'une chane de traitement automatique pour l'analyse de l'information
contenue dans des corpus de grande taille [Toussaint 98] [Toussaint 96]. L'exprimentation
d'ILIAD a t ralise sur le domaine de l'agriculture sur un corpus de textes en franais
de 2,5 Mb (rsums de notices bibliographiques).
Cette chane repose sur un ensemble d'outils existants, dj prsents: ACABIT, FAS-
lB Pr- traiteme1lt du texte r- traitement du Thsauru 'III
Liste de termes
et leur structure syntaxique
associe
Classes de termes
--
FIG. 5.6 - Architecture de la chane de traitement ILIAD d 'aprs [Toussaint 98}
58. Informatique Linguistique et Infomtrie pour l'Analyse de grands fonds Documentaires, GIS Sciences
de la Cognition.
121
Chapitre 5. tude des travaux d'extraction d'informations partir de textes pour l'analyse de l'information
TER et SDOC. Nous en donnons son architecture figure 5.6. L'analyse des textes ncessite
l'utilisation d'un thsaurus qui fournit une liste de termes initiale sur le domaine.
Les tapes (1.a) et (1.b) consistent en un pr-traitement des textes et du thsaurus, nces-
saires pour l'utilisation des outils d'extraction.
L'tape (2), optionnelle, est ralise par ACABIT, et permet d'enrichir le vocabulaire des
termes utiliss.
L'tape (3) est ralise par FASTER et permet d'indexer les textes par les termes et leur
variantes.
Enfin, l'tape (4), qui construit les classes de termes, est ralise par SDOC. La figure 5.7
Rsums
Rsum N"0632
Rsum N'04260
Le prsent travai l a pour but de ...
Le comportement du systme racinaire.. . Nous prsentons un nouveau modle
La distribution des racines a t mise... spacialement explicite de dynamique ...
La part respective des deux portions du Le modle est construit partir de
systme racinaire de surface et de proCondeur sous-modles qui prdisent la
dans l'alimentation hydrique d'un arbre varie croissance des arbres individuellement
en Conctlon de la demande atmosphrique et la survie, la dispersion, le recrutement
de la disponibilit en eau du sol. et la disponibilit locale des ressources.
L- II_r_s_ ul_te_d_e_la_s,-y"_th__se_d_e ""ce::-s._ .. ____ --' La comptition esl entirement ...
l a s s e ~ s _""",,=:1"--_
FIG. 5.7 - Textes initiaux et classes de termes obtenues, d'aprs [Toussaint 98}
illustre le traitement effectu par la chane ILIAD. Les classes de termes sont exploites
par les outils de visualisation dcrits avec SDOC (voir section 5.3.2).
Cette chane est une association originale de techniques de traitement automatique de la
langue et d'infomtrie, utilise par des experts pour l'analyse de l'information en agriculture
et en mdecine.
Les informations fournies par les classes de termes restent toutefois assez imprcises
on connat les associations entre termes mais non la nature de ces relations. Il est donc
ncessaire, pour obtenir plus de renseignements sur le contexte d'une association, de consul-
ter les documents o elle apparat. Pour viter un tel retour aux documents, qui demande
souvent beaucoup de temps, il est possible de mettre en oeuvre des solutions plus fines,
telle que l'extraction de structures prdicatives.
Nous proposons ainsi d'utiliser deux moyens supplmentaires pour complter l'analyse
[Capponi 97bJ :
une organisation hirarchique sur les termes, qui permet de structurer les classes de
termes et d'identifier les associations de type paradigmatique (relations de spciali-
sation) entre termes,
une extraction des structures prdicatives mettant en jeu au moins un terme d'une
classe, afin d'identifier la nature de l'association de type syntagmatique entre ces
termes, et de proposer un contenu informationnel plus prcis.
Ces deux moyens permettent un accs plus fin au contexte d'une association et permettent
122
5.4. Vers une chane de traitement complte pour l'analyse de l'information
d'viter un retour aux documents, comme nous le mont rons dans le chapit re suivant.
Cependant , l'extraction des structures prdi catives conduit une masse d'information
beaucoup plus consquente. Pour limiter l' extraction, nous ne considrons que certaines
st ructures synt axiques, les structures nominales, et uniquement les phrases mett ant en
jeu les t ermes d'une cl asse. Pour prsenter ces informations de faon synthtique, nous
avons recours notre processus de gnralisation de structures prdicatives : le contenu
informatif est ainsi prsent en un ensemble rduit de gnralisations.
Nous dtaillons ces solutions dans le cadre d'une exprimentation en analyse de l'in-
formation sur un corpus de l'agriculture, prsente au chapitre suivant.
123
Chapitre 5. tude des travaux d'extraction d'informations partir de textes pour l'analyse de l'information
124
6
Les structures prdicatives et leurs
gnralisations pour l'analyse de
l'information
Nous avons propos deux moyens de caractriser de faon plus prcise une classe de
termes: (1) une organisation hirarchique des termes; (2) une extraction de structures
prdicatives mettant en jeu les termes de la classe. Dans ce chapitre, nous discutons d'une
exprimentation en analyse de l'information mettant profit les structures prdicatives
et leurs gnralisations. Nous montrons tout d'abord comment l'utilisation d'un thsaurus
permet d'obtenir une hirarchie de termes (section 6.2), puis comment les structures pr-
dicatives sont utilises pour identifier les relations de type syntagmatique et les synthtiser
(section 6.3). Nous dtaillons ensuite notre prototype mettant en oeuvre le processus de
gnralisation de structures prdicatives et son interface (section 6.4). Nous pouvons alors
prsenter l'valuation de la gnralisation pour l'analyse de l'information au travers d'une
exprimentation avec un documentaliste expert (section 6.5).
6.1 Le domaine d'application rsums bibliographiques sur
l'agriculture
Nous utilisons pour notre exprimentation un corpus de textes issus d'un fond docu-
mentaire dans le domaine de l'agriculture. Ces textes sont des rsums en franais, extraits
de la base PASCAL 59. Le corpus utilis comprend 2069 rsums provenant d'articles de
plusieurs revues scientifiques et portant sur divers thmes. Ces textes ont t analyss par
la chane de traitement ILIAD prsente au chapitre prcdent, et ont conduit la cration
de 50 classes de termes. La liste initiale de termes est fournie par le thsaurus AGROVOC 60,
comprenant environ 15 000 termes.
La figure 6.1 reprsente un texte issu de notre corpus, dont les termes ont t souligns.
Nous nous focalisons tout au long de ce chapitre sur une des classes gnres par SDOC
59. PASCAL est une base documentaire scientifique dveloppe et maintenue par l'INIST-CNRS.
60. Thsaurus multilingue dvelopp par AGRIS (Organisation des Nations Unies pour l'Alimentation et
l'Agriculture, unit de traitement AGRIS).
125
Chapitre 6. Les structures prdicatives et leurs gnralisations pour l'analyse de l'information
TITRE:
Identification et dosage des amines biognes dans les
farines d'origine animale
RSUM:
L'identification et le dosage des amines par forma-
tion de drivs orthophtalaldhyde puis passage en
chromatographie en phase liquide ont t appliqus
la dtermination des teneurs en cadavrine, histamine,
phnylthylamine, putrescine, spermidine, tryptamine et
tyramine dans les farines de viande et de poisson desti-
nes l'alimentation animale. Les rptabilits, les taux
de rcupration et les limites de quantification de la
mthode ont t tudis. Trente-sept chantillons de pro-
venance connue ont t analyss. Les rsultats obtenus
montrent les diffrences de composition en amines entre
farine de poisson et farine de viande. La composition en
amines des farines de poisson est diffrente en fonction de
l'origine gographique de ces farines.
FIG. 6.1 - Un rsum extrait du corpus, dont les termes sont souligns
pour illustrer le traitement propos. Nous avons choisi la classe CHROMATOGRAPHIE, qui
possde une centralit et une densit leve 61, assurant ainsi que la classe est cohrente et
non isole par rapport aux autres classes.
Rappelons qu'une classe est un ensemble de termes relis par des liens de co-occurrence.
La classe CHROMATOGRAPHIE contient 12 termes et 19 liens de co-occurrence.
Les termes de CHROMATOGRAPHIE sont donns par la table 6.1, qui prcise leur frquence
et leur poids. La table 6.2 donne les liens de co-occurrence entre les termes, avec leur
poids et leur nombre d'apparition dans le corpus. L'hypothse qui est la base de SDOC,
savoir que les associations calcules entre termes sur la base de leur co-occurrence ont
une interprtation smantique, est vrifie par le fait que les experts sont capables de
verbaliser les classes. Ainsi, la classe CHROMATOGRAPHIE est centre autour de la technique
de chromatographie, qui est utilise pour analyser des substances chimiques varies. La
classe contient de plus les oprations pour lesquelles la technique est utilise (dosage et
purification), les substances qui sont analyses (qui sont toutes des amines), et certains
produits de l'agriculture dans lesquels on peut trouver ces substances (produit laitier, miel,
boisson).
61. Ces notions sont dfinies section 5.3.2, dans le paragraphe dcrivant SDOC.
126
6.1. Le domaine d'application: rsums bibliographiques sur l'agriculture
Terme Frquence Poids
chromatographie 36 0.31
putrescine 9 0.24
amine biogne 8 0.28
histamine 6 0.14
boisson 17 0.14
polyamine 6 0.10
spermidine 4 0.10
spermine 3 0.10
dosage 41 0.10
produit laitier 5 0.03
purification 11 0.03
miel 7 0.03
TAS. 6.1 - Termes de la classe CHROMATOGRAPHIE avec leur frquence et poids
ID Association P C
LI spermidine & spermine 0.75 3
L2 amine biogne& histamine 0.52 5
L3 polyamine & spermine 0.50 3
L4 polyamine & putrescine 0.46 5
L5 putrescine & spermidine 0.44 4
L6 polyamine & spermidine 0.38 3
L7 putrescine & spermine 0.33 3
L8 histamine & putrescine 0.30 4
L9 amine biogne & putrescine 0.22 4
LlO amine biogne & chromatographie 0.12 6
Lll amine biogne & boisson 0.07 3
L12 chromatographie & dosage 0.06 9
L13 chromatographie & produit laitier 0.05 3
L14 chromatographie & putrescine 0.05 4
L15 amine biogne & dosage 0.05 4
L16 chromatographie & histamine 0.04 3
L17 chromatographie & purification 0.04 4
L18 chromatographie & miel 0.04 4
L19 boisson & chromatographie 0.01 3
TAS. 6.2 - Associations de la classe CHROMATOGRAPHIE avec leur poids (P) et leur nombre
de co-occurrences (C)
127
Chapitre 6. Les structures prdicatives et leurs gnralisations pour l'analyse de l'information
6.2 Rutiliser le thsaurus AGROVOC pour organiser les termes
en hirarchie
La classe de termes en elle-mme constitue un ensemble d'informations non structu-
res. L'organisation hirarchique permet de mettre en vidence les diffrentes catgories de
concepts mises en jeu par les termes: vnements, tats, entits vivantes, artefacts, pro-
prits, .... La construction d'une hirarchie est une tche longue et difficile. Pour limiter
le cot engendr, il semble pertinent de rutiliser une SOurce de connaissances. Nous avons
exploit le thsaurus AGROVOC, utilis pour constituer la liste initiale de termes traite par
FASTER (cf. section 5.2.2).
Un thsaurus est un dictionnaire de termes, o chaque entre possde des liens avec
d'autres entres. tant donn un terme i, ces liens sont de quatre types:
- termes gnriques, possdant un sens plus gnral que le terme t,
- termes spcifiques, possdant un sens plus restreint que le terme t,
- termes synonymes, possdant un sens voisin du terme t,
- termes lis, possdant un lien smantique non prcis avec le terme t.
AGROVOC est constitu d'environ 15 000 termes principaux possdant une entre dans le
thsaurus, et d'environ 7 000 termes synonymes qui n'ont pas d'entres et sont lis un
terme principal unique. La figure 6.2 donne deux entres extraites d'AGROVOC. Les deux
entre: AMINE
termes gnriques: COMPOS AMIN
termes spcifiques: AMINE BIOGNE, HYDROXYLAMINE,
POLYAMINE
entre: PRODUIT DE LA RUCHE
terme synonyme: EXTRAIT DE RAYON
termes gnriques: PRODUIT ANIMAL
termes spcifiques: CIRE D'ABEILLE, GELE ROYALE, MIEL, PROPOLIS
termes lis: PRODUCTION DE MIEL
FIG. 6.2 - Deux entres du thsaurus AGROVOC, AMINE et PRODUIT DE LA RUCHE
premiers types de liens du thsaurus (gnriques et spcifiques) structurent les termes
en hirarchie. Les termes n'tant pas tous connexes, il existe de fait une multitude de
hirarchies de tailles diverses (environ 1400 hirarchies). Il est donc ncessaire de complter
le thsaurus pour uniformiser la structure et obtenir une hirarchie unique.
La modification du thsaurus consiste ajouter une hirarchie de catgories abstraites,
qui connecte les diffrentes parties du thsaurus. Par exemple, l'ajout d'une catgorie abs-
traite produit permet d'aboutir la hirarchie illustre figure 6.3. La rutilisation d'un th-
saurus peut poser quelques problmes dans le mesure o c'est un outil principalement des-
tin une utilisation humaine. Par exemple, la classification n'est pas homogne: comme
l'illustre la hirarchie de la figure 6.3, les diffrents points de vue sur un concept (e.g., clas-
sement selon l'origine ou la fonction d'un produit) sont traits indiffremment. De mme,
128
6.2. Rutiliser le thsaurus AGROVOC pour organiser les termes en hirarchie
produit
pmd':1' ~
vgtal / 1
. produit
prodUit agrochimique
!ransfonn
produit
limentaire
produit animal
---- sorte-de
FIG. 6.3 - Structuration des hirarchies du thsaurus par ajout de la catgorie abstraite
produit
certains termes du thsaurus sont regroups selon un sous-domaine plutt que selon les
proprits intrinsques des concepts correspondants. Par exemple, la hirarchie du terme
aquaculture contient un objet physique (tang) parmi un ensemble d'vnements (figure
6.4) 62 . Ces problmes se posent naturellement tous les concepteurs de hirarchies, que ce
aquaculture
/ ; \ ~
algoculture ' 1
. . 1 e evage
plSC1CU ture de tortues
tang de
pisciculture
~ sorte-de
FIG. 6.4 - La classification du thsaurus n'est pas toujours homogne
soit pour construire un thsaurus ou une ontologie, pour le traitement du langage naturel
ou pour les systmes base de connaissances. Il est gnralement admis que ce travail ne
peut tre qu'empirique et restreint un domaine prcis ou une tche prcise [Bachimont
95]. Dans la mesure o il s'agit d'une classification smantique, il semble impossible d'ob-
tenir une hirarchie totalement satisfaisante. Il existe trop de ramifications entre les sens
des diffrentes notions possibles pour pouvoir les cerner l'aide d'une simple hirarchie.
Les rflexions les plus abouties sur cette question sont sans doutes celles de Zweigenbaum
et al., qui prconisent de se restreindre des arbres (hirarchie strictes) et proposent des
critres de regroupement des notions [Zweigenbaum 94] [Charlet 94] [Bachimont 95] . Dans
le cadre de l'analyse de l'information, la structure idale est celle construite par ou avec
l'utilisateur, afin qu'il puisse exploiter et interprter au mieux la classification.
La structure hirarchique tablie sur les termes permet de structurer les classes tablies
par SDOC. Nous montrons sur la figure 6.5 la projection de la classe CHROMATOGRAPHIE
sur la hirarchie. Les termes de la classe sont encadrs . La visualisation graphique de la
classe met en vidence les diffrents groupes de termes prsents au sein de la classe. Deux
concepts principaux sont clairement identifis: les amines, qui sont des substances, et les
produits, qui sont les objets issues de l'agriculture. A ct de ces objets, on trouve trois
processus : chromatographie, dosage et purification.
La hirarchie permet d'identifier, parmi les associations de la classe de termes, celles
62. De plus, le lien entre aquaculture et tang est difficilement interprtable comme sorte-de .
129
Chapitre 6. Les structures prdicatives et leurs gnralisations pour l 'analyse de l 'information
TOP
FIG. 6.5 - Termes de la classe CHROMATOGRAPHIE replacs dans la hi rarchi e
qui correspondent une relation paradigmatique. Les liens Ll L g de la classe CHRO-
MATOGRAPHIE sont des liens paradigmatiques. L'importance numrique de ces liens (9
sur 19 pour la classe CHROMATOGRAPHIE) montre que ce ne sont pas les seules relations
syntagmatiques qui sont exhibes par les mthodes infomtriques. Nous nous sommes li-
mits aux relations de gnralit, mais il serait envisageable d'introduire d'autres relations
paradigmatiques, t elles que les relations partie-tout [Winston 87]. Cela ncessiterait alors
de les introduire et de les reprsenter dans la hirarchie des termes.
La figure 6.6 illustre les termes de la classe CHROMATOGRAPHIE structurs par la
hirarchie ainsi que les liens de co-occurrences qui ne correspondent pas des relations
paradigmatiques. Comment rendre compte de ces liens? C'est l'extraction de structures
TOP
- ESTUN
EVENEMENT - - - - - - - LlEN DE CO-OCCURRENCE
/
ACTIVITE
. ----------------_.- ---------------------------- -- --- - ----- -----------
. -------- ------------ ----------------------- ---------------------------------- ---_.'
:. - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
FIG. 6.6 - Termes de la classe CHROMATOGRAPHIE replacs dans la hirarchi e, avec uz-
sualisation des liens de co-occurrences
prdicatives mettant en jeu des termes de la classe qui permet de les identifier. Mais bien
130
6.3. Les structures prdicatives pour identifier les associations de type syntagmatique
plus que cela, les structures prdicatives vont permettre de gnraliser les associations
issues des classes de termes, et permettre d'accder une vue plus synthtique du contenu
informationnel des textes.
6.3 Les structures prdicatives pour identifier les associations
de type syntagmatique
Comme nous l'avons dit auparavant (section 5.4), nous nous limitons l'identification
de certaines structures prdicatives afin de limiter la complexit des traitements (cf. section
5.3.3). Tout d'abord, pour une classe de termes donne, seules les structures prdicatives
faisant intervenir au moins un terme de la classe sont prises en compte. Ensuite, nous
laissons de cot les structures verbales, et ne nous intressons qu'aux structures nominales.
Ce choix est motiv par le fait que les textes scientifiques et techniques font largement
appel la nominalisation : un prdicat nominal est utilis la place d'un prdicat verbal,
conduisant un groupe nominal prdicatif. Ainsi, la phrase:
Les amines ont t doss par chromatographie liquide haute pression.
peut tre remplace par la phrase suivante:
Un dosage des amines par chromatographie liquide haute pression a t effectu.
o l'information essentielle est exprime sous forme nominale:
dosage des amines par chromatographie liquide haute pression.
La prdominance des phrases nominales sur les phrases verbales dans les textes scienti-
fiques et techniques peut tre plus ou moins marque selon le type de textes, et le domaine
considr [Copeck 97J. Cette prdominance est vrifie dans notre corpus.
Pour notre exprimentation, nous ne disposions pas de systme d'extraction, et nous
n'avions ni le temps ni les moyens ncessaires d'en concevoir un. Nous avons donc eu
recours une extraction non automatise. Cependant, notre objectif tant de proposer
un traitement raliste des textes, nous avons volontairement restreint l'extraction aux
groupes nominaux, afin de montrer notamment qu'elle est suffisante pour l'analyse de
l'information.
Le tableau 6.3 illustre quatre groupes nominaux, extraits des rsums du corpus, ayant
un comportement prdicatif. Ils sont composs d'un prdicat nominal et de ses arguments.
La colonne de droite numre les associations de la classe CHROMATOGRAPHIE qui corres-
pondent ces groupes nominaux. Les structures prdicatives correspondantes sont respec-
tivement :
SPI: dosage(objet: amine biogne, moyen: chromatographie liquide haute per-
formance)
SP2 : quantification( objet : produit laitier, moyen: chromatographie liquide haute
pression)
SP
3
: dtermination( objet: amine biogne, localisation: boisson)
SP4 : purification(moyen: chromatographie sur gel)
SP
5
: dosage (objet : polyamines)
131
Chapitre 6. Les structures prdicatives et leurs gnralisations pour l'analyse de l'information
#
Groupe nominal type de lien lien
GN
I
Dosage d'amines biognes par chromato- processus-objet ,
LlO, Ll2, LI5
graphie liquide haute performance processus-
processus
GN
2
Quantification de produits laitiers par processus-objet
LI3
chromatographie liquide haute pression
GN
3
Dtermination d'amines biognes dans les objet-objet Lu
boissons
GN4
Purification par chromatographie sur gel processus- Ll7
processus
GN
5
Dosage de polyamines processus-objet
TAS. 6.3 - Exemples de groupes nominaux du corpus illustrant les liens de co-occurrence
Les structures prdicatives permettent de caractriser les liens de co-occurrence de la
classe de termes. Ainsi, le groupe nominal GN
I
et sa structure prdicative correspondante
SPI apportent des prcisions sur trois liens: LlO, L
I2
et L15' Le lien LlO entre amine
biogne et chromatographie s'explique par l'action de dosage d'une substance chimique
(l'amine) par une certaine technique analytique (la chromatographie). La structure prdi-
cative permet de re-situer l'association entre les deux termes dans son contexte.
L'intrt principal du recours aux structures prdicatives est de pouvoir gnraliser les
associations d'une classe. En effet, en prenant en compte la hirarchie des termes, il est
possible de regrouper des termes de sens proches 63 pour en dduire un terme plus gnral.
Par exemple, considrons le lien de co-occurrence (L
I3
), qui relie produit laitier et chroma-
tographie. Ceci est reflt par la structure prdicative S P
2
. Par ailleurs, une autre structure
prdicative du corpus montre un lien entre miel et chromatographie. Il est alors lgitime de
considrer qu'il existe un lien plus gnral entre les deux termes produit et chromatographie
comme l'illustre la figure 6.7.
De la mme faon, les groupes nominaux GN
I
et GN
5
, mettent en jeu les deux termes po-
lyamine et amine biogne avec le terme dosage: nous pouvons induire un lien plus gnral
entre les termes amine et dosage, amine correspondant la gnralisation de polyamine et
amine biogne (figure 6.8).
Ceci revient effectuer une gnralisation sur les structures prdicatives. Notre processus
de gnralisation, prsent au chapitre 4, peut ainsi tre appliqu sur les structures prdi-
catives extraites et permettre de synthtiser le contenu informationnel correspondant. Les
structures prdicatives extraites et les gnralisations obtenues forment un moyen perti-
nent de collecter l'information des textes, mi-chemin entre les classes de termes et les
textes.
Les rgles d'extraction des structures prdicatives partir du corpus ont t les sui-
vantes:
- la structure prdicative doit tre sous forme nominale,
- les arguments, ou une partie des arguments, doivent avoir t reconnus comme termes
par le systme FASTER,
- les rles thmatiques utiliss sont: agent, objet, but, moyen, localisation.
63. C'est--dire dont les positions dans la hirarchies sont proches.
132
6.3. Les structures prdicatives pour identifier les associations de type syntagmatique
est-wl
lien de co-occurence gnrali s
lien de co-occurrence
PRODUIT

PRODUIT_ANIMAL PRODUIT_TRANSFORME PRODUIT_ALIMENTAIRE
t
t
MIEL
t
PRODUIT _ANIMAL3RANSFORME
t
1 PRODUIT_LAITIER 1
1
\
CHROMATOGRAPHIE
1 BOISSON
1 1
1 ________________________________ 1
__________________________________________ ______ _____ ___ ___ 1
FIG. 6.7 - Gnralisation des liens entre chromatographie, produit laitier, miel
AMINE 1 DOSAGE 1
' ,
1 ______ ----_:
1
I ______________________________ }
li en de co-occurrence gnralis
lien de co-occurrence
-- est-un
FIG. 6.8 - Gnralisation des li ens entre dosage, amine biogne, polyamine
133
Chapitre 6. Les structures prdicatives et leurs gnralisations pour l'analyse de l'information
Les prdicats nominaux extraits ont t introduits dans la hirarchie lorsqu'ils n'en faisaient
pas partie.
Nous prsentons dans la section suivante notre prototype qui met en oeuvre la gnra-
lisation des structures prdicatives.
6.4 Un prototype pour la prise en compte des structures pr-
dicatives
Nous avons mis en oeuvre un prototype permettant d'effectuer la gnralisation des
structures prdicatives et de visualiser le rsultat. Nous situons ce prototype comme un
lment supplmentaire dans la chane de traitement de l'analyse de l'information, comme
outil complmentaire aux cartes thmatiques fournies par SDOC. Il est donc destin un
utilisateur ralisant l'analyse d'un ensemble de textes.
Le prototype est compos de deux modules:
- un noyau permet de reprsenter les structures prdicatives au sein d'une hirarchie
et de calculer des gnralisations,
- une interface utilisateur permet d'exploiter et de visualiser les diffrentes informations
(concepts, structures prdicatives).
Le noyau utilise la logique de descriptions CLASSIC, qui fournit les fonctionnalits de base
pour la reprsentation des structures prdicatives et la gestion de la hirarchie. Nous avons
conu un ensemble de fonctions Lisp mettant en oeuvre les algorithmes de gnralisation
que nous avons prsents au chapitre 4.
L'interface utilisateur permet :
1 de visualiser la hirarchie selon plusieurs modalits: (1) avec ou sans les structures
prdicatives, des niveaux de profondeur variables; (2) en se focalisant sur les termes
d'une classe particulire,
2 de visualiser la liste des prdicats utiliss, des structures prdicatives initiales, des struc-
tures prdicatives calcules (gnralisations),
3 de visualiser la description complte d'une structure prdicative ou d'un concept de la
hirarchie,
4 de parcourir les structures prdicatives l'aide d'une fonction hypertexte, selon l'ordre
hirarchique.
La visualisation de la hirarchie et ses diffrents modes est illustre par les figure 6.9,
6.10 et 6.11. La premire vue (figure 6.9) permet de se familiariser avec la hirarchie des
concepts. La deuxime (figure 6.10) permet une vue globale, sans dtail, des diffrentes
gnralisations 64. La troisime vue (figure 6.11) permet de si tuer tous les termes d'une
classe sur un seul graphe, partir du nom de la classe de terme. La figure 6.12 montre la
liste des gnralisations calcules sur la classe chromatographie, dont on peut consulter la
description comme cela est illustr par la figure 6.13.
La visualisation sous forme hypertexte est destine obtenir une vision hirarchise du
contenu informationnel. Le point d'entre est constitu par les structures prdicatives les
64. Le terme dosage apparat sous sa forme prfrentielle donne par le thsaurus AGROVOC, analyse
quantitative. En effet, dans AGROVOC, dosage est un synonyme du terme analyse quantitative.
134
6.4. Un prototype pour la prise en compte des structures prdicatives
FIG. 6.9 - Visualisation de la hirarchie des concepts, sans structures prdicatives
135
Chapitre 6. Les structures prdicatives et leurs gnralisations pour l'analyse de l'information
FIG. 6.10 - Visualisation de la hirarchie des concepts, avec des structures prdicatives
(gnralisations prfixes par la lettre G)
136
6.4. Un prototype pour la prise en compte des structures prdicatives
. .... _ ~ __ MIEL
FIG. 6.11 - Visualisation des termes de la classe CHROMATOGRAPHIE projets sur la hi-
rarchie
137
Chapitre 6. Les structures prdicatives et leurs gnralisations pour l 'analyse de l 'informat ion
FIG. 6.12 - Visualisation de la liste des gnralisations calcules
138
6.4. Un prototype pour la prise en compte des structures prdicatives
concept: G14-ANALYSE_QUANTITATIVE
:
. '.>
, . pred.':: '.
ANALYSE QUANTITATIVE
a p;ur OBJET : HMF
a pour MOYEN : TECHNIQUE_ANALYTIQUE
. a pour LOCALISATION : MIEL
., .
FIG. 6.13 - Visualisation de la description d'une structure prdicative, obtenue par double-
clic sur un lment de la figure 6.12
plus gnrales calcules pour une classe donne. Ces structures sont affiches sous forme
textuelle accompagnes de leur description. En cliquant sur la zone d'une structure prdi-
cative A, on accde ses fils, qui sont leur tour affichs. Il est ainsi possible de parcourir
les structures prdicatives des plus gnrales aux plus spcifiques, pour dcouvrir les dif-
frentes informations extraites des textes. Pour chaque structure prdicative affiche, nous
donnons des informations numriques permettant de connatre l'importance quantitative
d'une information dans les textes. Ces informations numriques sont de deux types:
- pour une structure prdicative A, nous donnons le pourcentage de structures prdi-
catives couvertes par rapport l'ensemble des structures prdicatives collectes,
- pour une structure prdicative A, de parent B, nous donnons le pourcentage de struc-
tures prdicatives couvertes par A par rapport aux structures prdicatives couvertes
par B.
Les figures 6.14 et 6.15 montrent deux crans de parcours hypertexte des structures prdi-
catives. La premire figure (6.14) concerne la gnralisation G16-ANALYSE_QUANTITATIVE
dont la description (absente de la figure) est:
G16-ANALYSE_QUANTITATIVE (and ANALYSE_QUANTITATIVE
(aU moyen CHROMATOGRAPHIE
A ct du nom, G16-ANALYSE_QUANTITATIVE, figure en absolu et en pourcentage le
nombre de structures prdicatives subsumes. Ainsi, G16-ANALYSE_QUANTITATIVE couvre
9 structures prdicatives sur 124 extraites, ce qui reprsente 7,3% des structures prdi-
catives. Les informations donnes sont les structures prdicatives qui sont fils du concept
G16-ANALYSE_QUANTITATIVE.
On observe ainsi qu'il y a une gnralisation, G19-ANALYSE_QUANTITATIVE, et trois struc-
tures prdicatives initiales, DOSAGE-30, DOSAGE-28 et DOSAGE-104, qui sont des subsums
139
Chapitre 6. Les structures prdicatives et leurs gnralisations pour l'analyse de l'information
ANALYSE_QUANTITATIVE
a pour OBJET : SUBSTANCE
a pour MOYEN : CHROMATOGRAPHIE
VaS!\GE- 30 [ )
ANALYSE QUANTITATIVE
a pour MOYEN : CHROMATOGRAPHIE_EN_PHASE_GAZEUSE
DOSAGE- 2 8 [ )
ANALYSE QUANTITATIVE
a pour MOYEN : CHROMAT OGRAPHIE_EN_COUCHE_MINCE
DOSAGE- l 04 [ )
ANALYSE QUANTITATIVE
a pour MOYEN : CHROMATOGRAPHIE_LIQUIDE_HAUTE_PRESS
"/.
--, - , -: --... ,-:, -, - , --
.. ',... .
.. BS , v' SIltct y:, . agent '1
' .
FIG. 6.14 - cran de parcours hypertexte des structures prdicatives, faisant apparatre les
fils de la gnralisation G16-ANALYSE_QUANTITATIVE
140
6.4. Un prototype pour la prise en compte des structures prdicatives
Icollcpt : G19;ANALYSEQUA.:"lTlTATIVE 1 6/124 14.8%1
. ~ . ,.
/.
DOSAGE-j
ANALYSE QUANTITATIVE
a pour OBJET : SULFURE
. option.: STANDARlll BAS
noinIinI do gonoraIIsaUons : o'
. rWSP:6
a pour MOYEN CHROMATOGRAPHIE_EN_PHASE GAZEUSE
DOSl\GE-6 [ 1
ANALYSE_QUANTITATIVE
a pour OBJET : AMINE_BIOGENE
a pour MOYEN : CHROMATOGRAPHIE_LIQUIDE_HAUTE_PRESS
DOSl\GE-57 [ 1
ANALYSE QUANTITATIVE
a pour OBJET : HMF
a pour MOYEN : CHROMATOGRAPHIE
a pour LOCALISATION : MIEL
D0ShGE-50 [ 1
ANALYSE QUANTITATIVE
a pour OBJET : ACIDE ASCORBIQUE
a pour MOYEN : CHROMATOGRAPHIE_LIQUIDE_HAUTE_PRESS
FIG. 6.15 - cran de parcours hypertexte des structures prdicatives, faisant apparatre les
fils de la gnralisation G19-ANALYSE_QUANTITATIVE
141
Chapitre 6. Les structures prdicatives et leurs gnralisations pour l'analyse de l'information
immdiats de G16-ANALYSE_QUANTITATIVE. La description de chaque structure prdicative
(gnralisation ou structure initiale) est affiche. Si une structure possde des descendants,
comme c'est le cas de G19-ANALYSE_QUANTITATIVE sur la figure, il est possible d'accder
par simple clic sur sa zone ses descendants directs. De plus, le nombre de structures
prdicatives auquel elle permet d'accder est affich, en absolu et en pourcentage par rap-
port aux structures couvertes par le concept courant (ici G16-ANALYSE_QUANTITATIVE).
Dans le cas de G19-ANALYSE_QUANTITATIVE, 6 des 9 structures prdicatives couvertes par
G16-ANALYSE_QUANTITATIVE sont accessibles, soit un peu plus de 66%.
La deuxime figure (6.15) concerne la gnralisation G19-ANALYSE_QUANTITATIVE, ob-
tenue partir de l'cran prsentant G19-ANALYSE_QUANTITATIVE en cliquant sur la zone
textuelle correspondante. G19-ANALYSE_QUANTITATIVE subsume directement 6 structures
prdicatives, dont 4 sont visualises sur l'cran. Elle ne subsume aucune autre gnralisa-
tion.
L'outil hypertexte est conu comme un moyen de dcouvrir le contenu information-
nel des textes de manire descendante, en commenant par les structures prdicatives
les plus gnrales, couvrant de nombreuses structures prdicatives initiales, pour abou-
tir des informations trs spcifiques. L'utilisateur peut dcouvrir ainsi progressivement
les vnements relevs dans les textes, sans tre perdu dans une masse d'informations. Il
est galement possible de remonter la hirarchie et d'accder directement aux structures
prdicatives en donnant une requte sous la forme d'un simple prdicat.
Notre interface est limite au niveau des fonctionnalits, car nous avons consacr peu
de temps sa mise en oeuvre. En particulier, nous n'avons pas intgres celles qui sont
offertes par les outils de visualisations de SDOC (dont le nom est HENOCH [Grivel 97]).
Il n'est donc pas possible l'aide de notre prototype d'accder la liste des termes et des
associations pour une classe donne, ainsi qu' la carte thmatique, mais surtout d'accder
aux documents partir d'un terme ou d'une association. La mise en oeuvre de ces fonc-
tionnalits dans notre prototype ne pose cependant aucune difficult.
L'intrt de notre prototype rside dans la prise en compte des structures prdicatives, ce
que ne permet pas HENOCH, qui n'est qu'un outil de prsentation des rsultats de SDOC.
6.5 Evaluation de la gnralisation pour l'analyse de l'infor-
mation
Pour valuer l'apport de la gnralisation au processus d'analyse de l'information, nous
avons ralis une exprimentation avec un expert documentaliste 65. L'exprimentation a
port sur l'analyse de deux classes de termes: l'une avec l'environnement fourni par la
plateforme ILIAD, et l'autre avec notre prototype de gnralisation de structures prdica-
tives. L'objectif est de cerner l'apport du processus de gnralisation pour l'analyse finale
ralise par l'expert.
Dans un premier temps, nous montrons que la qualit des gnralisations obtenues est
difficile tablir, car elle est assez subjective. Nous essayons d'identifier les paramtres qui
peuvent faire varier cette qualit. Nous exposons ensuite l'exprimentation avec l'expert
documentaliste, et dtaillons les rsultats, puis nous concluons sur cette valuation.
65. Nous appelons ainsi un documentaliste qui possde une bonne connaissance (une expertise) d'un
domaine de spcialit.
142
6.5. Evaluation de la gnralisation pour l'analyse de l 'information
6.5.1 La qualit d'une gnralisation, une notion trs relative
La hirarchie obtenue peut tre juge selon la qualit des gnralisations qu'elle contient.
Cette notion est difficile dfinir dans la mesure o il n'existe pas a priori de critres ob-
jectifs. Nous essayons de dfinir des critres gnraux puis d'identifier les facteurs qui vont
intervenir dans l'obtention de gnralisations satisfaisantes.
Une gnralisation doit tre un bon compromis entre gnralit et prcision.
Elle doit tre suffisamment gnrale: elle est peu utile si elle ne permet pas de synthtiser
plusieurs structures prdicatives. Par exemple, si les gnralisations ne correspondent qu'
la synthse de structures prdicatives deux deux, la hirarchie rsultante possde un
grand nombre de structures intermdiaires qui rendent difficile l'interprtation du contenu
informatif. La gnralit des structures permet d'assurer une bonne couverture des infor-
mations. Par exemple, une structure prdicative qui couvre 10% ou 20% de l'ensemble des
structures prdicatives est trs utile pour cerner le contenu informatif global.
Une gnralisation doit tre suffisamment prcise: si les termes utiliss sont trop abs-
traits, trop gnraux, alors l'information est quasiment nulle. Elle doit apporter une infor-
mation. Les concepts du haut de la hirarchie, trs abstraits, tel que objet physique
ou vnement n'apportent finalement aucune information pertinente.
Deux facteurs essentiels interviennent dans la qualit d'une gnralisation, indpen-
dants de l'algorithme de calcul utilis:
- la qualit de la hirarchie de concepts utilise,
- la diversit des informations contenues dans les structures prdicatives que l'on
cherche gnraliser.
La hirarchie de concepts initiale, utilise pour catgoriser les diffrentes connaissances
sur le domaine considr, influe beaucoup sur les gnralisations obtenues. Si elle est trop
approximative, cela se rpercute dans les gnralisations. Idalement, il faut donc disposer
d'une hirarchie de concepts adapte l'utilisateur final, sa terminologie et l'image
mentale qu'il se fait du domaine. Toute diffrence entre la hirarchie telle qu'elle est conue
et l'ide que s'en fait l'utilisateur introduit un facteur d'incomprhension qui rduit l'intrt
de disposer d'une vue synthtique du contenu informationnel des textes. Par exemple, si la
hirarchie positionne le concept A comme un fils du concept B, et que l'utilisateur peroit
A et B comme des concepts de mme niveau, il ne comprendra pas la gnralisation de A
et B en A, et s'attendra trouver un concept C subsumant la fois A et B.
La diversit des informations contenues dans les structures prdicatives joue galement
un rle prpondrant. C'est un facteur externe, qui dpend finalement de l'homognit du
corpus de textes trait. Si les structures prdicatives sont trs htrognes, la gnralisation
conduit un ensemble de structures prdicatives trs gnrales, constitues de termes trop
gnraux pour tre pertinents. Calculer des gnralisations consiste en quelque sorte
appauvrir les descriptions individuelles afin d'en dduire des descriptions plus globales
mais moins prcises. Si cet appauvrissement est trop grand, les descriptions perdent leur
intrt, et deviennent inutiles. Une autre consquence de l'htrognit des informations
est une augmentation du nombre de niveaux hirarchiques, qui contribue rendre moins
lisible la hirarchie.
En ce qui concerne notre exprimentation, le corpus, bien que couvrant de nombreux
thmes de l' agriculture, s'avre assez homogne. 50 classes ont t calcules par SDOC, et
143
Chapitre 6. Les structures prdicatives et leurs gnralisations pour l'analyse de l'information
nous avons choisi une classe bien positionne (centralit et densit). Il n'est videmment
pas possible d'obtenir le mme rsultat avec les 50 classes. En ce qui concerne la hirarchie
initiale de concepts, elle n'est pas d'une excellente qualit: d'une part, elle provient de la
rutilisation d'un thsaurus destin la consultation humaine, donc peu adapt priori
une classification rigoureuse; d'autre part, nous n'avons pas pu 66 nous concerter avec
l'expert documentaliste afin d'adapter la hirarchie son expertise, et nous ne sommes pas
spcialiste du domaine.
6.5.2 Une exprimentation avec un documentaliste expert
L'exprimentation consiste comparer deux mthodes pour analyser le contenu des
documents indexs par une classe de termes issue de SDOC.
La premire mthode utilise l'outil de visualisation classique de SDOC, HENOCH, qui
permet de consulter la carte thmatique, les associations entre termes, ainsi que les titres
et les documents du corpus. Cependant elle ne permet pas l'utilisation de structures pr-
dicatives.
La deuxime mthode utilise les outils de visualisation de notre interface, et permet d'uti-
liser les structures prdicatives et leur gnralisations.
Nous avons utilis des classes de termes diffrentes pour chaque mthode, ayant des
coefficients de centralit et de densit voisins: la classe CERNE et la classe CHROMA-
TOGRAPHIE.
Analyse de la classe CERNE sans structures prdicatives
La mthode utilise par l'INIST pour analyser les classes de termes exploite l'outil de
visualisation associ SDOC, HENOCH. Le point d'entre est constitu par la liste des
classes de termes calcules ou alternativement par la carte thmatique dj illustre lors
de la prsentation de SDOC (cf. section 5.3.2, figure 5.3).
La navigation au sein de HENOCH se fait par hypertexte, par simple clic sur les
diffrents lments textuels. Dans notre cas, nous nous intressons la classe de termes
CERNE, dont la description est reprsente par les deux copies d'cran des figures 6.16 et
6.17. Le documentaliste expert est capable de reprer globalement les diffrents thmes de
la classe partir de la liste des termes de celle-ci. Dans le cas de CERNE, il analyse ainsi
la classe comme portant sur la foresterie et l'tat sanitaire des arbres, et notamment le
moyen de dterminer la vigueur des arbres, par l'intermdiaire des cernes qui renseignent
sur le pass de l'arbre et sur ce qui a influenc son dveloppement.
Aprs une premire caractrisation base sur les termes, le documentaliste vrifie si
d'autres classes correspondent aux thmes de la fort, par l'intermdiaire des associations
externes (bas de la figure 6.17) ou de la carte thmatique. Il repre par exemple deux
classes, ARBRE et FORESTIER, qui ont certains points communs avec CERNE, mais qui
sont focaliss sur d'autres thmes comme les techniques de sylviculture.
Il consulte ensuite, une par une, les diffrentes associations de la classe, donnes par
HENOCH (figure 6.17). D'aprs le documentaliste, les associations permettent de recons-
66. Par manque de temps, la disponibilit de l'expert tant rduite.
144
6.5. Evaluation de la gnralisation pour l'analys e de l 'information
FIG. 6.16 - Visualisation d'une classe de termes par l'interface de SDOC : termes de la
classe CERNE
145
Chapitre 6. Les structures prdicatives et leurs gnralisations pour l'analyse de l'information
FIG. 6.17 - Visualisation d'une classe de termes par l'interface de SDOC : associations
internes et externes de la classe CERNE
146
6.5. Evaluation de la gnralisation pour l'analyse de l 'information
tituer les chanes de mots qui se trouvent dans les textes. L'analyse des associations fait
apparatre une grande diversit quant aux informations sous-jacentes. Il existe ainsi:
- des associations que le documentaliste considre comme tout fait normales, c'est-
-dire qui sont attendues et ne constituent pas un lment original. Elles viennent
confirmer une connaissance bien connue de l'expert, comme par exemple l'association
entre les termes houppier 67 et vitalit ou l'association entre les terme dfoliation
et vitalit,
- des associations qui rsultent d'un artefact, et qui n'ont aucune signification relle.
Par exemple, l' association entre picea abies 68 et karst provient ici d'un nom propre
Picea abies Karst apparaissant dans plusieurs documents, et non d'une association
relle avec le terme karst,
- des associations qui sont en dehors du thme reprsent par la classe, et peu en
rapport avec le reste. Par exemple, l'association entre embryognse et embryon
somatique, qui concerne une technique d'embryognse et non la vitalit des arbres,
- des associations polysmiques, qui recouvrent en fait plusieurs aspects qui ne sont pas
diffrencis, comme c'est le cas de l'association entre germination et embryognse,
qui n'est pas forcment lie aux graines.
Lors de l'analyse des termes ou des associations, le documentaliste est souvent amen
consulter, pour obtenir plus de prcisions sur le sens de ces derniers:
- soit les titres des documents, obtenus en cliquant sur le terme ou l' association concer-
ne,
- soit un ou plusieurs documents, obtenus partir des titres ou directement partir
des termes ou associations.
Il y a donc deux niveaux d'informations disponibles pour vrifier le sens d'un terme ou
d'une association. Les titres permettent de situer l'association dans un contexte limit
une phrase. L'avantage des titres est qu'il est possible de les afficher dans une fentre
unique: l'accs est donc trs rapide. La figure 6.18 montre la visualisation des titres de
la classe CERNE. En pratique, il est possible d'afficher les seuls titres des documents
correspondants un terme ou une association, ce qui rduit leur nombre. Parfois le titre
est insuffisant, notamment lorsque l'association n'y apparat pas ou lorsque le contexte n'est
pas suffisamment prcis. Le documentaliste doit alors accder aux documents complets. La
visualisation est moins rapide dans la mesure o chaque document est reprsent dans une
fentre spare. La figure 6.19 illustre la reprsentation d'un document entier.
Toutes ces informations permettent au documentaliste d'analyser le contenu informa-
tionnel des documents indexs par la classe de terme et d'en dduire un thme central qui
sera retenu pour la rdaction du rapport de tendance.
Le documentaliste est capable de verbaliser de nombreuses connaissances partir des
termes et des associations d'une classe. Toutefois l'analyse ncessite une part importante
de consultation, la fois des titres et des documents, pour vrifier certaines hypothses ou
prciser des lments d'informations. Nous montrons dans la section suivante que l'utilisa-
tion de structures prdicatives permet une analyse plus fine sans ncessiter un retour aux
documents.
67. Le houppier est la couronne de l'arbre, et sa qualit est directement en rapport avec la vitalit de
l'arbre.
68. Nom d'une espce d'arbres, l'pica commun.
147
Chapitre 6. Les structures prdicatives et leurs gnralisations pour l'analyse de l'information
FIG. 6.18 - Visualisation des titres des documents relatifs la classe CERNE
148
6.5. Evaluation de la gnralisation pour l'analyse de l'information
FIG. 6.19 - Visualisation de la description et du contenu d'un document relatif la classe
CERNE
149
Chapitre 6. Les structures prdicatives et leurs gnralisations pour l'analyse de l'information
Analyse de la classe CHROMATOGRAPHIE avec des structures prdicatives
Notre mthode est destine amliorer l'accs au contenu informationnel:
- en vitant ou en diminuant le retour aux documents,
- en offrant une vue synthtique du contenu d'un ensemble de documents.
L'hypothse est que les structures prdicatives remplissent un rle informatif suffisant pour
viter le retour au texte plein des documents, et que le calcul de gnralisations permet
d'viter un accs squentiel.
Dans cette perspective, nous avons tent de dgag les amliorations apportes par cette
nouvelle mthode et les problmes spcifiques qu'elles posent. Nous ne mettons donc pas en
avant l'analyse comme nous l'avons fait pour la premire mthode avec HENOCH, mais les
rflexions de l'expert documentaliste sur notre proposition. Nous insistons sur le fait que la
prsentation que nous avons faite a t limite du fait que les fonctionnalits de l'interface
HENOCH n'ont pas t intgres notre prototype, ce qui restreint les possibilits de
visualisation.
Les structures prdicatives permettent une analyse plus fine et non squentielle
De manire gnrale, le documentaliste a peru les structures prdicatives comme des
informations pertinentes. Elles lui permettent une meilleure caractrisation des associations
sans ncessiter l'affichage complet des documents. Le recours aux titres (non accessible avec
notre prototype) reste une alternative pertinente la visualisation des structures prdica-
tives car il n'est pas aussi pnalisant que l'accs aux textes, qui ncessite de rechercher le
passage correspondant l'information recherche.
Le documentaliste peut par exemple, grce au parcours des structures prdicatives
possdant le prdicat dosage, observer les diffrentes techniques d'analyse quantitative uti-
lises. La figure 6.20 que nous avons dj prsente auparavant (figure 6.14) et que nous
reproduisons ici montre trois structures prdicatives (DOSAGE-30, DOSAGE-28, DOSAGE-l04)
faisant apparatre trois techniques diffrentes de chromatographie pour le dosage. Des
structures prdicatives plus prcises, caractrises par un rle objet et un rle moyen,
sont synthtises par la gnralisation G19-ANALYSE-QUANTITATIVE. Un simple clic permet
au documentaliste d'accder aux descriptions correspondantes, illustres par la figure 6.21
(reproduction de la figure 6.15), et dtaillant les diffrentes substances utilises. Ainsi le
dosage s'applique-t-il au sulfure, aux amine biognes, l'HMF, l' acide ascorbique, ....
Ces informations sont quantifies, ce qui permet au documentaliste d'apprcier leur im-
portance au sein du corpus. Les informations examines ici ne peuvent tre collectes avec
HENOCH qu'en examinant de nombreux documents.
150
Le parcours des structures prdicatives permet ainsi :
- de mettre en vidence de nombreuses units informations dissmines au sein des
documents. Lorsque le documentaliste consult e un document, il cherche des infor-
mations prcises qu'il doit localiser. La donne des structures prdicatives rduit
fortement cette recherche,
- de structurer ces informations selon leur proximit smantique, exprime par des pr-
dicats communs et des arguments proches dans la hirarchie. Avec SDOC et l'interface
HENOCH, cette synthse des informations doit tre ralise par le documentaliste et
ncessite de couvrir la majorit des documents, de manire squentielle, pour ne pas
omettre d'informations.
6.5. Evaluation de la gnralisation pour l'analyse de l 'information
ANALYSE_QUANTITATIVE
pour OBJET : SUBSTANCE
pour MOYEN : CHROMATOGRAPHIE
ANALYSE_QUANTITATIVE
pour MOYEN : CHROMATOGRAPHIE_EN_PHASE_GAZEUSE
ANALYSE QUANTITATIVE
pour MOYEN : CHROMATOGRAPHIE_EN_COUCHE_MINCE
ANALYSE QUANTITATIVE
pour MOYEN : CHROMATOGRAPHIE_LIQUIDE_HAUTE_PRESS
FIG. 6.20 - cran de parcours hypertexte des structures prdicatives, faisant apparatre les
fils de la gnralisation G16-ANALYSE_QUANTITATIVE
Les structures prdicatives permettent une synthse pertinente de la classe de
termes
Outre la navigation hirarchique parmi les structures prdicatives initiales et calcules,
il est possible d'exploiter plus finement les quelques structures prdicatives qui permettent
une synthse pertinente de la classe. Pour la classe CHROMATOGRAPHIE, les trois gnra-
lisations les plus intressantes sont les suivantes:
G19-DOSAGE = (and DOSAGE
G22-DOSAGE
...:...
(and
G36 - DOSAGE
...:...
(and
(aIl objet SUBSTANCE_CHIMIQUE)
(aIl moyen ACTIVITE)
(aIl localisation PRODUIT))
DOSAGE
(all objet SUBSTANCE_CHIMIQUE)
(all moyen CHROMATOGRAPHIE))
DOSAGE
(all objet AMINE))
Nous avons extraits ces gnralisations manuellement pour les prsenter au documen-
taliste. Elles permettent de rendre compte globalement de toutes les associations de la
classe. La gnralisation G19-DOSAGE met jour quatre concepts importants de la classe:
le dosage, qui est le processus principal; les produits sur lesquels le processus est appliqu;
151
Chapitre 6. Les structures prdicatives et leurs gnralisations pour l'analyse de l'information
ANALYSE QUANTITATIVE
pour OBJET : SULFURE
pour MOYEN CHROMATOGRAPHIE_EN_PHASE_GAZEUSE
ANALYSE_QUANTITATIVE
pour OBJET : AMINE_BIOGENE
pour MOYEN : CHROMATOGRAPHIE_LIQUIDE_HAUTE_PRESS
-57 [ J
ANALYSE QUANTITATIVE
pour OBJET : HMF
pour MOYEN : CHROMATOGRAPHIE
a pour LOCALI SATION : MIEL
[ J
ANALYSE QUANTITATIVE
a pour OBJET : ACIDE_ASCORBIQUE
a pour MOYEN : CHROMATOGRAPHIE_LIQUIDE_HAUTE_PRESS
FIG. 6.21 - cran de parcours hypertexte des structures prdicatives, faisant apparatre les
fils de la gnralisation G19-ANALYSE_ QUANTITA TIVE
les amines, qui sont des sortes de substances chimiques; et finalement, la chromatographie,
le moyen, qui est une sorte d'activit. Le degr de gnralit lev des rles objet et moyen
s'explique par le fait que les structures prdicatives extraites avec le prdicat dosage sortent
des limites de la classe: des termes extrieurs la classe apparaissent et conduisent des
arguments plus gnraux. Par ailleurs, G19-DOSAGE montre aussi que les produits sont lis
au processus de dosage, ce qui n'est pas exprim par la classe.
G22-DOSAGE apporte plus de prcision sur le processus de dosage: c'est la chromatographie
qui est utilis comme activit pour le dosage des substances chimiques. Cette gnralisation
couvre les liens LlO, L
1
2, L
I4
et LI6 de la classe (cf. section 6.1).
G36-DOSAGE apporte galement une plus grande prcision en ce qui concerne les substances
chimiques: chaque amine est en fait l'objet du processus de dosage, ce qui n'est exprim
que partiellement par le lien LIS de la classe.
La mise en commun des toutes ces informations conduit une interprtation quasi
exhaustive de la classe CHROMATOGRAPHIE, plus fine et plus synthtique que celle donne
par les associations: il y a moins d'informations considrer et les associations ne sont
pas limites des associations binaires grce l'emploi des structures prdicatives. La
figure 6.22 montre le rsultat que l'on obtient en intgrant ensemble les informations de
ces trois structures prdicatives. Le documentaliste caractrise ainsi plus rapidement les
152
6.5. Evaluation de la gnralisation pour l'analyse de l'information
CHROMA TOGRAPHlE
J,,,
DOSAGE
looillmO," ~
test-un
PRODUIT
r ~
SUBSTANCE CHIMIQUE
~
AMINE BIOGENE POL y AMINE
MlEL BOISSON PRODUlT
LAITIER
~ \
HlST AMINE SPERMlNE SPERMIDINE
FIG. 6.22 - Une vue synthtique de la classe CHROMATOGRAPHIE construite partir de
trois structures prdicatives
informations attaches la classe avec un recours limit aux textes 69.
Quelques problmes rencontrs lors de l'analyse
Cette exprimentation avec le documentaliste a permis de relever certains problmes
poss par notre approche. Outre le fait que le documentaliste ne connaissait pas les fonc-
tionnalits de notre prototype, nous avons distingu deux types de difficults:
- l'utilisation d'une hirarchie de concepts complexe et peu connue de l'expert,
- les insuffisances de notre interface et de notre procdure de gnralisation.
La hirarchie que nous avons utilise est base sur le thsaurus AGROVOC, connu par le
documentaliste. Toutefois les modifications apportes au thsaurus ont conduit ce dernier
contester plusieurs fois la position de certains concepts. Idalement, la construction de la
hirarchie devrait tre faite de manire consensuelle avec le ou les utilisateurs, ou devrait
au moins faire l'objet d'une validation par ceux-ci. Les contraintes matrielles ne nous
ont pas permis d'effectuer cette validation, et cela a fortement contribu aux problmes
de comprhension de l'expert. La modlisation et la validation de la hirarchie sont des
activits trs coteuses en temps, qui doivent tre prises en compte.
En ce qui concerne l'interface de prsentation, nous avons remarqu que la prsentation
sous format hypertextuel des structures prdicatives est un peu lourde pour parcourir la hi-
rarchie. Le documentaliste s'est montr peu l'aise avec la prsentation hypertextuelle. Une
prsentation sous forme graphique de la hirarchie avec la possibilit de cacher/dcouvrir
la description d'un noeud serait plus adapte. En effet, dans le cas de l'hypertexte, on ne
dispose que d'une vue locale de la hirarchie. Il faut pouvoir naviguer plus rapidement
travers l'information.
Nous avons enfin constat que le parcours de la hirarchie est dans certains cas de
figures alourdi par un trop grand nombre de gnralisations. En effet, lorsqu'il y a une
69. Il nous semble ncessaire de conserver cette possibilit de retour au document, indispensable pour
saisir le contexte complet d'une information.
153
Chapitre 6. Les structures prdicatives et leurs gnralisations pour l'analyse de l'information
quantit importante de gnralisations, les niveaux hirarchiques sont multiplis et r-
duisent la lisibilit de la structure. Ce cas se rencontre notamment avec le prdicat dosage,
qui apparat dans les textes avec de nombreux arguments, ce qui conduit gnrer de nom-
breuses structures prdicatives. Les heuristiques que nous avons adoptes pour le processus
de gnralisation peuvent donc s'avrer insuffisantes. Comme nous l'avons dj mentionn
auparavant, nous ne pouvons demander l'utilisateur de slectionner lui-mme les in-
formations qu'il juge pertinentes. Une solution qui pourrait tre envisage est d'liminer
certaines gnralisations sur la base d'un critre de pertinence qui reste dfinir (ce point
est discut dans les perspectives, cf. conclusion finale).
Enfin, le documentaliste aurait aim avoir accs galement des relations diffrentes des re-
lations thmatiques prsentes. Il nous a notamment interrog sur l'absence de relations de
causalit qui peuvent s' avrer utile pour mieux cerner le contenu informationnel. Pour r-
pondre cette demande, il pourrait tre intressant d'intgrer dans la chane de traitement
un outil permettant la prise en compte de ce type de relations. Nous pensons notamment
au systme COATIS [Garcia 96], qui est un outil d'aide l'acquisition de connaissances
causales partir de textes.
6.5.3 Conclusion
L'exprimentation effectue est une premire valuation de notre procdure de gn-
ralisation applique l'analyse de l'information. Comme nous l'avons remarqu, le fait de
ne pas disposer des fonctionnalits de l'interface HENOCH sur notre prototype a limit
la porte de cette exprimentation. Il aurait t galement prfrable de fournir au docu-
mentaliste un apprentissage pralable du prototype et de la hirarchie, ce qui n'a pas t
possible.
Il est difficile de conclure dfinitivement sur la capacit de structuration de notre pro-
cessus de gnralisation, car il n'existe pas de mthode objective d'valuation. Nous avons
remarqu que les gnralisations obtenues taient un peu trop nombreuses pour la classe
CHROMATOGRAPHIE, mais que l'ensemble des structures prdicatives obtenues tait glo-
balement pertinent .
Mais nous avons surtout montr l'intrt et la relle complmentarit des structures pr-
dicatives par rapport aux fonctionnalits existantes de SDOC :
- le contenu informationnel peut tre obtenu en grande partie par les structures sans
ncessiter un retour aux document du corpus,
- la gnralisation des structures prdicatives permet une relle synthse d'informations
dissmines au sein des documents.
Nous pensons ainsi avoir montr l'intrt de notre approche pour l'analyse de l'information,
qui a t confirm par le documentaliste.
154
Conclusion
Notre travail constitue une tude sur la gnralisation de structures prdicatives pour
l'analyse de l'information. Nous avons voulu montrer l'intrt d'une mthode de structura-
tion symbolique, la gnralisation, pour amliorer une chane de traitement dont l'objectif
est d'extraire et de synthtiser le contenu informationnel d'un ensemble de textes.
Nous avons scind la prsentation de cette tude en deux grandes parties : nous nous
sommes tout d'abord intress la dfinition d'un processus de gnralisation de structures
prdicatives, puis nous avons montr comment un tel processus peut s'intgrer dans une
mthode d'analyse de l'information afin d'en amliorer l'analyse.
Gnralisation de structures prdicatives
Nous avons tout d'abord ralis une tude critique des travaux en classification concep-
tuelle, champ dans lequel s'inscrit la gnralisation d'objets symboliques. Aprs avoir dis-
tingu deux grands types d'approches, nous nous sommes focaliss sur l'approche de type
Espace de Connaissances qui permet une meilleure organisation des concepts que l'ap-
proche classique, trop axe sur la prdiction de valeurs. L'approche de type Espace
de Connaissances a t propose dans le cadre de plusieurs formalismes de reprsentation
de connaissances: treillis de concepts, reprsentation par objets, graphes conceptuels. Nous
avons mis en vidence les problmes poss par l'utilisation de ces mthodes pour gnraliser
des structures prdicatives. Notamment, la gnration de toutes les classes (ou concepts)
possibles ncessite un travail important de rduction de la hirarchie qui doit tre guid
par l'utilisateur final. Or, dans une perspective d'analyse de l'information, l'utilisateur ne
doit pas tre surcharg par des tches annexes l'analyse elle-mme.
Par ailleurs, nous nous sommes intresss au formalisme des logiques de descriptions, qui
prsente de nombreux points communs avec les formalismes utiliss pour l'approche de type
Espace de Connaissances, et prsente la particularit d'offrir un compromis expressi-
vit/complexit intressant. Au regard des formalismes cits, nous avons adopt pour notre
processus de gnralisation une logique de descriptions, CLASSIC, qui nous permet de re-
mdier aux problmes de complexit poss par les graphes conceptuels ou la reprsentation
par objets.
Nous avons ensuite montr comment la logique de descriptions CLASSIC peut tre utili-
se pour reprsenter les structures prdicatives. Nous nous sommes principalement focaliss
sur la mthode de reprsentation. Nous avons alors propos une mthode de calcul des g-
nralisations des structures prdicatives. Cette mthode adopte une vision logique de la
gnralisation, en exploitant la notion de plus petit subsumant commun d'un ensemble de
concepts. Mais elle prend galement en compte la nature des structures manipules, qui
sont issues de langue: nous proposons donc un ensemble d'heuristiques qui permettent de
limiter les gnralisations calcules en tenant compte d'une hirarchie de concepts reprsen-
155
Conclusion
tant un domaine de connaissances particulier. Le processus est scind en deux tapes: une
premire tape permet de calculer des gnralisations sur des ensembles de structures pr-
dicatives possdant une tte prdicative donne; une deuxime tape calcule des structures
prdicatives plus gnrales partir de celles obtenues par la premire tape. Nous limi-
tons ainsi de manire importante le nombre de gnralisations calcules tout en conservant
une approche base sur des oprations logiques, la subsomption et le mcanisme dductif
de classification de la logique de descriptions. L'tude de la complexit de notre proces-
sus montre qu'elle est comparable aux rsultats obtenus par le systme de classification
conceptuelle COING adoptant une approche de type Espace de Connaissances.
La gnralisation applique l'analyse de l'information
Dans un deuxime temps, nous avons montr l'intrt de notre processus de gene-
ralisation pour l'analyse de l'information. L'analyse de l'information consiste collecter
l'information contenue dans un corpus de documents afin d'en prsenter une vision syn-
thtique l'utilisateur.
Nous avons tout d'abord tudi les techniques et les mthodes qui permettent d'extraire
et de structurer des informations partir d'une ensemble de textes sous forme lectro-
nique. Nous avons montr l'importance d'une approche terminologique pour accder aux
informations des textes, et tudi plusieurs systmes permettant l'extraction de termes,
qui constituent les units d'informations minimales des textes. Pour structurer ces infor-
mations minimales, il est ncessaire d'identifier les relations qui les unissent. Nous avons
identifi deux grands types d'approches pour extraire ces relations partir des textes: une
approche base statistique, qui permet d'obtenir des associations non types partir de
contextes syntaxiques, et des classes de termes; une approche symbolique, qui requiert de
nombreuses connaissances a priori, et qui permet d'obtenir des structures prdicatives ou
structures de connaissances similaires. Parmi ces diffrentes approches, nous avons tudi
plus particulirement la chane de traitement ILIAD qui combine plusieurs techniques (ex-
traction de termes, identification de relations avec une approche statistique) avec l'analyse
de l'information comme objectif.
ILIAD permet de construire des classes de termes partir d'un corpus de documents. Ces
classes, composes de termes et de leur associations, constituent le point de dpart de
l'analyse par un expert. A l'aide d'une carte thmatique, et de fonctions d'accs aux titres
et aux documents, l'expert effectue l'analyse de l'information contenue dans le corpus.
Dans le but de faciliter le travail de l'expert, nous proposons d'tendre la chane de trai-
tement. D'une part, l'utilisation d'une hirarchie de termes permet de structurer les l-
ments d'une classe. D'autre part, la collecte des structures prdicatives impliquant les
termes d'une classe permet de caractriser plus finement les associations de la classe. Nous
montrons que la structuration des structures prdicatives au moyen de notre processus de
gnralisation permet de synthtiser les informations relatives une classe.
Dans le dernier chapitre, nous proposons une premire valuation du processus de gn-
ralisation dans ce cadre de l'analyse de l'information. Nous nous focalisons sur une classe
particulire, CHROMATOGRAPHIE, puis nous dcrivons notre prototype mettant en oeuvre
le processus de gnralisation des structures prdicatives. Nous essayons d'valuer l' apport
de notre proposition en ralisant une exprimentation avec un documentaliste-expert :
d'une part avec les outils de la chane ILIAD; d'autre part avec notre prototype. Le rsul-
tat montre que notre approche contribue amliorer l'analyse d'une classe, notamment en
permettant une vue synthtique de l'ensemble des informations. Les limitations releves
concernent la modlisation de la hirarchie de concepts, la ncessit d'une interface de vi-
156
sualisation plus adapte, et la prsence de gnralisations intermdiaires inutiles rduisant
la qualit de lecture de la hirarchie rsultante.
Rsultats
Nous avons conu une mthode de gnralisation originale qui s'applique sur des struc-
tures prdicatives exprimes dans le formalisme des logiques de descriptions. Les caract-
ristiques de cette mthode sont les suivantes:
- elle est base sur des mcanismes logiques bien dfinis (subsomption, classification
dductive), contrairement aux approches classiques mettant en oeuvre des fonc-
tions d'valuation d'ordre statistique,
- elle propose un ensemble d'heuristiques permettant de limiter le nombre de gnra-
lisations de manire automatique, contrairement aux approches de type Espace de
Connaissances, qui ncessitent une intervention forte de l'utilisateur,
- elle possde une complexit similaire aux approches de type Espace de Connais-
sances ,
elle s'applique des structures prdicatives. Elle est donc moins gnrale que les
autres approches qui s'appliquent des concepts quelconques 70, mais permet une
meilleure prise en compte de la spcificit des structures prdicatives, notamment
pour la dfinition des heuristiques.
D'autre part, l'application de notre processus de gnralisation l'analyse de l'infor-
mation nous a permis :
- de montrer l'importance d'une approche terminologique pour l'extraction d'informa-
tion, et de montrer la faisabilit d'une mthode d'analyse de l'information,
- de proposer une amlioration de la chane de traitement ILIAD pour un accs plus
rapide au contenu informationnel des textes,
- d'effectuer une premire valuation de notre processus de gnralisation avec un
expert documentaliste, qui montre des rsultats encourageants.
Gnralit de notre approche
La gnralit de notre approche peut tre juge selon deux critres principaux: d'une
part, quelles sont les modifications ncessaires pour prendre en compte un domaine de
connaissances diffrent de celui que nous avons choisi pour notre exprimentation? D'autre
part, notre processus de gnralisation peut-il faire l'objet d'applications diffrentes de
l' analyse de l'information?
Notre mthode de gnralisation n'est pas restreinte un domaine de connaissances
particulier. Toutes les fonctions dfinies sont totalement indpendantes des donnes lies
au domaine. Par contre, il est bien sr ncessaire de fournir ces donnes, qui sont : un
ensemble de termes (y compris les prdicats) du domaine; une organisation de ces termes en
hirarchie; un ensemble de structures prdicatives relatives au domaine. Par ailleurs, pour
utiliser la chane de traitement ILIAD, il est ncessaire de fournir des informations d'ordre
linguistique sur les termes. Le passage d'un domaine de connaissances un autre n'est
70. Ces concepts sont cependant restreints par le pouvoir expressif du langage utilis.
157
Conclusion
donc pas quelque chose de ngligeable. Il s'agit d'une activit importante de modlisation
indispensable pour prendre en compte la spcificit du domaine considr.
Notre processus de gnralisation est particulirement adapt aux structures prdica-
tives. Il n'est cependant pas exclu de l'utiliser pour les concepts d'une base de connais-
sances, la condition de respecter les restrictions de reprsentations imposes par le pro-
cessus. Nous pouvons envisager galement de l'appliquer la recherche d'informations la
manire de Carpineto et Romano (cf. section 2.4), en considrant les structures prdicatives
la place des descripteurs pour la recherche des documents.
Perspectives
Les perspectives autour de l'analyse de l'information et de notre processus de gnra-
lisation sont multiples. Nous discutons des trois ides principales que nous souhaiterions
dvelopper en priorit.
En premier lieu, il nous semble important de dfinir et proposer une mthode d'ex-
traction de structures prdicatives lgre, focalise sur les groupes nominaux, afin de
complter et finaliser la chane de traitement pour l'analyse de l'information. La collecte
des structures prdicatives est prsent manuelle et constitue un frein important l'uti-
lisation relle de notre mthode. La mthode d'extraction devra tre moins coteuse que
celles des systmes RECIT et PAPINS que nous avons tudis: d'une part en restreignant
les structures syntaxiques analyser; d'autre part en se focalisant sur les arguments essen-
tiels, au dtriment des arguments secondaires, moins important en terme d'information. Un
travail important sur cette problmatique est en cours de ralisation: J. Royaut [Royaut
98] a tudi trs finement les groupes nominaux tte prdicative dans une perspective
d'analyse de l'information. Dans la troisime partie de sa thse, il propose une acquisition
assiste de prdicats ainsi qu'une mthode de recherche des structures argumentales dans
les groupes nominaux complexes. Ce travail permettra sans doute d'aboutir une mthode
d'extraction ncessitant moins de connaissances a priori que les mthodes d'extraction dont
nous avons discut.
La deuxime point concerne notre prototype, qui ncessite d'tre amlior au niveau de
l'interface utilisateur. Notre travail a t peu important sur cet aspect, qui est cependant
primordial pour aboutir une mthode effective. Il ncessite une rflexion approfondie, en
lien avec les utilisateurs potentiels. L'intgration des fonctionnalit de HENOCH, l'interface
de visualisation de SDOC, et la dfinition de mthodes de parcours de la hirarchie plus
ergonomiques, permettraient d'obtenir une efficacit accrue lors de l'analyse des textes.
Enfin, nous avons remarqu que notre processus de gnralisation, malgr les heuris-
tiques dfinies, gnre des structures prdicatives qui rduisent la lisibilit de la structure
hirarchique. Nous pensons qu'une solution possible consiste dfinir des critres de s-
lection permettant d'liminer automatiquement les structures prdicatives qui sont juges
les moins pertinentes. Cela revient la solution propose par Bournaud, sans toutefois
faire intervenir l'utilisateur dans le processus. Les critres proposs par Bournaud (cf. sec-
tion 2.5.3) peuvent constituer un point de dpart intressant. Nous envisageons cependant
de dfinir un plus grand nombre de paramtres pouvant reprsenter les critres intuitifs
suivants:
158
- une gnralisation n'est pas trop gnrale: les termes impliqus ne doivent pas tre
situs trop haut dans la hirarchie, et le nombre de relations doit tre le plus lev
possible,
une gnralisation n'est pas trop spcifique: elle doit couvrir un maximum de
structures prdicatives,
- une gnralisation doit tre homogne: les termes impliqus ne doivent pas tre situs
des niveaux trop diffrents relativement les uns aux autres dans la hirarchie,
- une gnralisation doit synthtiser plusieurs informations: elle doit donc possder
un maximum de descendants directs.
Chacun de ces critres constitue un indice de la pertinence d'une gnralisation. Il faut
toutefois tre capable de trouver une formulation prcise qui puisse rendre compte de ces
indices, de manire logique ou numrique.
Nous pensons que l'analyse de l'information est un domaine de recherche qui est appel
se dvelopper et permettra, dans le contexte de l'Internet et de l'importance toujours plus
grande du support lectronique des documents, de mieux matriser les flux d'informations.
Notre travail est une contribution qui, nous l'esprons, permettra de disposer terme
d'outils performants pour l'analyse de contenu, essentiels pour assister les utilisateurs dans
l'exploration et l'analyse de documents lectroniques.
159
Conclusion
160
[AgarwaI94]
[AgarwaI95]
[Assadi 96]
[Assadi 97]
Bibliographie
R. Agarwal. (almost) automatic semantic feature extraction from
technical text. Proceedings of the ARPA Human Language Technology
Workshop, New Jersey, 1994.
R. Agarwal. Semantic Feature Extraction from Technical Texts with
Limited Human Intervention. Thse de Doctorat, Mississippi State
University, 1995.
H. Assadi et D. Bourigault. Acquisition et modlisation de connais-
sances partir de textes: outils informatiques et lments mthodo-
logiques. Actes RFIA '96, Rennes, 15-18 janvier 96, volume l, pages
505- 514, 1996.
H. Assadi. Une mthode et des outils pour la construction d'un mo-
dle du domaine partir de textes. Application la consultation d'une
documentation technique. Actes des journes Ingnierie des Connais-
sances et Apprentissage Automatique, JICAA '97, Roscoff, France, 20-
22 Mai, 1997, 1997.
[Aussenac-Gilles 95] N. Aussenac-Gilles, D. Bourigault, A. Condamines et C. Gros. How
can knowledge acquisition benefit from terminology? Proceedings of
the 9th Knowledge Acquisition Workshop, Banff, CA, 1995.
[Baader 94]
[Bachimont 95]
[Barrire 96]
[Beck 94]
[Biebow 91]
F. Baader, B. Hollunder, B. Nebel, H.J. Profitlich et E. Franconi. A
empirical analysis of optimization techniques for terminological re-
presentation systems. Journal of Applied Intelligence, 4(2) :109- 132,
1994.
B. Bachimont. Ontologie rgionale et terminologie: quelques re-
marques mthodologiques et critiques. In Otman [Otman 95], pages
67-86.
C. Barrire et F. Popowich. Concept clustering and knowledge in-
tegration from a children's dictionnary. Proceedings of 16th Int erna-
tional Conference on Computational Linguistics (COLING-96), pages
65- 70, 1996.
H.W. Beck, T. Anwar et S.B. Navathe. A conceptual clustering algo-
rithm for database schema design. IEEE Transactions on Knowledge
and Data Engineering, pages 396-411, june 1994.
B. Biebow et S.Szulman. Interprtation de groupes nominaux com-
plexes dans un rseau smantique la kI-one. Actes du 8me congrs
RFIA (RFIA '91), 1991.
161
Bibliographie
[Bisson 92J
[Boguraev 96J
[Borgida 89]
[Borgida 96J
[Bouaud 97J
[Bourigault 94aJ
[Bourigault 94bJ
[Bourigault 95J
[Bournaud 96J
[Brachman 78J
[Brachman 91J
[Brill 93J
[Capponi 97aJ
[Capponi 97bJ
[Capponi 98aJ
162
G. Bisson. Conceptual c1ustering in a first or der logic representation.
B. Neumann, editor , Proceedings of the tenth european conference on
artificial intelligence, pages 458- 462, Vienna, Austria, 1992. John Wi-
lp- y & Sons.
B. Boguraev et J. Pustejovsky, editors. Corpus Processing for Lexical
Acquisition. The MIT Press, 1996.
A. Borgida, R Brachman, D. McGuinness et 1. Resnick. Classic: a
structural data model for objects. SIGMOD-89, pages 58- 67, 1989.
A. Borgida. On the relative expressiveness of description logics and
predicate logics. Artificial Intelligence, 82(1-2) :353- 367, 1996.
J. Bouaud, B. Habert, A. Nazarenko et P. Zweigenbaum. Regrou-
pements issus de dpendances syntaxiques en corpus : catgorisation
et confrontation deux modlisations conceptuelles. Actes des jour-
nes Ingnierie des Connaissances et Apprentissage Automatique, JI-
CAA '97, Roscoff, France, 20-22 Mai, 1997, 1997.
D. Bourigault. LEX TER, un Logiciel d'EXtraction de TERminologie.
Application l'acquisition de connaissances partir de textes. Thse
de Doctorat, Ecole des Hautes Etudes en Sciences Sociales, juin 1994.
D. Bourigault et P. Lpine. Mthodologie d'utilisation de LEXTER
pour l'acquisition des connaissances partir de textes. In JAC [JAC
94], pages F1- F13.
D. Bourigault et A. Condamines. Rflexions sur le concept de base de
connaissances terminologiques. Actes des 5mes journes nationales
P.R. C.-G.D.R. Intelligence Artificielle, pages 425- 444, Nancy, 1995.
Teknea.
1. Bournaud. Regroupement conceptuel pour l'organisation des
connaissances. Thse de Doctorat, Thse de l'universit Paris 6, 1996.
R Brachman. A structural paradigm for representing knowledge. BoIt
Beranek and Newman Inc, 1978.
RJ. Brachman, D.L. Mc Guinness, P.F. Patel-Schneider, L.A. Re-
snick et A. Borgida. Princip les of Semantics Networks. Exploration
in the Representation of Knowledge, chapitre Living with CLASSIC:
When and How Use a KL-ONE Language, pages 401- 456. Morgan
Kaufmann, 1991.
E. Brill. A Corpus-Based Approach to Language Learning. Thse de
Doctorat, University of Pennsylvania, 1993.
N. Capponi. Use of description logics for shallow information analysis
from texts. Proceedings Description Logic Workshop (DL' 97), 27-29
september 1997, Gif-sur-Yvette, France, 1997.
N. Capponi et Y. Toussaint . The ILIAD Project: Analysing Informa-
tion Using Informetrics Techniques and Natural Language Processing.
Actes du Third DEL OS Workshop on Cross-Language Information Re-
trieval, 5-7 March 1997, Zurich, Switzerland, 1997. ERCIM.
N. Capponi . Analyse de l'information contenue dans des textes scienti-
fiques avec une logique de descriptions. Actes du 11 me congrs RFIA
(RFIA '98), 20-22 janvier 1998, Clermont-Ferrand, France, 1998.
[Capponi 98b]
[Carpineto 93]
[Carpineto 96]
[Celeux 95]
[Cercone 87]
[Charlet 94]
[Chur ch 90]
[Cohen 92]
[Cohen 94a]
[Cohen 94b]
[Condamines 92]
[Condamines 97]
[Copeck 97]
[Coupey 97]
[Cowie 96]
[Croft 92]
N. Capponi et Y. Toussaint. Interprtation de classes de termes par
gnralisation de structures prdicat-argument. Actes du colloque In-
gnierie des Connaissances (IC'98), 13-15 mai 1998, pages 41- 50,
Pont--Mousson, France, 1998.
C. Carpineto et G. Romano. Galois: An order-theoretic approach to
conceptual clustering. Proceedings of the Tenth International Confe-
rence on Machine Learning, pages 33- 40, 1993.
C. Carpineto et G. Romano. A lattice conceptual clustering system
and its application to browsing retrieval. Machine Learning, 24 :95-
122, 1996.
G. Celeux, E. Diday, G. Govaert, Y. Lechevallier et H. Ralambon-
drainy. Classification Automatique de Donnes. Eyrolles, Paris, 1995.
N. Cercone et G. Mac Colla. The Knowledge Frontier: Essays in the
Representation of Knowlege, chapitre What is Knowledge Represen-
tation? Springer Verlag, 1987.
J. Charlet, B. Bachimont, J. Bouaud et P. Zweigenbaum. Ontologie
et rutilisabilit: exprience et discussion. In JAC [JAC 94], pages
C1-C14.
K.W. Church et P. Hanks. Word association norms, mutual infor-
mation, and lexicography. Computational Linguistics, 16(1) :22- 29,
1990.
W.W. Cohen, A. Borgida et H. Hirsh. Computing least common sub-
sumers in description logics. Proceedings of the Tenth National Confe-
rence on Artificial Intelligence, San Jose, California, 1992. MIT Press.
W. Cohen et H. Hirsh. The learnability of description logics with
equality constraints. Machine Learning, 17(2-3) :169- 199, 1994.
W.W. Cohen et H. Hirsh. Learning the CLASSIC Description Lo-
gic: Theoretical and Experimental Results. Proceedings of the Fouth
International Conference on Principles of Knowledge Representation
and Reasoning (KR '94), 1994.
A. Condamines. Aide l'acquisition de connaissances par la spcifi-
cation de la terminologie d'un domaine de spcialit. Actes Journes
d'Acquisition de Connaissances (JAC'92), 1992.
A. Condamines et J . Rebeyrolle. Construction d'une base de connais-
sances terminologiques partir de textes: exprimentation et dfini-
tion d'une mthode. Actes de JICAA '97, pages 191- 206, 1997.
T. Copeck, K. Barker, S. Delisle, S. Szpakowicz et J.F. Delannoy.
What is a technical text? Language Sciences, 19(4) :391- 424, 1997.
P. Coupey et S. Salotti. Une logique de descriptions comme cadre for-
mel d'un systme de raisonnement partir de cas. Revue d'intelligence
artificielle, 11(2) :127- 177, 1997.
J. Cowie et W. Lehnert. Information extraction. Communications of
the ACM, 39(1) :80-91, janvier 1996.
W.B. Croft. Text-Based Intelligent Systems: Current Research and
Practice in Information Extraction and Retrieval, chapitre Text retre-
vial and inference. Lawrence Erlbaum Ass., Hillsdale, NJ, 1992.
163
Bibliographie
[Cruse 86]
[Daille 94]
[Daille 96]
[Decaestecker 93]
[Delisle 96]
[Donini 97]
[Doyle 91]
[Ducournau 96]
[Dumas 96]
[Euzenat 94]
[Felber 87]
[Fillmore 68]
[Fisher 87]
[Forster 94]
[Franconi 94]
[Fuchs 93]
[Garcia 96]
164
D.A. Cruse. Lexical Semantics. Cambridge University Press, 1986.
B. Daille. Approche mixte pour l 'extraction automatique de termino-
logi e,' statistique lexicale et filtres linguistiques. Thse de doctorat,
Universit de Paris VII, 1994.
B. Daille, B. Habert, C. Jacquemin et J. Royaut. Empirical obser-
vation of term variations and principle for their description. Termi-
nology, 3(2) :197-257, 1996.
C. Decaestecker. Apprentissage et outils statistiques en classification
conceptuelle incrmentale. Revue d'intelligence artificielle, 7(1) :33-
71, 1993.
S. Delisle, K. Barker, T. Copeck et S. Szpakowicz. Interactive semantic
analysis of technical texts. Computational Intelligence, 12(2) :273- 306,
1996.
F.M. Donini, M. Lenzerini, D. Nardi et W. Nutt. The complexity of
concept languages. Information and Computation, 134(1) :1- 58, 1997.
J. Doyle et R. Patil. Two theses of knowledge representation : language
restrictions, taxonomic classification, and the utility of representation
services. Artificial Int elligence, 48(3) :261- 298, 1991.
R. Ducournau. Des langages objets aux logiques terminologiques: les
systmes classificatoires. Rapport de recherche no. 96-030, LIRMM,
Montpellier, 1996.
L. Dumas, A. Plante et P. Plante. Nomino; version 1.0. Rapport,
Centre ATO, Dpartement de linguistique, Universit du Qubec
Montral, 1996.
J. Euzenat. Classification dans les reprsentations par objets: pro-
duits des systmes classificatoires. Actes du 9me congrs Reconnais-
sance des Formes et Intelligence Artificielle, RFIA '94, volume 2, pages
185- 196, 1994.
Helmut Felber. Manuel de terminologie. InfotermjUnesco, 1987.
C. Fillmore. Universals in linguistic theory, chapitre The case for case.
Holt, Rinehart and Winston, New York, 1968. E. Bach & R. Harms
eds.
D. Fisher. Knowledge acquisition via incremental conceptual cluste-
ring. Machine Learning, 2 :139-172,1987.
P. Forster. Lexical semantics, description logics and naturallanguage
systems. F. Baader, M. Lenzerini, W. Nutt et P.F. Patel-Schneider,
editors, Proceedings of International Workshop on Description Logics
DL '94, pages 84-86. DFKI, 1994.
E. Franconi. Description logics for natural language processing. Wor-
king Notes of the 1994 AAAI Fall Symposium on Knowledge Repre-
sentation for Natural Language Processing in Implemented Systems,
New Orleans., 1994.
C. Fuchs, A. Lacheret-Dujour et B. Victorri. Linguistique et Traite-
ments Automatiques des Langues. Hachette, Paris, 1993.
D. Garcia. Coatis, un outil d'aide l' acquisition de connaissances
causales exprimes dans les textes. P. Bouffard et A. Kharrat, coordi-
[Gey 94]
[Godin 95]
[Gouadec 94]
[Grefenstette 93]
[Grefenstette 94]
[Grivel 95a]
[Grivel 95b]
[Grivel 97]
[Guha 90]
[Habert 96a]
[Habert 96b]
[Habert 97]
[Harris 89]
nateurs, Actes du premier colloque tudiant de linguistique informa-
tique de Montral (CLIM-96), 8-10 juin 1996, pages 96- 103, Montral,
Canada, 1996. CLIM, Dpartement de linguistique et de traduction,
Universit de Montral.
O. Gey. Saturation et gnralisation de graphes conceptuels. Actes
de JFA '94, 1994.
R Godin, G. Mineau, R Missaoui et H. Mili. Mthodes de classifica-
tion conceptuelle bases sur les treillis de galois et applications. Revue
d'intelligence artificielle, 9 :105-137, 1995.
D. Gouadec. Donnes et informations terminologiques et terminogra-
phiques: natures et valeurs, volume 1, srie Terminoguides. La Maison
du Dictionnaire, 1994.
G. Grefenstette. Evaluation techniques for automatic semantie extrac-
tion : Comparing syntactical and window based approaches. Workshop
on Acquisition of Lexical Knowledge form Text. SIGLEX/ACL, Co-
lombus, USA, juin 1993.
G. Grefenstette. Corpus-derived first, second and third-order word
affinities. Rapport no. MLTT-09, Rank Xerox Research Center, Gre-
noble Laboratory, 1994.
1. Grivel et C. Franois. Les sciences de l 'information. Bibliomtrie.
Scientomtrie. Infomtrie., chapitre Une station de travail pour clas-
ser, cartographier et analyser l'information bibliographique dans une
perspective de veille scientifique et technique, pages 81-113. Presses
universitaires de Rennes, 1995.
L. Grivel, P. Mutschke et X. Polanco. Thematic mapping on biblio-
graphie databases by cluster analysis : a description of the sdoc envi-
ronment with solis. Journal of Knowledge Organization, 22(2) :70- 77,
1995.
L. Grivel et C. Franois. Deux lments de la plate-forme infomtrique
de l'INIST: NEURODOC et HENOCH. Sminaire de l 'ADEST,
9 dcembre 1997, Univ. Pierre Mends-France, Grenoble, 1997.
http:j jmelpomene.upmf-grenoble.frjadestjseminairesjfrancois.htm.
RV. Guha et D.B. Lenat. Cyc: a midterm report. AI Magazine,
pages 32- 59, 1990.
B. Habert, P. Barbaud, F. Dupuis et C. Jacquemin. Simplifier
des arbres d'analyse pour dgager des comportements syntactico-
smantiques des formes d'un corpus. Cahiers de Grammaire, 1996.
B. Habert et A. Nazarenko. La syntaxe comme marche-pied de l'ac-
quisition des connaissances: bilan critique d'une exprience. Actes
Journes Acquisition des Connaissances (JAC'96), 1996.
B. Habert, A. Nazarenko et A. Salem. Les linguistiques de corpus.
Armand Colin, 1997.
Z. Harris, M. Gottfried, T. Ryckman, P. Mattick Jr., A. Daladier, T.N.
Harris et S. Harris. The Form of Information in Science, volume 104,
srie Boston Studies in the Philosophy of Science. Kluwer Academie
Publishers, 1989.
165
Bibliographie
[HaussIer 89J
[Heinsohn 92J
[Herviou 95J
[JAC 94J
[Jackendoff 90J
[Jacquemin 95J
[Jacquemin 97J
D. HaussIer. Learning conjunctive concepts in structural domains.
Machine Learning, 4 :7- 40, 1989.
J. Heinsohn, D. Kudenko, B. Nebel et H.-J. Profitlich. An empirical
analysis of terminological representation systems. Rapport no. RR-
92-16, Deutsches Forschungszentrum fur Knstliche Intelligenz GmbH
(DFKI), 1992.
M.L. Herviou. Applications d'extraction de connaissances EDF-
DER. Journes lA 95, Montpellier, France, 1995.
PRC-GDR lA, CNRS. Actes des Cinquimes Journes Acquisition
des Connaissances, Strasbourg, 21-23 Mars 1994, 1994.
R. J ackendoff. Semantic structures. MIT Press, Cambridge, MA,
1990.
C. Jacquemin. A symbolic and surgical acquisition of terms through
variation. Proceedings of the Workshop on "New approaches to lear-
ning for NLP" at the 14th International Joint Conference on Artificial
Intelligence (IJCAI'95), Montral, 1995.
C. Jacquemin. Variation terminologique: Reconnaissance et acquisi-
tion automatique de termes et de leur variantes en corpus. Habilitation
diriger des recherches, Universit de Nantes, Facult des Sciences,
Nantes, 1997.
[Jansen-Winkeln 91J R. Jansen-Winkeln, A. Ndiaye et N. Reithinger. FSS-WASTL: In-
teractive Knowledge Acquisition for a Semantic Lexicon. Procee-
dings of 2nd Congress of the Italian Association for Artificial Intelli-
gence,AI*IA, Palermo, Italy, october 1991, volume 549, srie Lecture
[Ketterlin 95J
[Kietz 94J
[Leclre 96J
[Lerat 90J
[Lerat 95J
[Lindberg 93J
[Lyons 77J
[MacGregor 94J
166
Notes in Artificial Intelligence, 1991.
A. Ketterlin. Dcouverte de Concepts Structurs dans les Bases de
Donnes. Thse de Doctorat, Dpartement d'Informatique, Universit
Louis Pasteur, France, 1995.
J. Kietz et K. Morik. A polynomial approach to the constructive
induction of structural knowledge. Machine Learning, 14(2) :193- 217,
1994.
M. Leclre. Dfinition de types dans le modle des graphes concep-
tuels. Actes RFIA '96, Rennes, 15-18 janvier 96, volume 1, pages
486- 493, 1996.
P. Lerat. L'hyperonymie dans la structuration des terminologies. Lan-
gages, (98) :79- 86, juin 1990.
P. Lerat. Les langues spcialises. coll. Linguistique Nouvelle. Presses
Universitaires de France, 1995.
D.A. Lindberg, B.L. Humphreys et A.T. McRay. The unified medical
language system. Methods of Information in Medicine, 32(4) :281- 291,
1993.
J. Lyons. Semantics. Cambridge University Press, 1977.
R. MacGregor et D. Brill. Recognition algorithms for the LOOM
classifier. Proceedings of the Tweljth National Conference on Artificial
Intelligence, (AAAI 94), pages 213-220, 1994.
[Marino 93]
[Mauldin 91]
[Meyer 91]
[Meyer 94]
[Michalski 83]
[Mikheev 95]
[Miller 93]
[Mineau 90]
[Mineau 95]
[Mitchell 82]
[Muggleton 92]
[Mugnier 96]
[Muller 97]
[Munday 95]
O. Marino. Raisonnement classificatoire dans une
sentation objets multi-points de vue. Thse de
torat, Universit Joseph Fourier, Grenoble (FR),
ftp :j j ftp.inrialpes.fr j pubjsherpaj thesesj marino.ps.gz.
repr-
Doc-
1993.
M. Mauldin. Retrieval Performance in FERRET: A Conceptual In-
formation Retrieval System. Proceedings of the 14th International
Conference on research and Development in Information Retrieval,
Chicago, october 1991, ACM SIGIR, 1991.
1. Meyer, 1. Bowker et K. Eck. Constructing a knowledge-based term
bank: fundamentals and implications. Actes de International Sympo-
sium on Terminology and Documentation in Specialized Communica-
tion, Hull, Canada, 7-8 octobre 1991, 1991.
1. Meyer. Helping terminologists do knowledge engineering: Sorne
linguistic strategies and computers aids. Actualit Terminologique,
pages 6- 10, dcembre 1994.
RS. Michalski et RE. Stepp. Machine learning ,' An artificial in-
telligence approach, Volume l, chapitre Learning from observation:
Conceptual clustering, pages 331- 363. Morgan Kaufmann, 1983.
A. Mikheev et S. Finch. Toward a workbench for acquisition of domain
knowledge from natural language. Proceedings of seventh conference
of the European Chapter of the Association for Computational Lin-
guistics, Dublin, Ireland, March 1995, pages 194- 201, 1995.
G.A. Miller, R Beckwith, C. Fellbaum, D. Gross et K. Miller. Five
papers on wordnet. Rapport, Cognitive Science Laboratory, Princeton
University, 221 Nassau St., Princeton, NJ 08542, 1993.
G. Mineau et G. Godin. La classification symbolique: une approche
non-subjective. Actes des Smes Journes Franaises sur l'Apprentis-
sage (JFA) , pages 169- 189, Lanion, France, 1990. CNET.
G.W. Mineau et R Godin. Automatic structuring of knowledge bases
by conceptual clustering. IEEE Transactions in Knowledge and Data
Engineering, 7(5), octobre 1995.
T. Mitchell. Generalization as search. A rtificial Intelligence,
18(2) :203- 226, 1982.
S. Muggleton. Inductive logic programming. The A.P.LC. Series. Aca-
demic Press, 1992.
M.-L. Mugnier et M. Chein. Reprsenter des connaissances et rai-
sonner avec des graphes. Revue d'intelligence artificielle, 10(1) :7- 56,
1996.
C. Muller, X. Polanco, J. Royaut et Y. Toussaint. Acquisition et
structuration de connaissances en corpus: lments mthodologiques.
Rapport no. RR-3198, INRIA, juin 1997.
C. Munday, T. Cross, J. Daengdej et D. Lukose. CGKEE,' Conceptual
Graph Knowledge Engineering Environment User and System Manual,
version 1.0. Distributed Artificial Intelligence Center, University of
New England, Armidale, Australia, aot 1995.
167
Bibliographie
[Napoli 96]
[Napoli 97]
[Nebel90a]
[Nebe190b]
[Nobecourt 98]
[Nutter 89]
[Orlac 94]
[Otman 93]
[Otman 94]
[Otman 95]
[Oueslati 96]
[Ounis 95]
[Pichon 97]
[Pugeault 95a]
[Pugeault 95b]
168
A. Napoli. Classification et organisation hirarchique des connais-
sances. Aspects de la classification, rapport 96-R-072, CRIN, Nancy,
1996.
A. Napoli. Une introduction aux logiques de descriptions. Rapport
de recherche no. RR-3314, INRIA Lorraine, dcembre 1997.
B. Nebel. Reasoning and Revision in Hybrid Representation Systems.
Lecture Notes in Artificial Intelligence. Springer Verlag, 1990.
B. Nebel. Reasoning and Revision in Hybrid Representation Systems,
chapitre Representation, Reasoning and Revision - The Idea. In Lec-
ture Notes in Artificial Intelligence [Nebel 90al, 1990.
J. Nobecourt. Reprsenter la notion de proprit dans les graphes
conceptuels et les logiques de descriptions. Actes du colloque Ing-
nierie des Connaissances, IC'98, 13-15 mai 1998, Pont--Mousson,
1998.
J.T. Nutter. A lexical relation hierarchy. Rapport no. 89-5, Com-
puter Science Department, Virginia Polytechnic Institute and State
University, Blacksburg, VA, 1989.
1. Orlac et J. Rebeyrolle. Elaboration et validation d'une m-
thode de recueil des connaissances terminologiques propres un do-
maine. Rapport de stage, DESS Sciences Cognitives et Interaction
Homme/Machine. Universit Toulouse-Le Mirail, 1994.
G. Otman. La reprsentation de la relation d'hyprony-
mie/hyponymie. ICO, 5(3), 1993.
G. Otman. La modlisation des units terminologiques sous la forme
de rseaux smantico-terminologiques. Actes Premier Colloque Jeunes
Chercheurs en Sciences Cognitives, La Motte d'Aveillans, mars 1994.
G. Otman, coordinateur. Premires Rencontres Terminologie et In-
telligence Artificielle, numro spcial de la Banque des mots 7/1995.
Conseil international de la langue francaise, 1995.
R. Oueslati. Acquisition de termes et de schmas linguistiques pour
l'identification de concepts. Actes du Colloque Informatique fj Langue
Naturelle (I.L.N. '96), 9-10 octobre 1996, Nantes, pages 457-463,1996.
1. Ounis. Une dnotation pour les graphes conceptuels: comparaison
avec les logiques terminologiques en recherche d'information. Actes
INFORSID'95, 1995.
R. Pichon et P. Sbillot. Acquisition automatique d'informations lexi-
cales partir de corpus. Rapport no. 3321, INRIA, dcembre 1997.
F. Pugeault. Extraction dans les textes de connaissances structures.'
une mthode fonde sur la smantique lexicale linguistique. Thse de
doctorat, Universit Paul Sabatier, IRIT, Toulouse, octobre 1995. n.
2153.
F. Pugeault et M-G. Monteil. Une tude pour l'extraction d'index
structurs la direction des tudes et recherche d'EDF. Journes
Internationales lA 95, session Gnie Linguistique, Montpellier, juin
1995.
[Pugeault 96] F. Pugeault et G. Lapalme. Vers une gnration automatique de
synthses de textes techniques partir de formes prdicat-arguments.
Actes d'lLN'96, Nantes, octobre 1996.
[Rassinoux 94] A.M. Rassinoux. Extraction et reprsentation de la connaissance ti-
re de textes mdicaux. Thse de Doctorat , Facult des sciences de
l'universit de Genve, 1994.
[Rastier 95] F. Rastier. Le terme: entre ontologie et linguistique. In Otman [Ot-
man 95], pages 35- 65.
[Rector 96] A.L. Rector, J.E. Rogers et P. Pole. The GALEN High Level Ontology.
Medical Informatics in Europe (MIE'96), Copenhague, 1996.
[Resnick 95] L.A. Resnick, A. Borgida, R.J. Brachman, C.L. Isbell, P.F. Patel-
Schneider D.L. Mc Guinness et K.C. Zalondek. Classic description
and reference manual for the common lisp implementation (version
2.3). Rapport, AT&T Bell Laboratories, 1995.
[Reynaud 94] C. Reynaud et F. Tort. Connaissances du domaine d'un sbc et onto-
logies: discussion. In JAC [JAC 94], pages B1- B13.
[Royaut 98] J. Royaut. Les groupes nominaux complexes et leurs proprits: Ap-
plication l'analyse de l'information. Thse de Doctorat, Universit
Henri Poincar, Nancy 1, 1998. A paratre.
[Sager 90] J .C. Sager. A Practical Course In Terminology Processing. John
Benjamins Publishing Company, 1990.
[Saint-Dizier 95] P. Saint-Dizier et E. Viegas. Computational lexical semantics, cha-
pitre An introduction to lexical semantics from a linguistic and a psy-
cholinguistic perspective, pages 1-29. Studies in N atural Language
Processing. Cambridge University Press, 1995.
[Saitta 96] L. Saitta. Representation change in machine learning. AI Communi-
cations, 9 :14- 20, 1996.
[Salton 94] G. Salton, L. Allan et C. Buckley. Automatic structuring and retrieval
of large text files. Communications of the A CM, 37(2) :97- 108, fvrier
1994.
[Saporta 90] G. Saporta. Probabilits, Analyse de Donnes et Statistique. Ed.
Tecnip, Paris, 1990.
[Schmidt-Schauf589] M. Schmidt-Schauf5. Subsumption in kI-one is undecidable. Procee-
dings of First International Conference on Principles of Knowledge
Representation and Reasoning (KR '89), pages 421- 431, Toronto, On-
tario, May 1989.
[Simon 98] A. Simon et A. Napoli. Treillis de galois et reprsentation par objets
pour la fouille de donnes. Actes du colloque Ingnierie des Connais-
sances, IC'98, 13-15 mai 1998, Pont--Mousson, 1998.
[Skuce 91] D. Skuce et 1. Meyer. Terminology and knowledge acquisition: ex-
ploring a symbiotic relationship. Proceedings of the 6th Banff Know-
ledge Acquisition for Knowledge-based Systems Workshop, pages 29/1-
29/21, 1991.
[Sowa 84] J .F. Sowa. Conceptual Structures: Information Processing in Mind
and Machine. Addison-Wesley, 1984.
169
Bibliographie
[Sowa 91a] J . Sowa. Principles of Semantics Networks. Exploration in the Re-
presentation of Knowledge, chapitre Toward the Expressive Power of
Natural Language. In PSN [Sowa 91b], 1991.
[Sowa 91b] J. Sowa, editor. Principles of Semantics Networks. Exploration in the
Representation of Knowledge. Morgan Kaufmann, 1991.
[Stephens 94] Charlotte S. Stephens. The nature of information technology re-
search : a seven year analysis. Journal of Computer System Infor-
mation Systems, 34(4) :67- 76, Summer 1994.
[Thompson 91] K. Thompson et P. Langley. Concept Formation: Knowledge and
Experience in Unsupervised Learning, chapitre Concept formation in
structured domains, pages 127- 161. Morgan Haufmann, San Mateo,
California, 1991.
[Toussaint 96] Y. Toussaint. Combining informetrics and linguistics in order to ana-
lyse large documentary databases. Proceedings of KBCS'96, 1996.
[Toussaint 97] Y. Toussaint, J. Royaute, C. Muller et X. Polanco. Analyse linguis-
tique et infomtrique pour l'acquisition et la structuration des connais-
sances. Terminologie et Intelligence Artificielle (TIA '97), 3-4 avril
1997, Universit Toulouse-Le Mirail, France, 1997.
[Toussaint 98] Y. Toussaint, F. Namer, B. Daille, C. Jacquemin, J. Royaute et N. Ha-
thout . Une approche linguistique et statistique pour l' analyse de l'in-
formation en corpus. Confrence Traitement Automatique des Langues
Naturelles (TALN'98), 10-12 juin 1998, Paris, 1998.
[Van-BakeI96] B. Van-Bakel, R. T. Boon, N. J. Mars, J. Nijhuis, E. Oltmans et
P. Van der Veto Condorcet annual report . Rapport no. UT-KBS-
96-12, Knowledge-based Systems Group, University of Twente, The
Netherlands, septembre 1996.
[Vent os 95] V. Ventos, P. Brzellec, P. Coupey et H. Soldano. C-classic: un lan-
gage de descriptions PAC-Iearnable . Actes JAVA '95, 1995.
[Viallet 94] F. Viallet, J. Garraud et G. Otman. Administration de donnes et
terminologie. CNRS-URA 1576, Centre de terminologie et de nologie,
Universit de Paris-Nord, Villetaneuse, non paru, 1994.
[Wille 84] R. Wille. Ordered Sets, chapitre Restructuring lattice theory: an ap-
proach based on hierarchies of concepts. D. Reidel, 1. Rival dition,
1984.
[Winston 87] M.E. Winston, R. Chaffin et D. Herrmann. A taxonomy of part-whole
relations. Cognitive Science, 11 :417- 444, 1987.
[Woods 91] W.A. Woods. Principles of Semantics Networks. Exploration in the
Representation of Knowledge, chapitre Understanding Subsumption
and Taxonomy: A Framework for Progress, pages 45- 94. In Sowa
[Sowa 91b], 1991.
[Woods 92] W.A. Woods et J.G. Schmolze. The kI-one family. Computers Math.
Applic., 23(2-5) :133- 177, 1992.
[Zweigenbaum 94] P. Zweigenbaum, B. Bachimont, J. Bouaud, J . Charlet et J.F. Bois-
vieux. Structuration et acquisition d'une ontologie pour la compr-
hension du langage mdical. Rapport, DIAM, 1994.
170
[Zweigenbaum 97J P. Zweigenbaum et J. Bouaud. Construction d'une reprsentation s-
mantique en graphes conceptuels partir d'une analyse LFG. Conf-
rence Traitement Automatique des Langues Naturelles (TALN'97),
Grenoble, juin 1997.
171
Bibliographie
172
Rsum
Nous prsentons dans ce mmoire une mthode originale de structuration de structures prdi-
catives par gnralisation, que nous appliquons ensuite l'analyse du contenu informationnel de
textes scientifiques.
Dans une premire partie, nous prsentons notre mthode de gnralisation de structures prdica-
tives. Une tude des mthodes de gnralisation existantes, principalement issues du domaine de
la classification conceptuelle, montre qu'aucune solution satisfaisante n'est propose pour la prise
en compte de telles structures. Nous nous appuyons sur le formalismes des logiques de descriptions
pour reprsenter puis gnraliser des structures prdicatives. La mthode repose sur une opration
lmentaire de calcul de plus petit subsumant commun d'un ensemble de concepts et sur un en-
semble d'heuristiques prenant en compte la spcificit des structures prdicatives.
Dans une deuxime partie, nous montrons comment appliquer notre mthode de gnralisation
l'analyse de l'information. Nous dtaillons le processus d'analyse de l'information, qui permet de
proposer une vue synthtique de documents textuels, et qui repose sur une chane de traitement
de ces documents. Nous montrons en particulier la ncessit d'une approche terminologique, et
proposons l'utilisation de structures prdicatives comme moyen d'amliorer la finesse de l'analyse.
Une exprimentation sur un corpus de rsums du domaine de l'agriculture, avec un expert docu-
mentaliste, constitue une premire valuation de notre processus de gnralisation dans le cadre de
l'analyse de l'information: le rsultat est un accs plus efficace et plus pertinent aux informations
contenues dans un corpus volumineux de textes scientifiques, grce une vue synthtique de ces
textes.
Mots-cls: intelligence artificielle, terminologie, gnralisation, structures prdicatives, logique de
descriptions, analyse de l'information
Abstract
We present an original method for structuring predicates structures using generalisation, and
th en apply this method to analysis of information al content of scientifics texts.
In the first part, we present our method of predicate structures generalisation. A review of existing
generalisation methods, which belong to the conceptual clustering domain, shows that there is no
satisfying solution for such structures. We use the description logics formalism to represent and
generalise predicate structures. Our method uses the operation of least corn mon subsumer of a set
of concepts, and defines heuristics specific to predicate structures.
In the second part, we apply our generalisation method to information analysis. We detai! the
information analysis process, which results in a synthetic view of textual documents. We show
that a terminological approach is necessary, and use predicate structures as a way to improve the
analysis process. We present our experimentation, with an expert, on abstracts in agriculture,
which constitutes a first evaluation of our generalisation process in the framework of information
analysis : the result is a more efficient access to information contained in corpus of scientific texts.
Keywords: artificial intelligence, terminology, generalisation, predicate structures, description
logics, information analysis

You might also like