Professional Documents
Culture Documents
a Laboratoire d'Informatique Mdicale, facult de Mdecine, Universit de Rennes 1, Avenue du Professeur Lon Bernard, 35043 Rennes cedex, France
Mots cls: Indexation et interrogation automatiques, Base de connaissances, Concept, Thsaurus et nomenclature, compte rendu mdical. Abstract : ADM-INDEX is a system for indexing and retrieval of Patients Dicharge Summaries (PDSs) by using linguistic methods (morphologic, syntaxic and semantic processing). The ADM-INDEX knowledge base is a restructuring of adiagnostic aid knowledge base (ADM) in order to allow the linguistic analysis of medical texts. The ADM system is a comprehensive medical knowledge base which has been developped since 1972 ab the University Hospital of Rennes and which has been the first professional videotex medical diagnostic aid in France. ADM-INDEX, after linguistic analysis, build the index table with thesaurus wording, medical words, concepts and phrases, unknown words contained in each PDS. The benefit of using those different elements is to improve retrieval. Although Our system is constructed with the ADM dictionnay, it can be easily applied to other medical nomenclature or thesaurus. In this paper,we present on the one hand the ADM-INDEX knowledge base which is constituted by rules, a dictionnary and a thesaurus, and on the other hand, the process of indexing and retrieval information. A prototype of the system is available on World Wide Web, whichis now the most used multimedia information system on the Internet.
1.
Introduction
Le domaine mdical est trs vaste, trs riche et trs complexe smantiquemenb. Un grand nombre de ses activits (radiologies, coronarographie, etc ..) se traduit par la production de comptes rendus mCdicaux rdigs en langage naturel. Les comptes rendus mdicaux dcrivent l'tat de sant des patients. Ce sont des documents importants dans la mesure o ils servent principalement [l] d'outil de suivi du malade et secondairement d'outil de synthse et d'auto enseignement, d'outil mdico-lgal, de communication, de recherche clinique, de gestion hospitalire, d'tudes pidmiologiques, d'valuation de la qualit de soins et d'enseignement.
Vu l'abondance des informations que contient chaque compte rendu, il s'avre ncessaire de pouvoir les stocker et les retrouver de manire slective et pertinente par l'intermdiaire d'un systme rapide, efficace et ergonomique. Ce systme apportera une aide considrable aux mdecins dans I'accomplissement de leur tsche.
La mise en place d'un tel systme suppose non seulement la rsolution des problmes lis au discours mdical (lipses, paraphrases, ambiguits, etc) [2, 3, 41 car celui-ci doit slectionner les concepts pertinents permettant de reprsenter le contenu des documents
- 247 -
mais galement l'utilisation d'une nomenclature1 mdicale. Il serait donc intressant de pouvoir utiliser les bases de connaissances des systkmes medicaux tels que MTEFWIST [5] (qui comprend 500 maladies) et son driv QMR [6]. RECONSIDER [7] (qui comprend 3.000 maladies), 1'A.D.M. 18.91 (qui comprend 12.000 maladies). Nous avons opt6 pour la hase A.D.M. (Aide au Diagnostic Mdical) car d'une part elle a t diveloppe au Laboratoire d'Informatique Mdicale de la Facnltt5 de M6decine de I'Universit6 de Rennes 1et d'autre part, elle est trs riche qualitativement et quantitativement (12.000 maladies, syndromes, effets inelCsiraables et formescliniques d6crits par une nomenclature de 136.000 entitbs, un dictionnaire de 60.000 entrkes). Malgr cette richesse, labase A.D.M. se prte mal h l'analyse des textes mdicaux (manque d'informations syntaxiques, smantiques, etc) rdigs en langage naturel. Aprhs une prsentation de la base A.D.M. et le constat effectu de son incapacitk 5 traiter efficacement les documents mdicaux, nous prsenterons la base de connaissances du systi?me ADM-INDEX qui est une restructuration de la base A.D.M. afin de l'adapter l'analyse linguistique de documents. Nous montrerons comment nous dtectons les concepts et/ou expressions mEdicales, comment nous constituons les index et comment nous nous en servons pour la recherche d'informations. Nous terminerons par la description de l'implantation et Vvaluation du systhme.
2.
La base de
es du systeme A.D.M.
La base du systme A.D.M. a tg dvoloppe dansle but de fournir une aide documentaireetdiagnostique aux mdecins en utilisant des mthodes de recherches combinatoires. Elle est constitue d'une nomenclature de libells, d'un dictionnaire ainsi que des descriptions de maladies. Nous prsentons en detail les deux premiers blments.
2.1 En naomewelature des libell6s A.D.M.
La nomenclature A.D.M. contient environ 130.000 entites. Une entitk A.D.M. est un terne ayant un sens medical et servant h dgcpire, entre autres, les pathologies. Ces entits concernent tous les domaines de la smiologie ainsi que les professions exposes et les pays d'endmie . Une entit6 appartient 2t l'un des champs sbmantiques suivants :
P = Physiopathologie N = Nosologie E = Examen L = Anatomie G = Pronostic S = Signes M = Maladies D = Mdicaments T = Evolution P = Syndromes C = Commentaires A = Environnement / Terrain P = Formes cliniques
Les liens existants entre les entits sont des liens de type Pbre-fils (EST-UN). Cette large nomenclature B l'avantage d'btre finement constituie.Le pricision est tres lev. Un exemple est donn dans le tableau suivant : S00197 S07384 SI7028 S00195 S 15708 Rachialgie Dorsalgie Douleur rachis aigue Douleur rachis lombaire Douleur rachis permanente 80738.5
S40344
niveau de
S34943 S71424
Douleur rachis dorsal aigue Douleur rachis lombaire aigue Douleur rachis lombaire mCdiane Douleur rachis lombaire trs aigue
1. La nomenclature est dBfinie comme l'ensemble des termes employs dans une science, sans dfinition explicite de ces termes, mais mthodiquement closss.
- 248
Or, du point de vue linguistique, la base ADM possde des lacunes divers niveaux : - le dictionnaire : il ne comporte aucune information syntaxique ni smantique. Les diffrents contextes d'utilisation d'un mot ne sont pris en compte car tels que ceux-ci ont t dfinis, ils ne peuvent appartenir qu' une seule famille la fois (avoir qu'un seul sens). En outre, la dfinition des mots complexes est trs large et conduit parfois de mauvaises reconnaissances de termes. - la nomenclature : quoique tr&s fine et trs prcise dans la hirarchisation, ne comporte qu'un seul type de relation, la relation gnrique est-un. La relation partitive (composde) qui est aussi importante que la relation est-un est compltement absente.
Ces lacunes ne mettent pas en cause les performances du systme A.D.M. car celui-ci remplit pleinement les tches pour lesquelles il a t construit.
- 249
En revanche, si la base doit btre utilise dans un systme d'indexation automatique de textes en langage naturel, les lacunes Bnumeres doivent imprativement &trecombles car leur prsence est un frein Bnorme B I'laboration de ce s y s t h e . La base ADM-INDEX est le resultat de la restmcturation de la base A.D.M.
3.
La base de connaissances de ADM-INDEX est constituke d'un dictionnaire, d'un ensemble de rkgles ainsi que d'un thesaurus. Cette f q o n de constituer la base nous permet de prendre en compte les caractristiques essentielles des rseaux semantiques [ l l , 121, les &$les de production [ 131 et les schemas (frame) de Minsky [l4].
3.1 Le dictionnaire
Le dictionnaire ADM-INDEX a essentiellement pour but de permettre la detection de concepts medicaux ainsi que d'expressions mdicales quelque soit la forme sous laquelle suppose la rsolution de nombreux problkmes ils apparaissent dans le texte. Cela linguistiques dont regorge le langage mkdical [ 15, 161.
Nous conservons la constitution du dictionnaire sous forme de famille ainsi que les diffrents types de termes (mot simple, mot compos et mot associe). Nous ajoutons des BlCments de nature syntaxique et smantique aux diffkrents constituants du dictionnaire afin de le rendre plus qualitatif.
Dfinition des constituants Nous distinguons dans le dictionnaire trois types de constituants 5 savoir : les conceptsl, les expresions (termes multimots) et les mots simples. Chaque constituant sera dkfini h partir de l'ensemble d'Cl6ments suivant :
: c'est le code associd au constituant : indique si le constituant est un mot, un concept ou une expression : indique si le constituant est un mot nul, ignorable ou non : indique si le constituant est un terme mdical ou non : categorie grammaticale du constituant : Catenories s6maniiaues du constituant
. [CODE-RANG]::' . [PRE@]*
Nous utilisons galement les opdrateurs /// et // pour matrialiser les differents sens ou cas possibles. Le symbole /// permet de mat6rialiser les diffrents cas qui s'excluent mutuellement et le symbole // permet de materialiser B l'intrieur de chaque cas,les differentes possibilits. Ils permettent de prendre en compte le cas des diffkrents contextes
1. Un concept est un terme scientifique ou linguistique dont la dfinition est biem spcifie et qui reprdsente une classe d'objets ou d'ides. 2. * signifie quela rubrique est optionnelle
- 250 -
d'utilisation d'un concept, d'une expression ou simplement d'un mot. Cequi donne la possibilit un concept d'appartenir 5 plusieurs familles la fois, bien qu'il soit enregistr dans une seule. Leur utilisation permet d'viter d'avoir plusieurs entres pour un mme concept dans le dictionnaire si celui-ci possde plusieurs sens. Prenons par exemple le concept Scrtaire qui posskde trois sens :
Ce concept sera une seule entre dans le dictionnaire ADM-INDEX. Il sera reprsent de lafaon suivante :
. CODE-SIG
La traduction de cette reprsentation est la suivante : si scrtaire est employ dans le cadre d'une administration alors il s'agit d'un tre humain qui est l'assistant du patron; s'il est employ dans un contexte animal, alors il est synonyme (DEF:voir) de serpentaire; s'il est employ dans un contexte de meuble, alors il s'agit d'une armoire tiroir. Nous utilisons un systkme de chiffresqui permet de bien lierlesdiffrentes caractristiques au concept selon la catgorie smantique considre. Les Clments du dictionnaire permettent d'attribuer un terme donn du dictionnaire, des informations morphologiques, syntaxiques et smantiques.
Informations Morphologiques : ces informations sont prises en compte au sein des familles car nous savons qu'une famille contient entre autres un mot ainsi ques toutes ses flexions. On aura donc toutes les formes du mot dans sa famille. C'est le CODE-SIG qui permet de lier un mot B une famille. Exemple : PRANDIAL 257490AB PRANDIALES 257490AO 257490AC PRANDIALE PRANDIAUX 257490AA Informations syntaxiques : ADM-INDEX permet d'indiquer (CATEGRAM) la Les diffrentes catgories catgorie grammaticale de chaque mot ou concept. grammaticales prsentes dans le dictionnaire sont : Substantif, Verbe, Adverbe, Adjectif, Prposition, Prfixe, Dterminant. Exemple : Gauche
. CATEGRAM
. OPP
. MOT . PREC
Gauche est unmot qui n'est pas employ seul. C'est un prciseur de localisation (organes ou rgions anatomiques). Il est oppos B Droite. En mdecine, le fait d'utiliser
- 251 -
Gauche comme un preciseur nous impose de le lier soit i un organe, soit 2 une rggion anatomique.
hformations s6mantiqnea : Ces informations sont prises en comptepar l'utilisation des mots composs et associs, par les eelations existant entre les diffrents concepts (CAT-SEM, CAUSE ), par la dfinition explicite de certains concepts (DEP), par l'utilisation des oprateurs III et Il. Exemple : Coronaire.
0
...
. CSDE-SIC
. CATEG .TYPE
: non ignorable
. MOT .DEP
. CATEGWARI
Si Coronaire est employ en tant que adjectif, alors c'est tout simplement l'adjectif Coronaire. Si Coronaire est employ en tant que substantif, alors il s'agit de l'Artbre coronaiee. Il faudra donc dans ce cas prendre en compte les caeactristiques de AvfBre coronaire ddceites dans le dictionnaiee.
Cette f a p n de reprsenter les mots ainsi que les concepts permettra de mieux les reconnatre dans les textes. En plus, l'utilisation de syntagmes (mots composs et mots assacis) peemet de bien prciser l'id& ou la notion exprime, donc de r6duire les cas de polysmies. En outre, la structuration du dictionnaire en familles permet d'avoir toutes les formes flchies d'un mot. Nous n'avons pas besoin de faire un traitement sp6cifique pour reconnatre les mots (traitements sur les terminaisons). Cela a pour avantage d'acclkrer le processus de traitement.
Notre base ne contient pas une multitude de rgles ou de transformations. Cinq rgles et trois transformations permettant d'effectuer les traitements adquats afin de detecter les bons termes. Mous prsentons ici la rgle de dtection des mots composs comme dfinie prcdemment. Cette rgle est la suivante :
avec + T = ensemble des mots composs de la phrase, F'Mi = ( M i I flexions Mi }, PH = ensemble des motsdelaphrase, rangMi = rang du mot Mi dans la phrase L'application de cette rgle permettra de reconnatre le mot compos FiBvee jaune dans la phrase Virus de l a Fi2vre jaune et non dans celle-ci Hyperthermie jaune. Bien qu'hyperthermie soit synonyme de FiBvre, on ne dit jamais "Hyperthermiejaune".
La permutation qui consiste ii changer l'ordre des mots constituant le terme ExemDle: MOT1 MOT2 => MOT2 MOT1
- 252
La rduction qui consiste effectuer des transformations globales qui suppriment ou ajoutent des mots sans changer l'ordre. du muscle (nominalisation) Exemple: Atrophie musculaire => Atrophie
0
La substitution qui permet de prendre en compte essentiellement les synonymies afin de retrouver la mme ide exprime sous une autre forme. La dfinition et l'utilisation de ces trois transformations se justifient par le fait que les constituants du dictionnaire se prsentent essentiellement sous leur forme minimale. C'est uniquement soit une permutation, soit une rduction, soit une substitution, soit une de leurs combinaisons applique la phrase analyse qui permettra de dtecter les termes. Il faut toutefois souligner que les rgles n'acceptent pas toutes, lesdiffrentes transformations.
REDUCTION
Effacement
Autres
PERMUTATION
SUBSTITUTION
. .
Tableau n"2 : Table d'acceptabilit6 des transformations par la rgle des mots composs Ce tableau montre que la rgle de reconnaissance des mots composs n'accepte que la rduction des mots nuls. L'utilisation des rgles et des transformations permet d'obtenir une mme entre dans le dictionnaire pour les termes suivants: Atrophie du muscle Atrophie des muscles Muscle atrophi Muscles atrophis Muscle trs atrophi Muscles trs atrophis Atrophie musculaire etc .....
2.3 Le thsaurus
Les libells du thsaurus ADM-INDEX sont organiss hirarchiquement. Cette organisation s'est faite essentiellement sur la base des relations gnrique Est-un et partitive Est-composde. La mise en place de cette hirarchie de libells s'est faite en se basant sur la dfinition des diffrents libells. La dfinition est forme d'une uartie Genre (Gnus) et d'une uartie _._ _ . . _ . _ ~~.~ Diffirence (Differentia:). Le Genus est l'hyperonyme auquel sera rat'tach le libell dans la hirarchie etla Diffrentia: permet de diffrencier le libell de son hyperonyme. La construction de taxonomies base sur ce principe et dja utilise par d'autres chercheurs [17, 181 est fiable. La hirarchie de libells est trs importante dans un processus d'indexation dans la mesure o elle permet non seulement aux fils d'hriter des proprits de leurs Peres mais galement de prfrer un libell plus fin (en I'occurence un libell feuille) un libell plus large (en I'occurence un libell racine) [19, 201. En outre, au sein du thsaurus, la similarit entre termes est un lment ncessaire dans un systme comme le notre car elle permet de
~~ ~ ~ ~~
- 253 -
rduire les risques de silence1 lors d'une recherche d'informations. Elle est arise en comate par le biais du signe Il. Exemple : MO0289 Maladie du sommeil Il Trypanosomiase africaine @etensemble de termes similairesest appel au sein de I'ADM-INDEX une En&& C'est donc sur cette base de connaissances que va s'appuyer le s y s t h e pour amiyser et indexer les diffirents textes mdicaux.
4.
Indexation et Interrogation sont deux termes qui vont de pair. L'indexation recense les lEments senss reprksenter le contenu des documents et l'interrogation se sert de ces lments pour la recherche des documents dans la base.
4.1 L'indexation
Elle s'articule autour d'un certain nombre de modules. La presentation de ces modules se fera selon leur ordre d'enchainement. Le module de D&coupegeet de Reconnaissance des mots. II permet de dcouper le texte en phrases. Ceci a pour but de diviser le probl8me global (texte) en probl&mes plus simples (phrases) traiter. Ce module va utiliser essentiellement les signes de ponctuation ainsi que le dictonnaire ADM-INDEX. Nous consid6rons ici que le texte pris en entre est bien ponctu. Chaque phrase extraite sera ensuite dcoup6e en mots afin de procder la reconnaissance de chacun d'eux. Lors de cette phase, on peocsde ventuellement B des corrections orthographiques des mots inconnus pae la base. Le systme de corrections orthographiques prend en charge les cas suivants : un caract&re manquant, un caractre suppl&nentaire, l'emploi erron de certaines lettres pour d'autres tels que P -3 PH,T -> TH, -3 CZ, EL -> CK, R -3 Pa,CH -> $CH..
Q
A chacun des mots est attribut5 ses informations syntaxiques et skmantiques. Exemple de dcomposition de la phrase : L'echographie rnonrre une absence congnitale du doigt.
Le 1196coupage syntaxique et 1'Andgrse sha.aeiiqoe. Ce module est compos de deux sous modules : je secmenteur svntaxique qui decoupe la phrase en des s6quences comparables aux entrt5e.s du dictionnniee. Dans le cadre du traitement des textes mdicaux, il est illusoire de vouloir utiliser des analyseurs syntaxiques complets du franpis car les textes sont souvent non conformes la grammaire du langage naturel; d'oh la n6cessit d'utiliser un segmenteue syntaxique simple mais adapt.
0
1 Le silence, c'est le fait de ne rien proposer OU de ne pas proposer assez de rponses pertinentes lors d'une consultation de la base
- 254 -
La segmentation syntaxique permet de limiter au maximum le nombre d'essais inutiles de comparaisons et d'viter la dtection de faux concepts. Elle se fait l'aide de marqueurs de groupes nominaux et verbaux : conjonctions, prpositions, expressions prdicatives ainsique des signes de ponctuation. Nous distinguons deux types de marqueurs, savoir les marqueurs faibles et les marqueurs forts. Les marqueurs faibles (de, des, du, d', etc) sparent les mots susceptibles de former ensemble un groupe nominal correspondant une entre du dictionnaire. Quant aux marqueurs forts, ceux qui nous intressent le plus, ils sparent des mots qui n'ont aucune chance de constituer ensemble un groupe nominal correspondant une entre du dictionnaire. Les paraphrases ne peuvent tre gnres qu'au niveau des squences dlimites par des marqueurs forts. Ainsi, des expressions prpositionnelles comme "au cours de", les prpositions comme "avec",des expressions prdicatives telles que "d 2' sont des marqueurs forts qui indiquent pour la plupart des relations smantiques entre les groupes de mots isols par eux. Les marqueurs forts sont subdiviss en deux groupes, les verbes et les autres types. La segmentation va se faire d'abord par rapport au verbe, ensuite, chaque groupe nominal obtenu sera segment par rapport aux autres types de marqueurs forts. Un exemple de segmentation est donn dans la figure nO1
Figure nO1: Exemple de segmentation dune phrase l'analvseur smantique, partir de la segmentation de la phrase, va dtecter les concepts et/ou expressions. On commence d'abord par reconnatre les mots composs avant de reconnatre les mots associs. La reconnaissance des termes se fait dans cet ordre car les liens existant entre les constituants du mot compos sont plus forts que ceux du mot associ. Cette phase commence par le choix, au sein de chaque groupe de mots, d'un mot (ou des mots) qu'on nommera Principal. Le principal nous servira d'entre dans le dictionnaire afin de dtecter une expression. Le principal est un mot de catgorie substantif, prfme ou adjectif car ce sont ces trois catgories qui sont les plus succeptibles d'occuper la premire place dans une expression. S'il existe plusieurs principaux dans un groupe, c'est l'ordre d'apparition des principaux dans la phrase qui fixe la priorit (plus le rang est faible, plus la priorit est grande). Pour la phrase L'echographie montre une absence congnitale du doigt, nous avons les principaux Echographie, Absence, Congnitale et Doigt. Les Principaux obtenus servent essentiellement lors de la reconnaissance des mots composs. Ils permettent d'acclrer le processus de reconnaissance de ces mots tout en vitant les erreurs (mauvaise reconnaissance). Sachant qu'un terme comporte au moins deux mots, tous les groupes de mots d'au plus un mot ne vont pas nous intresser.
- 255 -
reconnu comme mot compos de GN-2. Le second principal Cong6nital ne donne rien. On arrte donc la recherche. Il faut nanmoins souligner que lors de cette phase, les marqueurs faiblessont trs facilement transgresss afin de reconnatre des rnots composs plus importants, et donc plus pr6cPs.
On applique ici les diffrentes rkgles de dtection des mots associds. Ces r&gles subissent les diffrentes transformations ncessaires et possibles afin de reconnatre chacun des prtendants. C'est le terme Absence congnitale qui est retenu. On remplace dans la phrasa les mots Absence et congnitale par le terme $r Absence congnitale
& Absence congnitale
La phrase, apeBs d6tection des divers termes, devient L'echographie montre une du doigt
Aprh la reconnaisance des mots associs (reconnaissance qui se fait aprs celui des mots compost%), s'il reste des concepts isols, ceux-ci seront remplac6s par leurs pkres dans laphrase par le biais des liens partitifs et genCkquesdu thsaurus afin d e rechercher d'Bventuels autres mots associs. Exemple : ConsidCPoms que Papule mail1 soit un teme du dictionnaire. Si nous avons dans la phrase les concepts isols Papule et Doigt, on remplacera Doigt par Main par le biais de la relation pantitive qui lie le Doigt la Main (le Doigt faisant partie de la Main ) dans le thsaurus. On pourra donc reconnaitre le terme Papule main.
III faut toutefois souligner que si l'on dtecte par exemple deux mots compos6s ou associks et que l'un est contenu lexicalement dans l'autre, on retient le plus long car il est en principe le plus prcis et rflbte mieux ce qui a t6 exprim.
Transeeession des marqueur5 La teansgression des marqueurs forts est ncessaire afin de d6tecter les concepts exprims i travers deux phrases. Exemple de transgression de marqueur fort (o)1 dans 1'nonc suivant : Le patient est atteint d'un addnorne du lobe droit de la thyrode* Il a i t k dJj2 procdk 2 une lobectomie partielle gauche Gauche n'est pas lik & Lobectomie qui est un acte chieurgical Gauche n'est pas employ seul car c'est un prkciseur d'organe ou de rgion anatomique (cf dCfinition des constituants du dictionnaire) Lobe droit de la tyrode a dj t detect Lobe est une rgion anatomique Toutes ces informations vont permettre de transgresser le marqueur fort d&tecterle concept lobe gauche de la tyrode.
1 ~e point est un marqueur fort
e) afin de
Dans la version actuelle du systme, la transgression des marqueurs forts n'est pas encore implmente. Elle est encore h I'tude. Les mots composs et associs ayant t dtects, on procdera maintenant la recherche de libells de nomenclature.
Dtection des libells de la nomenclature ADM. Ce module va se baser sur la phrase transforme (transformation obtenue a rs la dtection des concepts et/ou expressions mdicales) ainsi que la terminologie A.D.M. Les libells de la terminologie sont constitus par une combinaison des diffrents constituants du dictionnaire. Ce sont de vritables noncs permettant d'exprimer toutes les notions voulues dans le domaine. Cette dtection va se faire de la mme manire que celle des mots associs car nous considrons un libell comme tant un mot associ.
Gnration des index. Il permettra de crer les tables index avec les libell6s dtects, les concepts et termes isols. La cration des tables index se fera selon une mthode que nous avons dfinie. Notre mthode rsulte de l'union de plusieurs mthodes existantes [21]. Elle consiste ne retenir comme Clments pouvant faire partie de la table index que les concepts et/ou termes mdicaux, les mots mdicaux, les mots inconnus du dictionnaire ainsi que les libells du thsaurus les plus prcis possibles. En effet, par le biais de la hirarchie du thsaurus, nous allons retenir tous les libells fils et rejeter les libells phres. Cela permet non seulement de compresser la table index mais galement de la rendre beaucoup plus significative. Le fait d'inclure les mots inconnus dans la table index pourra gnrer du bruit2 mais nous prfrons gnrer du bruit que d'obtenir le silence.
Chaque index est li une liste. La liste comporte la rfrence du texte, le numro de la phrase dans laquelle l'index apparait ainsi que la nature de celui-ci. ExemDle : Hepatomgalie < doc 1, ph 3, niv 1> signifie que Hepatomgalie apparait dans la phrase 3 du document 1 et que c'est un libell du thsaurus (niv 1). La dernire information permet d'affecter des notes aux diffrents documents qui sont slectionns lors d'une interrogation afin de les afficher par ordre d'importance. Les libells permettront aux documents d'obtenir la note la plus leve (3), les concepts et/ou expressions, une note moins leve (2) enfin les mots qui donneront une faible note (1). Cette faon de gnrer les index va nous tre trs utile au moment de l'interrogation.
4.2 L'interrogation
Elle consiste en l'interprtation des requtes ainsi qu' l'extraction de documents. Elle s'articulera autour de deux modules. le module Interprtation des requtes. Il permet de saisir la requte de l'utilisateur et den extraire les libells du thsaurus, les concepts et/ou termes ainsi que les mots.
0
le module de Consultation du thsaurus. Il permet de crer pour chaque libell, un ensemble de consultation de la table index. En effet, pour chaque libell, nous allons par le biais des liens de similarit qu'il a avec d'autres libells du thsaurus, constituer un ensemble d'interrogation smantiquement complet. C'est avec cet ensemble que nous allons consulter la table des index. Cet ensemble permet de slectionner tous les documents qui sont smantiquement proches partir du libell de consultation. le module d'Extraction. Il va se servir des ensembles de consultation crs h partir de chaque libell de la requte, des concepts et/ou termes ainsi que des mots.
1 Les libells de la terminologie sont prsents dans le thsaurus. 2 Lebruit,c'estle fait de proposertropderponsesnonpertinentescomme
- 257 -
L'extraction consiste slectionnee les documents B partir des ensembles de consultation, des concepts et/ou termes ainsi que des mots. Une fois que les documents ont t slectionns, il leur est attribut5 une note selon le nombre ainsi que la nature des index que chacun contient. Ils sont affiches par la suite par ordre ddcroissant de la note, 5.
Implantation et 6vafuatisn
5.1 L'impla%wta(ion
La reprgsentation de la base de connaissances est fondde sur le modle relationnel ORACLE. C'est donc un ensemble de tables reliees entreelles par des eelations. Les informations y sont exteaites grce aux requbtes SQL. Le systme ADM-INDEX, quant h lui, a tg dBvelopp6 en PRO C (langage C utilisant des requ6tes SQL pour interroger la base). Les tables index sont dgalement des tables ORACLE. Le systme rkalis n'est qu'un prototype et n'intgre pas encore tous les lements de la base de connaissances. La prochaine version sera plus complitte. Le systkme prend en entre un fichier ou un compte rendu mdical, y fait toutes les transfoemations ainsi que tous les traitements et affiche les index retenus. Afin de le tester, nous l'avons rendu accessible par le systme d'information W W (Word Wide Web) [22, 231. Le systme est donc interrogeable par le biais des logiciels clients de WWW (NETSCAPE, MOSMC ....). Cette veesion est lCg&rementdiffgrente de la version initiale car elle prend en entrke une phrase et non un fichier. La figure n02 prsente le rsultat de l'indexation de la phrase Absence congt5nitale de la main.
~~~
~~~
~~~~~~
Figure n"2 : Rsultat de l'indexation de la phrase "Absence congnitale de la main" L'cran affiche la phrase analyse, les libellds du thsaurus, les concepts etlou expressions ainsi que les mots mdicaux. Chacun des ldments est prcd par une case
- 258 -
prcoche, cela donne la possibilit l'utilisateur de pouvoir dslectionner ("dcocher") un lment si celui-ci n'est pas pertinent et cela permet de pouvoir valuer le bruit. Il affiche galement trois champs permettant de rajouter les codes des lments ventuellement manquants, cela permet d'valuer le silence. Enfin, il y a un champ nomm Commentaire qui permet de saisir toutes les remarques possibles concernant la phrase analyse (ex: pourquoi tel concept n'a pas t dtect, etc ....). Le bouton Validation permet d'enregistrer entre autres toutes les informations de l'cran dans un fichier. Le traitement de ce fichier issu des diffrents tests permettra d'amliorer notre base de connaissances.
5.2 L'vaiuation
Le prototype ralis a t test pour le moment sur un corpus de 28 comptes rendus mdicaux. Ces tests ont consist comparer I'ADM-INDEX l'indexation effectue manuellement par un codeur professionnel. A partir des rsultats obtenus, nous avons pu calculer les valeurs lis aux indicateurs permettant de mesurer les qualits d'un systme de recherches d'informations. Ces indicateurs sont : Le Rappel : mesure la proportion d'informations pertinentes retrouves (IPR) par rapport au nombre total de rponses pertinentes (RP). Sa formule est P R / RP (PR = ensemble de documents slectionns par la mthode manuelle et IPR = ensemble de documents slectionns par la mthode ADM-INDEX et prsents dans PR) La Prcision : mesure la proportion d'informations pertinentes retrouves par rapport au nombre total de rponses donnes (RD). Sa formule est IPR / RD (RD = ensemble de documents slectionns par la mthode ADM-INDEX) Le Silence : c'est le complmentaire du rappel, Sa formule est 1 - Rappel Le Bruit : c'est le complmentaire de la prcision, Sa formule est 1 - Prcision
0%
0%
lm%
100%
- 259 -
Les r6sultats obtenus sont prometteurs. On constate que certains libells tels que Bradycardie permettent d'obtenir des valeurs trs BlevCes. Cela s'explique simplement pae le fait que ces libelle ne peemettent de sClectionner manuellement qu'un ou deux documents aux maximum (ce que fait &galementle systBme ADM-mDEX). M6me si on a l'impression qu'ils modifient anoemalement les e6sultats du systme, ils constituent de tri% bons tests car ils permettent de mettre en vidence la peecision du systkme. Nous remarquons galement que les libells L&on tritronculaire, S ~ ~ F Z d'ardre OS~ coronaire et Lsioro csronarienlze ne peemettent pas d'obtenir les m8mes rtisultaes pourtant ils ont tous le m&mecode. Cela est dir B une absence de liens entre ces libelles dans notre base.
6. Discussion et perspective
Le systsme que nous avons d6veloppk est dpendant de son domaine d'application, c'est-&-diresa base de connaissances. Mais cette base & l'avantage de couvrir pratiquement tous les domaines mdicaux et d'tee complte car elle prend en compte les particularitbs du langage m6dical, ce qui est trks important. En outee, le systkme n'est pas li uniquement 1 la terminologie de L,'A.D.M., il est possible de remplacer celle-ci par un autre thesaueus ou une autre terminologie ddicale. Il suffit simplement de transcrire cette terminologie dans le foemalisme ADM-INDEX pae le biais d'une passerelle que nous avons dveloppCe. Nous avons donc pu l'adapter facilement i la C M 9 et CIMlO (Classification Internationale des Maladies, 9bme et l&me revision), i SNBMED (Systematized Nomenclature of MEDecine), au @DAM (Catalogue Des Actes Mdicaux, ancienne et nouvelle version) ainsi qu'au MESH (Medical Subject Headings). Au niveau du module d'extration, la mthode de stilection limine au maximum le silence, ce qui est teks important car le manque de document peut tre nuisible si ces documents contiennent des informations pertinent. En contre paetie, elle augmente le bruit. Ce qui n'est pas trop gnant pour notre systme mais il serait indressant CI'Bliminer ce bruit inutile. Pour Climiner celui-ci, nous allons comparee chaque document obtenu apr& la peemikre selection au contenu semantique de la requgte. Ceci est facile faire dans la mesure oh il nous est possible connatre la phrase dans laquelle un index se trouve. Le nouvel ensemble que nous allons obtenir sera l'ensemble de dpart pur des documents slectionns mais non pertinents. Cela suppose que nous devons, lors de l'extraction des libells et des concepts de la requhe, extraire galement le sens de celle-ci. Le sens permettra entre autres de marquer d'une part positivement ou negativement les libells auxquels elle est rattachBe et d'autre part de repertoriee les prdciseurs (adjectifs). Exemple : s i htilisateur rentre fipatom6galie chronique. @hrmique sera consid&& comme un prciseur et H6patomBgalie comme un libell d'indexation. Lors de la recherche de documents, on va d'abord slectionner tous les documents contenant Hipatsm&alie , Cvidemment, cette peemire slection va gnbrer du bruit, bruit que nous allons eduire en ralisant une deuxikme s6lection 1 partir de la prewikre slection en utilisant la smantique de la question, c'est--dire en prenant en compte le prBciseur chronique. Sachant que notre index est structure de la faon suivante < no doc, no phrase, niv >, on pourra accder aux phrases et confront6 leur contenu B celui de la requbte et ne retenie finalement comme solution, les documents dont les phrases concordent le mieux avec le sens de la requ&te.
7.
[Il.
[a].
R6f6renees Grmy Franois: Informatique d d i c a l e : introduction ci la mthsdologie en mddecine et sant publique. Paris, Dcembre 1986. Ghazi Joseph: Vocabulaire du discours mdical, structzrre, fonctionnement, apprentissage. Edition Didier Eudition, 1985
- 260 -
[81. [91.
Graitson M.: Aspect du traitement computationnel des donnes mdicales en langues naturelles. Thse de doctorat, Universit de Lige, 1983 Graitson M.: Traitement automatique du francais mdicale. cahiers de lexicologie, 30(1), pp. 47-74, 1977 M.D. : INTERNIST-I, an Miller R. A., M.D., Pople H. E., Jr., Ph.D., Myers J. D., experimental compter-based diagnostic consultant for general interna1 medicine. The New England Journal of Medicine. 1982; 307: 468-477. Miller R. A., Masarie F. E., Myers J. D. : Quick Medical Reference (Q.M.R.) for diagnostic assistance MD Comput. 1986;3: 34-48 Nelson S. J.,M.D., Blois M. S., Ph.D.,M.D., Tuttle M. S., Eribaum M., M.D., Harrison P., M.D., Kim H., M.D., Winkelmann B.,M.D., Yamashita D., M.D. : Evaluating RECONSIDER - A computer program for diagnostic prompting J. Med. Syst., vol. 9, nos. 516. 1985 Lenoir P., Riou C., Fresnel A.: L'aide au diagnostic mdical (ADM). Modalits et perspectives. Mdecine de l'homme No 135. Lenoir P. , Michel J. R., Frangeul C. , Chales G.: Ralisation, dveloppement et maintenance de la base de donnes A.D.M. Mdecine informatique (1981), vol. 6, No 1, 51-56 Jayez Jacques: L'infrence en langage naturel. Ed. Herms, Paris, 1988 Sowa J. F.: Conceptuel structures. Information processing in mind and machine. Readings, Massachusetts: Addison-Wesley, 1984. Quillian M. R. : Semantic memory. In Semantic information processing. Minsky. MIT press. Cambridge Mass, 1968 : 227-270 Chamiak E. : Towards a mode1 of children's story comprehension. T. R. n"266, MIT Artificial Intelligence Lab. 1972 Minsky M.: A framework for representing knowledge, in the psychology of the computer vision, Ed. P.E. Winston, Mc Graw Hill, 1975 Ameli S.: Construction d'un langage de dictionnaire conceptuel en vue du traitement du langage naturel: Application en langage mdical. Thse CDS, UTC Compigne, 1989. De Heaulme M., Membrado M., Ameli S., Vexler F.: Ambigut et paraphrase dans lelangagemdical et leurtraitement par TRANSLOG. In l'Ambigut et la paraphrase. pp.287-291, Acte du colloque de Caen, 9-11 Avril 1987 Amsler R. A.: A taxonorny for english nouns and verbs. ACL Conf. pp. 133-138. 1980 Fargues J., Perrin A.: Synthetising a large concept hierarchy fromfrench hyperonynts, Colins'90, vol. 2, 1990 Burgun A., Botti G., Lukacs B., Mayeux D., Seka L. P., Delamare D., Bremond M., Kohler F., Fieschi M., Le Beux P.: A systetn that facilitates the orientation within nomenclatures througit a setnantic approach. Med. Inform. (1994), Vol. 19, N"4, 297-3 10 Landais P., Jais J.P., Frutiger P.: Smantique des classifications et nomenclatures. Informatique et Sant, 1989, 1 : 211-222. Hersh W. R., Hickam D. H., Leone T. J.: Words, concepts or both: optimal indexing units for autornated information retrieval. In Proceedings S C A " 93, pp. 644-648, 1993 Dagorn F., Gross C.: Le projet World Wide Web. Avril 1994 Pouliquen B., Riou C., Denier P., Fresnel A., Delamarre D., Le Beux P.: Using World Wide Web multimedia in medicine. Medinfo 95 (1995), 1519-1523
- 261 -