Indexation Et Interrogation Automatiques de Textes Médicaux Application À La Base

Indexation et interrogation automatiques de textes mdicaux application labase A.D.M.
SEKA L.-l'.a, POULIQUEN B.', LE BEUXP.'
a Laboratoire d'Informatique Mdicale, facult de Mdecine, Universit de Rennes 1, Avenue du Professeur Lon Bernard, 35043 Rennes cedex, France
Rsum : L'ADM-INDEX est un systme utilisant les mthodes linguistiques (morphologie,

syntaxe et smantique) pour l'indexation et l'interrogation de comptes-rendus mdicaux. Sa base de connaissances est une restructuration du systme A.D.M. qui est une vaste base de connaissances mdicales dveloppe au Centre Hospitalier Rgional de Rennes depuis 1972 et qui a t le premier videotex professionnel d'aide au diagnostic mdical en France. Dans cet article, nous prsentons d'une part la base de connaissances de I'ADM-INDEX qui est constitue d'un dictionnaire, d'un ensemble de rgles et d'un thsaurus, et d'autre part, le processusd'indexation etde recherche d'informations. Un prototype du systmeest consultable sur World Wide Web,qui est le systme multimdia le plus utilis sur Internet.
Mots cls: Indexation et interrogation automatiques, Base de connaissances, Concept, Thsaurus et nomenclature, compte rendu mdical. Abstract : ADM-INDEX is a system for indexing and retrieval of Patients Dicharge Summaries (PDSs) by using linguistic methods (morphologic, syntaxic and semantic processing). The ADM-INDEX knowledge base is a restructuring of adiagnostic aid knowledge base (ADM) in order to allow the linguistic analysis of medical texts. The ADM system is a comprehensive medical knowledge base which has been developped since 1972 ab the University Hospital of Rennes and which has been the first professional videotex medical diagnostic aid in France. ADM-INDEX, after linguistic analysis, build the index table with thesaurus wording, medical words, concepts and phrases, unknown words contained in each PDS. The benefit of using those different elements is to improve retrieval. Although Our system is constructed with the ADM dictionnay, it can be easily applied to other medical nomenclature or thesaurus. In this paper,we present on the one hand the ADM-INDEX knowledge base which is constituted by rules, a dictionnary and a thesaurus, and on the other hand, the process of indexing and retrieval information. A prototype of the system is available on World Wide Web, whichis now the most used multimedia information system on the Internet.
1.
Introduction
Le domaine mdical est trs vaste, trs riche et trs complexe smantiquemenb. Un grand nombre de ses activits (radiologies, coronarographie, etc ..) se traduit par la production de comptes rendus mCdicaux rdigs en langage naturel. Les comptes rendus mdicaux dcrivent l'tat de sant des patients. Ce sont des documents importants dans la mesure o ils servent principalement [l] d'outil de suivi du malade et secondairement d'outil de synthse et d'auto enseignement, d'outil mdico-lgal, de communication, de recherche clinique, de gestion hospitalire, d'tudes pidmiologiques, d'valuation de la qualit de soins et d'enseignement.
Vu l'abondance des informations que contient chaque compte rendu, il s'avre ncessaire de pouvoir les stocker et les retrouver de manire slective et pertinente par l'intermdiaire d'un systme rapide, efficace et ergonomique. Ce systme apportera une aide considrable aux mdecins dans I'accomplissement de leur tsche.
La mise en place d'un tel systme suppose non seulement la rsolution des problmes lis au discours mdical (lipses, paraphrases, ambiguits, etc) [2, 3, 41 car celui-ci doit slectionner les concepts pertinents permettant de reprsenter le contenu des documents
- 247 -
mais galement l'utilisation d'une nomenclature1 mdicale. Il serait donc intressant de pouvoir utiliser les bases de connaissances des systkmes medicaux tels que MTEFWIST [5] (qui comprend 500 maladies) et son driv QMR [6]. RECONSIDER [7] (qui comprend 3.000 maladies), 1'A.D.M. 18.91 (qui comprend 12.000 maladies). Nous avons opt6 pour la hase A.D.M. (Aide au Diagnostic Mdical) car d'une part elle a t diveloppe au Laboratoire d'Informatique Mdicale de la Facnltt5 de M6decine de I'Universit6 de Rennes 1et d'autre part, elle est trs riche qualitativement et quantitativement (12.000 maladies, syndromes, effets inelCsiraables et formescliniques d6crits par une nomenclature de 136.000 entitbs, un dictionnaire de 60.000 entrkes). Malgr cette richesse, labase A.D.M. se prte mal h l'analyse des textes mdicaux (manque d'informations syntaxiques, smantiques, etc) rdigs en langage naturel. Aprhs une prsentation de la base A.D.M. et le constat effectu de son incapacitk 5 traiter efficacement les documents mdicaux, nous prsenterons la base de connaissances du systi?me ADM-INDEX qui est une restructuration de la base A.D.M. afin de l'adapter l'analyse linguistique de documents. Nous montrerons comment nous dtectons les concepts et/ou expressions mEdicales, comment nous constituons les index et comment nous nous en servons pour la recherche d'informations. Nous terminerons par la description de l'implantation et Vvaluation du systhme.
2.
La base de
es du systeme A.D.M.
La base du systme A.D.M. a tg dvoloppe dansle but de fournir une aide documentaireetdiagnostique aux mdecins en utilisant des mthodes de recherches combinatoires. Elle est constitue d'une nomenclature de libells, d'un dictionnaire ainsi que des descriptions de maladies. Nous prsentons en detail les deux premiers blments.
2.1 En naomewelature des libell6s A.D.M.
La nomenclature A.D.M. contient environ 130.000 entites. Une entitk A.D.M. est un terne ayant un sens medical et servant h dgcpire, entre autres, les pathologies. Ces entits concernent tous les domaines de la smiologie ainsi que les professions exposes et les pays d'endmie . Une entit6 appartient 2t l'un des champs sbmantiques suivants :
P = Physiopathologie N = Nosologie E = Examen L = Anatomie G = Pronostic S = Signes M = Maladies D = Mdicaments T = Evolution P = Syndromes C = Commentaires A = Environnement / Terrain P = Formes cliniques
Les liens existants entre les entits sont des liens de type Pbre-fils (EST-UN). Cette large nomenclature B l'avantage d'btre finement constituie.Le pricision est tres lev. Un exemple est donn dans le tableau suivant : S00197 S07384 SI7028 S00195 S 15708 Rachialgie Dorsalgie Douleur rachis aigue Douleur rachis lombaire Douleur rachis permanente 80738.5
S40344
niveau de
S34943 S71424
Douleur rachis dorsal aigue Douleur rachis lombaire aigue Douleur rachis lombaire mCdiane Douleur rachis lombaire trs aigue
Tableau n"l : Extrait de la terminologie A.D.M.
1. La nomenclature est dBfinie comme l'ensemble des termes employs dans une science, sans dfinition explicite de ces termes, mais mthodiquement closss.
- 248
2.2 Le dictionnaire A.D.M.

Le dictionnaire de l'A.D.M. (environ 60.000 mots) est un dictionnaire particulier. Il ne donne ni la dfinition des mots ni leur contexte d'utilisation. Il permet de traduire les phrases des mdecins ou tudiants utilisateurs de l'application, en phrase A.D.M., c'est-dire en langage quasi-naturel mais "laconique". Le dictionnaire contient tous les mots des entits A.D.M. Les mots sont regroups par famille. Le pre d'une famille de mots est appel synonyme de rfrence ou mot de rfrence. Les liens existants entreles diffrents mots d'une famille sontdesliens de synonymie ou de flexion. Le dictionnaire A.D.M. compte environ 24.000 familles. Au sein d'une famille, on distingue deux catgories de mots : les mots simples et les mots complexes qui sont subdiviss en mots composs et mots associs. Mots simples : Ils sont composs d'un mot unique (chane de caractres). Parmi les mots simples, on distingue les mots nuls ou mots vides de sens (le, la, les ....) et les mots ignorables (les adverbes essentiellement). Les mots simples sont au nombre de 45.000 environ. Mots complexes : Ils sont composs par un ensemble de mots simples. Parmi les mots complexes, on distingue deux sous catgories : - Le mot compos a t cr afin d'empcher de dissocier les mots le constituant. Il permet d'exprimer un lien trs fort entre ses constituants dune part et d'autre part, de mieux grer les synonymies entre par exemple FIEVRE JAUNE (terme multimots) et le concept AMARIL, (mot simple). Le mot compos est trs rigide car lors de sa reconnaissance, il n'accepte ni synonyme (synonyme des mots le constituant), ni aucune permutation de l'ordre de ses constituants. Ceci dans le but d'viter de reconnatre de faux termes. Les mots composs sont tiquets dans le dictionnaire par le symbole "$". Ils sont actuellement au nombre de 900 environ. - Mots associs. Ils sont similaires aux mots composs mais ils sont beaucoup plus souplesqueces derniers. En effet, les mots associs permettent de tenir compte des synonymies entre les mots composants (Ex : Absence congnitale et Dficit congnital sont similaires sinon smantiquement identiques). Les mots associs sont tiquets dans le dictionnaire par le symbole "&". Ils sont actuellement au nombre de 750 environ. Le dictionnaire A.D.M. tel qu'il est structur ne peut pas 6tre utilis dans un systme d'indexation et d'interrogation bas sur les techniques du traitement du langage naturel. En effet, dans un tel systme, le dictionnaire joue un rle primordial car c'est lui qui contient les informations morphologiques, syntaxiques, smantiques et mmes pragmatiques. Ces informations sont ncessaires aux diffrentes phases d'analyse pour la reconnaissances exactes des expressions. En outre, il doit servir de tremplin pour l'infrence et la dduction dans la mesure o c'est lui qui fournira les lments ncessaires pour le dclenchement des processus de dduction et/ou d'infrence. L'infrence et la dduction sont deux lments importants dans un systme d'indexation utilisant les techniques linguistiques [lO].
Or, du point de vue linguistique, la base ADM possde des lacunes divers niveaux : - le dictionnaire : il ne comporte aucune information syntaxique ni smantique. Les diffrents contextes d'utilisation d'un mot ne sont pris en compte car tels que ceux-ci ont t dfinis, ils ne peuvent appartenir qu' une seule famille la fois (avoir qu'un seul sens). En outre, la dfinition des mots complexes est trs large et conduit parfois de mauvaises reconnaissances de termes. - la nomenclature : quoique tr&s fine et trs prcise dans la hirarchisation, ne comporte qu'un seul type de relation, la relation gnrique est-un. La relation partitive (composde) qui est aussi importante que la relation est-un est compltement absente.
Ces lacunes ne mettent pas en cause les performances du systme A.D.M. car celui-ci remplit pleinement les tches pour lesquelles il a t construit.
- 249
En revanche, si la base doit btre utilise dans un systme d'indexation automatique de textes en langage naturel, les lacunes Bnumeres doivent imprativement &trecombles car leur prsence est un frein Bnorme B I'laboration de ce s y s t h e . La base ADM-INDEX est le resultat de la restmcturation de la base A.D.M.
3.
Description de la base de comnaissamces
La base de connaissances de ADM-INDEX est constituke d'un dictionnaire, d'un ensemble de rkgles ainsi que d'un thesaurus. Cette f q o n de constituer la base nous permet de prendre en compte les caractristiques essentielles des rseaux semantiques [ l l , 121, les &$les de production [ 131 et les schemas (frame) de Minsky [l4].
3.1 Le dictionnaire
Le dictionnaire ADM-INDEX a essentiellement pour but de permettre la detection de concepts medicaux ainsi que d'expressions mdicales quelque soit la forme sous laquelle suppose la rsolution de nombreux problkmes ils apparaissent dans le texte. Cela linguistiques dont regorge le langage mkdical [ 15, 161.
Nous conservons la constitution du dictionnaire sous forme de famille ainsi que les diffrents types de termes (mot simple, mot compos et mot associe). Nous ajoutons des BlCments de nature syntaxique et smantique aux diffkrents constituants du dictionnaire afin de le rendre plus qualitatif.
Dfinition des constituants Nous distinguons dans le dictionnaire trois types de constituants 5 savoir : les conceptsl, les expresions (termes multimots) et les mots simples. Chaque constituant sera dkfini h partir de l'ensemble d'Cl6ments suivant :
. CODE-SIG . CATEG . TYPE

.[ M E D I C ] ~ ~ ~ . [CATEGRAM]:" . [CaT-sEM]:::
: c'est le code associd au constituant : indique si le constituant est un mot, un concept ou une expression : indique si le constituant est un mot nul, ignorable ou non : indique si le constituant est un terme mdical ou non : categorie grammaticale du constituant : Catenories s6maniiaues du constituant
Pres'hirarchiques'selon le lien g&nCrique

Pres hirarchiques selon le lien partitif libelle du constituant localisation du constituant par wppspt aux autres si niicassaire liste triCe des CODE-SIG des mots d'une expression : rang des mots d'une expression : catgorie de concepts frZcis6s : ddfinition du constituant si ncessaire : concepts ou mots auxquels il est opposd : sert B mentionner les concepts impliques : sert 5 mentionner les causes qui le gCdrent
. [DEFI* [OP%*]"' . [IMP]::+ . [CAUSE]x'

1
. [CODE-RANG]::' . [PRE@]*
Nous utilisons galement les opdrateurs /// et // pour matrialiser les differents sens ou cas possibles. Le symbole /// permet de mat6rialiser les diffrents cas qui s'excluent mutuellement et le symbole // permet de materialiser B l'intrieur de chaque cas,les differentes possibilits. Ils permettent de prendre en compte le cas des diffkrents contextes
1. Un concept est un terme scientifique ou linguistique dont la dfinition est biem spcifie et qui reprdsente une classe d'objets ou d'ides. 2. * signifie quela rubrique est optionnelle
- 250 -
d'utilisation d'un concept, d'une expression ou simplement d'un mot. Cequi donne la possibilit un concept d'appartenir 5 plusieurs familles la fois, bien qu'il soit enregistr dans une seule. Leur utilisation permet d'viter d'avoir plusieurs entres pour un mme concept dans le dictionnaire si celui-ci possde plusieurs sens. Prenons par exemple le concept Scrtaire qui posskde trois sens :
- Scrtaire 1 : assistant du patron,
- Scrtaire 2 : meuble tiroir - Scrtaire 3 : synonyme de serpentaire : animal se nourrissant de serpents
Ce concept sera une seule entre dans le dictionnaire ADM-INDEX. Il sera reprsent de lafaon suivante :
. CODE-SIG
. CATEG . TYPE . CATEGRAM . MOT . LOC . DEF

. CAT-SEM .PERHIERA
: 27139000 : Concept : non ignorable : Substantif
: Etre-humain 1/11 Animal 2/11 Objet 3

: Etre-humain 1/11Reptil2 III Meuble 3 : Scrtaire : Administration 1 : assistant du patron 1/11 voir: serpentaire 2/11 armoire tiroir 3
La traduction de cette reprsentation est la suivante : si scrtaire est employ dans le cadre d'une administration alors il s'agit d'un tre humain qui est l'assistant du patron; s'il est employ dans un contexte animal, alors il est synonyme (DEF:voir) de serpentaire; s'il est employ dans un contexte de meuble, alors il s'agit d'une armoire tiroir. Nous utilisons un systkme de chiffresqui permet de bien lierlesdiffrentes caractristiques au concept selon la catgorie smantique considre. Les Clments du dictionnaire permettent d'attribuer un terme donn du dictionnaire, des informations morphologiques, syntaxiques et smantiques.
Informations Morphologiques : ces informations sont prises en compte au sein des familles car nous savons qu'une famille contient entre autres un mot ainsi ques toutes ses flexions. On aura donc toutes les formes du mot dans sa famille. C'est le CODE-SIG qui permet de lier un mot B une famille. Exemple : PRANDIAL 257490AB PRANDIALES 257490AO 257490AC PRANDIALE PRANDIAUX 257490AA Informations syntaxiques : ADM-INDEX permet d'indiquer (CATEGRAM) la Les diffrentes catgories catgorie grammaticale de chaque mot ou concept. grammaticales prsentes dans le dictionnaire sont : Substantif, Verbe, Adverbe, Adjectif, Prposition, Prfixe, Dterminant. Exemple : Gauche
. CODE-SIG . CATEG . TYPE
. CATEGRAM
: 12660000 : Mot simple : non ignorable :Adjectif
. OPP
. MOT . PREC
: Gauche : Organe Il Rgion anatomique : Droite
Gauche est unmot qui n'est pas employ seul. C'est un prciseur de localisation (organes ou rgions anatomiques). Il est oppos B Droite. En mdecine, le fait d'utiliser
- 251 -
Gauche comme un preciseur nous impose de le lier soit i un organe, soit 2 une rggion anatomique.
hformations s6mantiqnea : Ces informations sont prises en comptepar l'utilisation des mots composs et associs, par les eelations existant entre les diffrents concepts (CAT-SEM, CAUSE ), par la dfinition explicite de certains concepts (DEP), par l'utilisation des oprateurs III et Il. Exemple : Coronaire.
0
...
. CSDE-SIC
. CATEG .TYPE
: 06873000 : Mot simple
: non ignorable
. MOT .DEP
. CATEGWARI
:AdjjectiEU//hbstantif2 : Coronaire : Voir: Asthe cesosleire 2
Si Coronaire est employ en tant que adjectif, alors c'est tout simplement l'adjectif Coronaire. Si Coronaire est employ en tant que substantif, alors il s'agit de l'Artbre coronaiee. Il faudra donc dans ce cas prendre en compte les caeactristiques de AvfBre coronaire ddceites dans le dictionnaiee.
Cette f a p n de reprsenter les mots ainsi que les concepts permettra de mieux les reconnatre dans les textes. En plus, l'utilisation de syntagmes (mots composs et mots assacis) peemet de bien prciser l'id& ou la notion exprime, donc de r6duire les cas de polysmies. En outre, la structuration du dictionnaire en familles permet d'avoir toutes les formes flchies d'un mot. Nous n'avons pas besoin de faire un traitement sp6cifique pour reconnatre les mots (traitements sur les terminaisons). Cela a pour avantage d'acclkrer le processus de traitement.
3.2: Les rkgles de d6tection des c0mcepts ethu des expressions

C'est par le biais d'un ensemble de rgles ainsi qu'unetable transformations que nous allons detectee les diffirents teemes. d'acceptabilit6 des
Notre base ne contient pas une multitude de rgles ou de transformations. Cinq rgles et trois transformations permettant d'effectuer les traitements adquats afin de detecter les bons termes. Mous prsentons ici la rgle de dtection des mots composs comme dfinie prcdemment. Cette rgle est la suivante :
avec + T = ensemble des mots composs de la phrase, F'Mi = ( M i I flexions Mi }, PH = ensemble des motsdelaphrase, rangMi = rang du mot Mi dans la phrase L'application de cette rgle permettra de reconnatre le mot compos FiBvee jaune dans la phrase Virus de l a Fi2vre jaune et non dans celle-ci Hyperthermie jaune. Bien qu'hyperthermie soit synonyme de FiBvre, on ne dit jamais "Hyperthermiejaune".
Nos rkgles peuvent subir essentiellement trois, savoir :
certaines transformations. Nous en avons defini
La permutation qui consiste ii changer l'ordre des mots constituant le terme ExemDle: MOT1 MOT2 => MOT2 MOT1
- 252
La rduction qui consiste effectuer des transformations globales qui suppriment ou ajoutent des mots sans changer l'ordre. du muscle (nominalisation) Exemple: Atrophie musculaire => Atrophie
0
La substitution qui permet de prendre en compte essentiellement les synonymies afin de retrouver la mme ide exprime sous une autre forme. La dfinition et l'utilisation de ces trois transformations se justifient par le fait que les constituants du dictionnaire se prsentent essentiellement sous leur forme minimale. C'est uniquement soit une permutation, soit une rduction, soit une substitution, soit une de leurs combinaisons applique la phrase analyse qui permettra de dtecter les termes. Il faut toutefois souligner que les rgles n'acceptent pas toutes, lesdiffrentes transformations.
REDUCTION
Effacement
Autres
PERMUTATION
SUBSTITUTION
formes mots nuls . mots lgnorables

Regie des mots composs
. .
Tableau n"2 : Table d'acceptabilit6 des transformations par la rgle des mots composs Ce tableau montre que la rgle de reconnaissance des mots composs n'accepte que la rduction des mots nuls. L'utilisation des rgles et des transformations permet d'obtenir une mme entre dans le dictionnaire pour les termes suivants: Atrophie du muscle Atrophie des muscles Muscle atrophi Muscles atrophis Muscle trs atrophi Muscles trs atrophis Atrophie musculaire etc .....
2.3 Le thsaurus
Les libells du thsaurus ADM-INDEX sont organiss hirarchiquement. Cette organisation s'est faite essentiellement sur la base des relations gnrique Est-un et partitive Est-composde. La mise en place de cette hirarchie de libells s'est faite en se basant sur la dfinition des diffrents libells. La dfinition est forme d'une uartie Genre (Gnus) et d'une uartie _._ _ . . _ . _ ~~.~ Diffirence (Differentia:). Le Genus est l'hyperonyme auquel sera rat'tach le libell dans la hirarchie etla Diffrentia: permet de diffrencier le libell de son hyperonyme. La construction de taxonomies base sur ce principe et dja utilise par d'autres chercheurs [17, 181 est fiable. La hirarchie de libells est trs importante dans un processus d'indexation dans la mesure o elle permet non seulement aux fils d'hriter des proprits de leurs Peres mais galement de prfrer un libell plus fin (en I'occurence un libell feuille) un libell plus large (en I'occurence un libell racine) [19, 201. En outre, au sein du thsaurus, la similarit entre termes est un lment ncessaire dans un systme comme le notre car elle permet de
~~ ~ ~ ~~
- 253 -
rduire les risques de silence1 lors d'une recherche d'informations. Elle est arise en comate par le biais du signe Il. Exemple : MO0289 Maladie du sommeil Il Trypanosomiase africaine @etensemble de termes similairesest appel au sein de I'ADM-INDEX une En&& C'est donc sur cette base de connaissances que va s'appuyer le s y s t h e pour amiyser et indexer les diffirents textes mdicaux.
4.
Le processus d'indexaiion et d'interrogation
Indexation et Interrogation sont deux termes qui vont de pair. L'indexation recense les lEments senss reprksenter le contenu des documents et l'interrogation se sert de ces lments pour la recherche des documents dans la base.
4.1 L'indexation
Elle s'articule autour d'un certain nombre de modules. La presentation de ces modules se fera selon leur ordre d'enchainement. Le module de D&coupegeet de Reconnaissance des mots. II permet de dcouper le texte en phrases. Ceci a pour but de diviser le probl8me global (texte) en probl&mes plus simples (phrases) traiter. Ce module va utiliser essentiellement les signes de ponctuation ainsi que le dictonnaire ADM-INDEX. Nous consid6rons ici que le texte pris en entre est bien ponctu. Chaque phrase extraite sera ensuite dcoup6e en mots afin de procder la reconnaissance de chacun d'eux. Lors de cette phase, on peocsde ventuellement B des corrections orthographiques des mots inconnus pae la base. Le systme de corrections orthographiques prend en charge les cas suivants : un caract&re manquant, un caractre suppl&nentaire, l'emploi erron de certaines lettres pour d'autres tels que P -3 PH,T -> TH, -3 CZ, EL -> CK, R -3 Pa,CH -> $CH..
Q
A chacun des mots est attribut5 ses informations syntaxiques et skmantiques. Exemple de dcomposition de la phrase : L'echographie rnonrre une absence congnitale du doigt.
Le 1196coupage syntaxique et 1'Andgrse sha.aeiiqoe. Ce module est compos de deux sous modules : je secmenteur svntaxique qui decoupe la phrase en des s6quences comparables aux entrt5e.s du dictionnniee. Dans le cadre du traitement des textes mdicaux, il est illusoire de vouloir utiliser des analyseurs syntaxiques complets du franpis car les textes sont souvent non conformes la grammaire du langage naturel; d'oh la n6cessit d'utiliser un segmenteue syntaxique simple mais adapt.
0
1 Le silence, c'est le fait de ne rien proposer OU de ne pas proposer assez de rponses pertinentes lors d'une consultation de la base
- 254 -
La segmentation syntaxique permet de limiter au maximum le nombre d'essais inutiles de comparaisons et d'viter la dtection de faux concepts. Elle se fait l'aide de marqueurs de groupes nominaux et verbaux : conjonctions, prpositions, expressions prdicatives ainsique des signes de ponctuation. Nous distinguons deux types de marqueurs, savoir les marqueurs faibles et les marqueurs forts. Les marqueurs faibles (de, des, du, d', etc) sparent les mots susceptibles de former ensemble un groupe nominal correspondant une entre du dictionnaire. Quant aux marqueurs forts, ceux qui nous intressent le plus, ils sparent des mots qui n'ont aucune chance de constituer ensemble un groupe nominal correspondant une entre du dictionnaire. Les paraphrases ne peuvent tre gnres qu'au niveau des squences dlimites par des marqueurs forts. Ainsi, des expressions prpositionnelles comme "au cours de", les prpositions comme "avec",des expressions prdicatives telles que "d 2' sont des marqueurs forts qui indiquent pour la plupart des relations smantiques entre les groupes de mots isols par eux. Les marqueurs forts sont subdiviss en deux groupes, les verbes et les autres types. La segmentation va se faire d'abord par rapport au verbe, ensuite, chaque groupe nominal obtenu sera segment par rapport aux autres types de marqueurs forts. Un exemple de segmentation est donn dans la figure nO1
mft: marqueur fort mf: marqueur faible Gn:groupe nominal
Figure nO1: Exemple de segmentation dune phrase l'analvseur smantique, partir de la segmentation de la phrase, va dtecter les concepts et/ou expressions. On commence d'abord par reconnatre les mots composs avant de reconnatre les mots associs. La reconnaissance des termes se fait dans cet ordre car les liens existant entre les constituants du mot compos sont plus forts que ceux du mot associ. Cette phase commence par le choix, au sein de chaque groupe de mots, d'un mot (ou des mots) qu'on nommera Principal. Le principal nous servira d'entre dans le dictionnaire afin de dtecter une expression. Le principal est un mot de catgorie substantif, prfme ou adjectif car ce sont ces trois catgories qui sont les plus succeptibles d'occuper la premire place dans une expression. S'il existe plusieurs principaux dans un groupe, c'est l'ordre d'apparition des principaux dans la phrase qui fixe la priorit (plus le rang est faible, plus la priorit est grande). Pour la phrase L'echographie montre une absence congnitale du doigt, nous avons les principaux Echographie, Absence, Congnitale et Doigt. Les Principaux obtenus servent essentiellement lors de la reconnaissance des mots composs. Ils permettent d'acclrer le processus de reconnaissance de ces mots tout en vitant les erreurs (mauvaise reconnaissance). Sachant qu'un terme comporte au moins deux mots, tous les groupes de mots d'au plus un mot ne vont pas nous intresser.
.La reconnaissance des mots cornuoss

Elle consiste d'abord en une consultation du dictionnaire avec les principaux. La consultation a pour but de fournir l'ensemble des entres de mots composs commenant par le principal en considration ou une de ses flexions. Le principal Absence du GN-2 donne : Absence altration Absence ossification Absence calcifications Absence vaccination Nous allons appliquer ensuite cette liste de prtendants obtenue, la rgle des mots composs afin de ne retenir uniquement que les bons termes. Aucun des prtendants n'est
- 255 -
reconnu comme mot compos de GN-2. Le second principal Cong6nital ne donne rien. On arrte donc la recherche. Il faut nanmoins souligner que lors de cette phase, les marqueurs faiblessont trs facilement transgresss afin de reconnatre des rnots composs plus importants, et donc plus pr6cPs.
.La reconnaissance des mots associs

Cette reconnaisance consiste d'abord en une consultation du dictionnaire avec tous les mots non nuls et non ignorables ainsi que les mots composCs (dj&dtecds) de la phease. Le rsultat de la consultation est l'ensemble des mots associs contenant le mot considrcj. ou un mot de sa famille. Dans cette phase, nous n'allons plus tenie compte des marqueurs faibles. @'est le groupe GN-4 qui nous intresse car il contient plus d'un mot. En repeenant la phrase de la figure n.1, la Consultation du dictionnaire avec Absbnce, Coong&nitale et doigF (ou un mot de leurs familles) donne l'ensemble suivant : Anomalie congnitale Absence congnitale Dficit salivaire DBficit intellectuel D6ficit moteur Doigt petit Cicatrice absence Alymphocytose congnitale Manque appetit
On applique ici les diffrentes rkgles de dtection des mots associds. Ces r&gles subissent les diffrentes transformations ncessaires et possibles afin de reconnatre chacun des prtendants. C'est le terme Absence congnitale qui est retenu. On remplace dans la phrasa les mots Absence et congnitale par le terme $r Absence congnitale
& Absence congnitale
La phrase, apeBs d6tection des divers termes, devient L'echographie montre une du doigt
Aprh la reconnaisance des mots associs (reconnaissance qui se fait aprs celui des mots compost%), s'il reste des concepts isols, ceux-ci seront remplac6s par leurs pkres dans laphrase par le biais des liens partitifs et genCkquesdu thsaurus afin d e rechercher d'Bventuels autres mots associs. Exemple : ConsidCPoms que Papule mail1 soit un teme du dictionnaire. Si nous avons dans la phrase les concepts isols Papule et Doigt, on remplacera Doigt par Main par le biais de la relation pantitive qui lie le Doigt la Main (le Doigt faisant partie de la Main ) dans le thsaurus. On pourra donc reconnaitre le terme Papule main.
III faut toutefois souligner que si l'on dtecte par exemple deux mots compos6s ou associks et que l'un est contenu lexicalement dans l'autre, on retient le plus long car il est en principe le plus prcis et rflbte mieux ce qui a t6 exprim.
Transeeession des marqueur5 La teansgression des marqueurs forts est ncessaire afin de d6tecter les concepts exprims i travers deux phrases. Exemple de transgression de marqueur fort (o)1 dans 1'nonc suivant : Le patient est atteint d'un addnorne du lobe droit de la thyrode* Il a i t k dJj2 procdk 2 une lobectomie partielle gauche Gauche n'est pas lik & Lobectomie qui est un acte chieurgical Gauche n'est pas employ seul car c'est un prkciseur d'organe ou de rgion anatomique (cf dCfinition des constituants du dictionnaire) Lobe droit de la tyrode a dj t detect Lobe est une rgion anatomique Toutes ces informations vont permettre de transgresser le marqueur fort d&tecterle concept lobe gauche de la tyrode.
1 ~e point est un marqueur fort
e) afin de
Dans la version actuelle du systme, la transgression des marqueurs forts n'est pas encore implmente. Elle est encore h I'tude. Les mots composs et associs ayant t dtects, on procdera maintenant la recherche de libells de nomenclature.
Dtection des libells de la nomenclature ADM. Ce module va se baser sur la phrase transforme (transformation obtenue a rs la dtection des concepts et/ou expressions mdicales) ainsi que la terminologie A.D.M. Les libells de la terminologie sont constitus par une combinaison des diffrents constituants du dictionnaire. Ce sont de vritables noncs permettant d'exprimer toutes les notions voulues dans le domaine. Cette dtection va se faire de la mme manire que celle des mots associs car nous considrons un libell comme tant un mot associ.
Gnration des index. Il permettra de crer les tables index avec les libell6s dtects, les concepts et termes isols. La cration des tables index se fera selon une mthode que nous avons dfinie. Notre mthode rsulte de l'union de plusieurs mthodes existantes [21]. Elle consiste ne retenir comme Clments pouvant faire partie de la table index que les concepts et/ou termes mdicaux, les mots mdicaux, les mots inconnus du dictionnaire ainsi que les libells du thsaurus les plus prcis possibles. En effet, par le biais de la hirarchie du thsaurus, nous allons retenir tous les libells fils et rejeter les libells phres. Cela permet non seulement de compresser la table index mais galement de la rendre beaucoup plus significative. Le fait d'inclure les mots inconnus dans la table index pourra gnrer du bruit2 mais nous prfrons gnrer du bruit que d'obtenir le silence.
Chaque index est li une liste. La liste comporte la rfrence du texte, le numro de la phrase dans laquelle l'index apparait ainsi que la nature de celui-ci. ExemDle : Hepatomgalie < doc 1, ph 3, niv 1> signifie que Hepatomgalie apparait dans la phrase 3 du document 1 et que c'est un libell du thsaurus (niv 1). La dernire information permet d'affecter des notes aux diffrents documents qui sont slectionns lors d'une interrogation afin de les afficher par ordre d'importance. Les libells permettront aux documents d'obtenir la note la plus leve (3), les concepts et/ou expressions, une note moins leve (2) enfin les mots qui donneront une faible note (1). Cette faon de gnrer les index va nous tre trs utile au moment de l'interrogation.
4.2 L'interrogation
Elle consiste en l'interprtation des requtes ainsi qu' l'extraction de documents. Elle s'articulera autour de deux modules. le module Interprtation des requtes. Il permet de saisir la requte de l'utilisateur et den extraire les libells du thsaurus, les concepts et/ou termes ainsi que les mots.
0
le module de Consultation du thsaurus. Il permet de crer pour chaque libell, un ensemble de consultation de la table index. En effet, pour chaque libell, nous allons par le biais des liens de similarit qu'il a avec d'autres libells du thsaurus, constituer un ensemble d'interrogation smantiquement complet. C'est avec cet ensemble que nous allons consulter la table des index. Cet ensemble permet de slectionner tous les documents qui sont smantiquement proches partir du libell de consultation. le module d'Extraction. Il va se servir des ensembles de consultation crs h partir de chaque libell de la requte, des concepts et/ou termes ainsi que des mots.
1 Les libells de la terminologie sont prsents dans le thsaurus. 2 Lebruit,c'estle fait de proposertropderponsesnonpertinentescomme
solution lors d'une
consultation dela base.
- 257 -
L'extraction consiste slectionnee les documents B partir des ensembles de consultation, des concepts et/ou termes ainsi que des mots. Une fois que les documents ont t slectionns, il leur est attribut5 une note selon le nombre ainsi que la nature des index que chacun contient. Ils sont affiches par la suite par ordre ddcroissant de la note, 5.
Implantation et 6vafuatisn
5.1 L'impla%wta(ion
La reprgsentation de la base de connaissances est fondde sur le modle relationnel ORACLE. C'est donc un ensemble de tables reliees entreelles par des eelations. Les informations y sont exteaites grce aux requbtes SQL. Le systme ADM-INDEX, quant h lui, a tg dBvelopp6 en PRO C (langage C utilisant des requ6tes SQL pour interroger la base). Les tables index sont dgalement des tables ORACLE. Le systme rkalis n'est qu'un prototype et n'intgre pas encore tous les lements de la base de connaissances. La prochaine version sera plus complitte. Le systkme prend en entre un fichier ou un compte rendu mdical, y fait toutes les transfoemations ainsi que tous les traitements et affiche les index retenus. Afin de le tester, nous l'avons rendu accessible par le systme d'information W W (Word Wide Web) [22, 231. Le systme est donc interrogeable par le biais des logiciels clients de WWW (NETSCAPE, MOSMC ....). Cette veesion est lCg&rementdiffgrente de la version initiale car elle prend en entrke une phrase et non un fichier. La figure n02 prsente le rsultat de l'indexation de la phrase Absence congt5nitale de la main.
~~~
~~~
~~~~~~
Figure n"2 : Rsultat de l'indexation de la phrase "Absence congnitale de la main" L'cran affiche la phrase analyse, les libellds du thsaurus, les concepts etlou expressions ainsi que les mots mdicaux. Chacun des ldments est prcd par une case
- 258 -
prcoche, cela donne la possibilit l'utilisateur de pouvoir dslectionner ("dcocher") un lment si celui-ci n'est pas pertinent et cela permet de pouvoir valuer le bruit. Il affiche galement trois champs permettant de rajouter les codes des lments ventuellement manquants, cela permet d'valuer le silence. Enfin, il y a un champ nomm Commentaire qui permet de saisir toutes les remarques possibles concernant la phrase analyse (ex: pourquoi tel concept n'a pas t dtect, etc ....). Le bouton Validation permet d'enregistrer entre autres toutes les informations de l'cran dans un fichier. Le traitement de ce fichier issu des diffrents tests permettra d'amliorer notre base de connaissances.
5.2 L'vaiuation
Le prototype ralis a t test pour le moment sur un corpus de 28 comptes rendus mdicaux. Ces tests ont consist comparer I'ADM-INDEX l'indexation effectue manuellement par un codeur professionnel. A partir des rsultats obtenus, nous avons pu calculer les valeurs lis aux indicateurs permettant de mesurer les qualits d'un systme de recherches d'informations. Ces indicateurs sont : Le Rappel : mesure la proportion d'informations pertinentes retrouves (IPR) par rapport au nombre total de rponses pertinentes (RP). Sa formule est P R / RP (PR = ensemble de documents slectionns par la mthode manuelle et IPR = ensemble de documents slectionns par la mthode ADM-INDEX et prsents dans PR) La Prcision : mesure la proportion d'informations pertinentes retrouves par rapport au nombre total de rponses donnes (RD). Sa formule est IPR / RD (RD = ensemble de documents slectionns par la mthode ADM-INDEX) Le Silence : c'est le complmentaire du rappel, Sa formule est 1 - Rappel Le Bruit : c'est le complmentaire de la prcision, Sa formule est 1 - Prcision
0%
0%
lm%
100%
Figure n"3 : Tableau rcapitulatif des tests effectus sur I'ADM-INDEX
- 259 -
Les r6sultats obtenus sont prometteurs. On constate que certains libells tels que Bradycardie permettent d'obtenir des valeurs trs BlevCes. Cela s'explique simplement pae le fait que ces libelle ne peemettent de sClectionner manuellement qu'un ou deux documents aux maximum (ce que fait &galementle systBme ADM-mDEX). M6me si on a l'impression qu'ils modifient anoemalement les e6sultats du systme, ils constituent de tri% bons tests car ils permettent de mettre en vidence la peecision du systkme. Nous remarquons galement que les libells L&on tritronculaire, S ~ ~ F Z d'ardre OS~ coronaire et Lsioro csronarienlze ne peemettent pas d'obtenir les m8mes rtisultaes pourtant ils ont tous le m&mecode. Cela est dir B une absence de liens entre ces libelles dans notre base.
6. Discussion et perspective
Le systsme que nous avons d6veloppk est dpendant de son domaine d'application, c'est-&-diresa base de connaissances. Mais cette base & l'avantage de couvrir pratiquement tous les domaines mdicaux et d'tee complte car elle prend en compte les particularitbs du langage m6dical, ce qui est trks important. En outee, le systkme n'est pas li uniquement 1 la terminologie de L,'A.D.M., il est possible de remplacer celle-ci par un autre thesaueus ou une autre terminologie ddicale. Il suffit simplement de transcrire cette terminologie dans le foemalisme ADM-INDEX pae le biais d'une passerelle que nous avons dveloppCe. Nous avons donc pu l'adapter facilement i la C M 9 et CIMlO (Classification Internationale des Maladies, 9bme et l&me revision), i SNBMED (Systematized Nomenclature of MEDecine), au @DAM (Catalogue Des Actes Mdicaux, ancienne et nouvelle version) ainsi qu'au MESH (Medical Subject Headings). Au niveau du module d'extration, la mthode de stilection limine au maximum le silence, ce qui est teks important car le manque de document peut tre nuisible si ces documents contiennent des informations pertinent. En contre paetie, elle augmente le bruit. Ce qui n'est pas trop gnant pour notre systme mais il serait indressant CI'Bliminer ce bruit inutile. Pour Climiner celui-ci, nous allons comparee chaque document obtenu apr& la peemikre selection au contenu semantique de la requgte. Ceci est facile faire dans la mesure oh il nous est possible connatre la phrase dans laquelle un index se trouve. Le nouvel ensemble que nous allons obtenir sera l'ensemble de dpart pur des documents slectionns mais non pertinents. Cela suppose que nous devons, lors de l'extraction des libells et des concepts de la requhe, extraire galement le sens de celle-ci. Le sens permettra entre autres de marquer d'une part positivement ou negativement les libells auxquels elle est rattachBe et d'autre part de repertoriee les prdciseurs (adjectifs). Exemple : s i htilisateur rentre fipatom6galie chronique. @hrmique sera consid&& comme un prciseur et H6patomBgalie comme un libell d'indexation. Lors de la recherche de documents, on va d'abord slectionner tous les documents contenant Hipatsm&alie , Cvidemment, cette peemire slection va gnbrer du bruit, bruit que nous allons eduire en ralisant une deuxikme s6lection 1 partir de la prewikre slection en utilisant la smantique de la question, c'est--dire en prenant en compte le prBciseur chronique. Sachant que notre index est structure de la faon suivante < no doc, no phrase, niv >, on pourra accder aux phrases et confront6 leur contenu B celui de la requbte et ne retenie finalement comme solution, les documents dont les phrases concordent le mieux avec le sens de la requ&te.
7.
[Il.
[a].
R6f6renees Grmy Franois: Informatique d d i c a l e : introduction ci la mthsdologie en mddecine et sant publique. Paris, Dcembre 1986. Ghazi Joseph: Vocabulaire du discours mdical, structzrre, fonctionnement, apprentissage. Edition Didier Eudition, 1985
- 260 -
131. 141. [51. E61. [71.
[81. [91.
Graitson M.: Aspect du traitement computationnel des donnes mdicales en langues naturelles. Thse de doctorat, Universit de Lige, 1983 Graitson M.: Traitement automatique du francais mdicale. cahiers de lexicologie, 30(1), pp. 47-74, 1977 M.D. : INTERNIST-I, an Miller R. A., M.D., Pople H. E., Jr., Ph.D., Myers J. D., experimental compter-based diagnostic consultant for general interna1 medicine. The New England Journal of Medicine. 1982; 307: 468-477. Miller R. A., Masarie F. E., Myers J. D. : Quick Medical Reference (Q.M.R.) for diagnostic assistance MD Comput. 1986;3: 34-48 Nelson S. J.,M.D., Blois M. S., Ph.D.,M.D., Tuttle M. S., Eribaum M., M.D., Harrison P., M.D., Kim H., M.D., Winkelmann B.,M.D., Yamashita D., M.D. : Evaluating RECONSIDER - A computer program for diagnostic prompting J. Med. Syst., vol. 9, nos. 516. 1985 Lenoir P., Riou C., Fresnel A.: L'aide au diagnostic mdical (ADM). Modalits et perspectives. Mdecine de l'homme No 135. Lenoir P. , Michel J. R., Frangeul C. , Chales G.: Ralisation, dveloppement et maintenance de la base de donnes A.D.M. Mdecine informatique (1981), vol. 6, No 1, 51-56 Jayez Jacques: L'infrence en langage naturel. Ed. Herms, Paris, 1988 Sowa J. F.: Conceptuel structures. Information processing in mind and machine. Readings, Massachusetts: Addison-Wesley, 1984. Quillian M. R. : Semantic memory. In Semantic information processing. Minsky. MIT press. Cambridge Mass, 1968 : 227-270 Chamiak E. : Towards a mode1 of children's story comprehension. T. R. n"266, MIT Artificial Intelligence Lab. 1972 Minsky M.: A framework for representing knowledge, in the psychology of the computer vision, Ed. P.E. Winston, Mc Graw Hill, 1975 Ameli S.: Construction d'un langage de dictionnaire conceptuel en vue du traitement du langage naturel: Application en langage mdical. Thse CDS, UTC Compigne, 1989. De Heaulme M., Membrado M., Ameli S., Vexler F.: Ambigut et paraphrase dans lelangagemdical et leurtraitement par TRANSLOG. In l'Ambigut et la paraphrase. pp.287-291, Acte du colloque de Caen, 9-11 Avril 1987 Amsler R. A.: A taxonorny for english nouns and verbs. ACL Conf. pp. 133-138. 1980 Fargues J., Perrin A.: Synthetising a large concept hierarchy fromfrench hyperonynts, Colins'90, vol. 2, 1990 Burgun A., Botti G., Lukacs B., Mayeux D., Seka L. P., Delamare D., Bremond M., Kohler F., Fieschi M., Le Beux P.: A systetn that facilitates the orientation within nomenclatures througit a setnantic approach. Med. Inform. (1994), Vol. 19, N"4, 297-3 10 Landais P., Jais J.P., Frutiger P.: Smantique des classifications et nomenclatures. Informatique et Sant, 1989, 1 : 211-222. Hersh W. R., Hickam D. H., Leone T. J.: Words, concepts or both: optimal indexing units for autornated information retrieval. In Proceedings S C A " 93, pp. 644-648, 1993 Dagorn F., Gross C.: Le projet World Wide Web. Avril 1994 Pouliquen B., Riou C., Denier P., Fresnel A., Delamarre D., Le Beux P.: Using World Wide Web multimedia in medicine. Medinfo 95 (1995), 1519-1523
- 261 -

Indexation Et Interrogation Automatiques de Textes Médicaux Application À La Base

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Indexation Et Interrogation Automatiques de Textes Médicaux Application À La Base

Uploaded by

Copyright:

Available Formats

Indexation et interrogation automatiques de textes mdicaux application labase A.D.M.

SEKA L.-l'.a, POULIQUEN B.', LE BEUXP.'

Rsum : L'ADM-INDEX est un systme utilisant les mthodes linguistiques (morphologie,

Tableau n"l : Extrait de la terminologie A.D.M.

2.2 Le dictionnaire A.D.M.

Description de la base de comnaissamces

. CODE-SIG . CATEG . TYPE

Pres'hirarchiques'selon le lien g&nCrique

. [DEFI* [OP%*]"' . [IMP]::+ . [CAUSE]x'

- Scrtaire 1 : assistant du patron,

- Scrtaire 2 : meuble tiroir - Scrtaire 3 : synonyme de serpentaire : animal se nourrissant de serpents

. CATEG . TYPE . CATEGRAM . MOT . LOC . DEF

: 27139000 : Concept : non ignorable : Substantif

: Etre-humain 1/11 Animal 2/11 Objet 3

. CODE-SIG . CATEG . TYPE

: 12660000 : Mot simple : non ignorable :Adjectif

: Gauche : Organe Il Rgion anatomique : Droite

: 06873000 : Mot simple

:AdjjectiEU//hbstantif2 : Coronaire : Voir: Asthe cesosleire 2

3.2: Les rkgles de d6tection des c0mcepts ethu des expressions

Nos rkgles peuvent subir essentiellement trois, savoir :

certaines transformations. Nous en avons defini

formes mots nuls . mots lgnorables

Le processus d'indexaiion et d'interrogation

mft: marqueur fort mf: marqueur faible Gn:groupe nominal

.La reconnaissance des mots cornuoss

.La reconnaissance des mots associs

solution lors d'une

consultation dela base.

Figure n"3 : Tableau rcapitulatif des tests effectus sur I'ADM-INDEX

131. 141. [51. E61. [71.

You might also like