You are on page 1of 181

Universit e de Rouen U.F.R.

des sciences et techniques Ecole doctorale sciences physiques, math ematiques et de linformation pour ling enieur

M ethodes pour la mise en relations des terminologies m edicales : contribution ` a linterop erabilit e s emantique Inter et Intra terminologique
` THESE
pr esent ee et soutenue publiquement le 24 Juin 2010

pour lobtention du

Doctorat de luniversit e de Rouen


(sp ecialit e informatique)

par

Tayeb Merabti

Composition du jury Directeur de th` ese : Co-encadrants : Stefan Darmoni Thierry Lecroq Michel Joubert Pierre Zweigenbaum Jean-Marie Rodrigues

Rapporteurs :

Laboratoire dinformatique, de traitement de linformation et des syst` emes

Rsum
Depuis une vingtaine dannes, laccs et lutilisation des donnes mdicales sont devenus des enjeux majeurs pour les professionnels de sant comme pour le grand public. Dans ce contexte, plusieurs terminologies mdicales spcialises ont t cres. Ces terminologies ont pour la plupart des formats de reprsentation et vises direntes : la nomenclature SNOMED 3.5 pour le codage dinformations cliniques, les classications CIM10 et CCAM pour le codage pidmiologique puis mdico-conomique, le thsaurus MeSH pour la bibliographie. . . Devant ce constat et la ncessit grandissante de permettre la coopration de dirents acteurs de la sant et des systmes dinformation associs, il apparait ncessaire de rendre les terminologies interoprables . Notre travail qui sinscrit dans le cadre du projet ANR InterSTIS (Interoprabilit Smantique des Terminologies dans les Systmes dinformations de Sant Franais), vise mettre en uvre des mthodes permettant de contribuer linteroprabilit entre les direntes terminologies francophones qui seront intgres dans un mme serveur Multi-Terminologique. De plus, nous utilisons nos dirents algorithmes conjointement avec le mtathsaurus UMLS an dapporter une plus grande couverture au niveau des relations entre les terminologies. Nous bncions, notamment, dans le cadre de cette thse dune exprience riche dans le domaine du Traitement Automatique de la Langue (TAL) issue des prcdents travaux de recherche dans les quipes CISMeF et LERTIM.

Abstract
Since twenty years ago, access and use of medical data become major issues for health professional and lay people. In this context, multiple health terminologies were be developped. These terminologies have mostly dierent format and purpose : SNOMED International for clinical coding, CCAM and ICD10 used for epidemiological and medico-economic purposes, MeSH thesaurus for bibliographic databases. According to this and the growing need to allow cooperation between diernt health actors and related information systems. It is necessary to allow interoprablity between health terminologies. This work take place in a more global InterSTIS project (french acronym of Semantic Interoperability of terminologies in French Health Information Systems) funded by the French National Research Agency. The goal of InterSTIS is to make interoprable the main French medical terminologies within a "Health Multi-Terminology Server" (HMTS). We use also UMLS to provide a large coverage of relations between terminologies. We enjoy in the case of this PhD of an extensive experience in the Natural Language Processing eld from a multiple CISMeF and LERTIM research projects.

Avant-propos
Cette thse est le rsultat de trois annes deorts, des dizaines de nuits blanches, de plusieurs milliers de lignes de codes, de quelques billions de cycles CPU et de milliers de cafs. Il est aussi le fruit de rencontre avec de nombreuse personnes qui mont appris et surtout donne beaucoup. Je tiens exprimer tout dabord mes remerciements aux membres du jury : Monsieur Stefan Darmoni, mon directeur de thse, pour mavoir accueilli dans sa formidable quipe CISMeF depuis mon stage de Master. Je lui adresse un grand merci pour tout le temps quil a investi pour que ce projet de recherche soit de qualit et pour que je puisse mener mon travail dans les meilleurs des conditions. Jespre avoir toujours autant de volont et denthousiasme que lui pour mener mes recherches futures. Monsieur Michel Joubert, davoir co-encadr ce travail de thse et grce qui jai beaucoup appris, autant sur le plan scientique que personnel. Monsieur Thierry Lecroq pour son co-encadrement et son soutien scientique, grce qui jai pu travailler sur de nouvelles perspectives de recherche et pour avoir toujours pris le temps de relire mes articles les bons comme les moins bons. Je tiens remercier les Professeurs Jean-Marie Rodrigues et Pierre Zweigenbaum davoir accept de servir de rapporteurs de cette thse. Je suis att que ces distingus chercheurs aient bien voulu sintresser aux travaux que je prsente dans cette thse. Je tiens remercier lensemble de lquipe CISMeF (Ahmed, Aurlie, Badisse, Benot, Catherine, Elise, Gatan, Josette, Julien, Ivan, Lina, Romain, Saoussen, Suzanne et Zied). Je remercie galement les gens qui ont particip de prs ou de loin cette thse : Ana Rath, Cedric Bousquet, Hocine Abdoune et Eric Sadou. Jexprime ma sincre gratitude pour monsieur Djelloul Ziadi qui ds ma soutenance dingniorat na pas cess de mencourager et de me pousser pour que je puisse terminer cette thse. Un grand merci mes parents, pour leur prsence et leur soutien. Mes deux frres Ah-

iv med et Hadj pour leurs encouragements et leur soutien aussi. Les mots me manquent pour exprimer toute ma reconnaissance pour eux. Je remercie ma femme qui depuis notre union na pas cess de me soutenir et de mencourager. Jespre que je ferai autant pour elle an quelle puisse terminer sa thse. Je remercie aussi les nouveaux membres de ma famille pour leurs encouragements : Abd el Halim, Fatima, Ahmed, Memen. . . Je tiens remercier aussi mes amis : Khaled, Mohamed M, faissal, Mohamed D, Senouci. . . Enn, mes ultimes remerciements vont mon crateur, le tout puissant pour mavoir donn la force et la volont an daccomplir ce modeste travail.

Table des matires


Rsum Abstract Remerciements Table des matires Liste des tableaux Table des gures 1 Introduction 1.1 Contexte gnral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.1 1.1.2 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Organisation du mmoire . . . . . . . . . . . . . . . . . . . . . . i ii iii viii xii xv 1 1 3 3 5 5 5 6 7

2 Contexte de travail et projet de recherche 2.1 Lquipe CISMeF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 2.1.2 2.1.3 2.1.4 2.2 2.3 Travaux de lquipe CISMeF . . . . . . . . . . . . . . . . . . . . Prsentation du projet CISMeF . . . . . . . . . . . . . . . . . . Les dirents travaux de lquipe CISMeF . . . . . . . . . . . .

CISMeF : dun univers mono-terminologique vers un univers multiterminologique . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 15 16

Travaux de recherche au sein du LERTIM . . . . . . . . . . . . . . . . Travaux de recherche au sein de lquipe TIBS . . . . . . . . . . . . . .

vi 2.3.1 2.3.2 2.4 2.5 Prsentation de lquipe . . . . . . . . . . . . . . . . . . . . . . Travaux de lquipe . . . . . . . . . . . . . . . . . . . . . . . . . 16 16 18 20 21 21 22 24 25 35 38 38 40 41 44 46 46 46 48 55 57

Le projet InterSTIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Synthse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3 tat de lart 3.1 lments de reprsentation . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 3.1.2 3.1.3 3.2 3.3 Terminologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ontologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les principales terminologies mdicales . . . . . . . . . . . . . .

Unied Medical Language System (UMLS) . . . . . . . . . . . . . . . . Serveur Multi Terminologique de Sant (SMTS) . . . . . . . . . . . . . 3.3.1 3.3.2 3.3.3 3.3.4 Dnition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modlisation des terminologies mdicales . . . . . . . . . . . . . Modle gnrique du SMTS . . . . . . . . . . . . . . . . . . . . Intgration des terminologies dans le SMTS . . . . . . . . . . .

3.4 3.5

Interoprabilit Smantique Inter et Intra Terminologique . . . . . . . . Mthodes pour la mise en relations entre terminologies . . . . . . . . . 3.5.1 3.5.2 3.5.3 Terminologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mthodes lexicales . . . . . . . . . . . . . . . . . . . . . . . . . Mthodes structurelles (smantiques) . . . . . . . . . . . . . . .

3.6

Synthse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 Alignement des terminologies francophones avec UMLS (F_UMLS) 59 4.1 4.2 Positionnement de nos mthodes dalignement . . . . . . . . . . . . . . Alignement du thsaurus Orphanet avec F_UMLS 4.2.1 4.2.2 4.2.3 4.2.4 4.2.5 . . . . . . . . . . . Contexte de travail . . . . . . . . . . . . . . . . . . . . . . . . . Le Portail ORPHANET . . . . . . . . . . . . . . . . . . . . . . Le thsaurus ORPHANET . . . . . . . . . . . . . . . . . . . . . Mthodes dalignements . . . . . . . . . . . . . . . . . . . . . . Critre dvaluation et comparaison . . . . . . . . . . . . . . . . 60 60 60 61 62 63 75

vii 4.3 Alignement de la classication ATC vers UMLS (F_UMLS) . . . . . . 4.3.1 4.3.2 4.3.3 4.3.4 4.4 4.4.1 4.4.2 4.4.3 4.5 ATC vers PubMed ATC to PubMed . . . . . . . . . . . . . Mthodes dalignement . . . . . . . . . . . . . . . . . . . . . . . Critres dvaluation et comparaison . . . . . . . . . . . . . . . La Classication Commune des Actes Mdicaux (CCAM) . . . . Mthodes dalignement . . . . . . . . . . . . . . . . . . . . . . . Critres dvaluation et comparaison . . . . . . . . . . . . . . . 77 78 79 83 85 85 88 95 97

La classication ATC (Anatomique, Thrapeutique et Chimique) 77

Alignement de la classication CCAM avec UMLS (F_UMLS) . . . . .

Synthse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5 Rsultats et valuations : Alignement des terminologies francophones 98 5.1 Alignement du thsaurus ORPHANET . . . . . . . . . . . . . . . . . . 5.1.1 5.1.2 5.2 5.2.1 5.2.2 5.3 Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 98

Comparaison entre lalignementmanuel et lalignementexact . . 102 . . . . . . . . . . . . . . . . . . . 107 Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 Comparaison entre les deux mthodes dalignement exact franais et anglais . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 valuation de lalignement lexical fond sur les outils en franais 113

Alignement de la classication ATC

Alignement de la classication CCAM . . . . . . . . . . . . . . . . . . 112 5.3.1 5.3.2

5.4

Synthse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

6 Projection des relations SNOMED CT entre plusieurs terminologies116 7 Rsultats et valuations : projection des relations SNOMED CT 7.1 7.2 7.3 122

Projection des relations SNOMED CT entre CIM10 et SNOMED 3.5 . 122 Projection des relations SNOMED CT entre les termes MeSH . . . . . 126 Synthse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 129

8 Discussion

viii 8.1 8.2 Alignements entre terminologies . . . . . . . . . . . . . . . . . . . . . . 129 Projection des relations SNOMED CT . . . . . . . . . . . . . . . . . . 133 135

9 Perspectives 9.1 9.2 9.3

Amlioration des mthodes . . . . . . . . . . . . . . . . . . . . . . . . . 135 Aide la traduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 9.2.1 Traduction de la SNOMED CT . . . . . . . . . . . . . . . . . . 136 Le Projet PlaIR (Plateforme dIndexation Rgionale) . . . . . . . . . . 138 139 141 143 155 160

10 Conclusion Liste des publications Bibliographie A tude de cas sur le Serveur Multi-terminologique de Sant B tude de cas sur le Portail Terminologique de Sant

Liste des tableaux


3.1 3.2 3.3 3.4 3.5 3.6 3.7 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 Les types de terminologies et leurs caractristiques . . . . . . . . . . . . Exemples et nombre de termes MedDRA suivant chaque type de terme Les axes de la SNOMED International . . . . . . . . . . . . . . . . . . Les concepts de lUMLS . . . . . . . . . . . . . . . . . . . . . . . . . . Quelques outils dalignement utilisant des mesures de similarit . . . . Exemples de variation morphologiques sur le mot membrane . . . . Nombre des alignements conceptuels via UMLS entre les termes de chaque terminologie francophone . . . . . . . . . . . . . . . . . . . . . Exemples d alignement exact entre termes ORPHANET et termes dautres terminologies . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemples d alignement par combinaison entre termes ORPHANET et termes dautres terminologies . . . . . . . . . . . . . . . . . . . . . Exemples d alignement partiels entre termes ORPHANET et termes dautres terminologies . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemples de alignement exact entre libells ATC et termes dautres terminologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemples de alignement par combinaison entre libells ATC et termes dautres terminologies . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemples de alignement partiel entre libells ATC et termes dautres terminologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemples de alignement exact entre libells ATC et termes dautres terminologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemples de alignement par combinaison entre libells ATC et termes dautres terminologies . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 29 34 38 50 52

Exemples et nombre de termes WHO-ART suivant chaque type de terme 32

64 69 70 71 81 81 81 82 82 83

4.10 Exemples de alignement partiel entre libells ATC et termes dautres terminologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

x 4.11 Extrait de la table de codage de la CCAM pour la topographie (Systme respiratoire) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.12 Extrait de la table de codage de la CCAM pour les actions . . . . . . . 4.13 Extrait de la table de codage de la CCAM pour les modes daccs . . . 4.14 Exemples de codes CCAM avec les termes correspondant laxe Anatomique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.15 Exemples de codes CCAM avec le mme troisime caractre mais avec direntes actions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.16 Exemples de codes CCAM avec nouveaux termes correspondants . . . . 4.17 Exemples de alignement exact entre codes CCAM et termes de F_UMLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.18 Exemples de alignement par combinaison entre codes CCAM et termes de F_UMLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.19 Exemples de alignement partiels entre codes CCAM et termes de F_UMLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.20 Exemples de alignement sur les deux axes entre codes CCAM et termes de lUMLS en utilisant MetaMap . . . . . . . . . . . . . . . . . 4.21 Exemples de alignement sur un axe entre codes CCAM et termes de lUMLS en utilisant MetaMap . . . . . . . . . . . . . . . . . . . . . . . 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 Nombre de termes ORPHANET en correspondance pour chaque type dalignement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Nombre de termes de chaque terminologie en relation alignement exact

88 89 90 91 92 92 93 93 94 95 96

99 100

Nombre de termes de chaque terminologie en relation alignement par combinaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 Nombre de termes de chaque terminologie en relation alignement partiel 100 Nombre de termes ORPHANET en correspondance en alignement exact sans utiliser lalignementconceptuel de lUMLS . . . . . . . . . . . . . . 101 Comparaison des chires trouvs de lapplication de lalgorithme sur chaque terminologie part versus F_UMLS . . . . . . . . . . . . . . . 101 Lapport de lajout des synonymes CISMeF et les concepts supplmentaires chimiques traduits sur lalignementexact des termes ORPHANET 101 Qualit de lalignement lexical exact entre les termes ORPHANET et les termes de F_UMLS . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 Rsultats dvaluation des deux ensembles dalignements obtenus par chaque approche indpendamment . . . . . . . . . . . . . . . . . . . . . 103

xi 5.10 Rsultats dvaluation du troisime ensemble dalignements (mme terme ORPHANET dirents termes correspondants) . . . . . . . . . . . . . 103 5.11 Exemple de chaque type dvaluation ralis . . . . . . . . . . . . . . . 104 5.12 Nombre de termes ORPHANET en alignement BT pour chaque niveau hirarchique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 5.13 Nombre de termes de chaque terminologie en relation alignement BT . 104 5.14 Qualit de lalignement BT entre les termes ORPHANET et les termes de F_UMLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 5.15 Nombre de termes ORPHANET en alignement NT pour chaque niveau hirarchique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 5.16 Nombre de termes de chaque terminologie en relation alignement NT . 105 5.17 Qualit de lalignement NT entre les termes ORPHANET et les termes de F_UMLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 5.18 Nombre de codes ATC en correspondance pour chaque type dalignement107 5.19 Nombre de termes de chaque terminologie en relation alignement exact 107 5.20 Nombre de termes de chaque terminologie en relation alignement par combinaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 5.21 Nombre de termes de chaque terminologie en relation alignement partiel 108 5.22 Nombre de codes ATC en correspondance et nombre des termes couverts en alignement exact sans utiliser lalignementconceptuel de lUMLS . . 108 5.23 Comparaison des chires trouvs de lapplication de lalgorithme sur chaque terminologie part versus F_UMLS . . . . . . . . . . . . . . . 109 5.24 Lapport de lajout des synonymes CISMeF et les concepts supplmentaires chimiques traduits sur lalignementexact du MeSH . . . . . . . . 109 5.25 Nombre de codes ATC en correspondance pour chaque type dalignement avec les termes de lUMLS en anglais avec MetaMap . . . . . . . . . . 109 5.26 Nombre de codes ATC en correspondance pour chaque type dalignement avec les termes de F_UMLS en anglais avec MetaMap . . . . . . . . . 110 5.27 Exemples de codes ATC aligns seulement en manuel vers MeSH . . . . 112 5.28 Nombre dalignements suivant chaque type dalignement . . . . . . . . 112 5.29 Rsultats dvaluations pour l alignement exact . . . . . . . . . . . 114 5.30 Rsultats dvaluations pour l alignement par combinaison (n=100) . 114 6.1 6.2 Le nombre et le pourcentage des concepts par classe dans la SNOMED CT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 Les 10 relations SNOMED CT les plus reprsentes dans lUMLS . . . 119

xii 7.1 7.2 Le nombre des termes prfrentiels de SNOMED International et de CIM10 dans la SNOMED CT . . . . . . . . . . . . . . . . . . . . . . . 123 Les 10 premires relations SNOMED CT projetes entre les termes de SNOMED International et le nombre de couples de termes prfrentiels SNOMED international . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 Les principales relations SNOMED CT projetes entre les termes CIM10 124 Les principales relations SNOMED CT projetes entre termes SNOMED International et CIM10 . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 Les principales relations SNOMED CT projetes entre termes MeSH . . 126 Qualit de la projection des quatre principales relations SNOMED CT vers les termes MeSH . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 Exemples dvaluations pour les trois critres de la projection de la relation Finding_Site_of (Localisation) . . . . . . . . . . . . . . . . . 127 Nombre et pourcentage des termes prfrs aligns avec au moins un terme prfr SNOMED CT . . . . . . . . . . . . . . . . . . . . . . . . 138

7.3 7.4 7.5 7.6 7.7

9.1

Table des gures


2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 Organisation des projets de lquipe CISMeF . . . . . . . . . . . . . . . Le portail CISMeF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemple dune ressource CISMeF . . . . . . . . . . . . . . . . . . . . . Exemple dune notice dcrite par les direntes mtadonnes . . . . . . Exemple de recherche simple avec DocCISMeF . . . . . . . . . . . . . Exemple de recherche dans le PTS . . . . . . . . . . . . . . . . . . . . Fichier XML retourn par linterprteur de la requte bronchite asthmatique chez lenfant . . . . . . . . . . . . . . . . . . . . . . . . . . Ressources proches dans CISMeF . . . . . . . . . . . . . . . . . . . . . Le site InterSTIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Extrait de larborescence C (Maladies) du MeSH . . . . . . . . . . . . . Exemple dune requte Standard MedDRA . . . . . . . . . . . . . . . . Schma rcapitulatif de la hirarchie MedDRA . . . . . . . . . . . . . . Portion de la hirarchie WHO-ART pour la catgorie Systme vasculaire extra-cardiaque . . . . . . . . . . . . . . . . . . . . . . . . . . . Extrait de la classication CIM10 . . . . . . . . . . . . . . . . . . . . . Architecture trois parties du SMTS . . . . . . . . . . . . . . . . . . . . Modle UML de la classication CIM10 . . . . . . . . . . . . . . . . . . Modle UML de la nomenclature SNOMED International . . . . . . . . Relations entre les UMV1 (terminologies) et le mta-modle UMV2 . . 6 7 8 9 10 14 14 17 19 27 29 30 31 35 39 40 41 42 43 43 45 47 48 51 53

3.10 Modle UML reprsentant le mta-modle UMV2 . . . . . . . . . . . . 3.11 Hritage de la classe Concept vers les modles des terminologies . . . . 3.12 Organisation gnrale des parseurs . . . . . . . . . . . . . . . . . . . . 3.13 Pyramide dinteroprabilit . . . . . . . . . . . . . . . . . . . . . . . . 3.14 Le processus dalignement . . . . . . . . . . . . . . . . . . . . . . . . . 3.15 Aperu de linterface OnAGUI . . . . . . . . . . . . . . . . . . . . . . . 3.16 tapes suivies par MetaMap . . . . . . . . . . . . . . . . . . . . . . . .

xiv 3.17 Graphe reprsentant les parents du terme veine du cou dans UMLS 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 56

Exemple dune che descriptive pour la maladie syndrome de Williams 62 Extrait de la classication ORPHANET des maladies gntiques . . . . Organigramme de lalgorithme dalignement . . . . . . . . . . . . . . . Exemple dtaill du processus dalignement (Alignement exact) . . . . Exemple dtaill dalignement structurel hirarchique en BT . . . . . . Exemple dtaill dalignement structurel hirarchique en NT . . . . . . Les cinq niveaux dirents dans ATC . . . . . . . . . . . . . . . . . . Exemple de recherche utilisant un code ATC dans PIM . . . . . . . . . 63 68 69 72 74 77 78 79 83 87 95

Exemple dtaill du processus dalignement (Alignement par Combinaison) 70

4.10 Capture dcran du PIM (Partie ATC) . . . . . . . . . . . . . . . . . . 4.11 Exmple de recherche dans DocCISMeF par un code ATC . . . . . . . . 4.12 Extrait du chapitre 14 de la CCAM . . . . . . . . . . . . . . . . . . . . 4.13 Exemple dalignement de code CCAM vers UMLS utilisant MetaMap . 6.1 6.2

Schma dinteroprabilit liant termes CIM10 et SNOMED International par des relations SNOMED CT . . . . . . . . . . . . . . . . . . . . . . 119 Schma dinteroprabilit liant des termes MeSH par des relations SNOMED CT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 Exemple dapplication dune projection de relations SNOMED CT entre deux termes SNOMED International et un terme CIM10 . . . . . . . . 125 Exemple de deux relations SNOMED CT projetes entre termes MeSH implmentes dans PTS . . . . . . . . . . . . . . . . . . . . . . . . . . 128 Exemple dalignement exact entre un terme MeSH et un terme SNOMED CT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 Exemple dalignement partiel entre un terme MeSH et un terme SNOMED CT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

7.1 7.2

9.1 9.2

A.1 Page daccueil du SMTS . . . . . . . . . . . . . . . . . . . . . . . . . . 155 A.2 Axe D des maladies classes par chapitre . . . . . . . . . . . . . . . . . 156 A.3 Les maladies cardiaques dans la SNOMED 3.5 . . . . . . . . . . . . . . 156 A.4 Haut de la page correspondant infarctus aigu du myocarde . . . . 157 A.5 Bas de la page correspondant infarctus aigu du myocarde . . . . . 158 A.6 Haut de la page correspondant au code CIM10 121.9 . . . . . . . . . . 158 A.7 Bas de la page correspondant au code CIM10 I29.9 . . . . . . . . . . . 159

xv B.1 Page daccueil du PTS . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 B.2 Recherche par troncature dans PTS . . . . . . . . . . . . . . . . . . . . 161 B.3 CISMeF InfoRoute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 B.4 Exemple de deux relations SNOMED CT intgres dans le PTS . . . . 163 B.5 Matching du terme ORPHANET syndrome de Marfan vers F_UMLS164 B.6 Matching du terme MeSH infarctus du myocarde . . . . . . . . . . 165

Chapitre 1 Introduction
1.1 Contexte gnral

ette thse sinscrit dans le contexte gnral de linformatique mdicale. Notre champ de recherche sintresse plus particulirement au traitement automatique des donnes mdicales. Ces donnes peuvent tre de nature varie : textes libres, bases de donnes mdicales. . . lorigine non structures, elles sont pour la plupart stockes dans des bases de donnes sous forme exploitable pour permettre leur utilisation. Depuis une vingtaine dannes laccs et lutilisation des donnes mdicales est devenu un enjeu majeur pour les professionnels de sant comme pour le grand public. Dans ce contexte, plusieurs terminologies mdicales spcialises ont t cres. Ces terminologies ont pour la plupart des formats de reprsentations et vises direntes : la nomenclature SNOMED 3.5 pour le codage dinformations cliniques, les classications CIM10 et CCAM pour le codage pidmiologique puis mdico-conomique, le thsaurus MeSH pour la bibliographie. . . Face la multiplication de ces terminologies, les limites actuelles des outils ne proviennent pas de leurs performances stocker et traiter rapidement de gros volumes de donnes, mais de leur incapacit prendre en compte les divergences syntaxiques et structurelles (smantiques) entre ces donnes. Devant ce constat et la ncessit grandissante de permettre la coopration de dirents acteurs de la sant et des systmes dinformation associs, il apparait ncessaire de rendre les terminologies interoprables . Ainsi, il est indispensable de mettre en place un modle commun de reprsentation des termes, quels que soient leurs terminologie ou rfrentiel dorigine, ainsi que les mthodes permettant de mettre en relation les termes dune terminologie vers ses quivalents, directs ou indirects, dans dautres terminologies. Le projet InterSTIS (Interoprabilit Smantique des Terminologies dans les Systmes

Chapitre 1. Introduction

dinformations de Sant Franais)1 , a pour but de fdrer et de rendre interoprables les principales terminologies mdicales au sein dun Serveur Multi-Terminologique de Sant (SMTS). Notre travail qui sinscrit dans le cadre de ce projet, vise mettre en uvre des mthodes permettant de contribuer linteroprabilit entre les direntes terminologies francophones qui seront intgres dans le SMTS. Plusieurs travaux ont t mens par direntes quipes an de mettre en place des plate-formes pour permettre linteroprabilit entre terminologies. LUMLS (Unied Medical Language System) dvelopp par US National Library of Medicine depuis 1986, est le parfait exemple de ce type de plate-formes. Actuellement, il est considr comme la plus large base de donnes terminologiques existante (section 3.2). Toutefois, lUMLS ne rend pas les terminologies intgres interoprables au sens smantique . Il intgre les direntes terminologies telles quelles se prsentent sans tablir de liens entre les termes de celles-ci autrement que par le rattachement de termes quivalents un mme identiant ou par des relations explicites opres manuellement Imel (2002). Dautres travaux ce sont intresss la problmatique de mettre disposition des serveurs de terminologies dans le domaine de sant Rector et al. (1997); Chute et al. (1999). De ces tudes, nous pouvons citer : le systme GALEN GAL (2005) (General Architecture for Language and Nomenclatures), SYMBIOmatrics2 (SYnergies in Medical Informatics and Bioinformatics), le projet SemanticHEALTH3 . Le SMTS est un serveur multi-termiologique dvelopp par trois partenaires (MONDECA, CISMeF et LERTIM), et qui va permettre lintgration et la gestion de toutes les terminologies mdicales francophones disponibles, le SMTS sera dcrit en dtail dans la cadre de cette thse (section 3.3). Cependant, dans le cadre du projet InterSTIS, 6 terminologies ont t incluses dans le SMTS : SNOMED International, CIM10, CCAM, MeSH, SNOMED, CISP2 et TUV. Dautres projets de recherches auxquels lquipe CISMeF participe permettent dintgrer dautres terminologies au sein de ce serveur. La mise en relation entre direntes terminologies est une tche fastidieuse raliser. Et cela indpendamment du domaine de la recherche, que ce soit dans la science de linformation Zeng et Chan (2004); W3C (2004), les bases de donnes Doan et al. (2004) ou les ontologies Euzenat et Shvaiko (2007). En plus des htrognits des terminologies, deux autres problmes rendent linteroprabilit entre les terminologies dicile : la premire rside dans le traitement informel des relations dans les terminologies, ce qui conduit des dnitions ambigus Sarker et al. (2003), malheureusement, ce problme demeure dicile rsoudre parce quil ncessite des modications dans les logiques de construction de chaque terminologie : les relations hirarchiques, les relations de
ANR-07-TECSAN-010 http://www.symbiomatrics.org 3 http://www.semantichealth.org
1 2

Chapitre 1. Introduction

synonymie. . . Le deuxime problme est lautomatisation des mthodes permettant de mettre en relation les termes de direntes terminologies. En eet, la plupart des alignements existant entre les terminologies sont tablies manuellement. Dans le cadre de cette thse, nous dcrirons deux ensembles dalignement manuels (ORPHANET vers CIM10 et ATC vers MeSH). Ces alignements sont trs chronophages et ncessitent beaucoup de temps de travail, en plus, il sont trs dpendants des terminologies alignes. Lexemple de la correspondance manuelle entre ATC et MeSH a ncessit plus de 6 hommes.mois. A lvidence, il nest pas possible lchelle dune quipe comme CISMeF ou mme lchelle dun consortium comme InterSTIS dectuer 190 aligne1) , en revanche, lhumain peut se focaliser ments manuels entre 20 terminologies N (N 2 sur ceux quil juge pertinent : SNOMED-CIM10 ATC-MeSH, par exemple.

1.1.1

Objectif

Dans ce travail, nous cherchons principalement apporter une contribution cette deuxime problmatique lie lautomatisation des mthodes dalignements an de mettre en relation les terminologies mdicales francophones. Nous pensons que les outils de traitement automatique de la langue (TAL) peuvent tre trs utiles ce niveau. Nous bncions, notamment, dans le cadre de cette thse dune exprience riche dans le domaine issue des prcdents travaux de recherches dans les quipes CISMeF et LERTIM. De plus, nous utilisons nos dirents algorithmes conjointement avec le mtathsaurus UMLS an dapporter une plus grande couverture au niveau des relations entre les terminologies. Outre les mthodes dalignements proposes, cette thse va contribuer poser les premiers jalons dune possible approche permettant linteroprabilit smantique entre les terminologies mdicales francophones, de plus, tous les alignements raliss dans le cadre de cette thse sont (seront) utiliss dans tous les travaux futurs qui ncessitent lutilisation conjointe de plusieurs terminologies mdicales : lindexation multi-terminologique Pereira (2007) et la recherche dinformation multi-terminologique Sakji (2008); Dirieh Dibad et al. (2009).

1.1.2

Organisation du mmoire

Dans ce mmoire, nous exposons en premier lieu le contexte des travaux eectus, en particulier les dirents travaux de recherches entams par les quipes CISMeF et LERTIM. Nous passerons en revue tous les travaux passs et futurs qui sont relatifs de prs ou de loin aux besoins exprims dans le cadre de ce travail. Nous prsentons aussi, le projet InterSTIS qui nance ma thse de recherche depuis 2007.

Chapitre 1. Introduction

Le deuxime chapitre introduit toutes les terminologies francophones utilises dans la plupart de nos travaux, il touche aussi la problmatique de lintgration des terminologies au sein dun mme serveur multi-terminologique. Nous dtaillerons dans cette partie principalement le serveur multi-terminologique de sant, le cur des dirents projets de recherches entams il y a trois ans dans plusieurs laboratoires de recherches spcialiss dans le traitement de linformation mdicale. Le troisime chapitre aborde lanalyse de ltat de lart relatif nos travaux de recherches. Nous proposons une classication des direntes mthodes dalignements inspire de Euzenat et Shvaiko (2007) et leurs travaux sur les alignements entre les ontologies. La suite de la thse est consacre aux direntes mthodes utilises et implmentes dans le cadre de ce travail, nous dtaillerons notre algorithme dalignement lexical lorsque nous entamerons la partie de notre thse consacre la projection du thsaurus ORPHANET vers F_UMLS (les terminologies francophones de lUMLS). Nous introduisons aussi dans cette partie une approche mixte fonde sur les outils TAL et les relations hirarchiques pour aligner les termes ORPHANET vers F_UMLS. La deuxime partie de ce chapitre est consacre la projection de la classication ATC vers UMLS. Dans cette partie, en plus de nos mthodes et outils, nous utilisons loutil MetaMap pour aligner les termes en anglais de lATC vers UMLS puis comparer les rsultats des deux mthodes. Nous terminerons ce chapitre en proposant une mthodologie permettant de aligner la classication CCAM vers les termes de lUMLS. La mthode propose dans cette partie est assez dirente des autres mthodes car nous nous basons sur la structure des codes de la CCAM pour appliquer notre mthode. Le chapitre suivant est consacr la prsentation des rsultats des direntes mthodes utilises pour mettre en relation des terminologies francophones vers F_UMLS.

Dans le chapitre 6, nous proposons une mthode dinteroprabilit entre terminologies fonde sur UMLS an de projeter les relations de la terminologie SNOMED CT entre trois terminologies francophones. Nous verrons que cette mthode va permettre de lier direntes terminologies (CIM10, SNMI et MeSH) avec des relations issues dune autre terminologie (SNOMED CT). Le chapitre suivant dresse les dirents rsultats obtenus par la projection des relations SNOMED CT. Le chapitre 8 rsume et permet de discuter les principaux rsultats et dvoquer les direntes problmatiques ainsi que les direntes perspectives de cette thse. Nous terminons avec deux derniers chapitres consacrs aux perspectives et la conclusion. Des annexes sont aussi fournies o nous prsentons deux tudes de cas, une sur le Serveur Multi-Terminologique de Sant et lautre sur le Portail Terminologique de Sant dvelopp par CISMeF.

Chapitre 2 Contexte de travail et projet de recherche

D
2.1

ans ce chapitre, nous prsentons le contexte des travaux eectus, en particulier les dirents travaux de recherches entams par les quipes CISMeF et LERTIM. Nous passerons en revue tous les travaux passs et futurs qui sont relatifs de prs ou de loin aux besoins exprims dans le cadre de ce travail. Nous prsentons aussi, le projet InterSTIS qui nance cette thse de recherche depuis 2007.

Lquipe CISMeF
Travaux de lquipe CISMeF

2.1.1

Lquipe CISMeF est dirige par le professeur Stfan Darmoni et Benot Thirion le conservateur de la bibliothque mdicale du CHU de Rouen. Lquipe est compose actuellement de quatre documentalistes experts dans la description et lindexation dans le domaine de la sant, trois ingnieurs de recherche, et trois doctorants. La gure 2.1 illustre les dirents rles de chacun deux dans les projets de lquipe. De nombreux travaux ont t entrepris par lquipe CISMeF dans le domaine de la recherche dinformation en sant et dans lindexation.

Chapitre 2. Contexte de travail et projet de recherche

Fig. 2.1 Organisation des projets de lquipe CISMeF

2.1.2

Prsentation du projet CISMeF

CISMeF (http://www.chu-rouen.fr/cismef ou http://www.cismef.org) est lacronyme de Catalogue et Index des Sites Mdicaux Francophones sur lInternet. Il sagit dun portail de sant qui a t conu pour cataloguer et indexer les sources dinformation institutionnelles de sant franaises les plus importantes (N= 60 000) et ce an de permettre une recherche plus pertinente pour les professionnels de sant, les tudiants mais aussi les patients, leurs familles, et dune faon encore plus large le cyber-citoyen. CISMeF adhre aux principes de qualit de linformation de sant sur lInternet dnis par la Fondation Health on the Net (HON) depuis plus de 10 ans maintenant Darmoni et al. (1999). Le site CISMeF (voir gure 2.2) est un site populaire avec un nombre dutilisateurs (pendant 10 ans 1995-2005) se connectant CISMeF denviron 20 000 par jour ouvr. CISMeF utilise deux outils standards pour organiser linformation : le thsaurus MeSH (qui va tre dcrit en dtail dans les sections suivantes) pour indexer les ressources, ainsi quun ensemble de mta-donnes extraites du noyau de Dublin Core Dekkers et Weibel (2003). Les mtadonnes se rfrent aux informations dcrivant des ressources Web et dont les plus importantes sont le titre, lidentiant, la date, le contenu, les mots clefs et le type de ressources. Pour dcrire les ressources pdagogiques, lquipe a ajout huit mta-donnes spciques CISMeF telles que : pays, institution. . .

Chapitre 2. Contexte de travail et projet de recherche

Fig. 2.2 Le portail CISMeF

2.1.3

Les dirents travaux de lquipe CISMeF

Au centre des activits de lquipe CISMeF se trouve la terminologie CISMeF. Cest en eet, sur cette terminologie que reposent les principaux travaux de recherche dinformation dans le moteur et le catalogue de CISMeF. La terminologie CISMeF est utilise principalement pour : la description des ressources : indexation des ressources avec les termes appartenant la terminologie ; linterprtation des requtes des utilisateurs : traduction laide des termes appartenant la terminologie. Lessentiel du travail de lquipe consiste en la maintenance, la mise jour du catalogue ainsi que son amlioration et son volution, tant en termes de technologies utilises que de recensement de nouvelles ressources et de facilit dutilisation pour lutilisateur. Lajout de nouvelles ressources (un exemple dune ressource CISMeF est donn dans la gure 2.3) au catalogue seectue en quatre tapes : 1. recensement des ressources laide dune veille quotidienne ; 2. slection des ressources selon des critres de qualit fonds sur le NetScoring (critres de qualit de linformation de sant sur Internet) Darmoni et al. (1999) ; 3. la description de chaque ressource CISMeF laide dune notice pour faciliter

Chapitre 2. Contexte de travail et projet de recherche

la recherche dans le moteur de recherche CISMeF. Un ensemble de mtadonnes est associ chaque ressource par les indexeurs Darmoni et al. (1999, 2001) (gure 2.4). Ces mtadonnes proviennent de plusieurs rfrentiels dont 11 champs (parmi les 15) du Dublin Core Dekkers et Weibel (2003); Thirion et al. (2004) pour les champs auteur, date, description, format, identication, langue, diteur, type de ressource, droits, sujet et titre. Pour dcrire les ressources pdagogiques, onze lments de la catgorie Education du IEEE 1484 LOM (Learning Object Metadata) Bourda et Hlier (1999) sont utiliss en plus des autres mtadonnes. Par ailleurs, des mtadonnes spciques CISMeF, ont t ajoutes pour dcrire la qualit ou la localisation de la ressource : institution, ville, province, pays, type daccs, partenariat, cot et public cibl. Deux champs supplmentaires ont t crs pour les ressources destines aux professionnels de sant : indication du niveau de preuve et la mthode utilise pour ltablir Darmoni et al. (2003a). Les mtadonnes HIDDEL (High Information Description Disclosure Evaluation Language) ont t introduites dans CISMeF dans le cadre du projet europen MedCircle (mars 2002 - septembre 2003) Mayer et al. (2003), qui avait pour but dvaluer la qualit de linformation de sant an de guider les utilisateurs vers des sources ables.

Fig. 2.3 Exemple dune ressource CISMeF Cependant, il existe plusieurs niveaux dindexation (assigner des mots cls un document). Niveau 1 : Une indexation purement manuelle pour les ressources de haute importance comme les recommandations par exemple. Un total de 36 439 ressources sont indexes manuellement par 12 992 mots cls MeSH dirents dans CISMeF.

Chapitre 2. Contexte de travail et projet de recherche

Niveau 2 : Une indexation supervise qui consiste en une indexation automatique eectue par un programme informatique sur le titre de la ressource. Les indexeurs sont ensuite chargs de valider et modier la main si ncessaire cette indexation. Elle est destine aux ressources de qualit mais moins urgentes que celle du premier niveau. Un total de 8 878 ressources supervises existe dans CISMeF, en utilisant 4 700 mots cls MeSH dirents. Niveau 3 : Une indexation purement automatique (sans validation humaine a posteriori ) sur le titre pour les ressources de priorit faible dont la qualit ne ncessite pas une indexation prcise. Un total de 25 583 ressources est indexes automatiquement dans CISMeF, en utilisant 7 939 mots cls MeSH dirents. 4. La dernire tape consiste mettre en ligne la ressource sur le catalogue.

Fig. 2.4 Exemple dune notice dcrite par les direntes mtadonnes Loutil de recherche intgr au site CISMeF est DocCISMeF (voir gure 2.5). Cet outil donne un accs prcis et rapide aux ressources : il permet de faciliter la saisie des requtes par les utilisateurs an dobtenir une srie de ressources susceptibles de contenir linformation recherche. Ces ressources taient aches par ordre chronologique, mais depuis 2009, DocCISMeF permet un achage combin par ordre chronologique

Chapitre 2. Contexte de travail et projet de recherche

10

et par pertinence. Cette dernire est calcule suivant le nombre de mots de la requte se trouvant dans les mots cls dindexation et dans le titre. Ainsi, les ressources rcentes avec une valeur maximale de pertinence sont aches en premier. Dautre part, dirents modes de recherche dinformation sont possibles : Une recherche simple : elle permet une saisie de requte sous forme dexpressions libres en franais ou en anglais. Une recherche avance : elle permet des recherches pousses facilites par lutilisation dun formulaire contenant des listes droulantes permettant de combiner plusieurs champs (mots cls, type de ressources, . . .) avec des oprateurs boolens (ET, OU, SAUF). Une recherche via le serveur de terminologie : elle permet une recherche dinformation partir dun mot cl slectionn dans le serveur terminologique. Cette recherche peut tre ane (grce lassociation de qualicatifs).

Fig. 2.5 Exemple de recherche simple avec DocCISMeF Par ailleurs, CISMeF permet aussi laccs dautres sites spcialiss dans la recherche dans le domaine de la sant. Laccs ces sites est ralis de manire contextuelle dans CISMeF (longlet droite de la gure 2.5). Cependant, plus rcemment en 2009, CISMeF a dvelopp CISMeF InfoRoute un outil en cours dvaluation permettant un accs contextuel plusieurs sites de sant regroups par leur contexte dutilisation. Par exemple, le contexte Outils de recherche (les sites : CISMeF, PubMed1 , Intute2 , . . .), le contexte Mdicaments (les sites : PIM (Portail dInformation sur le Mdi1 2

http://www.ncbi.nlm.nih.gov/pubmed/ http://www.intute.ac.uk/

Chapitre 2. Contexte de travail et projet de recherche

11

cament)3 , HAS (Haute Autorit de Sant)4 , AFSSAPS (Agence Franaise de Scurit SAnitaire des Produits de Sant)5 , . . .). Il parait logique pour lquipe CISMeF dtre implique dans des travaux touchant la terminologie mdicale notamment pour le MeSH mais aussi dautres terminologies franaises telles que la CIM10 OMS (1993), la SNOMED Ct et al. (1993) et la CCAM Rodrigues et al. (2005a) ou toutes terminologies avec lesquelles des correspondances peuvent se faire. Les principaux travaux de CISMeF touchent deux problmatiques : a) lamlioration de la terminologie CISMeF, b) faciliter la recherche dinformation au sein du catalogue. Amlioration de la terminologie CISMeF : lquipe CISMeF fait voluer jour aprs jour celle-ci Douyre et al. (2004). En eet, plusieurs collaborations avec dautres quipes ont servi lenrichissement de la terminologie. Ainsi, lquipe CISMeF a particip aux projets UMLF Zweigenbaum et al. (2003) (dveloppement dun lexique mdical en franais)6 et VUMeF Darmoni et al. (2003b) de 2003 2007 en collaboration notamment avec lquipe LERTIM et la socit Vidal. Le but de ce projet tait denrichir les terminologies mdicales franaises dans lUMLS (dtaill dans le chapitre 3). CISMeF a aussi collabor avec la socit Memodata (PME spcialiste des dictionnaires) dans le projet VODEL7 en vue denrichir le catalogue de nombreuses dnitions et traductions de plusieurs langues. Dautres travaux ont aussi t mens pour mieux comprendre le langage mdical courant utilis par les usagers non spcialistes du domaine dans llaboration de leurs requtes Darmoni et al. (2002) notamment MEDLINEPlus. Lindexation automatique au sein du catalogue : plusieurs travaux visant amliorer la recherche des utilisateurs ont t eectus parmi lesquels ont peut citer, le projet CogniCISMeF pour un dialogue homme-machine et le systme KnowQuE (Knowledge-based Query Expansion) Soualmia (2004); Soualmia et al. (2009) pour une recherche dinformation implicite. Lindexation manuelle des ressources constitue la base de la recherche dinformation dans CISMeF, elle est trs importante et malheureusement trs coteuse en temps (chronophage). En eet, lindexation manuelle des ressources demande une analyse ne du document et de la terminologie ainsi que des bonnes connaissances mtier. La forte expansion des ressources mdicales de qualit sur Internet a pouss lquipe CISMeF chercher augmenter sa productivit en disposant doutils automatiques dindexation. Les travaux dAurlie Nvol dans le cadre de sa thse Nvol et al. (2005); Nvol (2005) ont men llaboration du systme MAIF (MeSH Automatic Indexing in French) : un systme dindexation auto3 4

http://doccismef.chu-rouen.fr/servlets/PIM www.has-sante.fr/portail/jcms/j_/accueil 5 http://www.afssaps.fr 6 http://www-test.biomath.jussieu.fr/umlf/ 7 http://www.rntl.org/projet/resume2005/vodel.htm

Chapitre 2. Contexte de travail et projet de recherche

12

matique pour le MeSH, suivi par le dveloppement pendant la thse de Suzanne Pereira de F-MTI (French-Mutli Terminological Indexer) : un systme dindexation mutli-terminologique pour les terminologies en franais.

2.1.4

CISMeF : dun univers mono-terminologique vers un univers multi-terminologique

Ds 2005, lors du dbut de la thse de S. Pereira, une dcision stratgique de lquipe CISMeF a permis le passage dun monde mono-terminologique un univers multi-terminologique (ECMT) (voir gure 2.1) Darmoni et al. (2009b) par la mise au point dun extracteur de concept multi-terminologique et le dveloppement dun Serveur Multi-Terminologique de Sant (SMTS) qui rassemble plusieurs terminologies mdicales francophones (voir section 3.3) et par une Recherche dInformation MultiTerminologique (RIMT) (Thse de S. Sakji). La thse de S. Pereira Pereira (2007) constitue le premier travail utilisant un environnement multi-terminologique. Cette thse a eu pour objectif la ralisation et lvaluation dun outil dindexation multi-terminologique F-MTI (French-Mutli Terminological Indexer) Pereira et al. (2009b,a). En plus du MeSH, loutil F-MTI utilise dj plusieurs terminologies mdicales pour lindexation des ressources mdicales. F-MTI fonctionne en deux temps : une extraction des concepts des terminologies tudies, puis une restriction vers les terminologies choisies Pereira et al. (2008). Cette restriction seectue via les relations entre terminologies. Depuis 2007, plusieurs travaux orients sur la problmatique de la multi-terminologie ont t lancs. Le projet ANR InterSTIS Interoprabilit Smantique des Terminologies dans les systmes dInformations de Sant franais est lun des projets lancs autour du SMTS. Ma thse de recherche sinscrit dans le cadre de ce projet que nous allons dcrire dans la section 2.4. Depuis 2009, lquipe a aussi dvelopp un outil de recherche dinformation multiterminologique Sakji et al. (2009a); Dirieh Dibad et al. (2009) dans un double contexte : Documentation : Commence en 2007 avec la thse de Saoussen Sakji, galement encadre par SJ. Darmoni et M. Joubert. Elle est la continuit de la thse de Lina Saoualmia Soualmia (2004) sur la recherche dinformation monoterminologique. Lobjectif du travail de Saoussen Sakji est la mise en uvre dun outil de recherche dinformation multi-terminologique sur le catalogue CISMeF Sakji (2008). Ce travail a permis aussi de modier le modle terminologique de CISMeF pour la prise en charge de plusieurs terminologies mdicales. Loutil dvelopp est en cours dvaluation dans le moteur de recherche DocCISMeF. De plus, dans un cadre pharmacologique une recherche bi-terminologique a t

Chapitre 2. Contexte de travail et projet de recherche

13

labore Lethord et al. (2008) dans le cadre de cette thse sur le PIM (Portail dInformation sur le Mdicament) Sakji et al. (2009b); Lethord et al. (2008). Cette thse sinscrit dans le cadre du projet PSIP (Patient Safety through Intelligent Procedures in medication) Beuscart et al. (2009), un projet europen visant une meilleure connaissance des eets indsirables lis aux mdicaments, commenc en 2008 impliquant 13 partenaires. Dossier lectronique du Patient : Commenc en 2008 avec la thse de Ahmed Diouf Dirieh-Dibad, encadr par Stfan Darmoni, Philippe Massari et Elise Prieur. Le but de cette thse tant aussi la recherche dinformation mais dans un autre contexte: permettre une recherche dinformations multi-terminologique (RIMT) sur les dossiers lectroniques Sakji et al. (2009a); Dirieh Dibad et al. (2009). Une modlisation formelle du Dossier lectronique du Patient (DEP) a t ralise pour permettre la RIMT. Pour ces deux thses, une collaboration avec ORACLE a t entreprie pour utiliser les outils smantiques notamment SPARQL Prudhommeaux et Seaborne (2008). Cependant, pour faciliter laccs toutes ces terminologies, CISMeF a dvelopp un Portail de Terminologies de Sant (PTS) qui reprsente une porte dentre ces dernires (voir gure 2.6), sans se soucier ni de la gestion ni de la mise jour (ce qui est le cas pour le SMTS). Ce portail permettra aussi dintgrer les relations entre terminologies trouves dans le cadre de cette thse. Nous prsentons dans lannexe B une tude de cas montrant lutilit des relations inter-terminologiques pour faciliter la navigation dans le PTS. Le dernier projet est le projet ALADIN-DTH (Assistant de Lutte Automatise et de Dtection des Infections Nosocomiales partir de Documents Textuels Hospitaliers)8 Metzger et al. (2009). ALADIN vise dvelopper un outil de dtection automatique des infections nosocomiales partir des documents mdicaux du dossier patient rdigs en langage naturel Proux et al. (2010). Dans le cadre de ce projet, CISMeF a dvelopp un outil permettant de retourner sous forme structure tous les termes de toutes les terminologies (voir gure 2.7) partir dune requte en langage naturel (avec ou sans expansion).

Dans la partie perspective, nous dtaillons le projet PlaIR (Plateforme dIndexation Rgionale) dmarr en 2009. Ce projet a pour objectif de mutualiser lensemble des travaux des laboratoires LITIS (Laboratoire dInformatique, de Traitement de lInformation et des Systmes) et LiDiFra (Linguistique, Didactique, Francophone) portant sur lindexation et la recherche dinformation, que ce soit dans un univers de documents lectroniques avec des vocabulaires contrls lis des domaines mtiers (comme dans les sciences de la sant, le droit ou les sciences de lingnieur) ou dans un univers de
8

www.aladin-project.eu

Chapitre 2. Contexte de travail et projet de recherche

14

Fig. 2.6 Exemple de recherche dans le PTS

Fig. 2.7 Fichier XML retourn par linterprteur de la requte bronchite asthmatique chez lenfant

Chapitre 2. Contexte de travail et projet de recherche

15

documents papier numriss en texte intgral sans domaine mtier cibl (comme dans le cas des documents darchives et du patrimoine).

2.2

Travaux de recherche au sein du LERTIM

Prsentation de lquipe et de ses travaux de recherche


Le LERTIM (Laboratoire dEnseignement et de Recherche sur le Traitement de lInformation Mdicale) est un laboratoire spcialis dans le traitement de linformation mdicale. Le laboratoire est localis la Facult de mdecine de Marseille, Universit de Mditerrane. Le laboratoire a t labellis par le Ministre de la recherche : quipe daccueil (EA 3283). La recherche au laboratoire sintresse llaboration de systmes dinformation hospitaliers performants (adapts et volutifs) Fieschi (2005). Lactivit du LERTIM concerne, entre autre, la biostatistique, laide la dcision, les systmes dinformation mdicaux et de sant, les systmes dinformation pour la formation distance et le soutien mthodologique en recherche clinique. Le LERTIM sintresse aussi la reprsentation et la modlisation des connaissances pour faciliter laccs aux connaissances et leur acquisition. Les recherches dans ce domaine visent laborer des mthodes et dvelopper des outils permettant un couplage entre connaissances mdicales et informations sur le patient an damliorer la dcision mdicale et la prise en charge du patient. Le projet ASTI Bouaud et al. (2002) se proposait de concevoir et dvaluer une 2e gnration de systme informatis daide la prescription. Une srie de projets, ARIANE Joubert et al. (2002), VUMeF Darmoni et al. (2003b), COMeDIAS Joubert et al. (2003) et WRAPIN Joubert et al. (2007), ont eu pour but de permettre aux professionnels de sant daccder des bases dinformations du domaine biomdical (bases de donnes patients, banques de donnes sur les mdicaments, guides de bonnes pratiques, bibliographie) dans le systme dinformation de leur entreprise ou sur le net grce un ensemble de services en partenariat avec Health On the Net9 en particulier. Enn, le projet InterSTIS (voir section 2.4) dont fait partie ce travail de recherche, a pour but de rendre les principales terminologies mdicales francophones interoprables.
9

http://www.hon.ch/

Chapitre 2. Contexte de travail et projet de recherche

16

2.3
2.3.1

Travaux de recherche au sein de lquipe TIBS


Prsentation de lquipe

Le LITIS EA 410810 (Laboratoire dInformatique, de Traitement de lInformation et des Systmes) est lunit de recherche dans le domaine des Sciences et Technologies de linformation et de la Communication (STIC) de Haute-Normandie. Cest un laboratoire pluridisciplinaire associant praticiens et thoriciens la jonction de linformatique, de la reconnaissance de formes, du traitement du signal et des images, de la mdecine et des mathmatiques. Lquipe TIBS11 (Traitement de lInformation en Biologie - Sant) est une quipe de laxe Traitement des Masses de Donnes du Laboratoire LITIS. Lquipe est ne de la fusion de deux quipes : GCSIS (Gestion de la Connaissance et Systmes dInformation en Sant) dirige par le Professeur Stefan Darmoni et ABISS (Atelier Biologie, Informatique, Statistique, Sociolinguistique) en 2007. Les principaux axes de recherche de la nouvelle quipe se penchent sur les problmatiques de la recherche, de lindexation et de lextraction des informations pertinentes, en prenant comme champ dapplication les donnes biologiques et les systmes dinformation en sant.

2.3.2

Travaux de lquipe

En plus de ma thse de recherche qui a dmarr avec la naissance de lquipe TIBS, jai travaill sur plusieurs problmatiques connexes ma thse. Cependant trois travaux principaux ont prim : Distance smantique entre ressources : Ce travail de recherche a t commenc lors de mon stage de master ITA (Informatique Thorique et Applications) luniversit de Rouen Merabti (2007). Lide tait de concevoir un algorithme CISMeF related resources (CISMeF_RRA) Merabti et al. (2008) permettant de calculer la similarit entre les ressources du catalogue CISMeF. Cet algorithme sinspire largement de la fonction dveloppe par PubMed Related Articles Kim et al. (2001). Notre algorithme combine deux distances pour le calcul de similarit entre les ressources : lexicales (sur lensemble des mots de titre et rsum) et smantiques (relations smantiques entre les mots dindexation de chaque ressource).
10 11

http://www.litislab.eu http://www.chu-rouen.fr/tibs/

Chapitre 2. Contexte de travail et projet de recherche

17

Fig. 2.8 Ressources proches dans CISMeF Identication des rptitions dans les navigations dans CISMeF : Ce travail a t fait dans le cadre dun stage de master ITA en 2008 de Mohamed El-Abed ElAbed (2008). Lide sous-jacente est la mme que celle du travail prcdent, qui partir de la consultation dune ou plusieurs ressources, propose une liste de liens susceptibles de contenir linformation recherche par lutilisateur. Le travail prsente un algorithme dextraction de comportements rcurrents durant la consultation de ressources au sein du catalogue de sant CISMeF Pauchet et al. (2009). Nous avons propos pour cela dutiliser la structure de donnes appele arbres des suxes Weiner (1973); McCreight (1976), applique aux chiers log de CISMeF. Paralllement cela, nous nous intressons lidentication de ressources pertinentes pour une requte donne, en construisant un ensemble de ressources syntaxiquement et smantiquement proche des ressources consultes au cours de la navigation. Son principe reste identique au prcdent. Dtection et dsambigusation des abrviations : dans le cadre du stage de master ITA en 2008 dIsmail Mansour Mansour (2008), nous avons travaill sur un algorithme de dtection automatique des abrviations ambigus dans les ressources mdicales. Lalgorithme que nous avons propos est fond sur la structure de donnes des arbres de suxes.

Chapitre 2. Contexte de travail et projet de recherche

18

2.4

Le projet InterSTIS (Interoprabilit Smantique des Terminologies dans les systmes dInformation de Sant franais)

Le projet InterSTIS (Interoprabilit Smantique des Terminologies dans les systmes dInformation de Sant franais) a t nanc par lappel propositions TecSan 2007 lanc par lAgence Nationale pour la Recherche (ANR) pour trois ans (janvier 2008- dcembre 2010), a pour but de fdrer et de rendre interoprables les principales terminologies mdicales au sein dun serveur terminologique multi-sources (STMS) (voir section 3.6). Le consortium du prsent projet est constitu de trois socits industrielles spcialises, entre autre, dans la reprsentation des connaissances, le langage naturel, et le langage mdical : VIDAL SA, partenaire coordinateur, Paris http://www.vidal.fr Mondeca, Paris http://www.mondeca.com Memodata, Caen http://www.memodata.com Quatre quipes hospitalo-universitaires spcialises dans les terminologies mdicales, les systmes dinformation et la diusion dinformation de sant : LERTIM12 , Facult de Mdecine, Universit de la Mditerrane, Marseille http://cybertim.timone.univ-mrs.fr CISMeF, CHU de Rouen http://www.chu-rouen.fr/cismef DSPIM, Facult de Mdecine, Universit Jean Monnet, Saint Etienne http://dossier.univ-st-etienne.fr/dspim/www/ LabSTIC, Facult de Mdecine, Universit de Nice-Soa Antipolis http://portail.unice.fr/jahia/page4693.html Une quipe du CNRS spcialise dans le traitement du langage naturel : LIMSI, CNRS et Universit Paris-Sud 11, ORSAY http://www.limsi.fr Une fondation spcialise dans la comprhension du langage naturel et la recherche dinformation certie dans le domaine de la sant :
12

Responsable scientique.

Chapitre 2. Contexte de travail et projet de recherche HON, partenaire associ, Genve http://www.hon.ch/ Les objectifs dInterSTIS se dclinent dans trois principales directions :

19

1. Modlisation des terminologies mdicales francophones utilises dans le STMS (voir section 3.3.2). 2. Intgration des terminologies mdicales dans le STMS. En plus de lintgration cette tche va permettre lalignement entre terminologies lintrieur du STMS. 3. Intgration et extension dun lexique mdical francophone. Mon travail de recherche commenc en 2007 est entirement nanc par le projet InterSTIS. Un site internet a t mis en place www.interstis.org (gure 2.9) pour permettre aux participants de suivre rgulirement lvolution du projet.

Fig. 2.9 Le site InterSTIS

Chapitre 2. Contexte de travail et projet de recherche

20

2.5

Synthse

Nous avons prsent dans ce chapitre le contexte gnrale de cette thse. Nous avons dcrit brivement les dirents travaux de chacune des quipes impliqus. Les quipes CISMeF et LERTIM travaillent depuis quelques annes sur des problmatiques proches lies principalement aux terminologies mdicales. Elles ont galement lanc plusieurs collaborations sur dirents projets (les projets UMLF et VUMeF). Nous avons vu aussi que la fusion des deux quipes GCSIS (Gestion de la Connaissance et Systmes dInformation en Sant) et ABISS (Atelier Biologie, Informatique, Statistique, Sociolinguistique) en 2007, a permis louverture sur de nouveaux axes de recherche dans les domaines de la recherche, de lindexation et de lextraction des informations pertinentes, en prenant comme champ dapplication les donnes biologiques et les systmes dinformation en sant. Le projet InterSTIS (Interoprabilit Smantique des Terminologies dans les Systmes dinformation de Sant Franais), a pour but de fdrer et de rendre interoprables les principales terminologies mdicales au sein dun Serveur Multi-Terminologique de Sant (SMTS). Notre travail qui sinscrit dans le cadre de ce projet, vise mettre en uvre des mthodes permettant de contribuer linteroprabilit entre les direntes terminologies francophones qui seront intgres dans le SMTS. Dans le prochain chapitre, nous allons dcrire les direntes terminologies mdicales utilises dans le cadre de cette thse. Nous dcrirons en dtail la problmatique lie lintgration des terminologies au sein dun mme serveur multi-terminologique.

Chapitre 3 tat de lart


ans ce chapitre, nous dcrivons les terminologies francophones utilises dans de nos travaux de recherche. Ce chapitre traite la problmatique de lintgration des terminologies au sein dun mme serveur multi-terminologique. Nous dtaillerons dans cette partie principalement le serveur multi-terminologique de sant, le cur des diffrents projets de recherches entams il y a trois ans dans plusieurs laboratoires de recherche spcialiss dans le traitement de linformation mdicale. Dans la deuxime partie de ce chapitre nous listons les principaux termes utiliss pour dnir le mcanisme de mise en relation des terminologies. Nous proposons aussi une classication des direntes mthodes dalignements inspire de Euzenat et Shvaiko (2007) et leurs travaux sur les alignements entre les ontologies

3.1

lments de reprsentation

Le langage mdical est caractris par un vocabulaire extrmement riche et dicile manipuler. Les termes utiliss sont souvent trs imprcis et font rarement lobjet de dnitions rigoureuses. Dans ce type de langage, il existe plusieurs faons dexprimer la mme chose (synonymies), ainsi que plusieurs interprtations possibles pour des termes similaires. Cette situation nempche par le personnel mdical de communiquer mais complique considrablement lautomatisation de ces communications. Ainsi, pour traiter linformation mdicale avec une machine , il faut fournir un modle formel Zweigenbaum (1999). Ce modle est form de lensemble des termes du langage et des relations qui permettent de relier des concepts gnraux des concepts plus spciques. Plusieurs modles existent, les principaux (pour le domaine mdical) sont

Chapitre 3. tat de lart

22

la terminologie et lontologie. Dans une terminologie, on sintresse aux mots et aux relations entre eux ; la relation structurante de base est la relation dhyperonymie et son inverse lhyponymie, tandis que dans une ontologie, on sintresse aux concepts et aux relations entre eux Smith et al. (2005).

3.1.1

Terminologies

Dans Roche (2005), une terminologie est dnie comme un ensemble de mots. Une dnition plus prcise de la terminologie est donne dans Lefevre (2000) : Les terminologies sont des listes de termes dun domaine ou dun sujet donn reprsentant les concepts ou notions les plus frquemment utiliss ou les plus caractristiques . Formellement, Smith (2006) dnit une terminologie comme un triplet ordonn : T = N, L, v o : N reprsente aussi un ensemble de triplets p, Sp , d appels des noeuds o p reprsente le libell unique (nomm aussi un terme prfr), Sp un ensemble de synonymes s, s , s , . . . et d une dnition optionnelle attache au noeud. L un ensemble de pairs ordonnes r, Lr appeles des liens o r reprsente une relation de type ( is_a ou part_of ), et Lr reprsente une paire ordonne s, s de termes. Ainsi, s, r, s reprsente une relation dans la terminologie entre s et s . v est un nombre qui reprsente la version de la terminologie. La norme ISO ISO (2000) propose la meilleure et la plus simple des dnitions ensemble de dsignations propre une langue de spcialistes , les dsignations peuvent tre des termes (avec plusieurs statuts : termes prfrentiels, synonymes, noms, symboles. . .). De ce fait, le contenu et la structure dune terminologie dpendent de la fonction pour laquelle cette terminologie va tre utilise. Dans une terminologie mdicale (ou systme terminologique mdical), des termes prcis sont utiliss pour spcier les concepts du domaine. Des relations peuvent aussi exister entre les termes. Par exemple, des relations de gnralisation-spcialisation sont prises en compte par plusieurs terminologies permettant de hirarchiser les termes du plus global au plus prcis. Dans une terminologie, les concepts peuvent tre dsigns par plusieurs termes dirents. Nous parlerons dans ce cas aussi dun systme de concept qui est dni dans ISO (2000) comme un ensemble de concepts structurs selon des relations entre eux. Un terme prfrentiel dsigne le nom du concept et plusieurs synonymes. En plus, les terminologies peuvent tre multilingues (toutes les formes quivalentes sous le mme concept) dans des langues direntes. Mori et al. (1998) dcrit lvolution des terminologies en terme de trois gnrations.

Chapitre 3. tat de lart

23

Terminologie de premire gnration First generation : Elles sont caractrises par une organisation xe (hirarchie simple) et une simple reprsentation comme une liste indexe dune faon alphabtique. Par exemple, la classication CIM10 OMS (1993) ou le thsaurus MeSH; Terminologie de deuxime gnration Second generation : Elles sont caractrises par une organisation dynamique (hirarchie multiple) avec une indexation multiple. Par exemple, le dictionnaire mdical des activits de rglementation MedDRA Brown et al. (1999) ou la SNOMED International Ct et al. (1993); Terminologie de troisime gnration Third generation : Elles sont fondes sur un modle formel avec des symboles permettant de dnoter des concepts et un ensemble de rgles permettant de les manipuler. Par exemple, la SNOMED CT Spackman (2000), GALEN Rector et al. (1993). Dun autre ct, une classication des direntes terminologies mdicales a t dnie dans la littrature de Keizer et al. (2000) ou dans les direntes normes du domaine ISO (2007, 2000). Ces classications ont t tablies en fonction des dirents objectifs pour le traitement de linformation en plus dun certain nombre de caractristiques propres chacune des terminologies : Vocabulaire contrl Un ensemble de termes sans organisation logique (en gnral) accompagns de leurs dnitions. Cette dnition englobe les termes dictionnaires terminologiques , vocabulaires et gloassaires dnies dans ISO (2000). Classication Une classication reprsente un ensemble de termes organiss et hirarchiss en classes et sous-classes de Keizer et al. (2000). Cette dnition donne une vision plus simple de celle donne dans ISO (2007) o elle dnit une classication comme un ensemble exhaustif de catgories mutuellement exclusives permettant le regroupement des donnes un niveau de spcialisation spcique . La structure de la classication et la granularit des classes dpend des objectifs pour lesquels elle a t conue. LATC (classication Anatomique, Thrapeutique) (voir section 4.3.1), la CCAM (Classication Commune des Actes Mdicaux) (voir section 4.4.1) et la CIM10 (Classication Internationale des Maladies version 10) sont de bons exemples de classications hirarchiques mdicales. Nomenclature Elle dsigne un ensemble de termes techniques, prsents selon un classement mthodique. Cette dnition est la mme utilise dans ISO (2000) pour dsigner une nomenclature. La nomenclature vise recenser les termes dun domaine de faon exhaustive. Les termes de la nomenclature peuvent tre rpartis selon plusieurs axes. Cette rpartition permet de composer un concept complexe par combinaison de plusieurs concepts. Une nomenclature importante dans le domaine clinique laquelle nous nous intressons ici (voir section 6) est la Nomenclature Systmatique des Mdecines Humaine et Vtrinaire de Ct

Chapitre 3. tat de lart et al. (1993).

24

Thsaurus Est un ensemble structur de termes dun vocabulaire. Les termes sont organiss de manire conceptuelle et relis entre eux par des relations smantiques. Trois types de relations entre les termes existent : relation hirarchique (spcialisation-gnralisation, tout-partie), relation dquivalence (synonymes) et relation dassociation pour les sujets connexes. La terminologie MeSH introduite lors de la prsentation du projet CISMeF et dnie en dtail dans la section 3.1.3, est un thsaurus. Lors de lutilisation des codes pour dsigner chaque terme dans ces types de terminologie, nous parlerons alors dun systme de codage. Dsigner comme un systme terminologique, un systme de codage est dni dans ISO (2007) comme une combinaison dun ensemble de concepts, dun ensembles de codes et dau moins dun schma de mapping entre codes et concepts. Notons aussi que la notion dontologie (dnie dans la section 3.1.2) est utilise comme synonyme pour un certain type de terminologies. La tableau 3.1 Nvol (2005) rsume les principales caractristiques de chaque type de terminologie.

Type de terminologie Vocabulaire contrl Classication

Nomenclature Thsaurus

Caractristiques dnition des termes structuration liens nomms entre les termes exhaustivit structuration normalisation des termes rduction des ambigits

Tab. 3.1 Les types de terminologies et leurs caractristiques

3.1.2

Ontologie

Lontologie comme discipline philosophique est dnie comme la science qui soccupe de ce qui est, des genres et des structures des objets, des proprits, des vnements, des relations dans tous les secteurs de la ralit Smith (2003). Depuis environ deux dcennies, la communaut informatique a commenc sintresser aux ontologies.

Chapitre 3. tat de lart

25

Leur importance est largement reconnue dans divers domaines de recherche Guarino (1998), tels que lingnierie des connaissances Gruber (1993); Uschold et Grninger (1996) et la reprsentation des connaissances Guarino (1995); Sowa (2000). La premire dnition de lontologie dans le domaine informatique est donne par Gruber comme a specication of a conceptualization Gruber (1993). Bien que Smith pense que la contribution de Gruber soit la premire tentative de dnition crdible, elle laisse cependant la place dautres interprtations possibles Smith et Welty (2001). Selon Smith, des systmes dinformation tels que des catalogues, des glossaires, des thsaurus satisfont la dnition de Gruber. Nanmoins, elle exprime une ide intuitive qui reste vraie pour le sens de lontologie, tel quil est employ dans la grande majorit des travaux. Zweigenbaum (1999) prsente lontologie comme laboutissement formel de la dnition dune terminologie. Dune manire gnrale, une ontologie fournit les moyens dexprimer les concepts dun domaine en les organisant hirarchiquement et en dnissant leurs proprits smantiques dans un langage de reprsentation des connaissances formel Bourigault et al. (2004). La relation hirarchique gnralisation-spcialisation est unique, ce qui permet de dnir clairement la subsomption entre concepts. Des exemples dontologies sont les ontologies GALEN (General Architecture for Language and Nomenclatures) Rector et al. (2003) et FMA (Foundational Model of Anatomy) Rosse et Mejino (2003).

3.1.3

Les principales terminologies mdicales

Dans le cadre de cette thse, nous avons utilis un certain nombre de terminologies mdicales de dirents types. La plupart sont traduites en franais. Nous dnissons dans cette section six terminologies importantes pour la suite de nos travaux car elles sont incluses dans UMLS et traduites en franais (F_UMLS): MeSH (Medical Subject Headings), CIM10 (Classication Internationale des Maladies version 10), CISP2 (Classication Internationale des Soins Primaires, deuxime version), SNOMED 3.5 (Systematized Nomenclature Of MEDicine), MedDRA (Medical Dictionary for Regulatory Activities), WHO-ART (World Health Organisation - Adverse Reaction Terminology). Dautres terminologies vont tre dnies dans direntes sections en fonction de leur utilisation.

Chapitre 3. tat de lart MeSH (Medical Subject Headings) :

26

Une premire liste ocielle de sujets a t publie par la NLM (National Library of Medecine) tats-unienne en 1954. La premire version du MeSH a t publie en 1960 pour indexer les articles scientiques dans le systme bibliographique biomdical automatis de stockage et de recherche MEDLARS Austin (1968) (devenu depuis MEDLINE regroupant plus de 18 millions darticles) Bachrach et Charen (1978). Le projet CISMeF utilise la terminologie MeSH pour lindexation des ressources francophones disponibles gratuitement sur Internet. Le MeSH est traduit en 11 langues (franais, anglais, espagnol, . . .). Toutes ces traductions sont prsentes dans UMLS. LINSERM (Institut National de la Sant Et de la Recherche Mdicale) a labor une version franaise du MeSH1 . Une nouvelle version apparat tous les ans, la dernire en date est la version 2010. Il existe au maximum 11 niveaux hirarchiques dans le MeSH avec des relations de spcialisation-gnralisation et tout-partie divise en 15 arborescences thmatiques auxquelles correspond un code spcique : A pour anatomie , B pour organisme , C pour maladie etc. La gure 3.1 prsente un extrait de larborescence : C maladie . Dans sa version 2010, le MeSH comporte 25 588 mots cls, 84 qualicatifs ainsi que 186 702 concepts chimiques supplmentaires. Les qualicatifs sont des termes qui peuvent tre associs un mot cl an den prciser le sens Darmoni et al. (2007). Par exemple, cancer des os/traitement mdicamenteux permet de restreindre le cancer des os au seul aspect du traitement mdicamenteux (qualicatif). Les qualicatifs sont organiss hirarchiquement du plus gnrique au plus prcis. Deux autres types de relations existent : La relation voir aussi permet de naviguer dun mot cl lautre et de relier des termes proches. La relation ne pas confondre permet de prciser le sens et de lever les ambiguts. Les types de publication sont des termes utiliss pour lindexation du contenant dans la NLM. Ces termes ont servi de rfrentiel de dpart pour crer les types des ressources utiliss dans CISMeF.

MedDRA (Dictionnaire mdical des activits de rglementation) : La terminologie MedDRA, une initiative de la confrence internationale sur lharmonisation (ICH) OMS (1993), est un dictionnaire uniformis de terminologies mdi1

http://ist.inserm.fr/mesh/html/mesh.html

Chapitre 3. tat de lart

27

Fig. 3.1 Extrait de larborescence C (Maladies) du MeSH

Chapitre 3. tat de lart

28

cales Brown et al. (1999). Il est destin au partage de renseignements de rglementation lchelle internationale sur les produits mdicaux destins lusage humain. Depuis janvier 2003, la terminologie mdicale de MedDRA sert aux changes lectroniques dinformations et dobservations de pharmacovigilance lchelle internationale. MedDRA est aussi utilis pour les eets secondaires dus aux instruments mdicaux. MedDRA est disponible en plusieurs langues dont le franais, langlais, lespagnol ou le japonais. Le support de maintenance de MedDRA est assur par le MSSO (Maintenance and Support Services Organization).2 MedDRA est construit selon une hirarchie constitue de 26 classes de haut niveau (SOC) permettant de dnir et traduire les renseignements mdicaux selon 5 niveaux de prcision : Classe Organes/System Organ Class (SOC): il sagit du plus haut niveau de la hirarchie qui ore le plus large concept pour le regroupement des donnes par : tiologie (Infections and infestations) Site datteinte (Gastrointesinal disorders) Action (surgical and medical procedures) Termes de haut niveau/High Level Term (HLT): regroupent des termes prfrs (PT) ayant en commun un lien anatomique, physiopathologique, tiologique ou fonctionnel. Le terme prfr/Preferred Terms (PT) : est un terme dcrivant un concept mdical unique. Il doit tre le moins ambigu et le plus spcique et auto-descriptif possible. Un PT doit tre reli au moins un SOC. Groupes de termes de haut niveau/High Level Group Term (HLGT) : regroupent plusieurs HLT ayant un lien anatomique, physiopathologique, tiologique ou fonctionnel. Termes de bas niveau/Low Level Terms (LLT) : est le niveau prfrentiel de codage, il couvre en eet le plus grand nombre dentres possibles. Chaque LLT est reli un seul PT. Le tableau 3.2 donne des exemples pour chaque type de termes ainsi que le nombre de termes dans MedDRA suivant chaque type.

Une classe organe regroupe lensemble des concepts lis un organe. Chaque terme prfr est associ une classe organe unique et peut appartenir de faon optionnelle une ou plusieurs classes organes secondaires. Par exemple la nphropathie diabtique appartient la classe organe des troubles rnaux mais il existe un lien secondaire vers la classe organe des troubles mtaboliques. Les deux types de termes HLT et HLGT sont
2

www.meddramsso.com

Chapitre 3. tat de lart

29

Type de terme System Organ Class (SOC) High Level Group Term (HLGT) High Level Term (HLT) Preferred Term (PT) Low Level Terms (LLT)

Exemple de terme Troubles du foie et des voies biliaires Maladies hpatobiliaires Hpatite Adipose douloureuse de Dercum Syndrome abdominal aigu

Nombre de termes dans MedDRA 26 332 1 682 17 867 56 580

Tab. 3.2 Exemples et nombre de termes MedDRA suivant chaque type de terme utiliss uniquement pour lextraction de donnes et leur prsentation. Ils ne sont pas utiliss pour le codage. Le schma de la gure 3.3 reprsente la distribution hirarchique dans la terminologie MedDRA. De plus, le dictionnaire MedDRA intgre des Requtes Standard MedDRA (RSM) (SMQ en anglais). Les RSM sont des regroupements de termes qui se rapportent un domaine mdical spcique (voir gure 3.2).

Fig. 3.2 Exemple dune requte Standard MedDRA

WHO-ART (World Health Organisation - Adverse Reaction Terminology) : WHO-ART est une terminologie utilise principalement pour le codage des eets indsirables des mdicaments. Dveloppe et maintenue par lOMS (Organisation Mondiale de la Sant) WHO (1992), la structure de WHO-ART est assez simple pour permettre lintgration de nouveaux termes correspondant des mdicaments ou de nouvelles indications. La terminologie WHO-ART est structure hirarchiquement suivant quatre niveaux :

Chapitre 3. tat de lart

30

Soc

Soc

Soc

Soc

HLGT

HLGT

HLGT

HLT

HLT

HLT

PT

HLGT

LLT

HLGT

Fig. 3.3 Schma rcapitulatif de la hirarchie MedDRA Catgorie des systmes ou organes : ce sont des groupes de termes deets indsirables relatifs au systme du mme organe. Termes de haut niveau : ce sont des termes permettant de grouper des termes similaires sous certaines conditions. Par exemple, le terme de haut niveau thrombophlbits regroupe les deux termes (termes prfrs) jambe thrombophlbits et bras thrombophlbits . Termes prfrs : ce sont les termes principaux utiliss pour le codage des eets indsirables. Il ont les mmes proprits que peuvent avoir des termes prfrs dans une terminologie mdicale. Termes inclus : reprsentent le dernier niveau de terme dans la terminologie WHOART. Ce sont les termes synonymes des termes prfrs. Utiliss pour aider trouver les bons termes prfrs dans le processus de codage. Le tableau 3.3 dresse le nombre ainsi que quelques exemples de termes utiliss3 dans chaque niveau de la terminologie WHO-ART. La gure 3.4 montre une portion de la hirarchie WHO-ART pour les termes de lexemple du tableau 3.3.
3

les termes de WHO-ART sont tous en majuscules non accentus

Chapitre 3. tat de lart

31

Fig. 3.4 Portion de la hirarchie WHO-ART pour la catgorie Systme vasculaire extra-cardiaque

Chapitre 3. tat de lart

32

Type de terme

Exemple terme

de

Nombre de termes dans WHO-ART 32 162 1 532 19 991

Catgorie des systmes ou organes Termes de haut niveau Termes prfrs Termes inclus

SYSTEME VASCULAIRE EXTRACARDIAQUE ANGEITE ARTERITE ENDARTERIE MALADIE DE HORTON PANARTERITE

Tab. 3.3 Exemples et nombre de termes WHO-ART suivant chaque type de terme CISP2 (la Classication Internationale des Soins Primaires, deuxime version) : CISP2 Jamoulle et al. (2000) est la version franaise de lInternational Classication of Primary Care (ICPC), dveloppe par lOrganisation internationale des mdecins gnralistes. Elle appartient la famille des classications de lOMS comme classication associe la Classication Internationale des Maladies (CIM). Depuis la cration de la premire version de lICPC (ICPC-1) en 1987, elle a t traduite en plus dune vingtaine de langues. Elle a t publie en langue franaise dans sa premire version (CISP-1) en 1992, puis dans sa deuxime version (CISP-2) en 2000. Elle est aussi disponible en format lectronique (CISP-2-E), permettant son intgration dans les dossiers mdicaux informatiss. Elle a t dveloppe initialement pour le recueil manuel et lanalyse pidmiologique des donnes de consultation en mdecine gnrale. Dans le cadre du dossier mdical informatis, elle peut tre utilise avec des systmes daide la dcision (diagnostique ou thrapeutique), dassurance qualit des soins, de surveillance pidmiologique et de recherche scientique en soins primaires. La CISP est une classication bi-axiale, dont le premier axe est compos de 17 chapitres dsignant chacun un appareil corporel (incluant les chapitres psychologique et social) et le second axe de 7 composants (symptmes et plaintes, procdures diagnostiques et prventives, procdures thrapeutiques, rsultats dexamens complmentaires, procdures administratives, rfrences et autres motifs de contact, diagnostics et maladies).

Chapitre 3. tat de lart

33

SNOMED International (Systematized Nomenclature Of MEDicine - Nomenclature systmatique de mdecine) : SNOMED est une terminologie clinique dveloppe lorigine par le Collge des Pathologistes Amricains (CAP) en 1955. La premire nomenclature publie tais SNOP (Systematized Nomenclature Of Pathology), nomenclature fonctionnelle pour les pathologies. En 1973, le Dr Ct fait voluer la SNOP vers la SNOMED (Systematized Nomenclature of Medecine) Ct (1972) qui devient en 1993 Ct et al. (1993) la SNOMED version 3.5, nomme aussi SNOMED International. SNOMED International est une nomenclature pluri-axiale couvrant tous les champs de la mdecine et de la dentisterie humaine, ainsi que la mdecine vtrinaire. Elle est traduite en 11 langues (franais, espagnol, japonais, turc, . . .). La version franaise a t ralise par lquipe du Centre de Recherche en Diagnostic Mdical Informatis (CRDMI), et qui sest acheve en 2006 en partie grce au projet VUMeF Darmoni et al. (2003b). La SNOMED International est multi-axiale sur 11 axes. Dans chaque axe, les concepts sont reprsents par une srie de termes au sein de laquelle on peut distinguer une formulation prfre rfrence par des codes alphanumriques uniques et des synonymes de diverses natures syntaxiques. Chaque axe recense les termes dun sous-domaine de la mdecine. Par exemple : D pour Diagnostic, T pour Topographie, . . . Par ailleurs, chaque axe est hirarchis en fonction de la spcialisation des concepts, qui sont relis par des relations dhyponymie et de mronymie. Notons quil existe aussi des relations transversales plus complexes (entre concepts appartenant des axes dirents). Le tableau 3.4 liste tous les axes que comporte la SNOMED International.

La Classication Internationale des Maladies : version 10 Lappellation complte de la Classication Internationale des Maladies est Classication statistique internationale des maladies et des problmes de sant connexes (en anglais : International Statistical Classication of Diseases and Related Health Problems). La dsignation usuelle abrge de Classication internationale des maladies est lorigine du sigle couramment utilis pour la dsigner : la CIM (en anglais : ICD). La CIM permet le codage des maladies, des traumatismes et de lensemble des motifs de recours aux services de sant. La CIM-10 est une classication monoaxiale, elle a t publie en 1993 par lOrganisation Mondiale de Sant (OMS)4 OMS (1993) et est utilise travers le monde pour enregistrer les causes de morbidit et de mortalit, des ns diverses parmi lesquelles le nancement et lorganisation des services de sant qui ont pris, ces dernires annes, une part croissante.
4

http://www.who.int/classifications/icd/en/

Chapitre 3. tat de lart

34

Axe T M F A L C J S D P G X Total

Nom de laxe Topographie Morphologie Fonctions Artefacts, activits physiques tres vivants produits chimiques Mtiers Contexte social Diagnostic Actes Qualicatifs

Nombre termes 13 528 6 171 20 587 1 686 26 325 15 940 2 303 1 110 42 492 31 980 1 595 363 164 180

de

Tab. 3.4 Les axes de la SNOMED International Elle a t conue pour permettre lanalyse systmatique, linterprtation et la comparaison des donnes de mortalit et de morbidit recueillies dans dirents pays ou rgions direntes poques. Son histoire a commenc avec la Classication des causes de dcs de Jacques Bertillon (1893). Cette classication connut cinq rvisions dcennales jusquen 1938. sa cration en 1945, lOMS se vit coner lvolution de la classication de Bertillon qui devint en 1948, avec la sixime rvision, la Classication statistique internationale des maladies, traumatismes et causes de dcs : elle cessait en eet de ne rpertorier que les causes de dcs pour sintresser de faon plus gnrale la morbidit, alors que la CIM10 permet le recueil de diagnostics des ns de sant publique ou dvaluation de lactivit hospitalire pour le codage mdico-conomique des dossiers patients des ns statistiques et budgtaires. La CIM10 est ordonne en une hirarchie hritage simple. La hirarchie de la CIM10 a t un processus complexe ralis par lOMS, mais a le mrite dtre clair. Cela signie que toute entit hirarchique ou rubrique possde un et un seul pre (sauf les entits du niveau 1 au sommet de la pyramide qui nont pas de pre). tout moment, il est possible pour toute entit hirarchique donne de reconstituer la liste exhaustive de tous ses anctres. La hirarchie de la CIM10 a jusqu 6 niveaux, bien que plusieurs chapitres nen aient que 5. La CIM10 est divise en 21 chapitres couvrant lventail complet des tats morbides classs par appareil fonctionnel et associs une lettre (exemple : F : Troubles mentaux et du comportement ).

Chapitre 3. tat de lart Chapitre 5 : Troubles mentaux et du comportement (F00-F99) Groupe : Troubles de lhumeur (F30-F39) Catgorie : pisode maniaque (F30) ...Hyponamie (F30.0) ...Manie sans symptme psychotique (F30.1) ...Manie avec symptme psychotique (F30.2) ...Autres pisodes maniaques (F30.8) ...pisodes maniaques, sans prcision (30.9) Catgorie : Trouble aectif bipolaire (F31) ..... Fig. 3.5 Extrait de la classication CIM10

35

Les chapitres sont toujours au niveau le plus lev de la hirarchie de la CIM10, ils sont diviss en groupes (ou blocs), eux-mmes diviss en sous-groupes (ou sous-blocs), ce qui est facultatif (utilis seulement dans les chapitres 2, 13, 19 et 20) composs de catgories 3 caractres et de sous-catgories 4 caractres, englobant le contenu des termes CIM10. Les catgories 3 caractres reprsentent lunit diagnostique de base, signiante et prsente comme le niveau minimum de codication entrant dans les comparaisons internationales. Toutefois, de nombreux pays exigent le niveau suivant 4 caractres comme niveau minimum de codication (cest le cas de la Suisse par exemple). Alors que pour les sous-catgories 4 caractres, il y a une spcialisation des catgories en 10 parties au maximum numrotes de 0 9. Et nalement des subdivisions ou descripteurs peuvent apparatre de manire facultative dans certains chapitres, permettant dintroduire un axe classicatoire systmatique supplmentaire l ou cela savre ncessaire, du fait que le niveau du ou des blocs nappartient pas tous les chapitres.

3.2

Unied Medical Language System (UMLS)

En 1986, la NLM (National Library of Medecine) a lanc un programme de dveloppement sur plusieurs annes, nomm Unied Medical Language System (UMLS) Lindberg et al. (1993). Ce projet associait plusieurs quipes de recherche et compagnies commerciales de direntes disciplines mdicales ou informatiques. Le but du projet UMLS est de fournir une assistance automatise en tablissant des liens conceptuels

Chapitre 3. tat de lart

36

partir de lexpression de lutilisateur qui a besoin de linformation (question, problme) jusqu lobtention dune requte directement exploitable sur des ressources biomdicales. Ce qui permettra, de lever toutes les ambiguts et toutes les barrires lapplication de linformatique au domaine mdical. Une des caractristiques de cette automatisation est de fournir un lien entre direntes terminologies biomdicales de plusieurs sources de donnes terminologiques. Par consquent, lun des objectifs de lUMLS et de fournir une plate-forme permettant de regrouper tous les thsaurus, nomenclatures, et classications existantes dans le domaine mdical Bodenreider (2004). Le mtathsaurus est la partie de lUMLS permettant de regrouper le plus grand nombre possible de terminologies mdicales disponibles. Deux autres parties composent lUMLS : le rseau smantique et Specialist Lexicon (dont une version a t dveloppe par le projet UMLF et poursuivie pour InterSTIS).

Le mtathsaurus
Considr comme la plus grande base de donnes terminologiques, le mtathsaurus constitue la base unie des concepts mdicaux. Il comprend des synonymes, des variations lexicales et des concepts associs. La premire version du mtathsaurus Meta-1 , comprenait dj 30 000 concepts avec plus de 60 000 termes et 100 000 relations. Actuellement, la version 2009AA du mtathsaurus, contient plus de 2 millions de concepts avec plus de 7 millions de termes de 140 terminologies biomdicales (dont le MeSH, la SNOMED CT, et 3.5, CIM9, CIM10, . . .). Il a fallu pour regrouper toutes les terminologies dans le mtathsaurus suivre un certain nombre de rgles : 1. regrouper sous un mme concept les dirents termes qui lexpriment. Chaque concept ajout dans le mtathsaurus recevra un unique identiant et il sera plac dans la structure du mtathsaurus. Cette structure est compose de quatre niveaux (voir tableau 3.5) : Concept Unique Identiers (CUI) : il regroupe tous les termes qui partagent le mme sens. Par exemple, les termes Froid (Cold) (MeSH), temprature froide (cold temperature) (CSP) appartenant direntes terminologies doivent tre regroups dans un mme concept UMLS. Lexical Unique Identiers (LUI) : il regroupe toutes les variations lexicales pour un terme donn. Cependant, ce regroupement est appliqu seulement pour les termes en anglais. Par exemple, les deux termes Headaches et Headaches (cphale) ont le mme LUI.

Chapitre 3. tat de lart

37

String Unique Identiers (SUI) : chaque nom de concept ou terme dans chaque langue est associ un identiant unique SUI. De plus, chaque variation dans le nombre de caractres, la ponctuation. . . est considr comme des termes dirents ce qui implique des SUI dirents. Par exemple, les deux termes Adrenal Gland Diseases (maladies de la glande surnale) et Disease of adrenal gland ont des SUI dirents. Alors que, les termes Cold du MeSH et Cold de la SNOMED ont un mme SUI. Atom Unique Identiers (AUI) : chaque occurrence dun terme dans chaque terminologie est associe un unique identiant AUI. Par exemple, les deux mmes termes Cold du MeSH et Cold de la SNOMED ont des AUI dirents. 2. si les mmes concepts appartiennent dirents contextes hirarchiques, alors toutes les hirarchies doivent tre incluses dans le mtathsaurus. 3. les direntes relations entre concepts de direntes terminologies doivent tre aussi incluses. En dautres termes, le mtathsaurus ne reprsente ni une ontologie biomdical propre la NLM, ni une seule vision du domaine biomdicale. Le mtathsaurus prserve toutes les visions actuelles prsentes dans toutes les terminologies 5 . Les principaux composants du mtathsaurus sont : concepts , termes et relations . Chacun de ces composants a un identicateur unique dans le mtathsaurus. Les concepts UMLS reprsentent un et un seul sens distinct. chaque concept correspond : une dnition, un terme prfrentiel, ventuellement des synonymes, des variantes lexicales, un ou plusieurs types smantiques et un identiant unique Concept Unique Identier (CUI). Plusieurs relations existent entre dirents concepts. Ces sont des relations qui proviennent des terminologies dorigine et des dveloppeurs de la NLM durant la construction du mtathsaurus.

UMLS Reference Manual: http://www.ncbi.nlm.nih.gov/bookshelf/br.fcgi?book=nlmumls

Chapitre 3. tat de lart

38

Concepts (CUI) C0009264 cold temperature

Termes (LUI) L0215040 cold temperature

Strings (SUI) S0288775 cold temperature S0007170 Cold

L0009264 Cold Cold

S0026353 Cold

Atomes (AUI) A0318651 cold temperature (from CSP) A0016032 Cold (from MTH) A0040712 Cold (from MeSH)

Tab. 3.5 Les concepts de lUMLS

3.3
3.3.1

Serveur Multi Terminologique de Sant (SMTS)


Dnition

Le serveur multi-terminologique de sant francophone (SMTS) Darmoni et al. (2009a); Joubert et al. (2009b) est un exemple doutil qui permet de regrouper plusieurs terminologies mais exclusivement francophones. Trois partenaires se sont associs pour raliser le SMTS : Le LERTIM, CISMeF et la socit MONDECA. Cette dernire est spcialise dans la gestion des terminologies et des ontologies ainsi que du Web smantique. Le but principal du SMTS est lintgration de plusieurs terminologies dans un mme et unique serveur pour les exploiter simultanment. Actuellement, le SMTS intgre plus de 11 terminologies mdicales francophones. Outre la gestion des terminologies de sant francophones, le SMTS va permettre aux professionnels de sant ainsi quaux applications un accs en temps rel toutes les terminologies francophones. La gure 3.6 propose par MONDECA reprsente une vision de larchitecture en trois parties du systme. Le premier niveau de ce schma reprsente tous les outils permettant la gestion des terminologies (les plate-formes dintgration, les outils de mise en relation. . .). Le deuxime niveau reprsente tout ce que nous pouvons attendre comme services du SMTS ; il regroupe tous les services web qui peuvent tre dvelopps sur le serveur, les API, . . . Le dernier niveau du schma reprsente toutes les applications qui peuvent utiliser les services proposs par le SMTS (moteurs de recherche, outils de codage, . . .). An de permettre lintgration de plusieurs terminologies, il nous a fallu dans un

Chapitre 3. tat de lart

39

Fig. 3.6 Architecture trois parties du SMTS premier temps concevoir un modle gnrique pouvant reprsenter toutes les terminologies et qui soit compatible avec la plate-forme dintgration d ITM R (Intelligent Topic Manager) de MONDECA. La deuxime tape de lintgration des terminologies consiste dvelopper un analyseur 6 pour chaque terminologie. Le travail de modlisation a t ralis en deux tapes : 1. La premire consistait modliser chaque terminologie dune manire individuelle. 2. La deuxime tape porte sur llaboration du modle gnral. Chaque terminologie unitaire modlise dans ltape prcdente reprsente une spcialisation du modle gnral.
Une fonction capable de transformer le modle de reprsentation original de la terminologie vers un autre modle de reprsentation.
6

Chapitre 3. tat de lart

40

3.3.2

Modlisation des terminologies mdicales

La modlisation est dnie comme lapproche permettant de crer une reprsentation simplie dun problme modle. Pour la modlisation des terminologies mdicales, une approche fonde sur la structure des terminologies a t utilise. Cette mthode a t explore dans un stage de master recherche dans lquipe TIBS (Siwar Rekik) Rekik (2007) en 2007 pour modliser un certain nombre de terminologies. La thse de S. Pereira Pereira (2007) dtaille lapproche et propose dans son manuscrit plusieurs modlisations utilises pour la plupart pour SMTS. UML (Unied Modeling Language) langage de modlisation uni Booch et al. (2000), a t le langage de reprsentation utilis pour la modlisation des terminologies. Les modles ont t tous raliss par des diagrammes de classes. Les gures 3.7 et 3.8 montrent respectivement les diagrammes de classes des terminologies CIM10 et SNOMED International.

Fig. 3.7 Modle UML de la classication CIM10

Chapitre 3. tat de lart

41

Fig. 3.8 Modle UML de la nomenclature SNOMED International

3.3.3

Modle gnrique du SMTS

Le modle gnral doit tre le plus gnrique possible pour faciliter lintgration des terminologies (actuelles ou nouvelles) et les stocker dans un format standard : le Web Ontology Language (OWL) Bechhofer et al. (2004). Notre modle7 dnit au moins : les Classes , lments reprsentant les concepts et dont les instances sont les individus constitutifs de la terminologie. Nous distinguons les classes dassociations (censes hberger les relations entre concepts (descripteurs) ) des classes de concepts elle mmes. les DatatypeProperty , qui sont les dirents attributs de classes dun type donn. En eet, chaque DatatypeProperty possde un type (numrique, texte, etc.) dni dans lontologie publishing quil est ncessaire de prciser. des ObjectProperty galement attributs de classes mais faisant rfrence un objet et non un type. Il sagit gnralement des rles dans les relations mais ils peuvent galement pointer vers dautres concepts au sein dun concept (descripteur) . De mme, un niveau dabstraction suprieur, le mta-modle a besoin dtre clairement dni par un mta-mta-modle. An dviter une dcomposition innie de niveaux dabstraction, le plus haut niveau sauto-dnit. Conformment au standard MOF (Meta Object Facility)8 OMG (2002), notre modlisation est organise en pluCe modle a t ralis en collaboration avec P.Y. Vandenbussche doctorant chez MONDECA, et les ingnieurs de CISMeF : B. Dahamna et I. Kergoulay. 8 MOF est un standard de lOMG ddi la reprsentation des mtamodles.
7

Chapitre 3. tat de lart sieurs niveaux dabstraction (du plus haut niveau au plus bas):

42

le mta-modle : UMV2 (Unied Metamodel of Vocabularies 2) et les modles UMV1 (Unied Metamodel of Vocabularies 1) (extension et spcialisation de UMV2 pour chaque terminologie) ; les instances : correspondent au contenu dune terminologie qui se conforme au modle dni par UMV2 et UMV1. UMV2 rassemble les lments communs toutes les terminologies : classes dassociations communes (comme les relations hirarchiques), attributs communs (comme lattribut multi-valu UF), classe mre Concept (et ses attributs), . . . UMV1 quant lui est contenu dans UMV2 et ltend aux spcicits de chaque terminologie (exemples : Concept MeSH, Notion SNOMED, Exclusion CIM-10, etc.). Il y a donc un UMV1 par terminologie.

UMV2

UMV1 (SNMI)

UMV1 (MSH)

Fig. 3.9 Relations entre les UMV1 (terminologies) et le mta-modle UMV2 Le mta-modle propos est centr sur la notion de Concept (voir gure 3.10), qui dnit les attributs communs aux direntes terminologies. cette classe, seront attaches (au sens hritage orient objet) toutes les classes reprsentatives des modles des autres terminologies. Par exemple, si nous reprenons lexemple de la gure 3.7, la classe Code CIM10 sera attache la classe concept du modle gnral comme montr dans la gure 3.11. Un partie du mta-modle trs importante pour nos travaux de recherche est la partie alignement (voir partie alignement dans la gure 3.10). La capacit de reprsenter les relations entre les terminologies est une caractristique trs importante dun modle multi-terminologique. Dans notre mta-modle, quatre types de relations inter-terminologiques sont reprsentes. Ces types de relations sont inspirs des dnitions SKOS (Simple Knowledge Organization System) pour les proprits des matchings W3C (2004). SKOS permet de grer des informations de mapping en indiquant le degr de recouvrement smantique entre deux concepts issus de dirents thsaurus. ExactMatch : elle correspond la relation skos:exactMatch de SKOS, dnie pour identier les termes de direntes terminologies qui sont exactement les mmes.

Chapitre 3. tat de lart

43

Fig. 3.10 Modle UML reprsentant le mta-modle UMV2

Concept

Code CIM10

Concept SNOMED

Fig. 3.11 Hritage de la classe Concept vers les modles des terminologies

Chapitre 3. tat de lart

44

CloseMatch : elle correspond la relation skos:closeMatch , dnie pour mettre en correspondance des termes susamment similaires pour tre utiliss de faon interchangeable. Lquivalence dsigne par cette relation est dirente de lquivalence de la relation ExactMatch puisquelle nest pas exacte, contrairement lquivalence de la relation ExactMatch qui lest, mais elle peut tre accepte pour rpondre aux besoins dune application dtermine. BroadNarrowMatch : elle correspond aux deux relations skos:broadMatch et skos:narrowMatch , utilises pour mettre en correspondance des termes de niveaux hirarchiques dirents travers direntes terminologies. Nous prsentons deux types dalignements qui peuvent tre classes dans ce type de correspondance dans la section 4.2.4. RelatedMatch : utilise pour crer des liens associatifs entre des termes de diffrentes terminologies. Cela veut dire que toute relation dnie entre des termes qui nest pas incluse dans les trois types de relations ExactMatch , CloseMatch et BroadNarrowerMatch sera reprsente comme une relation inter terminologique de type RelatedMatch .

3.3.4

Intgration des terminologies dans le SMTS

Lintgration des terminologies peut tre dnie comme le processus d immersion de toutes les entits composant ces terminologies Termes, relations, . . . , dans une mme plate-forme et suivant un mme langage, an de permettre linteroprabilit entre elles. En se basant sur le modle gnral dcrit dans la section prcdente, la plate-forme ITM (Intelligent Topic Manager) Amardeilh et Francart (2004) a t choisie comme plate-forme dintgration des terminologies du SMTS. ITM est une plate-forme logicielle pour la gestion de connaissances et lexploitation dontologies. ITM intgre un portail smantique fournissant quatre fonctions clefs : ldition, la recherche, la navigation et la publication. ITM ore de nombreux mcanismes de gestion et dexploitation de contenu terminologique et ontologique Amardeilh et al. (2005). Cependant, toutes les terminologies qui seront intgres dans ITM devront tre conformes au mta-modle quITM utilise. En dautres termes, le modle gnral dcrit dans la section prcdente devra tre adapt suivant un langage de reprsentation de connaissances pour quil soit intgr dans le mta-modle. Le langage OWL a t choisi comme le langage avec lequel seront reprsentes les donnes de chaque terminologie. Nous avons ralis pour chaque terminologie un analyseur pour permettre leurs reprsentations suivant le langage OWL . Dans ce cas

Chapitre 3. tat de lart

45

aussi, il sagit de spcialiser une classe analyseur existant en fonction des spcicits de chaque terminologie. Ce qui impose un traitement individuel de chaque terminologie. Cependant, les donnes ne sont pas dans un format standard (XML typiquement), ce qui constitue une dicult supplmentaire dans la conception des analyseurs. Dirents types de analyseurs ont t raliss : des analyseurs de chiers (hritant de analyseurFichier ) ou des parseurs de base de donnes (hritant de parseurBD ). La gure 3.12 illustre lorganisation gnrale des dirents parseurs.

Fig. 3.12 Organisation gnrale des parseurs

Actuellement, plusieurs terminologies mdicales de sant francophones sont intgres ou en cours dintgration au sein du SMTS : MeSH (Extension CISMeF), SNOMED, CCAM, CIM10, CISP2 (Classication Internationale Des Soins Primaires version 2) Jamoulle et al. (2000), TUV (Thsaurus Uni de Vidal) Pereira (2007) (InterSTIS) ; DRC (Dictionnaire des Rsultats de Consultation) publi par la SFMG (Socit Franaise de Mdecine Gnrale) Ferru et Kandel (2003), MEDLINEPlus thsaurus patient dvelopp par la NLM en deux langues anglais et espagnol Miller et al. (2000), MedDRA, la classication ATC (Anatomique, Thrapeutique et Chimique) Skrbo et al. (2004), CIF (Classication Internationale du Fonctionnement, du handicap et de la sant - OMS) OMS (2001), WHO-ART (ASIP Sant) ; LOINC (Logical Observation Identier Names and Code) McDonald et al. (2003), ORPHANET (thsaurus des maladies rares) (voir section 4.2.2).

Chapitre 3. tat de lart

46

3.4

Interoprabilit Smantique Inter et Intra Terminologique

Dnition de linteroprabilit
Linteroprabilit est dnie comme la capacit changer de linformation et lutiliser entre direntes sources de donnes distribues (htrognes) Wegner (1996). Linteroprabilit peut tre traite suivant deux niveaux : technique (syntaxique) et smantique. Linteroprabilit syntaxique permet essentiellement, aux sources de donnes distribues, dchanger de linformation en prenant en compte lhtrognit syntaxique et structurelle existante entre ces direntes sources. Le fait quune ressource soit exprime sous un format standardis permet une interoprabilit syntaxique. Cependant, mme avec ce type dinteroprabilit plusieurs mauvaises interprtations des donnes peuvent se faire, impliquant des malentendus entre utilisateurs, des erreurs de calcul ou bien mme des dfaillances au niveau des systmes. un niveau suprieur, lobjectif de linteroprabilit smantique est dviter ces problmes et dassurer que les changes qui seectuent entre les sources de donnes conservent leur sens en prenant en compte la smantique associe chaque donne Dougoulet et al. (1997) (gure 3.13). Pour rsoudre cette incompatibilit entre les direntes terminologies, la recherche sest concentre initialement sur la possibilit dunier les terminologies. LUMLS dcrit dans les sections prcdentes, regroupe actuellement plus de 140 terminologies biomdicales dans un seul mtathsaurus. Actuellement, lUMLS est probablement le plus grand projet de regroupement entre terminologies jamais ralis.

3.5

Mthodes pour la mise en relations entre terminologies


Terminologies

3.5.1

Rcemment, plusieurs travaux ont t mens par diverses quipes de recherches pour la cration doutils et/ou de systmes permettant la transition (automatique, semi-automatique, manuelle) dune terminologie une autre Wang et al. (2008); Rocha

Chapitre 3. tat de lart

47

Fig. 3.13 Pyramide dinteroprabilit et al. (1994); Cimino et Barnett (1990); Fung et Bodenreider (2005); Bodenreider et al. (1998). Plusieurs termes sont utiliss par dirents auteurs pour dnir le mcanisme de mise en correspondance entre les termes de direntes terminologies. Euzenat et Shvaiko (2007), ont propos un certain nombre de dnitions pour dcrire ces processus entre les ontologies. Dans le reste de ce manuscrit, nous utiliserons le terme alignement pour dcrire la mthode permettant de dterminer les correspondances entre les terminologies. Formellement, un alignement est dnit comme une fonction qui prend en entre deux terminologies/ontologies T1 et T2 avec un ensemble dentits (e.g., tables, lements XML. . .), et qui retourne un ensemble de correspondances T. Lensemble des lments de T1 et T2 (e.g., quivalences, subsumption) (Figure 3.14).

Cependant, il savre trs dicile dautomatiser lalignement entre les terminologies. Cela est du principalement lhtrognit des terminologies mdicales. En eet, la structure et le contenu de chaque terminologie sont crs en fonction de lutilisation qui doit en tre faite. Elles sont gnralement cres pour des tches bien prcises. Plusieurs travaux ont t mens pour permettre linteroprabilit entre terminologies en utilisant des mthodes algorithmiques dalignement. En gnral, ces mthodes peuvent

Chapitre 3. tat de lart

48

T erminologie1 T erminologie2 . . . T erminologien Fig. 3.14 Le processus dalignement Processus dalignement

Ensemble de correspondances

tre classes en des mthodes lexicales ou des mthodes smantiques.

3.5.2

Mthodes lexicales

Ce sont les mthodes qui sappuient sur des proprits lexicales des termes de chaque terminologie. Des outils de normalisation sont utiliss dans ces mthodes pour rduire les termes sous un format commun de reprsentation. Les mthodes lexicales reprsentent la faon la plus triviale didentier les correspondances entre termes. Lutilisation de telles mthodes dans le domaine de la mdecine pour raliser mettre en relation les terminologies est motive par le fait que la plupart des terminologies partagent un grand nombre de termes similaires. Le dveloppement doutils pour le traitement automatique de la langue en mdecine a fortement contribu lamlioration de ces mthodes.

Les mthodes fondes sur les chanes de caractres Dans ces mthodes, les termes ou les libells sont considrs comme des squences de caractres dans un alphabet donn. Elles dnissent des distances entre chanes de caractres pour en dduire une similarit. En fonction du modle de similarit utilis, une chane de caractres A est modlise de direntes faons : une squence de caractres note A = (a1 ; a2 ;. . .; an ) o les ai sont des lettres (ou symboles) ; une squence de sous-chanes de caractres (mots) spares par des dlimiteurs (espaces, tirets, ponctuations,. . .). Dans ce cas, une chane de caractres sera reprsente par une squence de mots note A = (A1 ; A2 ;. . . ;Am ) o les Ai sont des chanes de caractres.

Chapitre 3. tat de lart

49

Ces distances peuvent ignorer lordre dapparition des caractres dans la squence. Dans ce cas, la comparaison consiste utiliser une mesure de similarit ensembliste. Parmi lesquelles nous pouvons citer : Distance de Hamming Hamming (1950) : dnie pour les chanes de caractres de longueur gales. Pour deux mots A et B, la distance de Hamming dhamming (A, B ) reprsente le nombre de positions en lesquelles les deux mots possdent des lettres direntes. Distance de Jaccard Jaccard (1901) : dnie par le nombre des objets en commun (les caractres) divis par le nombre total des objets : |A B | |A B |

dJaccard (A, B ) = 1

Distance de Dice Salton et McGill (1983); van Rijsbergen (1979) : une variante de la distance de Jaccard dnie par la formule suivante : dDice (A, B ) = 1 2 |A B | |A| + |B |

Dautre part, une famille de mesures adaptes existe appele distance ddition, qui prennent en compte lordre dapparition des caractres : Distance ddition : elle est dnie par le nombre doprations qui permettent de transformer une chane de caractres en une autre. Dans ce type de distance, les oprations Oper utilises appeles oprations ddition sont : 1. Ajout(a), linsertion dune lettre a ; 2. Subst(a, b), la substitution de la lettre a par la lettre b ; 3. Supp(a), la suppression dune lettre a. Un cot de valeur entire positive est associ chacune des oprations, not cot : Oper . Soit EAB , lensemble des squences doprations SOpx = (op1 ; . . .; opn ) (avec opi Oper) permettant de passer dune chane A une chane B. La distance ddition entre les chanes A et B est dnie par : (A, B ) = minSOpx EAB
opi SOpx

cot(opi )

La distance de Levenshtein reprsente le nombre minimum dinsertions, de suppressions et de substitutions de caractres ncessaire pour transformer une chane de caractre en une autre Levenshtein (1966). Cest une distance ddition avec un cot des oprations gale 1. Un autre exemple de distance est SMOA Stoilos et al. (2005). Cette distance

Chapitre 3. tat de lart

50

est dpendante de la longueur des sous-mots en communs et non commun. La valeur de la similarit calcule par cette distance est comprise entre -1 et 1. Dautres variantes des distances prsentes ci-dessus ont t proposs, en considrant les chanes de caractres comme des mots. Ces mesures sont souvent appeles distances n-gramme Kondrak (2005). Ces distances calculent le nombre en commun des n-grams (i.e., les squences de n caractres) entre chanes de caractres pour en dduire une similarit entre eux. Le modle vectoriel est un moyen statistique de comparaison ensembliste entre mots Salton et McGill (1983). Il est fond sur un calcul du poids des mots utilisant la mesure de TF-IDF (Term Frequency - Inverse Document Frequency). Ce modle dnit limportance dun mot suivant sa frquence. La similarit entre deux squences est calcule comme un cosinus entre deux vecteurs reprsentatifs des squences Salton et Buckley (1988). Les mthodes fondes sur les chanes de caractres sont plus adaptes pour comparer les termes simples (libells, identiants). Plusieurs outils ont t dveloppe autour de ces mthodes pour permettre lalignement entre les ontologies dans plusieurs domaine Euzenat et Shvaiko (2007) (voir table 3.6). Dans le domaine mdical, loutil OnAGUI9 Mazuel et Charlet (2009) est un exemple doutil permettant lalignement entre ontologies mdicales (voir gure 3.15). Cet outil se base essentiellement sur deux distances : Levenshtein Levenshtein (1966) et SMOA Stoilos et al. (2005) pour mesurer la similarit entre concepts. Simetrics Levenshtein Jaccard Dice AlignAPI Levenshtein SimPack Levenshtein Jaccard Dice TF-IDF

TF-IDF SMOA

Tab. 3.6 Quelques outils dalignement utilisant des mesures de similarit Lutilisation de mesures fondes sur le modle vectoriel est pertinente pour une comparaison entre des donnes textuelles. Cette mesure a t utilis dans Merabti et al. (2008) (voir section 2.3.2) pour quantier les ressemblances entre les titres et rsums des ressources CISMeF. Lalgorithme Related Articles de PubMed Kim et al. (2001) est fonde sur ce modle vectoriel pour mesurer la similarit entre les articles indexs dans MEDLINE. Cependant, lutilisation de ce type de mesures permet seulement de quantier la ressemblance entre libells ou concepts. Ainsi, ces mthodes donnent des similarits faibles
9

http://sourceforge.net/projects/onagui/

Chapitre 3. tat de lart

51

Fig. 3.15 Aperu de linterface OnAGUI pour des synonymes avec des formes direntes. Par exemple, les deux termes douleur et algie sont des termes synonymes mais les direntes mesures dcrites dans cette section ne peuvent par dtecter les liens entre eux. linverse, ces mthodes trouveront des similarits importantes entre des termes qui ne sont pas les mmes (faux positifs). Par exemple, les deux termes Vitamine A et Vitamine U .

Les mthodes fondes sur le langage Ces mthodes considrent les termes comme tant des mots dans un langage naturel. Elles se basent principalement sur les outils de Traitement Automatique de la Langue (TAL). Ces outils exploitent les proprits morphologiques des mots traits. Nous distinguons deux classes de mthodes, celles qui sappuient sur des algorithmes et celles qui utilisent en plus des ressources externes comme les dictionnaires.

Les mthodes intrinsques Ces mthodes se base sur des outils de traitement automatique de la langue pour normaliser les termes sous des formes standard qui peuvent tre facilement reconnais-

Chapitre 3. tat de lart

52

sables. Trois types de variation peuvent tre distingues sur les termes Maynard et Ananiadou (2001) : Morphologique Elle concerne la manire dont les termes sont constitus partir dunits minimales signiantes. Les variations morphologiques prennent trois types de formes : exionnelles, drivationnelles et compositionnelles. Le tableau 3.7 montre un exemple pour chacune de ces variations sur le mot membrane . Syntaxique Elle dcrit la manire dont les mots se combinent en phrase syntaxiquement correcte. Smantique Elle concerne les sens des mots et la manire dont ils se combinent. Flexion Carcinomes (+s) Drivation Carcinomateux (+ateux) Composition hpatocarcinome (+hpat) Tab. 3.7 Exemples de variation morphologiques sur le mot membrane Tokenisation Elle consiste segmenter une squence (mot) en units atomiques appeles tokens . Cette segmentation consiste liminer les ponctuations, les caractres blancs. . . Dssuxation Les chanes de caractres reprsentes par des tokens sont analyses pour les rduire sous une forme de base normalise. Lanalyse morphologique permet de retrouver toutes les exions et les drivations partir de la racine du mot. La dssuxation est lanalyse qui cherche rassembler les direntes variantes dun mot autour dun stme (la forme canonique). limination des mots vides Les mots vides sont des mots non signicatifs. Ces mots sont gnralement gnrateurs de bruit pour un but donn. Il est donc fortement recommand de les liminer. Plusieurs outils fonds sur des outils TAL ont t utiliss pour mettre en correspondance les terminologies mdicales. Nous citons titre dexemple, le travail labor dans Wang et al. (2008) o les auteurs utilisent les techniques de tokenisation et de dssuxation pour aligner CISP-2 et SNOMED CT. Cest le cas aussi des principales techniques lexicales proposes par la NLM dans lAPI UMLSKS10 . Loutil MetaMAP Aronson (2001) est un outil qui fait partie des outils lexicaux de la NLM. Il permet de dtecter les termes mdicaux partir du texte (documents, phrases et termes) en anglais et de dterminer les concepts du Mtathsaurus de lUMLS correspondants. Le texte passe par une srie de traitements. Il subit une analyse syntaxique, le dcomposant en phrases, expressions et mots cls. partir des direntes variantes gnres, des concepts UMLS candidats sont proposs. Cependant, comme dcrit dans la gure 3.16 qui rsume les
10

http://umlsks.nlm.nih.gov/

Chapitre 3. tat de lart

53

direntes tapes utilises, une recherche lexicale des dirents mots qui compose le terme en entre est faite dans un Lexique Spcialiste (Specialist Lexicon McCray et al. (1994)). Ainsi, cet outil peut tre class dans les mthodes extrinsques qui seront dnies dans la section suivante. Dans Johnson et al. (2006), les auteurs utilisent la bibliothque Lucene11 pour la recherche dinformation Cutting et al. (2004) pour reprer des relations entre le Gene Ontology 12 et trois autres ontologies biomdicales. Ces outils ont t utiliss aussi dans plusieurs travaux dans CISMeF : recherche dinformations Soualmia (2004), lindexation automatique Nvol (2005) et lindexation multi-terminologique Pereira (2007). Lalgorithme de sac de mots dcrit dans Pereira (2007) utilise plusieurs mthodes TAL pour permettre lappariement des termes issus dune ou plusieurs terminologies une phrase. Certaines techniques utilises dans cet algorithme seront dtailles dans la section 4.2.4 lorsque nous introduisons notre mthode dalignement entre terminologies. Lavantage des mthodes fondes sur les outils TAL rside principalement dans leurs simplicit dimplmentation. En eet, lutilisation des techniques telles que la dsufxation permet de limiter le nombre de ressources utilises.

Fig. 3.16 tapes suivies par MetaMap


11 12

http://lucene.apache.org/ Gene Ontology : http://www.geneontology.org

Chapitre 3. tat de lart Les mthodes extrinsques

54

Ces mthodes utilisent des ressources externes, comme des dictionnaires ou bien des lexiques. Plusieurs sources linguistiques peuvent tre utilises pour trouver des correspondances ventuelles entre les termes, par exemple : les dictionnaires, les lexiques, les thsaurus. . . Elles sont utilises pour trouver des correspondances fondes sur des relations de synonymie, hyponemie. . . Ces mthodes constituent les bases des outils lexicaux proposes dans lAPI UMLSKS. Elles sont combines avec les synonymes des termes et des concepts dans direntes ressources externes pour optimiser les alignements vers les concepts UMLS. Fung et Bodenreider (2005) utilisent lUMLS comme ressource externe pour produire un alignement inter-terminologie. Une autre ressource externe largement utilises dans dautres domaines que le domaine biomdical est WordNet13 Fellbaum (1998). WordNet est une base de donnes lexicale lectronique dvelopp depuis 1985 luniversit de Princeton par une quipe de psycholinguistes et de linguistes du laboratoire des sciences cognitives, sous la direction de Georges A. Miller. Lavantage de WordNet rside dans la diversit des informations quelle contient (grande couverture de la langue anglaise, dnition de chacun des sens, ensembles de synonymes, diverses relations smantiques). Les lments de base de WordNet sont des ensembles de termes synonymes appels synsets . Chaque synset est associ une dnition et un ensemble de synsets avec lesquels il est en relation. En outre, WordNet est librement et gratuitement utilisable14 . Dans certains travaux de recherches Leroy et Chen (2001), WordNet a t utilise en combinaison avec UMLS pour produire des alignements inter-terminologies. Dans nos algorithmes dalignements, en plus des mthodes lexicales fondes sur les outils TAL, nous utilisons les relations de synonymie provenant des direntes terminologies pour optimiser nos alignements. Nous utilisons UMLS comme ressource externe pour tirer avantage des alignements conceptuels existants entre termes de direntes terminologies (voir section 4.2.4). Lavantage de ces mthodes est que nous avons une plus grande couverture syntaxique et smantique. En eet, lapplication de ressources externes permettra damliorer considrablement les alignements entre terminologies. Dans le reste de nos travaux nous prsentons lavantage de lutilisation de lUMLS comme ressource externe pour trouver plus dalignements entre dirents terminologies biomdicales. Cependant, lutilisation de ces ressources pourra aect la qualit des alignements. En eet, des termes synonymes dans une terminologies nimplique pas que ces termes le soient dans une autre.
http://wordnet.princeton.edu/ noter que Dominique Dutoit (HDR, membre associ du LITIS) a fortement developp WordNet en franais. Il a galement collabor avec CISMeF dans les projets VODEL et InterSTIS.
14 13

Chapitre 3. tat de lart

55

3.5.3

Mthodes structurelles (smantiques)

Ces mthodes utilisent les proprits structurelles de chaque terminologie pour tablir des correspondances vers des termes ou des concepts dautres terminologies. Les techniques utilises considrent les terminologies (thsaurus, classications. . .) comme des graphes o les nuds reprsentent les termes de la terminologie et les artes reprsentent les relations entre les termes dans la terminologie. La plupart des terminologies mdicales peuvent tre reprsentes avec des graphes. Ces techniques sont gnralement utilises en combinaisons avec des mthodes lexicales. Dans ce cas de gure, le travail de Bodenreider et al. (1998) est un bon exemple illustrant lutilisation des relations entre terminologies pour aligner les termes qui nont pas t aligns par les techniques lexicales. Lalgorithme de Bodenreider et al. (1998) utilise les relations smantiques dUMLS pour trouver les correspondances inter-terminologies. En eet, pour aligner un terme dont les outils lexicaux nont pas trouv de correspondant dans le MeSH, lalgorithme commence par la construction dun graphe avec comme terme source le terme non align et dont les nuds reprsentent les parents du terme source (relation hirarchique de lUMLS). partir de ce graphe, le terme le plus proche dans la hirarchie qui a une correspondance vers le MeSH est slectionn. La gure 3.17 reprend lexemple prsent dans Bodenreider et al. (1998) permettant daligner le terme veine du cou vers MeSH. Dans cet exemple, les termes MeSH slectionns sont encadrs en double : Cou et Veine .

Dans Bodenreider et al. (1998), le terme le plus proche est calcul par rapport aux nombres dartes sparant le terme source des autres termes dans la terminologie. Cependant, plusieurs mesures de similarit sur les structures hirarchiques ont t proposes. La plus commune consiste calculer le nombre dartes entre les termes pour dterminer la distance entre eux. La distance la plus connue est la similarit de Wu-Palmer Wu et Palmer (1994). Cette similarit est dnie par rapport la distance qui spare deux termes dans la hirarchie et galement par leur position par rapport la racine. Pour deux termes T1 et T2 la similarit est :

SIM (T1 , T2 ) =

2 N3 N1 + N2 + 2 N3

o N3 est le nombre dartes qui sparent le plus petit parent commun de la racine, N1 et N2 reprsentent le nombre dartes qui sparent les termes T1 et T2 de la racine respectivement. Cette mesure a lavantage dtre simple implmenter.

Chapitre 3. tat de lart

56

Fig. 3.17 Graphe reprsentant les parents du terme veine du cou dans UMLS La notion de Contenu Informationnel (CI) a t introduite la premire fois par Resnik (1995). Elle combine positions et corpus. Le contenu informationnel dun terme (concept) traduit la pertinence dun concept dans le corpus en tenant compte de sa spcicit ou gnralit. La frquence du terme dans le corpus est gnralement utilise pour calculer le contenu informationnel. Elle est calcule en fonction de la frquence dapparition du terme ainsi que les parents de ce terme. CI (terme) = log (P (terme)) o P (terme) est la probabilit de retrouver une instance du terme. Ces probabilits sont calcules par : f rquence(terme)/N o N est le nombre total des termes. Resnik (1995) dnit une mesure de similarit entre deux concepts par la quantit dinformation quils partagent. Cette similarit est calcule par : SIM (T1 , T2 ) = CI (pcs(T1 , T2 )) o pcs(T1 ,T2 ) est le parent commun le plus spcique de T1 et T2 dans la hirarchie. Lin (1998) propose une dnition thorique de la similarit applicable partir du moment o lon dispose dun modle de probabilit. Cette similarit est dnie comme le rapport des informations partages par T1 et T2 sur les informations ncessaires pour dcrire dune faon complte T1 et T2 . Cette mesure est dnie par : SIM (T1 , T2 ) = 2 maxcommun(T1 ,T2 ) [log (p(commun(T1 , T2 )))] log (p(T1 )) + p(T2 ))

Chapitre 3. tat de lart

57

o commun(T1 ,T2 ) est lensemble des termes parents partags par T1 et T2 et p(T ) reprsente la probabilit de trouver T ou un de ses ls dans le corpus. Elle gnre une similarit normalise entre 0 et 1. Cette mesure de similarit a t dmontre comme la plus adapte quand elle est appliqu Gene Ontology Lord et al. (2003). Cette mesure de similarit a t utilise dans Nvol et al. (2006) pour mesurer la similarit entre les termes de la terminologie MeSH. Cette dernire mesure Lin (1998) a t aussi utilise dans CISMeF related resources Merabti et al. (2008) (voir section 2.3.2) combine une distance syntaxique (vectorielle) pour calculer la similarit entre les ressources CISMeF.

3.6

Synthse

Nous avons expos dans ce chapitre les principales terminologies mdicales utilises dans le cadre de cette thse. Nous avons vu que ces terminologies ont des vises et des formats de reprsentation trs dirents. La nomenclature SNOMED 3.5 pour le codage dinformations cliniques, les classications CIM10 et CCAM pour le codage pidmiologique puis mdico-conomique, le thsaurus MeSH pour la bibliographie. . . Nous avons aussi prsent lUMLS (Unied Medical Language System) et plus prcisment le Mtathsaurus la partie de lUMLS utilise dans cette thse. Puis nous avons abord la problmatique lie lintgration des direntes terminologies au sein dun mme serveur, une solution a t dtaille celle du SMTS (Serveur Multi-Terminologique de Sant). Dans la deuxime partie de ce chapitre, aprs avoir dnie la notion dinteroprabilit et dalignement entre terminologies, nous avons expos direntes mthodes existantes pour mettre en correspondance dirents concepts (termes) de direntes terminologies. Nous avons distingu deux catgories de mthodes : les mthodes lexicales : elles utilisent les proprits lexicales des termes pour dnir une distance syntaxique entre eux. Elles reprsentent la faon la plus triviale didentier des correspondances entre termes ; les mthodes structurelles : elles sont fondes sur les structures hirarchiques des terminologies pour identier les correspondances. Ces mthodes sont souvent combines avec les mthodes lexicales pour une large couverture. Pour les deux catgories, nous avons aussi montr que ces mthodes peuvent tre combines avec plusieurs ressources linguistiques et terminologiques. Nous avons aussi expos les dirents travaux raliss et outils dvelopps dans le domaine mdicale. Les mthodes et les outils dvelopps dans le cadre de cette thse appartiennent pour la plupart la catgorie des mthodes lexicales. Cependant, nous prsentons dans un

Chapitre 3. tat de lart

58

de nos travaux une approche structurelle combine avec une mthode lexicale. Nous utilisons aussi dans le cadre de cette thse, le principal outil lexical MetaMap de la NLM pour aligner les termes en anglais des direntes terminologies utilises. chaque fois, nous comparons les rsultats de nos mthodes en franais avec celles obtenues par MetaMap. Toutes ces mthodes seront dcrites dans le chapitre suivant.

Chapitre 4 Alignement des terminologies francophones avec UMLS (F_UMLS)

e chapitre est consacr aux direntes mthodes utilises et implmentes dans le cadre de cette thse, nous dtaillerons notre algorithme dalignement lexical lorsque nous aborderons lalignement du thsaurus ORPHANET avec F_UMLS (les terminologies francophones de lUMLS). Nous introduisons dans cette partie une approche mixte fonde sur les outils TAL et les relations hirarchiques pour aligner les termes ORPHANET avec F_UMLS. Lutilisation de lUMLS a deux avantages, dune part, davoir une large couverture sur toutes les autres terminologies non francophones comme la SNOMED CT, dautre part, lutilisation de lalignement conceptuel (voir section 4.2.4) de lUMLS permettra de trouver plus dalignements non reprs par nos mthodes lexicales. La deuxime partie de ce chapitre est consacre lalignement de la classication ATC vers UMLS. Dans cette partie, en plus de nos mthodes et outils, nous utilisons loutil MetaMap pour aligner les termes en anglais de lATC vers UMLS puis comparer les rsultats des deux mthodes. Nous terminerons ce chapitre en proposant une mthodologie permettant daligner la classication CCAM vers UMLS. La mthode propose dans cette partie est assez dirente des autres mthodes car nous nous basons sur la structure des codes de la CCAM pour appliquer notre alignement.

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

60

4.1

Positionnement de nos mthodes dalignement

Dans le cadre de cette thse, nous utilisons principalement trois types dalignement parmis ceux dnies dans la section 3.5. Le premier type dalignement est fond sur le langage. Plusieurs outils de traitement automatique de la langue (TAL) sont utiliss dans ce premier type dalignement. Dans la section 4.2.4, nous prsentons ces principaux outils TAL tels que : la dsuxation et llimination des mots vides. En plus de ce type dalignement, nous utilisons aussi le mtathsaurus de lUMLS comme ressource externe pour trouver plus de correspondances entre les direntes terminologies tudies. Enn, nous avons utilis des alignements structurels fonds sur les structures hirarchiques de quelques terminologies. Cependant, dans tous nos alignements aucune distance smantique dnie dans la section 3.5 est utilise. Lutilisation de ces distances implique une complexit supplmentaire due la taille des terminologies et au nombre de relations multiples existantes. Nous utiliserons aussi dans le cadre de deux tudes, loutil MetaMap Aronson (2001) sur les libells en anglais, an dy comparer notre mthode fonde sur le franais, pour aligner avec UMLS.

4.2
4.2.1

Alignement du thsaurus Orphanet avec F_UMLS


Contexte de travail

Ce travail entre dans le cadre dun projet europen DG SANCO en partenariat1 avec ORPHANET France, nanc par lagence excutive pour la sant et les consommateurs (AESC) et en collaboration avec lquipe Bio-Health Informatics Group du Professeur Alan Rector de luniversit de Manchester2 . Parmi ses objectifs gurent : la mise en correspondance de la version 10 de la Classication Internationale des Maladies (CIM10) OMS (1993) avec toutes les maladies rares ;
1

noter qu la marge du projet, une coopration est mise en place entre Orphanet et CISMeF. Orphanet met disposition son thsaurus Orphanet pour permettre une indexation et une recherche dinformation avec ce thsaurus ; En contrepartie, CISMeF assiste Orphanet dans le dveloppement de son parseur pour intgrer la terminologie Orphanet dans le PTS.

CISMeF met galement disposition dOrphanet CISMeF InfoRoute (outil de connaissance contextuelle) pour accder PubMed partir dOrphanet. 2 http://intranet.cs.man.ac.uk/bhig/

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

61

proposer des changements pour amliorer la classication CIM10 dans loptique dadopter la version 11 de la CIM ; la mise en correspondance dORPHANET avec dautres classications et terminologies comme MedDRA, MeSH, SNOMED CT. . .

4.2.2

Le Portail ORPHANET

ORPHANET est un portail europen dinformation sur les maladies rares et les mdicaments orphelins, accessible pour tous publics3 et disponible en six langues europennes (anglais, franais, espagnol, allemand, italien et portugais). Lobjectif principal dORPHANET est doptimiser lutilisation des informations disponibles pour amliorer le diagnostic, le traitement et la prise en charge des malades et faire progresser la recherche dans le domaine des maladies rares et des mdicaments orphelins. Sa mission est reconnue comme un axe prioritaire du plan national des maladies rares. Parmi les services proposs par ORPHANET : Une base de donnes sur plus de 5 000 maladies rares. Il propose une encyclopdie qui contient des informations dtailles sous forme de rsums, darticles de synthse ou de ches destination du grand public. La plus complte actuellement dpassant OMIM (Online Mendelian Inheritance in Man) McKusick (2004). Un annuaire de service qui contient des informations sur les consultations spcialises, les laboratoires de diagnostics, les projets de recherche en cours, les registres, les essais cliniques et les associations des malades en liens avec les maladies rares dans 20 pays europens. Un service daide au diagnostic, permettant la recherche par signes cliniques. Une base de donnes de mdicaments pour les maladies rares, un nombre de 342 mdicaments sont ainsi rpertoris. Certains dentre eux ont le statut de mdicament orphelin4 . OrphanetXchange, un service de mise en relation des chercheurs et des industriels pour les aider dvelopper des solutions diagnostiques et thrapeutiques dans le domaine des maladies rares. ORPHANET est devenu le site de rfrence mondial pour la documentation et linformation sur les maladies rares et les mdicaments orphelins. Le site reoit prs de 20 000 utilisateurs chaque jour, provenant de plus de 150 pays.
http://www.orphanet.net Les mdicaments orphelins sont destins au traitement de maladies qui sont si rares que les promoteurs sont peu disposes les dvelopper dans les conditions de commercialisation habituelles.
4 3

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

62

4.2.3

Le thsaurus ORPHANET

ORPHANET a dvelopp un thsaurus multi-hirarchique pour les maladies rares. Le thsaurus ORPHANET compte 7 428 termes prfrs. Chaque terme appartenant au thsaurus est identi par un numro unique Numro ORPHANET , un code CIM10 et le code MIM (Mendelian Inheritance in Man) McKusick (2004). Le code MIM est un nombre six chires attribu aux maladies gntiques (rares). Un nombre total de 4 268 synonymes existe dans le thsaurus ORPHANET. Ces synonymes correspondent des formulations alternatives des termes prfrs. Par exemple, les termes syndrome de Williams-Beuren , Monosomie 7q11.23 et Dltion 7q11.23 sont des synonymes du terme prfr syndrome de Williams . La gure 4.1 reprsente un extrait de la che descriptive sur le site dORPHANET pour la maladie syndrome de Williams avec toutes les informations techniques (numro ORPHANET, code CIM10 et code MIM) ainsi quun rsum descriptif de la maladie.

Fig. 4.1 Exemple dune che descriptive pour la maladie syndrome de Williams Les termes ORPHANET sont organiss hirarchiquement suivant des groupes de maladies dans un systme de classication clinique. Environ 1 409 termes correspondant aux classications ont t crs par lquipe ORPHANET. Ces classications sont organises suivant la spcialit mdicale ou chirurgicale spcique chaque maladie rare.

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

63

Les maladies ont t classes selon des critres cliniques ou des critres tiologiques. Les classications sont ralises partir darticles scientiques et/ou davis dexperts. Elles sont rgulirement mises jour, et de nouvelles classications sont ajoutes. Un extrait de la classication ORPHANET pour les maladies gntiques est reprsent dans la gure 4.2.

Fig. 4.2 Extrait de la classication ORPHANET des maladies gntiques

4.2.4

Mthodes dalignements

Pour aligner les termes ORPHANET vers les terminologies francophones de lUMLS (F_UMLS), nous avons procd en trois tapes : la premire est lutilisation dun alignement manuel entre une partie des termes ORPHANET et les codes de la classication CIM10 incluses dans UMLS. La deuxime est lutilisation dun algorithme lexical pour aligner les termes ORPHANET et les termes francophones de lUMLS. La dernire tape utilise une mthode structurelle qui exploite les caractristiques de la classication ORPHANET pour aligner les termes ORPHANET qui nont pas t aligns lors de la deuxime tape. Les mthodes dalignement utilises produisent toutes un alignement entre termes et concepts UMLS. Cela pour but dutiliser lalignement conceptuel produit par lUMLS. Un alignement conceptuel par lUMLS existe entre deux termes de direntes terminologies, si les deux termes partagent le mme concept UMLS (voir section 3.2 pour la dnition dun concept UMLS). Par exemple, un alignement conceptuel existe entre le terme MeSH syndrome WAGR et le terme SNOMED International syndrome de monosomie partielle 11p . Par consquent, un alignement vers un de ces deux termes impliquera un alignement vers lautre terme. Le tableau 4.1, donne le nombre des alignements conceptuels entre les termes de chaque terminologies francophones utilises via UMLS.

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

64

CIM10 CIM10 MeSH MedDRA SNMI WHO-ART 1 2 1 2 910 305 228 728

MeSH 1 910 3 490 17 907 4 149

MedDRA 2 305 3 490 7 688 6 501

SNMI 1 228 17 907 7 688 8 068

WHO-ART 2 782 4 149 6 501 8 068

Tab. 4.1 Nombre des alignements conceptuels via UMLS entre les termes de chaque terminologie francophone Utilisation dun alignement manuel vers CIM10 pour trouver les concepts UMLS Cette mthode est fonde sur un alignement manuel entre les termes ORPHANET et les codes de la classication CIM10. Cet alignement a t ralis totalement par lquipe ORPHANET. Un nombre de 2 083 termes ORPHANET est align manuellement vers au moins un code CIM10 (28% de tous les termes ORPHANET). Dans cette approche, nous nous sommes limits aux concepts UMLS qui contiennent des termes MeSH. Choisir la terminologie MeSH nous permettra, entre autre, de comparer les rsultats obtenus avec les mthodes automatiques et dvaluer en plus les rsultats obtenus par notre quipe (spcialiste en MeSH) Merabti et al. (2010a). Pour trouver les termes MeSH partir de chaque alignement manuel, nous avons utilis principalement lalignement conceptuel de LUMLS (voir paragraphe prcdent). Un alignement conceptuel existe entre un code CIM10 et un terme MeSH sils partagent le mme concept UMLS (mme CUI). Par exemple, il existe un alignement conceptuel entre le code CIM10 (Code : E24) Syndrome de Crushing et le terme MeSH du mme nom. En eet, ces deux termes partagent le mme concept UMLS (CUI : C0010481).

Mthode dalignement lexical Dans cette mthode, nous utilisons les outils de Traitement Automatique de la Langue (TAL) pour aligner les termes ORPHANET vers les termes francophones de lUMLS. Cette mthode permet partir dun terme ORPHANET de trouver les termes en franais dans lUMLS qui sont similaires lexicalement ce terme ORPHANET. Un prtraitement sur trois tapes est appliqu sur tous les termes de toutes les terminologies utilises (source et destination). La premire tape de ce prtraitement est la tokenisation (segmentation en mots), elle consiste dcouper les termes utiliss en mots. Un mot est dni comme une suite de caractres graphiques formant une unit smantique et pouvant tre distingu par un sparateur (un espace). Cependant, cette

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

65

dnition reste trs sommaire, en eet, plusieurs lments sont prendre en compte. Les rgles que nous avons adoptes ont t dj dnies dans le cadre de la thse de S. Pereira Pereira (2007) pour la segmentation des phrases en mots: Un mot peut tre compos, accentu, il peut tre un sigle ou un nom propre. De plus, un mot peut tre spar dun autre mot par un espace ou une apostrophe. Les ponctuations ne constituent pas des mots mais sont de bons indicateurs de sparation de mots. Elles seront limines en deux temps, except pour les tirets (-). Un nombre est considr comme un mot. De ce fait, les espaces sparant le chire des milliers dautres chires sont liminer. Par contre, les virgules ou les points qui font partie intgrante du nombre ne seront pas limins. La deuxime tape de notre prtraitement consiste liminer les mots vides (ltrage des mots). Un mot vide est un mot non signicatif gurant dans le terme. Nous disposons, dans lquipe, dune liste de mots vides obtenus partir de Lexique5 , cre lors de la thse de LF. Soualmia. Cette liste a t entirement retravaille par S. Pereira an dy ajouter des mots vides. En plus des mots vides, il existe des expressions vides. Par exemple, lexpression tout dabord . Une liste dexpressions vides est aussi utilise et ajoute la liste des mots vides. La dernire tape de notre prtraitement applique une normalisation sur tous les termes restants composant chaque mot. Un algorithme de dsuxation en franais est utilis. La dsuxation cherche rassembler les direntes variantes dun mot autour dune racine (stme). Par exemple, antiasthmatique , asthme , asthmatique ont le mme stme asthm . Les algorithmes de dsuxation reposent gnralement sur des listes de suxes et de rgles de dsuxation construites a priori qui permettent de trouver la racine stme de nimporte quel mot. Dans la thse de S. Pereira, trois mthodes de dsuxation ont t compares : Lalgorithme de CISMeF dvelopp en interne par B. Dahamna, cet algorithme traite tour de rle des suxes dune liste de 63 suxes. Le traitement consiste liminer ou remplacer les suxes rencontrs dans certaines conditions (taille du mot, le suxe ou le mot). Lalgorithme de Paternostre et al. (2002), dvelopp par M. Paternostre dans le cadre du projet de recherche GALILEI6 en 2002, constitue une adaptation franaise de lalgorithme de Porter qui traite les mots de la langue anglaise Porter (1980). Lalgorithme traite les suxes tour de rle, en utilisant des rgles et des conditions comme lalgorithme prcdent (482 rgles). Les principales dirences avec le prcdent algorithme, outre le nombre de rgles appliques, sont
Lexique fournit une base de donnes lexicales avec des estimations de frquences et des formes chies accessibles via http://www.lexique.org 6 Generic Analyser and Listner for Indexed and Linguistics Entities of Information
5

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

66

les conditions prises en compte. Daprs Paternostre et al. (2002), chaque mot du franais peut tre rduit cette formule : [C] (VC)m o (VC) est rpt m fois (C = consonne, V = voyelle, les crochets marquent des vnements optionnels). Le troisime algorithme est le FrenchStemmer de Lucene7 Cutting et al. (2004), ralis par P. Talbot, lalgorithme sinspire aussi des travaux de Porter. Cet algorithme se droule en 6 tapes : limination des suxes standards, traitement des suxes verbaux, traitement des suxes rsiduels, traitement des formes particulires, traitement des caractres doubles et des accents. Pour chaque tape, une liste de rgles est applique dpendant dune ou plusieurs conditions, l aussi, trs particulires. Ainsi, trois rgions sont prises en compte pour chaque mot : RV, R1 et R2. RV est le mot. R1 est la rgion aprs la premire non-voyelle suivie dune voyelle ou la n du mot. R2 est lquivalent de R1 sur R1. Par exemple, pour le mot fameusement : RV = fameusement , R1 = eusement et R2 = ement . Les conditions portent sur les rgions, sur leurs prsences ou les caractres les prcdant ou les suivant. Lvaluation eectue par S. Pereira est dtaille dans Pereira (2007). Cette valuation a montr que lalgorithme de Lucene est meilleur en moyenne avec un rappel de 74,7% et une prcision de 81,4% par rapport lalgorithme de carry (un rappel de 76,3% et une prcision de 59,3%) et lalgorithme de CISMeF(un rappel de 69,4% et une prcision de 70,9%). De ce fait, dans le reste dans nos mthodes nous utilisons lalgorithme de Lucene pour la partie dsuxation. En terme de performance il est noter que lalgorithme de CISMeF est plus rapide par rapport aux deux autres algorithmes de dsuxation. Enn, il faut aussi noter que lalgorithme de dsuxation de Lucene sera lalgorithme utilis dans DocCISMeF la place de lalgorithme actuel. Le processus dalignement utilis dans cette mthode, est appliqu tous les termes ORPHANET (termes prfrs et synonymes) ainsi qu tous les termes en franais de lUMLS (termes prfrs et synonymes). Il existe un alignement entre deux termes prfrs si : Il existe un alignement entre les deux termes prfrs. Il existe au moins un alignement entre un terme synonyme et un terme prfr des deux terminologies. Il existe au moins un alignement entre deux termes synonymes des deux terminologies. Trois types dalignement (correspondances) peuvent exister entre les termes : Alignement Exact , Alignement par combinaison et Alignement Partiel . La gure 4.3 montre lorganigramme de lalgorithme dalignementainsi que la prcdence
Lucene est un moteur de recherche libre (Open source) de la socit Apache crit en Java qui permet dindexer et de rechercher du texte, voir : http://lucene.apache.org/
7

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS) entre les types dalignement.

67

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

68

Tokenisation

limination des mots vides

Dsuxation

Alignement Exact

Oui

Alignement exact Non

Alignement par combinaison

Oui

Alignement par Combinaison

Non

Alignement Partiel

Oui

Alignement Partiel

Non

Pas dalignement

Fig. 4.3 Organigramme de lalgorithme dalignement Alignement exact : Un terme ORPHANET est en relation dalignement exact avec un terme dune autre terminologie, si tous les mots composants les deux termes sont exactement similaires. La table 4.2 donne des exemples d alignement exact entre les termes ORPHANET et des termes dautres terminologies. Lexemple de la gure 4.4 dtaille le processus permettant dobtenir un alignement exact entre le terme ORPHANET Glycognose de Type 2 et le terme MeSH Glycognose de Type II . Dans cet exemple, le terme ORPHANET correspond exactement un terme synonyme dans le MeSH (MeSH SY). Le rsultat

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

69

Terme ORPHANET Alexandre, maladie

Termes correspondants maladie dAlexandre

West, syndrome de

spasmes infantiles/syndrome de West

Ankylose des dents

ankylose dentaire/ankylose des dents

Terminologies MeSH SNOMED International MeSH SNOMED International MedDRA MeSH MedDRA SNOMED International

Tab. 4.2 Exemples d alignement exact entre termes ORPHANET et termes dautres terminologies de lalignement sera entre le terme prfr (MeSH MH) du terme synonyme et le terme ORPHANET.

Glycognose de Type 2 (ORPHA)

Glycognose de Type II (MeSH)

limination des mots vides Dsuxation Dsaccentuation 2;Glycogenose;type ;2;glycogenose (MeSH SY) ; II;glycogenose (MeSH MH)

Fig. 4.4 Exemple dtaill du processus dalignement (Alignement exact) Alignement par combinaison (1 N) : Un terme ORPHANET est en relation d Alignement 1 N avec au moins deux termes dune autre terminologie si : Le terme nest pas en relation d Alignement exact avec ce terme. La combinaison de deux ou plusieurs termes dautres terminologies correspond exactement au terme ORPHANET. La table 4.3 montre des exemples d alignement par combinaison entre les termes ORPHANET et des termes dautres terminologies.

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

70

Terme ORPHANET Albinisme surdit

Embryopathie diabtique

Termes correspondants Albinisme (MeSH, MedDRA, SNOMED International) et (+) Surdit (MeSH, MedDRA, SNOMED International, WhoART) Embryopathie (MeSH, MedDRA, WHOART) et (+) Diabte (MeSH, MedDRA, WHOART)

Tab. 4.3 Exemples d alignement par combinaison entre termes ORPHANET et termes dautres terminologies La gure 4.5 dtaille le processus permettant dobtenir un alignement par combinaison entre le terme ORPHANET Embryopathie diabtique et les deux termes MeSH Diabte et Maladie foetale . Dans cet exemple, aucun terme ne correspond exactement au terme ORPHANET. Par contre la combinaison des deux termes MeSH correspond exactement au terme ORPHANET.
Embryopathie diabtique (ORPHA) Diabte+maladie foetales (MeSH)

limination des mots vides Dsuxation Dsaccentuation maladie foetale (MeSH MH) (Embryopathie (SY)) diabet;embryopath diabet (MeSH MH)

Fig. 4.5 Exemple dtaill du processus dalignement (Alignement par Combinaison) Alignement partiel : Dans ce type dalignement, une partie du terme ORPHANET correspond exactement ou partiellement dautres termes dautres terminologies. Cet alignement est considr par lquipe CISMeF comme le moins pertinent par rapport aux deux autres types dalignement. En particulier dans des tches dindexation automatique ou de Recherche dinformation. La table 4.4 donne des exemples d alignement partiels entre les termes ORPHANET et des termes dautres terminologies.

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

71

Terme ORPHANET Chromosome 14 en anneau Pseudohyperkalimie familiale, type 1

Termes correspondants Chromosome 14 (MeSH, SNOMED International) ou Chromosome en anneau (MeSH, SNOMED International) pseudohyperkalimie (MedDRA)

Tab. 4.4 Exemples d alignement partiels entre termes ORPHANET et termes dautres terminologies Mthode dalignement structurel hirarchique Nous avons appliqu un alignement structurel fond sur les relations hirarchiques de la classication ORPHANET. Cette mthode a t utilise pour aligner les termes ORPHANET qui ne sont pas en alignement exact avec les termes des terminologies de F_UMLS. Deux types dalignement fonds sur la structure hirarchique dORPHANET ont t utiliss : Alignement en BT (Broader Than alignement): Un terme ORPHANET est en alignement en BT si : Il nexiste pas un alignement exact entre ce terme ORPHANET et un autre terme. Le terme ORPHANET possde au moins un parent (relation hirarchique BT) qui est en relation en alignement exact avec au moins un autre terme de F_UMLS. Il est essentiel de direncier des alignements en BT des alignements exacts, notamment, pour viter le bruit dans un contexte dindexation automatique ou de recherche dinformation. Ainsi, il est donc essentiel de conserver le type de relation entre deux termes aligns. La gure 4.6 montre un exemple dtaillant le processus dalignement en BT entre un terme ORPHANET Arthrogrypose par dystrophie musculaire et un terme MeSH Arthrogrypose .

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

72

ORPHANET

Arthrogrypose

Relation Hirarchique

Arthrogrypose par dystrophie musculaire

ORPHANET

Arthrogrypose

Alignement Exact

Arthrogrypose

MeSH

Relation Hirarchique

Arthrogrypose par dystrophie musculaire

ORPHANET

Arthrogrypose

Alignement Exact

Arthrogrypose

MeSH

Relation Hirarchique

Arthrogrypose par dystrophie musculaire

Alignement en BT

Fig. 4.6 Exemple dtaill dalignement structurel hirarchique en BT

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

73

Alignement en NT (Narrower Than alignement): Un terme ORPHANET est en alignement en NT si : Il nexiste pas un alignement exact entre ce terme ORPHANET et un autre terme. Le terme ORPHANET a au moins un ls (relation hirarchique NT) qui est en relation en alignement exact avec au moins un autre terme. La gure 4.7 montre un exemple dtaillant le processus dalignement en NT entre un terme ORPHANET Htrotopie neuronale nodulaire et un terme MeSH Htrotopie nodulaire priventriculaire . Dans les deux types dalignement structurel prsents ci-dessus, une dirence existe entre les niveaux dalignement de chaque terme ORPHANET. Un niveau dalignement (BT ou NT) entre un terme ORPHANET et un autre terme de F_UMLS est dni comme le nombre de relations hirarchiques (en BT ou NT) qui existe entre le terme ORPHANET et le terme qui est en relation dalignement exact avec le terme de F_UMLS. Par exemple, une relation dalignement en BT de niveau 1 existe entre un terme ORPHANET Orpha et un terme de F_UMLS T ermeF R si est seulement si: Il existe un terme P _Orpha tel que : P _Orpha est en relation dalignement exact avec le terme T ermeF R ; le nombre de relations hirarchiques BT entre Orpha et P _Orpha est gal 1. Dune manire gnrale, une relation dalignement en (BT ou NT) de niveau i existe entre un terme ORPHANET et un terme de F_UMLS T ermeF R si et seulement si il existe un terme P _Orpha (ou F _Orpha dans le cas du NT) tel que : P _Orpha (ou F _Orpha) est en relation dalignement exact avec le terme T ermeF R Le nombre de relations hirarchiques BT (ou NT) entre Orpha et P _Orpha (F _Orpha dans le cas du NT) est gal i. Pour les des documentalistes de lquipe CISMeF, plus i grandit, plus lalignementen BT (ou NT) perd de son intrt. Par exemple, pour la majorit des maladies du thsaurus Orphanet, on pourrait retrouver en alignement en BT un lien vers une tte darborescence maladie dans une autre terminologie.

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

74

ORPHANET

Htrotopie neuronale nodulaire

Relation Hirarchique

Htrotopie nodulaire priventriculaire

ORPHANET

Htrotopie neuronale nodulaire

Relation Hirarchique

Htrotopie nodulaire priventriculaire

Alignement Exact

Htrotopie nodulaire priventriculaire MeSH

Alignement en NT ORPHANET Htrotopie neuronale nodulaire Relation Hirarchique Htrotopie nodulaire priventriculaire Alignement Exact Htrotopie nodulaire priventriculaire MeSH

Fig. 4.7 Exemple dtaill dalignement structurel hirarchique en NT

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

75

4.2.5

Critre dvaluation et comparaison

Alignement lexical (alignement exact) Nous avons valu la quantit et la qualit des alignements lexicaux entre les termes ORPHANET et les termes de F_UMLS. Pour lvaluation quantitative, nous avons mesur principalement lapport de lalignement conceptuel de lUMLS. Pour mesurer cet apport, nous avons en premier lieu appliqu notre algorithme (lexical) limit au type dalignement exact sans utiliser lalignementconceptuel de lUMLS. Aprs, nous avons compar ces rsultats avec les rsultats de lalignement exact appliqu en utilisant lalignementconceptuel de lUMLS. Dun autre ct, nous montrons aussi dans le cadre de cette tude, lapport des synonymes ajouts par CISMeF dans la terminologie MeSH pour trouver plus de termes et de concepts UMLS. De la mme faon, cet apport est mesur par la dirence de termes obtenus avec et sans utilisation des synonymes CISMeF ajouts au MeSH. Lvaluation qualitative a t ralise par un membre de lquipe ORPHANET (Bertrand Bellet) pour mesurer la qualit de lalignement entre les termes ORPHANET et les termes des autres terminologies. Cette valuation a t faite sur un nombre de 250 alignements exacts (15%). La qualit de lalignement entre les termes est mesure selon deux critres : Pertinent : si lalignemententre terme ORPHANET et terme de F_UMLS est jug pertinent. Cest dire que le terme de F_UMLS obtenu correspond exactement au terme ORPHANET. Cependant, lvaluateur na pas essay de chercher sil existe un terme de F_UMLS plus prcis que le terme propos. Non pertinent : dans le cas contraire. Nous avons aussi compar les deux mthodes dalignements manuelles et lexicales (alignement exact) sur les mmes termes ORPHANET (28% aligns manuellement). Pour les comparer nous avons appliqu notre mthode dalignement exact aux termes ORPHANET aligns manuellement. Aprs, nous avons limit les rsultats obtenus par ce dernier alignement sur les termes MeSH. Au nal, nous avons construit quatre ensembles : Le premier ensemble : contient tous les alignements entre les termes ORPHANET et les termes MeSH obtenus uniquement en passant par lalignementmanuel. Le deuxime ensemble : contient tous les alignements entre les termes ORPHANET et les termes MeSH obtenus uniquement par lapproche lexicale. Le troisime ensemble : contient tous les alignements dirents obtenus par les deux approches mais pour les mmes termes ORPHANET. Par exemple, pour le mme terme ORPHANET maladie de tangier , deux termes MeSH dirents sont obtenus par les deux approches : le terme Hyperlipmie pour lapproche

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS) manuel et le terme Maladie de tangier pour lapproche lexicale.

76

Le quatrime ensemble : contient tous les mmes alignements obtenus par les deux approches. Quatre valuations ont t ralises par un mdecin (S.J. Darmoni). Lvaluation a t faite en aveugle sur 100 alignements de chaque ensemble choisis alatoirement. La pertinence de chaque alignement a t value selon 5 critres : Pertinent : si lalignemententre le terme ORPHANET et le terme MeSH est jug pertinent (correct) ; BT-NT (Broader than) : si le terme ORPHANET est jug plus gnrique que le terme MeSH correspondant ; NT-BT (Narrower than) : si le terme ORPHANET est jug plus spcique que le terme MeSH correspondant. Par exemple, le terme ORPHANET Dystrophie musculaire de Duchenne et Becker est jug plus spcique que le terme MeSH myopathie de Duchenne ; Frre (du point de vue du MeSH) : si le terme ORPHANET et le terme MeSH sont jugs frres du point de vue du MeSH. Par exemple, le terme ORPHANET Cryptophtalmie isole et le terme MeSH microphtalmie sont jugs frre (sibling). Cest--dire ayant un mme ascendant direct sans tre en relation dalignement exacte ; non-pertinent.

Alignement Structurel Une valuation qualitative a t ralise sur les deux types dalignements structurels (Alignement en BT et Alignement en NT), 500 alignements en BT et 100 alignements en NT ont t valus. Comme dans le cas de lalignement lexical, lvaluation a t ralise par un membre de lquipe ORPHANET (Ana Rath) selon trois critres qualitatifs : Pertinent : si lalignementcorrespond un alignement en BT (ou NT) (structurel) Exact : si lalignementcorrespond un alignement exact (quivalence) Non pertinent : si lalignementnest pas pertinent

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

77

4.3

Alignement de la classication ATC vers UMLS (F_UMLS)


La classication ATC (Anatomique, Thrapeutique et Chimique)

4.3.1

La classication ATC Skrbo et al. (2004) est utilise pour classer les mdicaments. Cest le Collaborating Centre for Drug Statistics Methodology de lOrganisation Mondiale de la Sant (OMS) qui la contrle. Les mdicaments sont diviss en plusieurs groupes selon lorgane ou le systme sur lequel ils agissent et/ou leurs caractristiques thrapeutiques et chimiques. Le code ATC a la forme gnrale LCCLLCC (o L reprsente une lettre et C un chire). Dans ce systme, les mdicaments sont classs en groupes cinq niveaux dirents (gure 4.8): Le premier niveau : groupe anatomique (un caractre alphabtique). Le deuxime niveau : groupe thrapeutique principal (deux caractres numriques). Le troisime niveau : sous-groupe thrapeutique/pharmacologique (un caractre alphabtique). Le quatrime niveau : sous-groupe chimique/thrapeutique/pharmacologique (un caractre alphabtique). Le cinquime niveau : sous-groupe pour la substance chimique : le principe actif individuel ou lassociation de principes actifs (deux caractres numriques).

N Le systme nerveux N05 Psycholeptiques N05B Anxiolytiques N05BB Drivs du diphnylmthane N05BB01 Hydroxyzine N05BB02 Captodiame

N05BB51 Hydroxyzine, association

Fig. 4.8 Les cinq niveaux dirents dans ATC chaque stade de la classication correspond un code ATC et un libell ATC. Le libell du cinquime niveau correspond la DCI (Dnominations Communes Internationales) et la substance, quand elle existe. Ce code est attribu en fonction de son indication principale. Or, cette dernire peut

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

78

varier dun pays lautre, ce qui explique quil peut exister plusieurs codes ATC pour un mme mdicament. Cest le cas pour environ 10% des mdicaments qui nont pas le mme code ATC en France et au Danemark (tude interne ralise par la socit Vidal pour le projet PSIP) Beuscart et al. (2009). Il a donc fallu sadapter au contexte franais et au contexte danois pour palier au problme des ATC variants . Cette adaptation a t rendue possible grce la participation de la socit Vidal qui a fourni les chiers adquats. En 2008, lquipe CISMeF a mis en ligne le portail PIM (Portail dInformations sur le Mdicament) Sakji et al. (2009b) en collaboration avec la socit Vidal, spcialiste de linformation sur les mdicaments. LURL du site PIM est : http://doccismef.chu-rouen.fr/servlets/PIM. Ce portail a t dvelopp pour le projet PSIP et dans le cadre de la thse de S. Sakji. Pour des raisons de protection industrielle, ce site est protg par un identiant et un mot de passe. La gure 4.9 montre un exemple de recherche sur le site PIM en utilisant un code ATC.

Fig. 4.9 Exemple de recherche utilisant un code ATC dans PIM

4.3.2

ATC vers PubMed ATC to PubMed

Lobjectif de cette application est le dveloppement dun service permettant laccs PubMed via les codes ATC dans toutes les langues disponibles. Pour raliser ce travail, nous avons nalis un permier alignement manuel entre les codes ATC et les termes MeSH. Ce alignement a couvert tous les codes ATC de tous les niveaux :

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

79

1, 2, 3, 4 et 5 (N = 5 359 (97%)). Dans la majeure partie des cas, ce alignement est 1 N . Par exemple, pour le code ATC D11AX18 - diclofnac , lalignementMeSH est : Diclofnac et produits dermatologiques pour le dirncier de lautre M01AB05 - Diclofnac qui est align avec les deux termes MeSH : Diclofnac et Anti-inammatoires non strodiens . Chaque code ATC lui correspond une requte PubMed prdnie, qui va tre lance directement partir du code slectionn. Par exemple, le requte PubMed prdnie desensitization, immunologic[MH] AND allergens[MH] correspond au code ATC VO1A (voir gure 4.10).

Fig. 4.10 Capture dcran du PIM (Partie ATC)

4.3.3

Mthodes dalignement

Pour aligner les codes ATC avec les termes de lUMLS nous avons utilis deux mthodes. La premire mthode utilise le mme algorithme dalignement lexical utilis dans la section 4.2.4. La deuxime utilise une approche oriente anglais en utilisant loutil MetaMap de la NLM Aronson (2001) eectue par lquipe LERTIM de Marseille. Les deux mthodes dalignement sont appliques aux codes ATC du cinquime niveau de la classication (4 268 codes). Ce choix est motiv par le fait que les codes du cinquime niveau correspondent aux codes les plus prcis dans la classication. Les mthodes lexicales utilises ne peuvent pas sappliquer sur les libells des codes de niveau suprieur (1, 2, 3 et 4). La principale cause rside dans le fait que les libells de niveau suprieur ne sont utiliss que dans un contexte pharmaceutique, ce qui rend leur

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

80

traitement dicile avec des outils TAL. Par exemple, le code ATC Systme digestif correspond Traitements mdicamenteux des maladies du systme digestif . En plus, dans plusieurs cas, les libells ATC qui appartiennent aux niveaux 2, 3, 4 ou 5 prennent galement en compte les codes ATC de niveau N-1, N-2 ou N-3. Par exemple, le code ATC chlorure de potassium (A12BA01) doit tre direnci du code ATC chlorure de potassium (B05XA01). Le premier code est indiqu dans le cas dune hypokalimie , du fait que laxe A prenne en compte voies digestives et mtabolisme . Par consquent, le code ATC A12BA01 correspondra deux termes MeSH : chlorure de potassium et hypokalimie . De plus, le mot cl hypokalimie doit tre prcis par le qualicatif MeSH thrapie . Ainsi, tous les alignements entre les codes ATC et MeSH ont t raliss manuellement par un documentaliste et une pharmacienne de lquipe CISMeF (Catherine Letord). De faon plus gnrale, lalignementde lATC vers nimporte quelle terminologie mdicale nest pas facile : Une mme substance peut avoir plusieurs codes ATC dirents selon quelle est utilise seule ou en association, selon les pathologies traites et/ou selon sa voie dadministration. Les classications chimiques varient dune terminologie une autre. Par exemple, dans lATC la mcamylamine (C02BB01) est considre comme une amine , alors que dans le MeSH cest un terpne . La classication ATC nest pas purement anatomique. Par exemple, les ttes darborescences H, J, L, P. . . qui ne correspondent pas des axes anatomiques.

Alignement lexical bas sur les outils en franais Comme dcrit dans la section 4.2.4. La mthode utilise permet dobtenir trois types dalignement entre les codes ATC en franais et les termes de F_UMLS. Un alignement exact, un alignement par combinaison et un alignement partiel. Les tableaux 4.5, 4.6, 4.7 donnent des exemples pour chaque type dalignement entre codes ATC et termes de F_UMLS.

Alignement lexical orient anglais (MetaMap) Dans cette approche, nous alignons les libells ATC en anglais vers les termes de lUMLS en utilisant loutil MetaMap MMTx v.2.6. MetaMap est un outil dvelopp la US NLM qui permet didentier les concepts UMLS partir dun texte. Lutilisation de MetaMap peut se faire sur du texte libre, mais galement sur des listes de termes. Lapproche que nous utilisons dans le cadre de cette mthode dalignement, utilise

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

81

Libells ATC (Code ATC) Vincristine (L01CA02)

Termes correspondants Vincristine

Procane benzylpnicilline (J01CE09)

Pnicilline G procane

Chlorure de strontium-89 (V10BX01)

Chlorure de strontium

Terminologies MeSH SNOMED International MeSH SNOMED International MeSH (Concept Chimique Supplmentaire)

Tab. 4.5 Exemples de alignement exact entre libells ATC et termes dautres terminologies Libells ATC (code ATC) Lansoprazole, amoxicilline et mtronidazole (A02BD03) Oxalate de crium (A04AD02) Termes correspondants Lansoprazole (MeSH, SNOMED International) et (+) Amoxicilline (MeSH, SNOMED International) et + Mtronidazole (MeSH,SNOMED International) Oxalate (MeSH) et (+) Crium(MeSH)

Tab. 4.6 Exemples de alignement par combinaison entre libells ATC et termes dautres terminologies Libells ATC (code ATC) phytate de techntium 99m (V09DB07) phosphore-32 phosphate chromique collodal (V10AX01) Termes correspondants Techntium phytate (MeSH) phosphore-32 phosphate chromique (MeSH)

Tab. 4.7 Exemples de alignement partiel entre libells ATC et termes dautres terminologies MetaMap en prenant en entre la liste des libells ATC en anglais. MetaMap permet aussi de spcier les terminologies de lUMLS avec lesquelles nous voulons aligner les codes ATC. Le alignement entre les codes ATC et les concepts UMLS se fait de la faon suivante : une analyse syntaxique est applique sur les codes ATC en entre. pour chaque syntagme, des variantes sont gnres laide de lexique partir du

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS) SPECIALIST Lexicon de lUMLS.

82

pour chaque variante gnre, des concepts UMLS sont identis. Un concept UMLS est identi si les chanes de caractres contiennent au moins une des variantes. un score est attribu pour chaque concept UMLS propos dans ltape prcdente, en fonction, notamment, du type de variation, de la couverture et du nombre de mots. Trois types dalignement ont t utiliss : un alignement exact, un alignement par combinaison et un alignement partiel. Les terminologies utilises dans le cadre de ces trois alignements sont : MeSH, SNOMED CT, SNOMED International et NDFRT (National Drug File Reference Terminology) Carter et al. (2002), VANDF (Veterans Health Administration National Drug File) Nelson et al. (2002), NDDF (National Drug Data File Plus Source Vocabulary). Une deuxime tude utilise seulement les terminologies de F_UMLS. Les tableaux 4.8, 4.9, 4.10 donnent des exemples pour chaque type dalignement entre codes ATC et termes de F_UMLS utilisant MetaMap. Libells ATC (Code ATC) glutamic acid hydrochloride (A09AB01) pyridoxal phosphate (A11HA06) Termes correspondants glutamic acid hydrochloride pyridoxal phosphate Terminologies SNOMED International MeSH SNOMED International

Tab. 4.8 Exemples de alignement exact entre libells ATC et termes dautres terminologies Libells ATC (code ATC) magaldrate and antiatulents (A02AF0A) Termes correspondants magaldrate (MeSH, SNOMED International) et (+) antiatulents (MeSH, SNOMED International)

Tab. 4.9 Exemples de alignement par combinaison entre libells ATC et termes dautres terminologies

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

83

Libells ATC (code ATC) picodralazine and diuretics (C02LG02)

Termes correspondants Diuretics (MeSH, SNOMED International)

Tab. 4.10 Exemples de alignement partiel entre libells ATC et termes dautres terminologies

4.3.4

Critres dvaluation et comparaison

Pour les deux mthodes dalignement, des valuations quantitatives ont t ralises. Pour lalignement lexical utilisant les outils en franais, nous avons mesur le nombre de concepts UMLS couverts pour chaque type dalignements (exact, combinaison et partiel). Nous avons aussi, comme dans le cas de lalignement ORPHANET avec F_UMLS, mesur lapport de lalignement conceptuel de lUMLS. Nous avons aussi mesur lapport des synonymes CISMeF ajouts au MeSH ainsi que les concepts chimiques supplmentaires traduits en franais par lquipe CISMeF sur lalignementdes codes ATC vers le MeSH. Pour lvaluation des dirents alignements (franais, anglais) vers UMLS, nous avons utilis un alignement manuel des codes ATC vers le MeSH comme Gold Standard . Ce dernier a t ralis par Catherine Letord documentaliste et pharmacienne de lquipe CISMeF, labor pour permettre une recherche dinformation dans DocCISMeF par les codes ATC ou dans le cadre dATC vers PubMed dcrit dans la section 4.3.2. La gure 4.11 montre un exemple dinterrogation de DocCISMeF par un code ATC A01AA51 ( sodium uorure en association ). La mthode dvalua-

Fig. 4.11 Exmple de recherche dans DocCISMeF par un code ATC tion consiste comparer les codes ATC aligns par les deux mthodes avec les codes ATC aligns manuellement (N = 4 108). Toutefois, il demeure un problme li lali-

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

84

gnement manuel. En eet, plusieurs codes ATC (N = 1 137 (%26)) ont t aligns manuellement vers plusieurs termes MeSH. Par exemple, le code ATC A01AA51 qui correspond le libell sodium uorure en association est align vers deux termes MeSH : uorure de sodium et association de mdicaments . Ce qui rend dicile la comparaison avec les deux alignements sur leurs ensembles de alignement exact . Cependant, une solution peut tre envisage en mesurant la prcision en calculant le nombre de mots qui composent le terme trouv automatiquement par rapport nombre de mots du terme align manuellement. Dans lexemple prcdant le rsultat serait de 1/2 si lalignementautomatique trouve le terme : uorure de sodium . Dun autre ct, nous avons ltr les deux ensembles dalignements des deux mthodes sur les concepts UMLS contenant que les codes MeSH. Pour la mthode fonde sur les outils en franais nous avons un nombre de 2 898 codes ATC aligns vers au moins un concept UMLS contenant un terme MeSH. Pour la mthode fonde sur loutil MetaMap nous avons un nombre de 2 695 codes ATC aligns vers au moins un concept UMLS contenant un terme MeSH. Pour chaque mthode dalignement nous avons construit trois ensembles : un premier ensemble correspondant tous les alignements valids, cest--dire tous les alignements obtenus manuellement et automatiquement (anglais ou franais) ; un deuxime ensemble correspondant tous les alignements obtenus seulement automatiquement ; un troisime ensemble correspondant tous les alignements valides qui nont pas t obtenus automatiquement.

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

85

4.4

Alignement de la classication CCAM avec UMLS (F_UMLS)


La Classication Commune des Actes Mdicaux (CCAM)

4.4.1

La CCAM Rodrigues et al. (2005a) est le rfrentiel des actes mdicaux qui remplace, pour les mdecins, la Nomenclature Gnrale des Actes Professionnels (NGAP8 ) en secteur libral, et le Catalogue des Actes Mdicaux (CDAM9 ) en secteur hospitalier franais. Elle permet la tarication des actes en mdecine librale. labore par la CNAMTS (Caisse Nationale dAssurance Maladie des Travailleurs Salaris) et lATIH (Agence Technique de lInformation sur lHospitalisation), en troite collaboration avec les socits savantes, la CCAM a t cre an dobtenir une liste unique dactes cods, commune aux secteurs publics et privs pour les professionnels de la sant an de garantir la cohrence des systmes dinformation et de satisfaire les professionnels par lutilisation dun seul outil. Elle est destine dcrire plus prcisment chaque acte, servir de base la tarication en secteur libral (cabinet clinique) et lallocation de ressources aux tablissements publics dans le cadre de la tarication lactivit (T2 A). La ralisation de la CCAM a associ la mthode traditionnelle de dveloppement dire dexpert Rodrigues et al. (2005b), et une reprsentation formelle GALEN GAL (2005). Cette reprsentation formelle a t ralise dans le cadre du consortium europen GALEN (Genralised Architecture for Languages, Encyclopaedias and Nomenclatures in Medecine) Rector et al. (1993) compos de plusieurs universits, centres de recherche et socits informatiques. Ce projet des annes 90 a t ddier une terminologie clinique unie. Lontologie dveloppe, le Common Reference Model, est base sur une approche descendante. GALEN est dni avec une logique de description GRAIL (Galen representation and Integration Language) Rector et al. (1997). Elle possde un lien smantique avec la CIM10, cre par Jacques Chevallier Chevallier (2006). Dautres liens vers la CIM10 ont t crs dans Avillach et al. (2007) en se basant sur une matrice de co-occurrence partir des codes CIM10 et CCAM contenus dans les dossiers mdicaux du patient. Le classement de la CCAM correspond une logique mdicale et se fait par grand appareil et non par spcialit. La CCAM est une hirarchie hritage simple organise en 19 chapitres. Les 17 premiers chapitres sont scinds en deux parties : la premire concerne les actes diagnostiques rangs par grande technique puis par organe, la seLa NGAP est la nomenclature de mdecine ambulatoire Le CDAM, publie en 1985, a t labore par des comits dexperts mdicaux coordonns par la Direction des Hpitaux. Il rpondait deux objectifs : identier les actes raliss pendant le sjour du patient et mesurer la consommation en ressources humaines et matrielles pour raliser cet acte.
8 9

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

86

conde concerne les actes thrapeutiques classs par organe puis par action ; le chapitre 18 regroupe les gestes complmentaires ; le chapitre 19 prend en compte les adaptations pour la CCAM transitoire. La CCAM est fonde sur le principe de lacte global : chaque libell comprend implicitement lensemble des gestes ncessaires la ralisation de lacte. De plus les libells sont non ambigus cest--dire sans possibilit dinterprtation divergente. Elle est aussi bijective cest--dire qu un libell correspond un code et un seul et rciproquement (voir gure 4.12). Dans le cadre de cette thse nous nous sommes intresss la version 16 de la CCAM avec 7 926 actes, la version la plus rcente est la version 19 applicable au 01/02/201010 . Chaque libell de dernier niveau de la CCAM correspond un code 7 caractres alphanumriques : les 4 premiers sont signiants (topographie (anatomie), action, voie dabord et/ou technique), les 3 derniers constituent un compteur squentiel.

AA - AA - NNN Topographie (Anatomie) Action Voie dabord et/ou technique Compteur Le premier code constitue le codage du systme. Par exemple, Systme respiratoire (G). La deuxime lettre constitue le codage de lorgane ou de la fonction. Par exemple, Plvre (GG). La tableau 4.11 montre un extrait de la table de codage de la CCAM pour la topographie et la fonction (Systme respiratoire). La troisime lettre correspond au codage de laction principale du libell. Par exemple, vacuer (J). La tableau 4.12 montre un extrait de la table de codage de la CCAM pour les actions. La quatrime lettre code le mode daccs ou la technique utilise. Par exemple, Abord ouvert (A). La tablaue 4.13 montre un extrait de la table de codage de la CCAM pour pour les modes daccs. Chaque code 4 caractres est aect dun compteur 3 chires, pour direncier les actes ayant le mme code anatomique, le mme code daction et le mme code de voie dabord ou de technique. Par exemple, vacuation de collection de la cavit pleurale, par thoracotomie sans rsection costale (GGJA002) et vacuation de collection de la cavit pleurale, par thoracotomie avec rsection costale (GGJA004). Des caractres supplmentaires aux codes peuvent tre ajouts, ceux-ci permettent de :
10

au moment de la rdaction

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

87

Fig. 4.12 Extrait du chapitre 14 de la CCAM Dcrire lactivit : permet de direncier et numrer les gestes raliss au cours dun mme acte par des intervenants dirents (valeurs 0 5). Prciser lextension documentaire : une lettre qui permet de donner un niveau de dtail supplmentaire mais non utile la tarication (10 valeurs possibles). Par exemple, pour le terme dilatation intraluminale dune branche de laorte abdominale destine digestive avec pose dendoprothse, par voie artrielle transcutane (EDAF005), nous avons entre autres les codes documentaires : tronc iliaque (F) et artre gastrique gauche (G). Prciser la phase de traitement : pour distinguer les direntes phases dun acte en terme de cot et de sjour dhospitalisation. Par exemple pour le terme reconstruction dun tendon de la main par transplant libre, en deux temps (MJMA006),

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

88

G GA GB GC GD GE GF GG GH GJ GK GL GZ

Systme respiratoire Nez Sinus paranasaux Rhinopharynx et fosse infratemporale Larynx et piglotte Trache et arbre bronchique Poumons Plvre Espace mdiastinal Odorat Langage, phonation Respiration Systme respiratoire, sans prcision

Tab. 4.11 Extrait de la table de codage de la CCAM pour la topographie (Systme respiratoire) il existe deux phases : reconstruction de la gaine breuse digitale avec pose de prothse provisoire, par abord direct ou avec ou sans rfection des poulies (MJMA006 1 1) et transplant libre de tendon de la main (MJMA006 1 2). Des codes inuant sur la tarication peuvent tre juxtaposs : Lapplication des codes modicateurs indique les circonstances particulires de ralisation de lacte et peut entrainer une majoration du cot du sjour. Un code association qui permet de signaler des associations dactes non prvues. Un code remboursement exceptionnel. Un code supplment pour un acte en cabinet (code C). Chaque code est suivi par son tarif en euros et de prcisions tarifaires, de caractristiques gnrales et de prcisions sur le codage et de plus de 200 autres critres divers. Plusieurs actes peuvent tre associs (4 au maximum). Toutefois, il existe des associations dactes interdites, elles sont identies et listes.

4.4.2

Mthodes dalignement

Pour lalignementdes codes CCAM vers UMLS, nous avons utilis deux mthodes, une base sur les outils de TAL en franais Merabti et al. (2010b), et une deuxime

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

89

Verbe

Agrandir

Dnition augmenter les dimensions (longueurs, calibre, surface ou volume) dun lment de lorganisme

Termes utiliss

Lettre

AGRANDISSEMENT

ALLONGEMENT APPROFONDISSMEMENT DILATATION DISTENSION LARGISSEMENT RECALIBRAGE REHAUSSEMENT disposer dun agent thrapeutique vise locale ou gnrale la surface de lorganisme ou dune de ses parties, sans eraction des tguments

Appliquer

APPLICATION

-APPLICATION L empiler un espace ou une cavit en y apportant un matriau biologique ou articiel

Combler

APPOSITION COMBLEMENT CRANIALISATION ENROBAGE INTERPOSITION OBTURATION RECOUVREMENT

Tab. 4.12 Extrait de la table de codage de la CCAM pour les actions utilisant loutil MetaMap Bousquet et al. (2010). Ce dernier a t eectu par lquipe DSPIM de Saint-tienne (Dpartement de Sant de Public et de lInformation Mdicale). Ces deux approches ont t utilises auparavant pour aligner les codes ATC vers les

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

90

Mode daccs

Abord ouvert

Dnition accs exposant le site opratoire, par incision des tguments et de tout autre tissu sousjacent, sans introduction dun instrument doptique. Par extension, concerne tout accs travers la peau par une ouverture cutane dorigine

Termes utiliss

Lettre

foyer ouvert

par. . .abord. . .

par dissection. . . par excision par cranitomie par sclrotomie ... accs au site opratoire par ponction ou incision minime des tguments et de tout autre tissu sousjacent, avec introduction dun instrument doptique

Accs endoscopique

par cervicoscopie

par coelioscopie par mdiastinoscopie ...

Tab. 4.13 Extrait de la table de codage de la CCAM pour les modes daccs concepts UMLS. Contrairement la classication ATC, la longueur des libells de la CCAM rend impossible lalignementexact vers des concepts UMLS. En eet, plus de 85% des libells de la CCAM possdent plus de 5 mots. Contrairement une terminologie comme le MeSH o 5% seulement de ces libells contiennent plus de 5 mots. Ainsi, une approche alternative base sur la structure du code de la CCAM (voir 4.4.1) simpose, au lieu dappliquer lalignementdepuis les libells de la CCAM. Lutilisation de la structure du code de la CCAM permet den extraire un certain nombre de termes lmentaires. Ces derniers correspondent la signication de chaque axe composant un code CCAM. Au nal, lalignemententre les codes CCAM et les termes de lUMLS

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS) est eectu en deux tapes :

91

1. Une tape de prtraitement permettant dextraire les termes correspondant aux axes composant chaque code de la CCAM. 2. Ltape dalignement des nouveaux termes reprsentatifs vers les termes (franais ou anglais) de lUMLS en utilisant les deux mthodes dalignements.

Prtraitement des codes CCAM Ltape de prtraitement, commune aux deux mthodes, consiste extraire les termes reprsentant les axes de chaque code CCAM. Cette mthode est fonde principalement sur la structure de tous les codes CCAM. La concatnation des nouveaux termes obtenus constituera le nouveau libell reprsentatif du code. Lavantage de cette approche est quau nal nous avons un libell moins verbeux qui sera align vers UMLS. Lextraction a t ralise sur les trois premiers caractres composant chaque code. Ce choix a t conseill par lun des principaux experts de la CCAM (J.M Rodrigues). Le quatrime caractre tant non signicatif dans la construction du code na pas t choisi. Les deux premiers caractres reprsentent laxe anatomique. Une table dont un extrait a t prsent tableau 4.11 nous a servi faire la correspondance. Au total, 194 termes sont utiliss pour dcrire laxe topographique. Par exemple, pour le code CCAM AAGB001 Ablation dlectrode intracrbrale, par voie transcutane aux deux premiers caractres AA corresponde le terme Encphale . Le tableau 4.14 dresse quelques exemples de codes CCAM avec les termes correspondants sur laxe anatomique. Code CCAM Libell CCAM Ventriculoventriculostomie, kystocisternostomie ou kystoventriculostomie, par craniotomie Thromboendartriectomie de lartre vertbrale proximale, par cervicotomie Topographie termes dants correspon-

ABCA001

AB

Ventricules, mninges et LCR intracrniens Vaisseaux de la tte et du cou, extracrniens ou non prcis

EBFA017

EB

Tab. 4.14 Exemples de codes CCAM avec les termes correspondant laxe Anatomique

Linformation pour laxe action est plus dicile extraire. En eet, une lettre peut reprsenter plusieurs actions. Par exemple, la lettre A peut correspondre aux

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

92

termes suivants : ALLONGEMENT , AGRANDISSEMENT , APPROFONDISSEMENT . . . (voir tableau 4.12) Pour rsoudre ce problme, nous avons utilis le libell du code. Pour chaque code de la CCAM, nous dressons la liste des termes susceptibles de correspondre la lettre reprsentant laxe action. Aprs, nous cherchons dans les mots composant le libell CCAM le terme qui correspond un terme de la liste. Le tableau 4.15 montre quelques exemples de codes CCAM avec la mme lettre pour dcrire laction mais avec des termes correspondants dirents. Au total, 331 termes sont utiliss pour dcrire laxe des actions. Code CCAM AAFA001 Libell CCAM Exrse de tumeur intraparenchymateuse du cervelet, par craniotomie Excision dune zone pileptogne, par craniotomie Rsection de parenchyme crbelleux pour infarctus expansif, par craniotomie Action F termes correspondants exrse

AAFA007

excision

AAFA008

rsection

Tab. 4.15 Exemples de codes CCAM avec le mme troisime caractre mais avec direntes actions

Le tableau 4.16 donne des exemples de codes CCAM avec le libell originel et le nouveau libell reprsentatif . Code CCAM AAQM00 BDHA001 Libell CCAM chographie transfontanellaire de lencphale Biopsie de la corne Prlvement de cellules souches hmatopotiques sanguines par cytaphrse, pour thrapie cellulaire termes correspondants Encphale (AA) + chographie (Q) Corne (BD) + biopsie (H)

FEFF002

Sang (FE) + prlvement (F)

Tab. 4.16 Exemples de codes CCAM avec nouveaux termes correspondants

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS) Alignement lexical bas sur les outils en franais

93

Comme pour lalignementdes codes ATC avec F_UMLS, la mthode fonde sur les outils en franais produit trois types dalignements entre les nouveaux libells reprsentant les codes CCAM et les termes de F_UMLS. Les tableaux 4.17, 4.18, 4.19 donnent des exemples pour chaque type dalignement entre codes CCAM et termes de F_UMLS. Libells CCAM (Code CCAM) Abrasion mcanique de lpithlium de la corne avec laser (BDNP003) Adaptation bilatrale de verre sclral obtenu par moulage (BZMP001) Nouveau terme (Topographie +Action) Corne + abrasion il, sans prcision + adaptation

Termes correspondants

Abrasion de la corne Adaptation de loeil (MeSH + SNOMED International)

Tab. 4.17 Exemples de alignement exact entre codes CCAM et termes de F_UMLS Libells CCAM (Code CCAM) Exrse de lsion du tronc crbral, par craniotomie (AAFA003) Ventilation mcanique discontinue au masque facial ou par embout buccal pour kinsithrapie, par 24 heures (GLLD002) Nouveau terme (Topographie +Action) Encphale Exrse +

Termes correspondants Encphale (MeSH + SNOMED International)+ Exrse SAI (MedDRA) Respiration (MeSH + SNOMED International) + Ventilation (MeSH)

Respiration Ventilation

Tab. 4.18 Exemples de alignement par combinaison entre codes CCAM et termes de F_UMLS

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

94

Libells CCAM (Code CCAM) Extraction unilatrale ou bilatrale de bouchon de crumen ou de corps tranger du mat acoustique externe (CAGD001) Rsection de parenchyme crbral pour infarctus expansif, par craniotomie (AAFA006)

Nouveau terme (Topographie +Action) Oreille externe + extraction

Termes correspondants

Oreille externe (MeSH + SNOMED International)

Encphale + Rsection

Encphale (MeSH + SNOMED International)

Tab. 4.19 Exemples de alignement partiels entre codes CCAM et termes de F_UMLS Alignement lexical bas sur MetaMap Le mme principe est utilis pour lalignementdes codes CCAM vers UMLS que celui utilis pour aligner les codes ATC vers UMLS. Loutil MetaMap prend en entre les termes correspondant aux trois premiers caractres de chaque code CCAM. Un score de similarit est associ entre les termes aligner et les termes quivalents (concepts quivalents). Dans le cadre de cette tude, lquipe DSPIM11 na pris en considration que le alignement exact Bousquet et al. (2010), les alignements avec un score de 100%. Lexemple de la gure 4.13 montre un alignement dun code CCAM vers UMLS en utilisant MetaMap. Les trois types dalignement qui peuvent exister entre un code CCAM et un terme de UMLS sont : Un alignement exact : sil existe au moins deux termes dans UMLS qui sont quivalents aux termes correspondant aux axes anatomique et action. Un alignement sur laxe anatomique : sil existe au moins un terme dans UMLS quivalent au terme correspondant laxe anatomique. Un alignement sur laxe action : sil existe au moins un terme dans UMLS quivalent au terme correspondant laxe action. Les tableaux 4.20, 4.21 donnent des exemples pour chaque type dalignement entre codes CCAM et termes dUMLS en utilisant MetaMap.

11

www.univ-st-etienne.fr/dspim/

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

95

Fig. 4.13 Exemple dalignement de code CCAM vers UMLS utilisant MetaMap Libells CCAM) CCAM (Code Nouveau terme (Topographie + Action) Brain (Encphale) Surveillance (Surveillance)+ Termes correspondants Brain: Entire brain (MeSH, SNOMED International, SNOMED CT . . .) + Medical Surveillance (MeSH, SNOMED CT. . .)

Surveillance lectroencphalographique continue sans enregistrement vido, par 24 heures (AAQP003)

Tab. 4.20 Exemples de alignement sur les deux axes entre codes CCAM et termes de lUMLS en utilisant MetaMap

4.4.3

Critres dvaluation et comparaison

Pour les deux mthodes dalignement, des valuations quantitatives ont t ralises. Pour lalignementlexical utilisant les outils en franais, une tude qualitative a t faite sur tous les alignements exacts et sur un nombre de 100 alignements de type par combinaison . Le dernier type dalignement partiel a t jug non pertinent. Pour le deuxime type dalignement (par combinaison) nous navons choisi que 100 alignements car plusieurs codes partagent les mmes axes (topographiques et actions). Ainsi, les nouveaux termes correspondants aprs ltape de prtraitement sont les mmes. Par exemple, les codes CCAM HLHH003 et HLHH004 partagent les mmes axes topogra-

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

96

Libells CCAM (Code CCAM) Rparation de plaie non linaire perforante du bulbe [globe] oculaire intressant au moins 3 des structures suivantes : corne, sclre, iris, corps ciliaire, cristallin, vitr, rtine (BHMA002)

Nouveau terme (Topographie + Action) Eyeball (bulbe oculaire) + reparation (Rparation) Intracranial ventricles, meninges and cerebrospinal uid (Ventricules, mninges et liquide crbrospinal intercrniens) + exeresis (Exrse)

Termes correspondants

Eye (MeSH, International, CT. . .)

SNOMED SNOMED

Exrse et/ou fermeture de mningoencphalocle de la base du crne (ABFA001)

Exeresis (MedDRA)

Tab. 4.21 Exemples de alignement sur un axe entre codes CCAM et termes de lUMLS en utilisant MetaMap phique et action. Par consquent, les termes correspondants (concepts UMLS) sont les mmes. Ltude qualitative a t faite par un mdecin spcialiste dans le codage en CCAM (Philippe Massari). La pertinence de chaque alignement a t value suivant cinq critres : quivalent : si le terme dans UMLS correspond exactement aux libells CCAM. BT-NT (Broader than) : si le libell CCAM est jug comme plus gnrique que le terme dans F_UMLS correspondant. NT-BT (Narrower than) : si le libell CCAM est jug comme plus spcique que le terme dans F_UMLS correspondant. Incomplet : si le terme correspondant dans F_UMLS ne rete quune partie du libell de la CCAM. Non-pertinent : si lalignementest incorrect.

Chapitre 4. Alignement des terminologies francophones avec UMLS (F_UMLS)

97

4.5

Synthse

Nous avons dcrit dans ce chapitre nos mthodes dalignements entre terminologies mdicales. Nous avons appliqu nos mthodes pour aligner trois terminologies mdicales : ORPHANET, ATC et CCAM. Dans tous les travaux dalignement que nous avons prsents, nous avons dcrit des mthodologies appliques diremment pour aligner les terminologies sources vers UMLS (F_UMLS). Ainsi, pour ORPHANET, en plus de lalgorithme dalignement lexical, nous avons combin les rsultats obtenus avec une mthode dalignement structurel utilisant les relations hirarchiques du thsaurus ORPHANET. Dans le cas de la classication ATC, nous avons utilis conjointement notre mthode dalignement fonde sur le franais avec loutil MetaMap de la NLM fond sur langlais. Pour le dernier cas de la CCAM, lutilisation de nos mthodes dalignements directement sur les libells de la CCAM tait impossible cause de leurs tailles en terme de nombre de mots. Ainsi, nous avons dvelopp une mthode permettant dextraire partir de la structure du code de la CCAM un nouveau libell reprsentatif moins verbeux. Comme pour la classication ATC, nous avons aussi dans le cas de la CCAM utilis conjointement nos mthodes avec loutil MetaMap sur les nouveaux libells reprsentatifs obtenus. Dans le chapitre suivant, nous exposons les rsultats et les valuation pour pour les dirents alignements raliss.

Chapitre 5 Rsultats et valuations : Alignement des terminologies francophones vers UMLS (F_UMLS)
ans ce chapitre nous prsentons les dirents rsultats obtenus pour les alignements appliqus dans le chapitre prcdente. Pour chaque terminologie aligne, nous exposons les rsultats obtenus en terme de quantit et de qualit.

5.1
5.1.1

Alignement du thsaurus ORPHANET avec F_UMLS


Rsultats

Alignement manuel Sur les 2 083 termes ORPHANET aligns manuellement vers au moins un code CIM10, 619 alignements possibles sont obtenus vers au moins un terme MeSH en passant par lUMLS (30% des 2 083).

Chapitre 5. Rsultats et valuations : Alignement des terminologies francophones 99 Alignement lexical Sur les 7 424 termes ORPHANET du thsaurus, 1 671 (22%) sont en relation alignement exact avec au moins un terme de F_UMLS couvrant 2 802 concepts UMLS. Dautre part, 2 084 (27%) termes ORPHANET sont en relation alignement par combinaison avec au moins deux termes de F_UMLS couvrant 4 397 concepts UMLS. Le tableau 5.1 montre le nombre de termes ORPHANET en relation et le nombre de concepts UMLS couverts suivant chaque type dalignement utilis. Nombre de termes ORPHANET 1 671 (22%) 2 048 (27%) 3 483 (46%) Nombre de concepts UMLS couverts 2 802 4 397 4 529 Alignement exact Alignement par combinaison Alignement partiel Type dalignement

Tab. 5.1 Nombre de termes ORPHANET en correspondance pour chaque type dalignement

Chapitre 5. Rsultats et valuations : Alignement des terminologies francophones 100 Les tableaux 5.2, 5.3 et 5.4 fournissent le nombre de termes de chaque terminologie qui sont en relation avec les termes ORPHANET pour chaque type dalignement. Type dalignement Nombre de termes 2 084 2 093 3 721 409 47 Nombre de termes prfrs 1 125 1 848 3 721 249 47 Terminologie MeSH SNOMED International MedDRA WHO-ART CISP2

Alignement exact

Tab. 5.2 Nombre de termes de chaque terminologie en relation alignement exact Lquipe CISMeF dans son ensemble a t trs surprise des rsultats du tableau 5.2. Elle savait le MeSH assez peu prcis sur les maladies rares ; elle sattendait une plus forte couverture de la part de la SNOMED mais surtout les rsultats avec MedDRA (thsaurus sur les eets secondaires des mdicaments) ont t totalement inattendus. Type dalignement Nombre de termes 2 875 3 201 4 919 884 Nombre de termes prfrs 1 585 2 705 4 919 449 Terminologie MeSH SNOMED International MedDRA WHO-ART

Alignement par combinaison

Tab. 5.3 Nombre de termes de chaque terminologie en relation alignement par combinaison Type dalignement Nombre de termes 2 946 3 292 4 815 851 Nombre de termes prfrs 1 713 2 808 4 815 448 Terminologie MeSH SNOMED International MedDRA WHO-ART

Alignement partiel

Tab. 5.4 Nombre de termes de chaque terminologie en relation alignement partiel Le tableau 5.5 donne les chires des termes ORPHANET en relation alignement exact avec les quatre terminologies sans passer par lUMLS. Comme le montre le tableau 5.6, lapplication de lalgorithme dalignement sur chaque terminologie indpendamment ne donne pas les mmes chires quelapplication de lalgorithme sur F_UMLS. En eet, plusieurs termes qui ne sont pas trouvs par

Chapitre 5. Rsultats et valuations : Alignement des terminologies francophones 101

Nombre de termes ORPHANET 1 165 958 812 141

Nombre termes 1 934 1 285 2 125 306

de

Nombre de termes prfrs 983 1 085 2 125 152

Terminologie MeSH SNOMED International MedDRA WHO-ART

Tab. 5.5 Nombre de termes ORPHANET en correspondance en alignement exact sans utiliser lalignementconceptuel de lUMLS lalignementexact, le sont en passant par les concepts UMLS. Par exemple, le terme WAGR syndrome est en relation alignement exact avec le terme MeSH syndome WAGR . Lutilisation dUMLS permet aussi daligner le terme ORPHANET avec le terme SNOMED International syndrome de monosomie partielle 11p . MeSH Terminologie toute seule F_UMLS 983 1 125 (+14%) SNOMED International 1 085 1 848 (+70%) MedDRA 2 215 3 721 (+67%) WHO-ART 152 249 (+63%)

Tab. 5.6 Comparaison des chires trouvs de lapplication de lalgorithme sur chaque terminologie part versus F_UMLS Nous avons aussi mesur lapport des synonymes CISMeF ajouts au MeSH (N = 12 293) et les concepts supplmentaires chimiques (CSC) traduits en franais (substances chimiques) par lquipe CISMeF (N = 7 200) pour lalignementexact du MeSH. Cet apport est mesur en comparant le nombre de termes ORPHANET aligns en appliquant lalgorithme sur les termes MeSH avec et sans synonymes CISMeF et CSC (tableau 5.7). MeSH Nombre de termes ORPHANET 1 165 MeSH + Synonymes CISMeF + CSC 1 212 (+4%)

Tab. 5.7 Lapport de lajout des synonymes CISMeF et les concepts supplmentaires chimiques traduits sur lalignementexact des termes ORPHANET La table 5.8 donne les rsultats de lvaluation de lalignement lexical restreint au type dalignement exact entre les termes ORPHANET et les termes de F_UMLS.

Chapitre 5. Rsultats et valuations : Alignement des terminologies francophones 102

Nombre dalignement 247 (98%) 3 (1,2%)

Qualit de lalignement Pertinent Non pertinent

Tab. 5.8 Qualit de lalignement lexical exact entre les termes ORPHANET et les termes de F_UMLS La tableau 5.8 montre que 98% des alignements exacts ont t valus comme pertinents. Cependant, les trois rsultats jugs comme non pertinents correspondent des alignements en BT-NT, cest--dire que le terme ORPHANET est plus gnrique que le terme correspondant. Par exemple, le terme ORPHANET Cystinurie, type A align vers le terme Cystinurie . Le dernier exemple est due au fait que type et A sont considrs comme des mots vides.

5.1.2

Comparaison entre lalignementmanuel et lalignementexact

Sur les 2 083 termes ORPHANET aligns manuellement vers au moins un code CIM10, un nombre de 593 alignements exacts est obtenu entre les termes ORPHANET et les termes MeSH. Dun autre ct nous avons (voir section 5.1.1), un nombre de 619 alignements vers au moins un terme MeSH en passant par lalignementmanuel et en utilisant lUMLS. Selon les rsultats obtenus par chaque type dalignement nous avons : Premier ensemble : 327 alignements sont obtenus par lalignementmanuel en passant par lUMLS et non pas obtenus par lapproche lexicale. Deuxime ensemble : 306 alignements ne sont obtenus que par lapproche lexicale. troisime ensemble : 75 alignements dirents sont obtenus par les deux approches pour les mmes termes ORPHANET. Quatrime ensemble : 211 mmes alignements sont obtenus par les deux mthodes. Le tableau 5.9 donne les rsultats dvaluations des alignements obtenus par chaque approche indpendamment (deux chantillons de 100 alignements) (alignement manuel CIM10 en passant par lUMLS versus alignement lexical). 85 alignements obtenus par lapproche lexicale sont jugs comme pertinents. Par contre, 21 alignements seulement obtenus par lapproche manuelle + UMLS ont t jugs comme pertinents. Daprs les rsultats du tableau 5.9, notre approche donne de meilleurs rsultats sur cet chantillon relativement restreint (100 alignements).

Chapitre 5. Rsultats et valuations : Alignement des terminologies francophones 103

Alignement manuel CIM10 + UMLS Alignement lexical

Pertinent 21 85

BT-NT 2 0

NT-BT 32 15

Frre 0 0

Non pertinent 45 0

Tab. 5.9 Rsultats dvaluation des deux ensembles dalignements obtenus par chaque approche indpendamment Le tableau 5.10 donne les rsultats dvaluation du troisime ensemble qui correspond aux dirents alignements obtenus par les deux approches pour les mmes termes ORPHANET. Pour la premire approche (manuelle), 39 alignements sont valus comme BT-NT contre seulement 6 alignements qui sont valus comme pertinents. Pour la deuxime approche (lexicale), 62 alignements ont t valus comme pertinents et 8 alignements valus comme BT-NT. Approche manuelle Approche lexicale Pertinent 6 62 BT-NT 7 1 NT-BT 39 8 Frre 2 2 Non pertinent 21 2

Tab. 5.10 Rsultats dvaluation du troisime ensemble dalignements (mme terme ORPHANET dirents termes correspondants) L encore lapproche lexicale semble donner de meilleurs rsultats que lapproche manuelle en passant par lUMLS. Lvaluation du dernier ensemble qui correspond aux mmes alignements obtenus par chaque approche donne 98% des alignements obtenus jugs comme pertinents contre seulement 2% comme non pertinents. Le tableau 5.11 montre un exemple pour chaque type dvaluation ralise. Nous avons aussi extrapol la prcision des deux mthodes. Nous avons calcul le nombre dalignements pertinents obtenus dans chaque ensemble pour les deux mthodes. Au nal, lextrapolation pour chaque mthode est le rapport des alignements pertinents obtenus sur le nombre total des alignements. Pour la mthode dalignement manuelle CIM10 en passant par lUMLS lextrapolation de la prcision est de 46%. Cependant, elle est beaucoup plus importante pour la mthode lexicale 81%.

Alignement structurel hirarchique Alignement BT (Broader Than Matching) : sur les 5 753 termes ORPHANET qui nont pas pu tre dnis par lalignementexact, un nombre de 4 672 (62%) est en alignement BT avec au moins un terme de F_UMLS couvrants 857 concepts UMLS. Nous distinguons 7 niveaux hirarchiques dalignement entre termes ORPHANET et termes de F_UMLS. Le tableau 5.12 donne le nombre dalignements

Chapitre 5. Rsultats et valuations : Alignement des terminologies francophones 104

Type dvaluation Pertinent BT-NT NT-BT Frre Non pertinent

Terme ORPHANET Nocardiose Hmophilie Dystrophie musculaire de Duchenne et Becker Cryptophtalmie isole Anomalie de dveloppement sexuel

Terme MeSH correspondant Infection nocardia Hmophilie A myopathie de Duchenne microphtalmie Pseudohermaphrodisme

Tab. 5.11 Exemple de chaque type dvaluation ralis en BT suivant chaque niveau hirarchique. Niveau hirarchique Niveau 1 Niveau 2 Niveau 3 Niveau 4 Niveau 5 Niveau 6 Niveau 7 Nombre dalignements 1 555 (20,9%) 951 (12,8%) 1 103 (15,23%) 859 (11,5%) 161 (2,1%) 39 (0,5%) 4 (0,0005%)

Tab. 5.12 Nombre de termes ORPHANET en alignement BT pour chaque niveau hirarchique Le tableau 5.13 donne le nombre de termes de chaque terminologie en relation dalignement BT avec les 4 672 termes ORPHANET. Le tableau 5.14 donne Type dalignement Nombre de termes 679 603 1 189 163 Nombre de termes prfrs 332 531 1 189 91 Terminologie MeSH SNOMED International MedDRA WHO-ART

Alignement BT

Tab. 5.13 Nombre de termes de chaque terminologie en relation alignement BT les rsultats de lvaluation des alignements BT entre les termes ORPHANET (N=500) et les termes de F_UMLS. Sur les 500 alignements BT valus, 482 alignements ont t jugs comme des alignements BT, cest--dire que le terme ORPHANET correspond eectivement

Chapitre 5. Rsultats et valuations : Alignement des terminologies francophones 105

Nombre dalignement 482 2 16

Qualit de lalignement Pertinent Exact Non pertinent

Tab. 5.14 Qualit de lalignement BT entre les termes ORPHANET et les termes de F_UMLS un ls du terme align. Les rsultats de lvaluation montrent aussi que deux alignements ont t valus comme exacts : lalignementdu terme ORPHANET Dcit intellectuel - hypsarrhytmie avec le terme syndrome de West ou lalignementdu terme Contractures du pied - atrophie musculaire - apraxie oculomotrice avec le terme Wieacker-Wol, syndrome de . Alignement NT (Narrower Than Matching) : sur les 5 753 termes ORPHANET qui ne sont pas en alignement exact, un nombre de 734 (9% du nombre total des termes ORPHANET) sont en alignement NT avec au moins un terme de F_UMLS couvrants 2 359 concepts UMLS. Nous distinguons quatre niveaux hirarchiques dalignement entre termes ORPHANET et termes de F_UMLS. Le tableau 5.15 donne le nombre dalignements en NT suivant chaque niveau hirarchique. Niveau hirarchique Niveau Niveau Niveau Niveau 1 2 3 4 Nombre dalignements 613 (8,2%) 108 (1,45%) 12 (0%) 1 (0%) Nombre de termes ORPHANET non aligns en BT 45 4 0 0

Tab. 5.15 Nombre de termes ORPHANET en alignement NT pour chaque niveau hirarchique Le tableau 5.16 donne le nombre de termes de chaque terminologies en relation dalignement NT avec les 734 termes ORPHANET. Type dalignement Nombre de termes 1 783 1 764 3 122 328 Nombre de termes prfrs 931 1559 3 122 207 Terminologie MeSH SNOMED International MedDRA WHO-ART

Alignement NT

Tab. 5.16 Nombre de termes de chaque terminologie en relation alignement NT

Chapitre 5. Rsultats et valuations : Alignement des terminologies francophones 106 Le tableau 5.17 donne les rsultats de lvaluation des alignements NT entre les termes ORPHANET (N=100) et les termes de F_UMLS. Nombre dalignements 87 1 12 Qualit de lalignement Pertinent Exact Non pertinent

Tab. 5.17 Qualit de lalignement NT entre les termes ORPHANET et les termes de F_UMLS Sur les 100 alignements NT valus, 87 alignements ont t jugs comme des alignements NT, cest--dire que le terme ORPHANET correspond eectivement un parent du terme align. Les rsultats de lvaluation montrent aussi quun seul alignement a t valu comme exact : lalignementdu terme ORPHANET Anomalies congnitales multiples/syndrome dysmorphique avec le terme anomalies congenitales multiples . Cependant, une chose trs importante est que plus les alignements structurels sont eectus avec un niveau important, plus leur pertinence mtier diminue. En poussant le raisonnement jusquau bout on pourrait retrouver pour chaque terme ORPHANET quil mappe avec le terme MeSH Maladie . Cette information na aucune valeur pour les utilisateurs du thsaurus ORPHANET.

Chapitre 5. Rsultats et valuations : Alignement des terminologies francophones 107

5.2

Alignement de la classication ATC avec les terminologies francophones


Rsultats

5.2.1

Alignement lexical fond sur les outils en franais Sur les 4 268 codes ATC de niveau 5, un nombre de 2 992 codes ATC sont en relation dalignement exact avec un moins un terme de F_UMLS couvrant 8 697 concepts. Dautre part, 668 codes ATC sont en relation alignement par combinaison avec au moins deux termes de F_UMLS couvrant 2 626 concepts UMLS. Le tableau 5.18 montre le nombre de codes ATC en relation et le nombre de concepts UMLS couverts suivant chaque type dalignement utilis. Nombre de codes ATC 2 992 (70%) 668 (15%) 350 (8%) Nombre de concepts UMLS couverts 8 546 2 626 675 Alignement exact Alignement par combinaison Alignement partiel Type dalignement

Tab. 5.18 Nombre de codes ATC en correspondance pour chaque type dalignement Les tableaux 5.19, 5.20 et 5.21 montrent le nombre de termes de chaque terminologie qui sont en relation avec les codes ATC pour chaque type dalignement. Type dalignement Nombre de termes 8 454 1 839 81 18 4 Nombre de termes prfrs 2 499 1 728 81 18 4 Terminologie MeSH SNOMED International MedDRA CIM10 WHO-ART

Alignement exact

Tab. 5.19 Nombre de termes de chaque terminologie en relation alignement exact

Chapitre 5. Rsultats et valuations : Alignement des terminologies francophones 108

Type dalignement

Alignement par combinaison

Nombre de termes 2 489 827 218 25

Nombre de termes prfrs 614 746 218 15

Terminologie MeSH SNOMED International MedDRA WHO-ART

Tab. 5.20 Nombre de termes de chaque terminologie en relation alignement par combinaison Type dalignement Nombre de termes 566 306 138 Nombre de termes prfrs 207 256 138 Terminologie MeSH SNOMED International MedDRA

Alignement partiel

Tab. 5.21 Nombre de termes de chaque terminologie en relation alignement partiel Le tableau 5.22 donne les chires des codes ATC en relation alignement exact avec les termes des quatre terminologies sans passer par lUMLS. Nombre de codes ATC 1 566 1 328 51 Nombre de termes 7 112 1 196 52 Nombre de termes prfrs 1 175 1 108 52 Terminologie MeSH SNOMED Int MedDRA

Tab. 5.22 Nombre de codes ATC en correspondance et nombre des termes couverts en alignement exact sans utiliser lalignementconceptuel de lUMLS Le tableau 5.23 montre que lapplication de lalgorithme dalignement sur chaque terminologie indpendamment ne donne pas les mmes chires comparant lapplication de lalgorithme sur F_UMLS. Comme dans le cas de lalignement du thsaurus ORPHANET avec F_UMLS, plusieurs termes qui ne sont pas trouvs par lalignementexact, le sont en passant par les concepts UMLS. Nous avons aussi mesur lapport des synonymes CISMeF ajouts au MeSH et les concepts supplmentaires chimiques traduits en franais par lquipe CISMeF pour lalignementexact du MeSH. Cette apport est mesur en comparant le nombre de codes ATC aligns en appliquant lalgorithme sur les termes MeSH avec et sans synonymes CISMeF et CSC (tableau 5.24). La plus value des synonymes et des CSC est trs importante pour lATC (+85%). Dans la section 5.1.1, que cet apport est beaucoup moins important : ce qui revient dire que beaucoup de traitements sont termino-dpendants .

Chapitre 5. Rsultats et valuations : Alignement des terminologies francophones 109

MeSH Terminologie toute seule F_UMLS 1 175 2 499 (+112%)

SNOMED Int 1 108 1 788 (+60 %)

MedDRA 52 81 (+55%)

WHO-ART 2 4 (+100%)

Tab. 5.23 Comparaison des chires trouvs de lapplication de lalgorithme sur chaque terminologie part versus F_UMLS MeSH Nombre de codes ATC 1 566 MeSH + Synonymes CISMeF + CSC 2 898 (+85%)

Tab. 5.24 Lapport de lajout des synonymes CISMeF et les concepts supplmentaires chimiques traduits sur lalignementexact du MeSH Alignement lexical orient anglais (MetaMap) Sur les 4 268 codes ATC de niveau 5, 3 170 sont en relation alignement exact avec au moins un terme de lUMLS alors que 3 062 sont en relation alignement exact avec au moins un terme de F_UMLS. Le tableau 5.25 et 5.26 montrent le nombre de codes ATC en relation suivant chaque type dalignement utilis avec les termes de UMLS et F_UMLS respectivement. Nombre de codes ATC 3 170 (74%) 664 (16%) 291 (7%) Type dalignement Alignement exact Alignement par combinaison Alignement partiel

Tab. 5.25 Nombre de codes ATC en correspondance pour chaque type dalignement avec les termes de lUMLS en anglais avec MetaMap

Chapitre 5. Rsultats et valuations : Alignement des terminologies francophones 110

Nombre de codes ATC 3 062 (72%) 371 (9%) 567 (13%)

Type dalignement Alignement exact Alignement par Combinaison Alignement Partiel

Tab. 5.26 Nombre de codes ATC en correspondance pour chaque type dalignement avec les termes de F_UMLS en anglais avec MetaMap

5.2.2

Comparaison entre les deux mthodes dalignement exact franais et anglais

Sur les 2 992 alignements exacts entre les codes ATC et les termes de F_UMLS obtenus par la mthode dalignement fonde sur le franais et les 3 062 alignements exacts obtenus par la mthode fonde sur langlais, un nombre de 1 298 alignements en commun sont obtenus par les deux mthodes. Selon les rsultats dalignements obtenus par chaque mthode nous avons : Premier ensemble : 1 298 alignements en commun sont obtenus par les deux mthodes dalignement. Deuxime ensemble : 342 alignements dirents obtenus par les deux mthodes (136 alignements par la mthode fonde sur le franais et 205 par la mthode utilisant MetaMap) Troisime ensemble : 1 558 alignements dirents sont obtenus par les deux approches pour les mmes codes ATC. Nous remarquons aussi que dans le 1 558 alignements il existe 1 458 (93%) alignements avec au moins un terme correspondant en commun (Concept UMLS). Par exemple, pour le libell ATC sodium monouorophosphate (code ATC : A01AA02) MetaMap propose un seul terme correspondant sodium monouorophosphate , alors que la mthode fonde sur le franais propose un autre terme (concept UMLS) que celui propos par MetMAP qui est uorophosphate .

valuation des deux approches Sur les 2 898 alignements exacts (limits aux concepts UMLS contenant au moins un code MeSH) obtenus par la mthode fonde sur le franais nous avons :

Chapitre 5. Rsultats et valuations : Alignement des terminologies francophones 111 1. 2 582 (89%) alignements correspondent des alignements valids (lintersection avec lensemble des alignements valids est non vide), 2. 316 (11%) alignements ont t obtenus seulement automatiquement, 3. 389 alignements valides nont pas t obtenus automatiquement. Sur les 3 052 alignements exacts (limits aux concepts UMLS contenant au moins un code MeSH) obtenus par loutil MetaMap nous avons : 1. 2 695 (88%) alignements correspondent des alignements valids (intersection avec lensemble des alignements valids est non vide), 2. 357 (11%) alignements ont t obtenus seulement automatiquement, 3. 276 alignements valides nont pas t obtenus automatiquement. Lunion des alignements valides obtenus par les deux mthodes donne un nombre de 2 798 (65% de tous les codes ATC de 5e niveau) codes ATC aligns vers MeSH (concepts UMLS) valids. Parmi ces codes nous avons : 2 479 codes qui sont communs aux deux mthodes, 216 codes obtenus uniquement par MetaMap et 103 obtenus uniquement par la mthode en franais. De plus, lunion des codes ATC aligns seulement en automatique est gale 370 codes et lunion des codes ATC aligns seulement en manuel est gale 492. Le nombre dalignements obtenu par loutil MetaMap est un peu plus grand que le nombre obtenu par les outils en franais (3 170 versus 2 992). Cependant, la prcision des alignements pour les deux mthodes est identique et leve (88% versus 89%) sur les termes MeSH. De plus, les codes ATC aligns seulement par les mthodes automatiques correspondent gnralement aux codes ATC aligns manuellement vers au moins deux termes MeSH. Par exemple, le code ATC hydrogne peroxyde (code ATC : A01AB02 ) est align automatiquement vers le terme MeSH : peroxyde dhydrogne . Contrairement lalignement manuel qui lui fait correspondre deux termes MeSH : maladie de la bouche/traitement mdicamenteux et peroxyde dhydrogne . Concernant les codes ATC aligns seulement en manuel (N = 492), la plupart des termes correspondants reprsentent des substance chimiques ou des noms de mdicaments (voir tableau 5.27), ainsi, cest impossible pour ces cas prcis pour les mthodes lexicales (anglais ou franais) de trouver des correspondances.

Chapitre 5. Rsultats et valuations : Alignement des terminologies francophones 112

Libell ATC mifamurtide (L03AX15) saproptrine (A16AX07)

Terme MeSH correspondant muramylNAc-AlaisoGln-Lys-tripeptidephosphatidylethanolamine (CSC) 5,6,7,8-ttrahydrodictyoptrine (CSC)

Tab. 5.27 Exemples de codes ATC aligns seulement en manuel vers MeSH

5.3

Alignement de la classication CCAM avec les terminologies francophones


Rsultats

5.3.1

Alignement lexical fond sur les outils en franais Sur les 7 926 codes de la CCAM, nous avons 5 212 (65%) qui sont en alignement avec au moins un terme en franais de lUMLS. Le tableau 5.28 montre le nombre de codes CCAM en alignement suivant chaque type dalignement. Type dalignement Alignement exact Alignement par combinaison Alignement Partiel Nombre dalignements 200 (2,5%) 2 010 (25%) 3 002 (37,8%)

Tab. 5.28 Nombre dalignements suivant chaque type dalignement

Sur les 5 212 alignements trouvs, un nombre de 2 210 (43%) alignements est eectu sur les deux axes des codes CCAM (topographique et action). Dun autre ct, 1 716 (32%) alignements sont eectus que sur laxe topographique alors que 1 286 (25%) alignements le sont sur laxe action. Sur les 194 descripteurs utiliss pour dcrire laxe topographique, 127 (65%) sont aligns avec F_UMLS. Dun autre ct, sur les 331 descripteurs utiliss pour dcrire laxe des actions, 123 (37%) sont aligns avec F_UMLS.

Chapitre 5. Rsultats et valuations : Alignement des terminologies francophones 113 Alignement lexical fond sur MetaMap Sur les 7 926 codes de la CCAM, nous avons 5 909 (74%) qui sont en alignement avec au moins un terme de UMLS. Sur les 5 909 codes de la CCAM, 2 100 (35%) codes ont t aligns avec MetaMap sur les deux axes topographiques et anatomiques. De plus, 1 314 (23%) dalignements sont eectus que sur laxe topographique et 2 495 (42%) alignements sont eectus que sur laxe action. Sur les 194 descripteurs utiliss pour dcrire laxe topographique, 96 (49%) sont aligns vers UMLS. Dun autre ct, sur les 331 descripteurs utiliss pour dcrire laxe des actions, 205 (62%) sont aligns vers UMLS.

Sur les 2 210 alignements exacts sur les deux axes entre les codes CCAM et les termes de F_UMLS obtenus par la mthode dalignement fonde sur le franais et les 2 100 alignements exacts sur les deux axes obtenus par loutil MetaMap, un nombre de 620 alignements en commun (seulement) est obtenu par les deux mthodes. Pour tous les alignements exacts sur les deux axes, les alignements sont parcellaires, mme si projeter sur les deux axes dautres termes de la CCAM ne sont pas aligns. Les deux mthodes dirent aussi dans le nombre daxes aligns vers UMLS. La mthode fonde sur les outils lexicaux en franais, aligne beaucoup plus de descripteurs de laxe topographique vers UMLS que la mthode fonde sur loutils MetaMap (65% versus 49%). Le nombre trs faible de descripteurs de laxe topographique aligns par loutil MetaMap, sexplique par le fait que la plupart de ces descripteurs ont plus de deux mots. Par exemple, en utilisant MetaMap le terme : Lips, tongue, oral cavity as a whole (il, sans prcision) nest align vers aucun terme dans UMLS, contrairement la mthode lexicale en franais qui lui fait correspond les deux termes en franais : kyste et lvre . linverse, la mthode utilisant loutil MetaMap qui aligne beaucoup plus de descripteurs de laxe action vers UMLS que la mthode fonde sur les outils en franais (62% versus 37%).

5.3.2

valuation de lalignement lexical fond sur les outils en franais

Pour tous les alignement exacts (n=200), 182 (91%) des alignements entre les codes CCAM et les concepts de F_UMLS ont t valus comme NT-BT et seulement 9 alignements ont t valus comme quivalent (voir table 5.29).

Chapitre 5. Rsultats et valuations : Alignement des terminologies francophones 114

quivalent 9 (4,5%)

BT-NT 0 (0%)

NT-BT 182 (91%)

Incomplet 3 (1,5%)

Non-pertinent 6 (3%)

Total 200

Tab. 5.29 Rsultats dvaluations pour l alignement exact Pour lensemble des alignements par combinaison (n=100), 61 et 44 des axes anatomiques et actions sont respectivement quivalents au moins un concept UMLS. Pour ce type dalignement, 27% des alignements entre les codes CCAM et au moins un concept UMLS ont t valus comme exactement quivalents, contre seulement 54 alignements qui ont t valus comme NT-BT (voir tableau 5.30). Les deux valuations Alignement par com- quivalent binaison 61 Anatomique 44 Action Code 27 CCAM

BT-NT 1 0 0

NT-BT 29 49 54

Incomplet 9 1 10

Non-pertinent 0 6 9

Tab. 5.30 Rsultats dvaluations pour l alignement par combinaison (n=100) eectues sur les deux alignement donnent une premire indication sur la qualit des alignements. En eet, que ce soit pour lalignement exact ou lalignement par combinaison, la plupart des alignements ont t valus comme NT-BT (narrower than). Ces rsultats ne sont pas tonnants vu le niveau de gnralit des descripteurs reprsentant les codes CCAM. Ainsi, le passage du libell CCAM vers la nouvelle reprsentation sur les deux axes topographique et action implique forcment une perte de prcision par rapport lacte original. De plus, dans certains cas, avec la nouvelle reprsentation nous perdons plusieurs notions prsentes dans le libell original de lacte. Par exemple, lacte Lithotritie extracorporelle de la vessie correspondant au code CCAM : JDNM001. Une dcomposition suivant le code produit deux termes : Vessie et lithotritie . Ainsi, nous perdons la notion d extracorporelle prsente dans le libell original.

5.4

Synthse

Dans cette partie nous avons prsent les dirents rsultats obtenus par nos mthodes sur les trois alignement raliss. Les rsultats obtenus dans les mthodes utilises dpendent des terminologies sources ( aligner). Cependant, la qualit des alignements peut direr dun objectif un autre et suivant les terminologies utilises et suivant le

Chapitre 5. Rsultats et valuations : Alignement des terminologies francophones 115 contexte. Ces rsultats seront discuts en dtail dans le chapitre 8.

Chapitre 6 Projection des relations SNOMED CT entre plusieurs terminologies (Inter et Intra)

ans ce chapitre nous proposons une mthode dinteroprabilit entre terminologies fonde sur UMLS an de projeter de faon automatique les relations de la terminologie SNOMED CT sur trois terminologies francophones. Cette mthode va permettre de lier direntes terminologies (CIM10, SNMI et MeSH) avec des relations issues dune autre terminologie (SNOMED CT). Lide de ce travail Merabti et al. (2009a) est de projeter des relations dune terminologie smantiquement riche vers une terminologie plus pauvre smantiquement. Les concepts lintrieur de la SNOMED CT Spackman (2000) sont de deux types : primitif ou compltement dni . Les concepts Compltement dnis reprsentent tous les concepts qui peuvent tre direncis de leurs concepts parents et frres en vertu des relations avec dautres concepts. Autrement, tous les concepts sont primitifs . Il existe 261 264 (84%) concepts primitifs dans la SNOMED CT et 50 049 (16%) concepts compltements dnis. De plus, ces concepts sont organiss en direntes classes. Le tableau 6.1 donne le nombre et le pourcentage des concepts dans les 14 classes les plus reprsentes dans la SNOMED. SNOMED CT fournit des dnitions formelles ces concepts en utilisant les relations is-a et des relations attribues. Ces relations visent principalement trois objectifs : expliciter la smantique, automatiser la classication et permettre la postcordination. Premirement, les relations retent formellement la smantique du concept. En eet, SNOMED CT ne donne pas une dnition textuelle des concepts, mais elle

Chapitre 6. Projection des relations SNOMED CT entre plusieurs terminologies 117

Classe Maladie Procdure Localisation Organisme Rgion du corps Substance Produits Valeur qualie vnement Entit observable Situation Anomalie morphologique Objet Physique Occupation

Nombre des terme prfrs 74 993 50 253 32 630 27 643 25 478 22 767 18 530 8 583 8 415 7 749 4 863 4 746 4 489 4 084

% des termes prfrs dans la SNOMED CT 24,0 16,1 10,5 8,9 8,2 7,3 6,0 2,8 2,7 2,5 1,6 1,5 1,4 1,3

Tab. 6.1 Le nombre et le pourcentage des concepts par classe dans la SNOMED CT vise plutt spcier de manire formelle les proprits du concept. Par exemple, dans la SNOMED CT, Pneumonie est dnie comme une maladie du poumon . SNOMED CT est ce jour, la terminologie de sant la plus dtaille pour dcrire un dossier mdical lectronique. Un total de 61 relations est dni dans la SNOMED CT. Ces relations peuvent tre classes en quatre type de relations : Les caractristiques dnies : lensemble relation ISA + attributs dnis est considr comme les caractristiques dnies . Les attributs dnis relient deux concepts et tablissent le type de relation entre eux. Elles sont considres comme des caractristiques dnies car elles reprsentent, dune faon formelle, la dnition dun concept en le liant avec dautres concepts. La dnition logique dun concept dans la SNOMED CT inclut un ou plusieurs concepts hirarchiques (modliss avec la relation ISA ) et un ensemble dattributs dnis pour expliciter la smantique du concept et aider le direncier des autres dnitions possdant les mmes concepts hirarchiques. Par exemple, le concept Pneumonie est dni par : ISA Maladie des Poumons ; Finding_Site_of (Localisation) Poumons ; Associated Morphology (Morphologiquement associ ) Inammation ; Les caractristiques qualies : elles sont utilises pour crer des concepts plus complexes (post-cordination) comme, par exemple, les relations severity (gravit) et laterality (latralit). Par exemple, le concept bronchite aigu peut

Chapitre 6. Projection des relations SNOMED CT entre plusieurs terminologies 118 tre post-cordonn en utilisant le concept bronchite et lattribut quali Clinical_Course avec la valeur aigu . Les relations historiques: elles relient des concepts inactifs des concepts actifs. Les relations supplmentaires ( Additional en anglais) : elles ne sont pas dnies mais retenues pour tre compatibles avec SNOMED RT (Reference Terminology)1 Spackman et al. (1993). Les quatre types de relations dnies prcdemment sont reprsents dans les 61 relations. Un terme prfr est un terme choisi pour reprsenter un concept au sein dune terminologie ; par exemple, dans SNOMED International le terme achondroplasie est le terme prfr pour reprsenter la classe des termes achondroplasie de Parrot et Marie , achondrodystrophie foetale , maladie de Parrot , nanisme achondroplasique . Les autres termes sont des synonymes du terme prfr.

Schma dinteroprabilit pour la projection des relations SNOMED CT : Exemple de projection entre CIM10 et SNMI La premire tape de notre tude consiste extraire tous les concepts UMLS lis au moins par une relation SNOMED CT. Par exemple, les deux concepts UMLS C0004099 et C0004096 sont rattachs respectivement aux deux termes prfrentiels SNOMED CT asthme leort et asthme lesquels sont lis suivant la relation SNOMED CT ISA . Le tableau 6.2 reprsente les 10 relations SNOMED CT les plus reprsentes dans lUMLS. La deuxime tape consiste projeter les relations SNOMED CT vers les termes prfrs de CIM10 et de SNOMED International, cela consiste projeter les couples de concepts UMLS trouvs dans ltape prcdente vers les deux terminologies CIM10 et SNOMED International en ltrant uniquement sur les termes prfrentiels. Au nal, les couples de concepts UMLS sont remplacs par des couples de codes des deux terminologies lies par des relations SNOMED CT (Figure 6.1).

Formellement, le schma dinteroprabilit limit aux terminologies SNOMED 3.5 et CIM10 est dni ainsi : Supposons que nous ayons quatre termes SNOMED CT A, B, C et D. Ces termes sont
Ce projet est issu dune collaboration entre le College of American Pathologists, la socit Kaiser Permanente (Health Management Organization) et la Mayo Clinic
1

Chapitre 6. Projection des relations SNOMED CT entre plusieurs terminologies 119

Top 10 des relations SNOMED CT ISA Finding_Site_of (Localisation) Associated morphology (Morphologiquement associ ) Method_of (Mthode de) Part_of (Partie de) Compenent_of (Composant de) Direct_procedure_site_of (Procdure directe sur site de) Causative_agent_of (Agent causal de) Indirect_procedure_site_of (Procdure indirecte sur site de) Finding_method_of (Localisation de mthode de)

Nombre de couples en relations 496 784 86 358 80 036 54 107 47 810 9 135 34 002 23 628 8 925 8 419

Tab. 6.2 Les 10 relations SNOMED CT les plus reprsentes dans lUMLS SNOMED CT A R1 B R3 UMLS C R2 D

R1

B CIM10

R3

R2

SNOMED Int

Fig. 6.1 Schma dinteroprabilit liant termes CIM10 et SNOMED International par des relations SNOMED CT reli s par les relations R1, R2 et R3 tel que: A R1 B C R2 D B R3 C

Sil existe deux termes CIM10 A et B tels que A et B correspondent respecti-

Chapitre 6. Projection des relations SNOMED CT entre plusieurs terminologies 120 vement aux termes A et B de SNOMED CT, Sil existe deux termes SNOMED International C et D tels que C et D correspondent respectivement aux termes C et D de SNOMED CT, Le fait quune relation SNOMED CT R1 existe entre A et B implique que cette relation soit projete dune manire automatique entre les termes A et B de la CIM10. De la mme manire, lexistence dune relation SNOMED CT R2 entre les termes C et D implique automatiquement une projection de cette relation entre les termes C et D de SNOMED International. Lextensibilit de schma permet une interoprabilit intra-terminologies entre termes dune mme terminologie et une projection entre termes de direntes terminologies, on parle alors de relation inter-terminologies. Donc, sil existe une autre relation SNOMED CT R3 entre B et C, la relation R3 sera projete pour relier les deux termes B et C qui sont respectivement deux termes CIM10 et SNOMED International. Nous avons aussi projet les relations SNOMED CT entre les termes de la terminologie MeSH Merabti et al. (2009b). Lutilisation de la terminologie MeSH permettra de faire en plus de ltude quantitative, une tude qualitative. Dans cette dernire, nous mesurons la qualit des relations SNOMED CT projetes entre les termes MeSH dun point de vue documentaliste. Cest--dire avec une nalit dindexation. Pour projeter les relations SNOMED CT entre les termes MeSH, nous avons repris le mme schma dinteroprabilit de la gure 6.1, appliqu une seule terminologie comme montr dans la gure 6.2. Ltude qualitative a t applique sur les quatre relations SNOMED CT les plus frquentes entre les termes MeSH : ISA, Finding_Site_of (Localisation), Causative_agent_of (Agent Causal de) et Associated morphology (Morphologiquement associ ) (voir la section 7.2 des rsultats). Pour lvaluation, nous avons prpar tous les couples de termes prfrs en relations suivant les quatre relations. Pour les quatre ensembles obtenus, nous avons choisi alatoirement 100 couples de termes. Chaque ensemble a t valu par un expert documentaliste de lquipe CISMeF spcialis dans la terminologie MeSH (Catherine Letord). Lvaluation a t ralise sur trois chelles de qualit : Pertinent : si la relation entre les deux termes MeSH est juge pertinente. Du point de vue MeSH et du point de vue documentaliste. Moyen : si la relation entre les deux termes nest pas mauvaise mais elle nest pas parfaite. Mauvais : si la relation entre les deux termes est mauvaise.

Chapitre 6. Projection des relations SNOMED CT entre plusieurs terminologies 121

SNOMED CT A Relation SNOMED CT UMLS B

Relation SNOMED CT MeSH

Fig. 6.2 Schma dinteroprabilit liant des termes MeSH par des relations SNOMED CT Cependant, nous avons ralis un traitement spcique pour les couples de termes en relation ISA dans le but dliminer les relations hirarchiques explicites qui existe dans la terminologie MeSH. Par exemple, une relation SNOMED CT ISA a t trouve entre les deux termes maladie des bronches et asthme leort . Cependant, dans la terminologie MeSH il nexiste pas de relation hirarchique directe entre les deux termes. Par contre, il existe une relation hirarchique explicite entre les deux termes, le terme maladie des bronches est parent du terme asthme qui est lui aussi parent du terme asthme leort . Ceprendant, ce type dvaluation doit tre refait par un ou plusieurs experts professionnels de sant si lobjectif est le domaine des dossiers mdicaux lectronique.

Synthse
Dans cette partie nous avons prsent une mthode dinteroprabilit entre terminologies fonde sur UMLS an de projeter les relations de la terminologie SNOMED CT entre trois terminologies francophones. Nous avons vu que cette mthode a permis de lier direntes terminologies (CIM10, SNMI et MeSH) avec des relations issues dune autre terminologie (SNOMED CT). Dans le chapitre suivant nous prsentons les dirents rsultats obtenus ainsi quune valuation qualitative sur la terminologies MeSH.

Chapitre 7 Rsultats et valuations : projection des relations SNOMED CT vers dautre terminologies

D
7.1

ans ce chapitre nous prsentons les dirents rsultats obtenus concernant la projection des relations SNOMED CT vers les trois terminologies CIM10, SNMI et MeSH. Nous termions ce chapitre par une valuation des relations SNOMED CT projetes sur la terminologie MeSH.

Projection des relations SNOMED CT entre les terminologies CIM10 et SNOMED 3.5

Un total de 1 051 085 termes de SNOMED CT est inclus dans lUMLS, avec un nombre de 308 893 termes prfrentiels. 2 437 839 couples de termes prfrentiels sont en relation avec au moins une relation SNOMED CT, par consquent chaque terme prfrentiel SNOMED CT est li , au moins, un autre terme prfrentiel SNOMED CT. De plus, 2 867 568 couples de termes non prfrentiels sont en relation via, au moins, une relation SNOMED CT. Le tableau 7.1 montre le nombre de termes prfrentiels SNOMED International et CIM10 qui partagent, au moins, un concept UMLS avec un terme prfrentiel SNOMED CT. Pour ces deux terminologies (CIM10 et SNOMED International), 91% de SNOMED International et 85% de CIM10 ont un quivalent dans SNOMED CT.

Chapitre 7. Rsultats et valuations : projection des relations SNOMED CT

123

Terminologies SNOMED International CIM10

Nombre de termes prfrentiels 107 900 9 308

Nombre de termes prfrentiels dans SNOMED CT 97 080 (91%) 7933 (85%)

Tab. 7.1 Le nombre des termes prfrentiels de SNOMED International et de CIM10 dans la SNOMED CT Au sein de SNOMED CT, les 136 relations sont orientes, donnant lieu 68 couples de relations : par exemple la relation ISA est reprsente par deux relations symtriques dans SNOMED CT, ISA et inverse ISA . Nous ne considrons, dans cette tude, que les 68 relations directes en reprsentant seulement les relations caractristiques dnies (N=50). En plus de ces relations, nous reprsentons aussi la relation supplmentaire Part_Of (Partie de), trs utile en anatomie.

Projection des relations SNOMED CT vers SNOMED International Un total de 183 726 couples de termes prfrentiels SNOMED International est en relation par, au moins, une relation SNOMED CT. Le nombre de couples de termes SNOMED International en relation est distribu dune faon non-uniforme suivant le type de relation ; ainsi, nous avons 93 221 couples de termes prfrentiels SNOMED International qui sont en relation, via la relation SNOMED CT ISA et seulement 1401 couples de termes prfrentiels SNOMED International qui sont en relation, suivant la relation SNOMED CT Part_Of . Le tableau 7.2 montre les 10 premires relations SNOMED CT (en nombre) projetes vers les couples de termes SNOMED International. Nous avons 74% des termes prfrentiels de SNOMED International qui sont reprsents dans les 183 726 couples de termes lis par, au moins, une relation SNOMED CT.

Projection des relations SNOMED CT vers CIM10 Comme prsent dans la section prcdente pour SNOMED International, un total de 5 890 couples de termes prfrentiels CIM10 est en relation avec, au moins, une relation SNOMED CT. De mme pour CIM10, le nombre de couples de termes CIM10 en relation est distribu dune faon non-uniforme suivant le type de relation. Ainsi, nous avons 5 019 couples de termes prfrentiels CIM10 qui sont en relation, via la relation SNOMED CT ISA ; par contre, nous navons aucun terme en relation, via les deux relations Method_of et Part_of .

Chapitre 7. Rsultats et valuations : projection des relations SNOMED CT

124

Relation SNOMED CT

ISA Finding_Site_of (Localisation) Associated_Morphology_of (Morphologiquement associ ) Direct_Procedure_Site_of (Procdure directe sur site de) Method_of (Mthode de) Causative_agent_of (Agent causal) Indirect_procedure_site_of (Procdure indirecte sur site de) Component_of (Composant de) Direct_morphology_of (Morphologie directe de) Active_ingredient_of (Ingrdient actif de) Interprets (Interprter) Procedure_site_of (Procdure sur site de ) Part_of (Partie de)

Nombre de couples de termes prfrentiels de SNOMED International 93 221 24 661 18 760 11 077 7 362 6 062 2 883 2 678 2 421 2 097 2 090 1 508 1 401

Tab. 7.2 Les 10 premires relations SNOMED CT projetes entre les termes de SNOMED International et le nombre de couples de termes prfrentiels SNOMED international Le tableau 7.3 montre les principales relations SNOMED CT projetes vers les couples de termes CIM10 ; 48% des termes prfrentiels de CIM10 sont reprsents dans les 5890 couples de termes prfrentiels, lis par, au moins, une relation SNOMED CT. Relation SNOMED CT Nombre de couples de terme prfrentiels de CIM10 5019 834 109 74 49

ISA Associated_Morphology_of (Morphologiquement associ ) Denitional manifestation (Manifestation dnie) Associated with (Associ ) Due to (Caus par)

Tab. 7.3 Les principales relations SNOMED CT projetes entre les termes CIM10

Projection des relations SNOMED CT vers des couples de termes CIM10 et SNOMED International Lextensibilit de notre schma permet de projeter les relations SNOMED CT entre deux couples de terminologies direntes, ainsi en appliquant ce schma sur nos deux

Chapitre 7. Rsultats et valuations : projection des relations SNOMED CT

125

terminologies de rfrence CIM10 et SNOMED International, 33 097 couples de termes CIM10 et SNOMED International sont en relation via au moins une relation SNOMED CT. Le tableau 7.4 expose les principales relations SNOMED CT projetes entre au moins un terme CIM10 et un terme SNOMED International, 6 242 des termes prfrentiels de CIM10 (67%) et 14 276 des termes prfrentiels de SNOMED International (13%) sont lis via au moins une relation SNOMED CT. Relation SNOMED CT Nombre de couples CIM10 et SNOMED International en relation 17 780 6 518 5 243 1 258 218 204

ISA Associated_Morphology_of (Morphologiquement associ ) Finding_Site_of (Localisation) Causative agent_of (Agent causal) Associated with (Associ ) Direct_morphology_of (Morphologie directe de)

Tab. 7.4 Les principales relations SNOMED CT projetes entre termes SNOMED International et CIM10 Lexemple de la gure 7.1 dmontre bien la cration dune relation SNOMED CT inter-terminologique entre un terme CIM10 et deux termes SNOMED International. La gure montre lexemple du terme CIM10 achondroplasie li dune part avec le terme SNOMED International dysplasie congnitale suivant la relation SNOMED CT associated morphology (Morphologiquement associ ) et, dautre part, avec le terme SNOMED International Os via la relation SNOMED CT Finding Site of (Localisation). Les rsultats de cette tude devraient permettre, entre autre, Dysplasie congnitale (SNMI) Morphologiquement associ Achondroplasie (CIM10) Localisation Os, NOS (SNMI) Fig. 7.1 Exemple dapplication dune projection de relations SNOMED CT entre deux termes SNOMED International et un terme CIM10 doptimiser lindexation mutli-terminologique (semi-) automatique en utilisant la projection des relations SNOMED CT vers plusieurs autres terminologies. Ces relations

Chapitre 7. Rsultats et valuations : projection des relations SNOMED CT

126

seront utilises comme un poids supplmentaire dans le processus dindexation. Ces rsultats vont aussi tre exploits dans le cadre de la recherche dinformations multiterminologique an dtendre ou bien restreindre une requte.

7.2

Projection des relations SNOMED CT entre les termes de la terminologie MeSH

Un total de 12 030 couples de termes prfrs MeSH est en relation suivant au moins une relation SNOMED CT. Le tableau 7.5 montre les cinq premires relations SNOMED CT (en nombre) projetes vers les couples de termes MeSH. Notons aussi que seulement les relations : ISA , Finding_Site_of (Localisation), Causative_agent_of (Agent causal de) et Associated morphology (Morphologiquement associ ) sont projetes sur plus de 300 couples de termes MeSH chacune. Lanalyse Nombre de couples MeSH en relations 6 871 2 512 1 080 328 53

Top 5 des relations SNOMED CT ISA Finding_Site_of (Localisation) Associated_Morphology_of (Morphologiquement associ ) Causative agent_of (Agent causal) Associated with (Associ )

Tab. 7.5 Les principales relations SNOMED CT projetes entre termes MeSH qualitative a t ralise sur les quatre principales relations projetes vers les termes MeSH. Le tableau 7.6 montre le rsultat de cette analyse par une documentaliste CISMeF (Catherine Letord) sur une chelle de Likert avec les trois possibilits dcrites dans le chapitre 6. Pour la relation SNOMED CT Associated morphology (Morphologiquement associ ), plus de 90% des relations projetes vers les termes MeSH ont t juges pertinentes. Cependant, pour la relation Causative_agent_of (Agent causal de) ; seulement 64% des relations projetes ont t juges pertinentes. Le tableau 7.7 donne des exemple dvaluations pour chaque critre de la projection de la relation Finding_Site_of (Localisation) vers les termes MeSH. Pour les quatre relations values dans cette tude (ISA, Finding_Site_of (Localisation), Associated morphology (Morphologiquement associ ) et Causative_agent_of (Agent causal de) les rsultats sont trs encourageants. Certaines de ces relations sont implmentes

Chapitre 7. Rsultats et valuations : projection des relations SNOMED CT

127

Relations SNOMED CT ISA Finding_Site_of (Localisation) Associated_Morphology_of (Morphologiquement associ ) Causative agent_of (Agent causal) Moyenne

Pertinent (%) 75 88 90 64 79,25

Moyen (%) 17 10 2 36 16,25

Mauvais (%) 8 2 8 0 4,5

Tab. 7.6 Qualit de la projection des quatre principales relations SNOMED CT vers les termes MeSH Termes MeSH Abcs abdominal Abcs du psoas Abrinogenemia Termes MeSH Cavit abdominale Cavit abdominale Systme immunitaire valuation Pertinent Moyen Mauvais

Tab. 7.7 Exemples dvaluations pour les trois critres de la projection de la relation Finding_Site_of (Localisation) dans le nouveau Portail Terminologique de Sant (PTS) de CISMeF (voir gure 7.2). Elles vont tre aussi utilises pour optimiser la recherche dinformations dans le moteur de recherche. Cette optimisation va permettre de limiter ou dtendre une requte. Par exemple, la requte abdomen aigu sera tendue ou limite suivant la relation Localisation avec le terme Localisation . Lutilisateur pourra ainsi choisir dtendre sa recherche avec abdomen aigu ou abdomen ou bien la limiter avec abdomen aigu et abdomen .

7.3

Synthse

Dans cette partie nous avons prsent les dirents rsultats obtenus par la projection des relations SNOMED CT sur trois terminologies francophones. Lvaluation qualitative des relations SNOMED CT projetes sur la terminologies MeSH est trs encourageante dun point de vue documentaliste. Actuellement, toutes les projections pertinentes ont t intgres dans le Portail Terminologique de Sant. Dans le chapitre 8, nous discutons en dtail les rsultats de cette mthode.

Chapitre 7. Rsultats et valuations : projection des relations SNOMED CT

128

Fig. 7.2 Exemple de deux relations SNOMED CT projetes entre termes MeSH implmentes dans PTS

Chapitre 8 Discussion
Les mthodes dalignements et de projections prsentes dans cette thse comportent un certain nombre davantages et dinconvnients et ores diverses perspectives pour les futurs travaux.

8.1

Alignements entre terminologies

Les mthodes dalignements dveloppes dans cette thse ont t values sur diffrentes terminologies de sant : le thsaurus ORPHANET : le thsaurus des maladies rares dvelopp et utilis dans le portail ORPHANET, et depuis peu dans le PTS; la classication ATC : une classication spcialise et utilise pour classer et hirarchiser les mdicaments; la classication CCAM : une classication utilise dans le codage des actes mdicaux qui sert de base la tarication en secteur libral en France. Dans tous les travaux dalignements que nous avons prsents, nous avons dcrit des mthodologies appliques diremment pour aligner les terminologies sources vers UMLS (F_UMLS). Ainsi, pour ORPHANET, en plus de lalgorithme dalignement lexical, nous avons combin les rsultats obtenus avec une mthode dalignement structurel utilisant les relations hirarchiques du thsaurus ORPHANET. Dans le cas de la classication ATC, nous avons utilis conjointement notre mthode dalignement fonde sur le franais avec loutil MetaMap de la NLM fond sur langlais. Pour le dernier cas de la CCAM, lutilisation de nos mthodes dalignements directement sur les libells de la CCAM tait impossible cause de leurs tailles en terme de nombre de mots. Ainsi,

Chapitre 8. Discussion

130

nous avons dvelopp une mthode permettant dextraire partir de la structure du code de la CCAM un nouveau libell reprsentatif moins verbeux. Comme pour la classication ATC, nous avons aussi dans le cas de la CCAM utilis conjointement nos mthodes avec loutil MetaMap sur les nouveaux libells reprsentatifs obtenus.

Nous avons montr que les rsultats taient dirents suivant chaque terminologie source utilise et suivant chaque mthode applique (franais ou anglais). Pour ORPHANET, la comparaison de notre mthode lexicale avec un alignement manuel existant a montr que notre mthode donnait plus de rsultats pertinents pour le passage vers F_UMLS. Cependant, cette comparaison reste relative la terminologie intermdiaire utilise dans lalignement manuel. En eet, mme si la classication CIM10 est prsente dans UMLS avec un nombre de codes gal 13 505, les termes prsents dans les mmes codes CIM10 pour la plupart ne sont pas des synonymes. Par exemple, les termes abdomen sensible , colique , colique infantile et douleurs abdominales, autres et non prcises partagent le mme code CIM10 R10.4 . Ainsi, un alignement manuel vers un de ces termes implique un alignement vers le code R10.4 . Dans lUMLS le code R10.4 nest prsent que dans un seul concept UMLS (terme douleurs abdominales, autres et non prcises ). Lexemple dun alignement manuel impliquant le code colique donnera forcment le mauvais concept UMLS. Lapplication des mthodes lexicales sur ORPHANET nous a permis daligner 22% des termes ORPHANET vers F_UMLS en relation dalignement exact. Nous avons montr aussi que lutilisation des mthodes lexicales conjointement avec un alignement conceptuel comme celui issu de lUMLS avait augment le nombre des alignements. Concernant le mathcing structurel, les rsultats obtenus montrent que ce type dalignement perd sont intrt ds que le mathcing est eectu dans un niveau hirarchique trop grand par rapport au terme align. De plus, il est trs important de direncier ce type dalignement par rapport lalignement exact an dviter le bruit dans la recherche dinformations ou dans lindexation automatique. Pour lalignement de la classication ATC vers F_UMLS, les rsultats obtenus sont trs encourageants par rapport lalignement manuel existant entre ATC et la terminologie MeSH. La comparaison entre la mthode lexicale fonde sur le franais et la mthode fonde sur langlais a montr que la dirence nest pas trs grande entre ces deux mthodes. En terme de couverture la mthode fonde sur langlais donne 3 062 alignements alors que en franais nous avons 2 992 alignements, en les comparant par rapport lalignement manuel vers le MeSH comme gold standard, les deux mthodes sont trs proches en terme de prcision (89% (franais) versus 88% (anglais)). Cependant, il est noter que dans un contexte de pharmacien lapport manuel est trs important pour navoir que des alignements valides, en eet, les rsultats obtenus ont montr que certains alignements ne peuvent pas tre obtenus automatiquement

Chapitre 8. Discussion

131

(lexicalement) non seulement parce que les libells ATC nexistent pas dans F_UMLS, mais surtout parce que la plupart de ces libells correspondent des noms de familles de mdicaments utiliser dans un contexte particulier qui nest pas prsent dans les libells mais dans sa hirarchie ascendante que les mthodes automatiques ne peuvent pas traiter. La dernire classication que nous avons essay daligner est la CCAM. La mthodologie suivie pour aligner cette terminologie est dirente par rapport aux autres terminologies dnies prcdemment. En eet, lutilisation des mthodes lexicales appliques directement sur les libells CCAM pour trouver les concepts UMLS est quasiment impossible. Pour la simple raison, que la longueur des libells de la CCAM ne permet pas de trouver des concepts UMLS exactement similaires. Pour cette raison, nous avons propos une mthode fonde sur la structure des codes CCAM. Cette mthode donne des nouveaux libells reprsentatifs moins verbeux. Nous avons aussi utilis dans le cadre de la CCAM deux mthodes lexicales en franais et en anglais. Lvaluation des rsultats sur la mthode en franais a montr que la plupart des alignements correspondent des alignements NT-BT, cest--dire que les concepts UMLS sont dun niveau hirarchique plus gnral que les libells CCAM originels. Ces rsultats ne sont pas tonnants, vu le niveau de gnralit des nouveaux libells reprsentatifs obtenus partir de la structure des codes.

En rsum, les rsultats obtenus dans les mthodes utilises dpendent des terminologies sources ( aligner). Cependant, la qualit des alignements peut direr dun objectif un autre et suivant les terminologies utilises et suivant le contexte, notamment celui trs variable de lutilisateur. Un alignement peut tre considr comme correct dans le cadre de la recherche dinformations et faux dans un contexte dune indexation automatique ; correct dans un point de vue MeSH et faux dans le cas de la SNOMED. Dun autre ct, lapplication des direntes mthodes lexicales a aussi montr dirents problmes que ces mthodes sont incapables de traiter : La gestion des acronymes entre les direntes terminologies. Par exemple, lacronyme CMT qui correspond dans ORPHANET au terme : Maladie de Charcot-Marie-Tooth alors que le mme acronyme correspond dans la terminologie MeSH au terme : Tumeurs de la thyrode . Dun autre ct, les deux termes ORPHANET et MeSH Canal atrioventiculaire partageant le mme acronyme : Cavc . Nanmoins, dans le backoce CISMeF, ces acronymes sont identis comme ambigus et grs comme tel en recherche dinformation mais pas en terme dalignement ( moins de proposer tous les termes ambigus). Un des problmes li lutilisation des mthodes lexicales concerne les termes avec des sens dirents suivant chaque terminologie. Par exemple, Gauche et maladie de gaucher . Ce problme a t dtaill Weeber et al. (2001) o les

Chapitre 8. Discussion

132

auteurs proposent une solution manuelle permettant de rduire les ambiguts des termes avec plusieurs sens. Une autre solution applicable seulement aux termes appartenant lUMLS consiste ltrer les correspondances entre les termes qui partagent au moins un type smantique. Cependant, cette solution, ne peut pas tre appliqu dans le cadre de nos travaux car les terminologies aligner ne sont pas dans lUMLS (ORPHANET, ATC et CCAM). Comme le soulignent les auteurs dans Bodenreider et Zhang (2006), un des problmes rside aussi dans la gestion des synonymes travers les direntes terminologies, en eet, le fait que deux termes soient synonymes dans une terminologie nimplique pas que ces mmes termes sont synonymes dans une autre terminologie. Nos mthodes nont pas chapp ce problme. Dans dirents alignements trouvs, les experts ont not direntes incohrences dues principalement la dirence de ces terminologies en terme de reprsentation des connaissances. Par exemple, le terme ORPHANET Syndrome de Marfan est align vers le terme SNOMED Arachnodactylie , cela sexplique par le fait que le terme MeSH Syndrome de Marfan a comme synonyme Dolichostenomelie ce dernier est un synonyme du terme SNOMED Arachnodactylie . Du ct de lquipe ORPHANET cet alignement est jug comme faux, car Arachnodactylie correspond un signe clinique de la maladie dans ORPHANET. Toutefois, corriger ce type de problmes est politiquement dicile. Changer la faon de reprsenter un terme dans une terminologie peut durer des annes comme cela peut ne jamais se faire. Au nal, il est noter que notre algorithme lexical reste dpendent aussi de lalgorithme de dsuxation utilis, pour ce point, nous continuons mener un travail important lintrieur de lquipe CISMeF travers les dirents projets (actuels et futurs) pour amliorer tous ces outils. Dun autre ct, nous avons rencontr des problmes lis lvaluation de nos alignements. En eet, il est ncessaire, de notre point de vue, de disposer dalignements manuels de rfrence pour chaque type dalignement pour permettre une bonne valuation de nos mthodes. Lvaluation des rsultats dalignements permet destimer la qualit des alignements obtenus mais ne donne aucune indication sur le rappel. Cest--dire que nous navons aucun moyen de dterminer les alignements manquants. Dans Sun et Sun (2006), les auteurs soulignent le compromis entre la vitesse de lautomatisation des mthodes dalignement et la prcision manuelle. Bien que les valuations manuelles soient plus coteuses en temps, elles restent indispensables pour valider les rsultats des mthodes automatiques.

Chapitre 8. Discussion

133

8.2

Projection des relations SNOMED CT

Dans la deuxime partie de la thse, nous avons propos une mthode fonde sur lUMLS permettant de projeter les relations SNOMED CT surtrois terminologies mdicales : SNOMED International, CIM10 et MeSH. Dans un premier temps, nous avons projet les relations SNOMED CT entre les termes de chaque terminologie en Inter . Nous avons montr lintrt de cette mthode pour lier des termes de direntes terminologies. Dans un autre travail, nous avons appliqu la mme mthode pour projeter les relations SNOMED CT entre les termes MeSH. Les rsultats obtenus nous ont permis dvaluer la qualit des projections dun point de vue documentaliste. Les valuations ont montr quen moyenne plus de 79% des relations obtenues entre les termes MeSH ont t jugs comme pertinentes. Les rsultats de ces tudes devraient permettre : Loptimisation de lindexation multi-terminologique (semi-) automatique. Les relations projetes seront utilises comme un poids supplmentaire dans le processus dindexation. Ces relations seront utilises dans le cadre de la recherche dinformations multiterminologique an dtendre ou restreindre les requtes. Par exemple, si un utilisateur formule, dans CISMeF, la requte suivante Achondroplasie , une proposition dextension ou de limitation de sa requte lui sera faite : Localisation (Finding_Site_Of) Os . Lutilisateur pourra ainsi choisir dtendre sa recherche avec Achondroplasie ou Os ou bien la limiter avec Achondroplasie et Os . La mthode dcrite dans cette partie est nanmoins dpendante des relations existantes dans la SNOMED CT. En eet, une erreur dattribution dune relation SNOMED CT entre deux concepts peut amener des dductions incorrectes ou abusives dans les autres terminologies. Prenons lexemple de la relation ISA , le concept SNOMED CT tumeur de lutrus est subsum par le concept tumeur de labdomen , ce qui prsente une classication fausse et entranera une dduction errone en passant vers dautres terminologies. Beaucoup derreurs de ce type peuvent tre trouves dans la SNOMED CT. Ceusters et al. (2004) expliquent que ces erreurs sont causes par deux principaux facteurs : Traitement inappropri de la ngation : le concept SNOMED CT maladie de Dupuytren sans contracture (Dupuytrens disease of palm, nodeules with no contracture) est subsum par le concept rtraction de laponvrose palmaire . Traitement inappropri de la distinction partielle/complte : le concept SNOMED CT extraction partielle du sige est subsum par le concept extraction du sige son tour subsum par le concept extraction complte du sige . Plusieurs cas peuvent exister o les relations ISA sont confondues avec les relations Part_Of Guarino (1998). Un autre problme est la surabondance

Chapitre 8. Discussion

134

des relations ISA et lutilisation peu frquente des relations qualies Cornet (2008). Ces relations ont t introduites an de faciliter la post-coordination. Par exemple, les deux termes maladie cardiaque et maladie cardiaque aigu sont tous les deux prsents dans la SNOMED CT, pour lesquelles le terme infarctus aigu du myocarde est reli par une relation ISA . On aurait pu supposer que linfarctus du myocarde serait reli une maladie cardiaque via la relation ISA qualie par aigue , et, par consquent, dans ce cas, se passer du terme infarctus aigu du myocarde . En rsum, le problme dans ce cas rside dans la vrication des relations SNOMED CT Bodenreider et al. (2007); Jiang et Chute (2009) ce qui ne relve pas du champ dapplication de nos proccupations.

Chapitre 9 Perspectives
9.1 Amlioration des mthodes

Nous allons continuer appliquer nos mthodes dalignement sur les terminologies intgres dans le PTS. Cela va permettre de raliser une matrice (N N), o N reprsente le nombre des terminologies intgres. Nous continuons aussi amliorer nos mthodes dalignement grce lapplication des distances de Levenshtein et de Stoilos (actuellement, en cours de dveloppement par Zied Moalla1 ) et lutilisation des relations Inter et Intra terminologiques pour trouver plus dalignements. Pour lalignement dORPHANET, le travail de lquipe Bio-Health Informatics de luniversit de Manchester2 sur lalignement de la version anglaise vers la SNOMED CT, nous sera utile pour valuer les rsultats obtenus dans cette thse par rapport une autre mthode. Concernant lalignement de la classication CCAM, nous avons commenc, en collaboration avec lquipe LERTIM, travailler sur la possibilit dutiliser conjointement le libell et la dcomposition du code de la CCAM pour avoir plus de prcision. Par exemple, lacte CCAM Lithotritie extracorporelle de la vessie aprs dcomposition en utilisant son code JDNM qui sera reprsent par les deux termes : Lithotritie et vessie , ainsi, nous perdons la notion d extracorporelle prsente dans le libell. Un dcoupage sur le libell permettra de trouver le terme extracorporelle .
Zied Moalla, commence sa thse dans lquipe CISMeF sur la problmatique des questionsrponses dans les catalogues de sant 2 http://intranet.cs.man.ac.uk/bhig/
1

Chapitre 9. Perspectives

136

9.2

Aide la traduction

Nous allons poursuivre lapplication de nos mthodes pour aider traduire plusieurs terminologies (mdicales ou autres). Dernirement (en collaboration avec Louis Delguer et Pierre Zweignbaum), nous avons propos une traduction de MEDLINEPLUS vers le franais, en utilisant des mthodes TAL Delger (2009) et conceptuelles bases sur UMLS (article soumis lAMIA 2010). Ces mthodes vont tre utilises dans un autre travail permettant la traduction de la FMA (Foundational Model of Anatomy)3 vers le Franais. Lapproche envisage est fonde sur une traduction par partie des libells de FMA. La traductions de ces parties se fera en utilisant toutes nos terminologies intgres dans le PTS.

9.2.1

Traduction de la SNOMED CT

Dans ce travail Joubert et al. (2009a), nous avons dcrit une mthode fonde sur lUMLS an de proposer une aide la traduction de la SNOMED CT en utilisant les alignements conceptuels de lUMLS. Cette mthode utilise, en plus, un nombre de relations explicites existant dans UMLS et identies dans la table MRREL. Quatre terminologies en franais ont t slectionnes : MeSH, MedDRA, CIM10 et SNOMED international. La mthode dalignement utilise dans cette tude est la suivante : Supposons que nous ayons deux termes t1 et t2 de deux terminologies T1 et T2 respectivement. Soient les deux concepts UMLS : CUI1 et CUI2 , correspondant la projection des deux termes t1 et t2 dans le mtathsaurus de lUMLS respectivement. Deux types dalignements peuvent exister entre les deux termes t1 et t2 : Alignement exact (voir gure 9.1) : CUI1 = CUI2 (dans MRCONSO), ou Alignement partiel (voir gure 9.2) : Il existe un alignement explicite entre CUI1 et CUI2 dans la table (MRREL). Si un alignement existe entre CUI1 et CUI2 , tous les termes du concept CUI2 sont aligns vers les termes CUI1 . Dnies de cette faon, T1 reprsente une des terminologies en franais utilises et T2 reprsente la SNOMED CT. Cependant, un alignement explicite provenant dune terminologie T3 nappartenant pas lensemble des terminologies utilises, est appliqu t1 ds lors quil est tabli entre CUI1 auquel le terme t1 est attach et CUI2 auquel le terme t2 est attach.
3

Ce travail est en collaboration avec le Pr Christine Goldbreich de luniversit de Versailles

Chapitre 9. Perspectives

137

Infarctus du myocarde

MRCONSO

Myocardial infarction

MeSH

SNOMED CT

Fig. 9.1 Exemple dalignement exact entre un terme MeSH et un terme SNOMED CT

Alignement Explicite

MRREL

Myocardial infarction

MRCONSO

Acute anteroseptel myocardial infarction SNOMED CT

MeSH

Fig. 9.2 Exemple dalignement partiel entre un terme MeSH et un terme SNOMED CT Chaque terminologie en franais a t aligne vers la SNOMED CT en utilisant notre mthode. Le tableau 9.1 donne le nombre et le pourcentage des termes prfrs aligns vers au moins un terme prfr SNOMED CT. Au total, lunion des quatre terminologies est align vers 82% de la SNOMED CT.

Chapitre 9. Perspectives

138

Terminologie CIM10 MedDRA MeSH SNOMED Int

Termes prfrs 9 308 107 900 17 867 24 767

Terme aligns 8 949 98 590 9 359 14 024

% des termes prfrs 96 92 52 57

Tab. 9.1 Nombre et pourcentage des termes prfrs aligns avec au moins un terme prfr SNOMED CT Dun autre ct, lalignement de la SNOMED CT vers lunion des quatre terminologies donne un nombre de 141 068 (45%) des termes prfrs SNOMED CT aligns vers lunion de ces quatre terminologies. Cependant, un nombre de 170 245 termes prfrs est non align (55%). Parmi ces termes, nous avons 146 603 concepts primitifs et 23 642 (8%) des concepts dnis.

9.3

Le Projet PlaIR (Plateforme dIndexation Rgionale)

Lanc au sein du laboratoire LITIS, le projet PlaIR a pour objectif de mutualiser lensemble des travaux des laboratoires LITIS et LiDiFra (Linguistique Didactique, Francophone) portant sur lindexation et la recherche dinformation, que ce soit dans un univers de documents lectroniques avec des vocabulaires contrls lis des domaines mtiers (mdicale, droit ou les sciences de lingnieur) ou dans un univers de documents papiers numriss en texte intgral sans domaine mtier cibl (comme dans le cas des documents darchives et du patrimoine), de plus, lobjectif va permettre la ralisation dune plateforme technologique dindexation et de recherche dinformation.

Chapitre 10 Conclusion
Ce travail apporte une approche automatique permettant de aligner les terminologies francophones dans le domaine de la sant. Les motivations tant, dune part, mettre en place un modle commun de reprsentation de toutes les terminologies , dautre part, proposer des mthodes pour mettre en correspondance ces terminologies. Concernant le premier point, nous avons dcrit le SMTS (Serveur Multi-Terminologique de Sant) ralis par MONDECA, LERTIM et CISMeF. Lobjectif tant lintgration de plusieurs terminologies mdicales dans un mme et unique serveur. Outre la gestion des terminologies de sant francophones, le SMTS va permettre aux professionnels de sant ainsi quaux applications un accs en temps rel toutes les terminologies francophones. Concernant la mise en relations des terminologies, nous avons propos un certain nombre de mthodes lexicales et structurelles pour raliser les alignements. Ces outils sont capables de trouver les termes les plus proches lexicalement entre dirents termes de direntes terminologies. Dun autre ct, les alignements proposs ont t raliss vers les terminologies francophones de lUMLS (F_UMLS), considre comme la plus grande base de donnes terminologique avec plus de 140 terminologies, lutilisation de lUMLS permet a avantages, dune part, davoir une large couverture sur toutes les autres terminologies non francophones, dautre part, lalignement conceptuel de lUMLS permettra de trouver plus dalignements non reprs par les mthodes lexicales. Dans la plupart de nos travaux, nous avons ralis plusieurs valuations manuelles suivant les contextes dapplication de chaque terminologies. Dun autre ct, dans la plupart de nos travaux, des comparaisons avec loutil MetaMap de la NLM ont t ralises sur les versions anglaises des terminologies sources. La projection des relations SNOMED CT entre les terminologies a permis denrichir ces terminologies par la cration de plusieurs relations inter et intra terminologiques.

Chapitre 10. Conclusion

140

Tous les travaux que nous avons mentionns sont intgrs actuellement au sein du PTS (Portail Terminologique de Sant) dvelopp par CISMeF. Nos alignements inter terminologies seront aussi utiliss dans le cadre de la thse de Sakji Saoussen pour la recherche dinformations Multi-Terminologique. Nanmoins, un important travail reste faire sur les autres type dalignement (par combinaison, partiel) et sur lamlioration de nos mthodes. Il est vraisemblable que je continue travailler sur ces direntes problmatiques dinteroprabilit entre terminologies.

Liste des publications


Communications internationales 1. Merabti, T; Massari, P; Joubert, M; Sadou, E; Lecroq, T;Abdoune, H; Rodrigues, JM & Darmoni, SJ. An automated approach to map a French terminology to UMLS. MedInfo2010, paraitre. 2. Merabti, T; Letord, C; Abdoune, H; Lecroq, T; Joubert, M & Darmoni, SJ. Projection and inheritance of SNOMED CT Relations between MeSH Terms. Stud Health Technol Inform MIE2009, Volume 150, Pages 233-237, IOS Press, 2009. 3. Merabti, T; Pereira, S; Letord, C; Lecroq, T; Dahamna, B; Joubert, M & Darmoni, SJ. Searching Related Resources in a Quality Controlled Health Gateway: a Feasibility Study. eHealth Beyond the Horizon - Get IT There - Proceedings of MIE2008 - The XXIst International Congress of the European Federation for Medical Informatics, Gteborg, Sweden, May, Studies in Health Technology and Informatics, Volume 136, pages 235-240, 2008. 4. Darmoni, SJ; Sakji, S; Pereira, S; Merabti T; Prieur E; Joubert M & Thirion B. Multiple terminologies in an health portal: automatic indexing and information retrieval. Articial Intelligence in Medicine, Verona, Italy, July, Lecture Notes in Computer Science, pages 255-259, Springer, 2009. PSIP. 5. Joubert, M; Abdoune, H; Merabti, T; Darmoni, SJ & Fieschi, M. Assisting the Translation of SNOMED CT into French using UMLS and four Representative French-language Terminologies. AMIA symp.2009. Publications nationales 1. Merabti, T; Joubert, M;Lecroq, T; Rath, A; Darmoni, SJ. Mapping biomedical terminologies using natural language processing tools and UMLS: mapping the Orphanet thesaurus to the MeSH. Ingnierie et Recherche Biomdicale / Biomedical Engineering and Research, 2010. paraitre. 2. Pauchet, A; El Abed, M; Merabti, T; Prieur, E; Lecroq, T & Darmoni, SJ. Identication de rptitions dans les navigations au sein dun catalogue de sant. RIA (Revue dIntelligence Articielle), Volume 23, Numro 1, Pages 113-132, 2009.

Chapitre 10. Conclusion Communications nationales

142

1. Merabti, T; Abdoune, H; Lecroq, T; Joubert, M & Darmoni, SJ. Projection des relations SNOMED CT entre les termes de deux terminologies (CIM10 et SNOMED 3.5). Risques, technologies de linformation pour les pratiques mdicales : comptes rendus des treizimes journes francophones dinformatique mdicale (JFIM), Nice, France, Avril, Informatique et sant, Volume 17, pages 79-88, 2009. Posters 1. Merabti, T; Pereira, S; Lecroq, T; Joubert, M & Darmoni, SJ. Inheritance of SNOMED CT Relations between Concepts by two Health Terminologies (SNOMED International and ICD-10). KR-MED 2008 - Representing and sharing knowledge using SNOMED International Conference, Phoenix, AZ, USA, June, 2008. 2. Joubert,M; Merabti, T; Vedenbusshe, PV; Abdoune, H; Dahamna, B; Fieschi, M & Darmoni,SJ. Modeling and Integrating terminologies into a French Multiterminology server. MedInfo2010, paraitre. 3. Bousquet, C; Sadou, E; Merabti, T; Trombert, B; Kumar, A; Darmoni, SJ & Rodrigues, JM. Multiaxial description of the French CCAM terminology for clinical procedures on the UMLS metathesaurus. MedInfo2010, paraitre. 4. Merabti, T & Darmoni SJ. Web smantique au sein de CISMeF. i-expo, salon de linformation numrique, Juin, 2009.

Bibliographie
(2000). ISO 1087-1:2000 terminology work - vocabulary - part 1:theory and application. (2005). CEN TC 251 EN 12264:2005 informatique de sant - structure catgorielles des systmes de concepts. (2007). ISO 11715 health informatics - vocabulary for terminological systems. Amardeilh, F. et Francart, T. (2004). A semantic web portal with hlt capabilities. In Actes du colloque Veille Stratgique Scientique et Technologique. Amardeilh, F., Laublet, P. et Minel, J. (2005). Annotation documentaire et peuplement dontologie partir dextractions linguistiques. In Acte IC. Aronson, A. R. (2001). Eective mapping of biomedical text to the UMLS Metathesaurus: the MetaMap program. In Proc. AMIA Symp. 2001, pages 1721. Austin, C. (1968). Medlars. 1963-1967. Rapport technique, National Library of Medecine. Avillach, P., Joubert, M. et Fieschi, M. (2007). A model for indexing medical documents combining statistical and symbolic knowledge. Proc. AMIA Symp. 2007, pages 3135. Bachrach, C. et Charen, T. (1978). Selection of MEDLINE contents, the development of its thesaurus, and the indexing process. Med Inform (Lond), 3:237254. Bechhofer, S., van Harmelen, F., Hendler, J., Horrocks, I., McGuinness, D., Patel-Schneider, P. F. et Stei, L. A. (2004). OWL Web Ontology Language Reference. Rapport technique, w3c recommendation. Beuscart, R., McNair, R., Darmoni, S., Koutkia, V., Maglaveras, N., Beuscart-Zephir, M. et Nohr, C. (2009). PSIP Project Consortium. In Stud Health Technol Inform, volume 148, pages 1424. Bodenreider, O. (2004). The Unied Medical Language System (umls): Integrating biomedical terminology. Nucleic Acids Res, 32:267270.

BIBLIOGRAPHIE

144

Bodenreider, O., Nelson, S. J., Hole, W. T. et Chang, H. F. (1998). Beyond synonymy: exploiting the UMLS semantics in mapping vocabularies. In Proc. AMIA Symp. 1998, pages 815819. Bodenreider, O., Smith, B., Kumar, A. et Burgun, A. (2007). Investigating subsumption in SNOMED CT: an exploration into large description logic-based biomedical terminologies. Artif Intell Med, 39(3):18395. Bodenreider, O. et Zhang, S. (2006). Comparing the representation of anatomy in the FMA and SNOMED CT. In AMIA Annu Symp Proc, pages 4650. Booch, B., Rumbaugh, J. et Jacobson, L. (2000). Le guide de lutilisateur UML. Eyrolles. Bouaud, J., Sroussi, B., Drau, H., falcoff, H., Riou, C., Joubert, M., Simon, C., Simon, G. et Venot, A. (2002). ASTI, un systme daide la prescription mdicamenteuse bas sur les guides de bonnes pratiques. Informatique et Sant, 3:818. Bourda, Y. et Hlier, M. (1999). Appliying IEEE Learning Object Metadata to Publishing Teaching Programs. Rapport technique, ED-MEDIA. Bourigault, D., Aussenac-Gilles, N. et Charlet, J. (2004). Construction de ressources terminologiques ou ontologiques partir de textes : un cadre unicateur pour trois tudes de cas. Revue dIntelligence Articielle, 18:87100. Bousquet, C., Sadou, E., Merabti, T., Trombert, B., Kumar, A., Darmoni, S. et Rodrigues, J. (2010). Multiaxial description of the French CCAM terminology for clinical procedures and mapping on the UMLS metathesaurus. In Proc. MEDINFO. 2010, Cap town, South Africa. paraitre. Brown, E., Wood, L. et Wood, S. (1999). The medical dictionary for regulatory activities (MedDRA). Drug Saf, 2:109117. Carter, J. S., Brown, S. H., Erlbaum, M. S., W, G., Elkin, P. L., T, S. et Tuttle, M. S. (2002). Initializing the VA medication reference terminology using UMLS metathesaurus co-occurrences. In Proc. AMIA Symp. 2002, pages 11620. Ceusters, W., Smith, B., Kumar, A. et Dhaen, C. (2004). Ontology-Based Error Detection in SNOMED-CT. In Proc. MEDINFO. 2004, pages 482486. Chevallier, J. (2006). TOTHEM - Classication TOpographique et THmatique du domaine de la sant. ditions Glyphe, Paris. Chute, C., Elkin, P., Sheretz, D. et Tuttle, M. (1999). Desiderata for a clinical terminology server. In Proc. AMIA Symp. 1999, pages 426.

BIBLIOGRAPHIE

145

Cimino, J. et Barnett, G. (1990). Automated translation between terminologies using semantic dentions. MD Comput, 7:104109. Cornet, R. (2008). Do SNOMED CT Relationships qualify ? In Stud Health Technol Inform, volume 136, pages 78590. Ct, R. (1972). From SNOP to SNOMED - A Challenge for the Medical record Librarian. Bulletin of the Canadian Asssciation of Medical Record Librarians, 5. Ct, R. A., Rothwell, D. J., Patolay, J., Beckett, R. et Brochu, L. (1993). The Systematised Nomenclature of Human and Veterinary Medicine: SNOMED International. Cutting, D., Hatcher, E. et Gospodnetic, O. (2004). Lucene in Action. Manning Publications. Darmoni, S., Amsallem, E., Haugh, M. C., Lukacs, B., Chalhoub, C. et Leroy, J.-P. (2003a). Level of evidence as a future gold standard for the content quality of health resources on the internet. Methods of Information in Medicine, 42(3):200225. Darmoni, S., Joubert, M., Dahamna, B., Delahousse, J. et Fieschi, M. (2009a). Smts: a French Health Multi-Terminology Server. In Proc. AMIA Symp. 2009. InterSTIS. Darmoni, S., Leroux, V., Thirion, B., Santamaria, P. et Gea, M. (1999). Netscoring : critres de qualit de linformation de sant sur internet. Les enjeux des industries du savoir, pages 2944. Darmoni, S., Sakji, S., Pereira, S., Merabti, T., Prieur, E., Joubert, M. et Thirion, B. (2009b). Multiple terminologies in a health portal: automatic indexing and information retrieval. In Articial Interlligence in Medecine, Lecture Notes in Computer Science, pages 255259, Verona, Italy. Springer. Darmoni, S., Thirion, B., Ionut-Florea, F., Rogozan, A., Letord, C., Kerdelhu, G. et Dacher, J. (2007). Aliation of a resource type to a MeSH term in a quality-controlled health gateway. In Proc. Medinfo 2007, pages 290292. Darmoni, S., Thirion, B., Leroy, J. et Douyre, M. (2001). The use of Dublin core metadata in a structured health resource guide on the internet. Bull Med Libr Assoc, 89(3):297301. Darmoni, S., Thirion, B., Platel, S., Douyre, M., Mourouaga, P. et Leroy, J. (2002). CISMeF-patient : a French counterpart to MEDLINE-plus. J Med Libr Assoc, 90:248253.

BIBLIOGRAPHIE

146

Darmoni, S. J., Jarousse, E., Zweigenbaum, P., Le Beux, P., Namer, F., Baud, R., Joubert, M., Valle, H., Cote, R. A., Buemi, A., Bourigault, D., Recourc, G., Jenneau, S. et Rodrigues, J. (2003b). VUMeF: Extending the French involvement in the UMLS metathesaurus. In Proc. AMIA Symp. 2003, page 824. de Keizer, N. F., Abu-Hanna, A. et Zwetsloot-Schonk, J. H. (2000). Understanding terminological systems. i: Terminology and typology. Methods Inf Med, 39(1):1621. Dekkers, M. et Weibel, S. (2003). State of the Dublin Core Metadata Initiative. D-Lib Mag, 9(40). Delger, L. (2009). Exploitation de corpus parallles et comparables pour la dtection de correspondances lexicales : application au domaine mdical. Thse de doctorat, Universit Pierre et Marie Curie - Paris 6. Dirieh Dibad, A., Sakji, S., Prieur, E., Joubert, M. et Darmoni, S. (2009). Recherche Mutli-terminologique en contexte : tude prliminaire. In Risques, technologies de linformation pour les pratiques mdicales : comptes rendus des treizimes journes francophones dinformatique mdicale (JFIM), volume 17 de Informatique et sant, pages 101112, Nice, France. Springer. Doan, A., Noy, N. et Halvey, A. (2004). Introduction to the special issue on semantic integration. SIGMOD Record, 33:1113. Dougoulet, P., Fieschi, M. et Attali, C. (1997). Les enjeux de linteroprabilit smantique dans les systmes dinformation de sant. In Informatique et Sant, volume 2, page 203:212. Douyre, M., Soualmia, L., Nvol, A., Rogozan, A., Dahamna, B., Leroy, J.P., Thirion, B. et Darmoni, S. (2004). Enhancing the MeSH thesaurus to retrieve French online health resources in a quality-controlled gateway. Health Info Libr J., 21(4):25361. El-Abed, M. (2008). Identication des rptitions dans les navigations au sein dun catalogue de sant. Rapport de stage de Master 2 Recherche Informatique Thorique et Applications, 6 mois, Universit de Rouen. Euzenat, J. et Shvaiko, P. (2007). Ontology Matching. Hiedelberg: Springer-Varlag. Fellbaum, C., diteur (1998). WordNet: an electronic lexical database. MIT Press. Ferru, P. et Kandel, O. (2003). Dictionnaire des rsultats de consultation (rvision 2003-04). Doc Rech Med Gen, 62:354.

BIBLIOGRAPHIE

147

Fieschi, M. (2005). Vers le dossier mdical personnel. Les donnes du patient partages : un atout ne pas gcher pour faire voluer le systme de sant. Revue Droit Social, pages 8090. Fung, K. et Bodenreider, O. (2005). Utilizing UMLS for semantic mapping between terminologies. In Proc AMIA Symp, pages 266270. Gruber, T. (1993). Toward principles for the design of ontologies used for knowledge sharing. In Formal Ontology in Conceptual Analysis and Knowledge Representation. Kluwar Academic Publishers. Guarino, N. (1995). Formal ontology, conceptual analysis and knowledge representation. International Journal of Human-Computer Studies, 43(5/6):625640. Guarino, N. (1998). Some ontological principles for designing upper level lexical resources. In International Conference on Language resources and evaluation, pages 52734. Hamming, R. (1950). Error detecting and error correcting codes. Rapport technique, Bell System Technical Journal. Imel, M. (2002). A closer look: the SNOMED clinical terms to ICD-9-CM mapping. J AHIMA, 73(6):669; quiz 712. Jaccard, J. (1901). Distibution de la ore alpine dans le bassin des dranses et dans quelques rgions voisines. Bulletin de la socit vaudoise des sciences naturelles, 37:241272. Jamoulle, M., Roland, M., Humbert, J. et Brlet, J.-F. (2000). Traitement de linformation mdicale par la Classication internationale des soins primaires, deuxime version : CISP-2. Care Edition, Bruxelles. Jiang, G. et Chute, C. (2009). Auditioning the semantic completeness of SNOMED CT using formal concept analysis. J Am Med Inform Assoc, 78:8694. Johnson, H., Cohen, K., Baumgartner, W., Lu, Z., Bada, M., Kester, T., Kim, H. et Hunter, L. (2006). Evaluation of lexical methods for detecting relationships between concepts from multiple ontologies. In Pac Symp Biocomput, pages 2839. Joubert, M., Abdoune, H., Merabti, T., Darmoni, S. et Fieschi, M. (2009a). Assisting the translation of SNOMED CT into French using UMLS and four representative French-language terminologies. In Proc. AMIA Symp. 2009, pages 291295. InterSTIS.

BIBLIOGRAPHIE

148

Joubert, M., Dahamna, B., Delahousse, J., Fieschi, M. et SJ, D. (2009b). SMTS: Un Serveur Multi-terminologies de sant. In Risques, technologies de linformation pour les pratiques mdicales : comptes rendus des treizimes journes francophones dinformatique mdicale (JFIM), volume 17 de Informatique et sant, pages 4756, Nice, France. Springer. InterSTIS. Joubert, M., Dufour, J., Aymard, S., Falco, L., Staccini, P. et Fieschi, M. (2003). Le projet CoMeDIAS : Accs des bases de donnes htrognes au moyen de services internet. Informatique et Sant, 16. Joubert, M., Fieschi, D. et Fieschi, M. (2002). ARIANE : un moteur de recherche de deuxime gnration dans le domaine de la sant. Informatique et Sant, 13. Joubert, M., Gaudinat, A., Boyer, C., Fieschi, M. et membres H.F.C (2007). WRAPIN: a tool for patient empowerment within EHR. Stud Health Technol Inform, 129:14751. Kim, W., Aronson, A. R. et Wilbur, W. J. (2001). Automatic MeSH term assignment and quality assessment. In Proc. AMIA Symp. 2001, pages 319323. Kondrak, G. (2005). N-gram similarity and distance. In Proc of the 12th International Conference on String Processing and Information Retrieval, pages 115126, Buenos Aires, Argentina. Lefevre, P. (2000). La recherche dinformations : du texte intgral au thsaurus. Editions Herms. Leroy, G. et Chen, H. (2001). Meeting medical terminology needs-the ontologyenhanced medical concept mapper. IEEE Transactions on Information Technology in Biomedicine, 5(4):261270. Lethord, C., Sakji, S., Pereira, S., Dahamna, B., Kergourlay, I. et Darmoni, S. (2008). Recherche dinformation multi-terminologique : application un portail dinformation sur le mdicament en Eeurope. Ingnierie et Recherche Biomdicale, Number 29:350356. Levenshtein, V. I. (1966). Binary codes capable of correcting deletions, insertions and reversals. Sov. Phys. Dokl., pages 707710. Lin, D. (1998). An information-theoretic denition of similarity. In Proc. Int. Conf. on Machine Learning, pages 296304. Lindberg, D., Humphreys, B. et McCray, A. (1993). The Unied Medical Language System. Methods Inf Med, 32(4):281291.

BIBLIOGRAPHIE

149

Lord, P., Stevens, R., Brass, A. et Goble, C. (2003). Investigating semantic similarity measures across the gene ontology:the relationships between sequence and annotation. Bioinformatics, 19:12751283. Mansour, I. (2008). Dtction et dsambigusation des abrviations. Rapport de stage de Master 2 Recherche Informatique Thorique et Applications, 6 mois, Universit de Rouen. Mayer, M. A., Darmoni, S., Fiene, M. et Al. (2003). MedCIRCLE - modeling a collaboration for internet rating, certication, labeling and evaluation of health information on the semantic world-wide-web. In Medical Informatics Europe, pages 667672. Maynard, D. et Ananiadou, S. (2001). Term extraction using a similarity-based approach. In Didier Bourigault, Christian Jacquemin, and Marie-Claude Lhomme, editors, Recent advances in computational terminology, pages 261278. Mazuel, L. et Charlet, J. (2009). Alignement entre ontologies de domaine et la SNOMED : trois tudes de cas. In Ingnierie des Connaissances. McCray, A., Srinivasan, S. et Brown, A. (1994). Lexical methods for managing variation in biomedical terminologies. In Annual Symposium on Computer Applications in Medical Care, pages 235239. McCreight, E. (1976). A space-economical sux tree construction algorithm. Journal of the ACM, 23:262272. McDonald, C., Huff, S. et Suico, J. (2003). Universal standard for identifying laboratory observations. A 5 year update Clin Chem, 49:624633. McKusick, V. (2004). Mendelian Inheritance in Man; A Catalog of Human Genes and Genetic Disorders. The Johns Hopkins University Press, Baltimore, MD. Merabti, T. (2007). Distance inter-document. Rapport de stage de Master 2 Recherche Informatique Thorique et Applications, 6 mois, Universit de Rouen. Merabti, T., Abdoune, H., Lecroq, T., Joubert, M. et Darmoni, S. (2009a). Projection des relations SNOMED CT entre les termes de deux terminologies (CIM10 et SNOMED 3.5. In Risques, technologies de linformation pour les pratiques mdicales : comptes rendus des treizimes journes francophones dinformatique mdicale (JFIM), volume 17 de Informatique et sant, pages 7988, Nice, France. Springer. Merabti, T., Joubert, M., Lecroq, T., Rath, A. et Darmoni, S. (2010a). Mapping biomedical terminologies using natural language processing tools and UMLS: mapping the Orphanet thesaurus to the MeSH. Ingnierie et Recherche Biomdicale. paraitre.

BIBLIOGRAPHIE

150

Merabti, T., Letord, C., Abdoune, H., Lecroq, T., Joubert, M. et Darmoni, S. (2009b). Projection and inheritance of SNOMED CT relations between MeSH terms. In MIE2009, volume 150, pages 2337. IOS Press. Merabti, T., Massari, P., Joubert, M., Sadou, E., Lecroq, T., Abdoune, H., Rodrigues, J. et Darmoni, S. (2010b). Automated approach to map a French terminology to UMLS. In MedInfo2010, Cap Town, South Africa. paraitre. Merabti, T., Pereira, S., Letord, C., Lecroq, T., Dahamna, B., Joubert, M. et Darmoni, S. (2008). Searching related resources in a quality controlled health gateway: a feasibility study. In The XXIst International Congress of the European Federation for Medical Informatics (MIE08), volume 136, pages 235249. Metzger, M., Gicquel, Q., Proux, D., Pereira, S., Kergorlay, I., Serrot, E., Segond, F. et Darmoni, S. (2009). Development of an automated detection tool for healthcare-associated infections based on screening. In Proc. AMIA, pages 12. Miller, N., Lacroix, E. M. et Backus, J. E. (2000). MEDLINEplus: building and maintaining the national library of medecines consumer health web service. Bull Med Libr Assoc, 88(1):117. Mori, A., Consorti, F. et Galeazzi, E. (1998). Standards to support development of terminological systems for healthcare telematics. Methods Inf Med, 37:551563. Nelson, S. J., Brown, S. H., Erlbaum, M. S., Olson, N., Powell, T., Carlsen, B., Carter, J., Tuttle, M. S. et Hole, W. T. (2002). A semantic normal form for clinical drugs in the umls: early experiences with the vandf. Proc AMIA Symp, pages 557561. Nvol, A. (2005). Automatisation des tches documentaires dans un catalogue de sant en ligne. Thse de doctorat, INSA de Rouen. Nvol, A., Mork, J. G., Aronson, A. R. et Darmoni, S. J. (2005). Evaluation of French and english MeSH indexing systems with a parallel corpus. Proc. AMIA Symp. 2005, pages 565569. Nvol, A., Zeng, K. et Bodenreider, O. (2006). Besides precision & recall: Exploring alternative approaches to evaluating an automatic indexing tool for MEDLINE. In Proc. AMIA Symp. 2006, pages 58393. OMG (2002). Meta object facility, version 1.4, april 2002. Rapport technique, OMG. OMS, O. (1993). Classication statistique internationale des maladies et des problmes de sant connexes. Dixime rvision.

BIBLIOGRAPHIE

151

OMS, O. (2001). Classication internationale des handicaps : dciences, incapacits et dsavantages. Paternostre, M., Francq, P., lamoral, J., Wartel, D. et saerens, M. (2002). Carry, un algorithme de dsuxation pour le franais. Version lectronique disponible sur http://www.galilei.ulb.ac.be. Pauchet, A., El Abed, M., Merabti, T., Prieur, E., Lecroq, T. et Darmoni, S. (2009). Identication de rptitions dans les navigations au sein dun catalogue de sant. RIA (Revue dIntelligence Articielle), 23:113132. Pereira, S. (2007). Indexation multi-terminologique de concepts en sant. Thse de doctorat, Universit de Rouen. Pereira, S., Massari, P., Buemi, A., Dahamna, B., Serrot, E., Joubert, M. et Darmoni, S. (2008). Evaluation of two French SNOMED indexing systems with a parallel corpus. In KR-MED 2008 - Representing and sharing knowledge using SNOMED International Conference, Phoenix, AZ, USA. Pereira, S., Massari, P., Buemi, A., Dahamna, B., Serrot, E., Joubert, M. et Darmoni, S. (2009a). F-MTI : outil dindexation multi-terminologique : application lindexation automatique de la SNOMED. In Risques, technologies de linformation pour les pratiques mdicales : comptes rendus des treizimes journes francophones dinformatique mdicale (JFIM), volume 17 de Informatique de Sant, pages 5767, Nice, France. Springer. Pereira, S., Sakji, S., Nvol, A., Kergourlay, I., Kerdelhu, G., Serrot, E., Joubert, M. et Darmoni, S. (2009b). Multi-Terminology indexing for the assignement of MeSH descriptors. In Proc. AMIA Symp. 2009. Porter, M. F. (1980). An algorithm for sux stripping. Program, 3(14):130137. Proux, D., Marchal, P., Segond, F., Kergourlay, I., Pereira, S., Gicquel, Q., Darmoni, S. et Metzger, M. (2010). Improving hospital document workow with a risk patterns detection tool to detect potential hospital acquired infections. In Biomedical Information Extraction, RANLP conference. Accepted. ALADIN. Prudhommeaux, E. et Seaborne, A. (2008). SPARQL Query Language for RDF. Rapport technique, W3C Working Draft. Rector, A., Bechhover, S. et Goble, C. (1997). The GRAIL concept modelling language for medical terminology. Artif Intell Med, 9(2):13971. Rector, A., Nowlan, W. et the GALEN consortium (1993). The GALEN Project:. Comput Methods Programs Biomed, 45:7578.

BIBLIOGRAPHIE

152

Rector, A., Rogers, J., Zanstra, P. et Ven Der Haring, E. (2003). openGALEN : open source medical terminology and tools. In Proc. AMIA Symp. 2003. Rekik, S. (2007). Modlisation de terminologies mdicales. Rapport de stage de Master 2 Recherche Informatique Thorique et Applications, 6 mois, Universit de Rouen. Resnik, P. (1995). Using information content to evaluate semantic similarity in a taxonomy. In the 14th International Joint Conference on Articial Intelligence, Montreal, pages 448453. Rocha, R., Rocha, B. et Huff, S. (1994). Automated translation between medical vocabularies using a frame-based interlingua. In Proceedings of the 18th Annual Symposium on Computer Applications in Medical Care, pages 690694. Roche, C. (2005). Terminologie et ontologie. Revue Langages, 157:4862. Rodrigues, J., Trombert Paviot, B., Marti, C. et P, V. (2005a). Integrating the modelling of EN 1828 and Galen CCAM Ontologies with protg : toward a Knowledge acquisition tool for surgical procedures. In Stud Health Technol Inform, pages 6977. Rodrigues, J., Trombert-Paviot, B., Martin, C. et Vercherin, P. (2005b). Reprsentation du standard europen de terminologie en1828 et de galen ccam avec lditeur dontologie protg : vers un systme terminologique de troisime gnration pour les interventions chirurgicales. In JFIM2005. Rosse, C. et Mejino, J. (2003). A reference ontology for biomedical informatics: the foundational model of anatomy. Journal of Biomedical Informatics, 36:478500. Sakji, S. (2008). Recherche multi-terminologique de linformation de sant sur linternet. In CORIA (cinquime dition de la COnfrence en Recherche dinformation et Applicatoin, pages 409416, Tregastel, France. Sakji, S., Dirieh Dibad, A., Kerogourlay, I., Joubert, M. et Darmoni, S. (2009a). Information retrieval in context using various health terminologies. In RCIS, International Conference on Research Challenges in Information Science, pages 453 458, Fez, Morocco. IEEE. Sakji, S., Lethord, C., Pereira, S., Dahamna, B., Joubert, M. et Darmoni, S. J. (2009b). Drug information portal in Europe: Informatio retrieval with multiple health terminologies. In Stud Health Technol Inform, volume 150, pages 497501. Salton, G. et Buckley, C. (1988). Term weighting approaches in automatic text retrieval. Information Processing & Management, 33(4):495512.

BIBLIOGRAPHIE

153

Salton, G. et McGill, M. J. (1983). Introduction to Modern Information Retrieval. McGraw-Hill, New York. Sarker, I., Cantor, M., Gelman, R., Hartel, F. et Lussier, Y. (2003). Linking biomedical language information and knowledge ressources in the 21st Century: GO and UMLS. In Pacic Symposium on Biocomputing, volume 8, pages 439450. Skrbo, A., Bergovic, B. et Skrbo, S. (2004). Classication of drugs using the ATC system (anatomic, therapeutic, chemical classication) and the latest changes. Med Arh, 58(suppl 2):13841. Smith, B. (2003). Blackwell Guide to the Philosophy of Computing and Information, chapitre Ontology, pages 155166. Oxford: Blackwell. Smith, B. (2006). From concepts to clinical reality: an essay on the benchmarking of biomedical terminologies. J Biomed Inform, 39(3):288298. Smith, B., Ceusters, W. et Temmerman, R. (2005). Wsteria. Stud Health Technol Inform, 116:647652. Smith, B. et Welty, C. (2001). Fois introduction: Ontology- towards a new synthesis. In FOIS 01 : Proceedings of the international conference on Formal Ontology in Information Systems. Soualmia, L. (2004). tude et valuation dApproches Multiples dExpansion de Requtes pour une Recherche dInformation Intelligente : Application au Domaine de la Sant sur Internet. Thse de doctorat, INSA de Rouen. Soualmia, L., Barry, C. et Darmoni, S. (2009). Knowledge-based query expansion over a medical terminology oriented ontology. In Artif Intell Med : 9th Conference on Articial Intelligence in Medecine in Europe, AIME, pages 209213. Sowa, J. (2000). Knowledge representation: Logical, Philosophical and Computational Foundations. Brooks/cole. Spackman, K. (2000). SNOMED RT and SNOMED CT : promise of an international clinical terminology. MD Computing, 17(6):29. Spackman, K. A., Campbell, K. E. et Ct, R. A. (1993). SNOMED RT: A Reference Terminology for Health Care. In Proc AMIA Annu Fall Symp, pages 6404. Stoilos, G., Stamou, G. et Kollias, S. (2005). A string metric for ontology alignement. In International Semantic Web Conference, volume 3729, pages 624637. Sun, J. et Sun, Y. (2006). A system for automated lexical mapping. J Am Med Inform Assoc, 13(3):33443.

BIBLIOGRAPHIE

154

Thirion, B., Douyre, M., Soualmia, L., Dahamna, B., Leroy, J. et Darmoni, S. (2004). Metadata element sets in the CISMeF quality-controlled health gateway. In International Confrence on Dublin Core and Metadata Applications, page 12, Shanghai. Uschold, M. et Grninger, M. (1996). Ontologies : principles, methods, and applications. Knowledge Engineering Review, 11(2):93155. van Rijsbergen, C. (1979). Information retrieval. London, butterworth dition. W3C (2004). Simple http://www.w3.org/2004/02/skos/. Consortium. knowledge organization system. Rapport technique, World Wide Web

Wang, Y., Patrick, J., Miller, G. et OHallaran, J. (2008). A computational linguistics motivated mapping of ICPC-2 PLUS to SNOMED CT. BMC Med Inform Decis Mak, 8 Suppl 1:5. Weeber, M., Mork, J. et Aronson, A. (2001). Developing a test collection for biomedical word sens disambiguation. In Proc. AMIA Symp. 2001, pages 746750. Wegner, P. (1996). Interoperability. ACM Computing Survey, 28(1):2857. Weiner, P. (1973). Linear pattern matching algorithm. In Proc. 14th IEEE Symposium on Switching and Automata Theory. WHO, W. (1992). WHO-ART : International monitoring of adverse reactions to drugs: adverse reaction terminology. Collaborating Center of International Drug Monitoring. Wu, Z. et Palmer, M. (1994). Verb semantics and lexical selection. In 32nd Annual Meetings of the Associations for Computational Linguistics, pages 133138. Zeng, M. et Chan, L. (2004). Trends and issues in establishing interoperability among knowledge organization systems. Journal of the American Society for Information, 55:377395. Zweigenbaum, P. (1999). Encoder linformation mdicale : des terminologies aux systmes de reprsentation des connaissances. ISIS, 3:2747. Zweigenbaum, P., Baud, R., Burgun, A., Namer, F., Jarousse, E., Grabar, N., Ruch, P., Le Duff, F., Thirion, B. et Darmoni, S. (2003). UMLF: construction dun lexique mdical francophone uni. In Actes des JFIM 2003.

Annexe A tude de cas sur le Serveur Multi-terminologique de Sant


Nous prsentons une tude de cas permettant la navigation dans le SMTS entre deux terminologies CIM10 et SNOMED 3.5. La premire gure A.1 montre la page daccueil du SMTS avec les terminologies mdicales dj incluses (dans la partie gauche de lcran). Le choix dune terminologie permet de dvelopper le contenu de cette terminologie. Par exemple, le choix de la terminologie SNOMED 3.5 permet de voir toutes les catgories existantes dans cette terminologie (chapitres, axes, section. . .). Ceci permettra un accs suivant plusieurs choix : dirents axes, dirents chapitres, direntes sections . . .

Fig. A.1 Page daccueil du SMTS

Annexe A. tude de cas sur le Serveur Multi-terminologique de Sant

156

La gure A.2 montre un exemple daccs sur laxe D (des maladies) de la SNOMED 3.5. Comme montre la gure, les maladies sont classes en chapitres.

Fig. A.2 Axe D des maladies classes par chapitre

Le dveloppement de toutes les maladies de la section 3-1 (gure A.3) fait apparaitre toutes les maladies cardiaques recenses dans la SNOMED 3.5.

Fig. A.3 Les maladies cardiaques dans la SNOMED 3.5 La slection dun terme (exemple de la gure A.3 : infarctus aigu du myocarde) fait apparatre tous les connaissances propos de ce terme. La gure A.4 qui est une capture

Annexe A. tude de cas sur le Serveur Multi-terminologique de Sant

157

dcran dune partie de haut de page correspondante la maladie infarctus aigu du myocarde dans SNOMED 3.5, montre quelques informations lies aux termes : Le code (le Code CIM-9 li au code SNOMED est 410.9 ). Le fait que dans la hirarchie il nexiste pas de terme plus prcis.

Fig. A.4 Haut de la page correspondant infarctus aigu du myocarde La deuxime partie de la page prsente dans la gure A.5, montre la partie description o on peut voir : La localisation de la maladie ( infarctus aigu du myocarde est localise au myocarde qui est un autre terme SNOMED) ; Le type de la maladie infarctus aigu du myocarde est de type infarctus qui est un autre terme SNOMED). On peut surtout voir dans la rubrique SNOMED/CIM10 que infarctus aigu du myocarde est li au code CIM10 I21.9 .

Ce lien inter-terminologique permet de naviguer entre les deux terminologies SNOMED 3.5 et CIM10 dans le SMTS. La gure A.6 montre le haut de la page correspondant la description du code CIM10 I21.9 . On y trouve des informations spciques la classication CIM10 comme le niveau du code par exemple.

La gure A.7 reprsente le bas de la page correspondant au code CIM10 I21.9 , on y trouve tous les termes correspondant dans la CIM10 au code I29.9 comme par exemple : rupture du cur ou infarctus du myocarde .

Annexe A. tude de cas sur le Serveur Multi-terminologique de Sant

158

Fig. A.5 Bas de la page correspondant infarctus aigu du myocarde

Fig. A.6 Haut de la page correspondant au code CIM10 121.9

Annexe A. tude de cas sur le Serveur Multi-terminologique de Sant

159

Fig. A.7 Bas de la page correspondant au code CIM10 I29.9

Annexe B tude de cas sur le Portail Terminologique de Sant


Actuellement, 21 terminologies francophones sont intgres dans le PTS en plus des terminologies dj prsentes dans le SMTS. La gure B.1 montre la page daccueil avec toutes les terminologies aches.

Fig. B.1 Page daccueil du PTS

Annexe B. tude de cas sur le Portail Terminologique de Sant

161

La recherche (multi-)terminologique seectue dans le cadre gauche de lcran. La troncature est active par dfaut, ce qui permet de ne saisir quune partie de mot achondroplasie par exemple (voir gure B.2). La recherche porte sur la liste des termes et de leurs synonymes de toutes les terminologies, en anglais et en franais. En cochant sans troncature , on recherche le mot exact, seul ou dans une expression. Une autre option est propose permettant de restreindre la recherche sur une partie des terminologies intgres dans le PTS. La liste des rponses est prsente gauche avec pour chaque terminologie, le nombre de rsultats trouvs.

Fig. B.2 Recherche par troncature dans PTS

Annexe B. tude de cas sur le Portail Terminologique de Sant 3 onglets dinformations sont disponibles pour chaque terme :

162

Description : il contient les gnralits concernant le terme (dnition(s), synonymes, relations avec dautres termes. . . ) ; Hirarchies : il permet de connatre la position hirarchique du terme et de naviguer dans les arborescences ; Ressources : il permet laccs aux sites et documents de rfrence CISMeF et PubMed ou CISMeF InfoRoute un outil permettant un accs contextuel plusieurs sites (gure B.3) de sant regroups par leur contexte dutilisation : Outil de recherche , Mdicaments . . .

Fig. B.3 CISMeF InfoRoute

Annexe B. tude de cas sur le Portail Terminologique de Sant

163

Actuellement dans le PTS, nous avons intgr deux rsultats obtenus dans le cadre de cette thse. Le premier concerne les projections des relations SNOMED CT entre les termes MeSH. La gure B.4 montre un exemple de deux relations intgres : localisation et association morphologique pour le terme MeSH : Angiocholite .

Fig. B.4 Exemple de deux relations SNOMED CT intgres dans le PTS Le deuxime travail concerne tous nos rsultats de matching, actuellement dans le PTS deux types de matchings sont intgrs : 1. matching provenant de lUMLS : ce type de matching correspond au matching conceptuel de lUMLS. Les termes sont matchs sils partagent le mme concept UMLS ; 2. matching ralis par nos mthodes en utilisant UMLS : deux matchings existent actuellement, ORPHANET vers F_UMLS et ATC vers F_UMLS ; 3. le dernier type de matching est ralis pour toutes les terminologies du PTS (sans utilisation des matchings conceptuels de lUMLS). La relation entre les termes matchs utilisant les deux premiers types de matchings est nomme Correspondance(s) UMLS (mme concept) pour prciser que les mat-

Annexe B. tude de cas sur le Portail Terminologique de Sant

164

chings ont t obtenus en utilisant UMLS. La gure B.5 montre un exemple de cette relation pour le terme ORPHANET syndrome de Marfan .

Fig. B.5 Matching du terme ORPHANET syndrome de Marfan vers F_UMLS Pour la relation entre les termes matchs utilisant le troisime type de matching, elle est nomm dans le PTS Align automatiquement pour prciser que les matchings ont t obtenus seulement par les mthodes automatiques dveloppes dans le cadre de cette thse. La gure B.6 montre un exemple de cette relation pour le terme MeSH infarctus du myocarde .

Annexe B. tude de cas sur le Portail Terminologique de Sant

165

Fig. B.6 Matching du terme MeSH infarctus du myocarde

You might also like