You are on page 1of 14

Actes de la confrence conjointe JEP-TALN-RECITAL 2012, volume 2: TALN, pages 225238,

Grenoble, 4 au 8 juin 2012. c 2012 ATALA & AFCP



tude comparative entre trois approches de rsum
automatique de documents arabes
Iskandar Keskes
1,2
Mohamed Mahdi Boudabous
1
Mohamed Hdi Maaloul
1,3

Lamia Hadrich Belguith
1

(1) ANLP Research Group, Laboratoire MIRACL, Route de Tunis Km 10, BP 242, Sfax, Tunisie
(2) Laboratoire IRIT, 118 Route de Narbonne, F-31062 Toulouse Cedex 9, France
(3) Laboratoire LPL, 5 avenue Pasteur, BP 80975, 13604 Aix-en-Provence, France
Keskes@irit.fr, mehdiboudabous@gmail.com
mohamed.maaloul@lpl-aix.fr, l.belguith@fsegs.rnu.tn
RSUME____________________________________________________________________________________________________
Dans cet article, nous proposons une tude comparative entre trois approches pour le
rsum automatique de documents arabes. Ainsi, nous avons propos trois mthodes
pour lextraction des phrases les plus reprsentatives d'un document. La premire
mthode se base sur une approche symbolique, la deuxime repose sur une approche
numrique et la troisime se base sur une approche hybride. Ces mthodes sont
implmentes respectivement par le systme ARSTResume, le systme R.I.A et le systme
HybridResume. Nous prsentons, par la suite, les rsultats obtenus par les trois systmes
et nous procdons une tude comparative entre les rsultats obtenus afin de souligner
les avantages et les limites de chaque mthode. Les rsultats de lvaluation ont montr
que lapproche numrique est plus performante que lapproche symbolique au niveau des
textes longs. Mais, lintgration de ces deux approches en une approche hybride aboutit
aux rsultats les plus performants dans notre corpus de textes.
ABSTRACT________________________________________________________________________________________________
Comparative study of three approaches to automatic summarization of Arabic documents
In this paper, we propose a comparative study between three approaches for automatic
summarization of Arabic documents. Thus, we proposed three methods for extracting
most representative sentences of a document. The first method is based on a symbolic
approach, the second is relied on a numerical approach and the third is based on a
hybrid approach. These methods are implemented respectively by the ARSTResume,
R.I.A and HybridResume systems. Then, we present the results obtained by the three
systems and we conduct a comparative study between the obtained results in order to
highlight the advantages and limitations of each method. The evaluation results showed
that the numerical approach has better performances than the symbolic approach. But,
combining into a hybrid approach achieved the best results for our text corpus.
MOTS-CLES : Rsum automatique, approche symbolique, approche numrique, approche
hybride, document arabe.
KEYWORDS: Automatic summarization, symbolic approach, numerical approach, hybrid
approach, Arabic document.
225

1 Introduction
Le Traitement Automatique du Langage Naturel (TALN) nous montre que les approches
peuvent tre converges pour rsoudre le mme problme. Chaque approche a ses
propres avantages et inconvnients qui peuvent tre identifis par une tude
comparative.
Le prsent travail prsente une tude comparative entre diffrentes approches de TALN,
dans le cadre du rsum automatique de textes.
Ce domaine aide contribuer une meilleure comprhension de la faon dont les gens
produisent et comprennent la langue, car il peut rsoudre les besoins croissants
d'information de synthse dans notre socit.
La tche de rsum semble tre intrinsquement interprte dans le sens o diffrentes
personnes produisent gnralement des rsums trs diffrents pour un texte donn.
Ainsi, la qualit des rsums peut tre juge trs diffremment (Iria et al., 2007).
En matire de rsum automatique, on peut distinguer trois principales approches
savoir, lapproche par comprhension appele lapproche symbolique, lapproche par
extraction appele lapproche numrique et lapproche qui combine les deux approches
prcdentes appele lapproche hybride. Lapproche symbolique exploite un savoir
purement linguistique, et plus prcisment smantique pour extraire les phrases
pertinentes dun document (Azmi et Al-Thanyyan, 2012). Plusieurs thories entrent dans
le cadre de cette approche savoir : la Thorie de la Structure Rhtorique (RST) (Mann
et Thompson, 1988), la Thorie de la Reprsentation Discursive (DRT) (Kamp, 1981 ;
Kamp et Reyle, 1993), la Thorie de la Reprsentation Discursive Segmente (SDRT)
(Asher, 1993 ; Lascarides et Asher, 1993) tandis que lapproche numrique repose sur
un calcul de poids ou de scores associs chaque phrase afin destimer son degr
dimportance dans le texte. On distingue deux grandes techniques savoir : la technique
statistique (mots des titres, position des phrases,) et la technique dapprentissage
(apprentissage supervis, apprentissage semi-supervis et apprentissage non supervis)
(Amini, 2001). Lextrait final contient les units textuelles qui ont les scores les plus
levs. Concernant lapproche hybride, elle utilise des mthodes linguistiques et
numriques pour extraire les phrases du rsum.
Nous proposons dans cet article une tude comparative entre les trois approches
(symbolique, numrique et hybride). Cette tude a pour objectif dvaluer la robustesse
de chacune de ces approches ainsi que la mise en relief de leurs avantages et de leurs
inconvnients pour le rsum automatique.
La suite de cet article se structure autour de cinq piliers. Le premier pilier prsente la
mthode symbolique pour le rsum automatique de documents arabes implmente
dans le systme ARSTResume. Le deuxime pilier prsente la mthode numrique pour le
rsum automatique de documents arabes implmente dans le systme R.I.A. Le
troisime pilier prsente la mthode hybride pour le rsum automatique de documents
arabes implmente dans le systme HybridResume. Le quatrime pilier expose le corpus
226

dvaluation, lvaluation de ces trois systmes et les rsultats obtenus. Enfin, le
cinquime, montre une tude comparative entre les trois approches.
2 Mthode symbolique propose
Dans cette section, nous prsentons la mthode symbolique que nous proposons pour le
rsum automatique de documents arabes, ainsi quune description dtaille des
diffrentes tapes de cette mthode (Keskes, 2011).
2.1 Prsentation
La mthode symbolique propose pour le rsum automatique des documents arabes se
base principalement sur des techniques dextraction moyennant des critres
linguistiques. Elle repose sur la thorie de la structure rhtorique (RST) (Mann et
Thompson, 1988). Il sagit de dtecter les relations smantiques et les relations
intentionnelles qui existent entre les segments dun document. En effet, lanalyse
rhtorique a pour but dtablir les relations et les dpendances ainsi que limportance
relative des phrases ou propositions les unes par rapport aux autres (Keskes et Maloul,
2010). Notre mthode se droule en trois temps. D'abord, le reprage des relations
rhtoriques entre les diffrentes units minimales du texte dont lune possde le statut de
noyau qui est le segment de texte primordial pour la cohrence les autres ayant un
statut de noyau ou de satellite, sont des segments optionnels. Ensuite, le dressage et la
simplification de larbre RST. Enfin, la slection des phrases noyaux formant le rsum
final, selon type de relation rhtorique choisi pour lextrait.
lissue de notre tude du corpus, form de cent textes en langue arabe annots par trois
linguistes (ces derniers ont slectionn les phrases pertinentes), nous avons pu reprer
des frames de relations rhtoriques. Ces frames sont des rgles rhtoriques formes par
des signaux linguistiques. Ces signaux sont principalement des marqueurs linguistiques
indpendants dun domaine particulier pour le reprage des relations rhtoriques (Minel,
2002). Toutefois, ces marqueurs peuvent tre rpertoris en deux types : indicateurs
dclencheurs et indices complmentaires. Les indicateurs dclencheurs noncent la
prsence dune relation rhtorique. Les indices complmentaires sont recherchs dans un
espace dfini partir de lindicateur (dans le voisinage de lindicateur). Ils peuvent ainsi
agir, dans le contexte, afin de confirmer ou d'infirmer la relation rhtorique nonce par
lindicateur dclencheur. Ces rgles rhtoriques sont appliques pour construire par la
suite larbre rhtorique. partir de notre corpus dtude, nous avons numr vingt
relations rhtoriques. La table 1 prsente quelques relations :
Liste des
relations
rhtoriques
Condition / -
Concession / ---
Enumration / .,---
Restriction / '-`--
Confirmation / -,,-
Rduction / .,'--
Joint / =-
227

Evidence / -='
Ngation / --
TABLE1 -Exemples de relations rhtoriques
Le frame suivant est utilis pour dtecter la relation rhtorique ngation:
TABLE 2 -Frame de la relation rhtorique ngation
2.2. Description dtaille de la mthode
La mise en uvre fonctionnelle de notre mthode est reprsente par la figure 1. Elle
repose sur une segmentation diffrents niveaux (titres, sections, paragraphes, phrases)
ainsi que sur une recherche base sur les rgles rhtoriques afin de dtecter les relations
rhtoriques. Ces rgles rhtoriques sont utiles pour la construction de larbre rhtorique.
Enfin, travers le choix du type de rsum (i.e. rsum indicatif, rsum informatif, ),
on prcde la simplification de larbre et la slection des phrases du rsum.










FIGURE1-Principales tapes de la mthode symbolique
Nom de relation : {ngation / -- }
Contrainte sur (1) : Contient un/des indice(s) complmentaire(s){-', +-', --' , ' }
Contrainte sur (2) : Contient lindice dclencheur {', ' , ' , ,' , ,-,' , --,' }
Position de lindice
dclencheur
Milieu
Unit retenue (1)

Schmas
rhtoriques
Segmentation du texte

Construction de larbre RST
Dtermination des segments et leurs
natures

Dtection des relations rhtoriques
Slection des phrases du rsum
Extrait
Frames /rgles
rhtoriques
228

2.1.1 Segmentation du document source
La segmentation du document est une tape ncessaire pour la tche du rsum
automatique. Cette tape consiste hirarchiser et structurer le texte source en
diffrentes units (titres, sections, paragraphes et phrases).
Signalons, ce niveau de traitement, une grande difficult. En effet, La segmentation des
textes en langue arabe ne peut pas se reposer uniquement sur la ponctuation puisquelle
utilise certaines particules telles que " " (waw) et "" (f) et certains mots connecteurs
pour sparer entre les phrases (Belguith et al., 2005).
Pour notre corpus constitu de textes en format HTML, nous utilisons une segmentation
base sur les signes de ponctuation et sur un ensemble de balises HTML. Cette tape de
segmentation fournit en sortie un texte en format XML enrichi avec des balises encadrant
les titres : <,-=></,-=>, les sections : <=></=>, les paragraphes : <
-></ - > et les phrases : <'-=></'-=>.
La deuxime tape de la segmentation est la segmentation des phrases en units
minimales, en utilisant les indicateurs principaux des rgles rhtoriques, afin de
descendre un niveau plus bas dans l'analyse et de mieux dgager les relations. Ces
dernires sont encadres par les balises <'=></'=> (Tofiloski et al., 2009).
2.1.2 Application des rgles rhtoriques
Lapplication des rgles rhtoriques un double but : dterminer la nature des segments
(noyau ou satellite) et dtecter les relations rhtoriques entre ces segments.
2.1.2.1 Dtermination du segment Noyau et Satellite
Cette tape consiste reprer les indicateurs principaux dans les phrases dj
segmentes et prciser leurs positions dans l'unit minimale afin dappliquer les rgles
rhtoriques, en cherchant les indices complmentaires.
Dans cette tape, nous allons donner, pour chaque unit minimale, un statut qui indique
l'importance de cette unit par rapport la phrase ou pour lui donner plus dimportance
par rapport une autre unit minimale. Le statut peut tre un noyau ou un satellite.
Le noyau est un segment de texte qui comporte une information trs pertinente. C'est un
lment essentiel pour comprendre l'intention de l'auteur. Lorsqu'on limine le noyau,
nous ne pouvons pas comprendre le sens de la phrase. De mme, un satellite est un
segment de texte, mais qui comporte une information moins pertinente que le noyau.
Donc, le noyau est un segment de texte primordial pour la cohrence et le satellite est un
segment optionnel.
2.1.2.2 Dtection des relations rhtoriques
Cette tape consiste chercher les indices complmentaires de validation au voisinage
de l'indicateur principal, c'est--dire le segment qui contient l'indicateur principal et le
segment qui le prcde. C'est l'indicateur principal qui signale la relation rhtorique
229

entre ces deux segments et c'est le rle des indices complmentaires de confirmer ou non
cette relation et de valider aussi le statut des deux segments.
Cette technique nous permet une analyse plus profonde, en tenant compte de la
spcificit de la langue arabe sachant qu'on a des relations qui peuvent donner des sens
proches comme les relations "-=" et "'-`--" et aussi ",---" et ".,---".
2.1.3 Construction de larbre RST
Une fois ltape de dtection du type des units minimales et des diffrentes relations
rhtoriques existantes est acheve, nous ajoutons notre technique les schmas
rhtoriques (Mann et Thompson, 1988) afin de spcifier la composition structurale du
texte et construire l'arbre RST.
Ces schmas rhtoriques dcrivent lorganisation structurelle dun texte, quelque soit le
niveau hirarchique de ce dernier. Ils permettent de lier un noyau et un satellite, deux
ou plusieurs noyaux entre eux, et un noyau avec plusieurs satellites (Marcu, 1999).
Ainsi, les schmas rhtoriques se prsentent sous la forme de cinq modles de schmas
(figure 2) qui peuvent tre utiliss rcursivement pour dcrire des textes de taille
arbitraire.
Gnralement, le schma le plus utilis est celui liant un satellite unique un noyau
unique reprsent dans la figure 3.





FIGURE 2 -Schma rhtorique de base de la technique RST (Mann et al., 1988)
En plus des schmas rhtoriques, nous avons utilis d'autres rgles que nous avons
dgages suite une tude empirique. Ces rgles ont t valides par des linguistes. Elles
permettent de traiter aussi les cas o nous n'avons pas de relations entre les phrases et
assurent ainsi le maximum de couverture de texte que possible.
Afin de dterminer l'arbre RST le plus appropri pour le texte, nous avons essay
dtudier le texte et la manire dont l'auteur la crit. En effet, les auteurs veulent
principalement donner un message aux lecteurs. Ce message est mentionn comme
plusieurs faits; cependant, l'tude que nous avons faite sur le corpus prouve que les
auteurs tendent mentionner ces faits dans l'ordre, et chaque fait est suivi par des
rapports qui le soutiennent. travers cette tude empirique, nous avons pu dgager des
rgles de construction darbre RST reprsentes dans la table 3 :

Rel Rel
Rel Rel
Rel
N N
Rel
S N

N N
S N S N N N
230

Si (Indice principal est au dbut de la phrase) alors
la relation dtecte relie cette phrase avec la phrase prcdente.
R

g
l
e
s

Si (Indice principal est la fin de la phrase) alors
le segment qui contient cet indice est le seul qui contribue la dfinition de
la relation.
Si (on a une ou plusieurs phrases qui n'admettent pas de relation entre elles)
et (lindice principal qui les suit est au dbut de la phrase) alors
La relation relie toutes les phrases qui prcdent cet indice avec la phrase o
il se trouve.
TABLE3 Exemple de rgles de construction d'arbres
Prenons par exemple la premire rgle, elle exprime le fait que sil existe un marqueur
principal, qui dclenche une relation rhtorique, situ au dbut de la phrase, alors cette
relation relie entre le segment qui contient le marqueur principal et la phrase qui la
prcde. Car, smantiquement, cette relation doit tre subordonnante ou coordonnante
de la relation rhtorique quelle prcde et non pas le segment quil prcde (Keskes et
al., 2010b).
2.1.4 Slection des phrases du rsum
Une fois l'arbre gnr, nous allons faire l'lagage (simplification de l'arbre) selon le type
de rsum indicatif ou selon les relations choisies par l'utilisateur tout en tenant compte
des segments noyaux.
Tous les noyaux ne sont pas d'gale importance. En effet, ltape de slection des units
minimales importantes (noyaux), profite des relations entre les structures de discours
pour dcider du degr de leur importance. Lextrait final affiche les units noyaux
retenues aprs la simplification de larbre RST.
La simplification de larbre, prendra en considration la liste des relations retenues par
lutilisateur. Au cas o ce dernier ne prcise aucun choix, le systme dtermine
automatiquement les relations retenues pour le type de rsum indicatif. En effet, la
rduction de larbre RST se fait par la suppression de tous les descendants qui viennent
dune relation rhtorique non choisie par lutilisateur (Keskes et al., 2010a).
Cette mthode propose a t implmente dans le systme ARSTResume.
231

3 Mthode numrique propose
Dans cette section nous prsentons la mthode numrique propose pour le rsum
automatique de documents arabes, ainsi quune description dtaille des diffrentes
tapes de cette mthode.
3.1 Prsentation
La mthode numrique pour le rsum automatique, darticles de journaux en langue
arabe, se base sur une technique d'apprentissage. Plus prcisment, elle est base sur la
technique dapprentissage semi-supervis, qui se compose de deux phases savoir :
La phase d'apprentissage qui permet au systme d'apprendre extraire les phrases du
rsum. Cette phase se compose de deux tapes, une tape de segmentation et
dannotation, et une tape dapprentissage.
La deuxime phase est la phase d'utilisation qui permet aux utilisateurs de rsumer un
nouveau document. Cette phase est compose de deux tapes, une tape de segmentation
et dannotation et une tape de classification (Boudabous et al., 2010).
Les diffrentes phases de notre mthode sont illustres dans la figure 3.






FIGURE 3 -Principales tapes de la mthode numrique
3.2 Description dtaille de la mthode
3.2.1 Phase dapprentissage
La phase dapprentissage ncessite lutilisation dun corpus dentranement ainsi quune
base de critres dextraction.
Le corpus dentranement est constitu de cent documents tiquets (textes sources et
leurs rsums) en format HTML (au moyen de trois pages par document). Les rsums de
rfrence sont faits par trois experts humains afin dapprendre au systme comment
produire des rsums similaires ceux des experts humains de manire automatique.
Les critres dextraction sont utiliss pour annoter les phrases des documents constituant
notre corpus dentranement.

232

Nous avons class les critres dans deux classes : les critres positionnels et les critres
lexicaux. Ces derniers associent un score normalis chaque phrase, par contre les
critres positionnels classent les phrases selon leurs postions dans le texte, prsents dans
la table 4.
C
r
i
t

r
e
s

p
o
s
i
t
i
o
n
n
e
l
s

Position_ ph_texte Classe la phrase selon sa position dans le texte : 1 si la phrase est dans le
premier tiers du texte, 2 si elle est dans le deuxime tiers et 3 autrement.
Position_ ph_sec Classe la phrase selon sa position dans la section : 1 si la phrase est dans le
premier tiers du texte, 2 si elle est dans le deuxime tiers et 3 autrement.
C
r
i
t

r
e
s

l
e
x
i
c
a
u
x

Nb_mot_titre Calcule le nombre dapparition des mots du titre dans la phrase.
Nb_exp_bonus Calcule le nombre dexpressions bonus dans la phrase.
Tf*Idf Calcule le score tf*idf de la phrase.
TABLE 4 -Critres dextraction
- Segmentation et annotation du corpus
Cette tape aboutit la construction dun vecteur dextraction pour chaque unit du
texte. Lensemble des vecteurs dextraction forme un fichier dentre pour ltape
dapprentissage. La sous tape segmentation a pour but de dcouper le texte en units
minimales. Nous avons adopt la mme segmentation utilise dans la mthode
symbolique. Concernant la sous tape dannotation, lacte annotatif consiste donner
une valeur ou un jugement un segment du texte en se rfrant aux critres dextraction.
Cette tape a pour but dannoter chaque segment du texte selon les diffrents critres
dextraction prsents prcdemment. Chaque phrase de la collection est dcrite par
vecteur dextraction, o la valeur donne dun critre correspond la valeur danalyse de
la phrase selon ce critre.
- tape dapprentissage
Lalgorithme dapprentissage utilis est lalgorithme SVM (Machines Vecteurs de
Support). Le choix de cet algorithme se justifie par sa robustesse de classification binaire,
sa vitesse dexcution et son adaptation aux problmes non linairement sparables. Cet
algorithme gnre une seule rgle dextraction appele quation de lhyperplan qui
spare les phrases pertinentes des phrases non pertinentes. Ainsi, lalgorithme
dapprentissage limine les critres qui sont inutiles pour la phase dapprentissage.
3.2.2 Phase dutilisation
Cette phase permet lutilisateur du systme de bnficier des rsultats de la phase
dapprentissage pour rsumer un nouveau document. Les tapes par lesquelles passe le
233

texte rsumer sont : ltape de segmentation et dannotation, et ltape de classement.
Ltape de classification prend comme entres les vecteurs dextraction gnrs par
ltape de segmentation et dannotation et lquation de lhyperplan gnre par la phase
dapprentissage. Lquation de lhyperplan est utilise pour calculer le score de chaque
phrase en se basant sur les vecteurs dextraction. Cette mthode a t implmente dans
le systme Rsumeur Intelligent Arabe (R.I.A) (Boudabous et al., 2010).
4 Mthode hybride propose
Dans cette section, nous proposons une mthode hybride pour le rsum automatique.
Elle consiste coupler la mthode linguistique et la mthode numrique.
4.1 Prsentation
La mthode hybride, pour le rsum automatique des documents arabes, consiste
combiner la mthode symbolique base sur la RST et la mthode numrique base
dapprentissage. La figure 4 illustre le principe de cette mthode.

















FIGURE 4 -Principales phases de la mthode hybride



Segmentation
Vecteurs
dextraction
Classement
Extrait
XML
Classification
Construction de larbre RST
Slection
des phrases
du rsum
Extrait
XML
Frames /rgles
rhtoriques
Schmas
rhtorique
Rgles
dapprentissage
Dtermination des phrases communes
Extrait XML
Gnration
du rsum
HTML/XML
Dtermination des
segments et leurs natures
Dtection des relations
rhtoriques
234

4.2 Description dtaille de la mthode hybride
La mthode hybride que nous proposons se base sur la mthode symbolique et la
mthode numrique, qui ont en commun le corpus dtude et ltape de segmentation
des textes. Ces deux mthodes sont excutes simultanment (en parallle) comme nous
lavons dcrit ci-dessus (section 2.2 et 3.2), puis, nous avons ajout une tape de
combinaison des rsultats des deux mthodes.
Ltape de combinaison consiste slectionner les phrases communes des deux rsums
gnrs par la mthode symbolique et la mthode numrique. Cette combinaison permet
davoir un seul rsum pour chaque texte qui contient les phrases slectionnes la fois
par la mthode symbolique et par la mthode numrique.
Limplmentation de cette mthode est base sur lintgration des deux systmes
ARSTRsume et R.I.A., laquelle nous avons ajout ltape de combinaison. Le systme
dvelopp sappelle HybridResume.
5 valuation
Le corpus dvaluation est form de cent articles de presse, en langue arabe, rapatris du
journal Dar El Hayet
1
sans restriction quant a leurs contenu, taille, domaine et auteur.
Ainsi, nous avons procd lvaluation de la performance et de la pertinence des
rsums gnrs par les trois systmes, laide dune tude comparative qui mettra en
jeu les rsultats gnrs par les systmes avec ceux raliss par trois experts humain.
Nous avons utilis le mme corpus dvaluation pour valuer les trois systmes
(ARSTResume, R.I.A et HybridResume). Notons que ces trois systmes ont utilis le
mme module de segmentation pour avoir le mme ensemble de phrases traiter.
Nous avons procd trois exprimentations pour valuer les trois systmes. Chaque
exprimentation compare les rsums de nos systmes avec un rsum de lexpert. Le
tableau suivant prsente la moyenne de rappel, de prcision et de f-mesure pour chacun
des trois systmes par rapport aux trois experts.
ARSTResume R.I.A. HybridResume
Rappel Prcision F-mesure Rappel Prcision F-mesure Rappel Prcision F-mesure
Expert 1 0.52 0.58 0.52 0.59 0.62 0.6 0.52 0.66 0.63
Expert 2 0.39 0.62 0.46 0.53 0.7 0.6 0.58 0.74 0.7
Expert 3 0.5 0.59 0.51 0.63 0.7 0.66 0.6 0.79 0.71
Moyenne 0.47 0.6 0.5 0.58 0.67 0.62 0.57 0.73 0.68
TABLE 5 Rsultats dvaluation des trois systmes

1
Source : http://www.daralhayat.com
235

Nous remarquons que l'approche numrique est plus performante que l'approche
symbolique et qu'HybridResume surclasse l'approche numrique sur ce corpus, et ce pour
les 3 types de mesures effectues.
6 Discussion des rsultats obtenus
Suite lvaluation des trois systmes, nous avons obtenu comme valeurs moyennes de
rappel, de prcision et de F-Mesure respectivement : 47%, 60% et 50% pour le systme
ARSTRsume, 58%, 67% et 62% pour le systme R.I.A et 57%, 73% et 68% pour le
systme HybridResume. Nous remarquons, que ces mesures diffrentes dun systme un
autre et dun expert lautre. Cela se justifie par le fait que chaque systme sa propre
mthode, et que le rsum avec lequel nous faisons la comparaison dpend du jugement
vis--vis du domaine dintrt de lexpert.
En comparant les mesures des trois systmes simultanment, nous avons remarqu que le
systme HybridResume prsente toujours les mesures les plus leves. Voyons d'o cela
provient en comparant les deux systmes ARSTRsume et R.I.A.
En examinant ses mesures calcules sur le corpus dvaluation pour chacun des deux
systmes, ARSTRsueme et R.I.A, nous avons remarqu que plus le texte est long, plus le
systme ARSTRsume prsente les mesures de rappel et de prcision les plus leves. En
effet, cette dduction se justifie par le fait que plus le texte est long, plus il contient de
marqueurs linguistiques et de relations rhtoriques. Par consquent, le systme
ARSTRsume fait le maximum de couverture pour gnrer un extrait semblable celui
ralis par lexpert humain.
A contrario, le systme R.I.A., prsente ses mesures de rappel et de prcision, les plus
leves lorsque le texte est court, car, plus le texte est long, plus nous avons un calcul
complexe qui diminue la performance du systme.
HybridResume se comporte mieux en moyenne sur un corpus de texte bien distribu
entre textes longs et courts, ce qui justifie ses meilleures performances.
7 Conclusion
L'tude, que nous avons prsente, s'inscrit dans le cadre des travaux de recherche
effectus sur les rsums automatiques de documents arabes. Dans ce contexte, nous
avons prsent trois mthodes diffrentes de rsum automatique (i.e. une mthode
symbolique, une mthode numrique et une mthode hybride). Nous avons implment
ces trois mthodes respectivement dans les trois systmes ARSTResume, R.I.A et
HybridResume.
Ces trois systmes ont t valus sur un mme corpus dvaluation compos de cent
textes rsums par trois experts. Lvaluation, a montr que le systme R.I.A produit des
rsultats meilleurs que ceux produits par le systme ARSTResume. En effet, les mesures
de prcision sont respectivement de 60% et 67% pour les systmes ARSTResume et R.I.A.
La performance relative au systme R.I.A par rapport au systme ARSTResume sexplique
236

par la difficult de lanalyse linguistique. En effet, labsence de relations rhtoriques, la
prsence des mots ambigus et le manque dinformations morphologiques ont une
influence ngative sur les valeurs de rappel et de prcision. Toutefois, le systme
HybridResume, qui implmente une mthode hybride, donne les meilleurs rsultats
(73% de prcision).
Suite cette tude comparative, Nous avons conclu que lapproche numrique est plus
robuste que lapproche symbolique, lorsque le texte est court et que lapproche
symbolique est plus robuste lorsque le texte est long. Par consquent, nous trouvons que
la combinaison de ces deux approches en une approche hybride donne de meilleurs
rsultats.
Comme perspective, nous envisageons dintroduire une analyse morphologique pour la
mthode symbolique en vue de mieux reprer les relations rhtoriques et damliorer les
performances des systmes.
8 Bibliographie
AMINI M.R.(2001). Apprentissage Automatique et Recherche dinformation: Application
lextraction dinformation de surface et au rsum de texte. Thse de doctorat, universit
Paris-6 France.
ASHER N.(1993). Reference to Abstract Objects in Discourse. Kluwer Academic
Publishers, Netherlands.
Azmi A.M. et Al-Thanyyan S.(2012). A Text Summarizer for Arabic. Computer Speech &
Language. ISSN :0885-2308.
BELGUITH H.L., BACCOUR L. et MOURAD G.(2005). Segmentation de textes arabes base sur
l'analyse contextuelle des signes de ponctuations et de certaines particules. 12me
confrence sur le Traitement Automatique des Langues Naturelles (TALN2005),
Dourdan, France, 6-10 juin 2005, pp 451456.
BOUDABOUS M.M., MAALOUL, M.H. et BELGUITH H. L.(2010). Digital Learning for
Summarizing ARABIC Documents . IceTAL, Islande.
IRAKY K., ZAKAREYA A. et FARAWILA A.(2011). Arabic Discourse Segmentation Based on
Rhetorical Methods. International Journal of Electric & Computer Sciences IJECS-IJENS
Vol: 11 No: 01.
IRIA C., SILVIA F., PATRICIA v., VIVALDI J., SANJUAN E. et TORRES-MORENO J. M.(2007). A
new hybrid summarizer based on Vector Space Model, Statistical Physics and Linguistics.
Lecture Notes in Computer Science 4827. 872-882. ISSN 0302-9743.
KAMP H. et REYEL U.(1993), From Discourse To Logic , Dordrecht Kluwer.
KAMP H.(1981). Evnements, reprsentations discursives et rfrence temporelle.
Langages, p 34-64.
237

KESKES I.(2011). Rsum automatique de textes arabes bas sur une approche
symbolique. Editeur : EUE. ISBN-13 : 978-3841780232
KESKES I. et MAALOUL M. H.(2010). Rsum automatique de documents arabes bas sur
la technique RST . Confrence international de Rencontre des tudiants Chercheurs en
Informatique pour le Traitement Automatique des Langues (TALN /RECITAL 2010),
12me edition, Montral Canada.
KESKES I., MAALOUL M. H. et BELGUITH L. H.(2010) ,(a). ,--'' '` ,='-' _'= '--= ,-'
,=`-' ,--' ,=- . International Computing Conference in Arabic, 6me dition,
Hammamet Tunisie, prix du Best Paper.
KESKES I., MALOUL M. H., BELGUITH L. H. et BLACHE P.(2010), (b). Automatic
summarization of Arabic texts based on RST technique. International Conference on
Enterprise Information Systems, 12me edition, Madeira Portugal.
LASCARIDES A. et ASHER N.(1993), Temporal Interpretation, Discourse Relations, and
Commonsense Entailment , Linguistics and Philosophy, 16(5).
MALOUL M. H.(2007). Al Lakas Eleli / '= '' '` : Un systme de rsum automatique
de documents arabes . IBIMA.
MANN W. C. et THOMPSON S. A.(1988). Rhetorical structure theory: Toward a functional
theory of text organization . Text, 8(3), p 243 281.
MARCU D.(1999). Discourse trees are good indicator of importance in text, Advances in
Automatic Text Summarization. p123 136.
MINEL J.L.( 2002). Filtrage smantique : du rsum automatique la fouille de textes.
Herms Science Publications, Paris.
MOURAD G.(1999). La segmentation de textes par ltude de la ponctuation. CIDE99,
Document Electronique Dynamique, p 155 171, Damas, Syrie.
NICOLAS U., AMINI M.R. et GALLINARI P.(2005). Rsum automatique de texte avec un
algorithme d'ordonnancement . CORIA.
TOFILOSKI M., BROOKE J. et TABOADA M.(2009). A Syntactic and Lexical-Based Discourse
Segmenter. In Proceedings of the 47th Annual Meeting of the Association for
Computational Linguistics.

238

You might also like