You are on page 1of 10

Catgorisation automatique du courriel en fonction

de catgories pragmatiques
Inge Alberts, Dominic Forest, Suzanne Bertrand-Gastaldy
cole de bibliothconomie et des sciences de linformation, Universit de Montral
C.P. 6128, succursale Centre-ville, Montral, QC, H3C 3J7 Canada

Rsum
Cette communication expose les rsultats dune exprimentation visant la catgorisation automatique du courriel
de cadres gouvernementaux et municipaux. Dans un premier temps, une typologie des patrons de catgorisation
du courriel des cadres fut dveloppe, grce une tude qualitative ralise auprs de 34 participants. Inspire
de la thorie des actes de langage, cette typologie imite les comportements de lecture et de tri du courriel. Dans
un deuxime temps, un corpus de 1703 messages fut labor, partir dun chantillon remis par deux cadres. Les
traitements statistiques, qui ont fait appel lalgorithme des KNN, dmontrent que la catgorisation automatique
base sur le lexique des messages est beaucoup plus performante, lorsque K=2 et N=2000. Pour quatre catgories,
le taux de rappel moyen est de 94,32%, le taux de prcision moyen est de 94,50% et le taux dexactitude (nombre
de documents correctement catgoriss / nombre total de documents dans le corpus) est de 94,54%. Pour treize
catgories, le taux de rappel moyen est de 91,09%, le taux de prcision moyen est de 84,18% et le taux dexactitude
est de 88,70%. galement, il apparat que les qualits non lexicales des messages sont profondment influences
par la pragmatique du courriel. Parmi les critres de caractrisation les plus pertinents, ce sont les indices relatifs
au destinataire et lexpditeur qui arrivent en tte.

Abstract
This communication presents the results of an experiment aiming for the automatic categorization of email
pertaining to municipal and governmental managers. This experiment first developed a typology based on email
categorization patterns derived from a qualitative study of 34 participants. Inspired by the Speech Act Theory,
this typology simulated the managers practices while reading and sorting their email. A corpus of 1703 messages
was then developed from a sample provided by two managers. A statistical analysis, which employed the KNN
algorithm, revealed that automatic categorization based on the lexicon of messages is much more efficient when K
= 2 and N = 2000. Four categories had an average recall rate of 94.32%, an average precision rate of 94.50% and an
accuracy rate of 94.54%. Of the thirteen categories, the average recall rate was 91.09%, the average precision rate
is 84.18% and the accuracy rate is 88.70%. Results also showed that the non lexical qualities of email messages
are deeply influenced by the pragmatics of the email. Among the characterizing criteria, the most relevant are the
cues related to the recipient and the sender.

Keywords: speech act, automatic categorization, email, KNN, supervised approach, pragmatic theories

1. Introduction
La surcharge induite par le courriel est un phnomne attest. Les utilisateurs se plaignent du
volume de messages quils reoivent, de la prsence de messages non sollicits et du manque
de fonctionnalits offertes par les systmes de messagerie commerciaux (Alberts, 2009). Ces
problmes dcoulent principalement du fait que les systmes ne mettent pas disposition de
JADT 2010 : 10th International Conference on Statistical Analysis of Textual Data

18 CATGORISATION AUTOMATIQUE DU COURRIEL EN FONCTION DE CATGORIES PRAGMATIQUES

leurs utilisateurs des options labores de tri. Suivant lobjectif de proposer une solution de
catgorisation automatique permettant des cadres gouvernementaux et municipaux de filtrer
plus efficacement leur courriel, cette communication explore une approche pragmatique faisant
appel la thorie des actes de langage.

2. Revue de la littrature pertinente


2.1. Pragmatique et actes de langage
Au cur de la pragmatique, la thorie des actes de langage stipule que le texte permet de
vhiculer un message porteur de sens tout en comportant des indications relatives au rle adopt
par le locuteur et les actes que ce locuteur tente daccomplir. On distingue gnralement trois
types dactes de langage permettant de distinguer ce qui est accompli au cours de lnonciation:
lacte locutoire, lacte illocutoire et lacte perlocutoire (Austin, 1970).
Lacte locutoire est dfini comme un acte de langage qui consiste simplement produire des
sons, organiss selon une certaine grammaire et possdant une certaine signification (Austin,
1970: 181). Par essence, lacte locutoire est galement un acte illocutoire qui produit quelque
chose EN disant et un acte perlocutoire qui produit quelque chose PAR le fait de dire
(Austin,1970:181). Pour quun acte illocutoire soit accompli avec succs, un auditeur doit
reconnatre la valeur que le locuteur entend donner son nonciation ; cest donc en vertu
de conventions que les actes illocutoires sont reconnus comme tels, contrairement aux actes
perlocutoires qui ne rsultent pas de conventions, mais relvent plutt du domaine de limplicite
(Cervoni,1987:118).
Parce que lacte illocutoire est un acte conventionnel relativement prvisible, Searle (1972) a
popularis une typologie des valeurs illocutoires du langage. Cette typologie comporte cinq
familles dactes illocutoires: (1) dclaratifs; (2) directifs; (3) promissifs; (4) expressifs; (5)
assertifs. Cette typologie a inspir la recherche sur la catgorisation automatique du courriel.
2.2. Pragmatique et catgorisation automatique du courriel
tant donn que le courriel est principalement utilis pour ngocier et dlguer des tches,
des chercheurs proposent dutiliser la typologie des actes illocutoires afin de catgoriser
automatiquement les messages selon les intentions de lexpditeur (Cohen et al., 2004 ; Carvalho
and Cohen, 2005; 2006 ; Goldstein and Sabin, 2006; Scerri et al., 2007). cet effet, les auteurs
sinspirent gnralement de la taxonomie des actes du courriel de Cohen et al. (2004).
Dveloppe partir des travaux de Winograd (1988) qui avait adapt la typologie des actes
illocutoires de Searle au dveloppement dun outil de communication asynchrone, la typologie
des actes du courriel inventorie les diffrentes fonctions (purposes) du courriel. Elle consiste
en deux principaux types dactes (commissifs et directifs) auxquels sont associs des verbes (tels
que demander ou proposer) et des objets (tels quun vnement ou une opinion). Si la plupart
des tudes qui adoptent cette approche visent le dveloppement dalgorithmes performants pour
dtecter ou catgoriser des messages en fonction de leurs actes de langage, certaines tudes se
dmarquent par des apports thoriques novateurs.
Par exemple, Goldstein et Sabin (2006) proposent denrichir la typologie des actes du courriel
de Cohen et al. (2004) en tenant compte de la dimension conversationnelle propre aux changes
asynchrones. Ils raffinent cette typologie en ajoutant des catgories telles que rpondre et
rpondre avec transmission de documents. Dans un ordre dides similaire, Scerri et al. (2007)
JADT 2010: 10th International Conference on Statistical Analysis of Textual Data

INGE ALBERTS, DOMINIC FOREST, SUZANNE BERTRAND-GASTALDY

19

proposent galement denrichir la typologie des actes de courriel par une approche
conversationnelle qui tiendrait compte de la dimension perlocutoire des actes de langage. Cette
typologie modlise le flot conversationnel, en indiquant par exemple si lacte de langage
lorigine dune conversation initie ou continue une discussion existante. On y tient galement
compte de lobjet de lacte de langage, qui peut porter sur une activit lextrieur des frontires
du courriel (un vnement ou une tche) ou sur un objet propre un message (une information
ou une ressource documentaire).
Dans le cadre de cette prsente recherche, ces avances permettent denvisager une catgorisation
automatique du courriel plus performante, non seulement en fonction de lintention de lmetteur
dun message (acte illocutoire), mais aussi suivant dautres facteurs contextuels susceptibles
dinfluencer les pratiques relles de lecture et de tri.

3. Phase 1: tude des pratiques dinteraction avecle courriel


Avant de procder lexercice de catgorisation automatique du courriel (phase 2), une tude
qualitative fut mene (phase 1), afin de dceler lensemble des dimensions pragmatiques
propres la lecture et au tri des messages en contexte professionnel. La mthodologie ainsi que
la typologie des actes du courriel rsultant de cette analyse sont brivement dcrites.
3.1. Mthodologie
La phase qualitative sest droule dans le contexte de deux projets de recherche ainsi que dune
thse de doctorat. Lchantillon comprenait dix-sept cadres et de dix-sept secrtaires provenant
de deux administrations publiques. Trois modes de collecte des donnes furent employs :
lentrevue semi-dirige, le journal de bord et lenqute cognitive. Il sagissait dtudier les
diffrentes pratiques dinteraction avec les textes dans les environnements numriques de
travail, particulirement celles excutes par lentremise du courriel.
Trente-quatre entrevues semi-diriges, trente journaux de bord, trente entrevues de clture
ralises lors de la remise des journaux de bord ainsi que cinq enqutes cognitives (verbalisation
des pratiques de lecture et de tri du courriel) ont t colliges. Lanalyse a fait appel une
stratgie de codage alliant les modes inductif et dductif.
3.2. Typologie des patrons de catgorisation du courriel
Au terme de lanalyse, les rsultats ont rvl que certains facteurs contextuels (le dlai,
lexpditeur, laction entreprendre, la position dans une conversation, lobjet et le sujet)
soutiennent une catgorisation implicite des messages par le destinataire, qui lui associe
diffrents niveaux de priorit et dengagement (Alberts and Bertrand-Gastaldy, 2008). Cette
catgorisation, qui facilite le processus de tri, permet lemploy dorganiser plus efficacement
ses activits de travail. En vue de prparer les traitements statistiques visant une catgorisation
automatique du courriel des cadres, les catgories dcrites au cours des entrevues et des enqutes
cognitives ont t prcises lors de lanalyse du corpus qui sera dcrite la section 4.1. Cette
analyse a permis daffiner les catgories en soutenant llaboration dune typologie des patrons
de catgorisation du courriel (Fig. 1).
La typologie prsente quatre catgories de premier niveau et treize sous-catgories qui rsument
les patrons de catgorisation des cadres. Soulignons que ces patrons sont galement adopts
par les secrtaires qui trient le courriel de leurs superviseurs. La typologie privilgie le point
de vue du destinataire plutt que celui de lmetteur, avec des catgories qui tiennent compte
JADT 2010: 10th International Conference on Statistical Analysis of Textual Data

20 CATGORISATION AUTOMATIQUE DU COURRIEL EN FONCTION DE CATGORIES PRAGMATIQUES

des facteurs contextuels importants lors du tri des messages. Elle soutient ainsi lvaluation de
lengagement engendr par un message et lattribution dun niveau de priorit.
Les quatre catgories de premier niveau aident le destinataire valuer le degr dengagement
dun message. La catgorie action, qui regroupe les courriels engageant le destinataire effectuer
une tche, ncessite le plus haut degr dengagement.La catgorie raction, qui regroupe les
rponses dun expditeur une demande du destinataire, ncessite un niveau dengagement
moyen, une rponse pouvant engendrer une nouvelle action pour le destinataire. Les catgories
suivi de lenvironnement direct et suivi de lenvironnement indirect regroupent les courriels
caractre informationnel, ne ncessitant pas daction pour le destinataire. La distinction entre
ces deux catgories se fonde sur une modlisation du rseau social du destinataire (le nom des
employs sous sa supervision ainsi que ses suprieurs hirarchiques). Le suivi direct rassemble
les messages pour lesquels lexpditeur appartient au rseau social du destinataire. Le suivi
indirect rassemble les informations non cibles et les communications gnrales (spam).

Figure 1: Typologie des patrons de catgorisation du courriel

4. Phase 2: Catgorisation automatique du courriel


Conscutive la phase qualitative, la deuxime phase de la recherche a impliqu la mise au
point de traitements statistiques visant une catgorisation automatique du courriel de cadres. Il
sagissait dabord dvaluer sil est possible de prdire une catgorisation a priori des courriels
en fonction dindices lexicaux, mais aussi dindices non lexicaux propres la typologie
des patrons de catgorisation labore durant la premire phase. Il sagissait galement de
dterminer parmi les indices non lexicaux qui caractrisent chaque catgorie de cette typologie,
quels sont les plus discriminants. Dans le prsent article, nous nous sommes limits discuter
principalement les rsultats obtenus lors des exprimentations qui furent menes en utilisant les
indices de catgorisation (cest--dire les traits discriminants) de nature non lexicale. Nous les
comparons trs sommairement aux rsultats obtenus lors des exprimentations employant les
traits discriminants de nature lexicale. Une prsentation dtaille des exprimentations utilisant
les traits discriminants lexicaux pourra tre consulte prochainement dans Alberts et Forest (en
prparation).
4.1. Constitution du corpus et prtraitement
Un corpus fut labor laide du courriel de deux cadres gouvernementaux. Le premier
chantillon (cadre 1) comprenait originellement 591 messages et le deuxime (cadre 2), 1615
messages.
JADT 2010: 10th International Conference on Statistical Analysis of Textual Data

INGE ALBERTS, DOMINIC FOREST, SUZANNE BERTRAND-GASTALDY

21

4.1.1. Analyse et catgorisation manuelle


La premire tape a consist analyser lensemble des messages remis par les cadres afin de
les catgoriser en fonction dela typologie (Fig. 1). Au total, 503 messages furent retirs du
corpus final : 313 messages de langue anglaise, 117 messages pouvant appartenir plus dune
catgorie, 15 messages personnels (peu reprsents dans le corpus), 16 confirmations de lecture
automatiques, 25 messages davertissement que la taille limite de stockage est dpasse et 17
messages reus en double. Mme si la prsence de ces messages refltent la ralit et que leur
suppression peut constituer une source de biais, la dcision fut nanmoins prise de les retirer du
corpus afin de limiter le risque derreurs lors de cette premire exprimentation. cette tape,
les 1703 messages restants ont t renomms avec ltiquette de leur catgorie dattribution
suivie dun numro squentiel et du code du rpondant.
4.1.2. Profilage manuel (constitution du corpus de rfrence)
Afin que lalgorithme de catgorisation puisse tenir compte des indices non lexicaux lui
permettant de prdire quelle catgorie un message appartient, chaque message a d tre dcrit
manuellement dans une matrice non lexicale. La matrice utilise cet effet comportait donc
des indices non lexicaux, choisis en fonction des rsultats de la phase qualitative, ainsi que la
catgorie manuellement attribue chaque message ( des fins dapprentissage).
Par exemple, on retrouve dans la matrice une description de chaque courriel en fonction dindices
visuels (utilisation de caractres gras, de majuscules et dimages insres), dinformations
structurelles (nombre de destinataires dans le champ , emplacement du destinataire dans
le champ ou CC, prsence des abrviations RE, FW et TR dans le champ Objet), de
caractristiques des pices jointes (pice jointe directement au message ou prsente dans le fil
de discussion) et dinformations contextuelles (appartenance de lexpditeur au rseau social
du destinataire, prsence dune signature officielle ou utilisation du prnom).
4.1.3. Filtrage en vue de la catgorisation non lexicale
Une fois la matrice complte, les messages en format propritaire ont t enregistrs en format
texte. Afin de limiter les sources de bruit au cours du processus de catgorisation automatique,
les dcisions suivantes ont t prises cette tape : suppression des fils de discussion,
suppression de la portion anglaise des messages, suppression des pices jointes et suppression
des signatures. Des attributs relatifs la prsence ou labsence dun fil de discussion, la
prsence de messages bilingues, la prsence ou labsence de pice jointe, la position de la
pice jointe dans un fil de discussion (externe au message ou imbrique dans un message) ainsi
que des attributs relatifs la prsence et la nature dune signature (signature officielle par
opposition une signature informelle) ont t consigns dans la matrice.
4.1.4. Filtrage en vue de la catgorisation lexicale
Ltape du nettoyage automatique a port sur le lexique du corpus analyser. Il sagissait
ici de lui appliquer diffrents filtres statistiques et linguistiques dans le but daugmenter la
qualit gnrale des analyses (Forest, 2006: 37). Le filtrage du lexique a t effectu laide
de lapplication commerciale de fouille de textes Wordstat de Provalis Research (version
5.1.10). cette tape, trois oprations ont t effectues sur le lexique: suppression des mots
fonctionnels, lemmatisation et application dun filtre statistique sur les mots dont la frquence
dans chacun des messages tait infrieure 2 et ceux figurant dans plus de 25% des messages
(seuils dtermins empiriquement).
JADT 2010: 10th International Conference on Statistical Analysis of Textual Data

22 CATGORISATION AUTOMATIQUE DU COURRIEL EN FONCTION DE CATGORIES PRAGMATIQUES

Au terme des tapes de prtraitement, nous disposions dun corpus de 1.703 messages individuels
en format texte qui ont servi la mise au point des traitements automatiques. Le lexique filtr
comporte 5.051 mots, ce qui constitue environ 55% du lexique dorigine (cest--dire, 160.410
occurrences et 9.262 formes).
4.2. Format des donnes soumises aux diffrents traitements
Dans le cadre de cette exprimentation, les messages soumis aux diffrents traitements statistiques
se prsentent sous forme de matrices de vecteurs. Puisque les analyses statistiques visent non
seulement la catgorisation automatique des messages, mais galement lidentification des
indices non lexicaux les plus discriminants pour chaque catgorie de messages, deux matrices
furent utilisesau cours des traitements:
a) Une matrice non lexicale comportant 22 indices (features) choisis sur la base des rsultats de la phase
qualitative. Cette matrice est construite en indiquant labsence (valeur = 0) ou la prsence (valeur = 1) de
chacun des traits caractristiques dans chacun des 1703 messages. Certaines valeurs (par exemple, le nombre
de destinataires dans le champ CC) ont galement t pondres (telles que 1, pour un seul destinataire, 2 pour
deux destinataires et 3 pour plus de trois destinataires). La matrice non lexicale comprend donc 1703 X 22
vecteurs.
b) Une matrice lexicale comportant les 5051 mots (features) du lexique filtr, pondre en fonction de la
frquence dapparition du lexique dans le corpus ltude. La taille de la matrice cre est donc de 1703
(courriels) x 5051 (nombre maximal de traits discriminants).

4.3. Paramtres des exprimentations


4.3.1. Catgorisation automatique
La premire srie dexprimentations a port sur les indices non lexicaux propres au courriel,
tels que dcrits dans la matrice non lexicale. La catgorisation automatique et le reprage des
indices les plus discriminants furent effectus laide du logiciel de fouille de donnes Tanagra
(version 1.4.28) dvelopp par lEquipe de Recherche en Ingnierie des Connaissances de
lUniversit Lumire Lyon 2.
Aprs plusieurs explorations statistiques, il sest avr ici que lalgorithme des KNN (k nearest
neighbours, ou k plus proches voisins) est le plus performant pour catgoriser les messages en
fonction des treize catgories de la taxonomie. Cette mthode dapprentissage supervis repose
sur lhypothse thorique que des messages semblables devraient appartenir des catgories
semblables. Il sagit ainsi de dfinir un voisinage (nombre de K) autour du message classer
et estimer localement les probabilits dappartenance une catgorie, K=1 tant le plus proche
voisin.
Lors de nos exprimentations, nous avons fait varier la fois le nombre de voisins K autour
du message classer et le nombre de traits considrer (ici, les 22 traits non lexicaux). Ainsi,
plusieurs exprimentations ont t effectues laide de ces paramtres afin dobtenir une
catgorisation automatique optimale.
La deuxime srie dexprimentations a port sur le lexique des messages. La catgorisation
automatique fut effectue laide du logiciel Wordstat de Provalis Research (version 5.1.10).
Aprs plusieurs explorations statistiques, il sest galement avr que lalgorithme des KNN
est le plus performant pour catgoriser automatiquement les messages sur une base lexicale.
Afin dassurer la qualit de la procdure de catgorisation, nous avons adopt une mthode
dchantillonnage reposant sur le principe de la validation croise. Dans notre exprimentation,
JADT 2010: 10th International Conference on Statistical Analysis of Textual Data

INGE ALBERTS, DOMINIC FOREST, SUZANNE BERTRAND-GASTALDY

23

nous avons eu recours 10 groupes; lapprentissage sest effectu sur 9 groupes, le taux derreur
tant calcul sur le groupe restant (10-fold cross-validation).
4.3.2. Slection des indices non lexicaux les plus discriminants
Afin de dterminer quels sont les indices non lexicaux les plus pertinents lorsquil sagit de
caractriser les catgories dans leur ensemble, nous avons utilis une fonction de feature
ranking, laquelle permet didentifier les traits discriminants les plus influents lors du processus
de catgorisation. Cette fonction, qui mesure le degr dassociation entre deux variables
nominales, permet ici dvaluer quels indices non lexicaux sont davantage discriminants
lorsquil sagit de caractriser les messages appartenant aux quatre catgories de premier
niveau, puis aux treize catgories de sous-niveaux.

5. Rsultats
Cette section prsente les rsultats des analyses statistiques du courriel des cadres. Tout dabord,
les rsultats dela catgorisation automatique sont exposs. Ensuite,les indices non lexicaux qui
savrent les plus discriminants sont prsents.
5.1. Catgorisation automatique
La catgorisation automatique en fonction des indices non lexicaux et lexicaux fut effectue
laide de lalgorithme KNN, o K=2. Pour la catgorisation lexicale, il sest avr que les
performances taient gnralement plus leves lorsque K=2 partir de N=2000 (i.e. lorsque
2000 mots sont employs pour dcrire les documents); N=2000, les performances atteignent
un plateau pour naugmenter que trs minimalement par rapport laugmentation rapide
du nombre de mots (features). Afin de permettre une comparaison des performances de
la catgorisation lexicale par rapport la catgorisation non lexicale, nous avons retenu les
rsultats o K=2 et N=2000, pour quatre et treize catgories. Tab. 1 rsume les rsultats obtenus
par lopration de catgorisation, selon les quatre catgories principales de la typologie, puis les
treize sous-catgories.


Catgorie
Mesure

Catgorisation
non lexicale
Score (K=2)

Catgorisation
lexicale
Score (K=2)

4 catgories

Rappel
Prcision
Exactitude

56.01
40.91
59.71

94.32
94.50
94.54

13 catgories

Rappel
Prcision
Exactitude

35.98
59.63
51.82

91.09
84.18
88.70

Tableau 1: Rsultat de la catgorisation automatique non lexicale et lexicale

En consultant les rsultats figurant dans ce tableau, on constate que le processus de catgorisation
automatique en fonction dindices non lexicaux propres au courriel donne des rsultats beaucoup
moins performants. Sur 1700 messages classs dans le corpus (3 messages ont t carts par
le systme), les performances moyennes du systme sont les suivantes: pour quatre catgories,
le taux de rappel moyen est de 56.01%, le taux de prcision moyen est de 40.91% et le taux
dexactitude (nombre de documents correctement catgoriss / nombre total de documents dans
JADT 2010: 10th International Conference on Statistical Analysis of Textual Data

24 CATGORISATION AUTOMATIQUE DU COURRIEL EN FONCTION DE CATGORIES PRAGMATIQUES

le corpus) est de 59.71%. Pour les treize catgories, le taux de rappel moyen est de 35.98%,
le taux de prcision moyen est de 59.63% et le taux dexactitude est de 51.82%. Cependant,
on constate que le processus de catgorisation automatique en fonction dindices lexicaux
propres au courriel donne des rsultats trs satisfaisants. Sur les 1703 messages du corpus,
les performances moyennes du systme sont les suivantes: pour quatre catgories, le taux de
rappel moyen est de 94.32%, le taux de prcision moyen est de 94.5% et le taux dexactitude
est de 94.54%. Pour les treize catgories, le taux de rappel moyen est de 91.09%, le taux de
prcision moyen est de 84.18% et le taux dexactitude est de 88.70%.
5.2. Slection des indices non lexicaux les plus discriminants
La figure 2 rvle la pertinence des caractristiques lies lmetteur et au destinataire des
messages lorsquil sagit de catgoriser le courriel en fonction des quatre catgories de premier
niveau. Spcifions que, contrairement au seuil de signification traditionnellement admis en
statistiques (soit 0.05), la valeur du p correspond ici la probabilit que le degr dassociation
soit d au hasard. Ainsi, on peut conclure, si p=0, que le hasard nest pas la cause dexplication
du lien entre les variables.

Figure 2: Pertinence des indices non lexicaux pour quatre catgories

Lappartenance de lmetteur au groupe social du destinataire constitue ici lindice qui arrive
en tte (De=Groupe social). En deuxime et troisime position, cest le destinataire qui est en
cause, avec des indices portant sur la prsence dune liste denvoi dans le champ principal
(=Liste denvoi) et le nombre de destinataires en copie conforme (Nbre CC). En sixime
position, le fait que lmetteur est une liste denvoi est galement reprsent (De=Liste denvoi).
Fait intressant, il semble galement que certains indices lis laspect visuel des messages
savrent pertinents lorsquil sagit de caractriser les messages suivant quatre catgories. On
retrouve en quatrime position lindice li lusage du caractre gras, en septime position
lindice li lusage dimages et en huitime position le recours aux majuscules. Lindicateur
JADT 2010: 10th International Conference on Statistical Analysis of Textual Data

INGE ALBERTS, DOMINIC FOREST, SUZANNE BERTRAND-GASTALDY

25

relatif lusage altern du franais et de langlais (Bilingue) est aussi un trait pertinent, puisquil
arrive en cinquime position.
Fig. 3, qui permet de comparer quels indices non lexicaux sont davantage pertinents pour
caractriser les messages appartenant aux treize catgories de sous-niveaux, prsente des
rsultats similaires ceux obtenus pour quatre catgories. Notamment, on retrouve en deuxime
position lindice li lappartenance de lmetteur au groupe social du destinataire (De=Groupe
social), ce qui confirme sa pertinence au cours du processus de catgorisation. Le nombre de
destinataires en copie conforme (Nbre CC), le bilinguisme des messages (Bilingue), le recours
aux listes denvoi (=Liste denvoi, De=Liste denvoi) ainsi que lutilisation des caractres
gras sont galement des indices importants.

Figure 3: Pertinence des indices non lexicaux pour treize catgories

6. Discussion et conclusion
Dans notre tude, nous avons obtenu des rsultats performants avec lalgorithme des KNN (o
K=2 et N=2000) pour catgoriser automatiquement les courriels en fonction de leur lexique.
Pour la catgorisation lexicale quatre catgories, le taux de rappel moyen fut de 94.32%,
le taux de prcision moyen fut de 94.50% et le taux dexactitude fut de 94.54%. Pour treize
catgories, le taux de rappel moyen fut de 91.09%, le taux de prcision moyen fut de 84.18%
et le taux dexactitude fut de 88.70%. Dans le cadre de mthodes supervises, Carvalho et
Cohen (2005) ont obtenu des rsultats allant jusqu 82% pour huit catgories selon la mesure
F, avec un algorithme (Dependency Network) tenant compte du lexique des messages.
Goldstein et Sabin (2006) ont obtenu jusqu 63% dexactitude pour cinq catgories avec un
algorithme (Random Forest) tenant compte du lexique et de la longueur des messages. Nous
avons dmontr que les indices non lexicaux savrent moins performants que les indices
lexicaux comme traits discriminants pour catgoriser automatiquement de courriels en fonction
de catgories pragmatiques. Mme si les rsultats obtenus laide des indices non lexicaux
JADT 2010: 10th International Conference on Statistical Analysis of Textual Data

26 CATGORISATION AUTOMATIQUE DU COURRIEL EN FONCTION DE CATGORIES PRAGMATIQUES

sont moins levs, ils demeurent malgr tout acceptables compte tenu de la complexit de la
tche. Par ailleurs, au-del des performances, ces exprimentations ont permis didentifier quels
indices non lexicaux sont les plus discriminants pour dcrire les documents que lon souhaite
catgoriser automatiquement.
Cette recherche valide la pertinence davoir recours une approche inspire de la thorie
des actes de langage pour ltude du courriel, puisque ce sont les actions vhicules dans les
messages qui intressent davantage les cadres lors du tri des messages. Contrairement la
plupart des tudes qui sinspirent de la typologie de Searle (1972) pour catgoriser le courriel,
nous proposons une approche base sur la prsence de dclencheurs cognitifs (la priorit
et lengagement perus par le destinataire) lorigine des pratiques de tri. Ici, cest plutt
la dimension perlocutoire de lacte de langage (effet sur le destinataire) que sa dimension
illocutoire (intention de lmetteur) qui prvaut. Selon nos rsultats, cette approche concorde
davantage avec le processus dinterprtation des messages en contexte de travail rel.

Rfrences
Alberts I. (2009). Exploitation des genres de textes pour assister les pratiques textuelles dans les
environnements numriques de travail : le cas du courriel chez des cadres et des secrtaires dans
une municipalit et une administration fdrale canadiennes. Thse de doctorat. Universit de
Montral.
Alberts I. and Bertrand-Gastaldy S. (2008). A pragmatic perspective of e-mail management
practices in two Canadian public administrations. In Culture and identity in knowledge
organization. Proceedings of the tenth international ISKO conference, pp. 347-353.
Alberts I. and Forest D. (en prparation). Catgorisation automatique du courriel en fonction de
catgories pragmatiques fondes sur lutilisation de traits discriminants lexicaux.
Austin J.L. (1970). Quand dire, cest faire. Paris: ditions du Seuil.
Carvalho V. and Cohen W. (2005). On the collective classification of email speech acts. In Proceedings
of the 28th annual international ACM SIGIR conference on Research and development in
information retrieval, pp. 345-352.
Carvalho V. and Cohen W. (2006). Improving email speech acts: analysis via N-gram selection. In
Proceedings of the analyzing conversations in text and speech (ACTS) workshop, pp. 35-41.
Cervoni J. (1987). Lnonciation. Paris: PUF.
Cohen W., Carvalho V.R and Mitchell T.M. (2004). Learning to classify email into speech acts. In
International conference on empirical methods in natural language processing, pp. 309-316.
Forest D. (2006). Application de techniques de forage de textes de nature prdictive et exploratoire des
fins de gestion et danalyse thmatique de documents textuels non structurs. Thse de doctorat.
Universit du Qubec Montral.
Goldstein J. and Sabin R. (2006). Using speech acts to categorize email and identify e-mail genres. In
Proceedings of the 39th annual HICSS.
Scerri S., Davis. B. and Handschuh S. (2007). Improving e-mail conversation efficiency through
semantically enhanced e-mail. In 18th international conference on database and expert systems
applications, pp. 490-494.
Searle J.R. (1972). Les actes de langage; essai de philosophie du langage. Paris: Hermann.
Winograd T. (1988). A language-action perspective on the design of cooperative work. Human
computer interaction, vol 3: 30.

JADT 2010: 10th International Conference on Statistical Analysis of Textual Data

You might also like