Professional Documents
Culture Documents
Sagitta :
Un état des lieux
Olivier Raynaud1
Research Report LIMOS/RR-06-05
22 mai 2006
1
raynaud@isima.fr
Abstract
1
1 Introduction
Les progrès de la technologie informatique dans l’acquisition et le trans-
port de données permettent aux acteurs économiques de disposer à ce jour de
quantités de données souvent gigantesques. Ces progrès ont eu pour conséquence
une transformation profonde de leurs modes de fonctionnement. Certains au-
teurs parlent de révolution des services ([7, 24]).
A titre d’exemple : les entreprises ont stocké et accumulé les données
résultant de leurs activités opérationnelles tout au long des dernières années.
Elles gardaient à l’esprit leur exploitation future. En effet, une connaissance
approfondie des modes de consommation et des profils clients doit permettre
de mieux cerner ses besoins et de lui proposer des services plus adaptés. On
parle alors de services personnalisés. Pourtant une autre analyse pourrait être
faite. La connaissance acquise permet aussi de dégager les grandes tendances
du comportement à la consommation. Cette connaissance assure de proposer
des produits normalisés pour le plus grand nombre. Charge alors aux services
marketing de préparer les consommateurs à cette normalisation.
2
connaissances à partir des données (processus E.C.D.) constitue un chal-
lenge incontournable pour la gestion des grandes masses de données.
Les solutions matérielles retenues par les entreprises pour répondre à ce
problème s’appuient sur plusieurs principes.
En 1995 Smith ([22]) propose une stratification de l’information en fonc-
tion de la nature de son utilisation : opérationnelle, tactique ou stratégique.
Les entreprises distinguent ainsi aujourd’hui les besoins opérationnels du
quotidien des besoins décisionnels pour le moyen et long terme. Le second
principe est alors intuitif, il consiste à séparer physiquement les données
d’ordre opérationnel des données informationnelles qui seront archivées et
conservée dans des entrepôts (data wharehouse). R. Godin dans [11] ca-
ractérise ces dernières ; Elles sont par exemple orientées sujet (on retrouve
ici le découpage en domaines ou métiers, cher à la modélisation d’un S.I.),
intégrée (les données sont formatées en fonction de leur provenance), et pour
finir temporelles (c’est à dire de nature historique). Cette séparation physique
des données permet de mettre en place des applications logicielles adaptées
aux différents besoins ou à la nature des données. Ainsi pour le traitement
opérationnel les entreprises se munissent d’outils assurant les transactions
en ligne (outils OLTP, ERP). Pour les données orientées décisionnel elles
s’équipent d’outils d’analyse (par exemple les outils OLAP pour l’analyse
multidimensionnelle) ou de prospection (progiciel de fouille de données comme
SAS Enterprise Miner, Intelligent Miner, Alice, Clémentine ...).
3
entreprises, la figure 2 résume clairement ces principes.
L’objet de notre étude concerne la mise en place d’un dispositif de pros-
pection. Pour cela nous devons définir clairement ce processus de prospection
ou processus E.C.D.
Frawley et Piatesky-Shapiro définissent précisément le concept de fouille.
Il s’agit ici de l’extraction d’informations originales, auparavant inconnues et
potentiellement utiles, à partir de données. Citons aussi la définition proposée
par M.J.A. Berry : l’exploration et l’analyse par des moyens automatiques
(ou semi automatiques) d’un large volume de données afin de découvrir des
tendances ou des règles.
Dans la suite de ce texte nous ferons la distinction entre techniques de
fouille de données (”data-mining”), qui sont multiples (statistiques, réseaux
de neurones, inférence inductive...) et le processus logiciel (processus E.C.D.)
assez complexe qui permet de répondre aux définitions de Frawley et Berry
(La figure 3 illustre un exemple de processus). Ce processus commence par le
nettoyage et la récupération des données sous un format adapté aux étapes
suivantes. L’ensemble des outils logiciels assurant ces fonctionnalités sont ap-
pelés outils E.T.L. (pour extraction, transformation et loading). Le processus
se poursuit alors par l’étape de fouille proprement dite. Son déroulement
dépend très largement de la technique de fouille employée. L’application
E.C.D. doit ensuite permettre la visualisation des résultats sous forme de
graphiques ou de tableaux de bord. Ces fonctionnalités sont appelées outils
de visualisation et outils de reporting. Pour les auteurs de [7] le processus
E.C.D. doit se poursuivre par la réalisation d’un bilan d’efficacité (plusieurs
méthodes de comparaison sont proposées). Les résultats de ce bilan sont alors
compilés dans la masse d’informations dont dispose l’entreprise pour le do-
maine concerné (les auteurs justifient ainsi la notion de ”cercle vertueux” de
l’extraction des connaissances à partir des données).
Nous avons évoqué jusqu’à présent les notions de données, d’information
et de connaissance sans les définir. Pour combler cette lacune nous nous
appuyerons sur les travaux de Devlin ([4]). Il définit les données comme un
ensemble de signes dont la manipulation est régie par une syntaxe. Il décrit
alors l’information comme un ensemble composé de données et du sens qu’on
leur accorde. La question de savoir si la présence de l’homme est indipensable
pour dégager ce sens est alors posée. En informatique on parle aussi parfois
d’information pour évoquer les règles ou le schéma comportemental d’un
ensemble de données. Il s’agit bien souvent d’un abus de langage et nous
utiliserons le terme de meta-données (ce qu’elles sont) pour les caractériser.
Enfin, pour Devlin, la connaissance rapproche l’information et la capacité
d’agir à partir de cette information.
4
Fig. 3 – Un processus E.C.D. qui distingue bien l’action de fouille (”data-
mining”) de l’ensemble du processus. Cette figure est extraite de [23].
5
de stockage et de traitement retenue par les entreprises pour répondre aux
besoins opérationnels d’un coté et décisionnels de l’autre. Enfin nous avons
défini l’extraction des connaissances en terme de processus logiciel (appelé
processus E.C.D.) et avons insisté pour positionner l’homme au coeur de ce
processus.
Ce texte se poursuit par quatre sections. La premiere est consacrée à
une technique particulière de fouille (l’étude du panier de la ménagère) et à
l’outil mathématique majeur utilisé par cette technique (l’analyse formelle
de concepts). Ensuite la deuxième section décrit deux outils innovants de
fouille de données (la navigation et la recherche de clones) proposées par
notre équipe de recherche. Nous évoquerons dans la section suivante les be-
soins de notre équipe pour assurer les validation théorique et pratique de ses
travaux. Enfin, la dernière porte sur une description synthétique du projet
”E.C.D.Sagitta”.
6
concrets pour générer des actions”. Ainsi Agrawal et al dans [1] listent un en-
semble de questions auxquelles pourra répondre la recherche de règles d’asso-
ciation et surtout le type d’actions commerciales qu’elles pourront entrainer.
Précédemment nous avons défini une règle d’association comme une ex-
pression de la forme X → Y où X et Y sont des ensembles d’items. Dans
[20, 25] les auteurs ramènent le problème de la recherche de telles règles à
celui de la recherche des concepts de la relation binaire servant d’entrée au
problème 1 (autrement dit la table de transactions). Un concept peut être
vu comme un panier type. C’est à dire qu’il n’existe pas forcement, dans la
7
table, des transactions correspondant exactement à ce panier, mais que ce
panier représente un ensemble de transactions en rassemblant ce qui leur est
commun.
8
2.3 Besoins logiciels dans un cadre de recherche scien-
tifique
Notre intuition est que cette validation doit suivre deux axes (cf. figure
5) :
1. la programmation d’applications legères permettant la génération, la
gestion, la visualisation des objets étudiés, mais aussi la vérification de
leurs propriétés ; Nous parlerons alors de validation théorique.
2. l’adéquation de l’utilisation de ces objets dans le cadre de l’analyse des
bases de données ou de la fouille de données. Nous parlerons ici de
validation pratique.
9
Fig. 6 – Protocole de validation théorique
d’une relation et donc disposer d’une application qui transforme les fichiers
benchmarks dans ce format (cf. figure 7). Ensuite, nous devons mettre à dis-
position un environnement de développement rapide et pour cela documenter
très précisément la collection de fonctions disponibles. Enfin, pour préparer
au mieux nos solutions algorithmiques à un futur passage à l’échelle (tout
relatif), les fonctions de notre collection devront picorer dans les fichiers
formatés et ne surtout pas les charger en mémoire.
10
Fig. 8 – Schéma de validation pratique. Les outils innovants mentionnés font
l’objet d’une description complète dans la section 3 de ce document.
11
objets étudiés en temps raisonnable (polynomial) ? Ces différents travaux
sont dans la droite ligne des résultats obtenus par les membres de l’équipe
en des temps plus anciens ([14, 18]).
Ces travaux nous permettent aujourd’hui de proposer deux outils inno-
vants de fouille de données. Le premier, appelé navigation, s’appuie sur la
technique de la recherche des règles d’association. Le second, appelé recherche
de clones, nous permet de réduire le volume des données à traiter, de vali-
der des choix de discrétisation ou de réaliser des tâches de classification. Les
techniques de classification étant un des pilliers essentiels de la fouille de
données.
3.1 La navigation
3.1.1 Les solutions standards
La plupart des méthodes proposées pour résoudre le problème 1 consistent
en une démarche itérative composée :
1. d’une étape de génération (potentiellement exponentielle) d’un ensemble
de règles ;
2. d’une étape de parcours de cet ensemble pour trouver la/les règle/s
intéressante/s ;
3. d’une étape d’analyse et d’affinage qui relance le processus ;
Ces méthodes permettent un parcours des règles une fois que l’ensemble
des règles a été généré. La phase d’affinage permet d’appliquer des contraintes.
On peut restreindre l’espace de recherche en augmentant les seuils de sup-
port et de confiance ([2], [12]) ou en spécifiant que les règles recherchées
contiennent tel item. La seule interaction avec l’utilisateur consiste en l’évaluation
des contraintes. Le temps de calcul nécessaire à la réalisation de l’étape de
génération est un obstacle crucial à l’interactivité entre l’utilisateur et le pro-
giciel alors même que le processus E.C.D. est hautement centré sur l’humain,
sa connaissance du domaine, son intuition et sa capacité d’interprétation.
Pour répondre à cet inconvénient majeur nous proposons une méthode
originale de navigation ”à priori” dans l’espace des règles.
12
de la partie gauche d’une règle afin d’affiner ce qui est vraiment nécessaire
pour produire la partie droite. A chaque étape du processus le nombre de
calculs est restreint, ceci assure de garder le contact avec l’utilisateur. Au fur
et à mesure on voit donc se construire un arbre de règles dont les branches
peuvent être élaguées ou développées. Bien que cet arbre soit composé de
règles exactes (de confiance 1), l’utilisateur pourra, pour une règle donnée,
extraire des règles de qualité dégradée (pour le support et la confiance). En-
fin l’outil est capable de semi-automatiser la réduction d’une règle générale
à la demande de l’utilisateur. L’outil permettra aussi de vérifier si la règle
choisie appartient à une base spécifique (base réduite à gauche, etc). Les
résultats mathématiques sous-jacents à ces fonctionnalités ont fait l’objet de
publications récentes [17, 16].
13
4. Pour chaque panier type contenant un article vestimentaire de telle
marque, il existe le même panier type, sans cet article, mais avec un
article de quincaillerie.
Les quatre assertions précédentes sont supposées être des interprétations
possibles faites à partir d’un ensemble de règles. Notons que ces règles ne
sont pas exclusivement issues de bases de transactions. Nous avons élargi le
champs d’étude au domaine de l’assurance et au domaine socio-économique.
Pour ces domaines on ne parle plus d’items et de transactions mais d’attributs
et d’enregistrements. Pour être adaptées à la recherche des règles d’associa-
tion les données doivent alors subir un traitement appelé discrétisation. Une
discrétisation consiste à découper en tranches les attributs dit continus qui
décrivent les enregistrements de la table. Autrement dit la discrétisation de
l’attribut âge consiste par exemple à regrouper dans une même classe d’âge
tous les personnes de 18 à 23 ans et toutes les personnes de 23 à 27 ans.
Les attributs clones dans les 4 cas étudiés sont :chaises/banc de jardin,
tranches [18,23]/[23,27], tranche junior/senior, marque vestimentaire/quincaillerie.
Notre intuition est que la sémantique est sensiblement différente pour chacun
de ces cas.
Le cas deux est clairement relatif à une discrétisation non adaptée, en
effet il aurait fallut ne pas découper en deux la tranche [18-27] puisque l’âge
n’a aucune influence sur l’ensemble des règles. Le cas trois est le même si ce
n’est que les intervalles (junior, sénior) ne sont pas contigüs. Le cas 1 reflète
le problème de la hiérarchie dans les niveaux de description des articles du
magasin. Si une telle classe de clones existe c’est que le niveau de description
n’était pas ou peu adapté. Enfin, le cas 4, très mystérieux, résiste à toute
analyse à ce jour.
En plus de permettre une réduction d’un contexte, les clones se présentent
donc comme un moyen de vérification ou un critère d’évaluation de la qua-
lité d’une procédure de discrétisation, de classification ou de description
hiérarchique d’un ensemble d’objets.
14
taille d’un contexte avant l’application d’une technique de fouille. Une
phase de post-processing est alors nécessaire pour reconstruire les règles
à partir de la définition des classes de clones. Ceci afin de préparer les
données à la phase de visualisation. Il est à noter que la reconstruction
peut être effectuée à la demande.
Outil d’évaluation qualitative d’une phase de discrétisation Dans
une application logicielle dédiée à la discrétisation nous proposerons une
fonctionnalité d’évaluation d’une discrétisation donnée. En déterminant
les classes d’items clones nous seront à même de repérer des cas simi-
laires aux cas 2 et 3. C’est à dire des cas où les classes d’items clones
sont issus de la discrétisation d’un même item. Nous proposerons alors
le regroupement de tels ou tels intervalles de valeurs.
3.2.4 Conclusion
Nous avons présenté dans cette section deux outils innovants de fouille
de données que sont la navigation et la recherche de clones. La navigation
est originale car elle se présente comme un outil interactif de recherche de
règles alors que cette technique de fouille est classée comme non dirigée dans
la littérature. La recherche de clones nous permet quand à elle de réduire le
volume de la relation et ainsi de rendre plus efficace les traitements de fouille,
quels qu’ils soient.
Enfin, ces deux outils s’appliquent sur des relations binaires et imposent
donc un traitement de discrétisation des données étudiées. Nous pensons que
la qualité des résultats produits par ces outils est très dépendante de cette
phase de discrétisation. Nous avons montré que la recherche de clones peut
être adaptée à l’évaluation de la qualité d’une discrétisation.
15
4 Le projet E.C.D.Sagitta
L’objectif de notre projet logiciel est le développement d’un ensemble
d’applications (ou de modules) appelé ”E.C.D.Sagitta” répondant aux be-
soins exprimés.
Cette section est composée de deux sous-sections. Dans un premier temps
nous donnons l’architecture modulaire retenue par notre équipe. Le développement
de ces modules et de leurs fonctionnalités sont donc des objectifs à atteindre.
Dans un second temps nous décrivons les développements déja effectués.
16
Fig. 9 – Architecture modulaire
17
Fig. 10 – Processus d’extraction des données
4.2.2 Le serveur
Pour répondre aux besoins exprimés dans la section précédente nous avons
retenu un serveur TomCat produisant des pages HTML par l’intérmédiaire de
18
Servlets (issue de pages JSP). Le serveur a pour rôle de répondre aux requêtes
exprimées par les utilisateurs grace à un client leger de type navigateur.
Le serveur TomCat est physiquement hébergé par notre équipe et assure
la cohésion entre différents modules :
– un serveur de base de données pour la gestion des droits et des comptes
utilisateurs ;
– un espace disque personnalisé qui sert au stockage de fichiers de travail
et des sources de données sous un format X.M.L. ;
– un centre de calcul (serveur XML-RPC) qui assure l’exécution des al-
gorithmes sur les données stockées dans les espaces disque.
Le langage et l’environnement de développement choisi est donc Java
(J2EE). La figure 12 résume l’architecture retenue pour le serveur.
5 Conclusion
Adam Smith, dans la société des nations, décrit tous les avantages inhérents
à une économie de marché. Citons le dynamisme économique, les libertés
d’entreprendre, la croissance des richesses ou l’autorégulation des prix as-
surée par la loi de l’offre et de la demande. Il précise néammoins le contexte
19
idéal à cette économie : un contexte à information compléte dans lequel cha-
cun est libre de choisir ou d’agir.
Disposer de l’information est donc un atout crucial pour consommer, ache-
ter ou investir intelligemment sur le marché. Pour cette raison les problèmes
liés à la gestion des grandes masses de données, à la recherche d’informa-
tion ou de connaissances dans les entrepôts de données sont des problèmes
sensibles. Les acteurs économiques veulent disposer d’une information fiable
pour axer leurs stratégies sur le moyen et long terme. Nous pouvons peut
être trouver ici une explication du boum survenu ces dernières années dans
les domaines de l’informatique liés à ces problèmatiques.
L’économie n’est pas le seul domaine pour lequel l’information est sen-
sible. L’état, pour rationaliser son administration ou assurer la sécurité (dans
tous ces aspects opérationnels) est insatiable en informations. Rationaliser
consiste souvent à créer des gains de productivité par l’automatisation d’un
grand nombre de tâches. L’outil informatique est l’outil idéal pour mettre
en place cette automatisation. Nous pensons néammoins que la fouille de
données à ceci de particulier qu’elle assiste des prises de décision parfois
délicates et lourdes de conséquences. Pour cette raison le décideur doit pou-
voir comprendre et retracer le cheminement de l’analyse automatique de l’ou-
til informatique et savoir limiter sa portée.
Enfin, la soif de savoir qui caractèrise l’homme n’est pas toujours justifiée
par un but précis (compétitivité, sécurité ...). Elle correspond aussi souvent à
une démarche inconsciente qui nous pousse à comprendre l’univers qui nous
entoure. La fouille ou l’analyse de données de masse sont devenus des outils
indispensables aux métiers de la recherche. Par exemple ils ont permis aux
biologistes de mettre en place une nouvelle classification phylogénétique du
vivant.
Au XVIIIième siècle Voltaire évoque cette soif de comprendre, il raconte
aussi l’orgueil des hommes qui raisonnent. Cet orgueil qui persuade les indi-
vidus de la démesure de leur destin. Pour répondre aux hommes, l’écrivain
les confronte à Micromégas, un géant voyageur venu sur Terre par hasard
dont le savoir est immense. En les quittant il leur laissera quelques bribes
de ce savoir. Des pages blanches. Afin de tenir compte de cet avertissement
nous avons retenu le nom de ”E.C.D.Sagitta” pour notre projet. En effet ”Sa-
gitta”, la flêche, est synonyme d’acuité et de rapidité, ce que l’on souhaite à
nos algorithmes. Ce mot est aussi la racine du mot ”sagesse”, celle que l’on
doit conserver dans le cadre d’une quête difficile.
20
Références
[1] R. Agrawal, T. Imielinski, and A. Swami. Mining association rules bet-
ween sets of items in large databases. In ACM SIGMOD’93. Washington,
USA, 1993.
[2] R. Agrawal and R. Srikant. Fast algorithm for mining association rules.
In 20th International Conference of Very Large DataBasis (VLDB),
pages 487–499. Santiago, Chile, September, 1994.
[3] M. Barbut and B. Monjardet. Ordre et classification. Hachette, 1970.
[4] K. Devlin. Turning Information into Knowledge. InfoSens, 1997.
[5] V. Duquenne. Latticial structure in data analysis. Theoritical Computer
Science, 217 :407–436, 1999.
[6] V. Duquenne and J-L. Guigues. Famille minimale d’implications in-
formatives résultant d’un tableau de données binaires. Mathématiques
Sciences Humaines, 24, 1986.
[7] M.J.A. Berry et G. Linoff. Data-Mining, Techniques appliquées au mar-
keting, à ?la vente et aux services clients. InterEditions, 1997.
[8] R. Lefebure et G. Venturi. Data-Mining, Gestion de la relation client,
Personnalisation de site Web. Eyrolles, seconde edition, 2001.
[9] A. Gely. A generic algorithm for generating closed sets of a binary
relation. In ICFCA’05, 2005.
[10] A. Gely, R. Medina, L. Nourine, and Y. Renaud. Uncovering and redu-
cing hidden combinatorics in guigues-duquenne covers. In ICFCA’05,
2005.
[11] R. Godin. Les entrepôts de données et l’analyse de données. Version
béta edition, 2002.
[12] J. Hipp, U. Guentzer, and G. Nakhaeizadeh. Algorithms for association
rules mining - a general survey and comparison. SIGKDD Exploration,
2(1) :58–64, 2000.
[13] M. Halkidi M. Vazirgiannis and D. Gunopulos. Uncertainty Handling
and Quality Assessment in Data-Mining. Springer, 2003.
[14] R. Medina and L. Nourine. Algorithme efficace de génération des idéaux
d’un ensemble ordonné.
[15] R. Medina and L. Nourine. Clone items : a pre-processing information
for knowledge discovery. submitted.
[16] R. Medina, L. Nourine, and O. Raynaud. Interactive association rules
discovery. In 4th International Conference, ICFCA, pages 177–190, 2006.
21
[17] R. Medina, C. Noyer, and O. Raynaud. Efficient algorithms for clone
items detection. In CLA’05, pages 70–81, 2005.
[18] L. Nourine and O. Raynaud. A fast algorithm for building lattices.
Information Processing Letters, volume 71 :199–204, 1999.
[19] L. Nourine and O. Raynaud. A fast incremental algorithm for building
lattices. Journal of Experimental and Theoritical Artificial Intelligence,
14 :217–227, 2002.
[20] N. Pasquier, Y. Bastide, R. Taouil, and L. Lakhal. Efficient mining of
association rules using closed itemset lattices. Information Systems, 24,
1 :P. 25–46, 1999.
[21] R.Wille. Why can concept lattices support knowledge discovery in da-
tabase. Journal of experimental and theoritical artificial intelligence,
volume 14 :81–92, 2002.
[22] D. Smith. System engineering for healthcare professionals. Cardiff ins-
titute of higher education, 1995.
[23] G. Piatesky-Shapiro U. Fayyade and P. Smyth. From data-mining to
knowledge discovery in data base. AAAI97, 1997.
[24] I. Watson. Applying case-based reasonning : Techniques for Enterprise
Systems. Morgan Kaufmann, 1997.
[25] M. Zaki. Generating non redundant association rules. October, 2000.
22