You are on page 1of 6

La

classification : pass/prsent
Tout ce qui nous entoure, quil sagisse de choses physiques ou abstraites, nous apparait de
fac on organise. Lorsque nous voyons un animal, nous le dsignons systmatiquement par
lespece a` laquelle il appartient. Un sentiment sera galement catgoris, on parlera par
exemple dun sentiment de tristesse, de joie ou de peur. Pourtant, chacun prouve la peur
differemment et les chiens ne sont pas tous identiques non plus. Il sagit, en fait, dun
phenomene, conscient ou non, mais naturel et indispensable, de simplification pour mieux
comprendre et mieux communiquer.
Lexemple que nous venons d evoquer nest pas anodin. En effet on attribue les premi`eres
recherches th eoriques sur la classification, aux besoins exprim es par les biologistes, de
sp ecifier des classes ou esp`eces animales [86]. Cette classification etait cens ee
permettre, etant donn ee une description (simple) dun animal, de l etiqueter par tel ou tel
nom desp`ece. Le probl`eme sest av er e plus complexe quil ny paraissait...
Les applications se sont multipli ees, chacune apportant son lot de probl`emes, plus complexes
les uns que les autres. Apr`es les biologistes, ce sont les historiens, les m edecins, les
sociologues ou les didacticiens qui ont manifest e le besoin de classer leurs reliques, leurs
patients ou leurs el`eves. Aujourdhui, en nous int eressant aux probl`emes issus des
technologies de linformation et de la communication, nous sommes amen es a` traiter des
donn ees tr`es complexes, par leur nature, leur taille, leur provenance, leur diversit e. Ces
donn ees peuvent etre, par exemple, du texte, des images, des s equences vid eo, des bandes
soonores et tout support combinant ces diff erents types de donn ees.
Lenvie dorganiser pour simplifier a progressivement evolu e vers lambition de classer (ou
classifier) pour comprendre et, pourquoi pas, pour pr edire. Cette evolution a conduit a`
d egager deux strat egies de classification : supervis ee et non-supervis ee.
La notion de pr ediction fait r ef erence a` une strat egie particuli`ere dApprentissage Auto-
matique (AA), appel ee apprentissage supervis e. Ce domaine d etude a` part enti`ere, peut
etre consid er e comme une sous-th ematique de lIntelligence Artificielle (IA). De fac on
synth etique, lapprentissage supervis e consiste a` faire emerger dun ensemble de donn ees
dentranement pr e-classifi ees, les caract eristiques n ecessaires et suffisantes pour permettre
de classer correctement une nouvelle donn ee. Dans ce type dapproche, les classes sont
connues a` lavance, cette connaissance est utilis ee dans le processus dapprentissage.
La classification non-supervis ee correspond davantage au probl`eme initial dorganisa- tion,
mentionn e ci-dessus, et puise ses fondements th eoriques en Analyse de Donn ees (AD).
En fonction de lapplication, la tache de classification non-supervis ee a pour but dorgani- ser
un ensemble dobjets sans connaissance a priori dune classification, afin de simplifier, ou
structurer les donn ees par lextraction ou la reconnaissance des formes r ecurrentes dans ces
donn ees. On parle, en apprentissage, du probl`eme de la Reconnaissance de Formes (RF)
faisant appel a` des m ethodes de regroupement (en anglais, clustering).




La classification non supervise (clustering en anglais) consiste segmenter un ensemble de
vecteurs non labelliss (la classe n'est pas fournie) en groupes (clusters) qui possdent les
proprits suivantes :
Homognit dans les groupes, i.e. les donnes appartenant un mme cluster doivent tre
les plus similaires possibles.
Htrognit entre groupe, i.e. les donnes appartenant diffrents clusters doivent tre les
plus dissemblables possibles.
Les notions de similarit / "dissimilarit" seront abordes dans le paragraphe suivant.
Un exemple illustratif d'une classification non supervise est donn sur la figure suivante. Les
vecteurs d'entre sont dcrits sur la figure (a) et les clusters dsirs sur la figure (b).


Il existe plusieurs familles d'algorithmes de classification non supervise : les algorithmes
conduisant directement des partitions comme les mthodes d'agrgation autour de centres
mobiles; les algorithmes ascendants (ou encore agglomratifs) qui procdent la construction
des classes par agglomrations successives des objets deux deux, et qui fournissent une
hirarchie de partitions des objets; enfin les algorithmes descendants (ou encore divisifs) qui
procdent par dichotomies successives de l'ensemble des objets, et qui peuvent encore fournir
une hirarchie de partitions. On se limitera ici aux deux premires techniques de classification
non supervise:
les groupements peuvent se faire par recherche directe d'une partition, en affectant les
lments des centres provisoires de classes, puis en recentrant ces classes, et en affectant de
faon itrative ces lments. Il s'agit des techniques d'agrgation autour de centres mobiles,
apparentes la mthode des "nues dynamiques", ou mthode "k-means", qui sont
particulirement intressantes dans le cas des grands tableaux
les groupements peuvent se faire par agglomration progressive des


lments deux deux. C'est le cas de la classification ascendante hirarchique qui est
prsente ici suivant plusieurs critres d'agrgation. Nous envisagerons d'une part la technique
"du saut minimal" (single linkage) quivalente, d'un certain point de vue, la recherche de
l'arbre de longueur minimale, et d'autre part la technique d'agrgation "selon la variance",
intressante par la compatibilit de ses rsultats avec certaines analyses factorielles.
Ces techniques prsentent des avantages diffrents et peuvent tre utilises conjointement. Il
est ainsi possible d'envisager une stratgie de classification base sur un algorithme mixte,
particulirement adapt au partitionnement d'ensembles de donnes comprenant des milliers
d'individus classer.

Mesures de similarits

Toutes les techniques de clustering que nous allons tudier font rfrence la notion de mesure
de similarit entre deux vecteurs. La diversit des types et des chelles des dimensions des
vecteurs donne une importance fondamentale la mesure de similarit utilise.
Les mesures de similarit les plus utilises sont les mesures de distance. Nous allons plus
particulirement nous intresser aux mesures de distance pour des champs continus. Pour ce
type de donnes, la distance euclidienne reste la plus utilise.



Ces mesures posent un problme lorsque les chelles des donnes ne sont pas homognes. En
effet les grandes chelles sont favorises dans le calcul de la distance.
Pour palier le problme, les donnes peuvent tre normalises (part rapport la variance ou
une plage fixe).

22La mthode des k-means
Bien qu'elle ne fasse appel qu' un formalisme limit et que son efficacit soit dans une large
mesure atteste par les seuls rsultats exprimentaux, la mthode des k-means est
probablement la technique de partitionnement la mieux adapte actuellement aux vastes
recueils de donnes ainsi que la plus utilise pour ce type d'application.
Description de la mthode :

On considre l'espace de n points de dimension p suivant :

On suppose que les n points peuvent tre groups en c clusters c < n
Les clusters sont dcrits par leurs centres :



On note d(i,k) la distance entre le point xi et le centre Vk
Le point Xi est affect au cluster dont le centre est le plus proche (au sens de d)
On note mk la moyenne des vecteurs dans le cluster k

You might also like