Professional Documents
Culture Documents
Cours Datamining
Dr. F. CAMARA
fode.camara@ucad.edu.sn
03/05/2013
Fod CAMARA
Techniques de datamining
La classification
Elle permet de prdire si une instance de donne est membre dun groupe ou dune classe prdfinie. Classes o Groupes dinstances avec des profils particuliers o Apprentissage supervis: classes connues lavance Applications: marketing direct (profils des consommateurs), grande distribution (classement des clients), mdecine (malades/non malades), etc.
Exemple 1: les acheteurs de voitures de sport sont de jeunes citadins ayant un revenu important Exemple 2: 45% des clients ayant fait un achat en ligne sur la page /societe/produits/produit1 sont originaires de la cte Ouest des tats unis.
03/05/2013
Fod CAMARA
Techniques de datamining(33)
03/05/2013
Fod CAMARA
Construction du modle(2)
Donnes Apprentissage Algorithmes Classification
Rang Assistant Prof Assistant Prof Professor Associate Prof Assistant Prof Associate Prof
Anne 3 7 2 7 6 3
Modle
03/05/2013
Fod CAMARA
Construction du modle
Donnes Test Classifier
Anne 2 7 5 7
03/05/2013
Fod CAMARA
Construction du modle
Donne inconnue Classifier
Anne 4 7
Titulaire ? ?
Titulaire ?
Oui Oui
03/05/2013
Fod CAMARA
Validation de la Classification
03/05/2013
Fod CAMARA
Validation de la Classification
03/05/2013
Fod CAMARA
Techniques de datamining(34)
Fod CAMARA
Techniques de datamining(35)
Rang?
Professor Associate Prof Assistant Prof
Oui
Anne?
<=6 Non >6 Oui
03/05/2013
Fod CAMARA
10
Gnration de l'arbre
o
o o o o o
Au dpart, toutes les instances dapprentissage sont la racine de larbre. Slectionner un attribut et choisir un test de sparation(split) sur lattribut, qui spare le mieux les instances. Partitionner les instances entre les nuds fils suivant la satisfaction des tests logiques. v'1 Traiter chaque nud fils de faon rcursive. Rpter jusqu ce que tous les nuds soient des terminaux. C1 Etiqueter le nud terminal par la classe majoritaire
A1 = ? v1 v2 A2 = ? ... v'3 v'2 v'1 A2 = ? v'3 v3
v'2
C2
C3
C7
C8
C9
v'1
v'2
v'3
C1
C2
C3
C7
C8
C9
Oui
03/05/2013
Fod CAMARA
13
lattribut le plus discriminant Partition (nud P) si (tous les lments de P sont dans la mme
valuer la qualit du partitionnement sur A;
Processus rcursif
Class Atr=?
toutes les donnes Si les objets sont de la mme classe, alors le nud devient une feuille tiquet par le nom de la classe. Sinon, slectionner les attributs qui sparent le mieux les objets en classes homognes => Fonction de qualit La rcursion s'arrte quand:
Les objets sont assigns une classe homogne Il n'y a plus d'attributs pour diviser
Mesure de qualit
Suppose des attributs nominaux (discrets) Peut-tre tendu des attributs continus
Gain dinformation
Slectionner lattribut avec le plus grand gain dinformation Soient P et N deux classes et S un ensemble dinstances
avec p lments de P et n lments de N. Linformation ncessaire pour dterminer si une instance prise au hasard fait partie de P ou N est(entropie).
Gain dinformation
Soient les ensembles {S1, S2, , , Sv} formant une partition de
lensemble S , en utilisant lattribut A Toute partition Si contient p instances de P et n instances de N Lentropie, ou linformation ncessaire pour classifier les instances dans les sous-arbres Si est:
Le gain dinformation par rapport au branchement sur A est Choisir lattribut qui maximise le gain
Indice de GINI
Utiliser lindice Gini pour un partitionnement pur
pi est la frquence relative de la classe C dans S Si S est pur (classe unique), Gini(S) = 0
Exemple dapplication
Classifier les clients d'une banque sils sont risque ou pas
BD
03/05/2013
Fod CAMARA
22
Rappel(3)
Evaluation dune classification
03/05/2013
Fod CAMARA
23