Professional Documents
Culture Documents
Introduction ................................................................................................................................ 4
Logiciels de Data Mining ........................................................................................................... 5
Avertissements ........................................................................................................................... 6
Objectifs ..................................................................................................................................... 7
Data visualisation ................................................................................................................... 7
Statistics ................................................................................................................................. 7
Nonparametric statistics ......................................................................................................... 8
Instance selection ................................................................................................................... 8
Feature construction ............................................................................................................... 9
Feature selection ..................................................................................................................... 9
Regression .............................................................................................................................. 9
Factorial analysis .................................................................................................................. 10
PLS ....................................................................................................................................... 10
Clustering ............................................................................................................................. 10
SPV (Support Vector) Learning ........................................................................................... 10
Meta SPV (Support Vector) Learning .................................................................................. 11
SPV (Support Vector) Learning assessment ........................................................................ 11
Scoring ................................................................................................................................. 11
Association ........................................................................................................................... 12
Exercice 1.: Import et visualisation des donnes *.txt ............................................................. 13
Exercice 2.: Import et visualisation des donnes *.xls ............................................................. 17
Exercice 3.: Installation de l'add-in MS Excel ......................................................................... 21
Exercice 4.: Statistiques lmentaires univaries continues .................................................... 24
Exercice 5.: Statistiques lmentaires univaries discrtes ...................................................... 27
Exercice 6.: Statistiques univaries continues multiples .......................................................... 30
Exercice 7.: Test de Normalit ................................................................................................. 33
Exercice 8.: Caractrisation de groupes ................................................................................... 35
Exercice 9.: Rgression linaire simple ou multiple ................................................................ 39
Exercice 10.: Test de Normalit des rsidus de la rgression linaire ..................................... 43
Exercice 11.: Rgression linaire ascendante (Forward Entry Regression) ............................. 45
Exercice 12.: Rgression linaire descendante (Backward Entry Selection) ........................... 49
Exercice 13.: Coefficient de corrlation de Spearman (Spearman rho) ................................... 53
Exercice 14.: Rgression logistique binaire (SPV) .................................................................. 56
Exercice 15.: Lift Curve et ROC Curve (sur rgression logistique binaire) ............................ 61
Exercice 16.: Test-T homoscdatique ...................................................................................... 70
Exercice 17.: Test-T htroscdastique .................................................................................... 74
Exercice 18.: Clustering CART (arbres de rgression) ............................................................ 75
Exercice 19.: K-NN (K nearest neighbors) .............................................................................. 81
Exercice 20.: Classificaiton K-Means (nue dynamique) ........................................................ 90
Exercice 21.: Clustering ID-3 (Iterative Dichotomiser 3) ...................................................... 101
Exercice 22.: HAC (Hierarchical Ascendant Clustering) ...................................................... 105
Exercice 23.: Classification nave baysienne ....................................................................... 108
Exercice 24.: ANOVA un facteur ....................................................................................... 109
Exercice 25.: ANOVA de Friedman par les rangs ................................................................. 113
Exercice 26.: Tests de Levene et Brown-Forsythe ................................................................. 115
Exercice 27.: Analyse en Composantes Principales pure (ACP) ........................................... 119
2/145
Vincent ISOZ
Vincent ISOZ
3/145
Introduction
TANAGRA est un logiciel gratuit d'exploration de donnes (DataMining) destin
l'enseignement et la recherche et l'enseignement cr en 2003. Il implmente une srie de
mthodes de fouille de donnes issues du domaine de la statistique exploratoire, de l'analyse
de donnes, de l'apprentissage automatique et des bases de donnes.
Par rapport ses concurrents TANAGRA a selon moi quatre avantages majeurs:
1. L'interface est extrmement simple et sobre et ncessite quasiment zro effort pour
comprendre la logique.
2. Les mthodes statistiques et leurs rsultats respectifs sont clairement nomms selon
l'usage par les spcialistes de la statistique.
3. La documentation est bien fournie aussi bien en anglais qu'en franais avec des
annexes accessibles ceux qui ont des connaissances universitaires en mathmatiques.
4. La rapidit de traitement d'une grosse masse de donnes qui en terme de performance
vaut largement la concurrence gratuite (KNIME, Orange, R, RapidMiner, SIPINA,
WEKA) ou payant (Oracle, MS SQL Server, SPSS, Statistica) d'aprs les tests
effectus par l'auteur du logiciel (le logiciel est sobre et cod selon les rgles de l'art ce
qui accapare moins de mmoire).
5. Sa gratuit et le fait que le code source soit disponible tous.
C'est un projet ouvert au sens qu'il est possible tout chercheur d'accder au code, d'ajouter
ses propres algorithmes et de diffuser, toujours gratuitement, le logiciel modifi.
Tanagra est diffus depuis dcembre 2003. Il est compil pour la plate-forme WIN32 mais il
est possible de le faire fonctionner sous d'autres systmes (par ex. avec WINE sous linux).
L'utilisation du logiciel est totalement libre, dans quelque contexte que ce soit, y compris dans
le cadre d'une activit commerciale. Si vous souhaitez citer TANAGRA dans vos travaux de
recherche, voici la rfrence utiliser : Ricco Rakotomalala, "TANAGRA : un logiciel
gratuit pour l'enseignement et la recherche", in Actes de EGC'2005, RNTI-E-3, vol. 2,
pp.697-702, 2005.
4/145
Vincent ISOZ
Vincent ISOZ
Sinon, les logiciels payants les plus connus en ce tout dbut de 21me sicle seraient: SPSS
Clementine, SAS Enterpise Miner, Statistica Data Miner, S-Plus Insightful Miner, Matlab et
KXen ou RapidMiner si l'on fait appel aux services de consulting et de dploiement +
installation.
5/145
Avertissements
Le but de ce support a pour but de mettre en pratique les dmonstrations mathmatiques
thoriques effectues lors des cours de statistiques et de mthodes numriques.
Le contenu du prsent support est labor par un processus de dveloppement par lequel des
experts de la gestion de projets parviennent un consensus. Ce processus qui rassemble des
participants bnvoles recherche galement les points de vue de personnes intresses par le
sujet de cet ouvrage. En tant que responsable du prsent support, j'assure l'administration du
processus et je fixe les rgles qui permettent de promouvoir l'quit dans l'approche d'un
consensus. Je me charge galement de rdiger les textes, parfois de les tester/valuer ou de
vrifier indpendamment l'exactitude/solidit ou l'exhaustivit des informations prsentes.
Je dcline toute responsabilit en cas de dommages corporels, matriels ou autres de quelque
nature que ce soit, particuliers, indirects, accessoires ou compensatoires, rsultant de la
publication, de l'application ou de la confiance accorde au contenu du prsent support. Je
n'mets aucune garantie expresse ou implicite quant l'exactitude ou l'exhaustivit de toute
information publie dans le prsent support, et ne garantit aucunement que les informations
contenues dans cet ouvrage satisfassent un quelconque objectif ou besoin spcifique du
lecteur. Je ne garantis pas non plus les performances de produits ou de services d'un fabricant
ou d'un vendeur par la seule vertu du contenu du prsent support.
En publiant des textes, il n'est pas dans l'intention principale du prsent support de fournir des
services de spcialistes ou autres au nom de toute personne physique ou morale ni pour mon
compte, ni d'effectuer toute tche devant tre accomplie par toute personne physique ou
morale au bnfice d'un tiers. Toute personne utilisant le prsent support devrait s'appuyer sur
son propre jugement indpendant ou, lorsque cela s'avre appropri, faire appel aux conseils
d'un spcialiste comptent afin de dterminer comment exercer une prudence raisonnable en
toute circonstance. Les informations et les normes concernant le sujet couvert par le prsent
support peuvent tre disponibles auprs d'autres sources que le lecteur pourra souhaiter
consulter en qute de points de vue ou d'informations supplmentaires qui ne seraient pas
couverts par le contenu du prsent site Internet.
Vincent ISOZ
6/145
Objectifs
J'ai tent de mettre les exemples dans l'ordre de difficult croissant et j'espre avoir atteint cet
objectif pdagogique. Les premiers exemples sont vraiment lmentaires (ils ne dpassent pas
le niveau du BAC) et faisables avec un simple tableur mais ils permettent au moins de se faire
la main sur les manipulations courantes du logiciel.
Actuellement seulement 9 composants de Data Mining sur les 180 disponibles dans le
logiciel sont prsents dans ce support (sachant que 170 sont vraiment des techniques de
fouilles de donnes). Je rdige un exemple peu tous les 3 mois... depuis le 30 Avril 2011
sachant que je me limite prsenter uniquement les techniques pour lesquelles la
dmonstration mathmatique dtaille et pdagogique (soit une trentaine ce jour) se trouve
sur dj sur mon site www.sciences.ch (ou que j'ai dj rdige mais pas encore eu le temps
de publier en ligne sur le site). Bien videmment, si des lecteurs (tudiants / professeurs /
passionns) veulement m'aider rdiger les dmonstrations mathmatiques... toute
contribution/aide est la bienvenue pour complter les dmonstrations mathmatiques
dtailles manquantes!
Voici ci-dessous la liste des techniques et composants disponibles sur Tanagra. Celles qui
sont prcdes d'un ont t tudies dans les dtails dans le cours thorique et elles sont (ou
seront) dtailles dans le prsent support (pour les autres, il me manque les dmonstrations
mathmatiques un niveau de rigueur pouvant tre considr comme satisfaisant):
Data visualisation
Statistics
7/145
Vincent ISOZ
Nonparametric statistics
(Fisher-Yates-Terry-Hoeffding)
Instance selection
8/145
Vincent ISOZ
Feature construction
Feature selection
(Correlation Feature Selection)
Regression
9/145
Vincent ISOZ
Factorial analysis
PLS
(Partial Least Squares Confidence)
(Hierarchical Clustering)
Vincent ISOZ
(K Nearest Neighbor)
(Discriminant Analysis)
(Linear Discriminant Analysis)
Vincent ISOZ
Scoring
11/145
Vincent ISOZ
Association
12/145
Contenant des donnes spares par des tabulations (Tanagra impose les tabulations!):
Effectuez les oprations ncessaires pour visualisez les donnes contenues dans ce fichier
directement depuis Tanagra.
Vincent ISOZ
Ouvrons Tanagra:
13/145
Puis entrez un nom pour le diagramme (par exemple VisualisationDonnees) ensuite un nom
et un chemin pour le fichier Tanagra (*.tdm: Tanagra Diagram) et enfin allez cherchez la
source de donnes dans le champ Dataset comme visible sur la capture ci-dessus.
Validez par OK et vous aurez alors:
14/145
Vincent ISOZ
Vincent ISOZ
15/145
Vincent ISOZ
et cliquez sur Execute. Refaites la mme manipulation ensuite puis cliquez sur View. Vous
aurez alors un visuel des donnes du fichier:
16/145
Vincent ISOZ
Ouvrons Tanagra:
17/145
Puis entrez un nom pour le diagramme (par exemple VisualisationDonnees) ensuite un nom
et un chemin pour le fichier Tanagra (*.tdm: Tanagra Diagram) et enfin allez cherchez la
source de donnes dans le champ Dataset comme visible sur la capture ci-dessus.
Validez par OK et vous aurez alors:
18/145
Vincent ISOZ
et cliquez sur Execute. Refaites la mme manipulation ensuite puis cliquez sur View. Vous
aurez alors un visuel des donnes du fichier:
19/145
Vincent ISOZ
Vincent ISOZ
20/145
Vincent ISOZ
Dans la bote de dialogue qui apparat, nous cliquons sur la partie gauche sur Complments
et sur la partie droite sur Atteindre:
21/145
Viens alors la bote de dialogue des Macros complmentaires. Il faut cliquer sur le bouton
Parcourir et allez chercher Tanagra.xla sur le chemin C:\Programmes\Tangra.
Il faut ensuite valider trois fois par OK pour voir l'add-in Tanagra apparatre dans le ruban
Complments:
Vincent ISOZ
22/145
23/145
Vincent ISOZ
et nous slectionnons la plage du tableau. Nous validons par OK ce qui va faire ouvrir
Tanagra avec le datamart charg:
Nous faisons un clic droit sur cet slecteur pour aller dans les paramtres:
Vincent ISOZ
24/145
o nous avons slectionn la variable continue (d'o le C en bleu l'oppos des variables
discrtes) et nous validons par OK.
Vincent ISOZ
25/145
26/145
Vincent ISOZ
27/145
Vincent ISOZ
et nous allons dans ses paramtres pour choisir la variable discrte Facture Paye:
Pour avoir:
28/145
Vincent ISOZ
Vincent ISOZ
Concernant l'indice de Gini, nous avons dj tudi comme calculer ce dernier dans le cours
de statistiques thorique sur plusieurs pages (que je ne souhaite pas reproduire ici).
29/145
Pour y ajouter un autre slecteur Define status et nous ajoutons l'oprateur More Univariate
cont stat de l'onglet Statistics:
30/145
Vincent ISOZ
31/145
Vincent ISOZ
Vincent ISOZ
32/145
33/145
Vincent ISOZ
Nous souhaitons donc comparer si ces donnes suivent une loi Normale d'esprance et carttype estim sur l'chantillon. Pour cela, nous chargeons bien videmment le fichier *.xls
comme dj vu plusieurs fois plus haut et nous avons alors:
Vincent ISOZ
et donc outre le test d'Agostino et de Lilliefors que nous n'avons pas dmontr en cours, nous
retrouvons bien les valeurs pour les tests de Shapiro-Wilk ou d'Anderson-Darling.
34/145
35/145
Vincent ISOZ
et nous allons mettre des variables Input en entre qui nous sembleraient tre subjectivement
facteurs d'influence des factures payes ou non:
Vincent ISOZ
36/145
pour avoir:
Dataset (Ventes.txt)
View dataset 1
Define status 1
Univariate continuous stat 1
Define status 2
Univariate discrete stat 1
Define status 3
Group characterization 1
Nous observons donc qu'en moyenne, le prix total avec rabais est moins lv (16'546.60)
pour ceux qui payent les factures que pour ceux qui ne les paient pas. Il en est de mme pour
les quantits. Le rsultat est peu surprenant
37/145
Vincent ISOZ
et enfin nous excutons cet oprteur et affichons les rsultats comme prcdemment:
overall
overall
n
Mais avec le facteur de correctiond la population dmontr en cours, ce qui fait que la
dernire relation devient:
overall
N n overall
fcp
N 1
Dans le cas d'un variable discrte, le test se fait sur la base des proportions vues aussi dans le
cours thorique:
p p
p 1 p
n
p p
N n
N 1
p 1 p
n
Si au lieu de travailler avec les proportions, nous voulons travailler avec le comptage, un
simple transformation nous amne :
p p
N n
N 1
p 1 p
n
Vincent ISOZ
38/145
contenant:
Nous y ajoutons un slecteur de type Define status comme pour les exemples prcdents:
39/145
Vincent ISOZ
Nous l'importons dans Tanagra en utilisant la mme procdure que les exercices prcdents:
40/145
Vincent ISOZ
Pour obtenir:
41/145
Vincent ISOZ
Vincent ISOZ
Nous obtenons donc toutes les valeurs vues dans le cours thorique.
42/145
Et dans les paramtres, nous allons mettre en tant que Input la variable cre par le composant
Multiple linear regression et qui est Err_Pred_Imreg_1:
43/145
Vincent ISOZ
Nous ne rejettons donc pas l'hypothse nulle comme quoi les rsidus sont normalement
distribus.
44/145
Vincent ISOZ
pour effectuer une rgression linaire ascendante (Forward Entry Selection) et comparer les
rsultats par rapport ceux obtenus la mains dans MS Excel et ceux obtenus aussi dans
Minitab 15 dans le cours thorique.
Nous y ajoutons un slecteur de type Define status comme pour les exemples prcdents:
Vincent ISOZ
45/145
46/145
Vincent ISOZ
Vincent ISOZ
En excutant cet oprateur nous voyons que nous retrouvons bien que les coefficient C et B
comme pour les calculs faits dans MS Excel et avec Minitab mais la diffrence que nous
avons certaines informations en plus qui sont fort sympathiques d'abord dans le premier
onglet Report:
47/145
Vincent ISOZ
48/145
pour effectuer une rgression linaire descendante (Backward Entry Selection) et comparer
les rsultats par rapport ceux obtenus la mains dans MS Excel et ceux obtenus aussi dans
Minitab 15 dans le cours thorique.
Nous y ajoutons un slecteur de type Define status comme pour les exemples prcdents:
Vincent ISOZ
49/145
50/145
Vincent ISOZ
Vincent ISOZ
En excutant cet oprateur nous voyons que nous retrouvons bien que les coefficient C et B
comme pour les calculs faits dans MS Excel et avec Minitab mais la diffrence que nous
avons certaines informations en plus qui sont fort sympathiques d'abord dans le premier
onglet Report:
51/145
Vincent ISOZ
et dans le deuxime onglet nous avons encore une fois la matrice d'information:
52/145
Vincent ISOZ
avec en Input le champ X (en ralit peut importe lequel comme nous l'avons vu dans le
cours thorique):
53/145
54/145
Vincent ISOZ
Vincent ISOZ
Ce qui outre le test t que nous n'avons pas dmontr dans le cours thorique, est parfaitement
conforme aux calculs faits la main.
55/145
Nous l'importons dans Tanagra comme l'habitude et y mettons un slecteur Define status:
Vincent ISOZ
Dans les paramtres de celui-ci nous mettons le champ Status en Target (qui doit absolument
tre une variable discrte binaire textuelle):
56/145
N'oubliez pas d'excuter ce composant! Ensuite nous rajoutons l'oprateur Binary logistic
regression du groupe Spv:
57/145
Vincent ISOZ
et le Montant en Input:
Il vient alors aprs avoir fait un View aprs l'excution (les informations sont plus pertinentes
que celles renvoyes par Minitab):
Avant d'aller plus loin nous voyons dans la matrice de confusion que sur les 91 bon dbiteurs
(correspondant ici au statut: Non) qu'il y avait dans la liste d'origine, le modle en prdit 19
comme tant mauvais dbiteurs et 72 comme tant bons. La mme lecture est valable pour les
45 mauvais dbiteurs. Si videmment le modle tait parfait, la matrice de confusion serait
diagonale.
Vincent ISOZ
58/145
Ici il n'y a pas grand chose dire puisque nous n'avons pas encore tudi ces indicateurs dans
le cours thorique mais celui du khi-2 est cependant un classique dont l'interprtation ne
souffre d'aucun doute sur la conclusion du modle.
Vincent ISOZ
59/145
Vincent ISOZ
60/145
Exercice 15.: Lift Curve et ROC Curve (sur rgression logistique binaire)
Tanagra V1.4.44
Le but va tre ici de vrifier que nous retrouvons la mme forme de Lift Curve et ROC Curve
(Receiver Operating Characteristic) que celles obtenues la main avec MS Excel dans le
cours thorique pour la rgression logistique (mais le principe est toujours le mme).
Pour cela nous ajoutons d'abord le composant Scoring du groupe Scoring:
Afin d'avoir:
61/145
Vincent ISOZ
nous disons que nous allons nous intresser aux dbiteurs risque:
Une fois ceci fait, il ne sert rien dans l'tat prsent. Il faut lui ajouter un slecteur Define
satut:
Vincent ISOZ
62/145
Vincent ISOZ
63/145
nous prenons:
Vincent ISOZ
64/145
Vincent ISOZ
65/145
Nous pouvons observer qu'aussi bien le TP-Rate que la courbe Lift sont errones par
rapport au calcul la main et Minitab+SPSS! Aprs tude du code source de Tanagra
de ma part il semblait qu'il y ait une erreur de codage car ce que fait ci-dessus Tanagra
c'est qu'il ne nous montre que des multiples du ratio 1/45. Je pense que cette erreur vient
du fait qu' la base le dveloppeur n'a peut-tre pas pens que l'on pourrait avoir des trs
nombreux doublons dans la population d'origine. Donc pour l'instant utilisez Minitab/SPSS ou
autre...
Enfin, nous rajoutons le composant Roc curve du groupe Scoring:
Vincent ISOZ
66/145
Vincent ISOZ
67/145
Vincent ISOZ
et le deuxime onglet:
68/145
Vincent ISOZ
Nous pouvons observer qu'aussi bien le TP-Rate que le FP-Rate que la courbe ROC sont
errones par rapport au calcul la main et Minitab+SPSS! Aprs tude du code source
de Tanagra de ma part il semblait qu'il y ait une erreur de codage car ce que fait cidessus Tanagra c'est qu'il ne nous montre encore une fois que des multiples du ratio
1/45. Je pense que cette erreur vient du fait qu' la base le dveloppeur n'a peut-tre pas pens
que l'on pourrait avoir des trs nombreux doublons dans la population d'origine. Donc pour
l'instant utilisez Minitab/SPSS ou autre...
69/145
Vincent ISOZ
que nous allons devoir redisposer de la manire suivant pour Tanagra (ce qui est la structure
conforme du Data Mining):
70/145
Vincent ISOZ
71/145
72/145
Vincent ISOZ
Vincent ISOZ
Nous voyons que les sorties correspondent ce que nous avons calcul dans le cours
thorique. Il manque cependant l'intervalle de confiance qui est important dans la pratique.
C'est dommage...
73/145
Vincent ISOZ
L encore il manque l'intervalle de confiance mais ce qui est sympathique que les d.f. ne sont
pas arrondis et que nous tombons exactement sur les degrs de liberts obtenus avec
l'quation de WelchSatterthwaite dmontre en cours.
74/145
Nous l'importons dans Tanagra en utilisant la mme procdure que les exercices prcdents:
75/145
Vincent ISOZ
qui contient les mmes donnes que celles vues dans le cours thorique:
Nous y ajoutons un slecteur de type Define status comme pour les exemples prcdents:
Vincent ISOZ
76/145
Vincent ISOZ
77/145
ce qui donnera:
78/145
Vincent ISOZ
Vincent ISOZ
79/145
Vincent ISOZ
Nous voyons que nous obtenons la mme chose que dans le cours thorique la diffrence
que l'arbre s'arrte plus tt.
80/145
Vincent ISOZ
81/145
avec en Target:
Vincent ISOZ
et en Input:
82/145
Ensuite nous rajoutons le slecteur Select first examples du groupe Instance selection:
83/145
Vincent ISOZ
Nous prenons les 60 premires lignes du fichier comme donnes d'entranement (choix un peu
arbitraire):
Nous voyons que le classificateur est trs bon. Pour avoir le dtail, nous ajoutons l'oprateur
View Data Set du groupe Data visualization:
84/145
Vincent ISOZ
et nous l'excutons pour avoir les dtails des prdictions (nous avons mis en vidence l'un
deux ceux qui est mal prdit):
Maintenant injectons pour y mettre un jeu de test, nous remettons un oprateur de slection
Define Status:
Vincent ISOZ
avec en Target:
85/145
et en Input:
86/145
Vincent ISOZ
Ensuite, nous rajoutons l'oprateur Test du groupe Spv learning assessment (nous aurions pu
faire la mme chose pour la rgression logistique mais ayant l'quation explicite c'tait moins
utile alors que l c'est trs utile!):
Nous pouvons aussi rajouter un oprateur Train Test du groupe Spv learning assessment:
87/145
Vincent ISOZ
Et nous rajoutons un composant View Dataset pour voir comment les donnes de test (ou
donnes nouvelles) sont classes:
Vincent ISOZ
88/145
Vincent ISOZ
89/145
pour vrifier qu'il contient bien les donnes utilises lors du cours thorique:
Vincent ISOZ
Ensuite, nous ouvrons Tanagra et cration un nouveau projet bas sur ce fichier MS Excel:
90/145
Nous voulons faire un K-Means sur les revenus et la Surface donc nous prenons le slecteur
Define status o nous mettons en Input les deux variables clusteriser:
91/145
Vincent ISOZ
Ce qui donnera:
Vincent ISOZ
92/145
Vincent ISOZ
93/145
Vincent ISOZ
94/145
Vincent ISOZ
Et nous retrouvons bien les rsultats obtenus avec MS Excel et Minitab. Cependant nous
souhaiterions un peu plus de dtails avec Minitab. Pour cela, nous rajoutons un composant
View dataset que nous excutons et visualisons:
95/145
Nous avons alors sur la droite exactement le mme tableau que celui obtenu avec MS Excel
ou Minitab pour montrer quels individus appartiennent quel Cluster.
Vincent ISOZ
96/145
Vincent ISOZ
97/145
Vincent ISOZ
98/145
Au vu des rsultats, nous nous rendons compte qu'il aurait t peut-tre plus malin de laisser
la colonne Propritaire dans le fichier d'origine afin d'avoir une caractrisation utilisant ce
group pouvant peut-tre aider la conclusion...
Vincent ISOZ
99/145
Vincent ISOZ
et nous voyons bien comment sont composs les 3 clusters. Si jamais pour grossir les points il
faut aller dans le menu Component:
100/145
Nous importons cette liste comme l'habitude dans Tanagra (la mthode tant toujours la
mme).
Nous mettons le slecteur Define status:
Vincent ISOZ
avec comme Target la colonne Formes (car c'est ce que nous voulons deviner):
101/145
et comme Input les trois autres champs (peut importe l'ordre d'insertion):
102/145
Vincent ISOZ
pour mettre:
Vincent ISOZ
et en faisons un View:
Dommage qu'il n'y ait pas de diagramme cependant... cela aiderait la comprhension.
104/145
Vincent ISOZ
Nous l'importons dans Tanagra comme l'habitude et lui ajoutons le slecteur Define status:
105/145
Vincent ISOZ
Nous cliquons sur l'onglet Dendrogram et apparat alors le mme diagramme que celui
obtenu avec les calculs manuels l'exception des valeurs de l'axe vertical (la diffrence
venant juste d'une convention):
106/145
Vincent ISOZ
Vincent ISOZ
Si l'on reste appuy avec le bouton gauche de la souris sur chaque point, nous retrouvons les
nom des lignes de la liste d'origine.
107/145
Exceptionnellement nous allons faire l'analyse avec RapidMiner car la sortie de Tanagra n'est
pas agrable du tout et l'interprtation pour l'usage pratique peu adapte.
Vincent ISOZ
108/145
contenant:
Nous y ajoutons un slecteur de type Define status comme pour les exemples prcdents:
109/145
Vincent ISOZ
Nous l'importons dans Tanagra en utilisant la mme procdure que les exercices prcdents:
Vincent ISOZ
110/145
Vincent ISOZ
111/145
afin d'avoir:
Dataset (ANOVA.xls)
Define status 1
One-way ANOVA 1
Nous retrouvons exactement les mmes chiffres que dans les autres cours donc il nous avons
les mmes conclusions.
112/145
Vincent ISOZ
et on excute et affichons le rsultats comme dans les exemples prcdents pour avoir au
final:
Nous importons comme l'habitude dans Tanagra et mettons le slecteur Define Status:
Ensuite, nous ajoutons le composant Friedman's ANOVA by rank sans rien changer ni
paramtrer:
113/145
Vincent ISOZ
et dans les paramtres nous mettons uniquement tous les champs en Input:
Vincent ISOZ
Soit les mmes valeurs que dans le cours thorique et dans Minitab15.
114/145
contenant:
Nous y ajoutons un slecteur de type Define status comme pour les exemples prcdents:
Dataset (ANOVA.xls)
Define status 1
115/145
Vincent ISOZ
Nous l'importons dans Tanagra en utilisant la mme procdure que les exercices prcdents:
Vincent ISOZ
116/145
pour obtenir:
117/145
Vincent ISOZ
Nous obtenons la mme chose que les calculs faits la main! Et pour Brown-Forsythe nous
effectuons pareil en ajoutant l'oprateur Brown-Forsythe's test:
Vincent ISOZ
Soit le mmes rsultats que ceux faits la main et dans Minitab (mais avec moins de dtails:
sans les IC).
118/145
Vincent ISOZ
119/145
Vincent ISOZ
120/145
Vincent ISOZ
121/145
Donc nous retrouvons bien la trace de valeur 3.00 et la moyenne de 1.00. Ensuite pour la suite
Tanagra donne:
122/145
Vincent ISOZ
La aussi nous retrouvons les donnes calcules la main. La suite donne par Tanagra:
n'a pas t tudie en cours (excepte la valeur numrique des trois valeurs propres bien
videmment!).
Vincent ISOZ
Ensuite Tanagra donne les saturations et les score de ce qui est normalement sujet de
l'Analyse Factorielle sans rotation. Nous reviendrons l-dessus avec l'exemple que nous
avions tudi dans le cours thorique pour l'Analyse Factorielle:
123/145
Ensuite Tanagra donne la matrice des corrlations que nous avions calcule (bien videmment
obligatoirement) dans le cours thorique avec les mmes valeurs:
et il vient automatiquement les deux tracs triviaux suivants qui sont donns par Tanagra:
124/145
Vincent ISOZ
Ensuite Tanagra donne les corrlations partielles (mais cela n'est normalement pas
directement lie l'A.C.P.). donc nous ne l'avions pas calcul dans le cours thorique, nous le
mettrons donc de ct:
Il est possible d'accder directement aux donnes calcules, c'est--dire les projections dans le
nouvel espace (calcul laborieux que nous n'avons pas fait dans le cours thorique). En effet, le
composant ACP rajoute automatiquement une srie de variables l'ensemble de donnes. Il
s'agit, pour chaque individu et pour chaque axe demand, des projections sur les axes, des
contributions et des cos.
Pour visualiser le tableau de donnes associ, nous plaons dans le diagramme le composant
View Dataset du groupe Data visualization
Vincent ISOZ
125/145
Notons qu'il est trs ais avec Tanagra de passer d'un plan factoriel un autre:
Nous voyons que nous retrouvons la mme forme de graphique au niveau visuel que celle
obtenue dans le cours thorique mais les donnes ne sont pas centres rduites (du moins a
priori). Le graphique a cependant exactement les mmes valeurs que celui sorti par le logiciel
Minitab.
126/145
Vincent ISOZ
Il est possible de modifier la taille des tiquettes avec les raccourcis CTRL+Q et CTRL+W.
dans Tanagra:
Vincent ISOZ
Nous ajoutons le composant de slection Define Status et mettons en Input les trois variables:
127/145
et c'est maintenant qu'intervient une petite subtilit de Tanagra: Si nous voulons retrouver les
valeurs calcules en cours la main et conformes au modle mathmatique sans rotation,
nous devons utiliser le composant Principal Component Analysis:
Vincent ISOZ
et pour tre conforme l'exemple particulier que nous avons vu dans le cours thorique,
mettre les paramtres suivants:
128/145
valeurs des valeurs propres identiques celles calcules en cours. Ensuite, nous avons tout en
bas les deux tableaux qui nous intressent:
129/145
Vincent ISOZ
o nous retrouvons bien les saturations calcules la main dans le cours thorique au signe
prs (mises en vidence en rouge et nommes pour rappel en anglais "loadings").
Et le dernier tableau:
Vincent ISOZ
n'est pas contre pour les deux dernires colonnes pas conforme ce que nous avons calcul
manuellement dans le cours thorique ni conforme ce que nous renvoie le logiciel Minitab.
130/145
131/145
Vincent ISOZ
pour obtenir:
Vincent ISOZ
132/145
Michel Tenenhaus, Rgression PLS, dition Technip, ISBN 2-7108-0735-1, Pages 75-83
133/145
Vincent ISOZ
134/145
Vincent ISOZ
et allons dans les paramtres pour prendre que deux variables intermdiaire:
Vincent ISOZ
On retrouve bien les mmes coefficients non normaliss que dans Minitab ou que ceux
calculs la main.
135/145
Nous allons dans le menu Component et nous cliquons sur Copy results:
Vincent ISOZ
136/145
nous retrouvons donc bien les donnes textes mais par contre nous perdons les donnes
visuelles comme les barre de donnes de l'histogramme. Heureusement cela peut tre vite
reproduit.
Maintenant, reprenons l'Exercice 19.: K-NN (K nearest neighbors)
Tanagra V1.4.48
Nous avons vu en cours l'approche des k plus proches voisins. Nous allons appliquer ici ce
qui a t prsent en cours avec le fichier Excel des fleurs d'Iris
Vincent ISOZ
137/145
avec en Target:
138/145
Vincent ISOZ
et en Input:
139/145
Vincent ISOZ
Ensuite nous rajoutons le slecteur Select first examples du groupe Instance selection:
Nous prenons les 60 premires lignes du fichier comme donnes d'entranement (choix un peu
arbitraire):
140/145
Vincent ISOZ
Nous voyons que le classificateur est trs bon. Pour avoir le dtail, nous ajoutons l'oprateur
View Data Set du groupe Data visualization:
Vincent ISOZ
et nous l'excutons pour avoir les dtails des prdictions (nous avons mis en vidence l'un
deux ceux qui est mal prdit):
141/145
avec en Target:
Vincent ISOZ
et en Input:
142/145
Et nous rajoutons un composant View Dataset pour voir comment les donnes de test (ou
donnes nouvelles) sont classes:
143/145
Vincent ISOZ
Nous pouvons aussi rajouter un oprateur Train Test du groupe Spv learning assessment:
144/145
Vincent ISOZ
Vincent ISOZ
145/145
Vincent ISOZ
Une fois que nous l'excutons en faisant un double clic dessus, nous obtenons un fichier *.txt
dans le dossier du fichier Tanagra:
146/145