Data Mining avec Tanagra

lments de
Data Mining avec Tanagra

Vincent ISOZ, 2013-10-21 (V3.0 Revision 6)
{oUUID 1.679}
TANAGRA (Ricco RAKOTOMALALA)
Introduction ................................................................................................................................ 4
Logiciels de Data Mining ........................................................................................................... 5
Avertissements ........................................................................................................................... 6
Objectifs ..................................................................................................................................... 7
Data visualisation ................................................................................................................... 7
Statistics ................................................................................................................................. 7
Nonparametric statistics ......................................................................................................... 8
Instance selection ................................................................................................................... 8
Feature construction ............................................................................................................... 9
Feature selection ..................................................................................................................... 9
Regression .............................................................................................................................. 9
Factorial analysis .................................................................................................................. 10
PLS ....................................................................................................................................... 10
Clustering ............................................................................................................................. 10
SPV (Support Vector) Learning ........................................................................................... 10
Meta SPV (Support Vector) Learning .................................................................................. 11
SPV (Support Vector) Learning assessment ........................................................................ 11
Scoring ................................................................................................................................. 11
Association ........................................................................................................................... 12
Exercice 1.: Import et visualisation des donnes *.txt ............................................................. 13
Exercice 2.: Import et visualisation des donnes *.xls ............................................................. 17
Exercice 3.: Installation de l'add-in MS Excel ......................................................................... 21
Exercice 4.: Statistiques lmentaires univaries continues .................................................... 24
Exercice 5.: Statistiques lmentaires univaries discrtes ...................................................... 27
Exercice 6.: Statistiques univaries continues multiples .......................................................... 30
Exercice 7.: Test de Normalit ................................................................................................. 33
Exercice 8.: Caractrisation de groupes ................................................................................... 35
Exercice 9.: Rgression linaire simple ou multiple ................................................................ 39
Exercice 10.: Test de Normalit des rsidus de la rgression linaire ..................................... 43
Exercice 11.: Rgression linaire ascendante (Forward Entry Regression) ............................. 45
Exercice 12.: Rgression linaire descendante (Backward Entry Selection) ........................... 49
Exercice 13.: Coefficient de corrlation de Spearman (Spearman rho) ................................... 53
Exercice 14.: Rgression logistique binaire (SPV) .................................................................. 56
Exercice 15.: Lift Curve et ROC Curve (sur rgression logistique binaire) ............................ 61
Exercice 16.: Test-T homoscdatique ...................................................................................... 70
Exercice 17.: Test-T htroscdastique .................................................................................... 74
Exercice 18.: Clustering CART (arbres de rgression) ............................................................ 75
Exercice 19.: K-NN (K nearest neighbors) .............................................................................. 81
Exercice 20.: Classificaiton K-Means (nue dynamique) ........................................................ 90
Exercice 21.: Clustering ID-3 (Iterative Dichotomiser 3) ...................................................... 101
Exercice 22.: HAC (Hierarchical Ascendant Clustering) ...................................................... 105
Exercice 23.: Classification nave baysienne ....................................................................... 108
Exercice 24.: ANOVA un facteur ....................................................................................... 109
Exercice 25.: ANOVA de Friedman par les rangs ................................................................. 113
Exercice 26.: Tests de Levene et Brown-Forsythe ................................................................. 115
Exercice 27.: Analyse en Composantes Principales pure (ACP) ........................................... 119
2/145
Vincent ISOZ
TABLE DES MATIRES
Vincent ISOZ
Exercice 28.: Analyse Factorielle sans rotation (AF) ............................................................ 127

Exercice 29.: Analyse Factorielle avec rotation VARIMAX ................................................. 131
Exercice 30.: Rgression (linaire) des moindres carrs partiels (rgression linaire PLS
univarie: PLS1) ..................................................................................................................... 133
Exercice 31.: Export d'un rsultat vers MS Excel .................................................................. 136
3/145
Introduction
TANAGRA est un logiciel gratuit d'exploration de donnes (DataMining) destin
l'enseignement et la recherche et l'enseignement cr en 2003. Il implmente une srie de
mthodes de fouille de donnes issues du domaine de la statistique exploratoire, de l'analyse
de donnes, de l'apprentissage automatique et des bases de donnes.
Par rapport ses concurrents TANAGRA a selon moi quatre avantages majeurs:
1. L'interface est extrmement simple et sobre et ncessite quasiment zro effort pour
comprendre la logique.
2. Les mthodes statistiques et leurs rsultats respectifs sont clairement nomms selon
l'usage par les spcialistes de la statistique.
3. La documentation est bien fournie aussi bien en anglais qu'en franais avec des
annexes accessibles ceux qui ont des connaissances universitaires en mathmatiques.
4. La rapidit de traitement d'une grosse masse de donnes qui en terme de performance
vaut largement la concurrence gratuite (KNIME, Orange, R, RapidMiner, SIPINA,
WEKA) ou payant (Oracle, MS SQL Server, SPSS, Statistica) d'aprs les tests
effectus par l'auteur du logiciel (le logiciel est sobre et cod selon les rgles de l'art ce
qui accapare moins de mmoire).
5. Sa gratuit et le fait que le code source soit disponible tous.
C'est un projet ouvert au sens qu'il est possible tout chercheur d'accder au code, d'ajouter
ses propres algorithmes et de diffuser, toujours gratuitement, le logiciel modifi.
Tanagra est diffus depuis dcembre 2003. Il est compil pour la plate-forme WIN32 mais il
est possible de le faire fonctionner sous d'autres systmes (par ex. avec WINE sous linux).
L'utilisation du logiciel est totalement libre, dans quelque contexte que ce soit, y compris dans
le cadre d'une activit commerciale. Si vous souhaitez citer TANAGRA dans vos travaux de
recherche, voici la rfrence utiliser : Ricco Rakotomalala, "TANAGRA : un logiciel
gratuit pour l'enseignement et la recherche", in Actes de EGC'2005, RNTI-E-3, vol. 2,
pp.697-702, 2005.
4/145
Vincent ISOZ
Prcisions sur la licence de TANAGRA (voir le dtail de la licence lors de l'installation). Le

logiciel TANAGRA est dvelopp titre personnel par Ricco Rakotomalala. Il en a la
proprit exclusive. Un logiciel est une oeuvre de l'esprit au sens du code de la proprit
intellectuelle (Article L.112-2), exactement comme les ouvrages. Ricco Rakotomalala
s'engage rendre la version complte de TANAGRA indfiniment gratuite sans aucune
restriction. Le code source sera toujours librement accessible en ligne. Si une entit
quelconque introduit des contraintes quant l'accs au logiciel (ex. ncessit de
s'enregistrer pour tlcharger ; versions volontairement brides avec des promesses de
fonctionnalits tendues sur une variante amliore payante ; code source non publi ;
incorporation dans un package commercial ; ou que sais-je encore...), vous tes face une
distribution illicite.
Logiciels de Data Mining

Tanagra est certes trs complet pour la majorit des besoins mais il ne peut convenir
cependant qu' des situations o:
1. il n'est pas ncessaire d'avoir des rsultats en temps rel sur des serveurs de bases de
donnes
2. l'utilisation de scripts d'automatisation de post ou prtraitement n'est pas ncessaire
(pas de macros par exemple)
3. Il n'y pas de support technique pour rpondre aux questions (du moins ma
connaissance)
et c'est aussi le cas pour d'autres logiciels gratuits de Data Mining comme S-Plus de Insight,
Alice de Isoft, Predic de Neuralware, R (version gratuite de S-Plus), Weka et RapidMiner
(sauf changement entre le moment o ces lignes ont t crites et le moment o vous les
lisez).
Cependant en matire de quantits de techniques, d'ergonomie et de rapidit d'enseignement,
Tanagra est selon mon exprience personnelle loin devant pour l'enseignement en entreprise
et l'universit.
Sinon, pour avoir test sur un jeu d'un peu plus de 1.1 million de donnes que j'utilise dans le
cade des mes formations (traitements effectus souvent en moins de dix secondes), nous
pouvons trs probablement sans problmes utiliser Tanagra pour faire des analyses sur des
bases de donnes de l'ordre de la dizaine de millions de donnes (par extrapolation au
pouce...).
Vincent ISOZ
Sinon, les logiciels payants les plus connus en ce tout dbut de 21me sicle seraient: SPSS
Clementine, SAS Enterpise Miner, Statistica Data Miner, S-Plus Insightful Miner, Matlab et
KXen ou RapidMiner si l'on fait appel aux services de consulting et de dploiement +
installation.
5/145
Avertissements
Le but de ce support a pour but de mettre en pratique les dmonstrations mathmatiques
thoriques effectues lors des cours de statistiques et de mthodes numriques.
Le contenu du prsent support est labor par un processus de dveloppement par lequel des
experts de la gestion de projets parviennent un consensus. Ce processus qui rassemble des
participants bnvoles recherche galement les points de vue de personnes intresses par le
sujet de cet ouvrage. En tant que responsable du prsent support, j'assure l'administration du
processus et je fixe les rgles qui permettent de promouvoir l'quit dans l'approche d'un
consensus. Je me charge galement de rdiger les textes, parfois de les tester/valuer ou de
vrifier indpendamment l'exactitude/solidit ou l'exhaustivit des informations prsentes.
Je dcline toute responsabilit en cas de dommages corporels, matriels ou autres de quelque
nature que ce soit, particuliers, indirects, accessoires ou compensatoires, rsultant de la
publication, de l'application ou de la confiance accorde au contenu du prsent support. Je
n'mets aucune garantie expresse ou implicite quant l'exactitude ou l'exhaustivit de toute
information publie dans le prsent support, et ne garantit aucunement que les informations
contenues dans cet ouvrage satisfassent un quelconque objectif ou besoin spcifique du
lecteur. Je ne garantis pas non plus les performances de produits ou de services d'un fabricant
ou d'un vendeur par la seule vertu du contenu du prsent support.
En publiant des textes, il n'est pas dans l'intention principale du prsent support de fournir des
services de spcialistes ou autres au nom de toute personne physique ou morale ni pour mon
compte, ni d'effectuer toute tche devant tre accomplie par toute personne physique ou
morale au bnfice d'un tiers. Toute personne utilisant le prsent support devrait s'appuyer sur
son propre jugement indpendant ou, lorsque cela s'avre appropri, faire appel aux conseils
d'un spcialiste comptent afin de dterminer comment exercer une prudence raisonnable en
toute circonstance. Les informations et les normes concernant le sujet couvert par le prsent
support peuvent tre disponibles auprs d'autres sources que le lecteur pourra souhaiter
consulter en qute de points de vue ou d'informations supplmentaires qui ne seraient pas
couverts par le contenu du prsent site Internet.
Vincent ISOZ
Je ne dispose (malheureusement...) d'aucun pouvoir dans le but de faire respecter la

conformit au contenu du prsent ouvrage, et je ne m'engage nullement surveiller ni faire
respecter une telle conformit. Je n'exerce ( ce jour...) aucune activit de certification, de test
ni d'inspection de produits, de conceptions ou d'installations fins de sant ou de scurit des
personnes et des biens. Toute certification ou autre dclaration de conformit en matire
d'informations ayant trait la sant ou la scurit des personnes et des biens, mentionne
dans le prsent support, ne peut aucunement tre attribue au contenu du prsent support et
demeure sous l'unique responsabilit de l'organisme de certification ou du dclarant concern.
6/145
Objectifs
J'ai tent de mettre les exemples dans l'ordre de difficult croissant et j'espre avoir atteint cet
objectif pdagogique. Les premiers exemples sont vraiment lmentaires (ils ne dpassent pas
le niveau du BAC) et faisables avec un simple tableur mais ils permettent au moins de se faire
la main sur les manipulations courantes du logiciel.
Actuellement seulement 9 composants de Data Mining sur les 180 disponibles dans le
logiciel sont prsents dans ce support (sachant que 170 sont vraiment des techniques de
fouilles de donnes). Je rdige un exemple peu tous les 3 mois... depuis le 30 Avril 2011
sachant que je me limite prsenter uniquement les techniques pour lesquelles la
dmonstration mathmatique dtaille et pdagogique (soit une trentaine ce jour) se trouve
sur dj sur mon site www.sciences.ch (ou que j'ai dj rdige mais pas encore eu le temps
de publier en ligne sur le site). Bien videmment, si des lecteurs (tudiants / professeurs /
passionns) veulement m'aider rdiger les dmonstrations mathmatiques... toute
contribution/aide est la bienvenue pour complter les dmonstrations mathmatiques
dtailles manquantes!
Voici ci-dessous la liste des techniques et composants disponibles sur Tanagra. Celles qui
sont prcdes d'un ont t tudies dans les dtails dans le cours thorique et elles sont (ou
seront) dtailles dans le prsent support (pour les autres, il me manque les dmonstrations
mathmatiques un niveau de rigueur pouvant tre considr comme satisfaisant):
Data visualisation
Statistics
7/145
Vincent ISOZ
Nonparametric statistics
(Fisher-Yates-Terry-Hoeffding)
Instance selection
8/145
Vincent ISOZ
Feature construction
(Minimum Description Length Principle Cut)
Feature selection
(Correlation Feature Selection)
(Fast Correlation Based Filter)
(Metamaterial Isoindex Filtering Selection)

(Multivalued Oblivious Decision Tree)
Regression
9/145
Vincent ISOZ
Factorial analysis
(Nonlinear Iterative Partial Least Squares)
PLS
(Partial Least Squares Confidence)
(excute PLS Factorial et le PLS Regression en mme temps)

Clustering
(Clustering Tree Post-prunning)
(Expectation-Maximization clustering)
(Hierarchical Clustering)
(Learning Vector Quantized)
SPV (Support Vector) Learning
(Cost Sensitive Classification Regression Tree)

10/145
Vincent ISOZ
(Variable Hierarchical Clustering Analysis)

(Cost Sensitive Missclassification Cost Matrix)
(K Nearest Neighbor)
(Discriminant Analysis)
(Linear Discriminant Analysis)
Meta SPV (Support Vector) Learning
SPV (Support Vector) Learning assessment
Vincent ISOZ
Scoring
11/145
Vincent ISOZ
Association
12/145
Exercice 1.: Import et visualisation des donnes *.txt

Tanagra V1.4.36
A partir du fichier texte suivant se trouvant dans votre dossier d'exercice:
Contenant des donnes spares par des tabulations (Tanagra impose les tabulations!):
Effectuez les oprations ncessaires pour visualisez les donnes contenues dans ce fichier
directement depuis Tanagra.
Vincent ISOZ
Ouvrons Tanagra:
13/145
Puis entrez un nom pour le diagramme (par exemple VisualisationDonnees) ensuite un nom
et un chemin pour le fichier Tanagra (*.tdm: Tanagra Diagram) et enfin allez cherchez la
source de donnes dans le champ Dataset comme visible sur la capture ci-dessus.
Validez par OK et vous aurez alors:
14/145
Vincent ISOZ
Allez dans le menu File/New:
Depuis la catgorie des composants Components se trouvant dans la partie infrieure du

logiciel, glissez l'oprateur nomm View dataset de la catgorie Data visualization:
sur le Dataset afin d'obtenir:
Vincent ISOZ
Ensuite faites un clic droit sur l'oprateur View dataset 1:
15/145
Vincent ISOZ
et cliquez sur Execute. Refaites la mme manipulation ensuite puis cliquez sur View. Vous
aurez alors un visuel des donnes du fichier:
16/145
Exercice 2.: Import et visualisation des donnes *.xls

Tanagra V1.4.36
A partir du fichier texte suivant se trouvant dans votre dossier d'exercice:
Contenant les mmes donnes que le fichier *.txt prcdent:
Vincent ISOZ
Ouvrons Tanagra:
17/145
Puis entrez un nom pour le diagramme (par exemple VisualisationDonnees) ensuite un nom
et un chemin pour le fichier Tanagra (*.tdm: Tanagra Diagram) et enfin allez cherchez la
source de donnes dans le champ Dataset comme visible sur la capture ci-dessus.
Validez par OK et vous aurez alors:
18/145
Vincent ISOZ
Allez dans le menu File/New
Depuis la catgorie des composants Components se trouvant dans la partie infrieure du

logiciel, glissez l'oprateur nomm View dataset de la catgorie Data visualization:
sur le Dataset afin d'obtenir:
et cliquez sur Execute. Refaites la mme manipulation ensuite puis cliquez sur View. Vous
aurez alors un visuel des donnes du fichier:
19/145
Vincent ISOZ
Ensuite faites un clic droit sur l'oprateur View dataset 1:
Vincent ISOZ
20/145
Exercice 3.: Installation de l'add-in MS Excel

Tanagra V1.4.36
La macro complmentaire ( addin en anglais) tanagra.xla participe grandement la
diffusion du logiciel Tanagra. Le principe est simple, il sagit dintgrer un menu Tanagra
dans Excel. Ainsi lutilisateur peut lancer les calculs statistiques sans avoir quitter le tableur.
Pour simple quelle soit, cette fonctionnalit facilite le travail du data miner. Le tableur est un
des outils les plus utiliss pour la prparation des donnes.
Nous ouvrons dans MS Excel 2010 pour aller faire un clic droit sur les rubans et en
slectionnant dans le menu contextuel qui apparat l'option Personnaliser la barre d'outils
Accs rapide:
Vincent ISOZ
Dans la bote de dialogue qui apparat, nous cliquons sur la partie gauche sur Complments
et sur la partie droite sur Atteindre:
21/145
Viens alors la bote de dialogue des Macros complmentaires. Il faut cliquer sur le bouton
Parcourir et allez chercher Tanagra.xla sur le chemin C:\Programmes\Tangra.
Il faut ensuite valider trois fois par OK pour voir l'add-in Tanagra apparatre dans le ruban
Complments:
Pour voir comment cet add-in fonctionne, nous ouvrons le fichier:
Vincent ISOZ
et nous cliquons sur Execute Tanagra:
22/145
et ensuite y'a plus qu'
23/145
Vincent ISOZ
et nous slectionnons la plage du tableau. Nous validons par OK ce qui va faire ouvrir
Tanagra avec le datamart charg:
Exercice 4.: Statistiques lmentaires univaries continues

Tanagra V1.4.36
Toujours partir du mme fichier Ventes.xls nous souhaiterions gnrer de petites statistiques
univaries continues lmentaires.
Pour cela nous rajoutons d'abord un slecteur Define status de l'onglet Feature Selection ou
de la barre de menu du logiciel (cela dpend de la version...):
Ce qui nous donne:
Nous faisons un clic droit sur cet slecteur pour aller dans les paramtres:
Vincent ISOZ
ce qui fait apparatre la bote de dialogue suivante:
24/145
o nous avons slectionn la variable continue (d'o le C en bleu l'oppos des variables
discrtes) et nous validons par OK.
Vincent ISOZ
Ensuite nous rajoutons un oprateur Univariate continuous stat de l'onglet Statistics:
25/145

pour avoir:
et nous faisons un clic droit Execute:
et ensuite un clic droit View:
C'est suffisamment simple pour ne ncessiter aucune explication particulire.
26/145
Vincent ISOZ
ce qui nous donne les statistiques lmentaires univaries suivantes:
Exercice 5.: Statistiques lmentaires univaries discrtes

Tanagra V1.4.36
Toujours partir du mme fichier Ventes.xls nous souhaiterions gnrer de petites statistiques
univaries continues discrtes.
Pour cela nous rajoutons encore un slecteur Define status de l'onglet Feature Selection afin
d'obtenir:
Nous validons par OK.

Ensuite nous rajoutons un oprateur Univariate discrete stat de l'onglet Statistics:
27/145
Vincent ISOZ
et nous allons dans ses paramtres pour choisir la variable discrte Facture Paye:
Pour avoir:
C'est suffisamment simple aussi pour ne ncessiter aucune explication particulire.
28/145
Vincent ISOZ
et nous procdons comme avant en excutant et en affichant les donnes:
Vincent ISOZ
Concernant l'indice de Gini, nous avons dj tudi comme calculer ce dernier dans le cours
de statistiques thorique sur plusieurs pages (que je ne souhaite pas reproduire ici).
29/145
Exercice 6.: Statistiques univaries continues multiples

Tanagra V1.4.36
Avoir un peu plus d'indicateurs statistiques concernant la colonne Prix total avec rabais de
notre fichier Ventes.txt.
Nous repartons de la configuration suivante:
Dataset (Ventes.txt)
View dataset 1
Define status 1
Univariate continuous stat 1
Define status 2
Univariate discrete stat 1
Define status 3
Group characterization 1
Pour y ajouter un autre slecteur Define status et nous ajoutons l'oprateur More Univariate
cont stat de l'onglet Statistics:
30/145
Vincent ISOZ
et nous allons ajouter Prix total avec rabais dans l'Input:
o MAD est la Median Absolute Deviation dfini par:
31/145
Vincent ISOZ
Nous excutons et affichons cet oprateur pour obtenir:
MAD Median X i Median X
Vincent ISOZ
donc il s'agit de la mdiane des carts absolus la mdiane de la variable alatoire X.
32/145
Exercice 7.: Test de Normalit

Tanagra V1.4.36
Pour le test de normalit (cas particulier d'application des tests de Shapiro-Wilk et
d'Anderson-Darling dmontr en cours), nous allons utiliser un chantillon de donnes
diffrents car Tanagra, au mme titre que certains autres logiciels de statistiques, refuse
d'excuter la statistique lorsqu'il y a moins de 8 individus. Nous allons donc nous baser sur
l'chantillon suivant et le lecteur pourra vrifier si cela correspond bien videmment par luimme si cela correspond aux calculs faits la main pendant le cours thorique (ce qui bien
videmment est le cas!):
Et nous prenons dans l'oprateur Normality Test de l'onglet Statistics:
33/145
Vincent ISOZ
Nous souhaitons donc comparer si ces donnes suivent une loi Normale d'esprance et carttype estim sur l'chantillon. Pour cela, nous chargeons bien videmment le fichier *.xls
comme dj vu plusieurs fois plus haut et nous avons alors:
Nous faisons un clic droit View:
pour avoir au final:
Vincent ISOZ
et donc outre le test d'Agostino et de Lilliefors que nous n'avons pas dmontr en cours, nous
retrouvons bien les valeurs pour les tests de Shapiro-Wilk ou d'Anderson-Darling.
34/145
Exercice 8.: Caractrisation de groupes

Tanagra V1.4.36
Toujours partir du mme fichier Ventes.xls nous souhaiterions caractriser la population
partir de l'tat des factures payes.
Pour cela nous rajoutons encore un slecteur Define status de l'onglet Feature Selection afin
d'obtenir:
View dataset 1
Define status 1
Define status 2
Define status 3
et la variable discrte qui nous intresse en Target:
35/145
Vincent ISOZ
et nous allons mettre des variables Input en entre qui nous sembleraient tre subjectivement
facteurs d'influence des factures payes ou non:
Nous validons par OK.
Vincent ISOZ
Nous y ajoutons un oprateur du type Group characterization depuis l'onglet Statistics:
36/145
pour avoir:
View dataset 1
Define status 1
Define status 2
Define status 3
Nous observons donc qu'en moyenne, le prix total avec rabais est moins lv (16'546.60)
pour ceux qui payent les factures que pour ceux qui ne les paient pas. Il en est de mme pour
les quantits. Le rsultat est peu surprenant
37/145
Vincent ISOZ
et enfin nous excutons cet oprteur et affichons les rsultats comme prcdemment:

Concernant la Test value (TV), il s'agit d'un indicateur permettant de comparer pour une
variable continue la moyenne et pour une variable discrte la proportion.
Dans le cas d'une variable continue cette valeur provient simplement d'un test Z de la
moyenne:
overall
overall
n
Mais avec le facteur de correctiond la population dmontr en cours, ce qui fait que la
dernire relation devient:
overall groupe overall groupe
overall
N n overall
fcp
N 1
Dans le cas d'un variable discrte, le test se fait sur la base des proportions vues aussi dans le
cours thorique:
p p
p 1 p
n
et encore une fois avec le facteur de correction:
p p
N n
N 1
p 1 p
n
Si au lieu de travailler avec les proportions, nous voulons travailler avec le comptage, un
simple transformation nous amne :
p p
N n
N 1
p 1 p
n
Vincent ISOZ
38/145
Exercice 9.: Rgression linaire simple ou multiple

Tanagra V1.4.38
Nous allons prendre ce fichier qui MS Excel qui nous est connu mais qu'il a fallu restructurer
pour Tanagra (voir cours sur MS Excel):
contenant:
Nous y ajoutons un slecteur de type Define status comme pour les exemples prcdents:
39/145
Vincent ISOZ
Nous l'importons dans Tanagra en utilisant la mme procdure que les exercices prcdents:
mais avec la variable d'intrt dans Target:
Ajoutons ensuite l'oprateur Multiple linear regression:
40/145
Vincent ISOZ
et dans les Input:
sous le Define status 1:
Pour obtenir:
41/145
Vincent ISOZ
Nous lanons la rgression en cliquant sur View:
Vincent ISOZ
Nous obtenons donc toutes les valeurs vues dans le cours thorique.
42/145
Exercice 10.: Test de Normalit des rsidus de la rgression linaire

Tanagra V1.4.48
Nous allons reprendre les mmes donnes que l'exemple sur la rgression linaire simple ou
multiple prcdemment:
en laissant l'oprateur mis prcdemment:
Et dans les paramtres, nous allons mettre en tant que Input la variable cre par le composant
Multiple linear regression et qui est Err_Pred_Imreg_1:
43/145
Vincent ISOZ
Mais nous allons rajout le slecteur Define Status:
Et nous ajoutons l'oprateur Normality Test du groupe Statistics:
Nous ne rejettons donc pas l'hypothse nulle comme quoi les rsidus sont normalement
distribus.
44/145
Vincent ISOZ
et nous obtenons en l'excutant:
Exercice 11.: Rgression linaire ascendante (Forward Entry Regression)

Tanagra V1.4.38
Nous allons reprendre les mmes donnes que l'exemple sur la rgression linaire simple ou
multiple prcdemment:
pour effectuer une rgression linaire ascendante (Forward Entry Selection) et comparer les
rsultats par rapport ceux obtenus la mains dans MS Excel et ceux obtenus aussi dans
Minitab 15 dans le cours thorique.
Vincent ISOZ
avec la variable d'intrt dans Target:
45/145
Ajoutons ensuite l'oprateur Forward Entry Regression du groupe Regression:
46/145
Vincent ISOZ
et dans les Input:

Nous pouvons dans les paramtres de cet oprateur (comme pour Minitab) donner le niveau
de seuil de rejet des coefficients que nous allons laisser 5%:
Vincent ISOZ
En excutant cet oprateur nous voyons que nous retrouvons bien que les coefficient C et B
comme pour les calculs faits dans MS Excel et avec Minitab mais la diffrence que nous
avons certaines informations en plus qui sont fort sympathiques d'abord dans le premier
onglet Report:
47/145
Vincent ISOZ
et dans le deuxime onglet nous avons la matrice d'information (pourquoi pas...):
48/145
Exercice 12.: Rgression linaire descendante (Backward Entry Selection)

Tanagra V1.4.38
Nous allons reprendre les mmes donnes que prcdemment:
pour effectuer une rgression linaire descendante (Backward Entry Selection) et comparer
les rsultats par rapport ceux obtenus la mains dans MS Excel et ceux obtenus aussi dans
Minitab 15 dans le cours thorique.
Vincent ISOZ
avec la variable d'intrt dans Target:
49/145
Ajoutons ensuite l'oprateur Backward Elimination Reg du groupe Regression:
50/145
Vincent ISOZ
et dans les Input:

Nous pouvons dans les paramtres de cet oprateur (comme pour Minitab) donner le niveau
de seuil de rejet des coefficients que nous allons laisser 5%:
Vincent ISOZ
En excutant cet oprateur nous voyons que nous retrouvons bien que les coefficient C et B
comme pour les calculs faits dans MS Excel et avec Minitab mais la diffrence que nous
avons certaines informations en plus qui sont fort sympathiques d'abord dans le premier
onglet Report:
51/145
Vincent ISOZ
et dans le deuxime onglet nous avons encore une fois la matrice d'information:
52/145
Exercice 13.: Coefficient de corrlation de Spearman (Spearman rho)

Tanagra V1.4.48
Nous allons partir ici des mmes donnes que celles utilises dans le cours thorique pour
encore une fois vrifier que nous retombons sur la mme chose ou pas:
Nous ouvrons ce fichier dans Tanagra comme l'habitude:
et nous lui mettons le slecteur Define Status:
Vincent ISOZ
avec en Input le champ X (en ralit peut importe lequel comme nous l'avons vu dans le
cours thorique):
53/145
et en Input la variable restante:
et nous l'excutons sans autre pour obtenir:
54/145
Vincent ISOZ
Nous ajoutons ensuite l'oprateur Spearman's rho du groupe Nonparametric statistics:
Vincent ISOZ
Ce qui outre le test t que nous n'avons pas dmontr dans le cours thorique, est parfaitement
conforme aux calculs faits la main.
55/145
Exercice 14.: Rgression logistique binaire (SPV)

Tanagra V1.4.44
Ici encore nous allons vrifier si les calculs faits la main lors de la dmonstration du
principe de la rgression logistique correspondent avec MS Excel et Minitab.
Nous partons donc de la liste des crdits suivante de 137 lignes (fichier
RegressionLogistique.xls):
Nous l'importons dans Tanagra comme l'habitude et y mettons un slecteur Define status:
Vincent ISOZ
Dans les paramtres de celui-ci nous mettons le champ Status en Target (qui doit absolument
tre une variable discrte binaire textuelle):
56/145
N'oubliez pas d'excuter ce composant! Ensuite nous rajoutons l'oprateur Binary logistic
regression du groupe Spv:
57/145
Vincent ISOZ
et le Montant en Input:

sans y changer les paramtres du composant nous l'excutons de suite:
Il vient alors aprs avoir fait un View aprs l'excution (les informations sont plus pertinentes
que celles renvoyes par Minitab):
Avant d'aller plus loin nous voyons dans la matrice de confusion que sur les 91 bon dbiteurs
(correspondant ici au statut: Non) qu'il y avait dans la liste d'origine, le modle en prdit 19
comme tant mauvais dbiteurs et 72 comme tant bons. La mme lecture est valable pour les
45 mauvais dbiteurs. Si videmment le modle tait parfait, la matrice de confusion serait
diagonale.
Vincent ISOZ
Continuons avec les captures d'cran de l'onglet Report:
58/145
Ici il n'y a pas grand chose dire puisque nous n'avons pas encore tudi ces indicateurs dans
le cours thorique mais celui du khi-2 est cependant un classique dont l'interprtation ne
souffre d'aucun doute sur la conclusion du modle.
Vincent ISOZ
Enfin, toujours dans le mme onglet Report et pour finir:
59/145

Nous voyons que contrairement Minitab et Excel les signes des coefficients sont inverss
mais c'est juste une convention dans le choix de distribuer les signe "-" prsent dans
l'exponentielle du modle logistique l'intrieur de la parenthse.
Vincent ISOZ
Et nous avons dans le deuxime onglet la Covariance matrix:
60/145
Exercice 15.: Lift Curve et ROC Curve (sur rgression logistique binaire)
Tanagra V1.4.44
Le but va tre ici de vrifier que nous retrouvons la mme forme de Lift Curve et ROC Curve
(Receiver Operating Characteristic) que celles obtenues la main avec MS Excel dans le
cours thorique pour la rgression logistique (mais le principe est toujours le mme).
Pour cela nous ajoutons d'abord le composant Scoring du groupe Scoring:
Afin d'avoir:
et dans les paramtres de ce composant:
Vous n'oubliez pas ensuite d'excuter ce composant:
61/145
Vincent ISOZ
nous disons que nous allons nous intresser aux dbiteurs risque:
Une fois ceci fait, il ne sert rien dans l'tat prsent. Il faut lui ajouter un slecteur Define
satut:
Avec Status comme champ dans l'onglet Target:
Vincent ISOZ
et Score_1 dans Input:
62/145
Vous n'oubliez pas ensuite d'excuter aussi ce composant:
Enfin, nous rajoutons l'oprateur Lift curve du groupe Scoring:
Vincent ISOZ
Dans ses paramtres:
63/145
nous prenons:
et nous affichons le contenu:
Vincent ISOZ
Pour obtenir un rapport en deux onglets dont le premier contient:
64/145
Vincent ISOZ
et le deuxime onglet contient simplement un trac de la colonne TP-Rate

(TP=True Positive) en fonction de la Target-Size:
65/145
Nous pouvons observer qu'aussi bien le TP-Rate que la courbe Lift sont errones par
rapport au calcul la main et Minitab+SPSS! Aprs tude du code source de Tanagra
de ma part il semblait qu'il y ait une erreur de codage car ce que fait ci-dessus Tanagra
c'est qu'il ne nous montre que des multiples du ratio 1/45. Je pense que cette erreur vient
du fait qu' la base le dveloppeur n'a peut-tre pas pens que l'on pourrait avoir des trs
nombreux doublons dans la population d'origine. Donc pour l'instant utilisez Minitab/SPSS ou
autre...
Enfin, nous rajoutons le composant Roc curve du groupe Scoring:
Vincent ISOZ
Dans ses paramtres:
66/145

Nous prenons:
Nous validons et faisons un View:
Vincent ISOZ
Pour obtenir au final un rapport en deux onglets le premier contenant:
67/145
Vincent ISOZ
et le deuxime onglet:
68/145
Vincent ISOZ
Nous pouvons observer qu'aussi bien le TP-Rate que le FP-Rate que la courbe ROC sont
errones par rapport au calcul la main et Minitab+SPSS! Aprs tude du code source
de Tanagra de ma part il semblait qu'il y ait une erreur de codage car ce que fait cidessus Tanagra c'est qu'il ne nous montre encore une fois que des multiples du ratio
1/45. Je pense que cette erreur vient du fait qu' la base le dveloppeur n'a peut-tre pas pens
que l'on pourrait avoir des trs nombreux doublons dans la population d'origine. Donc pour
l'instant utilisez Minitab/SPSS ou autre...
69/145
Exercice 16.: Test-T homoscdatique

Tanagra V1.4.44
Nous allons ici vrifier si nous retombons sur le mme rsultat que celui obtenu en cours lors
de l'tude thorique et la dmonstration mathmatique du test-t de comparaison des moyennes
deux chantillons non apparis.
Nous allons travailler avec le tableau contenant les donnes du cours thorique:
Vincent ISOZ
que nous allons devoir redisposer de la manire suivant pour Tanagra (ce qui est la structure
conforme du Data Mining):
70/145
Nous l'importons dans Tanagra et y ajoutons un slecteur Define status:
Vincent ISOZ
Pour y mettre comme Target les donnes:
71/145
et comme Input les catgories:
et en affichons le contenu pour avoir:
72/145
Vincent ISOZ
Nous ajoutons le composant T-Test:
Vincent ISOZ
Nous voyons que les sorties correspondent ce que nous avons calcul dans le cours
thorique. Il manque cependant l'intervalle de confiance qui est important dans la pratique.
C'est dommage...
73/145
Exercice 17.: Test-T htroscdastique

Tanagra V1.4.44
Nous continuons l'exemple d'avant en ajoutant l'oprateur T-Test Unequal Variance:
et nous affichons le rsultat:
Vincent ISOZ
L encore il manque l'intervalle de confiance mais ce qui est sympathique que les d.f. ne sont
pas arrondis et que nous tombons exactement sur les degrs de liberts obtenus avec
l'quation de WelchSatterthwaite dmontre en cours.
74/145
Exercice 18.: Clustering CART (arbres de rgression)

Tanagra V1.4.38
de l'tude thorique et la dmonstration mathmatique du principe de fonctionnement des
arbres de rgression.
Nous allons travailler avec le fichier suivant:
75/145
Vincent ISOZ
qui contient les mmes donnes que celles vues dans le cours thorique:
Vincent ISOZ
et dans les Input:
76/145
Vincent ISOZ
Ajoutons ensuite l'oprateur Regression tree:
77/145
ce qui donnera:
78/145
Vincent ISOZ
on fait un clic droit sur l'opration pour choisir View:
Vincent ISOZ
et on admire le rsultat dans la fentre de sortie:
79/145
Vincent ISOZ
Nous voyons que nous obtenons la mme chose que dans le cours thorique la diffrence
que l'arbre s'arrte plus tt.
80/145
Exercice 19.: K-NN (K nearest neighbors)

Tanagra V1.4.48
Nous avons vu en cours l'approche des k plus proches voisins. Nous allons appliquer ici ce
qui a t prsent en cours avec le fichier Excel des fleurs d'Iris
dont le contenu est:
Vincent ISOZ
Ensuite, nous l'ouvrons dans Tanagra selon la mthode habituelle:
81/145
Ensuite, nous ajoutons le slecteur Define Status:
avec en Target:
Vincent ISOZ
et en Input:
82/145
Ensuite nous rajoutons le slecteur Select first examples du groupe Instance selection:
et dans les paramtres du slecteur:
Ensuite, nous rajoutons l'oprateur K-NN du groupe Spv Learning:
83/145
Vincent ISOZ
Nous prenons les 60 premires lignes du fichier comme donnes d'entranement (choix un peu
arbitraire):
Ensuite, nous choisissons le type de distance et le nombre de k voisins pour l'apprentissage:
Nous voyons que le classificateur est trs bon. Pour avoir le dtail, nous ajoutons l'oprateur
View Data Set du groupe Data visualization:
84/145
Vincent ISOZ
Nous excutons l'oprateur et nous avons alors:
et nous l'excutons pour avoir les dtails des prdictions (nous avons mis en vidence l'un
deux ceux qui est mal prdit):
Maintenant injectons pour y mettre un jeu de test, nous remettons un oprateur de slection
Define Status:
Vincent ISOZ
avec en Target:
85/145
et en Input:
et dans ses paramtres, nous avons:
86/145
Vincent ISOZ
Ensuite, nous rajoutons l'oprateur Test du groupe Spv learning assessment (nous aurions pu
faire la mme chose pour la rgression logistique mais ayant l'quation explicite c'tait moins
utile alors que l c'est trs utile!):
Nous prenons Unselected ce qui prendra les 150-60=90 donnes restantes.

Et nous excutons pour obtenir:
Nous pouvons aussi rajouter un oprateur Train Test du groupe Spv learning assessment:
87/145
Vincent ISOZ
Et nous rajoutons un composant View Dataset pour voir comment les donnes de test (ou
donnes nouvelles) sont classes:
et dans les paramtres de cet oprateur, nous prenons:
Vincent ISOZ
et en excutant l'oprateur, nous obtenons:
88/145
Vincent ISOZ
89/145
Exercice 20.: Classificaiton K-Means (nue dynamique)

Tanagra V1.4.44
Nous allons ici vrifier la technique de clustering que nous avons tudi dans le cours
thorique de Mthodes Numriques avec MS Excel et Minitab pour voir si nous retrouvons
les mmes rsultats.
D'abord ouvrez le fichier:
pour vrifier qu'il contient bien les donnes utilises lors du cours thorique:
Vincent ISOZ
Ensuite, nous ouvrons Tanagra et cration un nouveau projet bas sur ce fichier MS Excel:
90/145
Nous voulons faire un K-Means sur les revenus et la Surface donc nous prenons le slecteur
Define status o nous mettons en Input les deux variables clusteriser:
91/145
Vincent ISOZ
Ce qui donnera:
Vincent ISOZ
Ensuite, nous rajoutons le composant K-Means du groupe Clustering:
92/145
Vincent ISOZ
et dans les paramtres du composant nous mettons:
93/145
Vincent ISOZ
Nous excutons et visualisons le composant et obtenons:
94/145
Vincent ISOZ
Et nous retrouvons bien les rsultats obtenus avec MS Excel et Minitab. Cependant nous
souhaiterions un peu plus de dtails avec Minitab. Pour cela, nous rajoutons un composant
View dataset que nous excutons et visualisons:
95/145
Nous avons alors sur la droite exactement le mme tableau que celui obtenu avec MS Excel
ou Minitab pour montrer quels individus appartiennent quel Cluster.
Vincent ISOZ
Maintenant regardons les caractristiques de groupes (c'est partir de Maintenant que le

logiciel est bien plus efficace que les autres). Nous ajoutons un composant Define status avec
en Target les clusters:
96/145
Vincent ISOZ
et en Input les variables:
97/145
Vincent ISOZ
Et nous y ajoutons le composant Group characterization:
98/145
Au vu des rsultats, nous nous rendons compte qu'il aurait t peut-tre plus malin de laisser
la colonne Propritaire dans le fichier d'origine afin d'avoir une caractrisation utilisant ce
group pouvant peut-tre aider la conclusion...
Vincent ISOZ
Pour finir, ajoutons un oprateur Scatterplot:
99/145
Vincent ISOZ
et nous voyons bien comment sont composs les 3 clusters. Si jamais pour grossir les points il
faut aller dans le menu Component:
100/145
Exercice 21.: Clustering ID-3 (Iterative Dichotomiser 3)

Tanagra V1.4.48
Nous allons ici vrifier la technique de clustering ID-3 que nous avons tudi dans le cours
thorique de Mthodes Numriques et calcul la main.
Nous allons donc travailler avec le fichier suivant et donc avec les mmes donnes que dans
le cours thorique:
Nous importons cette liste comme l'habitude dans Tanagra (la mthode tant toujours la
mme).
Nous mettons le slecteur Define status:
Vincent ISOZ
avec comme Target la colonne Formes (car c'est ce que nous voulons deviner):
101/145
et comme Input les trois autres champs (peut importe l'ordre d'insertion):
Nous allons dans les options Supervised parameters...:
102/145
Vincent ISOZ
Ensuite, nous ajoutons l'oprateur ID3 du groupe SPV Learning:
pour mettre:
Ensuite, nous excutons le composant en cliquant sur Excecute comme l'habitude:
Pour obtenir exactement les rsultats correspondant ceux calculs la main:

103/145
Vincent ISOZ
et en faisons un View:
Dommage qu'il n'y ait pas de diagramme cependant... cela aiderait la comprhension.
104/145
Vincent ISOZ
Exercice 22.: HAC (Hierarchical Ascendant Clustering)

Tanagra V1.4.48
Nous allons ici vrifier la technique de clustering HAC que nous avons tudi dans le cours
thorique de Mthodes Numriques et calcul la main.
Nous partons de la liste suivante:
Nous l'importons dans Tanagra comme l'habitude et lui ajoutons le slecteur Define status:
et dans Input le reste:
105/145
Vincent ISOZ
avec le champ Nom dans les Target:
Ensuite, nous ajoutons le composant HAC du groupe Clustering:
Nous cliquons sur l'onglet Dendrogram et apparat alors le mme diagramme que celui
obtenu avec les calculs manuels l'exception des valeurs de l'axe vertical (la diffrence
venant juste d'une convention):
106/145
Vincent ISOZ
Et nous excutons le composant pour avoir:
Vincent ISOZ
Si l'on reste appuy avec le bouton gauche de la souris sur chaque point, nous retrouvons les
nom des lignes de la liste d'origine.
107/145
Exercice 23.: Classification nave baysienne

Tanagra V1.4.48
Comme dans le cours thorique, nous partons des donnes suivantes:
Exceptionnellement nous allons faire l'analyse avec RapidMiner car la sortie de Tanagra n'est
pas agrable du tout et l'interprtation pour l'usage pratique peu adapte.
Vincent ISOZ
Donc nous ouvrons RapidMiner:
108/145
Exercice 24.: ANOVA un facteur

Tanagra V1.4.36
contenant:
109/145
Vincent ISOZ

Dataset (ANOVA.xls)
Define status 1
Vincent ISOZ
et la variable de classement dans Input:
110/145
Vincent ISOZ
On ajoute ensuite l'oprateur One-way ANOVA:
111/145
afin d'avoir:
Dataset (ANOVA.xls)
Define status 1
One-way ANOVA 1
Nous retrouvons exactement les mmes chiffres que dans les autres cours donc il nous avons
les mmes conclusions.
112/145
Vincent ISOZ
et on excute et affichons le rsultats comme dans les exemples prcdents pour avoir au
final:
Exercice 25.: ANOVA de Friedman par les rangs

Tanagra V1.4.48
nouveau le but ici va tre de vrifier (comparer) les calculs faits la main dans le cours
thorique ainsi qu'avec Minitab 15.
D'abord, nous partons du fichier Excel suivant pour Tanagra (remarquez la structure
particulire par rapport la prsentation utilise dans le cours thorique et Minitab):
Nous importons comme l'habitude dans Tanagra et mettons le slecteur Define Status:
Ensuite, nous ajoutons le composant Friedman's ANOVA by rank sans rien changer ni
paramtrer:
113/145
Vincent ISOZ
et dans les paramtres nous mettons uniquement tous les champs en Input:
Nous excutons le tout et obtenons:
Vincent ISOZ
Soit les mmes valeurs que dans le cours thorique et dans Minitab15.
114/145
Exercice 26.: Tests de Levene et Brown-Forsythe

Tanagra V1.4.36
de l'tude thorique et la dmonstration mathmatique des tests de Levene et de BrownForsythe.
contenant:
Dataset (ANOVA.xls)
Define status 1
115/145
Vincent ISOZ

Vincent ISOZ
et la variable de classement dans Input:
116/145

Ensuite, nous ajoutons l'oprateur Levene's test du groupe Statistics et la visualisons:
pour obtenir:
et nous avons alors:
117/145
Vincent ISOZ
Nous obtenons la mme chose que les calculs faits la main! Et pour Brown-Forsythe nous
effectuons pareil en ajoutant l'oprateur Brown-Forsythe's test:
Vincent ISOZ
Soit le mmes rsultats que ceux faits la main et dans Minitab (mais avec moins de dtails:
sans les IC).
118/145
Exercice 27.: Analyse en Composantes Principales pure (ACP)

Tanagra V1.4.48
Le but va tre ici de vrifier si nous retrouvons nouveau les calculs fait la main suite la
dmonstration mathmatique des concepts thoriques sous-jacents l'A.C.P.
Donc nous allons prendre aussi les donnes d'Iris de Fisher:
Vincent ISOZ
Comme l'habitude, nous importons ces donnes dans Tanagra:
119/145
Nous ajoutons le slecteur Define Status:
Vincent ISOZ
avec en Input les donnes suivantes:
120/145
Ensuite, nous ajoutons l'oprateur Principal Component Analysis du groupe Factorial

Analysis:
Vincent ISOZ
et dans les paramtres de l'oprateur, nous prenons:
121/145
Donc nous retrouvons bien la trace de valeur 3.00 et la moyenne de 1.00. Ensuite pour la suite
Tanagra donne:
122/145
Vincent ISOZ
et nous excutons le composant pour avoir pour avoir:
La aussi nous retrouvons les donnes calcules la main. La suite donne par Tanagra:
n'a pas t tudie en cours (excepte la valeur numrique des trois valeurs propres bien
videmment!).
Vincent ISOZ
Ensuite Tanagra donne les saturations et les score de ce qui est normalement sujet de
l'Analyse Factorielle sans rotation. Nous reviendrons l-dessus avec l'exemple que nous
avions tudi dans le cours thorique pour l'Analyse Factorielle:
123/145
Ensuite Tanagra donne la matrice des corrlations que nous avions calcule (bien videmment
obligatoirement) dans le cours thorique avec les mmes valeurs:
et il vient automatiquement les deux tracs triviaux suivants qui sont donns par Tanagra:
124/145
Vincent ISOZ
Ensuite Tanagra donne les corrlations partielles (mais cela n'est normalement pas
directement lie l'A.C.P.). donc nous ne l'avions pas calcul dans le cours thorique, nous le
mettrons donc de ct:
Il est possible d'accder directement aux donnes calcules, c'est--dire les projections dans le
nouvel espace (calcul laborieux que nous n'avons pas fait dans le cours thorique). En effet, le
composant ACP rajoute automatiquement une srie de variables l'ensemble de donnes. Il
s'agit, pour chaque individu et pour chaque axe demand, des projections sur les axes, des
contributions et des cos.
Pour visualiser le tableau de donnes associ, nous plaons dans le diagramme le composant
View Dataset du groupe Data visualization
Vincent ISOZ
et nous double cliquons dessus pour obtenir:
125/145

La popularit de l'ACP repose en grande partie sur les reprsentations graphiques qu'elle
propose. Elles nous permettent d'apprcier visuellement les proximits entre les observations.
Dans notre cas, nous projetons les observations dans le premier plan factoriel. Nous voulons
associer les identifiants aux points. Nous utilisons pour cela le composant SCATTERPLOT
WITH LABEL (onglet DATA VISUALIZATION) que nous plaons en dessous de l'ACP.
Nous le paramtrons de manire avoir en abscisse le premier facteur, en ordonne le second
facteur.
Notons qu'il est trs ais avec Tanagra de passer d'un plan factoriel un autre:
Nous voyons que nous retrouvons la mme forme de graphique au niveau visuel que celle
obtenue dans le cours thorique mais les donnes ne sont pas centres rduites (du moins a
priori). Le graphique a cependant exactement les mmes valeurs que celui sorti par le logiciel
Minitab.
126/145
Vincent ISOZ
Il est possible de modifier la taille des tiquettes avec les raccourcis CTRL+Q et CTRL+W.
Exercice 28.: Analyse Factorielle sans rotation (AF)

Tanagra V1.4.49
Voyons donc comment obtenir une analyse factorielle sans rotation et tout cela avec l'exemple
qui nous a servi de bases pour les calculs la main lors de la dmonstration mathmatique de
la mthode.
Nous importons donc comme l'habitude les donnes suivantes:
dans Tanagra:
Vincent ISOZ
Nous ajoutons le composant de slection Define Status et mettons en Input les trois variables:
127/145
et c'est maintenant qu'intervient une petite subtilit de Tanagra: Si nous voulons retrouver les
valeurs calcules en cours la main et conformes au modle mathmatique sans rotation,
nous devons utiliser le composant Principal Component Analysis:
Vincent ISOZ
et pour tre conforme l'exemple particulier que nous avons vu dans le cours thorique,
mettre les paramtres suivants:
128/145
valeurs des valeurs propres identiques celles calcules en cours. Ensuite, nous avons tout en
bas les deux tableaux qui nous intressent:
129/145
Vincent ISOZ
En excutant le composant, il vient dans un premier temps:
o nous retrouvons bien les saturations calcules la main dans le cours thorique au signe
prs (mises en vidence en rouge et nommes pour rappel en anglais "loadings").
Et le dernier tableau:
Vincent ISOZ
n'est pas contre pour les deux dernires colonnes pas conforme ce que nous avons calcul
manuellement dans le cours thorique ni conforme ce que nous renvoie le logiciel Minitab.
130/145
Exercice 29.: Analyse Factorielle avec rotation VARIMAX

Tanagra V1.4.49
Le but va tre ici de vrifier non pas les calculs faits la main dans le cours thorique mais de
vrifier que Tanagra redonne les mmes rsultats que Minitab ou que SAS pour les mmes
donnes que l'exemple prcdent mais avec une rotation VARIMAX.
Donc nous reprenons l'tat prcdent o nous avions:
et nous ajoutons l'oprateur Factor rotation du groupe Factor analysis:
o nous retrouvons bien les rsultats de SAS!
131/145
Vincent ISOZ
pour obtenir:

Tanagra donne en-dessous le tableau des saturations sans rotation (tableau obtenu lors de
l'exercice prcdent!):
Vincent ISOZ
et le score des facteurs aprs rotation:
132/145
Exercice 30.: Rgression (linaire) des moindres carrs partiels (rgression

linaire PLS univarie: PLS1)
Tanagra V1.4.48
Le but va tre ici de vrifier si nous obtenons ou pas les rsultats des calculs vu dans le cours
thorique lors de la lecture du l'ouvrage de M. Tenenhaus1 sur la rgression PLS univarie
(PLS1), c'est--dire la rgression sur des variables explicatives corrles avec une unique
variable expliquer.
Nous utiliserons donc les donnes suivantes:
Ensuite, nous ajoutons le slecteur Define Status comme l'habitude:
Michel Tenenhaus, Rgression PLS, dition Technip, ISBN 2-7108-0735-1, Pages 75-83
133/145
Vincent ISOZ
que nous importons comme l'habitude dans Tanagra, ce qui donnera:
avec les paramtres d'entre et de sortie suivants:
Ensuite, nous ajoutons le composant PLS Regression:
134/145
Vincent ISOZ
et allons dans les paramtres pour prendre que deux variables intermdiaire:

Nous avons alors:
Vincent ISOZ
On retrouve bien les mmes coefficients non normaliss que dans Minitab ou que ceux
calculs la main.
135/145
Exercice 31.: Export d'un rsultat vers MS Excel

Tanagra V1.4.36
Nous souhaiterions montrer ici qu'il est possible rapidement d'exporter une analyse ainsi qu'un
jeu de donnes traites dans MS Excel.
Pour commencer avec le premier cas reprenons l'exemple de l'exercice que nous avions fait
sur l'Exercice 6.: Statistiques univaries continues multiples:
Nous allons dans le menu Component et nous cliquons sur Copy results:
Vincent ISOZ
et nous faisons un Coller dans MS Excel pour obtenir:
136/145
nous retrouvons donc bien les donnes textes mais par contre nous perdons les donnes
visuelles comme les barre de donnes de l'histogramme. Heureusement cela peut tre vite
reproduit.
Maintenant, reprenons l'Exercice 19.: K-NN (K nearest neighbors)
Tanagra V1.4.48
Nous avons vu en cours l'approche des k plus proches voisins. Nous allons appliquer ici ce
qui a t prsent en cours avec le fichier Excel des fleurs d'Iris
Vincent ISOZ
dont le contenu est:
137/145
Ensuite, nous l'ouvrons dans Tanagra selon la mthode habituelle:
avec en Target:
138/145
Vincent ISOZ
Ensuite, nous ajoutons le slecteur Define Status:
et en Input:
et dans les paramtres du slecteur:
139/145
Vincent ISOZ
Ensuite nous rajoutons le slecteur Select first examples du groupe Instance selection:
Nous prenons les 60 premires lignes du fichier comme donnes d'entranement (choix un peu
arbitraire):
Ensuite, nous rajoutons l'oprateur K-NN du groupe Spv Learning:
Nous excutons l'oprateur et nous avons alors:
140/145
Vincent ISOZ
Ensuite, nous choisissons le type de distance et le nombre de k voisins pour l'apprentissage:
Nous voyons que le classificateur est trs bon. Pour avoir le dtail, nous ajoutons l'oprateur
View Data Set du groupe Data visualization:
Vincent ISOZ
et nous l'excutons pour avoir les dtails des prdictions (nous avons mis en vidence l'un
deux ceux qui est mal prdit):
141/145

Maintenant injectons pour y mettre un jeu de test, nous remettons un oprateur de slection
Define Status:
avec en Target:
Vincent ISOZ
et en Input:
142/145

Ensuite, nous rajoutons l'oprateur Test du groupe Spv learning assessment (nous aurions pu
faire la mme chose pour la rgression logistique mais ayant l'quation explicite c'tait moins
utile alors que l c'est trs utile!):
et dans ses paramtres, nous avons:
Nous prenons Unselected ce qui prendra les 150-60=90 donnes restantes.
Et nous rajoutons un composant View Dataset pour voir comment les donnes de test (ou
donnes nouvelles) sont classes:
143/145
Vincent ISOZ
Et nous excutons pour obtenir:
Nous pouvons aussi rajouter un oprateur Train Test du groupe Spv learning assessment:
et en excutant l'oprateur, nous obtenons:
144/145
Vincent ISOZ
et dans les paramtres de cet oprateur, nous prenons:
Vincent ISOZ
Exercice 20.: Classificaiton K-Means:
145/145

Nous mettons le composant Export Datasetdu groupe Data visulaziation en prenant bien
soir de la mette aprs un slecteur Define status:
Dataset (KM eans.xls)
Define status 1
K-M eans 1
View dataset 1
Define status 2
Export dataset 1
Scatterplot 1
Vincent ISOZ
Une fois que nous l'excutons en faisant un double clic dessus, nous obtenons un fichier *.txt
dans le dossier du fichier Tanagra:
146/145

Data Mining avec Tanagra

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Data Mining avec Tanagra

Uploaded by

Copyright:

Available Formats

lments de

Data Mining avec Tanagra

TANAGRA (Ricco RAKOTOMALALA)

TABLE DES MATIRES

TANAGRA (Ricco RAKOTOMALALA)

Exercice 28.: Analyse Factorielle sans rotation (AF) ............................................................ 127

TANAGRA (Ricco RAKOTOMALALA)

Prcisions sur la licence de TANAGRA (voir le dtail de la licence lors de l'installation). Le

TANAGRA (Ricco RAKOTOMALALA)

Logiciels de Data Mining

TANAGRA (Ricco RAKOTOMALALA)

Je ne dispose (malheureusement...) d'aucun pouvoir dans le but de faire respecter la

TANAGRA (Ricco RAKOTOMALALA)

TANAGRA (Ricco RAKOTOMALALA)

TANAGRA (Ricco RAKOTOMALALA)

(Minimum Description Length Principle Cut)

(Fast Correlation Based Filter)

(Metamaterial Isoindex Filtering Selection)

TANAGRA (Ricco RAKOTOMALALA)

(Nonlinear Iterative Partial Least Squares)

(excute PLS Factorial et le PLS Regression en mme temps)

(Learning Vector Quantized)

SPV (Support Vector) Learning

(Cost Sensitive Classification Regression Tree)

(Variable Hierarchical Clustering Analysis)

TANAGRA (Ricco RAKOTOMALALA)

Meta SPV (Support Vector) Learning

SPV (Support Vector) Learning assessment

TANAGRA (Ricco RAKOTOMALALA)

TANAGRA (Ricco RAKOTOMALALA)

Exercice 1.: Import et visualisation des donnes *.txt

TANAGRA (Ricco RAKOTOMALALA)

Allez dans le menu File/New:

TANAGRA (Ricco RAKOTOMALALA)

Depuis la catgorie des composants Components se trouvant dans la partie infrieure du

sur le Dataset afin d'obtenir:

Ensuite faites un clic droit sur l'oprateur View dataset 1:

TANAGRA (Ricco RAKOTOMALALA)

TANAGRA (Ricco RAKOTOMALALA)

Exercice 2.: Import et visualisation des donnes *.xls

Contenant les mmes donnes que le fichier *.txt prcdent:

TANAGRA (Ricco RAKOTOMALALA)

Allez dans le menu File/New

TANAGRA (Ricco RAKOTOMALALA)

Depuis la catgorie des composants Components se trouvant dans la partie infrieure du

sur le Dataset afin d'obtenir:

Ensuite faites un clic droit sur l'oprateur View dataset 1:

TANAGRA (Ricco RAKOTOMALALA)

TANAGRA (Ricco RAKOTOMALALA)

Exercice 3.: Installation de l'add-in MS Excel

TANAGRA (Ricco RAKOTOMALALA)

Pour voir comment cet add-in fonctionne, nous ouvrons le fichier:

et nous cliquons sur Execute Tanagra:

TANAGRA (Ricco RAKOTOMALALA)

et ensuite y'a plus qu'

TANAGRA (Ricco RAKOTOMALALA)

Exercice 4.: Statistiques lmentaires univaries continues

Ce qui nous donne:

ce qui fait apparatre la bote de dialogue suivante:

TANAGRA (Ricco RAKOTOMALALA)

Ensuite nous rajoutons un oprateur Univariate continuous stat de l'onglet Statistics:

TANAGRA (Ricco RAKOTOMALALA)