You are on page 1of 24

Ddactce - tudes de cas R.R.

1 Objectif
Comparer les performances des PLS-DA (Partial Least Squares Discriminant Analysis)
avec celles des mthodes bien connues en apprentissae automatique!
La rgresson PLS est une technque de rgresson qu vse prdre es vaeurs prses par un
groupe de varabes Y (varabes prdre, varabes cbes, varabes expques) partr dune
sre de varabes X (varabes prdctves, es descrpteurs, varabes expcatves) (Tenenhaus
1
,
1998 ; Garson, http://www2.chass.ncsu.edu/garson/PA765/ps.htm). Dfne orgne au tratement
des varabes cbes contnues, a Rgresson PLS peut tre transpose a prdcton dune varabe
quatatve, de dffrentes manres
2
, on pare danayse dscrmnante PLS . Ee fat aors preuve
des quats quon u connat habtueement, essenteement a capact trater un espace de
reprsentaton trs forte dmensonnat, avec un grand nombre de descrpteurs bruts et/ou
redondants.
Ce document fat sute un prcdent ddactce
3
o nous prsentons dffrentes mthodes
supervses bases sur a Rgresson PLS. Lob|ectf est de montrer e comportement de une
dentre ees, PLS-LDA, dans un contexte o e nombre de descrpteurs est ev par rapport au
nombre dobservatons. Le rato reste rasonnabe (278 varabes prdctves pour 232
observatons en apprentssage). Nous pouvons nanmons vor se dessner dans cette
exprmentaton es prncpaux trats du tratement de ce type de donnes o, fnaement, a
matrse de a varance du cassfeur est en|eu ma|eur. Pour confrmer cette de, nous opposerons
PLS-DA des mthodes prouves tees que es SVM (Support Vector Machne, Lbrare LIBSVM,
Fan et a., 2005), es Random Forest (Breman, 2001), ou. anayse dscrmnante nare
4
(Fsher,
1936 - Ca peut paratre trange de recourir lanalyse discriminante dans notre contexte. Mais on
verra que bien utilise, elle se comportera tout fait honorablement face aux autres mthodes).
2 Donnes
Nous utsons es donnes ARRHYTMIA.BDM
5
. Le fcher comporte 420 observatons, 232 sont
rserves pour apprentssage, 188 pour e test. La varabe STATUS permet de dstnguer es sous
chantons. La varabe prdre ARRHYTMIA est bnare. Ee ndque a prsence ou non
darythme cardaque chez des patents. Les varabes prdctves, toutes contnues ou consdres
comme tees, sont au nombre de 278. Attenton, certanes sont composes dune vaeur unque, de
ce fat totaement nute pour a prdcton, ees ne dovent pas perturber e processus
dapprentssage.
Nous reprodusons dans ce ddactce e schma de comparason de cassfeurs d| ms en
avant dans un de nos ddactces
6
. Nous forons un peu e trat en ntgrant un pus grand
nombre de descrpteurs. Les mthodes rputes stabes devraent pus se dmarquer. Nous
1
Louvrage de M. Tenenhaus est certanement a rfrence francophone en matre de Rgresson PLS : M.
Tenenhaus, La rgresson PLS - Thore et Pratque , Technp, 1998.
2
Vor S! Chevallier" D! #ertrand" A! $ohler" P! Courcou%" & Application of PLS-DA in multivariate
imae analysis '" in (! Chemometrics" )* + )),-))-" )**.!
3
http://tutores-data-mnng.bogspot.com/2008/05/anayse-dscrmnante-ps.htm
4
http://tutores-data-mnng.bogspot.com/2008/04/anayse-dscrmnante-nare.htm.
5
http://erc.unv-yon2.fr/-rcco/tanagra/fchers/arrhytma.bdm ; au format bnare de TANAGRA.
6
http://tutores-data-mnng.bogspot.com/2008/03/comparason-de-cassfeurs.htm
14 ma 2008 Page 1 sur 24
Ddactce - tudes de cas R.R.
ntgrons de pus de nouvees mthodes dans e comparatf, notamment es mthodes drves
de a Rgresson PLS, peu connues en apprentssage automatque.
Concernant a comparason sur chanton test, est vdent que a fabesse de effectf
empche toute concuson dfntve base sur e taux derreur. Nous souhatons avant tout
postonner es mthodes seon eurs caractrstques. Nous tuderons gaement e re du
paramtrage, pass souvent sous sence dans es pubcatons, mas qu |ouent un re mportant
dans e comportement des mthodes dapprentssage.
Enfn, est mpossbe de rappeer dans ce document es tenants et aboutssants des technques
abordes dans ce ddactce. Le meux est de se reporter a documentaton dsponbe sur e
web, notamment es artces rfrencs sur notre porta Data Mnng (vor e chaptre
Apprentssage Supervs ) http://erc.unv-yon2.fr/-rcco/data-mnng/
3 Comparaison des mthodes
3.1 Chargement des donnes et prparaton des tratements
Charement du fichier! Aprs avor anc TANAGRA (menu Dmarrer de Wndows), nous actvons
e menu FILE / OPEN dans a fentre prncpae. Une bote de daogue apparat, nous chosssons e
format bnare (*.BDM), nous sectonnons e fcher ARRHYTMIA.BDM.
Les donnes consttuent mantenant a racne dun nouveau dagramme. Nous dsposons ben de
420 observatons et 280 attrbuts.
14 ma 2008 Page 2 sur 24
Ddactce - tudes de cas R.R.
Subdivision apprentissae / test. Nous utsons a varabe STATUS pour dfnr es portons
apprentssage et test de nos donnes. Nous nsrons dans e dagramme e composant DISCRETE
SELECT EXAMPLES (onget INSTANCE SELECTION). Nous actvons e menu contextue PARAMETERS.
Dans a bote de paramtrage, nous paons STATUS en ATTRIBUTE et TRAIN en vaue. Nous
ndquons ans que es observatons tquetes TRAIN vont correspondre a parte apprentssage
des donnes.
14 ma 2008 Page 3 sur 24
Ddactce - tudes de cas R.R.
Aprs vadaton (OK), nous cquons sur e menu contextue VIEW, TANAGRA ndque que 232
observatons sont rserves pour a constructon des modes de prdcton.
0ariable cible et descripteurs. Trosme tape mportante de cette phase prparatore, nous
devons ndquer a varabe prdre et es varabes prdctves. Nous utsons e composant
DEFINE STATUS pour cea, accessbe avec un raccourc dans a barre douts. Nous paons
ARRYTHMIA en TARGET, es autres (VAR_1 VAR_279) en INPUT.
14 ma 2008 Page 4 sur 24
Ddactce - tudes de cas R.R.
1iltrae des descripteurs! Un praabe trs mportant de manre gnrae, encore pus avec
nos donnes, nous devons ntrodure un out de ftrage des descrpteurs. En effet, nous avons
not prcdemment que certanes varabes taent en rat des constantes, totaement nutes
dans a prdcton. Nous ne savons pas quees sont ces varabes. Nous ntrodusons donc dans e
dagramme un out qu retre automatquement des varabes INPUT cees qu correspondent des
constantes.
Nous nsrons e composant REMOVE CONSTANT (onget FEATURE SELECTION) dans notre
dagramme. Nous anons e processus de ftrage en actvant e menu contextue VIEW.
Le composant ndque que parm es 278 descrpteurs proposes en entres, 247 ont t retenus c.-
-d. a varabe comporte au mons 2 vaeurs dffrentes. En sorte du composant sont donc
dsponbes pour apprentssage : a varabe TARGET qu est smpement transmse, et es 247
varabes INPUT, utsabes pour a modsaton.
3.2 Mthode des pus proches vosns (K-NN)
Cest a pre des mthodes que on pusse empoyer dans ce contexte. La dmensonnat eve
est un pge pour ce type dapproche. Lestmaton ocae des probabts dans un vosnage
restrent devent preuse. Cette mthode servra dtaon, ee nous permettra de postonner es
autres technques. Fare pre devrat nous nquter.
Apprentissae! Nous nsrons e composant K-NN (onget SPV LEARNING) dans e dagramme.
Nous anons drectement apprentssage va e menu contextue VIEW. Ben entendu, pour a
mthode des pus proches vosns, ny a pas vrament de constructon dun mode de prdcton
dans cette phase, ee sert essenteement cacuer es paramtres de normasaton des attrbuts.
14 ma 2008 Page 5 sur 24
Ddactce - tudes de cas R.R.
Le taux derreur en resubsttuton est de 24.57%. On sat que ce rato est souvent optmste, e bas
dpend de a mthode. I nous faut un |uge mparta pour vauer es performances en prdcton,
cest e re de chanton test.
2valuation avec l3chantillon test. Sur a fracton des donnes qu ne sont pas ntervenues dans
a constructon du cassfeur, chanton test, nous aons cacuer a proporton des ma casss.
On sat que estmateur est non bas dans ce cas.
Note : Cest a tae de chanton test qu peut poser probme dans notre exempe. Etant
reatvement fabe (188 observatons), e taux derreur cacu sera mprcs, soums une
certane varabt c.--d. s on change dchanton test, a possbt dobtenr un rsutat
sensbement dffrent nest pas nggeabe.
Nous devons procder en deux temps dans TANAGRA. Nous nsrons tout dabord e composant
DEFINE STATUS dans e dagramme, tou|ours ade du raccourc dans a barre douts. Nous
paons en TARGET a varabe cbe ARRYTHMIA. En INPUT, nous sectonnons a prdcton
gnre automatquement par e cassfeur PRED_SPVINSTANCE_1. Informaton trs mportante
noter, a prdcton a t rase sur a totat des observatons c.--d. a fos sur es ndvdus
qu ont serv pour apprentssage du mode, et sur es ndvdus qu ont t ms de ct. Nous
aons mettre proft cette partcuart pour former a matrce de confuson en test.
14 ma 2008 Page 6 sur 24
Ddactce - tudes de cas R.R.
Nous nsrons mantenant e composant TEST (onget SPV LEARNING ASSESSMENT). I est
automatquement paramtr pour raser es cacus sur es ndvdus non sectonns, savor
ceux que nous avons rservs pour vauaton du mode. Nous actvons e menu VIEW pour
accder aux rsutats.
Le taux derreur en test, cacu sur 188 observatons, est de 37.77%, ben au de du 24.57%
mesur en resubsttuton. Cest e taux de rfrence que nous utserons pour stuer es autres
mthodes.
La vaeur 37.77% nest pas trs enthousasmante. Le taux derreur du mode par dfaut ( defaut
cassfer ou basene mode ou nu mode ), qu consste prdre systmatquement
ARRHYTMIA = NEGATIVE, est de % 74 . 45
188
86
= . Ce qu nous donne un pseudo-R de
% 43 . 17
% 74 . 45
% 77 . 37
1 =
7
c.--d. nous rdusons de 17.43% a probabt de ma casser du mode
par dfaut.
7
Vor Pseudo R-Squared - Ad|usted Count parm es dffrentes dfntons du pseudo-R dsponbe sur a
rfrence suvante http://www.ats.uca.edu/stat/mut_pkg/faq/genera/Psuedo_RSquareds.htm
14 ma 2008 Page 7 sur 24
Ddactce - tudes de cas R.R.
3.3 Support Vector Machne (SVM)
S04 Linaire (C 5 ,!*). Voyons mantenant ce qu en est pour un SVM nare. Cette mthode
est rpute trs ben rguarse. Ee est prvger sur des fchers avec reatvement peu
dobservatons et un rato nombre de varabes - nombre dobservatons partcurement
dfavorabe. Nous aons rtrer a mme dmarche apprentssage - test.
Nous nsrons e composant C-SVC (onget SPV LEARNING) dans e dagramme. I mpmente un
SVM ssu de a bbothque LIBSVM (http://www.cse.ntu.edu.tw/-c|n/bsvm/). Par dfaut, C-SVC
nstance un SVM nare. Nous nous en contenterons dans un premer temps, sachant que nous
avons a possbt de paramtrer fnement e composant. Nous actonnons e menu contextue
VIEW pour accder aux rsutats.
Le taux derreur en resubsttuton est de 6.90%.
14 ma 2008 Page 8 sur 24
Ddactce - tudes de cas R.R.
Encore une fos, ne faut pas sen mouvor outre mesure, surtout dans notre contexte.
Concentrons nous putt sur es performances en test. Nous renouveons e mme dspostf
dvauaton (DEFINE STATUS |TARGET : ARRYTHMIA, INPUT : PRED_SPVINSTANCE_2| + TEST - n
peut faire des copier!coller de branches du diagramme, voir http"!!tutoriels#data#
mining.blogspot.com!$%%&!%'!copier#coller#dans#le#diagramme.html).
14 ma 2008 Page 9 sur 24
Ddactce - tudes de cas R.R.
Le taux derreur en test est de 28.72%. Magr es rserves mses sur a fabe tae de
chanton test, cart avec es performances du K-NN nest certanement pas unquement
mputabe chantonnage. Lamoraton est manfeste.
S04 Linaire fortement rularise (C 5 *!,). Toute mthode dapprentssage dspose de
sortes de tournevs qu permettent de guder apprentssage vers es soutons souhatabes
compte tenu : du probme trater, des donnes manpues et des ob|ectfs du pratcen. Souvent
tout cea se rsume pus ou mons ngrer es nformatons portes par chanton
dapprentssage. S a mthode y est trop sensbe, ee rsque de sur a|uster es spcfcts du
fcher ; s ee y trop nsensbe, ee napprend pas es reatons qu exstent entre es descrpteurs
et a varabe cbe. Concernant es SVM, y a un tournevs qu est trop souvent pass sous sence.
Pourtant, pse sgnfcatvement sur es rsutats, sagt du cot de rguarsaton
8
(on pare
auss de cot de compext ). I permet de dfnr a sensbt du mode aux ndvdus ma
casss ors de apprentssage : pus sa vaeur est eve, pus e cassfeur sadapte au fcher
dapprentssage, pus e rsque de sura|ustement est ev. Le probme ben entendu est de
pouvor fxer a bonne vaeur du paramtre
9
.
Dans notre cas, aerts par cart entre e taux derreur en resubsttuton et e taux derreur en
test, sgne dune tendance au sur apprentssage pour un mode nare, nous souhatons radr
apprentssage en dmnuant a vaeur du paramtre de cot. Nous actonnons e menu contextue
SUPERVISED PARAMETERS du composant C-SVC, nous rempaons a vaeur C = 1.0 par C = 0.1
(Important : attenton au pont dcma seon votre verson de Wndows).
8
http://www.research.bm.com/dar/papers/pdf/svmpath_|mr.pdf
9
Souvent, on sat dans que sens tourner e tournevs pour aguer a modsaton. En revanche, |usqu que
pont faut aer pour obtenr une souton optmae. on passe par e ttonnement, avec des essas rpts
apprentssage - test.
14 ma 2008 Page 10 sur 24
Ddactce - tudes de cas R.R.
Nous vadons, pus nous cquons sur e menu VIEW pour obtenr es nouveaux rsutats. Le taux
derreur est de 15.52%. Le mode coe mons aux donnes.
Pour avor une vauaton sur chanton test, nous actonnons e menu VIEW du composant TEST
2 dans e dagramme.
14 ma 2008 Page 11 sur 24
Ddactce - tudes de cas R.R.
Le taux derreur en test est de 24.47%. Le nouveau mode est grement meeur que
prcdemment (8 ndvdus suppmentares ont t ben casss sur 188).
6emarque : I est maheureux que ce paramtre sot souvent pass sous sence dans es
pubcatons qu recourent aux SVM. Comme on vent de e vor, son nfuence est ree. La
prncpae dffcut est de savor comment a manpuer, ce nest pas trs smpe. Dans notre
contexte, e rato nombre de varabes - nombre dobservatons dfavorabe, cart taux derreur
en resubsttuton - taux derreur en test, assent penser que rdure a sensbt de a
modsaton aux donnes dapprentssage est a bonne pste. La stuaton peut tre pus
contraste dans dautres contextes.
Pour confrmer notre de, nous avons tent daugmenter e paramtre de cot pour produre un
cassfeur qu sadapte pus aux donnes dapprentssage (C = 10), e taux derreur en
resubsttuton passe 0.43% dans ce cas. Mas, avant de nous asser aer une fausse |oe,
nous constatons que e taux derreur en test est 39.36%, nettement dgrad par rapport au SVM
prcdent, sgne que nous sommes manfestement dans une stuaton de sura|ustement.
S04-6#1 (C 5 ,!*). Le chox du noyau est e second paramtre qu orente sgnfcatvement e
comportement des SVM. Rappeons de trs brvement : nous avons a possbt, sans avor e
cacuer expctement, de construre a frontre de dscrmnaton dans un espace dffrent. Une
frontre nare dans cet espace correspond une frontre non nare dans espace orgne.
I est tentant de penser quun mode non nare est forcment pus performant quun mode
nare. Mas ce nest pas (tou|ours) vra. Certes, on rdut ans e bas, mas ce nest pas sans
consquences sur a varance du cassfeur. Dans notre cas, e meux est de vor ce qu en est en
testant a confguraton. Nous revenons sur a bote de paramtrage de C-SVC (menu SUPERVISED
PARAMETERS), nous spcfons KERNEL TYPE = RADIAL BASIS FUNCTION (noyau RBF), pus nous
ramenons e cot de pnasaton sa vaeur ntae PENALITY COST = 1.0.
14 ma 2008 Page 12 sur 24
Ddactce - tudes de cas R.R.
Le taux derreur en apprentssage est de 26.72%, en test passe 28.19%.
Apprentssage
Test
Manfestement, cest ben a matrse de a varance qu est prmordae dans e contexte de notre
tude. I en est souvent ans daeurs ds que nous tratons des donnes avec un rato nombre de
varabes - nombre dobservatons dfavorabe.
3.4 Rgresson PLS (PLS-LDA)
PLS-LDA (. a%es). La mthode PLS-LDA est prsente dans un de nos prcdents ddactces
(http://tutores-data-mnng.bogspot.com/2008/05/anayse-dscrmnante-ps.htm). I sagt dun
apprentssage en deux phases : (1) une Rgresson PLS sur es ndcatrces de a varabe cbe ; (2)
une anayse dscrmnante nare sur es facteurs de a rgresson PLS.
Le contre de a varance, a dpendance aux donnes dapprentssage, repose sur e chox du
nombre de facteurs que nous prsentons anayse dscrmnante nare dans a deuxme
phase. TANAGRA ntgre un mcansme bas sur examen de a redondance. S a varabt
expque par un facteur suppmentare est nfreure un seu, e processus est stopp.
Nous paons e composant PLS-LDA (onget SPV LEARNING) dans e dagramme. Nous actvons
drectement e menu VIEW, e taux derreur en resubsttuton est 9.05%.
14 ma 2008 Page 13 sur 24
Ddactce - tudes de cas R.R.
La mthode a automatquement sectonn 6 axes.
Nous comptons e dagramme pour vauaton en test. Le taux derreur est dans ce cas 26.06%.
6emarque : La mthode tent a route face aux SVM nares tuds c-dessus. Dans a grande
ma|ort des cas, dans un espace trs brut avec des descrpteurs redondants, a rgresson PLS
et es SVM nares prsentent souvent des performances comparabes. Les proprts de
rguarsaton de a Rgresson PLS sont remarquabes.
PLS-LDA mieu% rularise (7 a%es). Ic auss, nous avons a possbt de matrser a varance
du mode, en fxant expctement e nombre daxes factores, par ttonnement essenteement.
Compte tenu des commentares ms c-dessus, nous dcdons de radr apprentssage, cea
passe par une rducton du nombre daxes. Pour ce fare, nous actonnons e menu SUPERVISED
PARAMETERS du composant PLS-LDA, nous paons a vaeur REOUIRED AXES
10
= 5.
10
La vaeur prcdente REOUIRED AXES = 0 ndquat que e nombre de facteurs tat dtermn
automatquement.
14 ma 2008 Page 14 sur 24
Ddactce - tudes de cas R.R.
Le taux derreur en apprentssage passe 12.7%, e taux derreur en test est mantenant ga
23.94%, meeur que nmporte eque des SVM tuds pus haut (( individu bien class
supplmentaire par rapport au ) *+M ,inaire # C - %.( ., ce nest pas la gloire non plus).
Apprentssage
Test
6emarque : Comproms et ttonnements sont gaement de mse c. S on serre trop a vs (ex.
2 facteurs seuement), on est mons sensbe aux donnes dapprentssage (taux derreur en
resubsttuton = 19.4%), on nen extrat pas suffsamment dnformatons pour e cassement
(taux derreur en test = 31.38%).
14 ma 2008 Page 15 sur 24
Ddactce - tudes de cas R.R.
3.5 Anayse dscrmnante nare (LDA)
Analyse discriminante linaire (,8 variables). Lancer drectement une anayse dscrmnante
sur ce type de probme est une hrse. Procder nverson dune matrce 247 x 247 nest pas
une opraton smpe. De pus, est fort parer que apprentssage sera peu effcace. Les effectfs
tant fabes au regard de a dmensonnat, estmaton de a matrce de varance co-varance
sera trs nstabe. De que tournevs dspose-t-on aors pour meux contrer apprentssage ?
I exste des technques de rguarsaton de anayse dscrmnante, on pense notamment aux
technques rdge , ou encore anayse dscrmnante sur facteurs (a mthode PLS-DA en est
une daeurs). Mas dans ce ddactce, nous aons nous tourner vers une approche trs smpe : a
secton de varabes. Mons nous sectonnons de varabes, pus e cassfeur sera stabe, mas
mons trera proft des nformatons proposes par e fcher dapprentssage. A nverse, trop de
varabes produt un mode nstabe, fortement dpendant des donnes dapprentssage.
Par rapport aux autres technques, a stratge de secton est naturee concernant a LDA. En
effet, agorthme de rducton, a mthode STEPDISC, est en accord avec e crtre sur eque
sappue a LDA pour vauer a sparabt des groupes, en occurrence e LAMBDA de WILKS
11
.
Nous nsrons e composant STEPDISC (onget FEATURE SELECTION) dans e dagramme. Nous
assons es paramtres par dfaut. I procdera une secton FORWARD (a|out au fur et mesure
des varabes), e processus est stopp orsque a probabt crtque (p-vaue) assoce a
varabe addtonnee est nfreure au seu de sgnfcaton que on sest chos (0.05 par dfaut).
Nous cquons sur VIEW pour accder aux rsutats.
11
http://erc.unv-yon2.fr/-rcco/cours/sdes/anayse_dscrmnante.pdf ; page 9.
14 ma 2008 Page 16 sur 24
Ddactce - tudes de cas R.R.
18 varabes ont t automatquement sectonnes. La ste est dsponbe. Nous pouvons
mantenant nsrer e composant LINEAR DISCRIMINANT ANALYSIS (onget SPV LEARNING). Le taux
derreur en apprentssage est de 15.52%.
En test, aprs avor compt e dagramme, passe 30.32%, trs on des mthodes SVM et PLS-
DA, proche putt de a mthode des K-NN. I y a un probme de sur dmensonnat.
14 ma 2008 Page 17 sur 24
Ddactce - tudes de cas R.R.
Analyse discriminante linaire (. variables). Manfestement, nous navons pas suffsamment
serr a vs. I y a sur a|ustement sur es donnes. faut rdure e nombre de varabes. Nous
revenons sur e composant STEPDISC, nous actvons e menu PARAMETERS. Nous modfons e seu
de sgnfcaton, nous e passons 0.01.
Nous anons es cacus (menu VIEW), 6 varabes sont sectonnes mantenant.
Pour ce qu est du cassfeur, e taux derreur en resubsttuton est de 22.41%, en test est
24.47%, un nveau tout fat comparabe aux SVM nares et PLS-LDA c-dessus.
14 ma 2008 Page 18 sur 24
Ddactce - tudes de cas R.R.
Learnng
Test
On se demande parfos pourquo on se compque a ve avec des mthodes sophstques
orsquune technque auss smpe et rpandue que anayse dscrmnante nare, ben
paramtre, peut produre des rsutats auss bons.
6emarque : Ic gaement, e ttonnement est de mse. Trop ou trop peu de varabes dgradent
fortement es performances de anayse dscrmnante. La page des bonnes vaeurs est assez
mnce dans notre exempe.
3.6 Random Forest
6andom 1orest. Cest une mthode due Breman (2001)
12
. Lde repose sur a combnason
BAGGING + ARBRE de Dcson. Lagrgaton de puseurs arbres construts sur des rpcatons
(trage avec remse) de chanton dapprentssage produt un cassfeur effcace, pus effcace en
tous es cas que utsaton dun seu arbre. Cette technque est trs performante. Ee repose, tout
comme es SVM, sur a maxmsaton de a marge, mas dans une mtrque dffrente. Marge c
sentend : cart entre e mode de a probabt daffectaton et a probabt suvante.
Pour nsrer a mthode RANDOM FOREST dans e dagramme
13
, nous devons procder en deux
temps : (1) tout dabord, ntrodure e composant BAGGING (onget META-SPV LEARNING) ; (2) pus,
y ntgrer a mthode spcfque dnducton darbre RND TREE (onget SPV LEARNING).
12
http://www.stat.berkeey.edu/-breman/RandomForests/ ; http://en.wkpeda.org/wk/Random_forest
13
Vor parm es ddactces TANAGRA : http://tutores-data-mnng.bogspot.com/2008/03/random-forests.htm
14 ma 2008 Page 19 sur 24
Ddactce - tudes de cas R.R.
(1)
(2)
Nous anons es cacus (menu VIEW). Le taux derreur en apprentssage est de 0%, cest un
rsutat norma pour ce type de mthode.
Voyons ce qu en est sur a parte test.
14 ma 2008 Page 20 sur 24
Ddactce - tudes de cas R.R.
Le taux derreur en test est de 20.21%. Cest e meeur taux derreur de toutes es approches
anayses |usqu prsent. Ce rsutat corrobore es nnombrabes pubcatons qu montrent a trs
bonne tenue des Random Forest dans de trs nombreux domanes.
Paramtrer 6andom 1orest (Split 0ariables 5 7*)! O sont es tournevs c ? Le premer
paramtre, vdent, est e nombre de rpcatons. On augmente a pussance gobae du cassfeur
orsquon augmente, de manre margnae nanmons arrv un certan stade. TANAGRA, par
dfaut, produt 25 arbres. Nous avons tent daugmenter ce chffre (50, pus 100.), aucune
amoraton na t constate. Pste cose donc, du mons pour nos donnes.
Une autre voe sembe pus ntressante. Pour exporer, revenons sur ce qu fat e succs des
Random Forest . Ee construt une fort darbres qu, orsquees sont agrges, prdsent
meux que es modes ndvdues. Le systme est dautant pus performant que : es arbres sont
dcorrs es uns des autres c.--d. s ne cassent pas de a mme manre ; es arbres ndvdues
sont performants. Comment agr sur ces deux proprts ?
Le seu paramtre que on peut reement manpuer est e nombre de varabes que on tude
ors de a segmentaton dun noud pendant a constructon des arbres. Rappeons que opraton
est rase en deux temps : tout dabord, on effectue un trage aatore de P varabes parm es |
descrpteurs ; pus, on cherche a varabe de segmentaton parm ces P varabes. S P est ev c.-
-d. P # |, nous retrouvons agorthme usue de constructon des arbres de dcson. Les arbres
ndvdues seront performants, mas nous courrons e rsque de produre des arbres smares, qu
cassent de a mme manre. A nverse, s P est pett, es arbres qu forment a fort seront
certanement trs dcorrs. Mas on rsque de dgrader apprentssage, au pont de dtrorer es
performances des modes ndvdues. Vo. Mantenant, faut trouver un comproms au meu de
tout a. Lennu est que nous avons du ma dscerner dans que sens tourner ce tournevs pour
produre un mode goba performant.
14 ma 2008 Page 21 sur 24
Ddactce - tudes de cas R.R.
Nous sectonnons e composant BAGGING 1 (RND TREE) dans e dagramme. Nous actonnons e
menu SUPERVISED PARAMETERS. Dans a bote de paramtrage, a vaeur par dfaut de SELECTED
ATTRIBUTES est -1 , a formue utse dans ce cas est P = ROUND(LOG2(|)) + 1 . Nous
paons a vaeur 50 , nous vadons en cquant sur OK.
Lapprentssage est anc avec e menu VIEW, e taux derreur en resubsttuton est tou|ours ga
O%. Voyons ce qu en est sur chanton test en actvant e menu VIEW du composant TEST 5.
Learnng
Test
Nous obtenons un taux derreur de ,7!-.9. Le meeur rsutat que nous ayons attent sur ce
fcher de donnes.
14 ma 2008 Page 22 sur 24
Ddactce - tudes de cas R.R.
3.7 Rcaptuatf
Un pett tabeau rcaptuatf rsume tous es rsutats. Nous avons ms des toes * pour
regrouper approxmatvement es mthodes seon eurs performances.
4thode :au% d3erreur en
resubstitution
:au% d3erreur
en test
K-NN (5 vosns) 24.57% 37.77%
SVM Lnare (C = 1.0) 6.90% 28.72%
SVM Lnare (C = 0.1) 15.52% 24.47%**
SVM - RBF (C = 1.0) 26.72% 28.19%
PLS-LDA (6 axes) 9.05% 26.06%
PLS-LDA (5 axes) 12.70% 23.94%**
LDA (18 varabes) 15.52% 30.32%
LDA (6 varabes) 22.41% 24.47%**
Random Forest (25 arbres, Spt = -1) 0.00% 20.21***
Random Forest (25 arbres, Spt = 50) 0.00% 15.96%****
Manfestement, Random Forest est au dessus du ot. Lcart augmente avec un paramtrage
appropr. Vennent ensute es mthodes PLS-LDA et SVM nare.
Autre ecture de ce tabeau. Les performances des mthodes, quees quees soent, sont
fortement nfuencs par e chox des paramtres.
4 Conclusion
Vo un ddactce que |a eu beaucoup de pasr crre, car va argement au de du smpe
Comment fare . . Lde ntae tat de montrer a mse en ouvre de a mthode PLS-LDA dans
un contexte de surabondance de descrpteurs. Contexte o a matrse de nstabt est en|eu
prncpa. Du pan bn pour es mthodes drves de a Rgresson PLS.
Au f de crture, dautres rsutats trs ntressants mont ntrgu, memmenant r-orenter un
peu mon propos. Voc queques ments que on peut sougner en concuson.
La madcton de a dmensonnat nest pas un mythe. Lorsque e rato nombre de varabes /
nombre dobservatons est dfavorabe, certanes mthodes peuvent totaement seffondrer.
Cest e cas de a mthode des pus proches vosns pour nos donnes. Le cassfeur se dmarque
peu du cassfeur par dfaut (prdre systmatquement NEGATIVE).
La Rgresson PLS, tout comme es Support Vector Machne, parce quees sont exceemment
rguarses, se comportent trs ben dans ce contexte. Les mcansmes sont dffrents, mas
arrve, effcact est smare.
Le re des paramtres est ms en umre dans ce ddactce. Pour un probme trater, compte
tenu des caractrstques des donnes et des soutons que on souhate prvger, mporte
14 ma 2008 Page 23 sur 24
Ddactce - tudes de cas R.R.
ddentfer es bons evers (es fameux tournevs) et, ensute, savor dans que sens es orenter.
Ouant a dtermnaton des bonnes vaeurs, cest trs souvent affare de ttonnement. En tous es
cas, ben es spcfer pse sgnfcatvement sur es performances.
Le comportement de anayse dscrmnante nare sur nos donnes est assez dfant. I y a pen
de rasons de vouor oprer une secton de varabes. Dans notre cas, ce ever a perms de
rdure nstabt. Au fna, nous obtenons des performances comparabes cees des SVM ou de
a Rgresson PLS. Cest un rsutat qu donne rfchr.
Dans notre tude, a mthode Random Forest est manfestement a pus performante. Ben sr,
ce rsutat nest vaabe que pour es donnes tudes, naons pas gnraser cea de manre
ntempestve pour tous es probmes dapprentssage supervs. I reste nanmons un sentment
mtg. Certes, on vot peu prs pourquo cette technque marche. De nombreux artces, qu ont
anays en dta e comportement de a mthode, ont suffsamment dmontr. I exste
gaement des pubcatons qu donnent des pstes pour amorer encore. Mas opact du
paramtrage, tout smpement parce que on ne vot pas trs ben comment es mettre en reaton
avec es caractrstques de tude, rend encore son utsaton pratque dffce. Dans notre cas,
nous avons test 10, 20, 30,., 100. La vaeur 50 donne un bon rsutat sans quon pusse trs
ben se expquer par aeurs. Dans une exporaton purement emprque bas sur e schma |e
bdoue, |e regarde ce que a donne , a peut passer. Dans un contexte de recherche o a
dfnton des condtons de reproductbt des stratges est au mons auss mportante que a
performance ponctuee, ce nest pas tenabe.
14 ma 2008 Page 24 sur 24

You might also like