You are on page 1of 5

Didacticiel - Etudes de cas NIPALS R.R.

Objectif
Proposer NIPALS pour rduire la dimensionnalit dans un problme de discrimination de familles de protines. NIPALS est une implmentation possible des techniques de dcomposition en valeur singulires (SVD), elle permet de retrouver les axes factoriels de lanalyse en composantes principales (ACP) avec une amlioration considrable des temps de calculs lorsque le nombre de variables est trs lev.

Fichier
Un fichier issu de la discrimination de protines partir de leurs structures primaires (Mhamdi et al., 2004). Le fichier contient 122 individus rpartis en deux familles de protines {C1, C2}, il y a 6740 descripteurs boolens (1/0) qui correspondent la prsence/absence de 3-grams extraits de la description brute des donnes.

NIPALS
Charger le fichier de donnes
Charger le fichier TANAGRA_NIPALS.BDM.

08/04/2005

Page 1 sur 5

Didacticiel - Etudes de cas NIPALS R.R.

Apprentissage supervis
Essayons de produire et dvaluer un classifieur laide de la mthode des K-PPV (K- plus proches voisins). Il faut pour ce faire : slectionner les attributs TARGET (Classe) et INPUT (tous les autres descripteurs), placer les composants dapprentissage et dvaluation. Le diagramme de traitements est le suivant.

Nous avons utilis la mthode Bootstrap plus (Efron & Tibshirani, 1997) pour valuer lerreur en gnralisation. Deux rsultats retiennent notre attention : le taux derreur estim est de 0.2706 ; le temps de calcul du processus complet est de 732 secondes (PIV 3 Ghz 1024 MB RAM).

08/04/2005

Page 2 sur 5

Didacticiel - Etudes de cas NIPALS R.R.

NIPALS
NIPALS produit les p-premiers axes factoriels de lACP sans avoir diagonaliser explicitement la matrice de variance co-variance. Lencombrement mmoire est ainsi moindre et le temps de calcul rduit. NIPALS prend deux paramtres : le nombre de facteurs construire (p = 5 par dfaut) et le type de normalisation des donnes (centres et rduites par dfaut).

Notons que 3 secondes ont suffi pour produire les facteurs. Les rsultats fournissent les valeurs propres des 5 premiers facteurs et le pourcentage dinertie associ. Nous navons pas test lACP sur ce fichier mais elle a fourni des valeurs trs similaires NIPALS sur tous les autres fichiers de tests que nous avons utiliss.

08/04/2005

Page 3 sur 5

Didacticiel - Etudes de cas NIPALS R.R.

Apprentissage sur lespace rduit


Ltape suivante consiste alors lancer lapprentissage sur les axes factoriels, il faut passer par une phase de slection des attributs TARGET (classe) et INPUT (les 5 facteurs).

08/04/2005

Page 4 sur 5

Didacticiel - Etudes de cas NIPALS R.R.

Evaluation
Il faut alors placer le composant dapprentissage supervis. Attention, dans ce cas, les facteurs tant pondrs, il faut veiller utiliser une distance non normalise pour les K-plus proches voisins. Le paramtrage du composant doit tre comme suit :

Le composant Bootstrap permet de mesurer comme prcdemment les performances de lensemble (NIPALS + K-PPV). Nous constatons que la rduction de la dimensionnalit divise par 2 le taux derreur (0.1342), le temps de calcul de tout le processus a t divis par 7 (106 secondes).

08/04/2005

Page 5 sur 5

You might also like