You are on page 1of 86

Master Professionnel ALMA

2007/2008

Rapport de stage tude des ETL Open Source

Encadrant : Tuteur :

Antony GICQUEL Christophe JERMANN

Ralis par :

Florian FRANCHETEAU

Table des matires


1 Introduction 2 Prsentation de la socit
2.1 Historique . . . . . . . . . . . . . . . . . . . . . . 2.1.1 AQL . . . . . . . . . . . . . . . . . . . . . 2.1.2 Silicomp . . . . . . . . . . . . . . . . . . . 2.1.3 Orange Business & Services . . . . . . . . Activits d'Orange Business & Services IT&L@bs 2.2.1 Le ple IT . . . . . . . . . . . . . . . . . . 2.2.2 Le ple L@bs . . . . . . . . . . . . . . . . Les Centres Oprationnels de l'Ouest de la France La Business Intelligence . . . . . . . . . . 3.1.1 Dnition . . . . . . . . . . . . . . 3.1.2 Les entrepts de donnes . . . . . . 3.1.3 Des fonctionnalits direntes d'une 3.1.4 Modles en toile et en ocon . . . Dnition d'un outil ETL . . . . . . . . . Extract, Transform, Load . . . . . . . . . 3.3.1 Extract . . . . . . . . . . . . . . . 3.3.2 Transform . . . . . . . . . . . . . . 3.3.3 Load . . . . . . . . . . . . . . . . . Autres fonctionnalits des outils ETL . . . Application des outils ETL la BI . . . . Autres applications des outils ETL . . . . 3.6.1 Migration de donnes . . . . . . . . 3.6.2 Synchronisation de donnes . . . . Dnition . . . . . . . . . . . . . . Alternatives l'Open Source . . . . 4.2.1 Crer un ETL maison . . . 4.2.2 Acheter un ETL propritaire Avantages de l'Open Source . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6
8 8 8 9 9 9 10 10

2.2 2.3 3.1

3 Qu'est-ce qu'un ETL ?

3.2 3.3

3.4 3.5 3.6

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . de donnes classique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

12

12 12 12 12 13 14 14 14 15 16 16 16 17 18 18 19 19 19 20 21

4 Pourquoi de l'Open Source ?


4.1 4.2 4.3 5.1

19

5 Comparatif des solutions ETL Open Source

Comparatif prliminaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 Recherche des ETL Open Source existants . . . . . . . . . . . . .

22

22 22

TABLE DES MATIRES


5.1.2 Les critres retenir . . . . . . . . . . . . 5.1.3 Les trois phases de l'tude . . . . . . . . . 5.1.4 Tableaux comparatifs prliminaires des dix Prsentation de cinq ETL Open Source . . . . . . 5.2.1 Pentaho Data Integration . . . . . . . . . 5.2.2 Talend Open Studio . . . . . . . . . . . . 5.2.3 Clover . . . . . . . . . . . . . . . . . . . . 5.2.4 Jitterbit . . . . . . . . . . . . . . . . . . . 5.2.5 Apatar . . . . . . . . . . . . . . . . . . . . Tableaux comparatifs dtaills . . . . . . . . . . . 5.3.1 Mthodologie . . . . . . . . . . . . . . . . 5.3.2 Rsultats . . . . . . . . . . . . . . . . . . 5.3.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . ETL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2
23 23 24 24 25 28 31 33 36 38 38 38 39

5.2

5.3

6 Tests de performances
6.1 6.2 6.3 6.4

6.5

Mthodologie . . . . . . . . . . . . . . . . . . . . . . . . . Cas de Test . . . . . . . . . . . . . . . . . . . . . . . . . . Tests chier vers chier . . . . . . . . . . . . . . . . . . . . 6.3.1 Fichier CSV vers autre chier CSV . . . . . . . . . 6.3.2 Fichier CSV vers XML . . . . . . . . . . . . . . . . Tests chier vers base de donnes . . . . . . . . . . . . . . 6.4.1 Fichier CSV vers base MySQL . . . . . . . . . . . . 6.4.2 Fichier CSV vers base SQL Server Express 2005 . . 6.4.3 Fichier CSV vers base Oracle Express 10g . . . . . 6.4.4 Fichier CSV vers base PostgreSQL . . . . . . . . . 6.4.5 Fichier CSV vers base FireBird . . . . . . . . . . . 6.4.6 Fichier CSV vers base Access 2003 . . . . . . . . . 6.4.7 Fichier XML vers base MySQL . . . . . . . . . . . Scnarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.5.1 Test 1 - Fichiers CSV avec transformations de dates 6.5.2 Test 2 - Direntes tables avec ltrage . . . . . . . 6.5.3 Test 3 - Direntes tables avec calcul et agrgation

40

40 41 42 42 44 46 46 47 48 49 50 51 52 54 54 57 59 61 61 62

7 Bilan
7.1 7.2 7.3 8.1 8.2

Quel ETL choisir ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pourquoi choisir TOS et non PDI . . . . . . . . . . . . . . . . . . . . . . Pourquoi choisir PDI et non TOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

61

8 tude approfondie de TOS et de PDI


Talend Open Studio . . . . . 8.1.1 tude des composants 8.1.2 Intgration un projet Pentaho Data Integration . . 8.2.1 tude des composants 8.2.2 Intgration un projet

64

64 64 66 66 66 68

TABLE DES MATIRES 9 tudes annexes eectues


9.1 9.2 9.3 9.4

3 69

tude sur les SGBD gratuits / Open Source . . . . . . . . Utilisation d'un ETL propritaire dans un vritable projet tude sur les plateformes OSBI . . . . . . . . . . . . . . . tude sur les outils de reporting Open Source . . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

69 70 71 73

10 Conclusion 11 Webographie 12 Annexes


12.1 Tableaux comparatifs des dix ETL . . . . . 12.1.1 L'organisation, la communaut . . . 12.1.2 Informations gnrales et accessibilit 12.1.3 Possibilits, Compatibilits . . . . . . 12.2 Tableaux comparatifs dtaills de cinq ETL 12.2.1 L'organisation, la communaut . . . 12.2.2 Informations gnrales, accessibilit . 12.2.3 Fonctionnalits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

75 76 77
77 77 78 79 80 80 80 81

Table des gures


3.1 3.2 3.3 3.4 3.5 3.6 4.1 4.2 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 6.10 6.11 6.12 6.13 6.14 6.15 6.16 6.17 6.18 modle en toile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . modle en ocon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Un outil ETL extrait des donnes sources, les transforme puis les charge dans des donnes cibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schma explicatif de l'utilisation d'outils ETL dans l'informatique dcisionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schma explicatif de la migration de donnes . . . . . . . . . . . . . . . . Schma explicatif de la synchronisation de donnes . . . . . . . . . . . . Magic Quadrant de Gartner (Source : site ociel de Gartner) . . . . . . Diagramme reprsentant les cots des solutions en fonction du temps pass (Source : site ociel de Pentaho) . . . . . . . . . . . . . . . . . . . . . . Pentaho Data Integration : Cration de transformation Pentaho Data Integration : Cration de tche (Job) . . Talend Open Studio : Cration d'un job . . . . . . . . Talend Open Studio : Le Business Modeler . . . . . . . Clover : Interface de cration d'un graphe . . . . . . . . Jitterbit : Interface d'oprations . . . . . . . . . . . . . Jitterbit : Interface de transformations . . . . . . . . . Apatar : interface de cration d'un DataMap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 13 14 17 18 18 20 21 26 27 29 30 32 34 35 36 41 42 45 46 47 48 49 50 51 52 54 55 55 57 57 58 59 59

Schma de la base de donnes tests . . . . . . . . . . . . . . . . . . . . . Diagramme Comparatif : Fichier CSV vers autre chier CSV . . . . . . . Diagramme Comparatif : Fichier CSV vers chier XML . . . . . . . . . . Diagramme Comparatif : Fichier CSV vers base MySQL . . . . . . . . . Diagramme Comparatif : Fichier CSV vers base SQL Server Express 2005 Diagramme Comparatif : Fichier CSV vers base Oracle XE 10g . . . . . . Diagramme Comparatif : Fichier CSV vers base PostgreSQL . . . . . . . Diagramme Comparatif : Fichier CSV vers base FireBird . . . . . . . . . Diagramme Comparatif : Fichier CSV vers base Access 2003 . . . . . . . Diagramme Comparatif : Fichier XML vers base MySQL . . . . . . . . . Test 1 - Modlisation sous Talend Open Studio . . . . . . . . . . . . . . Test 1 - Modlisation sous Pentaho Data Integration . . . . . . . . . . . Diagramme Comparatif : Fichiers CSV avec transformations de dates . . Test 2 - Modlisation sous Talend Open Studio . . . . . . . . . . . . . . Test 2 - Modlisation sous Pentaho Data Integration . . . . . . . . . . . Diagramme Comparatif : Jointures de tables avec ltrage . . . . . . . . . Test 3 - Modlisation sous Talend Open Studio . . . . . . . . . . . . . . Test 3 - Modlisation sous Pentaho Data Integration . . . . . . . . . . .

TABLE DES FIGURES


6.19 Diagramme Comparatif : Jointures de tables avec agrgation . . . . . . . 9.1 9.2 9.3 9.4 9.5 9.6 Architecture de BOMAG . . . . . . . . . . . Capture d'cran de JasperServer . . . . . . . Capture d'cran de Pentaho BI Platform . . Capture d'cran de SpagoBI . . . . . . . . . Exemple de rapport cr avec JasperReports Capture d'cran de JasperReports . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5
60 70 71 72 72 74 74

Chapitre 1 Introduction
Dans le cadre de notre cursus universitaire, en deuxime anne de Master Professionnel ALMA, nous avions eectuer un stage professionnel de cinq mois. Pour de nombreuses raisons, j'ai prfr suivre celui-ci Rennes. Ce stage se devait d'tre en lien troit avec notre cursus, c'est--dire qu'il devait nous permettre d'utiliser des principes, mthodes ou technologies tudis tout au long de notre formation an de pouvoir valider cette dernire. Aprs de nombreuses recherches (tant sur Internet que dans des salons tels que les salons du stage Rennes et Nantes) et plusieurs entretiens eectus en Bretagne, j'ai ni par choisir la socit Silicomp-AQL rcemment rachete par Orange Business & Services (OBS). J'ai trouv cette dernire trs agrable, bien situe, avec un excellent accueil. Le sujet du stage, quant lui, a pour nom "Etude des ETL Open Source". Ce stage, d'une dure de cinq mois, s'inscrit dans le domaine du dcisionnel (ou en anglais, Business Intelligence). Il est prcis que le stagiaire doit avoir une connaissance en SGBD (Systme de Gestion de Bases de Donnes). Le sigle ETL signie "Extract Transform Load". Ces outils extraient des donnes de sources htrognes, les transforment et alimentent direntes cibles, l aussi htrognes. Ils sont souvent utiliss pour rcuprer direntes informations an d'alimenter rgulirement des entrepts de donnes qui, eux, permettent une meilleure analyse de ces dernires. Dans un premier temps, le travail consiste recenser tous les outils ETL Open Source disponibles et d'en extraire de nombreux critres permettant de les direncier. Dans un second temps, le droulement du stage ncessite d'installer plusieurs de ces outils (ceux jugs les plus pertinents) pour pouvoir eectuer de nombreux tests an de retenir les plus performants. La branche d'OBS dans laquelle j'eectue mon stage souhaite se positionner de plus en plus du ct du dcisionnel. Ce stage a donc une grande importance leurs yeux et ils en attendent beaucoup. L'objectif nal de celui-ci est de fournir une note de synthse dcrivant les caractristiques, les avantages et les inconvnients des meilleurs ETL Open Source et de pouvoir choisir l'ETL le plus appropri pour un projet donn. Ceci leur permettra de rpondre des appels d'ores de nombreux clients ne souhaitant pas dbourser une fortune pour acqurir un ETL propritaire. Il est aussi indispensable, la n du stage, de pouvoir apporter les informations ncessaires an d'intgrer un ETL Open Source un projet dcisionnel et aussi de pouvoir proter au maximum des avantages de l'ETL choisi.

CHAPITRE 1. INTRODUCTION

Enn, il est prcis dans le sujet du stage, qu'en parallle des rsultats de l'analyse sur les ETL, un rapport comparant dirents SGBD Open Source pourra tre fourni (cette tude est judicieuse tant donn que les SGBD sont intimement lis aux ETL). Tout ceci an de pouvoir proposer aux clients une ore complte et Open Source si possible pour une raison vidente de cots. Cette tude permettra en dnitive qu'OBS puisse acqurir de nouveaux projets et conqurir de nouveaux clients. Nous allons donc tout d'abord nous attarder sur la socit OBS et son historique avec le rachat d'AQL puis de Silicomp. Nous pourrons ensuite dbuter notre tude sur les ETL Open Source en commenant bien videmment par comprendre les enjeux de la Business Intelligence.

Chapitre 2 Prsentation de la socit


2.1 Historique
2.1.1 AQL

AQL est n en octobre 1988 Rennes. Cette socit, dont les trois lettres signient Alliance Qualit Logiciel, a t cre par Stphane Mige. Comme son nom l'indique, le matre mot d'AQL est la qualit. Cette socit s'est spcialise en trois dpartements : l'EDI (change de Donnes Informatises), les rseaux et l'assurance qualit. L'ide de l'EDI est de pouvoir transmettre directement les documents informatiques (chose rare l'poque). Quant l'assurance qualit, c'est un ensemble de normes et de procdures suivre tout au long d'un projet, pour que celui-ci atteigne le niveau de qualit recherch. Le premier objectif d'AQL tait donc de jouer sur la performance pour pouvoir se dmarquer des autres SSII (Socit de Services en Ingnierie Informatique). Cette politique a rapidement port ses fruits, AQL a pu atteindre en l'espace de moins d'un an un eectif de 19 personnes (dont 15 ingnieurs) et de nombreux clients tels que Citron, TRANSPAC, OST, le CCETT et CELAR. Suite logique de leur orientation, AQL a t certi ISO 9001 en 1992. Cette norme spcie des exigences au niveau de la conception, du dveloppement, de la production, de l'installation et du service aprs-vente. Un logiciel dvelopp sous cette norme doit donc suivre toutes ces contraintes. En 2000, la socit Silicomp rachte AQL. En 2001, AQL est certi ISO 9001 :2000 (norme plus rcente, une nouvelle version est prvue pour 2008).

2.1.2 Silicomp

Silicomp, elle, a t cre en 1983 par Jean-Michel Gilner Grenoble. Silicomp a toujours voulu se direncier des classiques SSII et a donc adopt en 1994 le modle SSTI (Socit de Solutions en Technologies Informatiques). Ce modle a pour but d'apporter

Activits d'Orange Business & Services IT&L@bs

une forte composante technologique dans les solutions proposes aux clients. Cela permet de perfectionner le marketing de l'ore par cet apport de direnciateur technologique et ainsi, de se dmarquer des classiques SSII. Cette orientation a pu orir une forte croissance Silicomp qui a ainsi acquis direntes socits (Gex Informatique en 1990, Qualience en 1999, Telecom Systems et AQL en 2000, AXEAN en 2001 et enn QConsulting en 2003). Silicomp a aussi ouvert de nombreux bureaux travers le monde : en 1994 Singapour et aux Etats-Unis, ils atteignent mme en 1998 la Silicon Valley, puis, par la suite, l'Inde et le Canada. En 2004, Silicomp et sa liale AQL fusionnent, ce qui cr Silicomp-AQL. L'orientation de Silicomp tourne autour de trois principaux domaines : la technologie de l'information (avec la tl numrique par exemple), les rseaux (explosion des rseaux haut dbit) ainsi que la R&D (Recherche et Dveloppement). Alors que Silicomp atteint 1200 employs, elle se fait racheter par France Tlcom le 4 janvier 2007. Le nom de Silicomp devient, en 2008, Orange Business & Services IT&L@bs.

2.1.3 Orange Business & Services

Durant la priode 2005-2008, France Tlcom a mis en uvre la stratgie NExT (Nouvelle Exprience des Tlcoms). L'objectif de cette dernire est de crer de nouvelles sources de croissance en orant des services simples, innovants et convergents. Ils ont donc cr la liale entreprise d'Orange : Orange Business & Services (OBS). OBS dispose de prs de 10 000 employs travers le monde et Orange, de 191 000 employs. OBS a donc vu le jour le 1er juin 2006 et est compos de 6 liales NRS (Network Related Services) proposant des comptences fortes dans des domaines trs en pointes. Orange Business & Services IT&L@bs (constitue principalement de l'entreprise SilicompAQL) est une de ces 6 liales.

2.2 Activits d'Orange Business & Services IT&L@bs


Le nom IT&L@bs vient de ses deux ples d'activits : le ple IT (Information Technologies) et le ple L@bs (laboratoires de recherche). Il comporte environ 1300 employs dans le monde.

2.2.1 Le ple IT
Ce ple correspond l'activit d'une SSII classique, il s'occupe donc de tout ce qui touche aux systmes d'informations et l'ingnierie logicielle. IT&L@bs a choisi de s'orienter vers les rsultats en essayant d'amliorer en permanence leurs quatre secteurs d'activit. Le premier concerne les solutions industrielles. IT&L@bs cherche accompagner les bureaux d'tudes, les centres de recherche et de production, en suivant tout le cycle des produits ou des systmes, de leur conception leur maintient.

Les Centres Oprationnels de l'Ouest de la France

10

Le second secteur concerne les systmes embarqus. En eet, on assiste actuellement une forte expansion de cux-ci. Ils sont omniprsents dans notre vie quotidienne : des tlphones portables aux automobiles, en passant par la tlvision ou les guichets automatiques bancaires. De nombreux systmes communiquent entre eux et, l'volution de la technologie impose de grer un nombre croissant de donnes le plus rapidement possible. Ces systmes embarqus sont un axe majeur d'activit chez IT&L@bs qui gre entirement leurs cycles de dveloppement. IT&L@bs s'occupe aussi des systmes d'information d'entreprise. Cela consiste aider les organisations concevoir ou refondre leurs systmes d'informations. L aussi, tout le cycle de vie est gr, de l'architecture au dploiement des systmes. Enn, la scurit des systmes d'informations a toujours t une activit majeure de Silicomp, ils continuent ainsi depuis quinze ans dans cette voie. Ils grent aussi bien les administrations que les organisations prives.

2.2.2 Le ple L@bs


Comme son nom l'indique, ce ple gre des laboratoires spcialiss. IT&L@bs possde deux laboratoires majeurs : la laboratoire CESTI et le laboratoire FIME. CESTI (Centre d'Evaluation de la Scurit des Technologies de l'Information) existe depuis 1992. De nombreux experts en scurit vont essayer d'valuer si un produit ou un systme est bien conforme un rfrentiel. Et ensuite, ils vont pouvoir accorder des certications de scurit qui peuvent tre dclins en plusieurs niveaux. FIME est un laboratoire indpendant ddi aux cartes puces aussi bien dans le domaine de la montique que du transport ou de la sant. Il a obtenu des accrditations des plus grandes marques de cartes puces. Le centre de Rennes est spcialis dans les cartes puces RFID (Radio Frequency Identication).

2.3 Les Centres Oprationnels de l'Ouest de la France


L'Ouest est compos de sept CO (Centres Oprationnels) dont deux vocation rgionale. Le CO National Portail et eBusiness (50 personnes) s'occupe des portails d'entreprises et des achats/ventes via les mdias Internet. Ils ont entre autre dvelopp le portail "cinma" de l'UGC et une partie du portail Orange Mobile. Le CO National Gouvernance du SI (Systme d'Information) (50 personnes) s'occupe de donner des conseils et d'apporter son expertise sur l'architecture, l'urbanisation ou la scurit des systmes d'informations. Les CO Laboratoires Scurit et Conseil Scurit font partie, contrairement aux autres, du ple L@bs. Le premier se situe au niveau de la recherche, dans le domaine de la scurit des SI dans des laboratoires condentiels. Le second apporte expertise et conseils dans ce mme domaine. Le CO Rgional SFP (Software Factory Platform) (105 personnes) conoit de nombreux logiciels autour des plates-formes de services et des technologies de l'information.

Les Centres Oprationnels de l'Ouest de la France

11

Ils utilisent beaucoup de Java JEE, de .NET et de technologies rseaux (pour la tl la demande ou la scurit des portails). Le CO National TTM (Terminaux et Technologies Multimedia) (65 personnes) s'occupe de l'tude, du dveloppement, de la validation et de l'intgration de composants techniques. Ils ont dvelopps de nombreuses applications sur des terminaux de tlvision numrique ou de portables an d'tre commercialiss par Orange ou d'autres socits. Enn le CO Rgional SLO (Service Local Ouest) (70 personnes) s'occupe de la croissance locale axe PME/PMI. C'est dans ce CO que le stage est eectu. Il permet d'apporter la souplesse, la ractivit et la proximit pour rpondre aux besoins des clients. Les technologies utilises sont du Java JEE, .NET, C++, PHP, Oracle, Sunopsis, etc. Ils souhaitent actuellement acqurir plus de comptences au niveau de la Business Intelligence et c'est en partie pour cette raison que j'eectue mon stage. Le sujet propose, en eet, d'tudier dirents composants dcisionnels Open Source (dont principalement les ETL) pour pouvoir les intgrer dans de futurs projets.

Chapitre 3 Qu'est-ce qu'un ETL ?


3.1 La Business Intelligence
3.1.1 Dnition
Avant de nous pencher sur la dnition d'un outil ETL, il est important de faire un bref rappel sur le domaine de la Business Intelligence (ou informatique dcisionnelle en franais) car c'est en eet le plus souvent dans ce contexte que s'utilisent les ETL. La Business Intelligence (ou BI) est une branche de l'architecture des systmes d'information. Elle permet de mettre en uvre des moyens pour collecter, consolider et restituer des donnes an d'orir une entreprise une aide la dcision (souvent dans les domaines du marketing, de la production ou de la comptabilit). La BI permet d'apporter les solutions un problme dcisionnel donn (par exemple : pourquoi les ventes ont-elles chut au deuxime trimestre de l'anne ? et que faut-il faire pour y remdier ?). Le coeur de la Business Intelligence repose sur les entrepts de donnes aliments par les ETL, et rcuprs par de nombreux outils permettant de rpondre aux problmes. Nous allons donc nous intresser tout d'abord ces entrepts de donnes.

3.1.2 Les entrepts de donnes


Voici la dnition du grand dictionnaire :

Un entrept de donnes est une structure informatique dans laquelle est centralis un volume important de donnes consolides partir des diverses bases de donnes internes et externes d'une entreprise, et qui est conue pour orir un accs rapide l'information stratgique ncessaire la prise de dcision.
Auparavant, les entrepts de donnes servaient surtout l'archivage, dsormais ils sont devenus des composants majeurs de l'informatique dcisionnelle.

3.1.3 Des fonctionnalits direntes d'une base de donnes classique


Un entrept de donnes est, en quelque sorte, une base de donnes qui possde de nombreuses spcicits. Alors qu'une base de donnes classique sert stocker et grer les donnes (en ajouter, les mettre jour, en supprimer), l'entrept, lui, va tre orient dans l'analyse des donnes pour aider prendre des dcisions. La mise jour de ces donnes

La Business Intelligence

13

est donc souvent dire. Pour eectuer l'aide la dcision, les entrepts doivent aussi servir garder un historique de donnes, c'est pour cela que leur taille est souvent plus leve que les bases de donnes classiques o les donnes obsoltes sont eaces. Enn, alors qu'une base est construite selon un modle entit-association quelconque, l'entrept a une structure bien prcise pour faciliter l'analyse. Le plus souvent, les entrepts de donnes sont structurs selon un modle multidimensionnel. Ce modle est la base du concept OLAP (Online Analytical Processing) qui dni un mode de construction des donnes pour une bonne analyse. On distingue de nombreux modles de donnes dont celui en toile ou le modle en ocon.

3.1.4 Modles en toile et en ocon

Figure 3.1  modle en toile


On remarque, sur le modle en toile ci-dessus, que la table de vente est celle qui est centrale (on la nomme souvent table de faits). Ce sont les attributs de cette table qui serviront de mesures d'analyses (quantit et prix). Chaque table lie la table de fait est appele dimension. Ces tables serviront paramtrer les valeurs de l'analyse (par exemple calculer les ventes une date donne). Le modle en ocon (ci-dessous) est semblable au modle en toile except que chaque dimension peut tre dcompose en sous hirarchies. Ici on a dcompos les tables Dates et Magasins. Ainsi, il est plus facile et plus rapide de naviguer l'intrieur de celles-ci. Par exemple, on peut voir les ventes selon une anne puis prciser en analysant les ventes selon les mois et ainsi de suite. noter aussi qu'il existe le modle en constellation permettant de fusionner plusieurs modles en toile possdant des dimensions identiques.

Figure 3.2  modle en ocon

Extract, Transform, Load

14

3.2 Dnition d'un outil ETL


prsent que nous avons vu les grands principes de l'informatique dcisionnelle, nous pouvons nous attarder sur les outils ETL. l'origine, le principe est simple : il s'agit d'alimenter les entrepts de donnes. Maintenant, les ETL ce sont largement diversis et permettent d'eectuer de nombreuses oprations que nous verrons par la suite. Concrtement, on dispose de sources (souvent htrognes) que l'on extrait pour alimenter un entrept servant leurs analyses. Les sources peuvent aussi bien tre des bases de donnes (de n'importe quel SGBD), des chiers (CSV, XML, Excel) et voire d'autres formats (annuaires LDAP, Web services). Les ETL s'occupent de transformer ces sources, via de nombreux composants, en une ou plusieurs cibles qui peuvent tre, l aussi, de n'importe quels formats.

Figure 3.3  Un outil ETL extrait des donnes sources, les transforme puis les charge
dans des donnes cibles

3.3 Extract, Transform, Load


Comme expliqu prcdemment, ETL signie Extract, Transform, Load (Extraction, Transformation, Chargement). Ce sont les trois tapes que doit imprativement implmenter un outil ETL. Eectues dans l'ordre, elles forment un traitement, une tche ou un scnario (selon les diverses appellations des logiciels). Nous allons prsent les dtailler.

3.3.1 Extract
La premire tape concerne l'extraction des donnes qui sont la plupart du temps htrognes. Cela signie qu'elles peuvent provenir de SGBD (MySQL, Oracle, SQL Server, etc.), de chiers plats (Txt, Excel, XML, etc.), d'ERP (Enterprise Ressource Planning), de bases hirarchiques (les anctres des SGBD) ou d'autres applications spciques. On peut dj remarquer le premier obstacle aux ETL : la multitude de formats sources possibles grer.

Extract, Transform, Load

15

Cette tape doit permettre de se connecter aux bases, soit de faon native, soit via JDBC/ODBC ou encore avec des connecteurs spciaux. Il est aussi important, lorsque l'on extrait des donnes, de pouvoir les analyser. Il faut donc connatre les proprits de celles-ci : savoir si par exemple cette donne est de type entier ou chane de caractres et quelle est sa taille maximale. Cela peut paratre simple lorsque la source provient d'un SGBD mais s'avre plus complexe lorsqu'elle provient d'un chier plat. Il faut aussi pouvoir reconnatre les cls primaires et trangres permettant respectivement d'identier une table de faon unique, et de garantir l'intgrit des donnes. L'extraction peut aussi s'occuper de vrier les erreurs des sources. Par exemple, il est possible qu'une personne fasse une faute de frappe en crivant "Canuda" au lieu de "Canada" alors l'outil ETL doit dtecter cette erreur et la corriger. Enn, cette premire tape doit tre eectue le plus rapidement possible en exploitant au minimum les ressources du systme. tant donn qu'un ETL peut occuper et ce, pendant de nombreuses heures, une grande partie du ou des processeurs disponibles, on lance donc souvent les processus ETL la nuit. Pour gagner du temps, l'objectif de cette tape est aussi de ltrer au maximum les donnes. Par exemple, il faut que l'on puisse extraire les donnes uniquement mises jour ou ajoutes aprs la dernire extraction. L'tape d'extraction est donc trs importante. Elle doit tre performante et complte pour pouvoir disposer d'un bon outil ETL.

3.3.2 Transform
Cette seconde tape a pour objectif la transformation des donnes. Elle est bien videmment indispensable si l'on veut obtenir des cibles direntes des sources. C'est cette tape qui va permettre de joindre les direntes sources selon les cls prcdemment spcies. Elle va aussi permettre de ltrer les donnes. Le ltrage est bien dirent de l'extraction puisque l'on ltre selon des critres dnir, par exemple on va ltrer les produits dont le prix est suprieur 1000e. Une partie importante de l'tape de transformation est de pouvoir eectuer des calculs. Ils peuvent tre simples comme une addition ou multiplication, mais peuvent tre aussi plus complexes. Disposer d'un outil ETL proposant de nombreuses oprations par dfaut est donc un plus. La transformation doit aussi s'occuper des direntes agrgations : eectuer les commandes SQL classiques tels que SUM (somme), COUNT (comptage) ou AVG (moyenne). L'outil ETL peut galement permettre de gnrer des cls de substitution (surrogate key) pour cette tape de transformation. Chaque ligne d'un ensemble de donnes peut possder une cl primaire et une autre dite de substitution. La dirence majeure entre ces deux cls dpend de la donne (si elle est actuelle ou temporelle). Une base actuelle va stocker uniquement les donnes actuelles valides, alors qu'une base temporelle va s'occuper en plus des donnes prcdentes. Par exemple, l'employ Jean Dupont n'aura qu'une entre dans une base actuelle mais en aura deux dans une base temporelle (une quand il tait employ de 1988 1992 et une autre de 2004 2008). Les deux cls

Application des outils ETL la BI

16

primaires seront direntes (donc uniques) alors que les cls de substitution seront les mmes (non uniques). Pouvoir gnrer ces cls accrot les performances de l'outil ETL dans la recherche des donnes avec une meilleur indexation. Ainsi l'outil ETL doit pouvoir permettre de garder un historique des changements et aussi obtenir une certaine indpendance des systmes sources (c'est lui qui gre les cls de substitution). En bref, cette tape doit permettre d'eectuer toutes les transformations que l'on souhaite appliquer aux donnes sources. Il ne faut pas non plus oublier la slection ou le dcoupage des colonnes, la traduction des valeurs (les dirents formats de dates possibles ou encore le boolen 1 qui peut signier M pour "Masculin"), la fusion, les lookups, la gestion des erreurs et encore de nombreuses autres fonctionnalits.

3.3.3 Load
La dernire tape, s'occupe de charger les donnes, pralablement extraites puis transformes, dans des cibles htrognes (le plus souvent des entrepts de donnes qui pourront tre structurs selon un modle bien prcis (vu prcdemment). Le chargement va permettre d'insrer ou de mettre jour les donnes cibles, et, comme dans les deux tapes prcdentes, il doit aussi grer les erreurs (une chane de caractre ne doit pas tre insr dans un champ fait pour les entiers). Le chargement n'est pas ngliger pour un bon outil ETL, il doit, l aussi, tre complet et performant.

3.4 Autres fonctionnalits des outils ETL


Un outil ETL, qui se veut tre complet, doit implmenter de nombreuses autres fonctionnalits. Il peut par exemple permettre de planier les excutions : lancer un traitement un jour prcis ou une frquence prcise selon une contrainte donne (les possibilits peuvent tre nombreuses). Une console d'administration est aussi la bienvenue avec l'enregistrement d'utilisateurs et de leurs privilges, tout en permettant de surveiller les processus ETL en cours. Tout ceci doit tre gr par un systme bien scuris. Pour un travail collaboratif, on peut bien videmment penser des systmes de contrle de version genre CVS (Concurrent Versions System). Pour optimiser les performances, un systme ETL peut proposer de parallliser les traitements et de coordonner les processus. Pour bien grer les erreurs, l'outil ETL peut proposer des rapports d'erreurs, des outils de correction de bugs, la reprise aprs une erreur, la vrication d'un traitement avant son excution ou encore l'achage des statistiques d'excutions. Les possibilits d'un outil ETL sont donc trs nombreuses et c'est bien videmment un critre retenir pour disposer d'un outil ETL complet.

3.5 Application des outils ETL la BI


La plupart du temps, les ETL sont utiliss dans le domaine de la Business Intelligence (BI) dcrit auparavant. La BI est, le plus souvent, compose de direntes parties inti-

Autres applications des outils ETL

17

mement lies, permettant d'aider prendre une dcision pour rpondre aux problmes dcisionnels tels que :  L'intgration de donnes qui alimente des entrepts de donnes. C'est ici qu'interviennent les ETL.  La gnration de rapports qui fournit aux utilisateurs des rapports sur l'tat des ventes, des stocks, du chire d'aaires, etc. Cette partie est gre via des outils de Reporting qui piocheront dans un entrept de donnes aliment par un ETL.  Les tableaux de bords (ou dashboards en anglais) mettent en place de nombreux graphiques et schmas, pour observer, d'un coup d'oeil, ce qui va ou qui ne va pas dans l'entreprise. Par exemple si un stock est quasiement vide, une jauge en rouge peut s'acher pour prvenir rapidement l'utilisateur. L encore, les donnes seront rcupres partir d'un entrept de donnes.  L'analyse des donnes permet d'aller plus en profondeur par rapport aux rapports mais aussi d'interagir et de vrier les donnes selon plusieurs niveaux (annes, trimestres, mois, semaines, jours par exemple). Les donnes seront rcupres via des cubes multidimenssionnels OLAP, qui sont eux mme aliments par des entrepts de donnes.  Le Data Mining est la partie la moins utilise puisque c'est la plus complexe. Cette branche fait intervenir de nombreux algorithmes (touchant souvent au domaine de l'intelligence articielle) essayant d'apporter l'utilisateur les futurs volutions probables de son entreprise. La majorit des outils ETL mettent disposition des outils spciques pour alimenter les entrepts de donnes. Les cls de substitutions prsentes plus haut, l'alimentation de cubes OLAP ou encore la gestion des dimensions volution lente (slow changing dimension) en sont des exemples.

Figure 3.4  Schma explicatif de l'utilisation d'outils ETL dans l'informatique dcisionnelle

3.6 Autres applications des outils ETL


Nous avons vu prcdemment l'application des ETL des ns dcisionnelles mais il ne faut pas oublier que les outils ETL peuvent servir dans d'autres applications.

Autres applications des outils ETL

18

3.6.1 Migration de donnes


Lorsqu'une entreprise souhaite passer d'une version d'une base de donnes ou d'une application une autre, ou mme lorsqu'elle change de systme, elle doit eectuer ce que l'on appelle une migration de donnes. Toutes les donnes existantes doivent tre transfres dans un nouvel environnement. Une migration implique la plupart du temps des volumes de donnes trs importants et celles-ci sont souvent trs htrognes. De plus, il faut garder une certaine cohrence entre le nouveau et l'ancien systme. Les outils ETL sont donc bien adapts cette utilisation.

Figure 3.5  Schma explicatif de la migration de donnes

3.6.2 Synchronisation de donnes


Dans de nombreux systmes, les donnes sont gres sparment par de multiples applications. La synchronisation de celles-ci permet de maintenir une cohsion entre toutes les applications et les bases de donnes.

Figure 3.6  Schma explicatif de la synchronisation de donnes

Chapitre 4 Pourquoi de l'Open Source ?


4.1 Dnition
Open Source signie source ouverte en franais. Cette notion comprend donc les logiciels qui ont un code source ouvert, c'est dire que l'on peut consulter librement. La notion Open Source telle qu'elle est tablie par l'OSI (Open Source Initiative, organisation cre en 1998 pour la promotion de l'Open Source) tend largement ses possibilits. On peut, par exemple, redistribuer librement le logiciel, eectuer sur celui-ci des travaux drivs, ou mme le vendre. La notion Open Source dcrite par l'OSI est comparable celle du logiciel libre. Il existe de nombreuses licences permettant de mieux xer les licences libres. Les plus connues sont sans doutes les licences GPL et LGPL.  La licence GPL (GNU General Public License), cre en 1989, est utilise par la plus grande partie des projets Open Source. Elle permet de consulter, modier et redistribuer le travail mais il est interdit de rediuser le produit des ns commerciales. Dans le cadre d'une redistribution, il faut imprativement fournir le code source (c'est la condition CopyLeft).  La licence LGPL (Lesser GNU General Public License) a t cre en 1991 dans le but d'orir une licence moins restrictive que la GPL. Cette licence n'a plus la notion de CopyLeft, il est donc possible de fusionner un logiciel propritaire avec un logiciel LGPL sans garder la licence LGPL. Cependant si un utilisateur veut modier le code source sous LGPL, il devra le redistribuer sous cette mme licence. Attention, il ne faut pas confondre Open Source et gratuit ! En eet, si une entreprise dveloppe des logiciels Open Source, il faut aussi qu'elle puisse rmunrer ses employs. Les entres d'argent vont alors provenir d'un support technique professionnel, de formations, ou de l'ajout de modules supplmentaires payants, mme si cela est gnralement beaucoup moins cher que l'achat d'un logiciel propritaire.

4.2 Alternatives l'Open Source


4.2.1 Crer un ETL maison
Les outils ETL tant relativement rcents, les entreprises ont longtemps d crer leurs propres ETL. L'avantage de cette mthode est que l'outil s'adapte facilement aux spcicits mtiers et aux dirents types de donnes utiliss. Cependant, au vu des nombreux critres des outils ETL vus prcdemment, le dveloppement peut s'avrer

Alternatives l'Open Source

20

trs complexe si l'entreprise dsire avoir un outil complet. Si elle souhaite le restreindre son domaine d'utilisation, elle devra faire face de nombreux problmes d'volution des donnes. En eet, l'outil ETL se doit de s'adapter au dveloppement continuel de l'entreprises.

4.2.2 Acheter un ETL propritaire


L'achat d'un ETL propritaire est une solution qui permet d'utiliser trs rapidement les outils d'intgration de donnes. Cependant, l'entreprise va devoir faire face ds le dbut, des cots levs de licence, de formation, ou de support technique. Ces prix sont trs variables d'une solution une autre et dpendent du nombre de licences, de processeurs ainsi que de leurs puissance. La plupart du temps, il faudra compter plusieurs dizaine de milliers d'euros. Il est galement intressant de voir rapidement les ETL propritaires les plus performants. Voici un carr magique tabli par Gartner (entreprise amricaine importante de consulting et de recherche dans le dcisionnel).

Figure 4.1  Magic Quadrant de Gartner (Source : site ociel de Gartner)


Gartner actualise ses carrs magiques tous les six mois environ, ci-dessus, il s'agit du dernier en date. On peut voir les deux leaders qui se distinguent parfaitement du reste : Informatica avec PowerCenter et IBM avec Information Server. Microsoft, BO et Oracle sont trs utiliss eux aussi mais ne se montrent pas assez visionnaires, contrairement SAS et iWay qui font l'inverse. Il faut faire attention cependant puisque ces diagrammes sont seulement la vision du Gartner. Mme si cette grande entreprise est trs rpute dans le domaine, les rsultats restent subjectifs. Ceci d'autant plus que certaines de ces

Avantages de l'Open Source

21

entreprises sont clientes de Gartner... Il faut aussi noter que Gartner a une vision trs ngative de l'Open Source dans le dcisionnel.

4.3 Avantages de l'Open Source


L'Open Source ore les avantages combins des deux alternatives prcdentes sans les inconvnients : une ore complte et peu chre. Il faut simplement compter, pour la plupart des logiciels Open Source, le cot d'un support technique professionnel, voire le cot d'une formation initiale. Il ne faut pas oublier que l'Open Source donne accs au code source, le dveloppeur peut donc le modier pour ajouter des fonctionnalits, le consulter pour regarder le fonctionnement du programme de plus prs. L'accs au code permet aussi de nombreuses personnes d'ajouter leurs propres composants puis de les distribuer sur internet. De plus, la communaut Open Source est souvent trs active : de nombreux utilisateurs sont disponibles sur les forums pour toute aide.

Figure 4.2  Diagramme reprsentant les cots des solutions en fonction du temps pass
(Source : site ociel de Pentaho)

Chapitre 5 Comparatif des solutions ETL Open Source


5.1 Comparatif prliminaire
5.1.1 Recherche des ETL Open Source existants
Aprs avoir vu ce qu'tait un systme ETL, ses fonctionnalits et dans quels contextes il est utilis, il a fallu rechercher sur Internet les dirents outils ETL Open Source disponibles. Certains ETL sont trs rpandus et donc, faciles rfrencer pendant que d'autres se font beaucoup plus discrets sur la toile. Cette phase de recherche sur de nombreux sites internet (forums, sites ociels, blogs, etc.) a permis de rpertorier les dix ETL suivants (dans l'ordre de leur dcouverte) : 1. Talend Open studio 2. Pentaho Data Integration 3. Clover.ETL 4. Enhydra Octopus 5. KETL 6. Scriptella 7. BenETL 8. OpenESB 9. Jitterbit 10. Apatar Les outils ETL sont assez rcents, c'est d'autant plus vrais pour les Open Source : l'ge moyen de ceux-ci est de deux ans. C'est donc une technologie jeune, pas toujours mature mais, force est de constater que l'intrt des entreprises pour ces ETL crot de jour en jour. Ils attirent un nombre croissant de clients pendant que leurs fonctionnalits et leurs performances voluent rapidement. Cependant, le monde Open Source reste moins stable que le monde propritaire et des logiciels peuvent vite se trouver l'abandon faute de personnes motives ou de nancements pour les maintenir et les mettre jour. Il est ncessaire de faire trs attention lors du choix de l'ETL utiliser pour une entreprise, il faut avant tout tudier de nombreux critres. Aprs une comparaison de ces outils avec les informations collectes sur Internet, l'autre tape du stage consistera installer certains de ces ETL (les plus pertinents) et de les tester.

Comparatif prliminaire

23

5.1.2 Les critres retenir


Voici les quatre ensembles de critres retenir pour pouvoir comparer ces ETL entre eux : 1. L'organisation (entreprise ou collectivit) et la communaut. Comme expliqu prcdemment, le monde Open Source est plus alatoire que le propritaire. Il faut une communaut de dveloppeurs qui soit solide, soude et nance par un organisme tiers ou dans le meilleur des cas par une relle socit Open Source possdant son propre nancement. Le projet doit aussi tre rgulirement mis jour. Il ne faut pas non plus ngliger la communaut Open Source, elle rete la sant du projet. Une communaut active signiera que le projet est en constante volution et permettra d'avoir accs une aide plus rapide et ecace. 2. Informations gnrales et accessibilit. L'Open Source a la rputation de disposer de logiciels inabordables, hors d'atteinte pour la plupart des gens. La communaut doit faire en sorte d'enrayer cette rputation. Il est important qu'un logiciel possde une bonne documentation rdige au moins en anglais (dans le meilleur des cas en franais). Il ne faut pas oublier que son installation doit tre simple sans avoir recours de nombreux autres logiciels tiers. de plus, les outils ETL ne sont pas forcment utiliss par des dveloppeurs, il est alors prfrable de disposer d'une interface graphique ergonomique qui ncessite le moins possible de connaissances Java ou SQL. 3. Possibilits et compatibilits. Nous avons pu voir prcdemment les direntes fonctionnalits d'un outil ETL. Le logiciel doit en englober le plus possible, voire en ajouter des nouvelles. Il est important, au nal, qu'il convienne pour le maximum de cas d'utilisations dans un contexte dcisionnel. Si la plupart de ces critres sont dcelables sur Internet, d'autres ncessitent cependant des tests sur logiciel. 4. Performances. Ces critres doivent tre analyss en grande partie via de nombreux tests de performances sur les logiciels. Ils sont trs importants surtout lorsque l'on prend en compte la quantit considrable de donnes traiter.

5.1.3 Les trois phases de l'tude


L'tude sur les ETL est constitu de trois phases bien distinctes. La premire est une analyse prliminaire dont le but est de slectionner une partie des 10 ETL Open Source disponibles sur Internet pour les tests suivant. Cette slection est indispensable tant donn qu'installer et eectuer des tests sur tous les ETL prendrait beaucoup de temps et n'aurait qu'un intrt limit. Cette phase va permettre de remplir entirement la premire catgorie de critres et pouvoir renseigner quelques informations sur les catgories 2 et 3. La deuxime phase est une analyse plus en profondeur des ETL slectionns prcdemment. De nombreuses informations seront rcupres tant sur Internet qu'en testant les logiciels. Cette phase permettra de remplir intgralement les catgories 2 et 3 des critres prcdemment cits. Enn, la dernire phase s'attache eectuer des tests de performances. Tout d'abord les sujets seront les ETL retenus lors de la phase 1, et, ensuite, des tests plus complets et plus prcis seront eectus sur les deux ETL principaux. Ceci permettra de remplir la quatrime et dernire catgorie de critres.

Prsentation de cinq ETL Open Source

24

5.1.4 Tableaux comparatifs prliminaires des dix ETL


Les tableaux comparatifs sur les critres globaux des dix ETL sont fournis en annexe (page 77 79). Les tableaux comparatifs permettent de dnir les logiciels les plus aboutis (Pentaho Data Integration, Talend Open Studio, Clover, Jitterbit et Apatar). Le choix de ces cinq ETL s'est fait grce de nombreux critres dont la prsence d'une interface graphique. En eet ceci est un argument de poids dans le domaine du dcisionnel. Tandis qu'un dveloppeur lambda s'accommode trs bien de code Java ou XML pour eectuer des transformations, une utilisation dans le dcisionnel ne doit pas imposer l'utilisateur de s'y connatre en programmation. Ces ETL sont aussi les plus suivis sur Internet et sont dvelopps par des entreprises (except Clover qui est cependant sponsoris et nanc par une entreprise). Ce sont donc ces cinq l qu'il va falloir installer et tester plus en profondeur. Parmi ces ETL, on remarque deux leaders : Talend Open Studio et Pentaho Data Integration. Cependant, il est intressant de pouvoir installer les trois autres (Clover.ETL, Jitterbit et Apatar) pour juger de leurs capacits, de leurs avancements et de leurs possibilits. Il se peut mme qu'ils soient plus simples utiliser et plus performants.

5.2 Prsentation de cinq ETL Open Source


Aprs avoir rfrenc tous les ETL Open Source existants puis les avoir compar selon un certain nombre de critres, il fallait prsent installer les plus prometteurs et les tester en profondeur. Voici les analyses eectues sur cinq de ces ETL Open Source.

Prsentation de cinq ETL Open Source

25

5.2.1 Pentaho Data Integration


5.2.1.1 Prsentation
Pentaho Data Integration (anciennement Kettle) a t cr en 2001 par Matt Casters pour ses besoins personnels. partir de la version 2.2, Kettle est devenu Open Source et en 2006, Matt Casters entre dans la socit Pentaho qui dveloppe la suite dcisionnelle du mme nom. Kettle s'intgre cette suite dcisionnelle et devient Pentaho Data Integration (PDI). L'utilisation de PDI, peut se faire indpendamment de sa suite dcisionnelle. Cet ETL est rgulirement mis jour et possde une bonne communaut d'utilisateurs. Les traitements sont stocks sous format XML et peuvent tre intgrs dans un rfrentiel qu'il est possible de grer avec n'importe quel SGBD (pratique pour le travail collaboratif). Cependant, l'ETL PDI est un moteur de transformation, il faut donc ncessairement possder le logiciel pour eectuer des transformations. PDI permet d'eectuer deux types de traitements : 1. Des transformations : traitement de base comprenant l'extraction de sources, la transformation et le chargement de cibles. 2. Des jobs : traitement permettant de squencer plusieurs transformations. PDI est aussi compos de trois applications : 1. Spoon : interface graphique, faite avec SWT (Standard Widget Toolkit, bibliothque graphique Java). 2. Pan : application en ligne de commande an de lancer une transformation donne. 3. Kitchen : application en ligne de commande an de lancer une tche donne. Enn, prcisons que PDI a t dvelopp entirement en Java, de plus, il est totalement gratuit (pas de fonctionnalits supplmentaires payantes).

5.2.1.2 Analyse Points positifs :

 Installation trs simple (chier dcompresser), ncessite seulement Java 1.5 ou suprieur.  Rfrentiel disponible, possibilit de le grer via n'importe quel SGBD.  Logiciel et Documentation en franais (la documentation franaise n'est pas toujours jour).  Interface ergonomique.  Trs complet (environ 180 composants disponibles)  Visualisation des traitements en temps rel.  Console d'administration du rfrentiel (ajout d'utilisateurs, de prols, etc.).  Possibilit d'enregistrer un historique des traitements sur le rfrentiel.  Intgration parfaite avec la suite dcisionnelle Open Source Pentaho.  Possibilit d'excuter les traitements sur le poste local ou sur un ou plusieurs serveurs distants. Avec notamment la possibilit d'cuter un tratement en grappe sur plusieurs postes.  Possibilit d'acher des diagrammes montrant les statistiques de l'xecution.  Gestion du connecteur SAP.

Points ngatifs :

 Pas de planication de traitements intgre. Il faut utiliser la suite dcisionnelle Pentaho ou alors passer par daire un script et l'excuter via le planicateur de tches de Windows ou Cron de Linux.

Prsentation de cinq ETL Open Source


    Interface pas toujours trs claire. Pas de contrle de version. Pas de gestion des contextes (dveloppement, tests et production). Communaut assez faible en France.

26

5.2.1.3 Captures d'cran

Figure 5.1  Pentaho Data Integration : Cration de transformation


Voici, ci-dessus, l'interface principale de Pentaho Data Integration. Au centre, une transformation est cre (jointure de deux tables avec calcul et agrgation pour insertion dans une troisime table). gauche, la palette de composants de transformation disponibles classs par type d'opration. En bas on peut voir un graphique sur les statistiques de l'excution de la transformation (cette option est apparue uniquement avec la version 3.1 de Pentaho Data Integration)

Prsentation de cinq ETL Open Source

27

Figure 5.2  Pentaho Data Integration : Cration de tche (Job)


Ci dessus, on peut voir la fentre de l'excution d'une tche. Ceci est semblable l'excution d'une transformation mais la palette de composants est dirente. En bas on peut observer l'achage des statistiques d'excution d'une tche (qui remplace donc les graphiques des transformations). gauche on peut voir le rfrentiel comportant, entre autres, la liste des paramtres de connexion pour direntes bases de donnes.

Prsentation de cinq ETL Open Source

28

5.2.2 Talend Open Studio


5.2.2.1 Prsentation
Talend Open Studio (TOS) a t cr le 21 septembre 2006 par la socit Talend base principalement en France, mais aussi aux Etats-Unis et en Chine. Les transformations sur TOS s'appellent des Jobs (tches en franais) et se font partir de l'interface Job Designer. L'ETL TOS est un gnrateur de code, c'est dire que, pour chaque job cr, un moteur va s'occuper de gnrer du code Java ou Perl (selon le choix de l'utilisateur) qui permettra d'excuter la transformation. TOS possde une interface graphique base sur Eclipse. La gestion des metadonnes se fait via un rfrentiel trs complet (au format XML). TOS possde aussi un Business Modeler permettant de modliser les architectures dcisionnelles de haut niveau et de faon non technique.

5.2.2.2 Analyse Points positifs :

 Talend tant un gnrateur de code, il est possible d'enregistrer les transformations sous forme de script, qui est alors excutable partir de n'importe quelle machine disposant d'une JVM (pour Java). Talend ne doit pas forcment tre install pour excuter un script. Ceci est trs pratique pour planier des tches : excuter le script via le planicateur de tches sous Windows ou via Cron sous Linux.  Trs complet (environ 250 composants Java) et un peu moins en Perl.  Le composant tMap trs puissant permet de faire facilement de nombreux traitements.  Interface trs ergonomique (base sur Eclipse).  Talend est particulier, il peut aussi tre utilis en tant qu'ELT (Extract, Load, Transform) c'est dire que les transformations peuvent tirer parti de la base de donnes dans laquelle les cibles ont t charges. Cela pour avantage d'amliorer grandement les performances mme si les possibilits sont alors plus limites.  Gestion des metadonnes trs complte (connexions aux bases, schmas des donnes, formats des chiers, etc.)  Visualisation des traitements en temps rel et sur le schma.  Designer de requtes.  Possibilit d'ajouter facilement des spcicits mtiers (en Java ou Perl) en ajoutant des nouvelles routines  Code gnr toujours visible.  Le Business Modeler.  Nombreux connecteurs applicatifs disponibles : CentricCRM, SalesForce, SugarCRM, VtigerCRM, Microsoft AX.  Gestion des contextes (contexte de dveloppement, de test et de production).  Intgration avec SpagoBI ou JasperServer.  Possibilit de gnrer de la javadoc.  L'Ecosystem de Talend centralisant de nombreux composants dvelopps par des personnes externes la socit.  Possibilit d'intgrer des documents et des chiers au rfrentiel.

Points ngatifs :

 Pas de rfrentiel commun disponible dans l'dition de base.  Interface lourde (base sur Eclipse).

Prsentation de cinq ETL Open Source

29

 Dans l'dition de base, obligation de passer par les scripts pour la planication sur Windows.  Impossibilit d'excuter les traitements distance dans l'dition de base.  Des fonctionnalits payantes (se procurer Talend Integration Suite).

5.2.2.3 Captures d'cran

Figure 5.3  Talend Open Studio : Cration d'un job


En haut gauche se situe le rfrentiel pour naviguer entre les dirents jobs, code, metadonnes, documentation etc. Au centre, on peut voir l'interface de cration de jobs. Sur cette capture d'cran, on observe l'excution en temps rel d'un job avec les donnes lues. droite, la palette des 250 composants classs par type. En bas, on peut apercevoir de nombreux onglets comme celui ach ici reprsentant l'excution du job avec la console.

Prsentation de cinq ETL Open Source

30

Figure 5.4  Talend Open Studio : Le Business Modeler


Ici, on peut voir l'interface de cration d'un des dirents composants disponibles.

Business Model avec droite la palette

Prsentation de cinq ETL Open Source

31

5.2.3 Clover
5.2.3.1 Prsentation
Clover est une communaut de dveloppeurs cre en 2004 et nance par OpenSys (socit implante en Rpublique Tchque). Clover, tout comme Pentaho Data Integration, est un moteur de transformations. Ici, les direntes tches sont appeles "graphes". Clover est constitu de trois parties : 1. Clover.ETL, le moteur de transformation en Java indispensable et gratuit 2. Clover.GUI, l'interface graphique permettant de crer des graphes de transformations. Cette partie est cependant payante pour une utilisation commerciale (300e par an pour une licence et 1900e pour du multi-licence). L'interface est un plug-in Eclipse donc il faut obligatoirement installer Eclipse sur le poste de travail. 3. Clover.Server, lui aussi est payant (prix ngocier) et permet d'optimiser les performances, de disposer d'outils de planication, d'excuter les transformations distance et de faciliter le travail collaboratif. Le moteur de Clover est dvelopp entirement en Java. Si l'on matrise ce langage, il est l aussi possible d'implmenter facilement ses propres composants. Les graphes, eux, sont enregistrs sous format XML et mme avec l'interface il est souvent ncessaire de modier le code XML pour les diter. Clover gre aussi les metadonnes via un rfrentiel (sauvegard l encore au format XML).

5.2.3.2 Analyse Points positifs :

 Interface assez ergonomique (plugin d'Eclipse).  Gestion des metadonnes.

Points ngatifs :

 Ncessit d'utiliser Eclipse.  Interface lourde (plugin d'Eclipse).  Clover.GUI pour l'interface et Clover.Server pour le rfrentiel commun et la planication sont payants.  Les options des composants manquent de clart.  Moins complet que Pentaho Data Integration ou Talend Open Studio.  Pas de connecteurs applicatifs.  Aucune intgration avec une plateforme OSBI.  Pas de gestion des contextes.  Pas d'excution distance.  Pas de rfrentiel commun.  Mme avec l'interface graphique, il est souvent ncessaire de toucher au code XML pour modier les proprits des composants.

Prsentation de cinq ETL Open Source 5.2.3.3 Capture d'cran

32

Figure 5.5  Clover : Interface de cration d'un graphe


gauche on voit l'interface permettant de naviguer dans les dossiers et de grer les metadonnes. Au centre se situe le graphe de transformation avec ses divers composants. droite on aperoit la palette de composants. Enn, en bas, il y a les dirents onglets avec ici, celui permettant de modier les proprits des composants.

Prsentation de cinq ETL Open Source

33

5.2.4 Jitterbit
5.2.4.1 Prsentation
Jitterbit a t cr en 2005 par la socit du mme nom base aux Etats-Unis et spcialise dans les logiciels Open Source d'intgration de donnes. Contrairement aux autres ETL, Jitterbit fonctionne obligatoirement avec un serveur qui excutera les transformations (c'est donc l aussi un ETL de type moteur de transformations). De plus, les donnes sont obligatoirement enregistres dans un rfrentiel commun qui doit tre gr par le SGBD PostgreSQL. Il faut donc ncessairement installer PostgreSQL sur son poste de travail avant d'utiliser Jitterbit. Ce logiciel dispose d'une console d'administration complte (cration d'utilisateurs, de groupes, de rles, visualisation de l'activit des oprations, de l'historique des oprations eectues etc.). Jitterbit est trs dirent des autres ETL, ici il ne faut pas construire des graphes de transformations via du glisser-dposer mais, seulement choisir une source, une cible, puis la transformation qui permet de passer de l'une l'autre. Dans Jitterbit, ces tches sont appeles "Oprations". Ceci ne permet pas de faire des transformations rellement complexes que l'on peut eectuer sur TOS ou PDI.

5.2.4.2 Analyse Points positifs :


              

Points ngatifs :

Console d'administration complte. Serveur qui excute les tches qui peuvent tre valids pralablement. Planication intgre. Rfrentiel commun disponible de base. Excution distance. Moins complet que Pentaho ou Talend. Nombreux connecteurs applicatifs disponibles : SAP, SugarCRM, SalesForce, Siebel.

Fonctionnement droutant. Le serveur prend beaucoup de ressources. PostgreSQL impos comme rfrentiel. Quelques imperfections dans l'interface comme le fait d'avoir un onglet qui s'ouvre chaque fois que l'on souhaite naviguer dans le projet. Excution des transformations assez lente. Aucune intgration avec une plateforme OSBI. Pas de gestion des contextes (dveloppement, test et production). Aucune nouvelle version depuis six mois.

Prsentation de cinq ETL Open Source 5.2.4.3 Captures d'cran

34

Figure 5.6  Jitterbit : Interface d'oprations


On choisit la source, la cible et la transformation appliquer. On peut aussi planier l'opration et ajouter un vnement sur le succs ou l'chec de l'opration. gauche se situe le rfrentiel du projet permettant entre autre de naviguer entre les direntes oprations (chacune compose d'une source, d'une transformation et d'une cible).

Prsentation de cinq ETL Open Source

35

Figure 5.7  Jitterbit : Interface de transformations


Cette capture d'cran reprsente l'interface permettant de transformer la source en cible. Les types de donnes sources sont lis aux types de donnes cibles. On peut bien videmment appliquer direntes fonctions de transformations.

Prsentation de cinq ETL Open Source

36

5.2.5 Apatar
5.2.5.1 Prsentation
La socit Apatar a t fonde aux Etats-Unis par Renat Khasanshyn qui commena sa carrire en Russie. La premire version du logiciel Apatar (du nom prcis de Apatar Open Source Data Integration) a vu le jour le 7 mai 2007, il est donc trs rcent. Ici encore, cet ETL est un moteur de transformations et possde une interface graphique pour crer et excuter les transformations qui sont appelles, dans Apatar, DataMap. Il est aussi possible de lancer les transformations en ligne de commande. Apatar est cod entirement en Java et ne ncessite aucun autre logiciel que Java pour tre excut. Il possde aussi un outil pour planier les lancements des transformations. Apatar met disposition de nombreux connecteurs mais, compte tenu de sa jeunesse, il est trs restreint. Cependant, s'il continue tre bien dvelopp il pourra peut-tre, par la suite, concurrencer les autres ETL Open Source.

5.2.5.2 Analyse Points positifs :

 Logiciel simple.  Nombreux connecteurs disponibles : Compiere ERP, SalesForce, SugarCRM, SAP, Siebel, Amazon S3, Buzzsaw, Flickr.  Planication intgre.

Points ngatifs :
      

Logiciel simple. Trs limit, trop peu de fonctionnalits. Moteur de transformations lent. Pas de gestion des metadonnes. Pas de rfrentiel commun. Pas de gestion des contextes Pas d'excution distance.

5.2.5.3 Capture d'cran

Figure 5.8  Apatar : interface de cration d'un DataMap

Prsentation de cinq ETL Open Source

37

Cette capturee d'cran montre l'interface principale pour crer et lancer les transformations. gauche se situe la palette de composants. La tche eectue ici est de joindre une base via le connecteur SalesForce et une base MySQL an d'y appliquer des fonctions de transformations pour alimenter une base Oracle.

Tableaux comparatifs dtaills

38

5.3 Tableaux comparatifs dtaills


5.3.1 Mthodologie
La deuxime phase de l'tude s'attache comparer plus en profondeur les ETL prsents ci-dessus. C'est aussi avec cette tude qu'ont t tudis les points positifs et ngatifs des dirents logiciels. Les tableaux comparatifs sont classs selon les trois premires catgories de critres dcrites prcdemment. Une partie de ces informations a t trouve directement sur Internet. Elles ont pu tre analyses et conrmes seulement aprs l'installation des ETL. Pour vrier certaines caractristiques, il a fallu eectuer de nombreux tests. Le choix des critres a t inspir de nombreux sites Internet (cf. Webographie) mais s'est aussi fait personnellement.

5.3.2 Rsultats
Les tableaux comparatifs dtaills sont prsents en annexes (pages 80 85). Ils ont reprsents de nombreuses heures de travail et ont t mis jour rgulirement. Ils regroupent en tout, plus de 120 critres analyss sur les cinq ETL que sont Talend Open Studio, Pentaho Data Integration, Clover.ETL, Jitterbit et Apatar. Voici les rsultats que l'on peut tirer de cette tude :

5.3.2.1 La communaut, l'organisation


Ici on peut observer un net avantage de Talend Open Studio et de Pentaho Data Integration qui sont tous deux dvelopps et nancs par une socit. Ces deux ETL Open Source sont les plus largement utiliss dans le monde, leurs communauts sont actives et croissent de jour en jour. Quant aux autres ETL, leurs communauts sont beaucoup plus restreintes mais restent actives et prtes apporter de l'aide tout utilisateur.

5.3.2.2 Informations gnrales, accessibilit


L il est plus dicile de dpartager les ETL, ils sont rgulirement mis jour (except Jitterbit dont la dernire version date de plus de 6 mois). TOS et PDI sont les seuls orir une documentation en Franais. Enn, ils proposent tous un rel support professionnel ce qui n'est pas ngligeable dans une entreprise. Il faut noter que Clover.ETL est payant pour avoir l'interface graphique et, que TOS propose des options payantes. Cela montre bien qu'Open Source ne signie pas forcment gratuit.

5.3.2.3 Fonctionnalits
Il s'agit de la partie la plus importante, la plus longue et la plus complexe analyser. Elle se divise donc en plusieurs sous-parties : 1.

Compatibilits

: dans ce domaine, TOS et PDI achent des rsultats impressionnants. Ces ETL grent la plupart des SGBD nativement et, pour les autres il y a toujours les drivers JDBC/ODBC de disponibles. Ils sont compatibles avec les principaux OS du march et grent une trs grande diversit de chiers (CSV, XML, Excel, LDIF, ZIP, etc.). Les trois autres ETL, mme s'ils sont compatibles avec les formats principaux gardent une longueur de retard.

Tableaux comparatifs dtaills


2.

39

Lecture et criture dans un SGBD

: ici petit avantage de TOS qui propose la gestion des donnes SIG, un designer graphique de requtes, et l'excution de requtes sauvegardes dans un chier .sql. PDI et Clover.ETL sont un peu derrire mais proposent tout de mme l'excution de procdures stockes, la normalisation/dnormalisation de tables et permettent aussi de crer facilement des requtes.

3.

Transformations : TOS et PDI permettent de faire peu prs toutes les transfor-

4.

Accs aux donnes : avantage TOS qui gre de nombreux connecteurs applicatifs alors que PDI se contente simplement de SAP. On peut observer que c'est Apatar qui implmente le plus grand nombre de ces connecteurs et c'est l sa grande force. noter que PDI ne permet pas l'heure actuelle de grer les ux RSS.
bit (du fait qu'il a t dvelopp pour excuter les transformations sur un serveur distant). Apatar ne comprend quasiment aucune option d'administration et, celles de Clover.ETL sont toutes payantes. TOS propose de nombreuses options mais certaines sont payantes aussi du fait que le rfrentiel commun ne soit pas inclus dans la version gratuite.

mations envisageables dans le cadre d'un projet grce de nombreux composants. De plus, TOS propose quelques options ELT et, permet ainsi de proter de toutes les fonctionnalits que peut apporter un SGBD. L encore, les autres ETL sont derrires. Enn, si par malchance une transformation que souhaite faire l'utilisateur n'est pas ralisable, l'Open Source permet de modier le code et d'ajouter des composants personnaliss.

5.

Administration : ce sujet est assez complexe mais l'avantage va PDI et Jitter-

6. 7.

Dclenchement des processus : avantage TOS qui permet d'utiliser JMS, SOAP, MOM et POP. A noter qu'aucun ETL Open Source n'utilise Corba. Fonctionnalit spciques

8. 9.

Outils : avantage TOS et PDI qui proposent tous deux un outil de dbugging trs pratique.

: TOS et PDI se trouve encore devant les autres ETL. Ici, on touche aux deux gros avantages (et respectivement aux deux gros dfauts) qui direncient TOS et PDI. TOS permet de grer facilement les contextes d'excution pour passer rapidement d'une phase une autre dans un projet (dveloppement, tests et production). PDI, quant lui permet de lancer les traitements sur un poste distant et propose mme de les excuter en grappes.

Optimisation : avantage TOS et PDI qui permettent tout deux d'optimiser


au mieux les dirents traitements eectuer. TOS met disposition le mode ELT pour direntes bases et, PDI propose gratuitement d'excuter les traitements par grappe.

5.3.3 Conclusion
Aprs cette tude, on peut d'ores et dj remarquer un net avantage du ct de Talend Open Studio et de Pentaho Data Integration. Mmes s'ils ont de nombreuses caractristiques direntes, il est dicile de dpartager ces deux ETL, ce que permettront peut-tre les tests de performances.

Chapitre 6 Tests de performances


6.1 Mthodologie
Comme expliqu dans le chapitre prcdent, les temps de traitements sont des critres trs importants pour le choix d'un ETL. Il a donc fallu eectuer une troisime et dernire phase d'tude pour comparer les performances des ETL slectionns dans la premire phase. Les tests qui vont suivre ont t eectus localement ce qui ne rete donc pas les performances sur du travail distance. Ils ont t classs en trois parties direntes. La premire, qui est la plus simple, s'attache mesurer les temps de traitements du passage d'un chier source un chier cible sans aucune transformation. La deuxime est semblable la premire except que c'est une base de donnes en cible. Enn, la troisime met en place des scnarios impliquant diverses transformations (jointures, agrgations etc.). Seules les deux premires parties sont testes sur les cinq ETL. La troisime s'occupe uniquement de Talend et Pentaho, les autres ETL n'tant pas, l'heure actuelle, en mesure de les concurrencer en termes de performances ou du nombre d'oprations disponibles. Pour chaque test, trois essais ont t eectus et le rsultat prsent montre la moyenne de ceux-ci. Voici les caractristiques du PC sur lequel ont t eectus les tests :

Nom Processeur RAM OS Java MySQL SQL Server Express 2005 Oracle XE PostgreSQL FireBird Access 2003 Talend Open Studio Pentaho Data Integration Clover.ETL/Clover.GUI Jitterbit Apatar

Dell Optiplex 740 AMD Athlon 64 X2 Dual Core 4000+ (2,10 GHz) 2 Go de RAM Microsoft Windows XP Professionnel SP2 1.6 5.0 SP2 1.0 10g Release 2 8.3 2.1 11.5 2.3.3 3.0.3 2.4.4/1.10.0 1.3.2 1.1.8

Cas de Test

41

Les tests ont t lancs via l'interface graphique puisque c'est l'utilisation normale que l'on en fait. Des tests lancs via des lignes de commandes ont t eectus, mais aucune dirence notable de performances n'a t remarque. Bien videmment, les transformations ont t excutes avec le minimum possible d'applications tournant en arrire plan. Les bases de donnes ne servant pas pour une opration donne ont aussi t dsactives. Sur Talend Open Studio, la gestion de plusieurs processeurs a t active. Les modlisations de ces tests sur les ETL ont essay d'tre optimises au maximum, cependant il est srement possible d'amliorer d'avantage ces modlisations pour proter au mieux des fonctionnalits des ETL.

NB : Dans le cadre de l'tude sur les SGBD gratuites / Open Source, il a t jug judicieux de tester les performances de tous les SGBD mentionns dans ce guide. Cependant, un bug sur la version de Talend Open Studio 2.3.3 et 2.4.0 empche l'application de se connecter Ingres. C'est pour cela que cette base n'apparat pas dans les tests. Ce bug a t corrig dans la version 2.4.1 et, les tests auraient pu tre eectus avec cette dernire mais, l'environnement de travail ayant chang (installation d'antivirus, passage du SP2 au SP3, dirence entre la version 2.3 et 2.4) ils n'auraient pas permis de comparer correctement les performances de cette base. Les derniers tests eectus montrent des performances proches de celles d'Oracle XE.

6.2 Cas de Test


Un cas de test complet a t implment pour les dirents jeux d'essai. Il reprsente un modle en toile utilis pour l'analyse des ventes sur des clients, des produits, des rgions et des jours donns. Le schma de la base de donnes est reprsent ci-dessous. Lors des cas d'extraction de la base, si le nombre d'enregistrements n'est pas indiqu, il faut savoir que les tables Clients et Produits contiennent 100 000 enregistrements, la table Regions en contient 10 000, la table Temps environ 7 000 et la table Faits 1 000 000.

Figure 6.1  Schma de la base de donnes tests

Tests chier vers chier

42

6.3 Tests chier vers chier


6.3.1 Fichier CSV vers autre chier CSV
6.3.1.1 Prsentation
Clients.csv. Le chier source comporte 4 champs spars par un point-virgule : un identiant, un nom et un prnom puis une date d'inscription. Il a t gnr partir de code Java. Voici un exemple des cinq premires lignes : Ce test, trs simple, consiste alimenter un chier CSV via un autre chier CSV :

1;oylvtn;v;27/11/2002 2;quehol;z;2/10/2007 3;p;vcw;19/3/2003 4;auzh;cslpbu;31/7/2007 5;liud;psciwpf;17/8/1997


Le chier cible reprsente le mme chier que celui en source except que le sparateur n'est plus un point-virgule mais une simple virgule.

6.3.1.2 Rsultats
Nombre de lignes traites 100 000 500 000 1 000 000

TOS PDI Clover Jitterbit


3 12 23 4 18 36 1 6 11 11 42 83

Temps (en secondes)

Figure 6.2  Diagramme Comparatif : Fichier CSV vers autre chier CSV

Tests chier vers chier 6.3.1.3 Analyse

43

L'ETL Apatar n'apparat pas sur cette opration. Le test a pourtant bien t eectu, cependant les temps de traitement se sont avrs beaucoup trop longs (prs de 30 minutes pour 100 000 lignes !). On peut remarquer qu'avec cet test trs simple, Jitterbit est assez lent compar aux autres ETL. Ceci est principalement d au fait que les oprations soient traites comme si elles taient sur un serveur distant mme si celles-ci sont en local.

Tests chier vers chier

44

6.3.2 Fichier CSV vers XML


6.3.2.1 Prsentation
Ce test consiste alimenter un chier XML regions.xml partir d'un chier CSV regions.csv. Le chier source comporte 3 champs spars par un point-virgule : un code postal, une ville et un dpartement. Il a t gnr partir de code Java. Voici un exemple de cinq lignes reprsentant cinq codes postaux dirents, deux villes mais un seul dpartement :

85580;afzfgarajro;mf 85590;afzfgarajro;mf 85600;dxprkd;mf 85610;dxprkd;mf 85620;dxprkd;mf


Le chier cible en XML est gnr selon le format de l'exemple suivant :

<root> ... <localite> <CodePostal>85600</CodePostal> <Ville>dxprkd</Ville> <Departement>mf</Departement> </localite> ... </root>

6.3.2.2 Rsultats
Nombre de lignes traites 100 000 500 000 1 000 000

TOS PDI Clover


2 9 18 3 14 29 2 9 18

Temps (en secondes)

Tests chier vers chier

45

Figure 6.3  Diagramme Comparatif : Fichier CSV vers chier XML


6.3.2.3 Analyse
Jitterbit et Apatar ne sont pas sur ce test. Leurs temps de traitement est, l aussi, trop long. Pour 100 000 lignes, Jitterbit met prs de 20 minutes et 25 minutes pour Apatar. Pentaho Data Integration est 50% plus lent que ses deux concurrents.

Tests chier vers base de donnes

46

6.4 Tests chier vers base de donnes


6.4.1 Fichier CSV vers base MySQL
6.4.1.1 Prsentation
Ce test consiste alimenter une table MySQL Clients partir du chier CSV prsent prcdemment. La table cible est la table Clients reprsente par le schma vu en introduction de ce chapitre.

6.4.1.2 Rsultats
Nombre de lignes traites 100 000 500 000 1 000 000

TOS PDI Clover Jitterbit


29 141 282 28 138 278 32 149 301 88 422 900

Temps (en secondes)

Figure 6.4  Diagramme Comparatif : Fichier CSV vers base MySQL


6.4.1.3 Analyse
Ici non plus, Apatar n'apparat pas. Les temps sont encore trop longs (30 minutes pour 100 000 lignes). En dehors de ce dernier et de Jitterbit, les ETL ont sensiblement les mmes performances pour cette opration avec MySQL. Cet SGBD ore donc des rsultats moyens sur TOS, PDI et Clover compar aux autres ETL.

Tests chier vers base de donnes

47

6.4.2 Fichier CSV vers base SQL Server Express 2005


6.4.2.1 Prsentation
Ce test est similaire au test prcdent except que la base cible est sous SQL Server Express Edition 2005. Le driver JDBC utilis est JTDS. Ce n'est pas l'ociel utilis par Microsoft mais un pilote Open Source. C'est celui implment par dfaut dans Talend Open Studio et Pentaho Data Integration. Il est aussi plus rapide que le driver ociel Microsoft (Ce pilote est d'ailleurs jug comme tant le plus rapide pour SQL Server ou Sybase).

6.4.2.2 Rsultats
Nombre de lignes traites 100 000 500 000 1 000 000

TOS PDI Clover


30 148 295 12 56 112 29 142 283

Temps (en secondes)

Figure 6.5  Diagramme Comparatif : Fichier CSV vers base SQL Server Express 2005
6.4.2.3 Analyse
L encore, Jitterbit et Apatar ont des temps de traitements plus levs. On remarque une grosse amlioration des performances pour Pentaho Data Integration qui est beaucoup plus rapide travailler sous une base SQL Server. Cet SGBD ore donc de trs bons rsultats avec PDI ainsi que des performances moyennes avec TOS et Clover.

Tests chier vers base de donnes

48

6.4.3 Fichier CSV vers base Oracle Express 10g


6.4.3.1 Prsentation
On utilise le mme test avec un SGBD dirent. Ici, on teste les performances des ETL avec Oracle XE. Le driver JDBC utilis pour les trois ETL est celui d'Oracle : Thin.

6.4.3.2 Rsultats
Nombre de lignes traites 100 000 500 000 1 000 000

TOS PDI Clover


54 270 503 19 87 173 53 257 517

Temps (en secondes)

Figure 6.6  Diagramme Comparatif : Fichier CSV vers base Oracle XE 10g
6.4.3.3 Analyse
L encore, Jitterbit et Apatar ont des temps de traitements plus levs (plus de 7 minutes pour traiter seulement 100 000 lignes avec Jitterbit et des temps encore plus longs sous Apatar). On peut nouveau observer un net avantage de Pentaho Data Integration face Talend et Clover qui subissent une baisse de performances vis vis de MySQL ou SQL Server Express. Oracle Express 10g ore donc de bonnes performances avec PDI mais de mauvaises avec TOS et Clover

Tests chier vers base de donnes

49

6.4.4 Fichier CSV vers base PostgreSQL


6.4.4.1 Prsentation
Ici on assiste au mme test sur PostgreSQL avec le pilote JDBC classique.

6.4.4.2 Rsultats
Nombre de lignes traites 100 000 500 000 1 000 000

TOS PDI Clover


34 168 330 19 89 180 34 168 338

Temps (en secondes)

Figure 6.7  Diagramme Comparatif : Fichier CSV vers base PostgreSQL


6.4.4.3 Analyse
Les temps des deux autres ETL sont encore trop levs mme s'ils sont un peu plus performants qu'avec les autres bases (Jitterbit est environ cinq fois plus lent que PDI). Une fois de plus, l'avantage va Pentaho Data Integration qui a de bons rsultats avec PostgreSQL. Clover et TOS ont des performances moyennes avec cet SGBD.

Tests chier vers base de donnes

50

6.4.5 Fichier CSV vers base FireBird


6.4.5.1 Prsentation
Ici on utilise le mme test avec FireBird. Le driver JDBC utilis est JayBird 2.1, le plus rpandu.

6.4.5.2 Rsultats
Nombre de lignes traites 100 000 500 000 1 000 000

TOS PDI Clover


40 195 382 45 224 447 40 199 403

Temps (en secondes)

Figure 6.8  Diagramme Comparatif : Fichier CSV vers base FireBird


6.4.5.3 Analyse
Les temps de traitements des trois ETL sont similaires. On remarque cependant que Pentaho Data Integration est moins performant avec FireBird. Cet SGBD ore donc des performances trs moyennes voir mauvaises pour les 3 ETL.

Tests chier vers base de donnes

51

6.4.6 Fichier CSV vers base Access 2003


6.4.6.1 Prsentation
Enn, Access et le driver Microsoft ODBC sont utiliss dans ce test.

6.4.6.2 Rsultats
Nombre de lignes traites 10 000 50 000 100 000

TOS
12 214 800

Temps (en secondes)

PDI
13 68 124

Figure 6.9  Diagramme Comparatif : Fichier CSV vers base Access 2003
6.4.6.3 Analyse
Seuls Talend et Pentaho ont t tests, Clover ne supportant pas les metadonnes d'Access. On remarque que, les temps de traitements de Talend croissent exponentiellement selon la quantit de donnes crire dans la table. Attention, le nombre de donnes crites est dix fois moins lev qu'avec les autres bases dans la mesure o Access se montre trop lent avec une trop grande quantit de donnes en criture.

Tests chier vers base de donnes

52

6.4.7 Fichier XML vers base MySQL


6.4.7.1 Prsentation
Ce test consiste alimenter la table Regions d'une base MySQL via le chier XML gnr auparavant. Le format de la table Regions a t prsent prcdemment

6.4.7.2 Rsultats
Nombre d'enregistrements traits 10 000 50 000 100 000

TOS PDI
12 177 724 23 680 1771

(avec SAX) 3 14 28

PDI

Temps (en secondes) 3 13 25

Clover Jitterbit Apatar


5 24 47 330

Figure 6.10  Diagramme Comparatif : Fichier XML vers base MySQL


6.4.7.3 Analyse
Nous pouvons observer de fortes dirences entre les dirents ETL. Ces carts sont dus la mthode de parsing des chiers XML. Talend utilise deux moyens pour parser les chiers XML : Xerces et Dom4j. Dom4j est le plus rapide des deux mais, comme son nom l'indique, il repose sur le parseur DOM. Ce dernier est mal adapt sur les chiers de grandes tailles tant donn qu'il enregistre en mmoire toute la structure du chier XML sous forme d'arbre. Les temps de traitements croissent exponentiellement selon les tailles de chiers. L'avantage de DOM est qu'il est trs simple utiliser, coupl l'interface de Talend Open Studio ce test a t facilement implment. Sous Xerces, les temps de traitements sont encore plus longs Pentaho Data Integration, lui, laisse le choix entre l'utilisation de DOM ou SAX. Ce dernier est mieux adapt aux chiers de grandes tailles tant donn qu'il parse au fur et

Tests chier vers base de donnes

53

mesure qu'il reoit les donnes, il stocke donc trs peu d'informations en mmoire. Nous pouvons alors observer des grandes dirences de performances. SAX est cependant plus dicile utiliser sous Pentaho. Clover et Jitterbit, eux, utilisent aussi SAX. Quant Apatar la mthode de parsing est inconnue et les temps de traitement sont toujours trs longs. C'est pour cette raison que tous les tests n'ont pas t eectus sous cet ETL.

NB : La version 2.4 de Talend Open Studio comprend un composant grant les ux SAX

Scnarios

54

6.5 Scnarios
6.5.1 Test 1 - Fichiers CSV avec transformations de dates
6.5.1.1 Prsentation
Ce test consiste rcuprer des entiers, se trouvant dans un chier CSV reprsentant des dates, pour alimenter un autre chier CSV et assembler ces dirents nombres pour en faire une vritable date. Le chier source est constitu de quatre champs : un identiant, un jour, un mois et une anne. Voici un extrait de cinq lignes :

93260;3;6;1963 93261;16;6;1963 93262;17;6;1963 93263;4;6;1963 93264;9;6;1963


Le chier cible comprend un seul champ au format date (reprsent sous Talend comme sous Pentaho par un type Date et non un type String ). Voici un extrait de cinq lignes :

01-09-2008 19-09-2008 21-09-2008 30-09-2008 24-09-2008


noter aussi que les dates en doublons sont limines, ce qui a permis de supprimer un quart des enregistrements.

6.5.1.2 Modlisations

Figure 6.11  Test 1 - Modlisation sous Talend Open Studio

Scnarios

55

Figure 6.12  Test 1 - Modlisation sous Pentaho Data Integration


6.5.1.3 Rsultats
Nombre de lignes traites 100 000 500 000 1 000 000 Temps (en secondes) 3 17 37

TOS

PDI
7 35 76

Figure 6.13  Diagramme Comparatif : Fichiers CSV avec transformations de dates


6.5.1.4 Analyse
Talend s'avre plus performant que Pentaho. Avant de supprimer les doublons, PDI exige que les lignes soient tries, ce qui priori, prend du temps. Le ddoublonnage a permis de supprimer un quart des enregistrements mais, ce n'est pas cette tape, ni celle

Scnarios

56

du tri qui rend PDI plus lent puisque si l'on supprime celles-ci on ne constate aucun gain de performance. Par consquent, c'est la partie JavaScript qui ralentit Pentaho et le pnalise par rapport Talend qui, lui, utilise son composant tMap trs performant. Il faut essayer d'utiliser au minimum l'tape Javascript dans Pentaho Data Integration.

Scnarios

57

6.5.2 Test 2 - Direntes tables avec ltrage


6.5.2.1 Prsentation
Ce test consiste alimenter un chier CSV en ne gardant que les clients qui ont eectu au moins une commande dans les annes 1990. Pour cela, il faut pouvoir rechercher dans trois tables : les tables Clients et Temps bien videmment, mais aussi la table Faits qui fait le lien entre les deux.

6.5.2.2 Modlisations

Figure 6.14  Test 2 - Modlisation sous Talend Open Studio

Figure 6.15  Test 2 - Modlisation sous Pentaho Data Integration

Scnarios 6.5.2.3 Rsultats


SGBD utilis MySQL Oracle XE SQL Server 2005 XE PostgreSQL FireBird Access

58

TOS
45 42 10 14 23 15

Temps (en secondes)

PDI
42 40 26 22 35 23

Figure 6.16  Diagramme Comparatif : Jointures de tables avec ltrage


6.5.2.4 Analyse
Les deux bases les plus lentes pour cette opration sont MySQL et Oracle XE. Talend s'avre globalement plus rapide que son rival. noter que cette opration ne fait que lire et n'crit pas une seule donne dans les bases contrairement aux premiers tests.

Scnarios

59

6.5.3 Test 3 - Direntes tables avec calcul et agrgation


6.5.3.1 Prsentation
Ce test consiste alimenter une table TotalClients reprsentant les clients avec le cot total des produits achets. Cette table possde quatre champs : l'identiant du client, son nom, son prenom et le total de ses achats (un rel pouvant atteindre 6 chires avant la virgule et 2 chires aprs). Pour eectuer cette opration il sut de joindre la table Clients (pour rcuprer le nom et prnom) la table Faits (pour rcuprer le prix et la quantit). Ensuite, il faut multiplier, pour chaque enregistrement de la table Faits, le prix par la quantit puis de faire la somme des totaux de chaque client. Les rsultats sont, pour nir, insrs dans la table TotalClients.

6.5.3.2 Modlisations

Figure 6.17  Test 3 - Modlisation sous Talend Open Studio

Figure 6.18  Test 3 - Modlisation sous Pentaho Data Integration

Scnarios 6.5.3.3 Rsultats


SGBD utilis MySQL Oracle XE SQL Server 2005 XE PostgreSQL FireBird Access

60

TOS
79 73 60 83 51 795

Temps (en secondes)

PDI
72 48 25 43 71 144

Figure 6.19  Diagramme Comparatif : Jointures de tables avec agrgation


6.5.3.4 Analyse
Access n'est pas reprsent sous le diagramme du fait des temps de traitements trs longs sous Talend Open Studio. Cela conrme le test simple eectu prcdemment avec Access. La cause de la lenteur de cet SGBD n'est pas dans la lecture des donnes ( ce niveau l, il rivalise presque avec les autres SGBD), mais l'criture qui se fait trs lentement. On remarque que PDI s'avre globalement plus performant que TOS. Seul le SGBD FireBird permet Talend Open Studio de battre Pentaho Data Integration. Les temps sont tonnamment rapides avec cet SGBD sous l'ETL TOS, alors que, dans les autres tests FireBird s'avre plus lent. L aussi, cela conrme le test simple eectu prcdemment qui montre que FireBird est plus performant sous TOS que sous PDI.

Chapitre 7 Bilan
7.1 Quel ETL choisir ?
Les solutions ETL Open source n'ont pas rougir face aux ETL propritaires. Leurs utilisateurs et le nombre d'applications dployes s'accroissent de mois en mois. Nombre d'experts parient que, dans maximum 4 ans, ce seront les ETL propritaires qui auront s'aligner sur les Open Source du fait de la qualit des produits, de la rcession conomique, de l'ampleur de l'activit de la communaut. Cependant, l'Open Source a encore trs mauvaise rputation chez les entreprises. C'est force de coups marketing et de sminaires comme font Talend et Pentaho, que les socits pourront prendre conance en l'Open Source. Le choix d'un ETL Open Source, est donc un choix judicieux qui permet de limiter les cots et les risques lis un projet. Reste ensuite savoir quel ETL choisir. Parmi les dix ETL tudis, seuls quatre peuvent tre utilisables en entreprise : Talend Open Studio, Pentaho Data Integration, Clover.ETL et Jitterbit. Parmi ces quatre solutions, Talend Open Studio et Pentaho Data Integration ont une nette avance qui permet de rivaliser avec les ETL commerciaux du fait de leurs qualits, de leurs compatibilits et de leurs performances. Un avantage non ngligeable de ces ETL, c'est que leur deux concepteurs principaux (Cdric Carbone pour Talend Open Studio et Matt Casters pour Pentaho Data Integration) sont trs souvent disponibles sur les forums (notamment ceux de Developpez.com) et rpondent en franais d'une manire trs prcise des questions techniques ou non. Il est trs dicile de dpartager ces deux ETL qui se compltent d'avantage qu'ils ne sont concurrents. On peut d'ailleurs se demander s'il existe de la concurrence dans le domaine de l'Open Source. Le choix de l'ETL, dpend donc de la nature du projet mais aussi, des prfrences des dveloppeurs tant ces deux ETL sont dirents d'utilisation.

7.2 Pourquoi choisir TOS et non PDI


Talend Open Studio, mme s'il est plus rcent que Pentaho Data Integration, possde une plus grande communaut franaise. Talend est une socit, notamment base en France, qui eectue de nombreux sminaires achant toujours complet et suscitant un trs grand engouement de la part de la communaut BI. Son interface graphique peut aussi sembler plus intuitive aux habitus d'Eclipse. Talend Open Studio reprend son ergonomie, prouve et apprcie par de nombreux utili-

Pourquoi choisir PDI et non TOS

62

sateurs, mme si celle-ci l'empche d'tre aussi ractive que celle de Pentaho Data Integration. L'Ecosystem de Talend Open Studio regroupe tous les composants dvelopps par des utilisateurs externes pour complter la palette de composants initiale. Actuellement, il met disposition prs de 50 composants allant de la gestion des chiers PDF la possibilit d'envoyer des SMS. Le fait que Talend soit un gnrateur de code, permet de lancer les traitements partir de n'importe quel poste possdant une machine virtuelle Java 1.5 ou suprieur. Les traitements peuvent alors tre lancs via le planicateur de tches Windows. TOS permet aussi d'utiliser soit Java soit Perl et de crer des routines personnalises trs rapidement. La gestion des contextes permet de passer d'un environnement de dveloppement un autre de test, puis la production. Il est aussi possible de personnaliser ces contextes. Talend Open Studio permet galement la gestion des versions des chiers et de gnrer de la documentation. Un rfrentiel de metadonnes trs complet permet de rutiliser des schmas de chiers, de connections, de Web services et autres et ainsi gagner beaucoup de temps. Pentaho Data Integration ne gre pas les metadonnes mais permet facilement de rcuprer les schmas des chiers en les scannant. Le Business Modeler permet de reprsenter et de modliser l'environnement haut niveau. Il peut tre utilis par les personnes s'occupant uniquement de l'aspect Business et ne s'y connaissant pas forcment en dveloppement. Ils modliseront les schmas gnraux sur ce Business Modeler et ces derniers pourront permettre de guider les dveloppeurs dans leurs travaux. Talend Open Studio gre de nombreux connecteurs applicatifs alors que Pentaho Data Integration n'implmente que SAP (qui n'est cependant pas gr par TOS) De nombreux outils pour corriger des erreurs, de vrier les statistiques, les logs et de commenter les dveloppements et d'ajouter de la documentation sont mis disposition par Talend Open Studio. La socit Talend n'a pas dvelopp de plateforme BI mais, du fait de nombreux partenariats, a intgr son ETL dans SpagoBI et JasperServer. Ces plateformes servent mettre en relation dirents composants pour eectuer des rapports, des tableaux de bords, de planier les excutions de Talend Open Studio, etc. Enn, Talend utilise aussi un mode ELT avec quelques bases de donnes (MySQL, Oracle et Teradata) pour partager les traitements entre la JVM et le SGBD et donc optimiser les performances.

7.3 Pourquoi choisir PDI et non TOS


Pentaho Data Integration ore la possibilit de lancer un traitement sur un serveur distance pour peu qu'il dispose de Pentaho Data Integration et d'un petit logiciel du nom de Carte.

Pourquoi choisir PDI et non TOS

63

La possibilit d'excuter les traitements en grappe sur des serveurs distants, permet de ne pas surcharger un seul serveur mais de rpartir la charge de travail pour de meilleures performances. Pentaho Data Integration met un rfrentiel commun disposition. Ce dernier repose sur une base de donnes au choix et permet ainsi d'accder aux traitements pralablement dvelopps partir de n'importe quel poste ayant accs cette base. Ce rfrentiel permet aussi de grer des utilisateurs et de leur attribuer des prols. TOS ne met disposition cette option que dans sa suite payante (Talend Integration Suite). Pentaho Data Integration fait partie de la suite dcisionnelle Pentaho trs rpute et trs utilise parmi les solutions OSBI (Open Source Businness Intelligence). PDI s'intgre ainsi facilement cette suite dcisionnelle pour eectuer du reporting, des analyses, du data mining, des tableaux de bords, de planier les excutions de Pentaho Data Integration, etc. Pentaho Data Integration est entirement gratuit et ne possde aucune option supplmentaire payante, contrairement Talend Open Studio.

Chapitre 8 tude approfondie de TOS et de PDI


8.1 Talend Open Studio
8.1.1 tude des composants
Lors des tests de performances, Talend Open Studio et Pentaho Data Integration achaient, bien que direntes pour certains tests, des rsultats assez proches globalement. Pouvoir les comparer sur leurs fonctionnalits tait jug plus pertinent. L'ide a donc t de regarder un un, chaque composant de Talend Open Studio pour savoir quoi il servait, dans quel contexte il pouvait tre utilis et comment l'utiliser. Toute cette tude a t retransmise par crit dans un guide des composants de prs de 50 pages. Il reprsente la synthse d'un long travail de recherche car cet ETL possde environ 250 composants Java. Ceux de Perl, moins nombreux, sont aussi quelque peu dirents. L'tude s'est faite en Java dans la mesure o ce langage est plus utilis et, les possibilits sur cet ETL sont plus vastes qu'avec Perl. Il faut savoir que les guides ociels de Talend (un guide des composants de 600 pages et un autre plus gnral de 200 pages), ne traitent pas de tous les composants, sont anglais et manquent souvent de clart. C'est dans l'optique de corriger ces erreurs que ce guide a t rdig. D'autant plus, qu'il est plus facile et rapide de lire 50 pages que 600. Voici un tableau montrant les nombres et les rsums des composants regroups par type :

Talend Open Studio


Type Business Intelligence Groupe Charts DB SCD Jasper OLAP Cube CentricCRM Microsoft AX Salesforce SugarCRM VtigerCRM Nb 1 10 2 2 2 2 2 2 2 7 6 AS400 Access DB Generic DB JDBC DB2 FireBird HSQLDb Informix Ingres Interbase JavaDB LDAP MS SQL Server Max DB MySQL Oracle PostgreSQL PostgrePlus SQLite Sybase Teradata Vertica 6 3 3 7 8 3 3 3 4 6 3 2 11 3 13 12 10 10 6 11 11 6 2

65
Description Crer des graphiques Grer les dimensions volution lente Crer des rapports via JasperReport Grer OLAP via Mondrian ou Palo Connexion au CRM CentricCRM Connexion l'ERP Microsoft AX Connexion au CRM Salesforce Connexion au CRM SugarCRM Connexion au CRM VtigerCRM Ajouter du code Java ou Groovy et modier des variables globales Comparer des ux et obtenir des donnes de qualit Gestion du SGBD AS400 Gestion du SGBD Access Gestion d'une base utilisant ODBC Gestion d'une base utilisant JDBC Gestion du SGBD DB2 Gestion du SGBD FireBird Gestion du SGBD HSQLDb Gestion du SGBD Informix Gestion du SGBD Ingres Gestion du SGBD Interbase Gestion du SGBD JavaDB Gestion du SGBD LDAP Gestion du SGBD MS SQL Server Gestion du SGBD Max DB Gestion du SGBD MySQL Gestion du SGBD Oracle Gestion du SGBD PostgreSQL Gestion du SGBD PostgrePlus Gestion du SGBD SQLite Gestion du SGBD Sybase Gestion du SGBD Teradata Gestion du SGBD Vertica fonctions indpendantes du SGBD

Business

Custom Code Data Quality

Databases

Pentaho Data Integration


Type ELT File Internet Logs & Errors Misc Orchestration Processing System XML Fields Groupe MySQL Oracle Teradata Input Management Output FTP Nb 6 3 8 9 11 9 4 15 11 7 14 7 10 4 7 Description Utiliser le mode ELT avec MySQL Utiliser le mode ELT avec Oracle Utiliser le mode ELT avec Teradata Utiliser chier en source Grer les chiers Utiliser chier en cible Grer des chiers via FTP Grer Web Services, Mail, RSS, etc. Crer des logs, des statistiques, mesurer des ux, chronomtrer, etc. Divers composants

66

Orchestrer les Jobs : crer des boucles, parallliser, itrer, attendre, unier, etc. Traiter les champs (normalisation, etc.) Nombreux traitements (calculs, ltres, etc.) Lancer un Job, appeler des commandes systme, etc. Gestion des chiers XML (DTD, XSL, XSD)

8.1.2 Intgration un projet


Un des buts du stage eectu est de pouvoir utiliser un ETL Open Source dans un projet BI. Il a donc t jug important, d'tudier toutes les capacits de Talend Open Studio pour pouvoir en proter pleinement dans un projet. L encore, un rapport a t rdig montrant les dirents avantages utiliser cet ETL et, comment en tirer parti lors de l'laboration d'un projet. Ce rapport fait une quinzaine de pages et explique, dans un premier temps, le fonctionnement gnral et les principales caractristiques. Ensuite, il montre ce qu'ore Talend Open Studio en rponse aux problmes poss par un rel projet BI (Planication, administration, documentation, correction d'erreurs, travail collaboratif, optimisation, etc.). De plus, ce document prsente un petit guide pour bien paramtrer le logiciel an qu'il soit prt l'emploi. Enn, l'utilisation des contextes, un lment important de Talend Open Studio, est explique. En conclusion, il montre brivement les autres outils qu'ore la socit Talend et qui peuvent tre utiliss dans un projet BI.

8.2 Pentaho Data Integration


8.2.1 tude des composants
Aprs avoir rdig le guide de Talend Open Studio, il a t naturel de faire celui de Pentaho Data Integration. Il reprend donc les mmes principes : une tude de chaque composant pour analyser les fonctionnalits de cet ETL. Voici un tableau rcapitulatif de tous les composants de Pentaho Data Integration :

Pentaho Data Integration

67

Type Extraction Alimentation Recherche Transformation Jointure ligne Excution de scripts Entrept de donnes Soustransformation Lien avec Tche En ligne Exprimental tapes obsoltes

Nb 21 11 9 29 5 3 2 3 6 3 4 1

TRANSFORMATIONS Description Extraction de donnes sources : chiers CSV, XML, Excel, Bases de donnes, Access, LDAP, Mondrian, gnration de valeurs, etc. Alimentation de donnes cibles : chiers CSV, XML, Excel, Bases de donnes, Access, supprimer / insrer / mettre jour une table, etc. Recherche dans ux / base de donnes, appel procdure stocke / service web, vrication existence colonne / chier / table, jointure de bases de donnes, etc. Etapes de transformation : agrgation, calcul, ltrage, transformation, tri, normalisation, etc. Comparaison de lignes, produit cartsien, jointure XML, etc. Excution de scripts SQL, Java ou valuation par expression rgulire Donnes relatives aux datas warehouses : dimensions volution lente et "junk dimensions" Excuter une sous-transformation, spcier ses entres et ses sorties Etapes de transformation qui ont un lien avec les tapes de Jobs : crer ou rcuprer des variables, copier les lignes vers le rsultats, etc. Lire ou crire sur un socket et injecter un ux de donnes via du code Java Composants en cours de dveloppement Composants qui ont t remplacs par d'autres

Pentaho Data Integration


JOBS (TACHES) Description Composants gnraux : lancer un Job, excuter une transformation / un Job, crire dans la trace, ping, etc. Rcupration et envoi d'emails

68

Type Gnral Manipulation de Courriels Gestion de chiers valuation Excution de scripts Chargement Bulk XML Transfert de chiers (FTP) Rfrentiel

Nb 10 2 16 6 3 3 4 7 2

Composants grant les chiers : crer, supprimer, comparer chiers / rpertoires, compresser /dcompresser une archive Temporiser le Job, Vrier l'existence de chiers / table / colonnes etc. valuer via JavaScript, crer un script SQL ou une commande Shell Charger des donnes en bloc avec MySQL ou MS SQL Server Gestion des chiers XML (DTD, XSL, XSD) Envoi et rcupration de chiers via FTP, SFTP, SSH2 Vrie la connexion au rfrentiel et exporte le rfrentiel vers un chier XML

8.2.2 Intgration un projet


L encore, un guide d'une quinzaine de page a t rdig dans la mme optique que celui de Talend Open Studio. Ce guide explique aussi comment lancer des excutions en grappes et distance.

Chapitre 9 tudes annexes eectues


9.1 tude sur les SGBD gratuits / Open Source
Le sujet du stage prcise qu'en parallle de l'tude sur les ETL, une note de synthse pourra tre rdige sur une comparaison cible des moteurs de base de donnes Open source. Un rapport d'une quinzaine de pages a donc t ralis en conclusion de cette tude. La mthodologie suivie a t globalement la mme que celle pour les ETL, en moins complexe cependant car, le temps allou pour cette recherche n'a t que d'une semaine. Aprs une phase de recherche globale sur les SGBD Open Source, quatre bases ont t retenues : MySQL, PostgreSQL, FireBird et Ingres. De plus, Oracle et Microsoft proposent depuis peu des versions gratuites de leurs SGBD phares, il a t jug intressant de voir ce que ces versions pouvaient orir. L'tude des SGBD peut s'avrer tre un domaine trs complexe dans la mesure o il englobe de nombreux outils et critres (clustering, administration, scurit, mirroring, moteurs, normes, etc.). C'est pour cela que ce rapport se contente de dcrire les caractristiques des bases, leurs avantages et leurs inconvnients. En conclusion, une synthse a t rdige pour aider l'utilisateur choisir son SGBD selon le type de projet. Le domaine des ETL tant intimement li celui des bases de donnes, les tests de performances ont t eectus sur les direntes bases. Ceci permet de savoir que telle base est plus performante qu'une autre avec tel ETL. De plus, les ETL orent des fonctionnalits sur certains SGBD uniquement. Voici donc, un tableau rsumant les caractristiques de ces bases selon les ETL Talend Open Studio et Pentaho Data Integration. Fonctionnalit Dimensions volution lente Chargement en bloc des donnes Mode ELT Procdures stockes
Connection / Commit / Rollback

ETL TOS PDI TOS PDI TOS PDI TOS PDI TOS PDI

MySQL

PostgreSQL

Ingres

FireBird

Oracle

SQLServer

OUI OUI OUI OUI OUI OUI OUI en cours OUI NON NON NON OUI NON OUI OUI OUI OUI NON NON

OUI OUI NON NON NON NON NON OUI NON NON

NON OUI OUI OUI OUI OUI NON OUI OUI NON en cours en cours NON OUI NON NON NON NON NON OUI OUI OUI OUI OUI NON OUI OUI NON NON NON

Utilisation d'un ETL propritaire dans un vritable projet

70

9.2 Utilisation d'un ETL propritaire dans un vritable projet


Pendant les cinq mois de stage, l'occasion m'a t oerte d'intervenir sur un rel projet BI. Celui-ci, qui a dbut il y a quelques annes, est destination du groupe Beaumanoir. Cette socit englobe plusieurs enseignes de magasins de vtements travers le monde (Cache-Cache, Bonobo, Patrice Bral, Scottage, etc.). Le projet, du nom de BOMAG, a pour but d'aider les utilisateurs grer les ventes et les stocks de vtements en leurs fournissant des rapports. Le systme rcupre les informations provenant d'interfaces PHP et des enseignes des magasins. Chaque enseigne dispose d'une base STORELAND contenant des centaines (voire des milliers) de tables. Ces bases sont sous Oracle pour la plus grande partie, mais aussi sur Access. Avec ces donnes sources, un ETL du nom de Sunopsis, permet d'alimenter un entrept de donnes. Cet ETL propritaire a t rachet par Oracle en 2006 et s'appelle dornavant Oracle Data Integration (ODI). Cet entrept de donnes est nomm "Infocentre" et est rcupr par une plateforme dcisionnelle : BO (Business Objects). Cette dernire (propritaire galement) a t dvelopp par SAP et est trs utilise dans le domaine BI. Seule la partie Reporting de BO a t mise prot dans ce projet. Le travail eectu sur ce projet a dur trois semaines an d'implmenter quelques demandes d'volution et corriger des anomalies autant sur Sunopsis que sur BO. Cela m'a beaucoup aid voir comment un ETL pouvait tre utilis dans un projet BI. J'ai aussi t dans la mesure de comparer un ETL propritaire aux ETL Open Source. Talend Open Studio et Pentaho Data Integration n'ont pas rougir en comparaison de Sunopsis. Ce dernier est en ralit un ELT et, est par consquent plus dicile d'accs. Il faut imprativement connatre le langage SQL pour utiliser ecacement l'outil. Il s'avre trs complet notamment en tout ce qui concerne l'administration, la planication et la topologie. Mme avec une tude sur les ETL, il m'a fallu quelques heures pour apprhender Sunopsis. Quant BO, il m'a permis d'utiliser un outil de reporting or, ce genre d'outil va souvent de pair avec les ETL.

Figure 9.1  Architecture de BOMAG

tude sur les plateformes OSBI

71

9.3 tude sur les plateformes OSBI


Le sigle OSBI signie Open Source Business Intelligence. Il regroupe donc tous les outils libres utiliss dans le dcisionnel. Une plateforme OSBI est un lment majeur d'un projet BI. C'est cette dernire qui va mettre en relation tous les composants dcisionnels tels que les ETL, les outils de Reporting, etc. Elle va permettre de grer plus prcisment ces outils et ce, de nombreuses faons : planication des traitements ETL, envoi de mails incluant des rapports, paramtrage de ceux-ci, gestion des prols, des connexions et de la scurit, mise disposition de rapports pour les utilisateurs, etc. Ces plateformes sont reprsentes par le portail de la gure 3.4 du rapport de stage. Elles sont le plus souvent accessibles via des serveurs Web (Tomcat et Jboss en tte) et gres par des portails ou des applications personnalises. Ce sont avec ces plateformes que les utilisateurs naux vont intragir. Bien que cette tude ne soit pas indique dans le sujet du stage, pouvoir comparer diverses plateformes Open Source s'est avr trs important. Il est en eet dicile de concevoir un projet dcisionnel sans celles-ci. Les critres retenir sont trs nombreux. Ici, les performances n'ont que peu d'importance, on se tournera alors vers les direntes compatibilits, fonctionnalits et aussi la facilit d'intgration et d'utilisation. Un rapport de plus de 20 pages a t rdig pour comparer les trois principales plateformes dcisionnelles Open Source actuelles : JasperServer, Pentaho BI Platform et SpagoBI. L'tude a dur deux semaines environ, certains lments tant trs diciles installer et tester. Le choix d'une de ces plateformes dpend fortement du projet mener mais aussi des autres composants choisis. tant donn qu'une plateforme n'est pas compatible avec n'importe quel composant, il est souhaitable d'en choisir une qui puisse tre utilise avec l'ETL et l'outil de reporting slectionns pour le projet. Reste savoir s'il faut choisir les composants en fonction de la plateforme ou alors l'inverse.

Figure 9.2  Capture d'cran de JasperServer

tude sur les plateformes OSBI

72

Figure 9.3  Capture d'cran de Pentaho BI Platform

Figure 9.4  Capture d'cran de SpagoBI

tude sur les outils de reporting Open Source

73

9.4 tude sur les outils de reporting Open Source


Les outils de Reporting sont parmi les composants les plus utiliss dans la Business Intelligence. Ils permettent de crer des rapports avec ou sans diagrammes montrant les tats de direntes branches d'une entreprise (tat des stock, des ventes, etc.). Ces rapports s'avrent souvent indispensables dans tout projet BI, bien qu'ils aient moins d'impact fonctionnel qu'un ETL. Ce sont ces rapports que les utilisateurs naux visualiseront sous dirents formats (PDF, HTML, Excel, etc.). Ils peuvent tre accessibles via une plateforme BI et bien videmment ils sont le plus souvent paramtrables (choix d'une priode ou d'un lieu prcis par exemple). Cette tude non plus n'tait pas, l'origine, indique dans le sujet de stage. Cependant, vouloir proposer une ore de Business Intelligence complte aux clients ncessite de choisir un bon outil de reporting. L encore, dans le monde Open Source le choix est vaste. L'tude s'est arrte sur les trois principaux outils que sont JasperReports, Pentaho Reporting et BIRT. Concrtement, un rapport est un chier XML suivant un certain schma et est gnr via une librairie Java (qui dpend de l'outil de reporting choisi). Cette dernire fera le lien entre le rapport et les connexions aux bases de donnes. Bien videmment, les outils de reporting proposent des interfaces graphiques pour gnrer automatiquement le chier XML. Pentaho Reporting et JasperReports ont une approche assez similaire. Le rapport est scind en plusieurs parties qui sont principalement : l'en-tte du rapport, l'en-tte des pages du rapport, le corps, le pied des pages et le pied du rapport. L'approche de BIRT, un projet de la communaut d'Eclipse, est plus simple en faisant un glisser-dposer de ses composants (tableaux, diagrammes, etc.) Aprs avoir dnit le design gnral du rapport, le dveloppeur cr des requtes SQL voire ajoute du code Java, des scripts JavaScript ou mme des requtes MDX (OLAP) et peut visualiser son rapport sous dirents formats. Cette tude a dur une semaine. Dirents tests et exemples de rapports ont t eectus sur ces trois outils. Un guide d'une quinzaine de pages a t rdig en conclusion de cette tude pour orienter le lecteur sur le choix d'un logiciel selon le projet mener.

tude sur les outils de reporting Open Source

74

Figure 9.5  Exemple de rapport cr avec JasperReports

Figure 9.6  Capture d'cran de JasperReports

Chapitre 10 Conclusion
S'il y a un point majeur retenir sur ce stage, ce sont tous les bnces qu'il a apport tant au niveau personnel qu'au niveau de l'entreprise. Il m'a tout d'abord permis d'apprendre de trs nombreux concepts et outils du monde de la BI. tant donn qu'il s'agit d'un stage d'tude, il a fallu chercher, collecter, analyser et retranscrire par soi mme de nombreuses informations tant sur les ETL, que sur les autres composants BI ou encore sur les concepts du dcisionnel. Il sut de voir la quantit d'informations, mises par crit, que j'ai pu rcolter tout au long de ces 5 mois. Un autre point positif du stage est que j'ai pu tudier en profondeur les deux ETL majeurs Open Source qui seront certainement utiliss dans un futur projet. Il me sera ainsi possible de proter au mieux de ces outils. L'autre grand bnciaire de ce stage est bien videmment l'entreprise Orange Business & Services. Elle en attendait beaucoup du stage tant donn que, suite cette tude, elle pourra acqurir de nouveaux clients et lancer de nombreux projets bass sur ces recherches. Il ne faut pas oublier les documents, pertinents, fournis avec ce stage dont des guides pour mieux utiliser les ETL et ainsi perdre moins temps sur l'intgration ou sur des questions d'ordre technique. L'intgration au projet BOMAG m'a permis de me rendre compte des problmes lis aux contraintes clients. J'ai t plusieurs fois amen tre en relation avec des clients pour corriger des problmes, demander des prcisions sur les spcications ou rendre compte des volutions apportes. Il a fallut notamment grer des contraintes de temps. Les demandes d'volutions devaient respecter un certain dlai de livraison alors que mon stage devait avancer, lui aussi, pour rendre compte rgulirement de mes avances au responsable de stage ou au directeur de projets. J'ai alors privilgi le dveloppement (et l'apprentissage) sur BOMAG et propos un plan dtaill de mes futurs tudes concernant le sujet du stage. Le projet BOMAG a ainsi pu voluer et les grandes lignes du stage ont pu se dessiner pour ensuite tre prsents lors de mes runions d'avancement. Pour nir, en plus de tous les bnces apports par le stage, j'ai aussi pu bien m'intgrer l'entreprise. Je suis rellement satisfait tant de l'ambiance que du travail propos et c'est pourquoi j'ai dcid de poursuivre mon exprience OBS.

Chapitre 11 Webographie
Voici les dirents sites Internet consults pour eectuer ce rapport :              Site Ociel d'Orange Business & Services IT&L@bs developpez.com pour ses forums et tutoriels Wikipedia pour de nombreuses informations en tout genre decideo pour des informations sur le dcisionnel DwFacile.com pour des informations sur les entrepts de donnes systemeETL pour de nombreuses informations thoriques sur les ETL, les entrepts de donnes et la modlisation dimensionnelle guidescomparatifs.com pour choisir des critres de comparaisons entre ETL Atol Conseils & Dveloppements pour des informations sur le dcisionnel Open Source et pour leur livre blanc concernant les ETL Open Source Blog d'Atol Conseils & Dveloppements pour des informations complmentaires Site ociel de Gartner pour le quadrant magique blog d'un chef de projet d'Atol CD concernant le dcisionnel Open Source blog de Matt Casters concepteur de Pentaho Data Integration blog de Cedric Carbone un des concepteurs de Talend Open Studio

Sans oublier les sites ociels des ETL :           Talend Pentaho Clover Jitterbit Apatar Open ESB avec ETLSE Enhydra Octopus KETL Scriptella Benetl

Chapitre 12 Annexes
12.1 Tableaux comparatifs des dix ETL
12.1.1 L'organisation, la communaut

Tableaux comparatifs des dix ETL

78

12.1.2 Informations gnrales et accessibilit

Tableaux comparatifs des dix ETL

79

12.1.3 Possibilits, Compatibilits

Tableaux comparatifs dtaills de cinq ETL

80

12.2 Tableaux comparatifs dtaills de cinq ETL


12.2.1 L'organisation, la communaut
Organisation Infrastructure Pays Nombre d'employs Nombre de tlchargements Nb partenaires rfrencs Activit des forums France EU, Chine + de 30 250 000 64

OUI

TOS

EU Belgique environ 50 15 000 par mois 83

OUI

PDI

Clover RpTchque non indiqu 8 000 par mois 2

NON

Jitterbit

OUI
EU

Apatar EU Bilorussie 12 20 000 9

OUI

non indiqu 62 000 13

Bonne

Bonne

Moyenne Moyenne Moyenne

12.2.2 Informations gnrales, accessibilit


Version Dernire version stable Date dernire version Date premire version TOS 2.4.1 11/07/08 21/09/06 PDI 3.0.4 26/06/08 2001 Clover 2.4.9 15/07/08 2004-2005 Jitterbit 1.3.2 22/02/08 2005 Apatar 1.1.12 15/07/08 07/05/07

Info gnrales Taille du logiciel ETL ou ELT Type outil Code de l'appli Logiciels ncessaires Nb composants Ajout, customisation de composants Intgration des suites dcisionnelles

TOS 200Mo ETL et ELT gnrateur de code Java Java

PDI 80Mo ETL moteur de transformations Java Java

Clover 6Mo (sans l'interface) ETL moteur de transformations Java Java et Eclipse 60 (Java et XML)

Jitterbit 40Mo ETL moteur de transformations Java Java et

Apatar 35Mo ETL moteur de transformations Java Java

Jaspersoft, SpagoBI

(Java ou Perl)

OUI

309

(Java)

OUI

150

PostgreSQL

OUI

(Java)

OUI

40

Pentaho (Intgrale)

aucune

aucune

aucune

Tableaux comparatifs dtaills de cinq ETL


Accessibilit Langue logiciel Langue doc Langue site web Interface graphique Licence

81 Anglais Anglais Anglais OUI


propritaire Jitterbit

Anglais Franais Franais Franais Franais Anglais OUI OUI (Eclipse) (SWT)
GPL LGPL

TOS

PDI

mix LGPL commerciale

Anglais Anglais Anglais Payante (Eclipse)

Clover

Anglais Anglais Anglais OUI


mix GPL commerciale

Apatar

Cots Options payantes Support Technique professionnel Formations professionnelles Services professionnels

OUI OUI OUI OUI

TOS

NON OUI OUI OUI OUI OUI OUI NON

PDI

Clover

Jitterbit

NON OUI OUI OUI

Apatar

NON OUI OUI OUI

12.2.3 Fonctionnalits
12.2.3.1 Compatibilits
Plates-Formes Windows Linux MacOS

OUI OUI OUI OUI OUI OUI

TOS

PDI

Clover

OUI OUI OUI

Jitterbit

OUI OUI NON

Apatar

OUI OUI NON

Bases de Donnes Support JDBC Support ODBC Support JNDI

OUI OUI OUI OUI NON OUI

TOS

PDI

Clover

OUI OUI OUI

Jitterbit

OUI OUI NON

Apatar

OUI OUI NON

Tableaux comparatifs dtaills de cinq ETL


Fichiers plats Outil gnrateur de lignes Fichiers longueur xe Fichiers CSV Fichiers XML Flux XML (SAX) Arborescence XML (DOM) Validation XML via XSD Validation XML via DTD Transformation XML via XSL Fichiers Excel Fichiers LDIF Fichiers Shapele Fichiers xBase Fichiers properties Expressions rgulires Fichiers compresss

82 OUI OUI OUI OUI OUI OUI OUI OUI OUI OUI OUI OUI
PDI Clover

OUI OUI OUI OUI OUI OUI OUI OUI OUI OUI OUI via Spatial Data Integrator NON NON OUI OUI
TOS PDI

TOS

OUI OUI OUI OUI OUI NON NON NON NON OUI NON NON

Jitterbit

NON OUI OUI OUI OUI NON NON NON NON NON NON NON NON NON NON NON

Apatar

NON NON OUI OUI NON OUI NON NON NON OUI NON NON NON NON OUI NON

OUI NON OUI NON OUI NON OUI OUI


Clover

12.2.3.2 Lecture/criture de donnes SGBD


Lecture/criture SGBD Lecture de table Prvisualisation complte des tables Lecture de vue Prvisualisation complte des vues Ajout clause WHERE Ajout clause ORDER BY Lecture d'une requte Cration d'une requte
Designer graphique de requtes

OUI OUI OUI OUI OUI OUI OUI OUI OUI OUI OUI OUI OUI OUI

OUI OUI OUI OUI OUI OUI OUI NON OUI NON OUI NON OUI OUI OUI

OUI OUI

Jitterbit

100 enregistrements 100 enregistrements

OUI OUI OUI OUI

Apatar

OUI NON NON NON OUI OUI NON NON NON OUI NON OUI NON NON

Lecture de procdure stocke

Type simples de donnes Type complexes de donnes Gestion des messages d'erreur des SGBD Normalisation Dnormalisation

donnes gographiques

OUI OUI OUI NON OUI NON OUI NON OUI OUI OUI

NON OUI NON NON NON NON OUI NON NON NON NON

Tableaux comparatifs dtaills de cinq ETL 12.2.3.3 Transformations


Transformations Nombre de fonctions disponibles TOS plus de 70 en Java PDI plus de 60 Clover plus de 60 Jitterbit plus de 110 Apatar plus de 50

83

Fonctions de transformations de dates

Fonctions Statistiques de qualit de donnes Jointures htrognes Jointures internes Jointures externes Cls de substitution Utilisation de boucles Requtes imbriques Possibilit de coder facilement ses propres transformations

OUI (7 fct) OUI OUI OUI OUI OUI OUI OUI

OUI OUI OUI OUI (12 fct) (4 fct) (15 fct) (11 fct) NON NON NON NON OUI OUI OUI OUI
OUI

OUI (Java ou Perl)


TOS

passer par le SQL

OUI (Javascript)
PDI SAP

passer par le SQL

OUI OUI OUI NON NON NON

NON OUI NON NON NON NON NON

OUI OUI NON NON NON NON NON

12.2.3.4 Accs aux donnes


Accs aux donnes
Connecteurs applicatifs Web Services OLAP (Mondrian) LDAP FTP SFTP SSH2 HTTP HTTPS ux RSS Clover aucun Jitterbit
SAP, Siebel SugarCRM SalesForce

Apatar
SAP, Compiere ERP
SalesForce, Siebel SugarCRM, Amazon S3

CentricCRM, SalesForce SugarCRM, VTigerCRM Microsoft AX

OUI OUI OUI OUI OUI NON OUI OUI OUI

OUI payant OUI NON OUI OUI OUI OUI OUI OUI OUI NON OUI OUI OUI OUI NON NON

OUI NON OUI OUI OUI NON OUI OUI NON

NON NON NON OUI NON NON OUI NON OUI

Tableaux comparatifs dtaills de cinq ETL 12.2.3.5 Administration


Administration Rfrentiel commun Scurit du rfrentiel Console d'admin Suivi des donnes temps-rel Validation des tches avant excution Reprise sur incident Plannication des tratements Authentication

84

propritaire

OUI OUI (SGBD OUI (payant) au choix) (payant) payant OUI vrie seulement NON
via un tiers ou payant
scurit du SGBD choisi

TOS

PDI

Clover

Jitterbit

OUI

Apatar

NON NON NON NON NON OUI NON NON NON NON

propritaire

(PostgreSQL)

OUI NON

payant NON vrie seulement NON payant payant OUI NON NON
console

scurit de PostgreSQL

OUI NON OUI OUI OUI OUI NON NON NON

vrie seulement chier CSV et Excel


via la suite Pentaho

Gnration de logs

Gnration de graphiques d'excution Gnration de traces spciques Enregistrement des traces

OUI OUI

OUI OUI OUI

NON NON
console, chier, table

NON mais choix du dtail console, chier table

console, chier

console

12.2.3.6 Dclenchements des processus


Dclenchements des processus JMS SOAP MOM Corba POP

OUI OUI OUI NON OUI

TOS

NON OUI NON OUI NON NON NON NON OUI NON

PDI

Clover

Jitterbit

OUI OUI NON NON NON

Apatar

NON NON NON NON NON

Tableaux comparatifs dtaills de cinq ETL 12.2.3.7 Fonctionnalits spciques


Caractristiques spciques Drag'n'drop de composants Reprsentation graphique des ux Rfrentiel (metadonnes) Dimensions volution lente "Junk" Dimensions Variables locales Variables globales Rcupration/Envoi de mails Gnration de documentation Gestion des contextes d'excution Excution des tches sur un serveur distant

85

OUI OUI OUI types 1,2,3 NON OUI OUI OUI OUI OUI payant

TOS

OUI OUI OUI OUI OUI OUI types NON 1,2 OUI NON OUI NON OUI NON OUI NON NON NON NON NON OUI payant

PDI

Clover

Jitterbit

NON NON OUI NON NON OUI NON OUI NON NON OUI

Apatar

OUI OUI NON NON NON NON NON NON NON NON NON

Outils Outils Outils Outils Outils projet Outils

de debugging d'analyse d'impact de Versionning de gestion des phases d'un de travail collaboratif

OUI NON OUI OUI

TOS

OUI OUI NON NON

PDI

Clover

OUI NON OUI NON

Jitterbit

NON NON NON NON OUI

Apatar

NON NON NON NON NON

payant OUI payant

Optimisation Gestion du paralllisme Gestion du Load "Balancing" Mix ETL et ELT Modication cache/buer/index Excution par grappes des tches sur un serveur distant

OUI OUI payant payant manuel NON OUI NON NON OUI OUI NON payant OUI NON

TOS

PDI

Clover

Jitterbit

NON NON NON NON NON

Apatar

NON NON NON NON NON

You might also like