Professional Documents
Culture Documents
2007/2008
Encadrant : Tuteur :
Ralis par :
Florian FRANCHETEAU
6
8 8 8 9 9 9 10 10
3.2 3.3
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . de donnes classique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
12 12 12 12 13 14 14 14 15 16 16 16 17 18 18 19 19 19 20 21
19
22
22 22
2
23 23 24 24 25 28 31 33 36 38 38 38 39
5.2
5.3
6 Tests de performances
6.1 6.2 6.3 6.4
6.5
Mthodologie . . . . . . . . . . . . . . . . . . . . . . . . . Cas de Test . . . . . . . . . . . . . . . . . . . . . . . . . . Tests chier vers chier . . . . . . . . . . . . . . . . . . . . 6.3.1 Fichier CSV vers autre chier CSV . . . . . . . . . 6.3.2 Fichier CSV vers XML . . . . . . . . . . . . . . . . Tests chier vers base de donnes . . . . . . . . . . . . . . 6.4.1 Fichier CSV vers base MySQL . . . . . . . . . . . . 6.4.2 Fichier CSV vers base SQL Server Express 2005 . . 6.4.3 Fichier CSV vers base Oracle Express 10g . . . . . 6.4.4 Fichier CSV vers base PostgreSQL . . . . . . . . . 6.4.5 Fichier CSV vers base FireBird . . . . . . . . . . . 6.4.6 Fichier CSV vers base Access 2003 . . . . . . . . . 6.4.7 Fichier XML vers base MySQL . . . . . . . . . . . Scnarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.5.1 Test 1 - Fichiers CSV avec transformations de dates 6.5.2 Test 2 - Direntes tables avec ltrage . . . . . . . 6.5.3 Test 3 - Direntes tables avec calcul et agrgation
40
40 41 42 42 44 46 46 47 48 49 50 51 52 54 54 57 59 61 61 62
7 Bilan
7.1 7.2 7.3 8.1 8.2
Quel ETL choisir ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pourquoi choisir TOS et non PDI . . . . . . . . . . . . . . . . . . . . . . Pourquoi choisir PDI et non TOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
64
64 64 66 66 66 68
3 69
tude sur les SGBD gratuits / Open Source . . . . . . . . Utilisation d'un ETL propritaire dans un vritable projet tude sur les plateformes OSBI . . . . . . . . . . . . . . . tude sur les outils de reporting Open Source . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
69 70 71 73
75 76 77
77 77 78 79 80 80 80 81
Schma de la base de donnes tests . . . . . . . . . . . . . . . . . . . . . Diagramme Comparatif : Fichier CSV vers autre chier CSV . . . . . . . Diagramme Comparatif : Fichier CSV vers chier XML . . . . . . . . . . Diagramme Comparatif : Fichier CSV vers base MySQL . . . . . . . . . Diagramme Comparatif : Fichier CSV vers base SQL Server Express 2005 Diagramme Comparatif : Fichier CSV vers base Oracle XE 10g . . . . . . Diagramme Comparatif : Fichier CSV vers base PostgreSQL . . . . . . . Diagramme Comparatif : Fichier CSV vers base FireBird . . . . . . . . . Diagramme Comparatif : Fichier CSV vers base Access 2003 . . . . . . . Diagramme Comparatif : Fichier XML vers base MySQL . . . . . . . . . Test 1 - Modlisation sous Talend Open Studio . . . . . . . . . . . . . . Test 1 - Modlisation sous Pentaho Data Integration . . . . . . . . . . . Diagramme Comparatif : Fichiers CSV avec transformations de dates . . Test 2 - Modlisation sous Talend Open Studio . . . . . . . . . . . . . . Test 2 - Modlisation sous Pentaho Data Integration . . . . . . . . . . . Diagramme Comparatif : Jointures de tables avec ltrage . . . . . . . . . Test 3 - Modlisation sous Talend Open Studio . . . . . . . . . . . . . . Test 3 - Modlisation sous Pentaho Data Integration . . . . . . . . . . .
5
60 70 71 72 72 74 74
Chapitre 1 Introduction
Dans le cadre de notre cursus universitaire, en deuxime anne de Master Professionnel ALMA, nous avions eectuer un stage professionnel de cinq mois. Pour de nombreuses raisons, j'ai prfr suivre celui-ci Rennes. Ce stage se devait d'tre en lien troit avec notre cursus, c'est--dire qu'il devait nous permettre d'utiliser des principes, mthodes ou technologies tudis tout au long de notre formation an de pouvoir valider cette dernire. Aprs de nombreuses recherches (tant sur Internet que dans des salons tels que les salons du stage Rennes et Nantes) et plusieurs entretiens eectus en Bretagne, j'ai ni par choisir la socit Silicomp-AQL rcemment rachete par Orange Business & Services (OBS). J'ai trouv cette dernire trs agrable, bien situe, avec un excellent accueil. Le sujet du stage, quant lui, a pour nom "Etude des ETL Open Source". Ce stage, d'une dure de cinq mois, s'inscrit dans le domaine du dcisionnel (ou en anglais, Business Intelligence). Il est prcis que le stagiaire doit avoir une connaissance en SGBD (Systme de Gestion de Bases de Donnes). Le sigle ETL signie "Extract Transform Load". Ces outils extraient des donnes de sources htrognes, les transforment et alimentent direntes cibles, l aussi htrognes. Ils sont souvent utiliss pour rcuprer direntes informations an d'alimenter rgulirement des entrepts de donnes qui, eux, permettent une meilleure analyse de ces dernires. Dans un premier temps, le travail consiste recenser tous les outils ETL Open Source disponibles et d'en extraire de nombreux critres permettant de les direncier. Dans un second temps, le droulement du stage ncessite d'installer plusieurs de ces outils (ceux jugs les plus pertinents) pour pouvoir eectuer de nombreux tests an de retenir les plus performants. La branche d'OBS dans laquelle j'eectue mon stage souhaite se positionner de plus en plus du ct du dcisionnel. Ce stage a donc une grande importance leurs yeux et ils en attendent beaucoup. L'objectif nal de celui-ci est de fournir une note de synthse dcrivant les caractristiques, les avantages et les inconvnients des meilleurs ETL Open Source et de pouvoir choisir l'ETL le plus appropri pour un projet donn. Ceci leur permettra de rpondre des appels d'ores de nombreux clients ne souhaitant pas dbourser une fortune pour acqurir un ETL propritaire. Il est aussi indispensable, la n du stage, de pouvoir apporter les informations ncessaires an d'intgrer un ETL Open Source un projet dcisionnel et aussi de pouvoir proter au maximum des avantages de l'ETL choisi.
CHAPITRE 1. INTRODUCTION
Enn, il est prcis dans le sujet du stage, qu'en parallle des rsultats de l'analyse sur les ETL, un rapport comparant dirents SGBD Open Source pourra tre fourni (cette tude est judicieuse tant donn que les SGBD sont intimement lis aux ETL). Tout ceci an de pouvoir proposer aux clients une ore complte et Open Source si possible pour une raison vidente de cots. Cette tude permettra en dnitive qu'OBS puisse acqurir de nouveaux projets et conqurir de nouveaux clients. Nous allons donc tout d'abord nous attarder sur la socit OBS et son historique avec le rachat d'AQL puis de Silicomp. Nous pourrons ensuite dbuter notre tude sur les ETL Open Source en commenant bien videmment par comprendre les enjeux de la Business Intelligence.
AQL est n en octobre 1988 Rennes. Cette socit, dont les trois lettres signient Alliance Qualit Logiciel, a t cre par Stphane Mige. Comme son nom l'indique, le matre mot d'AQL est la qualit. Cette socit s'est spcialise en trois dpartements : l'EDI (change de Donnes Informatises), les rseaux et l'assurance qualit. L'ide de l'EDI est de pouvoir transmettre directement les documents informatiques (chose rare l'poque). Quant l'assurance qualit, c'est un ensemble de normes et de procdures suivre tout au long d'un projet, pour que celui-ci atteigne le niveau de qualit recherch. Le premier objectif d'AQL tait donc de jouer sur la performance pour pouvoir se dmarquer des autres SSII (Socit de Services en Ingnierie Informatique). Cette politique a rapidement port ses fruits, AQL a pu atteindre en l'espace de moins d'un an un eectif de 19 personnes (dont 15 ingnieurs) et de nombreux clients tels que Citron, TRANSPAC, OST, le CCETT et CELAR. Suite logique de leur orientation, AQL a t certi ISO 9001 en 1992. Cette norme spcie des exigences au niveau de la conception, du dveloppement, de la production, de l'installation et du service aprs-vente. Un logiciel dvelopp sous cette norme doit donc suivre toutes ces contraintes. En 2000, la socit Silicomp rachte AQL. En 2001, AQL est certi ISO 9001 :2000 (norme plus rcente, une nouvelle version est prvue pour 2008).
2.1.2 Silicomp
Silicomp, elle, a t cre en 1983 par Jean-Michel Gilner Grenoble. Silicomp a toujours voulu se direncier des classiques SSII et a donc adopt en 1994 le modle SSTI (Socit de Solutions en Technologies Informatiques). Ce modle a pour but d'apporter
une forte composante technologique dans les solutions proposes aux clients. Cela permet de perfectionner le marketing de l'ore par cet apport de direnciateur technologique et ainsi, de se dmarquer des classiques SSII. Cette orientation a pu orir une forte croissance Silicomp qui a ainsi acquis direntes socits (Gex Informatique en 1990, Qualience en 1999, Telecom Systems et AQL en 2000, AXEAN en 2001 et enn QConsulting en 2003). Silicomp a aussi ouvert de nombreux bureaux travers le monde : en 1994 Singapour et aux Etats-Unis, ils atteignent mme en 1998 la Silicon Valley, puis, par la suite, l'Inde et le Canada. En 2004, Silicomp et sa liale AQL fusionnent, ce qui cr Silicomp-AQL. L'orientation de Silicomp tourne autour de trois principaux domaines : la technologie de l'information (avec la tl numrique par exemple), les rseaux (explosion des rseaux haut dbit) ainsi que la R&D (Recherche et Dveloppement). Alors que Silicomp atteint 1200 employs, elle se fait racheter par France Tlcom le 4 janvier 2007. Le nom de Silicomp devient, en 2008, Orange Business & Services IT&L@bs.
Durant la priode 2005-2008, France Tlcom a mis en uvre la stratgie NExT (Nouvelle Exprience des Tlcoms). L'objectif de cette dernire est de crer de nouvelles sources de croissance en orant des services simples, innovants et convergents. Ils ont donc cr la liale entreprise d'Orange : Orange Business & Services (OBS). OBS dispose de prs de 10 000 employs travers le monde et Orange, de 191 000 employs. OBS a donc vu le jour le 1er juin 2006 et est compos de 6 liales NRS (Network Related Services) proposant des comptences fortes dans des domaines trs en pointes. Orange Business & Services IT&L@bs (constitue principalement de l'entreprise SilicompAQL) est une de ces 6 liales.
2.2.1 Le ple IT
Ce ple correspond l'activit d'une SSII classique, il s'occupe donc de tout ce qui touche aux systmes d'informations et l'ingnierie logicielle. IT&L@bs a choisi de s'orienter vers les rsultats en essayant d'amliorer en permanence leurs quatre secteurs d'activit. Le premier concerne les solutions industrielles. IT&L@bs cherche accompagner les bureaux d'tudes, les centres de recherche et de production, en suivant tout le cycle des produits ou des systmes, de leur conception leur maintient.
10
Le second secteur concerne les systmes embarqus. En eet, on assiste actuellement une forte expansion de cux-ci. Ils sont omniprsents dans notre vie quotidienne : des tlphones portables aux automobiles, en passant par la tlvision ou les guichets automatiques bancaires. De nombreux systmes communiquent entre eux et, l'volution de la technologie impose de grer un nombre croissant de donnes le plus rapidement possible. Ces systmes embarqus sont un axe majeur d'activit chez IT&L@bs qui gre entirement leurs cycles de dveloppement. IT&L@bs s'occupe aussi des systmes d'information d'entreprise. Cela consiste aider les organisations concevoir ou refondre leurs systmes d'informations. L aussi, tout le cycle de vie est gr, de l'architecture au dploiement des systmes. Enn, la scurit des systmes d'informations a toujours t une activit majeure de Silicomp, ils continuent ainsi depuis quinze ans dans cette voie. Ils grent aussi bien les administrations que les organisations prives.
11
Ils utilisent beaucoup de Java JEE, de .NET et de technologies rseaux (pour la tl la demande ou la scurit des portails). Le CO National TTM (Terminaux et Technologies Multimedia) (65 personnes) s'occupe de l'tude, du dveloppement, de la validation et de l'intgration de composants techniques. Ils ont dvelopps de nombreuses applications sur des terminaux de tlvision numrique ou de portables an d'tre commercialiss par Orange ou d'autres socits. Enn le CO Rgional SLO (Service Local Ouest) (70 personnes) s'occupe de la croissance locale axe PME/PMI. C'est dans ce CO que le stage est eectu. Il permet d'apporter la souplesse, la ractivit et la proximit pour rpondre aux besoins des clients. Les technologies utilises sont du Java JEE, .NET, C++, PHP, Oracle, Sunopsis, etc. Ils souhaitent actuellement acqurir plus de comptences au niveau de la Business Intelligence et c'est en partie pour cette raison que j'eectue mon stage. Le sujet propose, en eet, d'tudier dirents composants dcisionnels Open Source (dont principalement les ETL) pour pouvoir les intgrer dans de futurs projets.
Un entrept de donnes est une structure informatique dans laquelle est centralis un volume important de donnes consolides partir des diverses bases de donnes internes et externes d'une entreprise, et qui est conue pour orir un accs rapide l'information stratgique ncessaire la prise de dcision.
Auparavant, les entrepts de donnes servaient surtout l'archivage, dsormais ils sont devenus des composants majeurs de l'informatique dcisionnelle.
La Business Intelligence
13
est donc souvent dire. Pour eectuer l'aide la dcision, les entrepts doivent aussi servir garder un historique de donnes, c'est pour cela que leur taille est souvent plus leve que les bases de donnes classiques o les donnes obsoltes sont eaces. Enn, alors qu'une base est construite selon un modle entit-association quelconque, l'entrept a une structure bien prcise pour faciliter l'analyse. Le plus souvent, les entrepts de donnes sont structurs selon un modle multidimensionnel. Ce modle est la base du concept OLAP (Online Analytical Processing) qui dni un mode de construction des donnes pour une bonne analyse. On distingue de nombreux modles de donnes dont celui en toile ou le modle en ocon.
14
Figure 3.3 Un outil ETL extrait des donnes sources, les transforme puis les charge
dans des donnes cibles
3.3.1 Extract
La premire tape concerne l'extraction des donnes qui sont la plupart du temps htrognes. Cela signie qu'elles peuvent provenir de SGBD (MySQL, Oracle, SQL Server, etc.), de chiers plats (Txt, Excel, XML, etc.), d'ERP (Enterprise Ressource Planning), de bases hirarchiques (les anctres des SGBD) ou d'autres applications spciques. On peut dj remarquer le premier obstacle aux ETL : la multitude de formats sources possibles grer.
15
Cette tape doit permettre de se connecter aux bases, soit de faon native, soit via JDBC/ODBC ou encore avec des connecteurs spciaux. Il est aussi important, lorsque l'on extrait des donnes, de pouvoir les analyser. Il faut donc connatre les proprits de celles-ci : savoir si par exemple cette donne est de type entier ou chane de caractres et quelle est sa taille maximale. Cela peut paratre simple lorsque la source provient d'un SGBD mais s'avre plus complexe lorsqu'elle provient d'un chier plat. Il faut aussi pouvoir reconnatre les cls primaires et trangres permettant respectivement d'identier une table de faon unique, et de garantir l'intgrit des donnes. L'extraction peut aussi s'occuper de vrier les erreurs des sources. Par exemple, il est possible qu'une personne fasse une faute de frappe en crivant "Canuda" au lieu de "Canada" alors l'outil ETL doit dtecter cette erreur et la corriger. Enn, cette premire tape doit tre eectue le plus rapidement possible en exploitant au minimum les ressources du systme. tant donn qu'un ETL peut occuper et ce, pendant de nombreuses heures, une grande partie du ou des processeurs disponibles, on lance donc souvent les processus ETL la nuit. Pour gagner du temps, l'objectif de cette tape est aussi de ltrer au maximum les donnes. Par exemple, il faut que l'on puisse extraire les donnes uniquement mises jour ou ajoutes aprs la dernire extraction. L'tape d'extraction est donc trs importante. Elle doit tre performante et complte pour pouvoir disposer d'un bon outil ETL.
3.3.2 Transform
Cette seconde tape a pour objectif la transformation des donnes. Elle est bien videmment indispensable si l'on veut obtenir des cibles direntes des sources. C'est cette tape qui va permettre de joindre les direntes sources selon les cls prcdemment spcies. Elle va aussi permettre de ltrer les donnes. Le ltrage est bien dirent de l'extraction puisque l'on ltre selon des critres dnir, par exemple on va ltrer les produits dont le prix est suprieur 1000e. Une partie importante de l'tape de transformation est de pouvoir eectuer des calculs. Ils peuvent tre simples comme une addition ou multiplication, mais peuvent tre aussi plus complexes. Disposer d'un outil ETL proposant de nombreuses oprations par dfaut est donc un plus. La transformation doit aussi s'occuper des direntes agrgations : eectuer les commandes SQL classiques tels que SUM (somme), COUNT (comptage) ou AVG (moyenne). L'outil ETL peut galement permettre de gnrer des cls de substitution (surrogate key) pour cette tape de transformation. Chaque ligne d'un ensemble de donnes peut possder une cl primaire et une autre dite de substitution. La dirence majeure entre ces deux cls dpend de la donne (si elle est actuelle ou temporelle). Une base actuelle va stocker uniquement les donnes actuelles valides, alors qu'une base temporelle va s'occuper en plus des donnes prcdentes. Par exemple, l'employ Jean Dupont n'aura qu'une entre dans une base actuelle mais en aura deux dans une base temporelle (une quand il tait employ de 1988 1992 et une autre de 2004 2008). Les deux cls
16
primaires seront direntes (donc uniques) alors que les cls de substitution seront les mmes (non uniques). Pouvoir gnrer ces cls accrot les performances de l'outil ETL dans la recherche des donnes avec une meilleur indexation. Ainsi l'outil ETL doit pouvoir permettre de garder un historique des changements et aussi obtenir une certaine indpendance des systmes sources (c'est lui qui gre les cls de substitution). En bref, cette tape doit permettre d'eectuer toutes les transformations que l'on souhaite appliquer aux donnes sources. Il ne faut pas non plus oublier la slection ou le dcoupage des colonnes, la traduction des valeurs (les dirents formats de dates possibles ou encore le boolen 1 qui peut signier M pour "Masculin"), la fusion, les lookups, la gestion des erreurs et encore de nombreuses autres fonctionnalits.
3.3.3 Load
La dernire tape, s'occupe de charger les donnes, pralablement extraites puis transformes, dans des cibles htrognes (le plus souvent des entrepts de donnes qui pourront tre structurs selon un modle bien prcis (vu prcdemment). Le chargement va permettre d'insrer ou de mettre jour les donnes cibles, et, comme dans les deux tapes prcdentes, il doit aussi grer les erreurs (une chane de caractre ne doit pas tre insr dans un champ fait pour les entiers). Le chargement n'est pas ngliger pour un bon outil ETL, il doit, l aussi, tre complet et performant.
17
mement lies, permettant d'aider prendre une dcision pour rpondre aux problmes dcisionnels tels que : L'intgration de donnes qui alimente des entrepts de donnes. C'est ici qu'interviennent les ETL. La gnration de rapports qui fournit aux utilisateurs des rapports sur l'tat des ventes, des stocks, du chire d'aaires, etc. Cette partie est gre via des outils de Reporting qui piocheront dans un entrept de donnes aliment par un ETL. Les tableaux de bords (ou dashboards en anglais) mettent en place de nombreux graphiques et schmas, pour observer, d'un coup d'oeil, ce qui va ou qui ne va pas dans l'entreprise. Par exemple si un stock est quasiement vide, une jauge en rouge peut s'acher pour prvenir rapidement l'utilisateur. L encore, les donnes seront rcupres partir d'un entrept de donnes. L'analyse des donnes permet d'aller plus en profondeur par rapport aux rapports mais aussi d'interagir et de vrier les donnes selon plusieurs niveaux (annes, trimestres, mois, semaines, jours par exemple). Les donnes seront rcupres via des cubes multidimenssionnels OLAP, qui sont eux mme aliments par des entrepts de donnes. Le Data Mining est la partie la moins utilise puisque c'est la plus complexe. Cette branche fait intervenir de nombreux algorithmes (touchant souvent au domaine de l'intelligence articielle) essayant d'apporter l'utilisateur les futurs volutions probables de son entreprise. La majorit des outils ETL mettent disposition des outils spciques pour alimenter les entrepts de donnes. Les cls de substitutions prsentes plus haut, l'alimentation de cubes OLAP ou encore la gestion des dimensions volution lente (slow changing dimension) en sont des exemples.
Figure 3.4 Schma explicatif de l'utilisation d'outils ETL dans l'informatique dcisionnelle
18
20
trs complexe si l'entreprise dsire avoir un outil complet. Si elle souhaite le restreindre son domaine d'utilisation, elle devra faire face de nombreux problmes d'volution des donnes. En eet, l'outil ETL se doit de s'adapter au dveloppement continuel de l'entreprises.
21
entreprises sont clientes de Gartner... Il faut aussi noter que Gartner a une vision trs ngative de l'Open Source dans le dcisionnel.
Figure 4.2 Diagramme reprsentant les cots des solutions en fonction du temps pass
(Source : site ociel de Pentaho)
Comparatif prliminaire
23
24
25
Installation trs simple (chier dcompresser), ncessite seulement Java 1.5 ou suprieur. Rfrentiel disponible, possibilit de le grer via n'importe quel SGBD. Logiciel et Documentation en franais (la documentation franaise n'est pas toujours jour). Interface ergonomique. Trs complet (environ 180 composants disponibles) Visualisation des traitements en temps rel. Console d'administration du rfrentiel (ajout d'utilisateurs, de prols, etc.). Possibilit d'enregistrer un historique des traitements sur le rfrentiel. Intgration parfaite avec la suite dcisionnelle Open Source Pentaho. Possibilit d'excuter les traitements sur le poste local ou sur un ou plusieurs serveurs distants. Avec notamment la possibilit d'cuter un tratement en grappe sur plusieurs postes. Possibilit d'acher des diagrammes montrant les statistiques de l'xecution. Gestion du connecteur SAP.
Points ngatifs :
Pas de planication de traitements intgre. Il faut utiliser la suite dcisionnelle Pentaho ou alors passer par daire un script et l'excuter via le planicateur de tches de Windows ou Cron de Linux.
26
27
28
Talend tant un gnrateur de code, il est possible d'enregistrer les transformations sous forme de script, qui est alors excutable partir de n'importe quelle machine disposant d'une JVM (pour Java). Talend ne doit pas forcment tre install pour excuter un script. Ceci est trs pratique pour planier des tches : excuter le script via le planicateur de tches sous Windows ou via Cron sous Linux. Trs complet (environ 250 composants Java) et un peu moins en Perl. Le composant tMap trs puissant permet de faire facilement de nombreux traitements. Interface trs ergonomique (base sur Eclipse). Talend est particulier, il peut aussi tre utilis en tant qu'ELT (Extract, Load, Transform) c'est dire que les transformations peuvent tirer parti de la base de donnes dans laquelle les cibles ont t charges. Cela pour avantage d'amliorer grandement les performances mme si les possibilits sont alors plus limites. Gestion des metadonnes trs complte (connexions aux bases, schmas des donnes, formats des chiers, etc.) Visualisation des traitements en temps rel et sur le schma. Designer de requtes. Possibilit d'ajouter facilement des spcicits mtiers (en Java ou Perl) en ajoutant des nouvelles routines Code gnr toujours visible. Le Business Modeler. Nombreux connecteurs applicatifs disponibles : CentricCRM, SalesForce, SugarCRM, VtigerCRM, Microsoft AX. Gestion des contextes (contexte de dveloppement, de test et de production). Intgration avec SpagoBI ou JasperServer. Possibilit de gnrer de la javadoc. L'Ecosystem de Talend centralisant de nombreux composants dvelopps par des personnes externes la socit. Possibilit d'intgrer des documents et des chiers au rfrentiel.
Points ngatifs :
Pas de rfrentiel commun disponible dans l'dition de base. Interface lourde (base sur Eclipse).
29
Dans l'dition de base, obligation de passer par les scripts pour la planication sur Windows. Impossibilit d'excuter les traitements distance dans l'dition de base. Des fonctionnalits payantes (se procurer Talend Integration Suite).
30
31
5.2.3 Clover
5.2.3.1 Prsentation
Clover est une communaut de dveloppeurs cre en 2004 et nance par OpenSys (socit implante en Rpublique Tchque). Clover, tout comme Pentaho Data Integration, est un moteur de transformations. Ici, les direntes tches sont appeles "graphes". Clover est constitu de trois parties : 1. Clover.ETL, le moteur de transformation en Java indispensable et gratuit 2. Clover.GUI, l'interface graphique permettant de crer des graphes de transformations. Cette partie est cependant payante pour une utilisation commerciale (300e par an pour une licence et 1900e pour du multi-licence). L'interface est un plug-in Eclipse donc il faut obligatoirement installer Eclipse sur le poste de travail. 3. Clover.Server, lui aussi est payant (prix ngocier) et permet d'optimiser les performances, de disposer d'outils de planication, d'excuter les transformations distance et de faciliter le travail collaboratif. Le moteur de Clover est dvelopp entirement en Java. Si l'on matrise ce langage, il est l aussi possible d'implmenter facilement ses propres composants. Les graphes, eux, sont enregistrs sous format XML et mme avec l'interface il est souvent ncessaire de modier le code XML pour les diter. Clover gre aussi les metadonnes via un rfrentiel (sauvegard l encore au format XML).
Points ngatifs :
Ncessit d'utiliser Eclipse. Interface lourde (plugin d'Eclipse). Clover.GUI pour l'interface et Clover.Server pour le rfrentiel commun et la planication sont payants. Les options des composants manquent de clart. Moins complet que Pentaho Data Integration ou Talend Open Studio. Pas de connecteurs applicatifs. Aucune intgration avec une plateforme OSBI. Pas de gestion des contextes. Pas d'excution distance. Pas de rfrentiel commun. Mme avec l'interface graphique, il est souvent ncessaire de toucher au code XML pour modier les proprits des composants.
32
33
5.2.4 Jitterbit
5.2.4.1 Prsentation
Jitterbit a t cr en 2005 par la socit du mme nom base aux Etats-Unis et spcialise dans les logiciels Open Source d'intgration de donnes. Contrairement aux autres ETL, Jitterbit fonctionne obligatoirement avec un serveur qui excutera les transformations (c'est donc l aussi un ETL de type moteur de transformations). De plus, les donnes sont obligatoirement enregistres dans un rfrentiel commun qui doit tre gr par le SGBD PostgreSQL. Il faut donc ncessairement installer PostgreSQL sur son poste de travail avant d'utiliser Jitterbit. Ce logiciel dispose d'une console d'administration complte (cration d'utilisateurs, de groupes, de rles, visualisation de l'activit des oprations, de l'historique des oprations eectues etc.). Jitterbit est trs dirent des autres ETL, ici il ne faut pas construire des graphes de transformations via du glisser-dposer mais, seulement choisir une source, une cible, puis la transformation qui permet de passer de l'une l'autre. Dans Jitterbit, ces tches sont appeles "Oprations". Ceci ne permet pas de faire des transformations rellement complexes que l'on peut eectuer sur TOS ou PDI.
Points ngatifs :
Console d'administration complte. Serveur qui excute les tches qui peuvent tre valids pralablement. Planication intgre. Rfrentiel commun disponible de base. Excution distance. Moins complet que Pentaho ou Talend. Nombreux connecteurs applicatifs disponibles : SAP, SugarCRM, SalesForce, Siebel.
Fonctionnement droutant. Le serveur prend beaucoup de ressources. PostgreSQL impos comme rfrentiel. Quelques imperfections dans l'interface comme le fait d'avoir un onglet qui s'ouvre chaque fois que l'on souhaite naviguer dans le projet. Excution des transformations assez lente. Aucune intgration avec une plateforme OSBI. Pas de gestion des contextes (dveloppement, test et production). Aucune nouvelle version depuis six mois.
34
35
36
5.2.5 Apatar
5.2.5.1 Prsentation
La socit Apatar a t fonde aux Etats-Unis par Renat Khasanshyn qui commena sa carrire en Russie. La premire version du logiciel Apatar (du nom prcis de Apatar Open Source Data Integration) a vu le jour le 7 mai 2007, il est donc trs rcent. Ici encore, cet ETL est un moteur de transformations et possde une interface graphique pour crer et excuter les transformations qui sont appelles, dans Apatar, DataMap. Il est aussi possible de lancer les transformations en ligne de commande. Apatar est cod entirement en Java et ne ncessite aucun autre logiciel que Java pour tre excut. Il possde aussi un outil pour planier les lancements des transformations. Apatar met disposition de nombreux connecteurs mais, compte tenu de sa jeunesse, il est trs restreint. Cependant, s'il continue tre bien dvelopp il pourra peut-tre, par la suite, concurrencer les autres ETL Open Source.
Logiciel simple. Nombreux connecteurs disponibles : Compiere ERP, SalesForce, SugarCRM, SAP, Siebel, Amazon S3, Buzzsaw, Flickr. Planication intgre.
Points ngatifs :
Logiciel simple. Trs limit, trop peu de fonctionnalits. Moteur de transformations lent. Pas de gestion des metadonnes. Pas de rfrentiel commun. Pas de gestion des contextes Pas d'excution distance.
37
Cette capturee d'cran montre l'interface principale pour crer et lancer les transformations. gauche se situe la palette de composants. La tche eectue ici est de joindre une base via le connecteur SalesForce et une base MySQL an d'y appliquer des fonctions de transformations pour alimenter une base Oracle.
38
5.3.2 Rsultats
Les tableaux comparatifs dtaills sont prsents en annexes (pages 80 85). Ils ont reprsents de nombreuses heures de travail et ont t mis jour rgulirement. Ils regroupent en tout, plus de 120 critres analyss sur les cinq ETL que sont Talend Open Studio, Pentaho Data Integration, Clover.ETL, Jitterbit et Apatar. Voici les rsultats que l'on peut tirer de cette tude :
5.3.2.3 Fonctionnalits
Il s'agit de la partie la plus importante, la plus longue et la plus complexe analyser. Elle se divise donc en plusieurs sous-parties : 1.
Compatibilits
: dans ce domaine, TOS et PDI achent des rsultats impressionnants. Ces ETL grent la plupart des SGBD nativement et, pour les autres il y a toujours les drivers JDBC/ODBC de disponibles. Ils sont compatibles avec les principaux OS du march et grent une trs grande diversit de chiers (CSV, XML, Excel, LDIF, ZIP, etc.). Les trois autres ETL, mme s'ils sont compatibles avec les formats principaux gardent une longueur de retard.
39
: ici petit avantage de TOS qui propose la gestion des donnes SIG, un designer graphique de requtes, et l'excution de requtes sauvegardes dans un chier .sql. PDI et Clover.ETL sont un peu derrire mais proposent tout de mme l'excution de procdures stockes, la normalisation/dnormalisation de tables et permettent aussi de crer facilement des requtes.
3.
Transformations : TOS et PDI permettent de faire peu prs toutes les transfor-
4.
Accs aux donnes : avantage TOS qui gre de nombreux connecteurs applicatifs alors que PDI se contente simplement de SAP. On peut observer que c'est Apatar qui implmente le plus grand nombre de ces connecteurs et c'est l sa grande force. noter que PDI ne permet pas l'heure actuelle de grer les ux RSS.
bit (du fait qu'il a t dvelopp pour excuter les transformations sur un serveur distant). Apatar ne comprend quasiment aucune option d'administration et, celles de Clover.ETL sont toutes payantes. TOS propose de nombreuses options mais certaines sont payantes aussi du fait que le rfrentiel commun ne soit pas inclus dans la version gratuite.
mations envisageables dans le cadre d'un projet grce de nombreux composants. De plus, TOS propose quelques options ELT et, permet ainsi de proter de toutes les fonctionnalits que peut apporter un SGBD. L encore, les autres ETL sont derrires. Enn, si par malchance une transformation que souhaite faire l'utilisateur n'est pas ralisable, l'Open Source permet de modier le code et d'ajouter des composants personnaliss.
5.
6. 7.
Dclenchement des processus : avantage TOS qui permet d'utiliser JMS, SOAP, MOM et POP. A noter qu'aucun ETL Open Source n'utilise Corba. Fonctionnalit spciques
8. 9.
Outils : avantage TOS et PDI qui proposent tous deux un outil de dbugging trs pratique.
: TOS et PDI se trouve encore devant les autres ETL. Ici, on touche aux deux gros avantages (et respectivement aux deux gros dfauts) qui direncient TOS et PDI. TOS permet de grer facilement les contextes d'excution pour passer rapidement d'une phase une autre dans un projet (dveloppement, tests et production). PDI, quant lui permet de lancer les traitements sur un poste distant et propose mme de les excuter en grappes.
5.3.3 Conclusion
Aprs cette tude, on peut d'ores et dj remarquer un net avantage du ct de Talend Open Studio et de Pentaho Data Integration. Mmes s'ils ont de nombreuses caractristiques direntes, il est dicile de dpartager ces deux ETL, ce que permettront peut-tre les tests de performances.
Nom Processeur RAM OS Java MySQL SQL Server Express 2005 Oracle XE PostgreSQL FireBird Access 2003 Talend Open Studio Pentaho Data Integration Clover.ETL/Clover.GUI Jitterbit Apatar
Dell Optiplex 740 AMD Athlon 64 X2 Dual Core 4000+ (2,10 GHz) 2 Go de RAM Microsoft Windows XP Professionnel SP2 1.6 5.0 SP2 1.0 10g Release 2 8.3 2.1 11.5 2.3.3 3.0.3 2.4.4/1.10.0 1.3.2 1.1.8
Cas de Test
41
Les tests ont t lancs via l'interface graphique puisque c'est l'utilisation normale que l'on en fait. Des tests lancs via des lignes de commandes ont t eectus, mais aucune dirence notable de performances n'a t remarque. Bien videmment, les transformations ont t excutes avec le minimum possible d'applications tournant en arrire plan. Les bases de donnes ne servant pas pour une opration donne ont aussi t dsactives. Sur Talend Open Studio, la gestion de plusieurs processeurs a t active. Les modlisations de ces tests sur les ETL ont essay d'tre optimises au maximum, cependant il est srement possible d'amliorer d'avantage ces modlisations pour proter au mieux des fonctionnalits des ETL.
NB : Dans le cadre de l'tude sur les SGBD gratuites / Open Source, il a t jug judicieux de tester les performances de tous les SGBD mentionns dans ce guide. Cependant, un bug sur la version de Talend Open Studio 2.3.3 et 2.4.0 empche l'application de se connecter Ingres. C'est pour cela que cette base n'apparat pas dans les tests. Ce bug a t corrig dans la version 2.4.1 et, les tests auraient pu tre eectus avec cette dernire mais, l'environnement de travail ayant chang (installation d'antivirus, passage du SP2 au SP3, dirence entre la version 2.3 et 2.4) ils n'auraient pas permis de comparer correctement les performances de cette base. Les derniers tests eectus montrent des performances proches de celles d'Oracle XE.
42
6.3.1.2 Rsultats
Nombre de lignes traites 100 000 500 000 1 000 000
Figure 6.2 Diagramme Comparatif : Fichier CSV vers autre chier CSV
43
L'ETL Apatar n'apparat pas sur cette opration. Le test a pourtant bien t eectu, cependant les temps de traitement se sont avrs beaucoup trop longs (prs de 30 minutes pour 100 000 lignes !). On peut remarquer qu'avec cet test trs simple, Jitterbit est assez lent compar aux autres ETL. Ceci est principalement d au fait que les oprations soient traites comme si elles taient sur un serveur distant mme si celles-ci sont en local.
44
6.3.2.2 Rsultats
Nombre de lignes traites 100 000 500 000 1 000 000
45
46
6.4.1.2 Rsultats
Nombre de lignes traites 100 000 500 000 1 000 000
47
6.4.2.2 Rsultats
Nombre de lignes traites 100 000 500 000 1 000 000
Figure 6.5 Diagramme Comparatif : Fichier CSV vers base SQL Server Express 2005
6.4.2.3 Analyse
L encore, Jitterbit et Apatar ont des temps de traitements plus levs. On remarque une grosse amlioration des performances pour Pentaho Data Integration qui est beaucoup plus rapide travailler sous une base SQL Server. Cet SGBD ore donc de trs bons rsultats avec PDI ainsi que des performances moyennes avec TOS et Clover.
48
6.4.3.2 Rsultats
Nombre de lignes traites 100 000 500 000 1 000 000
Figure 6.6 Diagramme Comparatif : Fichier CSV vers base Oracle XE 10g
6.4.3.3 Analyse
L encore, Jitterbit et Apatar ont des temps de traitements plus levs (plus de 7 minutes pour traiter seulement 100 000 lignes avec Jitterbit et des temps encore plus longs sous Apatar). On peut nouveau observer un net avantage de Pentaho Data Integration face Talend et Clover qui subissent une baisse de performances vis vis de MySQL ou SQL Server Express. Oracle Express 10g ore donc de bonnes performances avec PDI mais de mauvaises avec TOS et Clover
49
6.4.4.2 Rsultats
Nombre de lignes traites 100 000 500 000 1 000 000
50
6.4.5.2 Rsultats
Nombre de lignes traites 100 000 500 000 1 000 000
51
6.4.6.2 Rsultats
Nombre de lignes traites 10 000 50 000 100 000
TOS
12 214 800
PDI
13 68 124
Figure 6.9 Diagramme Comparatif : Fichier CSV vers base Access 2003
6.4.6.3 Analyse
Seuls Talend et Pentaho ont t tests, Clover ne supportant pas les metadonnes d'Access. On remarque que, les temps de traitements de Talend croissent exponentiellement selon la quantit de donnes crire dans la table. Attention, le nombre de donnes crites est dix fois moins lev qu'avec les autres bases dans la mesure o Access se montre trop lent avec une trop grande quantit de donnes en criture.
52
6.4.7.2 Rsultats
Nombre d'enregistrements traits 10 000 50 000 100 000
TOS PDI
12 177 724 23 680 1771
(avec SAX) 3 14 28
PDI
53
mesure qu'il reoit les donnes, il stocke donc trs peu d'informations en mmoire. Nous pouvons alors observer des grandes dirences de performances. SAX est cependant plus dicile utiliser sous Pentaho. Clover et Jitterbit, eux, utilisent aussi SAX. Quant Apatar la mthode de parsing est inconnue et les temps de traitement sont toujours trs longs. C'est pour cette raison que tous les tests n'ont pas t eectus sous cet ETL.
NB : La version 2.4 de Talend Open Studio comprend un composant grant les ux SAX
Scnarios
54
6.5 Scnarios
6.5.1 Test 1 - Fichiers CSV avec transformations de dates
6.5.1.1 Prsentation
Ce test consiste rcuprer des entiers, se trouvant dans un chier CSV reprsentant des dates, pour alimenter un autre chier CSV et assembler ces dirents nombres pour en faire une vritable date. Le chier source est constitu de quatre champs : un identiant, un jour, un mois et une anne. Voici un extrait de cinq lignes :
6.5.1.2 Modlisations
Scnarios
55
TOS
PDI
7 35 76
Scnarios
56
du tri qui rend PDI plus lent puisque si l'on supprime celles-ci on ne constate aucun gain de performance. Par consquent, c'est la partie JavaScript qui ralentit Pentaho et le pnalise par rapport Talend qui, lui, utilise son composant tMap trs performant. Il faut essayer d'utiliser au minimum l'tape Javascript dans Pentaho Data Integration.
Scnarios
57
6.5.2.2 Modlisations
58
TOS
45 42 10 14 23 15
PDI
42 40 26 22 35 23
Scnarios
59
6.5.3.2 Modlisations
60
TOS
79 73 60 83 51 795
PDI
72 48 25 43 71 144
Chapitre 7 Bilan
7.1 Quel ETL choisir ?
Les solutions ETL Open source n'ont pas rougir face aux ETL propritaires. Leurs utilisateurs et le nombre d'applications dployes s'accroissent de mois en mois. Nombre d'experts parient que, dans maximum 4 ans, ce seront les ETL propritaires qui auront s'aligner sur les Open Source du fait de la qualit des produits, de la rcession conomique, de l'ampleur de l'activit de la communaut. Cependant, l'Open Source a encore trs mauvaise rputation chez les entreprises. C'est force de coups marketing et de sminaires comme font Talend et Pentaho, que les socits pourront prendre conance en l'Open Source. Le choix d'un ETL Open Source, est donc un choix judicieux qui permet de limiter les cots et les risques lis un projet. Reste ensuite savoir quel ETL choisir. Parmi les dix ETL tudis, seuls quatre peuvent tre utilisables en entreprise : Talend Open Studio, Pentaho Data Integration, Clover.ETL et Jitterbit. Parmi ces quatre solutions, Talend Open Studio et Pentaho Data Integration ont une nette avance qui permet de rivaliser avec les ETL commerciaux du fait de leurs qualits, de leurs compatibilits et de leurs performances. Un avantage non ngligeable de ces ETL, c'est que leur deux concepteurs principaux (Cdric Carbone pour Talend Open Studio et Matt Casters pour Pentaho Data Integration) sont trs souvent disponibles sur les forums (notamment ceux de Developpez.com) et rpondent en franais d'une manire trs prcise des questions techniques ou non. Il est trs dicile de dpartager ces deux ETL qui se compltent d'avantage qu'ils ne sont concurrents. On peut d'ailleurs se demander s'il existe de la concurrence dans le domaine de l'Open Source. Le choix de l'ETL, dpend donc de la nature du projet mais aussi, des prfrences des dveloppeurs tant ces deux ETL sont dirents d'utilisation.
62
sateurs, mme si celle-ci l'empche d'tre aussi ractive que celle de Pentaho Data Integration. L'Ecosystem de Talend Open Studio regroupe tous les composants dvelopps par des utilisateurs externes pour complter la palette de composants initiale. Actuellement, il met disposition prs de 50 composants allant de la gestion des chiers PDF la possibilit d'envoyer des SMS. Le fait que Talend soit un gnrateur de code, permet de lancer les traitements partir de n'importe quel poste possdant une machine virtuelle Java 1.5 ou suprieur. Les traitements peuvent alors tre lancs via le planicateur de tches Windows. TOS permet aussi d'utiliser soit Java soit Perl et de crer des routines personnalises trs rapidement. La gestion des contextes permet de passer d'un environnement de dveloppement un autre de test, puis la production. Il est aussi possible de personnaliser ces contextes. Talend Open Studio permet galement la gestion des versions des chiers et de gnrer de la documentation. Un rfrentiel de metadonnes trs complet permet de rutiliser des schmas de chiers, de connections, de Web services et autres et ainsi gagner beaucoup de temps. Pentaho Data Integration ne gre pas les metadonnes mais permet facilement de rcuprer les schmas des chiers en les scannant. Le Business Modeler permet de reprsenter et de modliser l'environnement haut niveau. Il peut tre utilis par les personnes s'occupant uniquement de l'aspect Business et ne s'y connaissant pas forcment en dveloppement. Ils modliseront les schmas gnraux sur ce Business Modeler et ces derniers pourront permettre de guider les dveloppeurs dans leurs travaux. Talend Open Studio gre de nombreux connecteurs applicatifs alors que Pentaho Data Integration n'implmente que SAP (qui n'est cependant pas gr par TOS) De nombreux outils pour corriger des erreurs, de vrier les statistiques, les logs et de commenter les dveloppements et d'ajouter de la documentation sont mis disposition par Talend Open Studio. La socit Talend n'a pas dvelopp de plateforme BI mais, du fait de nombreux partenariats, a intgr son ETL dans SpagoBI et JasperServer. Ces plateformes servent mettre en relation dirents composants pour eectuer des rapports, des tableaux de bords, de planier les excutions de Talend Open Studio, etc. Enn, Talend utilise aussi un mode ELT avec quelques bases de donnes (MySQL, Oracle et Teradata) pour partager les traitements entre la JVM et le SGBD et donc optimiser les performances.
63
La possibilit d'excuter les traitements en grappe sur des serveurs distants, permet de ne pas surcharger un seul serveur mais de rpartir la charge de travail pour de meilleures performances. Pentaho Data Integration met un rfrentiel commun disposition. Ce dernier repose sur une base de donnes au choix et permet ainsi d'accder aux traitements pralablement dvelopps partir de n'importe quel poste ayant accs cette base. Ce rfrentiel permet aussi de grer des utilisateurs et de leur attribuer des prols. TOS ne met disposition cette option que dans sa suite payante (Talend Integration Suite). Pentaho Data Integration fait partie de la suite dcisionnelle Pentaho trs rpute et trs utilise parmi les solutions OSBI (Open Source Businness Intelligence). PDI s'intgre ainsi facilement cette suite dcisionnelle pour eectuer du reporting, des analyses, du data mining, des tableaux de bords, de planier les excutions de Pentaho Data Integration, etc. Pentaho Data Integration est entirement gratuit et ne possde aucune option supplmentaire payante, contrairement Talend Open Studio.
65
Description Crer des graphiques Grer les dimensions volution lente Crer des rapports via JasperReport Grer OLAP via Mondrian ou Palo Connexion au CRM CentricCRM Connexion l'ERP Microsoft AX Connexion au CRM Salesforce Connexion au CRM SugarCRM Connexion au CRM VtigerCRM Ajouter du code Java ou Groovy et modier des variables globales Comparer des ux et obtenir des donnes de qualit Gestion du SGBD AS400 Gestion du SGBD Access Gestion d'une base utilisant ODBC Gestion d'une base utilisant JDBC Gestion du SGBD DB2 Gestion du SGBD FireBird Gestion du SGBD HSQLDb Gestion du SGBD Informix Gestion du SGBD Ingres Gestion du SGBD Interbase Gestion du SGBD JavaDB Gestion du SGBD LDAP Gestion du SGBD MS SQL Server Gestion du SGBD Max DB Gestion du SGBD MySQL Gestion du SGBD Oracle Gestion du SGBD PostgreSQL Gestion du SGBD PostgrePlus Gestion du SGBD SQLite Gestion du SGBD Sybase Gestion du SGBD Teradata Gestion du SGBD Vertica fonctions indpendantes du SGBD
Business
Databases
66
Orchestrer les Jobs : crer des boucles, parallliser, itrer, attendre, unier, etc. Traiter les champs (normalisation, etc.) Nombreux traitements (calculs, ltres, etc.) Lancer un Job, appeler des commandes systme, etc. Gestion des chiers XML (DTD, XSL, XSD)
67
Type Extraction Alimentation Recherche Transformation Jointure ligne Excution de scripts Entrept de donnes Soustransformation Lien avec Tche En ligne Exprimental tapes obsoltes
Nb 21 11 9 29 5 3 2 3 6 3 4 1
TRANSFORMATIONS Description Extraction de donnes sources : chiers CSV, XML, Excel, Bases de donnes, Access, LDAP, Mondrian, gnration de valeurs, etc. Alimentation de donnes cibles : chiers CSV, XML, Excel, Bases de donnes, Access, supprimer / insrer / mettre jour une table, etc. Recherche dans ux / base de donnes, appel procdure stocke / service web, vrication existence colonne / chier / table, jointure de bases de donnes, etc. Etapes de transformation : agrgation, calcul, ltrage, transformation, tri, normalisation, etc. Comparaison de lignes, produit cartsien, jointure XML, etc. Excution de scripts SQL, Java ou valuation par expression rgulire Donnes relatives aux datas warehouses : dimensions volution lente et "junk dimensions" Excuter une sous-transformation, spcier ses entres et ses sorties Etapes de transformation qui ont un lien avec les tapes de Jobs : crer ou rcuprer des variables, copier les lignes vers le rsultats, etc. Lire ou crire sur un socket et injecter un ux de donnes via du code Java Composants en cours de dveloppement Composants qui ont t remplacs par d'autres
68
Type Gnral Manipulation de Courriels Gestion de chiers valuation Excution de scripts Chargement Bulk XML Transfert de chiers (FTP) Rfrentiel
Nb 10 2 16 6 3 3 4 7 2
Composants grant les chiers : crer, supprimer, comparer chiers / rpertoires, compresser /dcompresser une archive Temporiser le Job, Vrier l'existence de chiers / table / colonnes etc. valuer via JavaScript, crer un script SQL ou une commande Shell Charger des donnes en bloc avec MySQL ou MS SQL Server Gestion des chiers XML (DTD, XSL, XSD) Envoi et rcupration de chiers via FTP, SFTP, SSH2 Vrie la connexion au rfrentiel et exporte le rfrentiel vers un chier XML
ETL TOS PDI TOS PDI TOS PDI TOS PDI TOS PDI
MySQL
PostgreSQL
Ingres
FireBird
Oracle
SQLServer
OUI OUI OUI OUI OUI OUI OUI en cours OUI NON NON NON OUI NON OUI OUI OUI OUI NON NON
OUI OUI NON NON NON NON NON OUI NON NON
NON OUI OUI OUI OUI OUI NON OUI OUI NON en cours en cours NON OUI NON NON NON NON NON OUI OUI OUI OUI OUI NON OUI OUI NON NON NON
70
71
72
73
74
Chapitre 10 Conclusion
S'il y a un point majeur retenir sur ce stage, ce sont tous les bnces qu'il a apport tant au niveau personnel qu'au niveau de l'entreprise. Il m'a tout d'abord permis d'apprendre de trs nombreux concepts et outils du monde de la BI. tant donn qu'il s'agit d'un stage d'tude, il a fallu chercher, collecter, analyser et retranscrire par soi mme de nombreuses informations tant sur les ETL, que sur les autres composants BI ou encore sur les concepts du dcisionnel. Il sut de voir la quantit d'informations, mises par crit, que j'ai pu rcolter tout au long de ces 5 mois. Un autre point positif du stage est que j'ai pu tudier en profondeur les deux ETL majeurs Open Source qui seront certainement utiliss dans un futur projet. Il me sera ainsi possible de proter au mieux de ces outils. L'autre grand bnciaire de ce stage est bien videmment l'entreprise Orange Business & Services. Elle en attendait beaucoup du stage tant donn que, suite cette tude, elle pourra acqurir de nouveaux clients et lancer de nombreux projets bass sur ces recherches. Il ne faut pas oublier les documents, pertinents, fournis avec ce stage dont des guides pour mieux utiliser les ETL et ainsi perdre moins temps sur l'intgration ou sur des questions d'ordre technique. L'intgration au projet BOMAG m'a permis de me rendre compte des problmes lis aux contraintes clients. J'ai t plusieurs fois amen tre en relation avec des clients pour corriger des problmes, demander des prcisions sur les spcications ou rendre compte des volutions apportes. Il a fallut notamment grer des contraintes de temps. Les demandes d'volutions devaient respecter un certain dlai de livraison alors que mon stage devait avancer, lui aussi, pour rendre compte rgulirement de mes avances au responsable de stage ou au directeur de projets. J'ai alors privilgi le dveloppement (et l'apprentissage) sur BOMAG et propos un plan dtaill de mes futurs tudes concernant le sujet du stage. Le projet BOMAG a ainsi pu voluer et les grandes lignes du stage ont pu se dessiner pour ensuite tre prsents lors de mes runions d'avancement. Pour nir, en plus de tous les bnces apports par le stage, j'ai aussi pu bien m'intgrer l'entreprise. Je suis rellement satisfait tant de l'ambiance que du travail propos et c'est pourquoi j'ai dcid de poursuivre mon exprience OBS.
Chapitre 11 Webographie
Voici les dirents sites Internet consults pour eectuer ce rapport : Site Ociel d'Orange Business & Services IT&L@bs developpez.com pour ses forums et tutoriels Wikipedia pour de nombreuses informations en tout genre decideo pour des informations sur le dcisionnel DwFacile.com pour des informations sur les entrepts de donnes systemeETL pour de nombreuses informations thoriques sur les ETL, les entrepts de donnes et la modlisation dimensionnelle guidescomparatifs.com pour choisir des critres de comparaisons entre ETL Atol Conseils & Dveloppements pour des informations sur le dcisionnel Open Source et pour leur livre blanc concernant les ETL Open Source Blog d'Atol Conseils & Dveloppements pour des informations complmentaires Site ociel de Gartner pour le quadrant magique blog d'un chef de projet d'Atol CD concernant le dcisionnel Open Source blog de Matt Casters concepteur de Pentaho Data Integration blog de Cedric Carbone un des concepteurs de Talend Open Studio
Sans oublier les sites ociels des ETL : Talend Pentaho Clover Jitterbit Apatar Open ESB avec ETLSE Enhydra Octopus KETL Scriptella Benetl
Chapitre 12 Annexes
12.1 Tableaux comparatifs des dix ETL
12.1.1 L'organisation, la communaut
78
79
80
OUI
TOS
OUI
PDI
NON
Jitterbit
OUI
EU
OUI
Bonne
Bonne
Info gnrales Taille du logiciel ETL ou ELT Type outil Code de l'appli Logiciels ncessaires Nb composants Ajout, customisation de composants Intgration des suites dcisionnelles
Clover 6Mo (sans l'interface) ETL moteur de transformations Java Java et Eclipse 60 (Java et XML)
Jaspersoft, SpagoBI
(Java ou Perl)
OUI
309
(Java)
OUI
150
PostgreSQL
OUI
(Java)
OUI
40
Pentaho (Intgrale)
aucune
aucune
aucune
Anglais Franais Franais Franais Franais Anglais OUI OUI (Eclipse) (SWT)
GPL LGPL
TOS
PDI
Clover
Apatar
Cots Options payantes Support Technique professionnel Formations professionnelles Services professionnels
TOS
PDI
Clover
Jitterbit
Apatar
12.2.3 Fonctionnalits
12.2.3.1 Compatibilits
Plates-Formes Windows Linux MacOS
TOS
PDI
Clover
Jitterbit
Apatar
TOS
PDI
Clover
Jitterbit
Apatar
82 OUI OUI OUI OUI OUI OUI OUI OUI OUI OUI OUI OUI
PDI Clover
OUI OUI OUI OUI OUI OUI OUI OUI OUI OUI OUI via Spatial Data Integrator NON NON OUI OUI
TOS PDI
TOS
OUI OUI OUI OUI OUI NON NON NON NON OUI NON NON
Jitterbit
NON OUI OUI OUI OUI NON NON NON NON NON NON NON NON NON NON NON
Apatar
NON NON OUI OUI NON OUI NON NON NON OUI NON NON NON NON OUI NON
OUI OUI OUI OUI OUI OUI OUI OUI OUI OUI OUI OUI OUI OUI
OUI OUI OUI OUI OUI OUI OUI NON OUI NON OUI NON OUI OUI OUI
OUI OUI
Jitterbit
Apatar
OUI NON NON NON OUI OUI NON NON NON OUI NON OUI NON NON
Type simples de donnes Type complexes de donnes Gestion des messages d'erreur des SGBD Normalisation Dnormalisation
donnes gographiques
OUI OUI OUI NON OUI NON OUI NON OUI OUI OUI
NON OUI NON NON NON NON OUI NON NON NON NON
83
Fonctions Statistiques de qualit de donnes Jointures htrognes Jointures internes Jointures externes Cls de substitution Utilisation de boucles Requtes imbriques Possibilit de coder facilement ses propres transformations
OUI OUI OUI OUI (12 fct) (4 fct) (15 fct) (11 fct) NON NON NON NON OUI OUI OUI OUI
OUI
OUI (Javascript)
PDI SAP
Apatar
SAP, Compiere ERP
SalesForce, Siebel SugarCRM, Amazon S3
OUI payant OUI NON OUI OUI OUI OUI OUI OUI OUI NON OUI OUI OUI OUI NON NON
84
propritaire
OUI OUI (SGBD OUI (payant) au choix) (payant) payant OUI vrie seulement NON
via un tiers ou payant
scurit du SGBD choisi
TOS
PDI
Clover
Jitterbit
OUI
Apatar
NON NON NON NON NON OUI NON NON NON NON
propritaire
(PostgreSQL)
OUI NON
payant NON vrie seulement NON payant payant OUI NON NON
console
scurit de PostgreSQL
Gnration de logs
OUI OUI
NON NON
console, chier, table
console, chier
console
TOS
NON OUI NON OUI NON NON NON NON OUI NON
PDI
Clover
Jitterbit
Apatar
85
OUI OUI OUI types 1,2,3 NON OUI OUI OUI OUI OUI payant
TOS
OUI OUI OUI OUI OUI OUI types NON 1,2 OUI NON OUI NON OUI NON OUI NON NON NON NON NON OUI payant
PDI
Clover
Jitterbit
NON NON OUI NON NON OUI NON OUI NON NON OUI
Apatar
OUI OUI NON NON NON NON NON NON NON NON NON
de debugging d'analyse d'impact de Versionning de gestion des phases d'un de travail collaboratif
TOS
PDI
Clover
Jitterbit
Apatar
Optimisation Gestion du paralllisme Gestion du Load "Balancing" Mix ETL et ELT Modication cache/buer/index Excution par grappes des tches sur un serveur distant
OUI OUI payant payant manuel NON OUI NON NON OUI OUI NON payant OUI NON
TOS
PDI
Clover
Jitterbit
Apatar