Bigdata Opensource

VERSION 1.
0 - MARS 2012
BIG DATA & OPEN SOURCE:

UNE CONVERGENCE INVITABLE?
Stefane Fermigier
Table des matires

Introduction Contexte conomique et technologique
Lorigine des donnes du Big Data Les principaux acteurs Les enjeux technologiques
4 5
5 5 6
Le stockage
Bases NoSQL Bases NewSQL
8
8 9
Le traitement et lanalyse
MapReduce Indexation et recherche Machine learning et statistiques
10
10 11 11
Infrastructure Pour un dveloppement du Big Data open source en Ile-de-France

Quelques acteurs industriels de lcosystme francilien Place du big data dans lagenda de la recherche publique
12 13
13 14
Conclusion Annexe: quelques projets open source

Bases NoSQL Cl-valeur Orientes documents Orientes graphes Clones de BigTable
16 17
17 17 17 18 18
page 2
Systmes de fichiers distribus et stockages de BLOBs Bases NewSQL MapReduce Moteurs dindexation et de recherche Statistiques Machine learning
18 19 19 19 20 20
A propos / crdits
Auteur Contributeurs
21
21 21
page 3
Introduction
Le Big Data recouvre de manire lche les dfis, les opportunits et les technologies impliques par le dluge des donnes produites depuis quelques annes par les entreprises. Par exemple, selon IDC, ce sont 1.8 Zettaoctets qui ont t produits en 2011 (lquivalent dun milliard de disque durs de grande capacit rcents), un chiffre qui continue augmenter de 50% chaque anne. Une dfinition plus prcise, donne par Wikipedia1 , indique quil sagit dune expression anglophone utilise pour dsigner des ensembles de donnes qui deviennent tellement gros quils en deviennent difficiles travailler avec des outils classiques de gestion de base de donnes. Ces derniers (bases de donnes relationnelles, principalement) ont en effet pour caractristique de ne pouvoir monter en charge que de manireverticale(i.e. en augmentant la puissance dun seul serveur) jusqu atteindre des prix prohibitifs. Par opposition, les outils utiliss dans le domaine des Big Data visent atteindre une scalabilit horizontale(i.e. obtenue en rajoutant des serveurs bas cot), au prix dun renoncement au modle de donne relationnel et/ou au modle transactionnel. Les enjeux conomiques sont considrables: cest en tant les premiers comprendre lintrt, et matriser les difficults techniques, du traitement des donnes issues des interactions de leurs utilisateurs avec leurs services, que des socits web comme Google, Amazon, Yahoo! ou Facebook ont russi provoquer une disruption massive de leur march (web 2.0 vs. web 1.0) et simposer comme les leaders de leur catgorie. Dans le domaine scientifique, on voit merger depuis quelques annes des sous-disciplines (data science) entirement fondes sur le traitement massif de donnes scientifique. Enfin, pour dautres acteurs (ex: grande distribution), le Big Data ne reprsente pas une opportunit de disruption par un modle nouveau, mais un moyen de plus en plus incontournable doptimiser leur efficience et donc leur comptitivit.
<http://fr.wikipedia.org/wiki/Big_data>.
page 4
Contexte conomique et technologique

Lorigine des donnes du Big Data
Les donnes traites par le Big Data proviennent notamment2 :
du Web: journaux daccs, rseaux sociaux, e-commerce, indexation, stockage de documents, de photos, de vidos, linked data, etc. (ex: Google traitait 24 petaoctets de donnes par jour avec MapReduce en 2009). 3 plus gnralement, de linternet et des objets communicants: RFID, rseaux de capteurs, journaux des appels en tlphonie; des sciences: gnomique, astronomie, physique subatomique (ex: le CERN annonce produire 15 petaoctets de donnes par an avec le LHC), climatologie (ex: le centre de recherche allemand sur le climat gre une base de donnes de 60 petaoctets), etc.; donnes commerciales (ex: historique des transactions dans une chane dhypermarchs); donnes personnelles (ex: dossiers mdicaux); donnes publiques (open data).
Les principaux acteurs

Parmi ces catgories, le monde du web a t le prcurseur du mouvement (lexpression web scale a longtemps t synonyme de big data), et il nest pas tonnant que les principales innovations du domaine trouvent leur origine chez les leaders du Web: Google (MapReduce et BigTable), Amazon (Dynamo, S3), Yahoo! (Hadoop, S4), Facebook (Cassandra, Hive), Twitter (Storm, FlockDB), LinkedIn (Kafka, SenseiDB, Voldemort), LiveJournal (Memcached), etc. Compte-tenu de la culture et du modle conomique de ces socits, il nest pas tonnant non plus que la plupart de ces projets soient open source, souvent dvelopps de manire
2 3
Source: wikipedia, op. cit.
Cf. par exemple: The Great Disk Drive in the Sky: How Web giants store bigand we mean bigdata, Ars Technica, janvier 2012. <http://arstechnica.com/business/news/2012/01/the-big-disk-drive-in-the-sky-how-the-giants-of-the-web-store-big-data.ars/>
page 5
collaborative aprs ouverture initiale de code dvelopp en interne, et parfois confi une entit extrieure. La Fondation Apache est ainsi particulirement active dans ce domaine, en lanant ou en recueillant plus dune dizaine de projets, matures ou en incubation: Hadoop, Lucene/Solr, Hbase, Hive, Pig, Cassandra, Mahout, Zookeeper, S4, Storm, Kafka, Flume, Hama, Giraph, etc. Outre les socits du Web, le secteur scientifique et plus rcemment les promoteurs de lOpen Data (et de sa variante, lOpen Linked Data, issu du Web Smantique), sont galement historiquement trs ouverts lopen source, et ont logiquement effectu des contributions importantes dans le domaine du Big Data. La plupart de ces technologies open source ont par ailleurs donn lieu la cration de startups, massivement finances pour certaines. Par exemple, autour de Hadoop, on peut citer: Cloudera (76M$ levs), Hortonworks (~20M$), Datameer (12M$), Zettaset, Drawntoscale, etc. Les grands acteurs des logiciels et systmes dentreprises ne sont pas pargns par cette vague du Big Data open source: Oracle a mis Hadoop au coeur de son big data appliance lanc en octobre 20114 ; Microsoft a annonc en novembre 2011 larrt de son projet interne de MapReduce pour Azure (baptis Dryad) au profit dHadoop5 ; IBM, EMC et Netapp ont galement intgr Hadoop dans leur offre de big data.
Les enjeux technologiques

Michael Stonebraker, pape de la base de donnes depuis 30 ans, dclarait rcemment dans une interview au MagIT: Il y a beaucoup de bruit autour du Big Data. Ce concept a plusieurs significations en fonction du type de personnes. Selon moi, la meilleure faon de considrer le Big Data est de penser au concept de trois V. Big Data peut tre synonyme de gros volume. Du teraoctet au petaoctet. Il peut galement signifier la rapidit [Velocity, NDLR] de traitement de flux continus de donnes. Enfin, la troisime signification : vous avez
4 Oracle Big Data Appliance stakes big claim, GigaOM, 3 octobre 2011, et Cloudera puts the Hadoop in Oracles Big Data Appliance, GigaOM, 10 janvier 2012. 5 Dryad was intended to run big-data jobs across HPC, Microsoft's clustered server environment. But such a release would have presented a proprietary and competing alternative to Hadoop, which is rapidly emerging as the leading platform for distributed data processing. Source: Information Week, 17 novembre 2011.
page 6
manipuler une grande varit de donnes, de sources htrognes. Vous avez intgrer entre mille et deux mille sources de donnes diffrentes et lopration est un calvaire. La vrit est que le Big Data a bien trois significations et que les diteurs nen abordent quune la fois. Il est important de connatre leur positionnement pour leur poser les bonnes questions. Alex Popescu6 , suivant lavis des analystes de Forrester Research, ajoute cela un quatrime V, celui de variabilit, pour aboutir aux critres suivants:
Volume: les donnes dpassent les limites de la scalabilit verticale des outils classiques, ncessitant des solutions de stockage distribus et des outils de traitement parallles. Varit: les donnes sont htrognes ce qui rend leur intgration complexe et coteuse. Vlocit: les donnes doivent tre traites et analyses rapidement eu gard la vitesse de leur capture. Variabilit: le format et le sens des donnes peut varier au fil du temps.
Alex Popescu Big Data Causes Concern and Big Confusion. A Big Data Definition to Help Clarify the Confusion, 27 fvrier 2012 <http://nosql.mypopescu.com/post/18376617501/big-data-causes-concern-and-big-confusion-a-big-data>.
page 7
Le stockage
Bases NoSQL
Les bases NoSQL visent passer lchelle de manire horizontale en relchant les conditions fortes de transactionnalit (ACID - atomiques, cohrentes, isoles et durables) attendues des bases traditionnelles, et en renonant au modle relationnel. On distingue actuellement 4 types de bases NoSQL:
Cl-valeur (ex: Memcached) Orientes colonne ou clones de BigTable (ex: Cassandra) Orientes document (ex: CouchDB, MongoDB) Graphe (ex: Neo4j).
Chacune de ces catgories prsente des caractristiques diffrentes en termes de scalabilit horizontale (par exemple, les bases orientes graphes ne passent pas aussi facilement lchelle horizontalement, mais sont pourtant indispensables pour traiter efficacement les donnes issues des rseaux sociaux). De plus, au sein de chaque catgorie, diffrents compromis en termes de cohrence, disponibilit et rsistance au morcellement (attendu quil est impossible,
page 8
selon le thorme de Brewer (aussi appel thorme CAP), davoir ces trois caractristiques simultanment dans un systme distribu).
La majorit des technologies NoSQL sont open source (cf. annexe de ce document). Celles qui ne le sont pas sont le plus souvent des outils utiliss en interne par des socits internet (ex: Google).
Bases NewSQL
En rponse la menace que reprsentent les technologies NoSQL, les diteurs de bases relationnelles sappliquent prsent dvelopper la capacit de leurs technologies passer lchelle de manire horizontale, sans pour autant renoncer totalement au modle relationnel. Un exemple dcosystme open source dynamique sur ce sujet est lcosystme MySQL.
page 9
Le traitement et lanalyse
MapReduce
MapReduce est lorigine une technique de programmation connue de longue date en programmation fonctionnelle, mais surtout un framework dvelopp par Google en 20047 . Depuis cet article sminal, de nombreuses implmentations open source du principe gnral ont vu le jour: Hadoop (Yahoo! puis Fondation Apache), mais aussi Disco (Nokia), MrJob (Yelp!), etc. Citons aussi les implmentations de MapReduce intgres dans les bases de donnes NoSQL: CouchDB, MongoDB, Riak, etc.
Enfin, dautres paradigmes de calcul massivement parallles, plus orients temps-rel ou aux calculs sur les graphes, ont commenc tre utiliss par les acteurs du Web (Google, Twitter, Yahoo!, etc.), et ont pour certains donn lieu des projets Open Source: Pregel (technologie interne Google, qui a son tour inspir les projets open source suivants: Apache Hama, GoldenOrb, Apache Giraph, Phoebus, Signal/Collect, HipG), S4, Storm, etc.
7 Jeffrey Dean et Sanjay Ghemawat, MapReduce: Simplified Data Processing on Large Clusters. <http://research.google.com/ archive/mapreduce.html>.
page 10
Indexation et recherche
A laube du Web, les moteurs de recherche (Inktomi, Infoseek, AltaVista, etc.) ont t les premiers devoir dvelopper des technologies innovantes pour indexer le Web de manire horizontale dans de multiples serveurs. Les mmes enjeux se retrouvent dans les moteurs de recherche dentreprises, qui doivent non seulement indexer efficacement (souvent, sans lapport de lalgorithme PageRank de Google) les donnes des intranets et des applications mtiers des entreprises, mais aussi prsent servir de base des applications mtiers bases sur la recherche, aussi appeles SBA (Search Based Applications). De nombreux diteurs propritaires existent dans ce secteur (ex: en France, Exalead, Sinequa, Antidot), mais de plus en plus dditeurs se tournent vers moteurs dindexation open source (principalement Apache Lucene / Solr) comme base de leurs produits (ex: en France, Open Search Server, Polyspot).
Machine learning et statistiques

Lenjeu majeur du Big Data nest pas dans la collecte et le stockage, problme difficile mais principalement technique, mais dans la valorisation de ces donnes, qui touche la technique mais principalement au business de chaque organisation. Parmi les techniques utilises pour extraire de la connaissance actionnable par le business partir des donnes brutes, les techniques de machine learning tiennent une place de choix. Parmi les projets open source aboutis dans le domaine, citons par exemple le projet Apache Mahout, boite outils dalgorithmes de machine learning en Java, ou le projet Scikit-Learn, initi en France et dont une grande partie des dveloppeurs sont franais. Dans le domaine des statistiques, la rfrence a t pendant des annes le logiciel propritaire SAS. Mais depuis quelques annes, on constate la monte en puissance de projets open source comme R, soutenu prsent par la socit commerciale Revolution Analytics (17.6M$ de levs), ou encore le projet Pandas.
page 11
Infrastructure
Lorsquune organisation gre plusieurs dizaines de milliers de serveurs, plus forte raison plus dun million comme Google, il est naturel quelle se tourne vers un systme dexploitation libre comme Linux afin dune part davoir la plus grande matrise possible sur la pile logicielle quelle exploite, dautre part ne pas dpenser exagrment en cots de licences. Ainsi, il nest pas tonnant que 71.8% des grandes entreprises interroges rcemment envisagent de faire appel des serveurs Linux pour faire face leur besoins de Big Data, contre seulement 35.9% pour Windows.
De manire similaire, on voit se dvelopper des besoins importants, et des projets matures, dans les domaines de la gestion de parc, du dploiement automatique, du monitoring, etc. Parmi les projets significatifs, citons: Chef, Puppet, Fabric, Zookeeper, etc. Dans tous les cas, on retrouve dans le domaine de linfrastructure des problmatiques trs semblables, et les mmes outils, que dans le cloud computing.
page 12
Pour un dveloppement du Big Data open source en Ile-de-France

Quelques acteurs industriels de lcosystme francilien
Les socits de service (ex:OpenWide,Smile, Zenika...) ont commenc proposer leurs clients des prestations autour de technologies open source lies au Big Data :
Smile est lauteur dun livre blanc sur les bases de donnes NoSQL (http://www.smile.fr/ Livres-blancs/Culture-du-web/NoSQL). Zenika a travaill dans deux catgories diffrentes de Big Data, en utilisant des technologies open source comme MongoDB, CouchDB, ElasticSearch, Apache Hadoop et Redis :
les donnes bancaires, de risque notamment, qui ncessitent des grilles de donnes distribues (data-grids) du fait de la taille des donnes manipuler et de la vitesse d'excution requise ; les donnes de type utilisateur, dans le secteur du "Web 2.0" c'est--dire des startups franaises finances par des VC qui nous ont confies le traitement de leur passage l'chelle (scalability) sur les donnes nominatives stockes.
Parmi les diteurs, on peut noter :
Core-Techs, diteur et socit de conseil dans la GED et le-commerce, sy intresse plus dun titre, notamment avec le projet de R&D collaboratif GEO+ qui est une plateforme de collecte et de reprsentation de donnes ouvertes (ou non) mlant des dimensions BI, smantique et cartographie. La socit galement travaill avec diffrents acteurs publics autour de deux enjeux :
ouvrir quelles donnes et avec quels moyens et pour quels bnfices ? quel format / normalisation / ontologies mettre en uvre ?
DataPublica, qui dveloppe un catalogue et une plateforme daccs aux donnes publiques franaises (Open Data), utilise des technologies NoSQL (MongoDB) pour faire face la fluidit des donnes traites et pour passer lchelle.
page 13
Nexedi, diteur dun ERP et dune plateforme de cloud distribus open source, a dvelopp, dans le cadre du projet FEDER NEOPPOD, une base de donnes objets NoSQL transactionnelle distribue. Nuxeo, diteur dune plateforme de GED open source, utilise des technologies dindexation et de machine learning pour apporter de la valeur aux contenus manipuls par sa plateforme.8 Open Search Server (Jaeksoft) dveloppe une plateforme dindexation et de recherche open source, avec un accent sur la scalabilit horizontale de sa solution.
Place du big data dans lagenda de la recherche publique

LANR (Agence Nationale de la Recherche) indique dans son document de programmation 20129 ses attentes en termes de Big Data: Cet axe thmatique regroupe une classe de problmes o le volume et la complexit des donnes manipules et traites constituent un verrou majeur. Ces donnes sont caractrises par leur nature diffrente (temporelle, spatiale, hybride, etc.), leur forme (signaux, dstructures, semistructures, etc.), leur reprsentation matrielle et logicielle, leur gestion grande chelle (transport, stockage, volatilit, acuit, prennit, etc.). Concernant la simulation, tous les aspects de la gestion des donnes impliques dans les cycles de simulation sont concerns. Les donnes du processus de simulation doivent tre modlises, stockes, traites et manipules par des algorithmes robustes, performants, et adapts aux supports rpartis. Elle prcise galement les sous-thmes qui lintressent: Les sousthmes importants sont, de faon non exhaustive, le stockage, la gestion et le traitement de BigData, i.e. trs grands volumes de donnes (web, smart grids, wireless sensor networks) avec notamment le stream computing (traitement en flux tendu des donnes) dans lequel le stockage classique est irralisable voire non souhaitable (p.ex. camras de vidoprotection), les techniques innovantes de modlisation par les donnes,
Cf. <http://www.fiercecontentmanagement.com/story/big-data-and-smart-content-new-challenges-content-managementapplications/2011-12-19>.
9
<http://www.agence-nationale-recherche.fr/fileadmin/user_upload/documents/2011/Programmation-ANR-2012.pdf>
page 14
de pr et post traitement, de fouille des donnes, dinterprtation provenant notamment de dispositifs ubiquitaires de collecte dinformations fixes et mobiles qui sont enfouis et omniprsents toujours en plus grand nombre dans le monde rel (assistants personnels, tlphones cellulaires, traceurs GPS, camras de vidoprotection, rseaux RFID, etc.). Concernant lopen source, sans exclure de financer le dveloppement de logiciels propritaires, lANR affiche clairement des arguments en faveur de lopen source: [Le programme] s'intresse la production et la fourniture de logiciels propritaires et libres (i.e., open source ). Ces deux modes vont conomiquement cohabiter dans le futur mais le logiciel libre a vocation faciliter l'accs, la connaissance et l'utilisation cot modr de rsultats de R&D accessibles directement par lInternet et donc partout sur la plante.
page 15
Conclusion
Le logiciel libre est particulirement actif dans le domaine du Big Data, avec plusieurs dizaines de projets de grande valeur, mais dont le centre de gravit se trouve en gnral aux USA, du fait de lorigine de ces projets, et plus gnralement dans les pays qui ont des sites web de plusieurs dizaines de millions dutilisateurs. Nanmoins les comptences existent en Ile-de-France, que ce soit au sein de la recherche publique (ex: INRIA) ou des entreprises. Lmergence dactions collectives, comme un ou des projets de R&D collaborative fdrateurs, ou des confrences sur le sujet, paraissent utiles pour catalyser ce potentiel et permettre notre cosystme dtre prsent sur ce march la fois stratgique et trs fort potentiel de croissance.
(Source: Michael Driscoll, Building data startups: Fast, big, and focused, 9 aot 2011 <http:// radar.oreilly.com/2011/08/building-data-startups.html>).
page 16
Annexe: quelques projets open source

NB: liste probablement encore incomplte, nhsitez pas me contacter pour la complter.
Bases NoSQL
Cl-valeur
Tokyo Cabinet <http://fallabs.com/tokyocabinet/> et Tokyo Tyrant <http://fallabs.com/ tokyotyrant/>: stockage cl-valeur local et distribu. Kyoto Cabinet <http://fallabs.com/kyotocabinet/> et Kyoto Tycoon <http://fallabs.com/ kyototycoon/>: successeurs de Tokyo Cabinet et Tokyo Tyrant. Riak <http://wiki.basho.com/>: base cl-valeur rpartie avec support de MapReduce. Voldemort <http://project-voldemort.com/>: stockage cl-valeur distribu dvelopp par LinkedIn. Redis <http://redis.io/>: stockage cl-valeur de structures de donnes (listes, ensembles, dictionnaires), en mmoire, ultra-rapide. KumoFS <http://kumofs.sourceforge.net/>: stockage cl-valeur distribu dvelopp par Nico Nico Douga, le Youtube japonais. Memcached <http://memcached.org/>: base cl-valeur distribue optimise pour tre utilise comme cache de donnes provenant de systmes de stockages plus traditionnelles (ex: SGBRD).
Orientes documents
MongoDB <http://mongodb.org/>: base distribue oriente documents dveloppe par la start-up new yorkaise 10gen. Apache CouchDB <http://couchdb.apache.org/>: base distribue oriente documents avec une API REST, dveloppe en Erlang.
page 17
Orientes graphes
Neo4j <http://neo4j.org/>: base de donnes oriente graphes dveloppe en Java. Infinitegraph <http://www.infinitegraph.com>: base de donnes distribue oriente graphes. OrientDB <http://www.orientechnologies.com/>: base de donnes oriente graphes et documents.
Clones de BigTable
Apache Cassandra <http://cassandra.apache.org/>: clone de BigTable dvelopp lorigine par Facebook, en Java. Apache HBase <http://hbase.apache.org/>: clone de BigTable bas sur Hadoop, dvelopp en Java. Hypertable <http://www.hypertable.com>: clone de BigTable dvelopp par une startup ddie en C++.
Systmes de chiers distribus et stockages de BLOBs
Lustre <http://wiki.whamcloud.com/>: systme de fichier distribu utilis par plus de 70% des supercalculateurs actuels. GlusterFS <http://www.gluster.org/>: systme de fichiers distribu horizontalement scalable, dvelopp par Red Hat. Ceph <http://ceph.newdream.net/wiki/>: systme de fichier distribu, qui propose galement une interface de stockage dobjets compatible S3. OpenStack Open Storage Swift <http://openstack.org/projects/storage/>: stockage dobjets distribu dvelopp dans le cadre du projet cloud OpenStack. dCache <http://www.dcache.org/>: systme de fichier distribu dvelopp par le CERN et des institutions similaires. HDFS <http://hadoop.apache.org/hdfs/>: systme de fichiers distribu ddi au stockage de donnes pour le framework MapReduce Apache Hadoop. DDFS <http://discoproject.org/doc/howto/ddfs.html>: systme de fichier distribu ddi au stockage de donnes pour le framework MapReduce Disco (cf. infra).
page 18
Bases NewSQL
Cubrid <http://www.cubrid.org/>: base de donnes distribue compatible avec MySQL, dveloppe par le principal portail coren. InfiniDB <http://infinidb.org/>: base de donnes analytique. VoltDB <http://voltdb.com/>: base de donnes en mmoire compatible MySQL.
MapReduce
Apache Hadoop <http://hadoop.apache.org/>: implmentation de lalgorithme MapReduce dveloppe lorigine par Yahoo! en Java et place ensuite sous lgide de la Fondation Apache. Disco <http://discoproject.org/>: implmentation de MapReduce en Erlang et Python dveloppe par Nokia.
Moteurs dindexation et de recherche

Apache Lucene <http://lucene.apache.org/core/>: bibliothque Java pour lindexation et la recherche. Apache Solr <http://lucene.apache.org/solr/>: plateforme denterprise search base sur Lucene. Katta: <http://katta.sourceforge.net/>: plateforme denterprise search base sur Lucene. ElasticSearch <http://www.elasticsearch.org/>: plateforme denterprise search base sur Lucene. OpenSearchServer <http://www.open-search-server.com/>: plateforme denterprise search base sur Lucene.
page 19
Statistiques
R <http://www.r-project.org/>: langage ddi aux statistiques et lanalyse de donnes. Projet mature, largement utilis dans les milieux universitaires mais aussi dans la finance. Pandas <http://pandas.pydata.org/>: bibliothque Python pour les statistiques. Rapid Miner <http://rapid-i.com>: outil danalyse de donnes en Java.
Machine learning
Apache Mahout <http://mahout.apache.org/>: bibliothque Java de machine learning et de data mining qui utilise Hadoop. Dveloppe activement dans le cadre dun projet Apache. Scikit Learn <http://scikit-learn.org>: bibliothque Python de machine learning. Dveloppe activement par un groupe de chercheurs et de data hackers. WEKA <http://www.cs.waikato.ac.nz/ml/weka/>: bibliothque Java de machine learning. Dveloppe activement par un groupe de recherche luniversit de Waikato.
page 20
A propos / crdits
Auteur
Ce texte a t rdig par Stefane Fermigier <http://fermigier.com/>. Stefane Fermigier est un entrepreneur du logiciel libre. Il a fond Nuxeo, pionnier de lECM open source, en 2000. Il a galement t cofondateur de lAFUL <http://www.aful.org/>, et du Groupe Thmatique Logiciel Libre <http://www.gt-logiciel-libre.org/> (au sein du Ple de Comptitivit Systematic-Paris-Region), quil prside depuis 3 ans. Il travaille actuellement comme consultant dans les domaines de lintelligence des contenus et des donnes, de lentreprise 2.0, du dveloppement collaboratif et des business models de lopen source. Si vous avez des commentaires sur ce document, nhsitez pas me contacter: sf@fermigier.com.
Contributeurs
Ont contribu ce document: Jean-Paul Smets (Nexedi), Patrice Bertrand (Smile), Marine Soroko (Core Techs), Patrick Moreau (INRIA), Patrick Bnichou (OpenWide), Pierre Queinnec (Zenika), Raphael Perez (Jaeksoft), Vincent Heuschling (Affini-Tech). Photo de couverture: The Planet. Illustrations: Neo4j, Nathan Hurst, Linux Foundation, @jrecursive, Michael Driscoll.
Licence
Ce document est plac sous licence CC BY-SA 3.0 <http://creativecommons.org/licenses/by-sa/ 3.0/deed.fr>.
page 21

Bigdata Opensource

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Bigdata Opensource

Uploaded by

Copyright:

Available Formats

VERSION 1.

BIG DATA & OPEN SOURCE:

Table des matires

Infrastructure Pour un dveloppement du Big Data open source en Ile-de-France

Conclusion Annexe: quelques projets open source

Contexte conomique et technologique

Les principaux acteurs

Source: wikipedia, op. cit.

Les enjeux technologiques

Machine learning et statistiques

Pour un dveloppement du Big Data open source en Ile-de-France

Parmi les diteurs, on peut noter :

Place du big data dans lagenda de la recherche publique

Annexe: quelques projets open source

Systmes de chiers distribus et stockages de BLOBs

Moteurs dindexation et de recherche

You might also like