avec nos solutions spcialises pour la microfinance
et ses institutions coopratives
Big Data Historique de Big data Jusqu lavnement dInternet et surtout du Web 2.0 il ny avait pas tant de donnes traiter que a. Mais partir du moment o chaque utilisateur a commenc produire du contenu, la courbe dvolution du nombre de donnes sest transforme en courbe exponentielle. En ce 21 ime sicle, lheure du tout numrique, dsormais toute information a vocation tre donne et toute donne reprsente potentiellement un facteur cl pour la russite dune organisation. Le problme est le traitement dun dluge de donnes. Plutt que de dplacer les donnes, dplaons le code. Entre passer par le rseau 500 Go de donnes ou 40 Mo de code compil, un choix semble simposer de lui-mme. Il faut trouver une interface simplifie la cration dapplications massivement parallles. Arrive Hadoop: un moteur dindexation distribu : un Framework compos dun systme de fichier distribu sur lequel on excute des traitements parallles appliquant Map/Reduce.
HADOOP : 4 concepts de base 1. La couche de stockage des donnes 2. La couche de traitement des donnes 3. Lordonnanceur 4. Les abstractions Premier concept : La couche de stockage des donnes HDFS
Quest-ce quun systme de fichier ? Un systme de fichiers (File system) est une abstraction pour stocker, rcuprer ou mettre jour des donnes. Dans le cas dHDFS, la mise jour nest pas autorise. HDFS est distribu. Le fait quil soit distribu ne se peroit pas durant lutilisation car on accde aux fichiers HDFS de manire classique, autrement dit au travers dune arborescence classique sous la forme dossier/sous_dossier/fichier.extension. Comment HDFS retrouve linformation ? HDFS dfinit deux types de nuds : Le nud principal ou NameNode : il sagit dun nud qui a pour fonction de rpertorier o sont stockes les donnes, sur quels nuds prcisment. Le nud de donnes ou DataNode : Ce nud est rserv pour le stockage de la donne. Deuxime Concept : la couche de traitement des donnes Map/Reduce Paralllisme rcursif : Il sagit de dcomposer le problme initial en sous-problmes plus simples, et ainsi de suite jusqu ce que le sous-problme soit trivial (ex : oui ou non). Le principe de base Map/Reduce est une application de cette stratgie dite rcursive avec une particularit toutefois : on stocke les rsultats dans une Map .
Prenons un exemple : Nous voulons compter le nombre de retrait caissier plus grand que 1 M FCFA la CIF. Pour cela, nous avons les tables SAF CJ_MVMiento.
Solution : Dans notre programme, nous voulons un affichage avec le type de transaction et le nombre de retrait > 1 M. Ex : Nombre de retrait > 1M$ la CIF : 20 834 Explication : La phase de mapping va gnrer, pour chaque ligne des tables CJ_MVMIENTO, le nom de la trx = RETRAIT et le MNT > 1M (qui est notre cl) puis la valeur 1 (pour signaler quil y a une transaction) dans un objet de type Map. Une mthode map traitera donc chacune des lignes, recevant comme input la trx et le contenu correspondant. La phase de reduce va rcuprer cet objet Map, puis faire la somme des valeurs trouves pour le type de transaction En quelque sorte, Map spcifie ce que nous voulons comme type de rsultats (ce qui permet de diviser implicitement le travail) et Reduce rassemble tous ces rsultats intermdiaires pour composer le rsultat final.
Troisime Concept : lordonnanceur Dans la pratique, la mise en uvre de ce que nous avons vu juste avant suppose un ordonnanceur ou scheduler . En effet, la cration/allocation de nouvelles tches, leur gestion, le fait de synchroniser les processus entre eux, etc. ne se fait pas tout seul et suppose la prsence dun moteur complet qui gre cela au sein dHadoop. Oozie est un ordonnanceur de flux de travail (workflow) pour la gestion d'un graphe acyclique dirig dactions, o des actions peuvent tre des jobs Map/Reduce mais aussi d'autres jobs Hadoop est un excellent outil pour travailler sur le Volume, selon le principe des 3V des big Data (Cf. Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data). Pour dautres aspects comme la Vitesse, des technologies comme Microsoft StreamInsight de traitement de flux haut dbit ou Storm savrent mieux adapts. Quatrime concept : Les abstractions Depuis larrive du projet principal Hadoop maturation, plusieurs outils se sont construits sur le moteur dexcution pour simplifier le dveloppement dapplications. En effet, Hadoop dans son package de base demande que le dveloppeur soit initi au fonctionnement Map/Reduce et quil comprenne les bases de la programmation fonctionnelle. Hive Hive est un logiciel d'analyse de donnes permettant d'utiliser Hadoop avec une syntaxe proche du SQL appeleHiveQL et ce, via un mcanisme permettant de dfinir un schma lors de la lecture des donnes. Il permet dexprimer des requtes la SQL qui se compilent en un ensemble de programmes Map/Reduce optimiss, des implmentations en Java du Mapper et du Reducer comme nous lavons fait. Il propose pour cela un support pour la plupart des constructions auxquelles on peut sattendre dans SQL (agrgation, regroupements, filtrage, etc.). Pig Pig possde lui aussi son propre langage (Pig Latin), mais son approche est diffrente. Pour faire simple, il est plus facile dutiliser un langage dabstraction proche du pseudo code pour se focaliser sur la smantique puis de laisser un compilateur optimiser votre code pour une approche Map/Reduce. Lavantage de Pig rside dans la simplicit de lexpression dune suite logique de tches Map/Reduce sur les donnes :
Rsoudre le Challenge 'Big Data' implique plus que la simple gestion des volumes de donnes
De nombreux responsables informatiques tentent de grer le "big data" dfis en se concentrant sur les volumes d'information l'exclusion des nombreux autres aspects de la gestion de l'information, en laissant de grands dfis rsoudre plus tard. Big data est un terme populaire utilis pour reconnatre la croissance exponentielle, la disponibilit et l'utilisation des informations contenues dans la banque de donnes riche paysage de demain. Le terme big data met un accent dmesur sur la question du volume de l'information Les responsables informatiques doivent duquer leurs homologues d'affaires sur les dfis tout en assurant un certain degr de contrle et de coordination ainsi que la possibilit de big data ne devienne chaos, ce qui peut augmenter les risques de conformit, augmenter les cots et de crer encore plus de silos . Pas seulement le volume Le volume d'information crot annuellement un taux minimum de 59% par an, et le volume est un dfi important dans la gestion des Big Data. Les entreprises et les responsables informatiques doivent se concentrer sur le volume de l'information, de la varit et de la vlocit. Volume: L'augmentation des volumes de donnes dans les systmes d'entreprise est cause par des volumes de transactions et d'autres types de donnes traditionnelles, ainsi que par de nouveaux types de donnes. Trop volume est un problme de stockage, mais trop de donnes est aussi une question d'analyse massive. Varit: Les responsables informatiques ont toujours eu un problme pour traduire de grands volumes de donnes transactionnelles en dcision- maintenant il y a plusieurs types d'informations analyser - provenant principalement de mdias sociaux et mobiles (context-aware). Varit comprend des tableaux de donnes (bases de donnes), les donnes hirarchiques, documents, e-mail, les donnes de mesure, vido, images fixes, audio, donnes de stock ticker, les transactions financires et plus encore. Velocit: Cela implique des flux de donnes, la cration de dossier structur, et la disponibilit de l'accs et la livraison. Velocit signifie la fois la rapidit de donnes produite et la vitesse laquelle les donnes doivent tre traites pour satisfaire la demande. Profiter du big data Recherche de modles pour de meilleures dcisions d'affaires. La capacit grer les donnes extrmes sera une comptence de base des entreprises qui sont de plus en plus appeler utiliser de nouvelles formes d'information - tels que le texte, contexte et le social. Il fournit ensuite la base de la modlisation de nouvelles solutions d'affaires, ce qui permet l'entreprise de s'adapter. Le modle peut alors tre complt dans diffrents mdiums, tels que l'analyse des rseaux sociaux ou des moteurs informatiques sensibles au contexte..
avec nos solutions spcialises pour la microfinance et ses institutions coopratives