Dipartimento di tecnica e gestione dei sistemi industriali Strumenti software per gestire i BIG DATA Laureando: Pedassou Yao Edem Relatore: Bonollo Giuliano
Anno Accademico 2011-2012 Sommario Definizione di big data Descrizione dei processi in campo big data e i relativi problemi e criticit Le tecnologie : Apache hadoop Applicazioni Prospettive e conclusioni
E un insieme di dati talmente grande che praticamente impossibile utilizzarli con gli strumenti tradizionali.
Definizione doppiamente inadeguata per la dimensione dei dati via via crescente e il valore di sfida che racchiude il big data PROCESSI E CRITICIT Dati di acquisizione e di recording
Sorgenti di generazione dei dati Definizione dei filtri dei dati Generazione automatica del metadata giusto Provenienza dei dati
Estrazione dellinformazione e il data cleaning
Informazioni non inizialmente in formato strutturato pronte per lanalisi Lintegrazione, laggregazione e la rapresentazione dei dati
Ricerca di automatizazione dellanalisi dei dati rendendo lanalisi comprensibile in modo computazionale e poi risolvibile con la robotica Elaborazione delle query, modellazione e analisi dei dati
Scaling di query complesse Mancanza di coordianamento tra i sistemi di dati strutturati e non strutturati
Interpretazione dei dati
Lanalisi deve essere reso facile al decisore Si deve soddisfare la richiesta di precisione del decisore Le sfide
Eteregeneit La scala La tempestivit La privacy La collaborazione umana Tecnologie
Cos ? un framework Open Source per applicazioni distribuite data-intensive MapReduce Hadoop Distributed file system (HDFS) HDFS: un software che :
memorizza i file attraverso un insieme di server in un cluster. Rileva e compensa i problemi di hardware, di disco e guasti di server Tolera e compensa i fallimenti del cluster
MapReduce : Sistema di elaborazione parallela dei dati Fare fronte a un problema di esplosione di dati che nessun sistema preesistente era in grado di risolvere Capace di archiviare qualsiasi tipi di dati Prevedere uno stoccaggio a costo basso Offre un nuovo repository dove tutti dati strutturali e complessi possono essere facilmente combinati Scalabilit e affidabilit per lelaborazione di algoritmi arbitrari Compatibile con i sistemi preesistenti (database, log generator) Permette al DBA di ottimizzare il database Fornire agli utenti meno tecnici informazioni sui dati (analisti..) Guida ad una struttura incentrata sui dati
Applicazioni Applicazioni analitiche
Basate su Attributi Attribuiscono un credito a una serie di attivit (Partner di societ)
Basate su predizione o previsione Usano le tecniche statistiche e di data Mining per processi decisionali in svariati scenari di mercato (valutazione rischi, gestione del rendimento)
Basate su approfondimento Usano le stese tecniche della precedente ma per rilevare Comportamenti insoliti (uso della carta di credito) Applicazioni settoriali Finanza
Impatto su i costi, rischi, ricavi e conformit Miglioramento dellanlisi del profilo di clienti determinazione delleggibilit del capital azionario (mutui, assicurazione,credito) Individuazione delle frodi e prevenzione di eventi futuri di frodi Permette lanalisi del commercio
Industria Manifatturiera Gestione dei servizi
piu efficiente e pi efficace grazie alla proliferazione dei sensori e all analisi di feed di dati di gran dimensione Le Operazioni
Miglioramento del processo di post-vendita di manutenzione Con laggiunta di sensori per attrezzature per fornire livello crescenti di dati sulle operazioni di manutenzione dellapparecchiatura Aumento della qualit complessiva del prodotto
Sanit Migliorare la qualit dei servizi sanitari e ridurre il numero di ospedalizzazioni. Sviluppo dei farmaci : uso dei dati per fornire medicinali efficace e in tempo breve Scambio di informazioni sulla salute Conclusioni Nuove tecnologie come hadoop sono impiegate per affrontare le sfide di big data e fino ad oggi ci riescono abbastanza bene Finch i Cloud Computing, linternet ed altri generatori di dati ci sarano, i problemi dei big data sarano di attualit : La tecnologia deve affrontare il dilemma di risolvere crescita esponenziale e continua di dati con risorse a capacit limitate e con esigenza degli utenti ancora piu accentuata Siamo ancora in fase sperimentale e di ricerca: permangono vari punti dubbi riguardo alle tecnologie, alle possibili Killer application, ad un utilizzo basico a livello di utenti.