Welcome to Scribd!

Skip carousel

A Lightweight Continuous Jobs Mechanism For Mapreduce Frameworks

Uploaded by

ubinet

0% found this document useful (0 votes)

20 views22 pages

Continuous Hadoop

Original Title

cHadoop

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Continuous Hadoop

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

20 views22 pages

A Lightweight Continuous Jobs Mechanism For Mapreduce Frameworks

Uploaded by

ubinet

Continuous Hadoop

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 22

Search inside document

A Lightweight Continuous Jobs Mechanism for

MapReduce Frameworks
Trong-Tuan Vu
INRIA Lille Nord Europe

Fabrice Huet
INRIA-University of Nice

Model

Big Data processing

landscape

Real-time

Iterative

Batch
Data
Static

Dynamic

Stream

Processing Big Data

Model

Batch

Iterative

Hadoop
HOP

HaLoop
Twister
PIC

Real-time

Data
Static

Dynamic (fast
data)
Stream

Amazon S4
Twitter Storm

Batch Processing of Big Data

Canonical workflow
Push data to cluster
Start jobs
Pull results
Profit!

As long as the data set does not change

Dealing with dynamic data

Bulk arrival
Job only submitted once and runs automatically
Slightly changes the workflow
While (new data)
Push, execute, pull, profit!

-5

Continuous Analysis
Time
Foo
Bar

What
Bar

Foo
Bar
What
Bar

Word-Count

Foo 1
Bar 1

What 1
Bar 1

Foo 1
Bar 2
What 1

-6

Properties

Efficiency
Only process new data, not the whole data set

Correctness
Merging all results on intermediate data should give
the same result than processing the whole dataset

-7

Dependencies
Time
Foo
Bar

What
Bar

Word-2

Foo
Bar
What
Bar

Bar

Word-2 : display words which appears at least twice

-8

Not all data are equals

Processing only new data leads to incorrect results

Because some old ones are useful

Different categories
New data
Results
Carried data

-9

Carried data

Data which have been processed

But could be useful in subsequent run

Typically application dependent

Let the programmer decide this

Example Word-2 :
Result : words which appear at least twice
Carry : words which appear once
- 10

Continuous Map-Reduce jobs

Map

Reduce
Carry

- 11

Contribution

A continuous Job model adapted to MapReduce

An implementation on top of Hadoop
An evaluation with two toys application and a
realistic one

- 12

CONTINUOUS HADOOP

- 13

Continuous MapReduce Framework

Based on the Hadoop MapReduce Framework

Support for automatic re-execution of jobs
Notification of new data
Filtering of data by timestamp

New API with carry function

- 14

Even Elephants are fast

No modification to Hadoop source code

Proxies/Interceptors
Subclassing
Reflection (accessing private fields)

Use public API

Hopefully Never play cat and mouse elephant

- 15

Continuous
Job

Continuous
JobTracker

Job

JobTracker

Task

TaskTracker

Continuous
NameNode
NameNode

Data Nodes

Local File System

- 16

Time stamping data

Jobs should process new Data

Only those added after last execution

HDFS has limitations

No in-place modification and no appending

Add time stamp for blocks as metadata in

Continuous NameNode
- 17

API example (Word-2-count)

ContinuousJob job = new ContinuousJob() ;
.
job.setCarryFilesName(carry") ;
protected void continuousReduce(Text key, Iterable<IntWritable> values,
ContinuousContext context) {

if(sum < 2) {
context.carry(key, result);
} else {
context.write(key, result);
}
}

- 18

Application : SPARQL Query

A SQL-like language for the RDF data format
<http://localhost/publications/journals/Journal1/1940> rdf:type bench:Journal
<http://localhost/publications/journals/Journal1/1940> dc:title "Journal 1 (1940)"^^xsd:string
<http://localhost/publications/journals/Journal1/1940> dcterms:issued "1940"^^xsd:integer

SELECT ?yr
WHERE {
?journal rdf:type bench:Journal.
?journal dc:title "Journal 1 (1940)"^^xsd:string.
?journal dcterms:issued ?yr
}

- 19

Continuous SPARQL
Selection Job
Map

Reduce

Join Job

Map

Reduce
Carry

Selection Job
Map

Reduce

Map

Reduce
Carry

- 20

Hundred of seconds

cHadoop

Hadoop

12
10
8
6
4
2
0
20

100

120

140

160

180

(Millions of
RDF triple)

Experiments on 40 nodes
- 21

Conclusion

A model for processing dynamic (fast) data using

MapReduce
Carry allows saving data for future use

An non-intrusive implementation in Hadoop

Automatic restarting of continuous jobs

Latency of restarting jobs is high

- 22

Hadoop: Data Processing and Modelling
From Everand
Hadoop: Data Processing and Modelling
Garry Turkington
No ratings yet
Data Storage and Back Up ALBERTO COUTO
Document2 pages
Data Storage and Back Up ALBERTO COUTO
Ananta Abdillah Wicaksono
No ratings yet
000-YOUR-FIRSTNAME YOUR-FAMILY-NAME Handout DSTI SemanticWeb
Document53 pages
000-YOUR-FIRSTNAME YOUR-FAMILY-NAME Handout DSTI SemanticWeb
Mamadou saidou Balde
No ratings yet
ER Exercises 20141125
Document7 pages
ER Exercises 20141125
Merve Cvdr
No ratings yet
Hadoop and Pig Overview - Hands-On: Outline of Tutorial
Document52 pages
Hadoop and Pig Overview - Hands-On: Outline of Tutorial
Konara Kiran
No ratings yet
Class: CS 237 Distributed Systems Middleware Instructor: Nalini Venkatasubramanian
Document55 pages
Class: CS 237 Distributed Systems Middleware Instructor: Nalini Venkatasubramanian
Pratheesh Kumar
No ratings yet
Data Mining With Hadoop and Hive Introduction To Architecture
Document39 pages
Data Mining With Hadoop and Hive Introduction To Architecture
Ashwin Ajmera
No ratings yet
Apache Hadoop Training
Document377 pages
Apache Hadoop Training
Ramya Varanasi
No ratings yet
Uber - Big Data Case Study
Document17 pages
Uber - Big Data Case Study
Alexandro Marcel
No ratings yet
Apache Hadoop Developer Training
Document394 pages
Apache Hadoop Developer Training
Ashok Kumar K R
100% (1)
Shortnotes For Cloud
Document22 pages
Shortnotes For Cloud
Mahi Mahi
No ratings yet
Introduction To: Ma Ed
Document42 pages
Introduction To: Ma Ed
Aditya Wijayanto
No ratings yet
Unit - III Advanced Analytics Technology and Tools
Document44 pages
Unit - III Advanced Analytics Technology and Tools
Diksha Chhabra
No ratings yet
Unit 5 - Introduction To Hadoop
Document50 pages
Unit 5 - Introduction To Hadoop
Shree Shak
No ratings yet
Chapter 10
Document45 pages
Chapter 10
Sarita Samal
No ratings yet
Hadoop Ecosystem
Document26 pages
Hadoop Ecosystem
ain
No ratings yet
Unit 5 - Introduction To Hadoop
Document50 pages
Unit 5 - Introduction To Hadoop
Shree Shak
No ratings yet
Hadoop Dcs
Document31 pages
Hadoop Dcs
bt20cse155
No ratings yet
Hadoop Overview: Open Source Framework Processing Large Amounts of Heterogeneous Data Sets Distributed Fashion
Document62 pages
Hadoop Overview: Open Source Framework Processing Large Amounts of Heterogeneous Data Sets Distributed Fashion
Mousoomi Baruah
No ratings yet
HA200
Document4 pages
HA200
Adam Ong
No ratings yet
Big Data Camp Intro Hadoop
Document22 pages
Big Data Camp Intro Hadoop
indoos2000
No ratings yet
Hadoop and Big Data
Document41 pages
Hadoop and Big Data
Yukti Kaura
No ratings yet
BigData Hadoop Online Training by Experts
Document41 pages
BigData Hadoop Online Training by Experts
Harika583
No ratings yet
Introduction To HANA - Deep Dive
Document106 pages
Introduction To HANA - Deep Dive
Jithu Zithendra
No ratings yet
Big Data Processing, 2014/15: Lecture 8: Pig Latin!
Document58 pages
Big Data Processing, 2014/15: Lecture 8: Pig Latin!
sridhiya
No ratings yet
Apache Hadoop Developer Training PDF
Document394 pages
Apache Hadoop Developer Training PDF
imankit
No ratings yet
Spark Streaming
Document99 pages
Spark Streaming
monisha sydam
No ratings yet
Hadoop Is Good For:: 1. Describe The Core Components of Hadoop and Their Purpose
Document4 pages
Hadoop Is Good For:: 1. Describe The Core Components of Hadoop and Their Purpose
hatem magdy
No ratings yet
Hadoop - Hive
Document190 pages
Hadoop - Hive
Jhumri Talaiya
No ratings yet
Chapter 5 Hive
Document69 pages
Chapter 5 Hive
Komal
No ratings yet
Best Hadoop Online Training
Document41 pages
Best Hadoop Online Training
Harika583
No ratings yet
Hadoop Intro - Part1
Document45 pages
Hadoop Intro - Part1
nosopa5904
No ratings yet
Banking Data Analysis On Hadoop
Document21 pages
Banking Data Analysis On Hadoop
Shantanu
No ratings yet
Hadoop Ecosystem
Document16 pages
Hadoop Ecosystem
poojan thakkar
No ratings yet
ProgrammingHadoop ApacheConUS08
Document7 pages
ProgrammingHadoop ApacheConUS08
jefferyleclerc
No ratings yet
MapReduce Performance Prediction
Document29 pages
MapReduce Performance Prediction
Engin Sözer
No ratings yet
Module 2.2
Document32 pages
Module 2.2
Priyanka Bandagale
No ratings yet
Big Data - Final Project
Document2 pages
Big Data - Final Project
Mohammed Nabil Saeed Abdul Tawab
No ratings yet
OLTP: Numerous Short Transactions. Requires Fast Query Processing and
Document3 pages
OLTP: Numerous Short Transactions. Requires Fast Query Processing and
Jasmina Tacheva
No ratings yet
Introduction To Hive: Hive Meta Data Engine + Query Engine For Hadoop
Document15 pages
Introduction To Hive: Hive Meta Data Engine + Query Engine For Hadoop
Dheepika
No ratings yet
Unit V FRAMEWORKS AND VISUALIZATION
Document71 pages
Unit V FRAMEWORKS AND VISUALIZATION
Yash Deep
No ratings yet
Fundamentals of SAP HANA The Begining
Document59 pages
Fundamentals of SAP HANA The Begining
saphari76
No ratings yet
Unit 5 PIG&HIVE
Document115 pages
Unit 5 PIG&HIVE
Kishore Parimi
No ratings yet
Defense
Document28 pages
Defense
herr_jth
No ratings yet
Chapter 10 Part I - Ed
Document15 pages
Chapter 10 Part I - Ed
venakt2939
No ratings yet
Apache Pig
Document21 pages
Apache Pig
sachin rajput
No ratings yet
Hadoop Demo
Document14 pages
Hadoop Demo
vishnu
No ratings yet
Understanding Simple Finance
Document31 pages
Understanding Simple Finance
Binoi Joshi
No ratings yet
BigData Unit 2
Document15 pages
BigData Unit 2
Sreedhar Arikatla
No ratings yet
Reproducible Quantum Chemistry in Jupyter Notebooks
Document23 pages
Reproducible Quantum Chemistry in Jupyter Notebooks
Hari Madhavan Krishna Kumar
No ratings yet
Google App Engine
Document14 pages
Google App Engine
percybhai031
No ratings yet
Clickstream Data
Document38 pages
Clickstream Data
Kartik Gupta
No ratings yet
Cloudera Msazure Hadoop Deployment Guide
Document39 pages
Cloudera Msazure Hadoop Deployment Guide
Kristof
No ratings yet
Sen-762 Advanced Big Data Analytics: Mapreduce
Document46 pages
Sen-762 Advanced Big Data Analytics: Mapreduce
بالیراجپوت
No ratings yet
Exploring Bigdata With Hadoop: Dr.A.Bazila Banu Associate Professor Department of Cse
Document23 pages
Exploring Bigdata With Hadoop: Dr.A.Bazila Banu Associate Professor Department of Cse
MAMAN MYTHIEN S
No ratings yet
Parallel Cursor Method in Abap
Document3 pages
Parallel Cursor Method in Abap
fairwellmd
No ratings yet
Teradata Architecture
Document30 pages
Teradata Architecture
Gyara Prashanth Kumar
No ratings yet
By Christian Mechem and Geoff Crowley
Document11 pages
By Christian Mechem and Geoff Crowley
Christian Mechem
No ratings yet
12c Adaptive Optimization
Document46 pages
12c Adaptive Optimization
test yy
No ratings yet
Big Data Hadoop Stack
Document52 pages
Big Data Hadoop Stack
Yaser Ali Tariq
No ratings yet
2012 IBM TWA - SAP Demo Introduction
Document9 pages
2012 IBM TWA - SAP Demo Introduction
jay_kasundra
No ratings yet
Unit 1 Haoop Architecture
Document26 pages
Unit 1 Haoop Architecture
Anirudh Prakash
No ratings yet
Hadoop Beginner's Guide
From Everand
Hadoop Beginner's Guide
Garry Turkington
Rating: 4 out of 5 stars
4/5 (7)
Introduction To Database
Document8 pages
Introduction To Database
malhiavtarsingh
No ratings yet
Book
Document68 pages
Book
satyasap007
No ratings yet
Merge Statement
Document2 pages
Merge Statement
Liem Nguyen
No ratings yet
h15459 WP Powerscale Onefs Storage Efficiency - Pdf.external
Document15 pages
h15459 WP Powerscale Onefs Storage Efficiency - Pdf.external
qwrr rewq
No ratings yet
MySQL Security - 2019v2-2
Document71 pages
MySQL Security - 2019v2-2
abdiel Alveo
No ratings yet
Quiz
Document22 pages
Quiz
Aldo Erianda
No ratings yet
What Are The Diff Navigators Available in Odi?
Document43 pages
What Are The Diff Navigators Available in Odi?
Anonymous S5fcPa
No ratings yet
Privacy or Not - That Is The Question: Ivan Cirković Algebra College Icirkov@racunarstvo - HR
Document5 pages
Privacy or Not - That Is The Question: Ivan Cirković Algebra College Icirkov@racunarstvo - HR
Ivan Cirković
No ratings yet
Oracle LAB 6 Solution
Document7 pages
Oracle LAB 6 Solution
Malini Surianarayanan
No ratings yet
Info Written Exam 20156autum
Document2 pages
Info Written Exam 20156autum
Charles Cruz
No ratings yet
Documentation & Data Dictionary - IMDb and Box Office Mojo
Document39 pages
Documentation & Data Dictionary - IMDb and Box Office Mojo
Bill Chen
No ratings yet
Question Text: Correct Mark 1.00 Out of 1.00
Document12 pages
Question Text: Correct Mark 1.00 Out of 1.00
DominicOrtega
No ratings yet
A BAB Upgrade11i-R12 v1.0
Document158 pages
A BAB Upgrade11i-R12 v1.0
Mohammed Shoukat Ali
No ratings yet
AWS Certified Cloud Practitioner
Document18 pages
AWS Certified Cloud Practitioner
李楚楚
No ratings yet
Hurricane Electric Network Map
Document2 pages
Hurricane Electric Network Map
qazdec27
No ratings yet
mySQL Dump
Document16 pages
mySQL Dump
LUIGI JAVIER ACUNA
No ratings yet
Cs301 Mid Term Mega File
Document30 pages
Cs301 Mid Term Mega File
Usman Ghani Jehan
No ratings yet
Careers - Data Analytics Training - Internshala Trainings PDF
Document2 pages
Careers - Data Analytics Training - Internshala Trainings PDF
Abhilash Bhati
No ratings yet
Data Warehousing Case Studies .Compressed-1
Document8 pages
Data Warehousing Case Studies .Compressed-1
Zihni Thoriq
No ratings yet
Assignment - 1: Name: Branch: CSE Uid: Subject: DBMS
Document6 pages
Assignment - 1: Name: Branch: CSE Uid: Subject: DBMS
Chetan Raj
No ratings yet
MigrationGuide PDF
Document201 pages
MigrationGuide PDF
Martin Carrozzo
No ratings yet
IMK12 InfoVis
Document23 pages
IMK12 InfoVis
2IA21Yolenta Alfrida More
No ratings yet
Practical Assignment of Dbms
Document4 pages
Practical Assignment of Dbms
Anjali Verma
No ratings yet
Management Information Systems 13th Edition Laudon Solutions Manual Download
Document21 pages
Management Information Systems 13th Edition Laudon Solutions Manual Download
Penelope Torres
100% (17)
Oracle Database 11g: SQL Fundamentals I: Duration
Document4 pages
Oracle Database 11g: SQL Fundamentals I: Duration
abdulla
No ratings yet
Tulley
Document35 pages
Tulley
chand1255
No ratings yet
Distributed Database System And: Transaction-Processing
Document21 pages
Distributed Database System And: Transaction-Processing
Ermiyas Seife
No ratings yet