Welcome to Scribd!

Presented by Rahul Singh Roll No:-1503314918, MCA Rajkumare Goel Institute of Technology

Uploaded by

0% found this document useful (0 votes)

4 views17 pages

Hadoop is an open source framework that allows distributed processing of large datasets across clusters of computers. It has two major layers - a processing layer called MapReduce that distributes computations, and a storage layer called HDFS that stores data across nodes. When data is loaded into HDFS, the client breaks it into blocks and the namenode decides which datanodes to store each block on based on rack awareness. MapReduce jobs then process the data in parallel by splitting tasks into mappers that process key-value pairs and reducers that combine the outputs by key. Major companies like Facebook, Amazon and Yahoo use Hadoop for applications like log analysis, machine learning and data warehousing.

Original Description:

hadoop

Original Title

hadoop

Copyright

Available Formats

PPTX, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

4 views17 pages

Presented by Rahul Singh Roll No:-1503314918, MCA Rajkumare Goel Institute of Technology

Uploaded by

Rahul Singh

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 17

Search inside document

Presented by

Rahul Singh
Roll No:-1503314918 , MCA
Rajkumare Goel institute of technology
Contents
Introduction to Hadoop
Hadoop Architecture
HDFS Architecture
MapReduce
What is Hadoop
Hadoop is an Apache open source framework written in java that allows
distributed processing of large datasets across clusters of computers using
simple programming models. The Hadoop framework application works in
an environment that provides distributed storage and computation across
clusters of computers.
Hadoop Architecture
At its core, Hadoop has two major layers namely:
(a) Processing/Computation layer (MapReduce),
(b) Storage layer (Hadoop Distributed File System).
Hadoop core components
Hadoop Cluster
Hadoop cluster is a special type of computational cluster designed
for storing and analyzing vast amount of unstructured data in a
distributed computing environment. These clusters run on low cost
commodity computers.
Hadoop cluster has 3
components:

Client

Master

slave
HDFS Architecture
Hadoop- Typical Workflow in
HDFS
Let's try to find out answers of these questions
Take the example of input file as Sample.txt.

How Sample.txt gets loaded into the

Hadoop Cluster?

Client machine does this step and loads the

Sample.txt into cluster. It breaks the sample.txt
into smaller chunks which are known
as "Blocks" in Hadoop context. Client put
these blocks on different machines (data
nodes) throughout the cluster.
Next, how does the Client knows that to
which data nodes load the blocks?

Now NameNode comes into picture. The

NameNode used its Rack Awareness
intelligence to decide on which DataNode
to provide. For each of the data block (in
this case Block-A, Block-B and Block-C),
Client contacts NameNode and in
response NameNode sends an ordered list
of 3 DataNodes.

For example in response to Block-A

request, Node Name may send DataNode-
2, DataNode-3 and DataNode-4.
Who does the block replication?
MapReduce Overview
A method for distributing computation
across multiple nodes
Each node processes the data that is
stored at that node
The Mapper
Reads data as key/value pairs
The key is often discarded
Outputs zero or more key/value pairs
The Reducer
Called once for each unique key
Gets a list of all values associated with a
key as input
The reducer outputs zero or more final
key/value pairs
Usually just one output per input key
MapReduce: Word Count
Who uses Hadoop

Presentation: Hadoop Technology
Document15 pages
Presentation: Hadoop Technology
Rahul Singh
No ratings yet
BDA Lab Assignment 4 PDF
Document21 pages
BDA Lab Assignment 4 PDF
parth shah
No ratings yet
Unit Iv-1
Document84 pages
Unit Iv-1
keerthanavelmurugan02
No ratings yet
Big Data Module 2
Document23 pages
Big Data Module 2
Srikanth M
No ratings yet
Hadoop Bitcoin-BlockChain - A New Era Needed in Distributed Computing
Document7 pages
Hadoop Bitcoin-BlockChain - A New Era Needed in Distributed Computing
pacdox
No ratings yet
Untitled
Document37 pages
Untitled
asha
No ratings yet
BDA All Modules
Document72 pages
BDA All Modules
v h
No ratings yet
Unit III
Document86 pages
Unit III
Farhan Sj
No ratings yet
Nosql and Hadoop Technologies On Oracle Cloud: Volume 2, Issue 2, March - April 2013
Document6 pages
Nosql and Hadoop Technologies On Oracle Cloud: Volume 2, Issue 2, March - April 2013
International Journal of Application or Innovation in Engineering & Management
No ratings yet
Introduction To Big Data and Hadoop
Document29 pages
Introduction To Big Data and Hadoop
Manoj K Upadhyaya
100% (1)
Cloud Computing - Unit 5 Notes
Document33 pages
Cloud Computing - Unit 5 Notes
steffinamorin L
No ratings yet
Big Data and Hadoop: by - Ujjwal Kumar Gupta
Document57 pages
Big Data and Hadoop: by - Ujjwal Kumar Gupta
Ujjwal Kumar Gupta
No ratings yet
Shortnotes For Cloud
Document22 pages
Shortnotes For Cloud
Mahi Mahi
No ratings yet
Unit - III Advanced Analytics Technology and Tools
Document44 pages
Unit - III Advanced Analytics Technology and Tools
Diksha Chhabra
No ratings yet
Kcs 061 PPT Unit 2
Document56 pages
Kcs 061 PPT Unit 2
PRACHI ROSHAN
No ratings yet
Hdfs Architecture and Hadoop Mapreduce
Document10 pages
Hdfs Architecture and Hadoop Mapreduce
Nishkarsh Shah
No ratings yet
Unit V FRAMEWORKS AND VISUALIZATION
Document71 pages
Unit V FRAMEWORKS AND VISUALIZATION
Yash Deep
No ratings yet
Q1. Discuss Hadoop and Map Reduce Algorithm.: Data Is Located
Document7 pages
Q1. Discuss Hadoop and Map Reduce Algorithm.: Data Is Located
Hîмanî Jayas
No ratings yet
Bigdata Module2 7th-Sem 18cs72
Document64 pages
Bigdata Module2 7th-Sem 18cs72
ram patil
No ratings yet
1) Hadoop Basics
Document86 pages
1) Hadoop Basics
angeline
No ratings yet
Big Data & Hadoop - Machine Learning: Ajay Kumar Assistant Professor-I Department of Computer Science & Engineering
Document37 pages
Big Data & Hadoop - Machine Learning: Ajay Kumar Assistant Professor-I Department of Computer Science & Engineering
Dank Boii
No ratings yet
Cloud Computing - Unit 3
Document38 pages
Cloud Computing - Unit 3
lightfreezzer
No ratings yet
Hadoop Ecosystem
Document58 pages
Hadoop Ecosystem
pechaporn
No ratings yet
Hadoop Overview: Open Source Framework Processing Large Amounts of Heterogeneous Data Sets Distributed Fashion
Document62 pages
Hadoop Overview: Open Source Framework Processing Large Amounts of Heterogeneous Data Sets Distributed Fashion
Mousoomi Baruah
No ratings yet
Module 2. 16974328568170
Document113 pages
Module 2. 16974328568170
Sagar B S
No ratings yet
Module 2 Hadoop
Document23 pages
Module 2 Hadoop
additiladdha
No ratings yet
Hadoop, A Distributed Framework For Big Data
Document55 pages
Hadoop, A Distributed Framework For Big Data
sonia choudhary
No ratings yet
BDA Lab Assignment 2
Document18 pages
BDA Lab Assignment 2
parth shah
No ratings yet
Hadoop Major Components
Document10 pages
Hadoop Major Components
aswagada
No ratings yet
BDA - II Sem - II Mid
Document4 pages
BDA - II Sem - II Mid
Polikanti Goutham
100% (1)
CC Unit-5
Document33 pages
CC Unit-5
Rajamanikkam Rajamanikkam
No ratings yet
HuynhLyMinhChuong HadoopMapReduceAssignment
Document16 pages
HuynhLyMinhChuong HadoopMapReduceAssignment
Huỳnh Lý Minh Chương
No ratings yet
Hadoop Mapreduce Assigment
Document16 pages
Hadoop Mapreduce Assigment
Huỳnh Lý Minh Chương
No ratings yet
Bda - Unit 2
Document56 pages
Bda - Unit 2
Kajal Vaniya
No ratings yet
Hadoop Cluster
Document14 pages
Hadoop Cluster
Shah Momtaj Ala Hriday 171-15-8834
No ratings yet
Efficient Ways To Improve The Performance of HDFS For Small Files
Document5 pages
Efficient Ways To Improve The Performance of HDFS For Small Files
Yassine Zrigui
No ratings yet
Exploring Bigdata With Hadoop: Dr.A.Bazila Banu Associate Professor Department of Cse
Document23 pages
Exploring Bigdata With Hadoop: Dr.A.Bazila Banu Associate Professor Department of Cse
MAMAN MYTHIEN S
No ratings yet
BDC Previous Papers 2 Marks
Document7 pages
BDC Previous Papers 2 Marks
Roshan Mallipeddi
100% (1)
Kcs061 Unit 2
Document60 pages
Kcs061 Unit 2
Sachin
No ratings yet
Hadoop Dcs
Document31 pages
Hadoop Dcs
bt20cse155
No ratings yet
Prepared By: Manoj Kumar Joshi & Vikas Sawhney
Document47 pages
Prepared By: Manoj Kumar Joshi & Vikas Sawhney
kavitha
No ratings yet
Introduction To Hadoop
Document52 pages
Introduction To Hadoop
anytingac1
No ratings yet
Lect7 IoT BigData1
Document28 pages
Lect7 IoT BigData1
Eng:Mostafa Morsy Mohamed
No ratings yet
Data Engineer Interview Questions
Document16 pages
Data Engineer Interview Questions
junaid
No ratings yet
Unit 1 Haoop Architecture
Document26 pages
Unit 1 Haoop Architecture
Anirudh Prakash
No ratings yet
BDA Mod2@AzDOCUMENTS - in
Document64 pages
BDA Mod2@AzDOCUMENTS - in
ramya
No ratings yet
Unit 5 - Introduction To Hadoop
Document50 pages
Unit 5 - Introduction To Hadoop
Shree Shak
No ratings yet
Big Data-Module 1 - VTU Aug 2020 Solved Paper
Document10 pages
Big Data-Module 1 - VTU Aug 2020 Solved Paper
Harmeet Singh
No ratings yet
Unit - II
Document64 pages
Unit - II
praneelp2000
No ratings yet
Lecture 1
Document55 pages
Lecture 1
George Okemwa
No ratings yet
Hadoop Presentaton
Document47 pages
Hadoop Presentaton
Jhumri Talaiya
No ratings yet
Hadoop Important Lecture
Document38 pages
Hadoop Important Lecture
affanabbasi015
No ratings yet
BDA Lab Assignment 3 PDF
Document17 pages
BDA Lab Assignment 3 PDF
parth shah
No ratings yet
Business Intelligence & Big Data Analytics-CSE3124Y
Document26 pages
Business Intelligence & Big Data Analytics-CSE3124Y
splokbov
No ratings yet
CC Unit 5
Document43 pages
CC Unit 5
prassadyashwin
No ratings yet
NYOUG Hadoop Presentaton
Document47 pages
NYOUG Hadoop Presentaton
V Kalyan
No ratings yet
Data Encoding Principles Assignment 1
Document4 pages
Data Encoding Principles Assignment 1
Abhishek Acharya
No ratings yet
Unit 2 Hadoop
Document60 pages
Unit 2 Hadoop
Swetha
No ratings yet
Exploring Hadoop Ecosystem (Volume 2): Stream Processing
From Everand
Exploring Hadoop Ecosystem (Volume 2): Stream Processing
Wei Liu
No ratings yet
Learn Hive in 24 Hours
From Everand
Learn Hive in 24 Hours
Alex Nordeen
No ratings yet
Lecture-13-14 Parallel and Distributed Systems Programming Models-Jameel
Document70 pages
Lecture-13-14 Parallel and Distributed Systems Programming Models-Jameel
Abdul Barii
No ratings yet
Middleware
Document31 pages
Middleware
Don Sunny
No ratings yet
What Is The Hadoop Ecosystem?
Document4 pages
What Is The Hadoop Ecosystem?
Maanit Singal
No ratings yet
3.7 Producer Consumer Problem
Document4 pages
3.7 Producer Consumer Problem
vinitha
No ratings yet
Question Bank - Big Data Analytics - Final1
Document6 pages
Question Bank - Big Data Analytics - Final1
Kajal Vaniya
No ratings yet
610 Parsed HTTP Proxies With Kidux Proxy Scraper
Document11 pages
610 Parsed HTTP Proxies With Kidux Proxy Scraper
aabdo
No ratings yet
Unit3 CAT-II
Document12 pages
Unit3 CAT-II
CodeYt With
No ratings yet
UNIT-3: Introduction To Parallel Database and I/O Parallelism
Document52 pages
UNIT-3: Introduction To Parallel Database and I/O Parallelism
preetham r
No ratings yet
CH 6
Document39 pages
CH 6
Souradeep Gupta
No ratings yet
Slides 08 PDF
Document95 pages
Slides 08 PDF
Robin Rohit
No ratings yet
Process Synchronization - CH 6&7
Document85 pages
Process Synchronization - CH 6&7
Ravinder K Singla
No ratings yet
The Best Blockchain Developer Tools
Document6 pages
The Best Blockchain Developer Tools
jeet
No ratings yet
Database Transaction: Management
Document21 pages
Database Transaction: Management
Piyush Pushkar
No ratings yet
Blockchain Technologies
Document26 pages
Blockchain Technologies
marius
No ratings yet
17 03 2021
Document3 pages
17 03 2021
Ojjkko
No ratings yet
Introduction To Middleware Technologies
Document30 pages
Introduction To Middleware Technologies
athulsai
No ratings yet
Big Data Storage Comparison
Document472 pages
Big Data Storage Comparison
adwaitb
No ratings yet
CSC 321 Operating System
Document90 pages
CSC 321 Operating System
Kelly Brown
No ratings yet
Amazon Web Services
Document2 pages
Amazon Web Services
rob_howard_12
No ratings yet
Unit 2 Lecture - 04 - HDFS PDF
Document40 pages
Unit 2 Lecture - 04 - HDFS PDF
Vaibhavi Sangawar
No ratings yet
Hdfs Basics, Running Example Programs and Benchmarks, Hadoop Mapreduce Framework, Mapreduce Programming
Document144 pages
Hdfs Basics, Running Example Programs and Benchmarks, Hadoop Mapreduce Framework, Mapreduce Programming
Vaishnavi S M
No ratings yet
Intro Hadoop Ecosystem Components, Hadoop Ecosystem Tools
Document15 pages
Intro Hadoop Ecosystem Components, Hadoop Ecosystem Tools
Rebecca tho
No ratings yet
RTOS Unit 5 MCQ
Document10 pages
RTOS Unit 5 MCQ
Pradnya Navale
No ratings yet
ThinStation Thin Client Setup - 0.1
Document4 pages
ThinStation Thin Client Setup - 0.1
Joudrey Joel
No ratings yet
+ or Cryptopotato - Com or U.today-Domain Domains-Us
Document128 pages
+ or Cryptopotato - Com or U.today-Domain Domains-Us
Malkeet Singh
No ratings yet
Blockchain Unconfirmed Transaction Hack Free Script
Document7 pages
Blockchain Unconfirmed Transaction Hack Free Script
Believecheck
No ratings yet
Blockchain Syllabus
Document2 pages
Blockchain Syllabus
M B Reddy
No ratings yet
Seminar On Cloud Computing: Presented By:-Abhishek Bisht MCA
Document19 pages
Seminar On Cloud Computing: Presented By:-Abhishek Bisht MCA
abbu03
No ratings yet
Blockchain Technology Beyond Bitcoin: A Seminar Report On
Document30 pages
Blockchain Technology Beyond Bitcoin: A Seminar Report On
Sanjeev Kumar
No ratings yet
5-Chapter Five - Concurrency
Document51 pages
5-Chapter Five - Concurrency
Imamudin Johar
No ratings yet