You are on page 1of 3

 

Why do we need Staging Area during ETL Load
Written by DWBIConcepts Team Last Updated: 31 December 2014

"We have a simple data warehouse that takes data from a few RDBMS source systems and load the data in
dimension and fact tables of the warehouse. I wonder why we have a staging layer in between. Why can’t
we process everything on the fly and push them in the data warehouse?"

Last night, I received this question from one of the members of DWBIConcepts community over email and
thought of discussing the pros and cons of having a staging layer in this article.

Really  staging  area  is  not  a  necessity  if  we  can  handle  it  on  the  fly.  But  can  we?  Here  are  a  few  reasons
why you can’t avoid a staging area:

1. Source systems are only available for extraction during a specific time slot which is generally lesser
than  your  overall  data  loading  time.  It’s  a  good  idea  to  extract  and  keep  things  at  your  end  before
you lose the connection to the source systems.

2. You  want  to  extract  data  based  on  some  conditions  which  require  you  to  join  two  or  more  different
systems  together.  E.g.  you  want  to  only  extract  those  customers  who  also  exist  in  some  other
system. You will not be able to perform a SQL query joining two tables from two physically different
databases.

3. Various source systems have different allotted timing for data extraction.

4. Data  warehouse’s  data  loading  frequency  does  not  match  with  the  refresh  frequencies  of  the  source
systems.

5. Extracted  data  from  the  same  set  of  source  systems  are  going  to  be  used  in  multiple  places  (data
warehouse loading, ODS loading, third­party applications etc.)

6. ETL process involves complex data transformations that require extra space to temporarily stage the
data

7. There  is  specific  data  reconciliation  /  debugging  requirement  which  warrants  the  use  of  staging  area
for pre, during or post load data validations

Clearly  staging  area  gives  lot  flexibility  during  data  loading.  Shouldn't  we  have  a  separate  staging  area
always then? Is there any impact of having a stage area? Yes there are a few.

1. Staging area increases latency – that is the time required for a change in the source system to take
effect in the data warehouse. In  lot  of  real  time  /  near  real  time  applications,  staging  area  is  rather
avoided.

2. Data in the staging area occupies extra space.

To  me,  in  all  practical  senses,  the  benefit  of  having  a  staging  area  outweighs  its  problems.  Hence,  in
general I will suggest designating a specific staging area in data warehousing projects.

Prev (/etl/etl/53­methods­of­incremental­loading­in­data­warehouse)

Next (/etl/etl/25­data­integration)

Do you know the answer?
Which of the following is not a database?

Oracle
MS SQL Server
Hadoop
MySQL
Submit

Popular
Top 20 SQL Interview Questions with Answers (/database/sql/72­top­20­sql­interview­questions­with­answers)

Best Informatica Interview Questions & Answers (/etl/informatica/131­important­practical­interview­questions)

Top 50 Data Warehousing/Analytics Interview Questions and Answers (/data­modelling/dimensional­model/58­
top­50­dwbi­interview­questions­with­answers)

Top 50 DWBI Interview Questions with Answers ­ Part 2 (/data­modelling/dimensional­model/59­top­50­dwbi­
interview­questions­with­answers­part­2)

The 101 Guide to Dimensional Data Modeling (/data­modelling/dimensional­model/1­dimensional­modeling­
guide)

Top 30 BusinessObjects interview questions (BO) with Answers (/analysis/business­objects/69­top­
businessobjects­interview­questions)

Also Read
Building the Next Generation ETL data loading Framework (/etl/etl/56­etl­data­load­framework­rfc)

Incremental Loading for Dimension Table (/etl/etl/54­incremental­loading­for­dimension­table)

ETL Design Pattern (/etl/etl­design­pattern/57­etl­design­pattern)

Business Intelligence Certification (/etl/etl/2­uncategorised/179­business­intelligence­certification)

Using Informatica Normalizer Transformation (/etl/informatica/147­using­informatica­normalizer­
transformation)

Have a question on this subject?
Ask questions to our expert community members and clear your doubts. Asking question or engaging in
technical discussion is both easy and rewarding.

Ask a Question, we'll Answer

Are you on Twitter?
Start following us. This way we will always keep you updated with what's happening in Data Analytics
community. We won't spam you. Promise.

Follow @dwbic

About Us
Data Warehousing and Business Intelligence Organization™ ­ Advancing Business Intelligence
DWBI.org is a professional institution created and endorsed by veteran BI and Data Analytics professionals
for the advancement of data­driven intelligence

Join Us (/dwbi.org/component/easysocial/login) | Submit an article (/contribute) | Contact Us (/contact)

Copyright
 (https://creativecommons.org/licenses/by­nc­sa/4.0/)

Except where otherwise noted, contents of DWBI.ORG by Intellip LLP (http://intellip.com) is licensed under
a Creative Commons Attribution­NonCommercial­ShareAlike 4.0 International License.

Privacy Policy (/privacy) | Terms of Use (/terms)

Get in touch

 (https://www.facebook.com/datawarehousing)   (https://twitter.com/dwbiconcepts) 

(https://www.linkedin.com/company/dwbiconcepts)   (https://www.youtube.com/dwbiconcepts)

 (https://plus.google.com/b/105042632846858744029)

Security
 (https://www.beyondsecurity.com/vulnerability­scanner­verification/dwbi.org)

You might also like