You are on page 1of 15

LECTURE NOTES #12

ENDOGENITAS

I. Pendahuluan
Salah satu asumsi yang perlu dipertahankan agar kita dapat memperoleh
estimator tidak bias dari suatu persamaan regresi dengan OLS adalah tidak
adanya korelasi antara variabel bebas dengan residual, atau Cov(x,u)=0.
Namun demikian dalam praktek empiris asumsi ini sangat mungkin tidak
terpenuhi.

Terdapat dua penyebab utama mengapa pelanggaran asumsi ini terjadi,


yakni
1. Omitted Variable, yang terjadi jika kita tidak memasukkan suatu
variabel kedalam model (dan seharusnya ia ada). Akibatnya ketika y dan
x bervariasi maka u juga bervariasi pada arah yang dapat diduga.
2. Simultaneity, yang terjadi akibat adanya variabel penjelas yang
seharusnya bersama dengan variabel tergantung nilainya ditentukan
melalui suatu system. Hal ini terjadi ketika regresor dan salah
satu/beberapa regresan dipengaruhi oleh satu/lebih variabel yang tidak
ada pada model regresi (diluar model).
Kedua pelanggaran asumsi ini masuk dalam masalah yang disebut
endogenitas.

Akibat adanya endogenitas adalah estimator yang diperoleh menjadi bias


dan tidak konsisten (bahkan dengan meningkatkan jumlah sample).
Permasalahan ini perlu diatasi dengan teknik khusus diantaranya
Instrumental Variabel (IV), Two Stage Least Squares (2SLS) dan Indirect
Least Squares (ILS).

II. Implikasi Endogenitas


Untuk menunjukkan bias yang timbul akibat mengestimasi model dengan
masalah endogenitas dapat ditunjukkan dengan model permintaan-
penawaran sederhana suatu komoditas sbb:

qt = α1 pt + ε t ; α1 > 0 ………………………1)
qt = β1 pt + β 2 yt + vt ; β1 < 0, β 2 > 0 ………………………2)

Persamaan 1 adalah fungsi supply dan persamaan 2 adalah fungsi demand.


Kedua persamaan ini disebut dengan behavioural equation karena
menunjukkan perilaku suatu agen ekonomi. Persamaan 1 dan 2 adalah
suatu contoh klasik dari simultanitas.

Kita dapat menyelesaikan system persamaan diatas dalam 2 variabel


endogen (yakni qt dan pt) sebagai fungsi dari parameter, variabel eksogen
dan error term sbb:

1
β2 vt − et
pt = yt + = π 11 yt + u1t ………………………3)
α1 − β1 α1 − β1
αβ α v − β1et
qt = 1 2 yt + 1 t = π 21 yt + u2t ………………………4)
α1 − β1 α1 − β1
Jika kita mengestimasi persamaan 1 dengan OLS tanpa memperhatikan
kenyataan bahwa nilainya ditentukan didalam suatu system (persamaan 3
dan 4), maka kita akan memperoleh hasil yang bias. Hal ini dapat dilihat
dari estimator α1 sbb

α1 =
∑ p q = ∑ p (α p + ε ) = ∑ α p
t t t 1 t t 1 t
2

+
∑ pε
t t

∑p 2
t ∑p ∑p 2
t
2
t ∑p 2
t

=α +
∑ pε t t

∑p
1 2 ………………………5)
t

Komponen dengan error term disebelah kanan persamaan 5 tidak akan


bernilai nol bahkan secara asimtotik. Hal ini disebabkan karena E(ptεt)≠0.
Dari persamaan 3 diketahui bahwa pt adalah fungsi dari εt sehingga
covariansnya tidak akan sama dengan nol.

III. Masalah Identifikasi (Order Condition)


Jika masalah simultanitas/endogenitas terjadi maka diperlukan suatu
teknik yang memungkinkan estimasi parameter persamaan 1 dan 2 secara
tidak bias. Sebelum pembahasan kepada teknik yang relevan perlu terlebih
dahulu ditentukan apakah parameter dimaksud memang dapat diestimasi.
Tidak semua masalah simultanitas dapat diselesaikan. Salah satu necessary
condition adalah terdapatnya kondisi teridentifikasi (identified).

Dalam bahasa sederhananya kondisi identified diperoleh jika kita memiliki


cukup banyak informasi/data yang memungkinkan estimasi suatu
parameter model. Ketersediaan informasi ini dapat berwujud sebagai
kecukupan jumlah variabel eksogen dan terdapatnya instrumen variabel.

Sebagai gambaran permasalahan indetifikasi, kita dapat


mengilustrasikannya pada model permintaan-penawaran yang telah
diuraikan sebelumnya. Dalam praktek empiris data yang dimiliki
sebenarnya adalah data posisi ekuilibrium, dimana demand bertemu
dengan supply. Dengan demikian tanpa adanya informasi tambahan baik

2
dari sisi demand maupun supply maka tidak mungkin bagi kita untuk
memulihkan fungsi demand dan supply dari data ekuilibrium dimaksud.

Grafik 1. Identifikasi fungsi demand

Jika kita memiliki suatu variabel eksogen pada fungsi supply misalnya
tingkat upah, maka dengan menggunakan nilai berbagai tingkat upah (yang
lain konstan, ceteris paribus) kita dapat mendeteksi fungsi demand. Pada
grafik 1 dapat dilihat peningkatan upah akan menggeser kurva supply keatas
sehingga kita dapat memperoleh kurva demand.

Dalam kondisi ini fungsi demand dapat dikatakan teridentifikasi. Pada


model permintaan dan penawaran yang ada, fungsi supply dapat dikatakan
terindetifikasi karena kita memiliki shifting variabel pada fungsi demand
yakni y (penghasilan) namun demikian fungsi demand adalah tidak
teridentifikasi (under identified) karena kita tidak memiliki variabel
penggeser pada fungsi supply. Dengan demikian kita dapat mengestimasi
parameter pada fungsi supply (α1) tetapi tidak parameter fungsi demand.

Dalam kasus dua persamaan simultan, permasalahan identifikasi seperti


diatas dapat diatasi dengan memasukkan paling tidak satu shifting variable
(disebut juga variabel eksogen) kedalam masing-masing fungsi permintaan
dan penawaran. Shifting variabel ini tidak boleh sama, karena kita kembali
tidak dapat mengidentifikasi masing-masing kurva. Seandainya kita
memasukkan variabel suku bunga kedalam fungsi demand dan juga supply,
maka dengan mengubah suku bunga tidak hanya kurva demand yang
bergerak tetapi juga supply sehingga proses identifikasi menjadi gagal.
Syarat ini disebut dengan order condition.

Hal ini dapat digeneralisir untuk suatu system persamaan yang lebih
kompleks (terdiri dari 3 atau lebih variabel endogen). Syarat pertama yang
diperlukan tentunya system ini memenuhi kaidah matematis penyelesaian
system persamaan linear (lihat Chiang & Wright, 2005). Orde condition
selanjutnya dapat ditentukan dengan melihat apakah satu persamaan

3
memiliki jumlah variabel eksogen yang dikeluarkan (excluded) yang sama
dengan atau lebih besar dari pada variabel endogen yang ada disisi sebelah
kanan.

Sebagai contoh misalnya kita akan mengestimasi parameter suatu model IS-
LM, sbb

Y = C (Y ) + I (r ) + G + NX (e)
C = c0 + c1Y
I = αr
………………………5)
NX = β e
M = m1Y + m2 r
r = rf + θ ( e − e)

Sistem ini dapat disederhanakan menjadi

Y = c0 + c1Y + α r + G + β e ………………………6)
M = m1Y + m2 r ………………………7)
r = rf + θ ( e − e) ………………………8)

Ini adalah suatu system dengan 3 variabel endogen (Y,r dan e) serta 5
variabel eksogen(M, c0,G,rf,dane ). Persamaan 1 adalah teridentifikasi
karena jumlah variabel eksogen yang dikeluarkan yakni e dan rf adalah
sama dengan jumlah variabel endogen disebelah kanan (yakni r dan e).
Persamaan 2 adalah teridentifikasi karena jumlah variabel eksogen yang
dikeluarkan (5 buah) lebih besar dari variabel endogen sisi sebelah kanan (2
buah). Demikian juga persamaan 3, ia adalah identified. Jika order
condition terpenuhi dalam kondisi strict (lebih besar) maka persamaan
disebut dengan overidentified.

IV. Teknik Estimasi


Permasalahan endogenitas tidak selalu diturunkan dari teori ekonomi
seperti yang telah diuraikan diatas. Omitted variable juga menyebabkan
permasalahan endogenitas. Disini perubahan variabel y tidak hanya
disebabkan oleh variabel bebas x, namun dengan berubahnya y, x juga
mungkin berubah. Terkait dengan omitted variabel, hal ini terjadi karena
adanya korelasi antara variabel x dan error term (u). Jika permasalahan
endogenitas disebabkan hal semacam ini maka metoda Instrumental
Variabel (IV) akan dapat digunakan.

4
IV.a. Instrumental Variable (IV)
Misalnya kita akan mengestimasi hubungan antara upah yang diperoleh
(log(wage)) dengan pendidikan (duc) dan variabel kapasitas kerja (abil),
sbb:

log( wage) = β 0 + β1educ + β 2 abil + e ………………………9)


Selanjut asumsikan kita tidak dapat memperoleh proxy yang baik untuk
abil, sehingga diputuskan untuk menggabungkannya dengan error term.,
atau

log( wage) = β 0 + β1educ + u ……………………10)

Jika educ dan abil tidak berhubungan maka estimator OLS yang diperoleh
adalah tidak bias. Sebaliknya jika kedua variabel ini berhubungan, maka
memasukkan secara eksplisit variabel abil akan menyebabkan estimator
yang diperoleh bersifat bias.

Kita dapat tetap menggunakan persamaan 10 dengan menggunakan suatu


instrumental variabel terhadap educ. Suatu instrumental variabel adalah
suatu variabel lain, sebut saja sebagai z, dimana ia memenuhi asumsi
1. z adalah tidak berkorelasi terhadap u

Cov( z , u ) = 0 ……………………11)

2. z adalah berkorelasi dengan x (dalam contoh ini berarti educ).

Cov( z , x) ≠ 0 ……………………12)

Perhatikan bahwa IV bukan proxy variabel terhadap abil. Sebaliknya ia


justru tidak boleh berkorelasi dengan abil, karena abil sekarang telah
digabungkan dengan error term (u). Dengan demikian proxy yang baik
untuk abil justru bukan kandidat IV yang baik. Beberapa kandidat IV yang
dapat dipertimbangkan pada contoh ini misalnya pendidikan ayah/ibu,
lokasi rumah dari tempat pendidikan, kuartal kelahiran, dsb. Dapat dilihat
bahwa variabel-variabel tersebut memiliki korelasi dengan educ tetapi
tidak/kurang berkorelasi dengan u. Wooldrige (2005) menyarankan agar
dalam pemilihan IV agar dilakukan berdasarkan auxiliary regression antara
variabel bebas (educ) dengan kandidat IV. IV terpilih dilakukan
berdasarkan tingkat signifikansi dan model fit tertinggi.

Jika kita menggunakan IV sebagai penggati regressor semula maka perlu


diperhatikan adanya perubahan dalam perhitungan statistik inferensi.
Dengan asumsi 11, 12 dan homokedastisitas maka varians dari β1 adalah

5
σ2
var( β1 ) = ……………………13)
nσ x2 ρ x2, z

dimana sebagai penduga tak bias dari σ2, kita dapat menggunakan residual
kuadrat model semula, atau

1 n 2
σˆ =
2
∑ uˆi ;
n − 2 i =1
……………………14)

uˆi = yi − βˆ0 − βˆ1 xi ; i = 1,..., n


Sedangkan penduga bagi σx2 adalah varians dari data x dan ρ2x,z diperoleh
dari koefisien determinasi regresi x terhadap z.

Perhatikan bahwa kita tidak dapat menggunakan statistik R2 pada


perhitungan IV. Hal ini disebabkan ketika x dan u berkorelasi maka, varians
dari tidak dapat didekomposisi menjadi varians x dan varians residual,
sehingga statistik R2 tidak memiliki arti sesuai yang dikehendaki.

Penggunaan teknik IV dalam kerangka multiple regression memiliki nama


dan teknik khusus yang disebut dengan Two Stage Least Squares (2SLS).
Kita akan membahasnya pada bagian tersendiri.

Contoh 1
Kita menggunakan data dari Mroz.raw. Disini kita mencoba mengestimasi
hubungan antara tingkat upah (log(wage)) terhadap pendidikan. Terdapat
banyak sekali variabel yang berpengaruh terhadap tingkat upah sehingga
model yang hanya memasukkan variabel pendidikan sebagai penjelas sangat
mungkin sekali mengalami omitted variabel (dan berarti endogenitas).

Untuk mengatasi hal ini kita akan menggunakan variabel pendidikan ayah
sebagai IV bagi educ. Untuk pembanding pertama kita akan melakukan
regresi tanpa IV (hanya OLS), dengan hasil sbb

Dependent Variable: LOG(WAGE)


Method: Least Squares
Date: 06/29/08 Time: 20:26
Sample: 1 753 IF WAGE<>NA
Included observations: 428

Variable Coefficient Std. Error t-Statistic Prob.

C -0.185197 0.185226 -0.999843 0.3180


EDUC 0.108649 0.014400 7.545125 0.0000

6
R-squared 0.117883 Mean dependent var 1.190173
Adjusted R-squared 0.115812 S.D. dependent var 0.723198
S.E. of regression 0.680032 Akaike info criterion 2.071309
Sum squared resid 197.0010 Schwarz criterion 2.090276
Log likelihood -441.2600 F-statistic 56.92891
Durbin-Watson stat 1.984707 Prob(F-statistic) 0.000000

Tabel 1. Print Output Hasil Regresi Contoh 1 Metoda OLS


Dapat dilihat pada tabel 1, return terhadap pendidikan adalah hampir
sebesar 11% (1 tahun peningkatan pendidikan akan meningkatkan upah
sebesar 11%). Teknik IV pada Eviews dapat diterapkan dengan mengklik
window estimate, pilih metoda TSLS (Two Stage Least Squares) dan
masukkan fatheduc sebagai instrument. Hasil yang diperoleh adalah

Dependent Variable: LOG(WAGE)


Method: Two-Stage Least Squares
Date: 06/29/08 Time: 20:31
Sample: 1 753 IF WAGE<>NA
Included observations: 428
Instrument list: FATHEDUC

Variable Coefficient Std. Error t-Statistic Prob.

C 0.441103 0.446102 0.988795 0.3233


EDUC 0.059173 0.035142 1.683850 0.0929

R-squared 0.093438 Mean dependent var 1.190173


Adjusted R-squared 0.091310 S.D. dependent var 0.723198
S.E. of regression 0.689390 Sum squared resid 202.4601
Durbin-Watson stat 1.968194 Second-stage SSR 221.9799

Tabel 2. Print Output Hasil Regresi Contoh 1 Metoda IV

Dapat dilihat disini return terhadap pendidikan turun menjadi 6%.


Mengingat model OLS sangat mungkin mengalami masalah omitted
variabel maka nilai yang diperoleh melalui IV dapat dikatakan lebih valid.

IV.b. Two Stage Least Squares (2SLS)


Kita dapat menggeneralisir kesimpulan diatas untuk kasus regresi berganda
k variabel dimana paling tidak terdapat satu variabel penjelas adalah
bersifat endogen (berkorelasi dengan error term). Hal yang dilakukan
adalah menambah variabel eksogen baru diluar yang sudah ada untuk
menjadi IV bagi variabel endogen.

Sebagai ilustrasi perhatikan model regresi berikut:

7
y1 = β 0 + β1 y2 + β 2 z1 + ... + β k −1 zk −1 + ui ……………………15)

Disini kita menotasikan y sebagai variabel endogen dan z sebagai variabel


eksogen. Kita mengasumsikan bahwa y2 adalah berkorelasi dengan ui,
sehingga ia adalah endogen. Estimasi persamaan 15 dengan menggunakan
OLS akan menghasilkan hasil yang bias dan tidak konsisten untuk itu kita
menggunakan IV.

Selanjutnya misalkan kita dapat memperoleh variabel eksogen baru zk yang


berkorelasi terhadap y2 tetapi tidak dengan u. Dengan demikian kita dapat
menyusun suatu reduced form, sbb

y2 = π 0 + π 1 z1 + π 2 z2 + ... + π k zk + v2 ……………………16)

Persamaan 16 disebut dengan reduced form, karena ia menunjukkan


variabel endogen sebagai fungsi dari seluruh variabel eksogen. Agar zk valid
sebagai IV bagi y2 maka koefisien πk harus signifikan pada test dua arah.
Catatan: kita tidak terlalu memperhatikan tingkat signifikansi dari koefisien
lainnya (πj j=1,…,k-1). Asumsi lainnya yang perlu diperhatikan adalah bahwa
tidak terdapar kolinearitas sempurna dari variabel z.

Perhatikan bahwa dalam persamaan 16 kita telah memiliki suatu IV sebagai


bentuk multiple instruments (setiap variabel eksogen adalah IV bagi dirinya
sendiri). Dalam bentuk seperti ini maka IV bagi y2 disebut dengan estimator
Two Stage Least Squares (2SLS).

Sesuai namanya estimasi dengan teknik ini dilakukan dalam dua tahap.
Pertama, kita meregresikan variabel endogen terhadap seluruh variabel
eksogen yang telah ada dan minimal satu variabel eksogen lain. Kedua kita
meregresikan model awal (persamaan 15) dengan fitted value y2 (dari
persamaan 16) sebagai IV. Dengan cara ini maka estimator yang diperoleh
adalah tidak bias dan konsisten. Catatan: dalam praktek kita tidak
melakukan tahap-tahap ini secara manual, prosedur rutin biasanya telah
tersedia pada software statistik (termasuk) Eviews. Pelaksanaan secara
manual akan menghasilkan estimator yang salah.

Prosedur 2SLS juga digunakan untuk mengestimasi parameter pada suatu


system persamaan simultan. Dengan syarat suatu persamaan adalah
teridentifikasi, maka prosedur 2SLS dilaksanakan dengan (1) estimasi
reduced form setiap variabel endogen dengan seluruh variabel eksogen yang
ada pada system dan (2) gunakan fitted value pada langkah pertama sebagai
IV variabel endogen terkait.

8
Contoh 2.
Romer (1993) menyusun suatu model inflasi yang menunjukkan bahwa
semakin terbuka suatu negara maka inflasinya akan semakin rendah.
Namun demikian keputusan untuk membuka diri terhadap dunia
internasional juga tergantung seberapa baik kinerja kebijakan khususnya
inflasi. Dengan demikian kita memiliki suatu system persamaan simultan
sbb:

inf = β10 + α1open + β11 log( pcinc) + u1 ……………………17)


open = β 20 + α 2 inf + β 21 log( pcinc)
+ β 21 log(land ) + u2 ……………………18)

Perhatikan bahwa hanya persamaan 17 yang teridentifikasi, sedangkan


persamaan 18 adalah unidentified. Terdapat 2 variabel eksogen dan salah
satunya (yakni log(land)) dapat digunakan sebagai IV bagi α1.

Sesuai dengan prosedur 2SLS, maka pertama kita melakukan auxiliary


regression terhadap IV. Dengan menggunakan data yang disediakan pada
file openness.raw maka diperoleh hasil sbb:

Dependent Variable: OPEN


Method: Least Squares
Date: 06/30/08 Time: 08:51
Sample: 1 114
Included observations: 114

Variable Coefficient Std. Error t-Statistic Prob.

C 117.0845 15.84830 7.387829 0.0000


LOG(PCINC) 0.546481 1.493240 0.365970 0.7151
LOG(LAND) -7.567103 0.814216 -9.293727 0.0000

R-squared 0.448668 Mean dependent var 37.07895


Adjusted R-squared 0.438734 S.D. dependent var 23.75353
S.E. of regression 17.79559 Akaike info criterion 8.621741
Sum squared resid 35151.80 Schwarz criterion 8.693746
Log likelihood -488.4392 F-statistic 45.16536
Durbin-Watson stat 2.147425 Prob(F-statistic) 0.000000

Tabel 3. Prosedur 2SLS Contoh 2 tahap 1.

Disini kita memperoleh t statistik adalah sangat signifikan (=-9.29). Dengan


demikian log(land) adalah valid sebagai IV bagi open. Dengan

9
menggunakan rutin 2SLS yang ada pada Eviews maka hasil estimasi yang
diperoleh adalah

Dependent Variable: INF


Method: Two-Stage Least Squares
Date: 06/30/08 Time: 08:55
Sample: 1 114
Included observations: 114
Instrument list: LOG(PCINC) LOG(LAND)

Variable Coefficient Std. Error t-Statistic Prob.

C 26.89934 15.40120 1.746575 0.0835


OPEN -0.337487 0.144121 -2.341690 0.0210
LOG(PCINC) 0.375825 2.015081 0.186506 0.8524

R-squared 0.030876 Mean dependent var 17.26404


Adjusted R-squared 0.013415 S.D. dependent var 23.99731
S.E. of regression 23.83581 Sum squared resid 63064.20
Durbin-Watson stat 2.092030 Second-stage SSR 61903.21

Tabel 4. Prosedur 2SLS Contoh 2 tahap 2.

Dapat dilihat pada tabel 4, koefisien openness menunjukkan tanda yang


sesuai dengan hipotesis model dan ia juga signifikan pada α=5%.

V. Pengujian Endogenitas dan Overidentifying Restriction


Seluruh uraian diatas menunjukkan bahwa kita telah mengasumsikan atau
mengetahui struktur endogenitas yang ada pada data. Dalam praktek sering
kali hal ini tidak dimungkinkan. Kita memiliki serangkaian variabel (dan
data sampelnya) namun tidak mengetahui struktur endogenitas yang ada.
Kita mengetahui bahwa variabel x1 mempengaruhi x2 tetapi tidak tahu
apakah x2 juga mempengaruhi x1 (yang berarti ada endogenitas).

Kita perlu menguji endogenitas karena penggunaan IV (dan 2SLS) yang


tidak tepat akan menghasilkan estimator yang tidak efisien (memiliki
varians yang besar). Dengan kata lain jika kita memiliki model seperti
persamaan 15 yang sebenarnya y2 adalah murni eksogen dan kita
mengestimasinya dengan menggunakan IV atau 2 SLS maka statistical
power dari model akan rendah.

Salah satu teknik pengujian yang umum digunakan adalah yang diusulkan
oleh Hausman (1978). Pengujian ini dilakukan dengan langkah-langkah
sbb:

10
1. Misalnya kita memiliki model sbb:
y1 = β 0 + β1 y2 + β 2 z1 + ... + β k −1 zk −1 + ui ……………………19)

Dimana y2 diduga endogen. Kita memiliki informasi variabel eksogen zj,


j=1,…,k-1 sehingga yang perlu dilakukan adalah mencari minimal satu
variabel eksogen lain untuk menjadi IV bagi y2.

2. Asumsikan kita telah memperoleh variabel dimaksud, maka kemudian


lakukan regresi reduced form

y2 = π 0 + π 1 z1 + π 2 z2 + ... + π k zk + v2 ……………………20)

3. Gunakan residual yang diperoleh dari estimasi persamaan 20 ( v̂2 )


sebagai variabel baru pada persamaan 19 dan estimasi dengan OLS.

y1 = β 0 + β1 y2 + β 2 z1 + ... + β k −1 zk −1 + δ1vˆ2 + error ………21)

4. Gunakan test 2 arah untuk menguji apakah δ1 adalah signifikan. Jika


signifikan maka dapat disimpulkan bahwa y2 adalah endogen.

5. Kita juga dapat menggunakan kerangka pengujian berganda (F test)


untuk melihat apakah dua atau lebih regresor adalah bersifat endogen.
Hal ini adalah generalisasi langsung dari prosedur diatas dimana untuk
setiap regresor yang diduga endogen bentuk reduced form. Residual dari
reduced form yang relevan kemudian dimasukkan dalam persamaan
structural (persamaan 19) dan lakukan pengujian bahwa δ1=…= δh=0
dimana h adalah indeks variabel yang diduga endogen.

Kondisi lain yang sering ditemui dalam penelitian empiris dengan kondisi
endogenitas adalah overidentification. Overidentification terjadi ketika
suatu persamaan memiliki variabel eksogen (yang tidak ada pada
persamaan atau IV) lebih banyak dari variabel endogen disisi sebelah
kanan. Bound, Jaeger dan Baker 9995) menunjukkan penggunaan 2SLS
dalam kondisi seperti ini memungkinkan terjadinya bias. Secara intuitif
penggunaan banyak IV untuk suatu variabel endogen akan meningkatkan
probabilitas variabel endogen tersebut untuk berkorelasi dengan error pada
persamaan strukturalnya.

Dengan demikian dapat dikatakan bahwa kita memerlukan jumlah


instrumen yang tepat untuk membentuk suatu IV bagi variabel endogen
tertentu. Cara ini bersifat trial and error namun demikian terdapat suatu
pengujian untuk menduga apakah IV yang digunakan telah memadai.
Pengujian ini disebut dengan overidentifying restriction test.

11
Wooldrige (2005) megusulkan suatu kerangka kerja yang sederhana untuk
menguji hal ini, yakni

1. Estimasi persamaan structural dengan 2SLS dan peroleh residualnya


(sebut saja û1).

2. Regresikan û1 terhadap seluruh variabel eksogen, dan peroleh nilai R2


(sebut saja R12).

3. Dengan hipotesis null bahwa seluruh IV adalah tidak berkorelasi dengan


u1, maka

nR12 χ q2 ……………………22)

dimana q adalah jumlah variabel eksogen dari luar model (IV) dikurangi
jumlah variabel endogen.

4. Jika nilai statistik uji melebihi nilai kritis pada α=5%, maka kita akan
menolak H0 dan mengatakan bahwa paling tidak ada satu IV yang tidak
eksogen.

Contoh 3.
Dengan menggunakan data Mroz.raw kita akan menguji apakah variabel
educ adalah bersifat endogen. Disini kita akan menggunakan variabel exper,
exper2, motheduc dan fatheduc sebagai IV. Regresi IV akan memberikan
hasil sbb

Dependent Variable: EDUC


Method: Least Squares
Date: 06/30/08 Time: 09:38
Sample: 1 753 IF WAGE<>NA
Included observations: 428

Variable Coefficient Std. Error t-Statistic Prob.

C 9.102640 0.426561 21.33958 0.0000


EXPER 0.045225 0.040251 1.123593 0.2618
EXPER^2 -0.001009 0.001203 -0.838572 0.4022
MOTHEDUC 0.157597 0.035894 4.390609 0.0000
FATHEDUC 0.189548 0.033756 5.615173 0.0000

R-squared 0.211471 Mean dependent var 12.65888


Adjusted R-squared 0.204014 S.D. dependent var 2.285376
S.E. of regression 2.038967 Akaike info criterion 4.274378
Sum squared resid 1758.575 Schwarz criterion 4.321797

12
Log likelihood -909.7168 F-statistic 28.36041
Durbin-Watson stat 1.939888 Prob(F-statistic) 0.000000

Tabel 5. Pengujian Endogenitas (Regresi Reduced Form)

Kita simpan residual dari regresi ini sebagai variabel v2, dengan
mengetikkan series v2=resid pada command window. Persamaan struktural
yang ingin diestimasi adalah regresi atas log(wage) terhadap educ, exper
dan exper2. Hasil yang diperoleh dengan memasukkan variabel v2 pada
persamaan struktural adalah

Dependent Variable: LOG(WAGE)


Method: Least Squares
Date: 06/30/08 Time: 09:40
Sample: 1 753 IF WAGE<>NA
Included observations: 428

Variable Coefficient Std. Error t-Statistic Prob.

C 0.048100 0.394575 0.121904 0.9030


EDUC 0.061397 0.030985 1.981499 0.0482
EXPER 0.044170 0.013239 3.336272 0.0009
EXPER^2 -0.000899 0.000396 -2.270623 0.0237
V2 0.058167 0.034807 1.671105 0.0954

R-squared 0.162350 Mean dependent var 1.190173


Adjusted R-squared 0.154429 S.D. dependent var 0.723198
S.E. of regression 0.665016 Akaike info criterion 2.033602
Sum squared resid 187.0701 Schwarz criterion 2.081022
Log likelihood -430.1908 F-statistic 20.49611
Durbin-Watson stat 1.931343 Prob(F-statistic) 0.000000

Tabel 6. Pengujian Endogenitas (Persamaan Struktural)

Dapat dilihat dari tabel 6 bahwa t statistik adalah sebesar 1.67 dengan p
value 9,5%. Dengan menggunakan α=10%, kita dapat mengatakan bahwa
educ adalah bersifat endogen.

Selanjutnya kita juga dapat menguji apakah penggunaan motheduc dan


fatheduc sebagai IV adalah tidak bias (tidak mengalami masalah
overidentfying restriction). Ingat bahwa kita memiliki satu variabel
endogen namun 2 IV (motheduc dan fatheduc) yang berarti persamaan
regresi yang dimiliki adalah overidentified.

13
Sesuai prosedur yang telah diuraikan diatas, maka hal pertama yang
dilakukan adalah estimasi persamaan structural dengan seluruh IV. Hasil
regresi diberikan sbb:

Dependent Variable: LOG(WAGE)


Method: Two-Stage Least Squares
Date: 06/30/08 Time: 09:47
Sample: 1 753 IF WAGE<>NA
Included observations: 428
Instrument list: EXPER EXPER^2 MOTHEDUC FATHEDUC

Variable Coefficient Std. Error t-Statistic Prob.

C 0.048100 0.400328 0.120152 0.9044


EDUC 0.061397 0.031437 1.953024 0.0515
EXPER 0.044170 0.013432 3.288329 0.0011
EXPER^2 -0.000899 0.000402 -2.237993 0.0257

R-squared 0.135708 Mean dependent var 1.190173


Adjusted R-squared 0.129593 S.D. dependent var 0.723198
S.E. of regression 0.674712 Sum squared resid 193.0200
Durbin-Watson stat 1.945659 Second-stage SSR 212.2096

Tabel 7. Pengujian Overidentifying Restriction (Persamaan Struktural)

Simpan residual dari persamaan ini sebagai series u. Kemudian lakukan


regresi auxiliary u terhadap seluruh variabel eksogen sbb:

Dependent Variable: U
Method: Least Squares
Date: 06/30/08 Time: 09:49
Sample: 1 753 IF WAGE<>NA
Included observations: 428

Variable Coefficient Std. Error t-Statistic Prob.

C 0.010964 0.141257 0.077618 0.9382


EXPER -1.83E-05 0.013329 -0.001376 0.9989
EXPER^2 7.34E-07 0.000398 0.001842 0.9985
MOTHEDUC -0.006607 0.011886 -0.555804 0.5786
FATHEDUC 0.005782 0.011179 0.517263 0.6052

R-squared 0.000883 Mean dependent var -1.05E-16


Adjusted R-squared -0.008565 S.D. dependent var 0.672337
S.E. of regression 0.675210 Akaike info criterion 2.064029
Sum squared resid 192.8495 Schwarz criterion 2.111448

14
Log likelihood -436.7021 F-statistic 0.093496
Durbin-Watson stat 1.946859 Prob(F-statistic) 0.984495

Tabel 8. Pengujian Overidentifying Restriction (Auxiliary Regression)

Dapat dilihat pada tabel 8, nilai R12 adalah sebesar 0.0009 sehingga nilai
statistik uji adalah nR12= 428(0.0009)=0.3852. Nilai χ2 dengan df=1 (2 IV-1
variabel endogen) adalah 3.84 dengan demikian hipotesis null seluruh IV
adalah tidak berkorelasi dengan u1 dapat diterima. Penggunaan motheduc
dan fatheduc adalah valid.

15

You might also like