You are on page 1of 10

空間資料分析

2008/12/15

我們結婚吧!影響結婚狀況的要素探討

組員:

社工三 b95310030 陳韋翔


社工三 b95310029 鄭嘉家
中文二 b96101051 蕭晴方
公衛三 b95801010 劉映君
空間資料分析
2008/12/15
在先前的作業中我們使用各變數間相關係數的比較方式來推測結婚率高低
有可能的影響因素,如今我們繼續鎖定此主題並進一步的用 regression 的分析
方法來觀察自變數(各種原因)如何影響依變數(結婚率高低)。所用到的資料
仍然來自鄉鎮指標資料庫中的數據,年度為 2000 年,至於變數定義則如下:

變數名稱 變數定義 資料來源

依變數
婚姻_有配偶或同居 89 有配偶的人/所有人口 鄉鎮指標資料庫

自變數
總生育率_2000 平均每位婦女(一般是指 鄉鎮指標資料庫,定義來
15 至 49 歲之間)一生中 自經建會
所生育之子女數
育齡婦女高學歷比率 15 至 49 歲之間的婦女高 鄉鎮指標資料庫,定義來
學歷者/15 至 15 至 49 歲 自中華民國統計資訊網
之間的婦女
性別比 89 人口中男性對女性的比 鄉鎮指標資料庫

農業人口比率 農業就業人口/總就業人 鄉鎮指標資料庫
口的比率
所得平均數 綜合總得總額/納稅單位 鄉鎮指標資料庫

虛擬變數
北台灣 台灣分區 鄉鎮指標資料庫
東台灣 台灣分區 鄉鎮指標資料庫
山區 山地鄉鎮與非山地鄉鎮 鄉鎮指標資料庫

交互作用
北台灣*山區 北台灣山區 鄉鎮指標資料庫
東台灣*山區 東台灣山區 鄉鎮指標資料庫

2
空間資料分析
2008/12/15
先以 geoda 呈現出婚姻狀況的主題圖,

說明:此圖中可看出有婚姻或是同居情形的比率高低之分佈,深色者為此比率較
高的鄉鎮區。

接下來則是加入變數並開始進行 regression 分析的部份,一開始先加入的


自變數是總生育率、育齡婦女高教育比率與性別比。

解釋率並不高

3
空間資料分析
2008/12/15
F 值達到顯著,但是 T 檢定的機率值僅有育齡婦女高教育比率有過關,其係
數與婚姻情況呈現負相關,育齡婦女高教育比率每上升一個單位,結婚情況比率
便會下降 0.06 個單位。

再加入一些自變數試試,除了上述各項以外,我們又加入了農業人口比率與
所得平均數這兩個自變數。

解釋率上升

不顯著

在加入新的自變數後,R-squared 的值上升至 0.23 左右,F 檢定也通過,但


是原先有通過 t 檢定的育齡婦女高教育比率變數卻變成不顯著,新加入的農業人
口比率與所得平均數對婚姻狀況比率有較大的影響,此外,所得平均數變項的係
數小的可憐,判斷是跟他的單位有關(數字大多幾百到上千)。

接下來是加入虛擬變數的部份,由於剛才的婚姻狀況是以全台灣的鄉鎮區為
測量單位,故加入 dummy code 來進行地區的分類,我們把區域分成北台灣與東
台灣,並觀察此兩區域與其他地區的差異是否顯著。

4
空間資料分析
2008/12/15

可解釋百分比上升
上生

在加入兩個虛擬變數後,可發現 R-squared 的值再次提高,可解釋的百分比


越來越大。F 檢定通過,T 檢定有通過的自變數則是農業人口比率、所得平均數
與東台灣。可知農業人口比率上升一個單位,婚姻狀況的比率上升 0.11 的單位;
所得平均數與婚姻狀況比率呈現正相關;東台灣與其他地區相比,婚姻狀況比率
較低。下面我們更進一步加入山區的虛擬變數與北台灣、東台灣分別和山區變數
的交互作用。

可解釋百分比再度上升

5
空間資料分析
2008/12/15
可解釋百分比來到了 0.51,F 檢定順利通過。各 T 檢定有通過的變數分別是
育齡婦女高教育比率、農業人口比率、所得平均數、東台灣和山地鄉鎮。新加入
的北台灣山地鄉鎮與東台灣山地鄉鎮則是無顯著差異。從圖中可推論,育齡婦女
高教育比率與婚姻狀況比率呈現負相關,農業人口比率與婚姻狀況比率呈現正相
關,所得平均數與婚姻狀況比率呈現正相關,山地鄉鎮與婚姻狀況則是負相關。

由於有鄰近效應影響的可能,我們把剩餘殘差的部份存下後,作成主題圖如
下:

若是 regression 模型解釋完全,殘差的部份不應該會有聚集的現象,也就
是說應該呈現常態分佈。由於直接觀察看不出殘差是否有聚集的效應,故我們以
殘差的 Moran’s I 圖來檢查。

6
空間資料分析
2008/12/15

殘差的 Moran’s I 值為 0.1622,是否有聚集呢?我們再以 permutation 的


方式檢查一次。

H0:殘差無空間聚集的現象(殘差值與鄰近鄉鎮沒有自相關)
H1:殘差有空間聚集的現象(殘差值與鄰近鄉鎮有自相關)

實際的模擬結果,P-value 小於 0.05,可拒絕虛無假設。故殘差出現了空間
聚集的現象。

7
空間資料分析
2008/12/15

說明:殘差形成了熱區與冷區

說明:在綠色的部份殘差值與鄰近鄉鎮有顯著差異

於是,我們再把鄰近表現(wy)也加進來 regression 模型中,得到下圖。

8
空間資料分析
2008/12/15

可解釋百分比再創佳績

加入鄰近表現的 SLM 模型,可解釋百分比上升至 0.53,F 檢定通過。達到顯


著的自變數分別為育齡婦女高教育比率、農業人口比率、所得平均數、東台灣、
山地鄉鎮、鄰近表現。在最後的鄰近表現部份,可知鄰居的表現上升一個單位,
自己的表現(結婚狀況比率)上升 0.01 個單位。

加入鄰近表現後的 regression 模型殘差是否還有空間聚集的現象?

9
空間資料分析
2008/12/15

分別加以測定後發現剩下來的殘差已經沒有空間自相關了,分佈呈現常態。
結論:

自變數 是否顯著 對依變數的影響


總生育率 No
育齡婦女高教育比率 Yes 此變數上升一個單位,依變數下降 0.13
的單位
性別比 No
農業人口比率 Yes 此變數上升一個單位,依變數上升 0.1
個單位
所得平均數 Yes 此變數上升一個單位,依變數上升
8.453943e-005 個單位
北台灣 No
東台灣 Yes 東台灣與其他地區差異了-0.015 的單

山地鄉鎮 Yes 山地鄉鎮與其他地區差異了-0.048 個
單位
北台灣山地鄉鎮 No
東台灣山地鄉鎮 No
鄰近表現 yes 鄰近鄉鎮上升一個單位,自身上升 0.01
個單位

Regression Model

婚姻狀況比率=0.13*育齡婦女高教育比率+0.1*農業人口比率+8.453943e-005*
所得平均數-0.015*東台灣-0.048*山地鄉鎮+0.01*鄰近表現
10

You might also like