You are on page 1of 87

母體平均數

之估計
1
一、估計
 研究的基本目的之一是進行比較:「某組是否不
同於另一組?」具體而言,我們可能會面臨這樣
的問題:「中年男性族群血中膽固醇的平均數為
何?」「是否不同於婦女族群?」「是否不同於
其他年齡層男性族群?」「目前的水準和十年前
有何不同?」「美國每個家庭平均有幾個小
孩?」「喝含氟飲水和不含氟飲水的小孩平均齲
齒數有何不同?」「慢跑者和非慢跑者的氧氣攝
取量有何不同?」
 以上都是一些非常典型的問題,可以採用古典統
計推論──估計( estimation )和假說檢定
( hypothesis testing )得到回答。 2
 對於母體的參數未知時,通常是利用樣本的統計量來
估計。一般而言,我們欲估計母體某變項的平均數和
標準差,而統計推論目的就是要從收集到資料中下結
論,及有多少機率支持這個結論。之後便可以決定我
們觀察到事件的確存在或只是偶發事件。本單元先介
紹估計,在下個單元將會介紹假說檢定。

 估計和假說檢定都可處理單一母體和兩個母體參數的
問題,後者(假說檢定)是較普通,前者(估計)也
常被使用。可以下面兩個方法作估計:( 1 )估計實
驗組和對照組平均數的差,或( 2 )估計同一群人治
療前和治療後平均數的差。

3
 在第一個情況是處理來自兩個不同母體的隨
機樣本;第二個情況是兩個樣本為來自同一
樣本治療前和治療後。因此,第一種情況的
兩組樣本觀察值為獨立,第二種情況的樣本
觀察值為不獨立,因為他們來自相同的樣本
但觀察時間不同。這兩種情況有不同的估程
序,所以分開介紹。

4
二、點估計與信賴區間
 對母體參數作估計包括兩部份:點估計( point
estimate )和信賴區間( confidence interval )的
估計。
 母體平均數 μ 的點估計( point estimate )為母
體中隨機樣本的樣本平均數,同樣的,母體的標
準差 σ 的點估計為樣本的標準差 s 。舉例來說,
以最大氧氣攝取量( VO2 )測量慢跑者的健康
狀況,顯示對慢跑者 VO2 的的點估計為 =47.5
毫升/公斤。因為是一個統計量,這個點估計會
隨著樣本的不同而改變。如果重覆多次實驗,便
可得到很多,每個均可成為母體參數的點估計。 5
 點估計的缺點無法以機率說明點估計與母體
參數有接近;這個缺點卻可以信賴區間
( confidence interval, CI )來補救,給予一
段區間,有多少信心欲估計的母體參數會落
於此區間內。信賴區間可估計未知數 μ ,並
提供一個誤差範圍來標示此估計好壞的程度。
信賴區間主要是利用 Z 分數推導出一個公式
,在一特定機率下此區間包含母體平均數
μ 。便很有信心的知道有 95% 的樣本平均將
落在母體平均數 ±1.96 個標韋準差範圍內,
以 Z 分數作簡單代數得到下面公式:
6
x −µ
P(− 1.96 ≤ ≤ 1.96)= .95(公式1)
σ/ n

將公式 1 經由簡單的演算便會得到公式 2 ,首先乘上


σ/√n :
σ σ
P(− 1.96 ≤ x − µ ≤ 1.96 )= .95
n n

再乘上 -1 :
σ σ
P(1.96 ≥ x − µ ≥ −1.96 )= .95
n n
7
最後加上 x :

σ σ
P(x + 1.96 ≥ µ ≥ x − 1.96 )= .95
n n

為方便使用,將不等號反轉,得結果為:

σ σ
P(x − 1.96 ≤ µ ≤ x + 1.96 )= .95(公式2)
n n

8
 重覆抽樣,預期(機率為 .95 )欲估計的母體
平均數 µ 將落在 -1.96(σ/√n) 和 +1.96(σ/√n) 的
範圍內。此區間稱為母體平均數之 95% 信賴
區間( 95% confidence interval ),通常表示

σ
µ 之(公式3)
95%CI = x ± 1.96
n

 也可以代入不同機率,如 99% 的信賴區間為



σ
µ 之(公式4)
99%CI = x ± 2.576
n
9
 上面的信賴區間公式並不是常常被使用,因為
σ 通常是不知道的。所以當 σ 未知時,則以樣
本標準差 s 取代。如同公式 6.3 和 6.4 ,只是以
t 值( n-1 自由度)代替 Z 值,因此當只有 s 為
已知( σ 未知)時,信賴區間為:

s
µ 之(1 − α)
100%CI = x ± t (公式5)
n

 其中
ts/√n 為信賴區間的誤差界限值及測量樣
本統計量的誤差情形。
10
 範例 1
樣本數為 25 ,想估計母體慢跑者 VO2 攝取量
的平均數,可以利用 μ 的 95% 信賴區間。已
知 =47.5 毫升/公斤和 s=4.8 ,查表 B 之 t 分
佈的 95% 和 df=24 之 t 值為 2.064 ,因此 95%
信賴區間為 :
s
µ 之95%CI = x ± 2.064
n
4.8
= 47.5 ± 2.064
25
= 47.5±1.98
= ( 45.5 , 11

49.5 )
 結果:在重覆多次的實驗中,預期 95% 的機率母體平
均數 µ 會落在, -2.064(s/√n) 和 +2.064(s/√n) 間。 45.5
和 49.5 為信賴界限( confidence limit )的下限和上限
, 45.5 到 49.5 毫升/公斤便是 95% 信賴區間。注意
信賴區間可因不同的機率而有所改變,但母體平均數
是不變的。
 信賴區間為一範圍,有 95% 的機率涵蓋母體平均數,
儘管如此,仍有 5% 的機率會沒有涵蓋到 µ ,即似有
2.5% 的機率可能落在 Z=1.96 以上的位置(或 Z=-1.96
以下),即利用 Z.975=1.96 和 Z.025= -1.96 計算信賴
區間的上限和下限。

12
 必須釐清的是:此區間稱為信賴區間( confidence
interval ),而不叫機率區間( probability interval ),雖
然信賴區間是以樣本資料及涵蓋母體參數的機率來計算。
但在求得特定信賴界限後,此區間含蓋 µ 之事後機率
( posteriori probability )便固定。 95% 信賴區間是重覆
實驗, 95% 信心母體平均數會落在此範圍。
 在範例 1 中,不能說 µ 落在 45.5 到 49.5 毫升/公斤之間
的機率為 95% ,因為 µ 只可能落在或不落在這範圍內。
因為區間一旦固定,便不會考慮隨機性和發生機率的問
題了。
 95% 信賴區間是應用最多, 99% 信賴區間也常被用到,
至於其他百分比的信賴區間則較少被利用。

13
三、兩個獨立樣本
 接下來是將單樣本問題延伸到雙樣本的問題
,設仍以 VO2 攝取量比較慢跑者和非慢跑者
的身體狀況兩個獨立樣本( two
independent samples ),首先計算出兩組人
的 VO2 攝取量平均數之差x x 1- x2 ,x 1- 2 是
µ1 − µ2
兩個母體平均數之差 之點估計,
就像計算單樣本平均數的信賴區間一樣,也
可以計算這兩個平均數差的信賴區間。

14
 從中央極限定理中,數理統計家已證明 為常態分佈,且
其平均數為 μ1-μ2 和變異數為 σ12/n1+σ22/n2 ,其平方根為兩
平均數的差異之標準差( standard error of the
difference ),常表示成:

σ 12 σ 22
SE(x1 − x2)= + (公式6)
n1 n2
因 1和 2 均為常態分佈,其變異數分別為
x x
σ12/n1+σ22/n2 ,但 1和 2 差異之變異卻是兩個別變異
x x
數的總和。再仔細想一想,只有個別變異數對 1- 2 變
x x
異數估計幫助尚不夠,需計算 Z 分數,公式則為:

( x1 − x2 ) − ( µ1 − µ 2 )
Z= (公式7)
σ 1 / n1 + σ 2 / n2
2 2
15
 在許多情況下,常會比較處置組和非處置組
某變項有沒有差異,因為實驗組和對照組均
來自相同的母體,便可設定 σ12=σ22 ,因此公
式 7 簡化為:
( x1 − x2 ) − ( µ1 − µ 2 )
Z= (公式8)
σ 1 / n1 + 1 / n2
 如同前面所說, σ2 很少為已知,所以利用樣
本變異數估計 σ2 ,再從常態分佈轉換為 t 分
佈,在一些情況下,實際上得到兩個不同 σ2
估計──即 s12 和 s22 。
16
 比較安全的方法是兩者都是變異數 σ2 之點估計,
便可綜合這兩個樣本變異數,得到綜合標準差
( pooled standard deviation ) sp ,一個較佳的
σ2 估計(因為樣本數增大),即 s12 和 s22 加權後
平均稱為綜合樣本變異數( pooled sample
variance ):

 公式 9 為二個樣本的平方和除上自由度的和, sP2
為 σ2 的不偏估計。計算 sP2 後,開平方根便得到
sp ,再以 sp 來計算
( x1 − x2t) 分數
− ( µ1 −(µ自由度為
2)
n1+n2-2) :
t= (公式10)
S p 1 / n1 + 1 / n2
17
四、兩個平均數差之信賴區

 估計兩母體平均數之差後,下一步便是建立
此差異之信賴區間 x x1- 2 為母體平均數差異
的點估計,其信賴區間公式:
(x − x )−(µ1 − µ 2)
P(− 1.96 ≤ 1 2 ≤ 1.96)= .95(公式11)
σ1 σ 2
2 2
+
n1 n2

 如同公式 2 ,可以推導出 95% 信賴區間的公


式如下:
σ 12 σ 22
µ1 − µ 2之95%CI = x1 − x2 ± 1.96( + ) (公式12) 18
n1 n2
 當 σ 未知時,信賴區間之一般式為:

1 1
µ1 − µ2之(1 − α)
100 %CI = x1 − x2 ± t(S p + ) (公式13)
n1 n2

 利用 t 分數計算信賴區間,其中 t 分佈 t 值為( n1+n2-

2 ) df 中間佔有分百( 1-α )的面積。

 這些公式(公式 5 和 13 )都是假設樣本為隨機抽樣而
來,假如樣本不是隨機產生,公式 5 及 13 的結果也會
不對。由於極端值會直接影響 ,進而影響信賴的程度
,因此,在計算信賴區間時應先將極端值移除。

19
 範例 2
以最大 VO2 攝取量平均數評估慢跑者及非慢
跑者之身體狀況,隨機抽樣 25 名慢跑者,
x
1=47.5 毫升/公斤和 s1=4.8 ,以及 26 名
x
非慢跑者, 2=37.5 毫升/公斤和 s2=5.1 。
計算信賴區間,估計真實差異 μ1-μ2 的大小。
若要計算 99% 信賴區間,從表 B 查出 t 值,
當 1-α=.99 之雙尾( two-sided )機率,在這
個例子中實際自由度為 49 ,從表 B 中最接近
的是自由度等於 50 ,其 t 值則為 2.678 。
20
 要求出信賴區間,得先計算 Sp ,可利用公式
9 計算。

s12 (n1 − 1) + s22 (n2 − 1)


Sp =
n1 + n2 − 2

4.82 (24) + 5.12 (25)


=
25 + 26 − 2

1203.21
= = 24.56 = 4.96
49

21
 接下來計算信賴區間:

1 1
(µ1 − µ2)之99%CI = x1 − x2 ±t.005(S p + )
n1 n2

1 1
= 47.5 − 37.5 ± 2.678(4.96) +
25 26

= 10±3.721
= ( 6.28 , 13.72 )

22
 因此,針對慢跑者和非慢跑者的 VO2 攝取量樣本平
均數之差異 99% 信賴區間為 6.28 毫升/公斤和
13.72 毫升/公斤之間,而 μ1-μ2 的點估計為 10.0 毫
升/公斤。因兩個信賴界限均為正數,不包含零,
表示此兩組的確有差異,慢跑者的 VO2 攝取量高於
非慢跑者,這和 t 檢定的結果為一致的。
 相同的例子,從相同母體選出更多的樣本,將會有
不同的平均數,不同的標準差,和不同的信賴區間。
平均而言,仍可獲得 99% 的機率可包含真正的差值
μ1-μ2 ,只有 1% 的機率不包含。

23
 圖 1 為抽樣 50 次吸菸者和非吸菸者收縮壓平均數之差異
的 99% 信賴區間,已知真正 μ1-μ2 值為: 131.89 -
129.05=2.84 ,因此可以判斷有多少個信賴區間確實包含
其值 μ1-μ2=2.84 ,發現第 24 個信賴區間不包含 2.84 ,在
50 個樣本中有 1 個,佔 2%── 稍為高出預期的 1% ,無
論如何,若以更多的樣本來預估,結果則會更接近 1% 。

 狹窄的信賴區間對於母體參數的估計比較好,因為錯
誤程度較小。這促使我們儘可能獲得較狹窄的信賴區
間。對於單一母體平均數的信賴區間為
±Z ( σ/√n ),區間的寬度直接受到樣本數、 Z 分數
和標準差的影響。

24
圖1 50 個樣本數均為 25 的非吸菸者和吸菸者之樣本,
25
其收縮壓差異 μ1-μ2 之 99% 信賴區間
 要使信賴區間的變窄,可

1. 增加樣本數
2. 減少信賴程度(可將 99% 信賴度 Z=2.58 ,
以 95% 信賴度 Z=1.96 替代)
3. 藉由減少測量誤差來增加精確度,製造出
較小的變異量。

 在表 1 列出的母體平均數 μ 和兩母體平均數之差
之信賴區間公式。

26
27

表1 25 位 30-40 歲成為慢跑者前和之後的最大氧氣攝取量
數值
五、配對 t 檢定
 在許多研究中,實驗組本身即為對照組,這
是一種相當不錯的比較方式,因為可以減少
外來的因素所造成的變異量,兩個獨立樣本
平均數之差的變異量常常會因外來因素而比
較大因此將實驗組本身當做對照組便可以減
少變異量及得到較小的標準誤,進而獲得一
個較狹窄的信賴區間。

28
 但這個方式是有代價的,首先因為兩個樣本都作在相
同項目測量,將會喪失其獨立性,第二,使用這兩個
獨立樣本,將會損失將近一半的自由度。自由度減少
, t 值則會變大,導致信賴區間會變寬。所以在實驗設
計時,將優缺點列入考慮,才可以知道──兩個獨立樣
本,或配對 t 檢定──較具效益。
 配對 t 檢定絕對不可以兩個獨立樣本來處理,即統計上
可視為只有一個樣本的問題,所以計算信賴區間也視
為單一母體平均數的問題。在計算配對 t 檢定的程序中
,將單一樣本的資料相減,得到成對的觀察值,便可
用單一樣本方式來處理。

29
 範例 3
為判斷慢跑可否改善身體狀況,研究人員測量受檢
者慢跑前和 6 個月後的最大 VO2 攝取量。表 6.1 所
列出 25 名隨機抽樣的慢跑者 VO2 攝取量,慢跑前(
x )和慢跑後( x’ )之數值,其相差為 d= x’-x ,差
異平均數 d 為 12.42 及 Sd 為 1.57 ,為母體的參數 δ
和 之點估計, δ ( delta )表示母體觀察值之差異
的平均數。可利用經過一段時間後 VO2 攝取量的改
變值來檢定慢跑是否可改善身體狀況,便可計算單
一樣本的信賴區間(自由度 df = n-1 = 24 , n 為成
對數), s 1.57
δ之99%CI = d ± t.005 d = 12.42 ± 2.797 ± = 12.42 ± 0.88
n 25
= ( 11.54 , 13.30 )
30
 δ 的樣本估計, =12.42 ,表示 VO2 攝取量在慢跑後增
d
加。 99% 信賴區間示增加數值不低於 11.54 毫升/公斤且
不高於 13.30 毫升/公斤,因為零(即慢跑前平均數等於
慢跑者平均數)不在此區間內,故可得結論:經過六個月
的慢跑,以 VO2 攝取量測量,可以改善身體狀況。

 配對 t 檢定為處理非獨立樣本方法之一,其他實驗,包括
雙胞胎研究、同性的兄弟或姐妹研究、多胞胎動物研究和
相同特徵的配對研究(如年齡、種族、性別和相同的健康
狀況),因為資料為成對的,所以稱為配對 t 檢定。

31
六、樣本數的計算
 現代科學家在日常生活中,不再只接觸處理
資料和執行電腦程式而已,統計學家也是提
供資訊者──協助科學家、行政主管,及對統
計不熟悉者。統計學家必須對於這許許多多
的問題提供答案,最常問到是「需要多大的
樣本數才能得到一個有統計意義的結果?」

32
 這是一個困難的問題,類似問「我們需要得
幾分才能贏得棒球賽?」對於一場球賽,在
沒有資訊協助是無法回答這個問題,所以必
須先要問一些問題來幫助解答,「得分是多
少?怎樣計分?誰在打擊位置?多少人出局
?」相同地,若考慮樣本數,亦要問「在估
計母體平均數時,多少誤差是可接受的?信
賴程度訂為多少?觀察值的變異情形是多少
?」在以上問題都獲得答案後,便可計算樣
本數大小。

33
 用以下計算式,得到樣本數 n 之解:

x−µ
Z= (公式14)
σ/ n
將上式重新改寫: d
Z=
σ/ n
d= -μ ,為實際得分和母體平均數差距的測量
x
值,換個角度,則為此估計須在母體平均數 d
個單位內。 n 為:

Zσ 2
n=( )(公式15)
d 34
 範例 4
若想估計母體膽固醇平均數,估計值和真正平均數
差異在 10mg/dl 內,已知 σ=20 ,且 和 μ 相差
x
10mg/dl 在 95% 信賴度,所以可以求得樣本數為:

n=
[ (1.96)(20)]
= 15.36
2

因為有小數的樣本是不合適的,所以可以將小數無
2
10
條件進位成為整數 16 。若 σ 未知時,可以估計值 s
替代和使用 t 分佈。

35
 在實驗前先決定樣本數是明智的作法,因為也許只有 10 隻
老鼠的經費,但卻需要 16 名樣本才能達統計顯著性,則樣
本數只有 10 則是不可行的。相反地,運用統計知識和方法
幫助節省研究資源,若 16 名實驗者已足夠了,卻選擇了 30
名實驗者將不符合成本效益的,也造成浪費。

 公式 15 是估計樣本數最簡單的方法,在下一章會介紹其他
方法,將是略為複雜的估計,對於這些估計方法,如何使
用這些方法,給研究者一個重要建議:請諮詢統計學家以
便決定樣本數。

36
總 結

母體參數的點估計好比是「最佳的推測」。而
信賴區間為某機率下可涵蓋母體參數的範圍。母體
平均數之差異估計可利用二種方法:運用兩個獨立
樣本,或藉由同一樣本實驗前和實驗後的資料。
統計學家最困難和最普遍被諮問的問題是:「樣本
需要多大?」這答案非常容易也非常困難,容易的
地方是運用公式便可計算出來;困難的是選擇正確
的數值放入公式。

37
顯著性檢定

38
一、定義
在詳細說明顯著性檢定的程序之前,先介紹一
些名詞的定義,能對下面單元瞭解有幫助。

 假說(hypothesis )。對母體數值的評估做一
個簡短陳述。
 虛無假說( null hypothesis )。 H ,設定母
o
體平均數 μ 和假說的數值 μ0 之間沒有差異。
 對立假設( alternative hypothesis )。 H1 , μ
不等於 μ0 ,不同意虛無假說。當 Ho 被翻,很
自然便是接受對立假說。 39
 檢定統計量(
test statistic )。用來決定一樣本
平均值在樣本平均數機率分佈的相對位置。

 臨界值( critical region )。在分佈的末端區域


,若只有牽涉到分佈的一末端,適用於單尾檢定
( one –tailed test );若牽涉到分佈的兩個末端
適用於雙尾檢定( two-tailed test )。當計算得
之 Z 值落到臨界域時,則拒絕虛無假說,臨界域
有時也被稱為拒絕域( rejection region )。

40
 顯著水平(significant level )。對應臨界域的一水
平值,常以 α 表示。這個通常很小,它意味檢定統
計量落在此區域是很罕見的;因此這樣的情況視為
不尋常的或統計上具顯著意義。當檢定統計量落在
此面積時,表示這個結果達 α 的顯著意義。

 p 值( p value )。當虛無假說為真時,超越檢定統
計量的值之分佈上尾端(單尾或雙尾)之面積。即
當 Ho 為真時,出現檢定統計量值,或是更極端值的
機率,以 p 表示。

41
 非拒絕域( nonrejection region )。抽樣分佈中不包
含 α 的區域,即位於曲線中間部分。若檢定統計量落
在此區域,表沒有足夠證據拒絕虛無假說;意味著這
樣的結果落在此域是被預期的。不拒絕域是以( 1-
α )表示,某些人會錯誤的以「接受域( acceptance
region )」稱之,這樣會造成誤解,因為它只是代表
事件發生的機率。
 顯著性檢定( test of significance ),視檢定統計量是
否落在臨界域,來建立假說的效度程序。若檢定統計
量落在臨界域,結果便視為顯著。這種檢定有時也稱
為假說檢定( hypothesis test )。

42
 為了加強說明以上的定義,以法庭判案再說明。在刑事
法庭中,陪審團的責任是評估原告和被告提出的證據,
進而判斷被告有罪或無辜。依審判規定,陪審團應從兩
個判決中選擇一個,即有罪或無罪。他們的決定可能是
正確或是錯誤,可能有兩種錯誤:宣判無辜的人有罪或
有罪的人無罪。

 法庭審判和顯著性檢定有許多相同之處。藉由顯著性統
計的檢定,可以判斷某一特定主張是否為確實,這樣的
主張通常被設定為虛無假說( null hypothesis ), Ho ,
母體的平均數為 μ0 (被告為無罪)。

43
 藉由樣本(證據)獲得資料,並計算檢定統
計量( test statistic )(陪審團),及利用它
來判斷是否支持虛無假說(被告為無罪),
樣本為來自平均數為 μ0 的母體,是否支持虛
無假說是以臨界域為基準(審判規定),臨
界域則設立了拒絕或不拒絕虛無假設兩個選
項,因此這個主張無法被支持(被告為有罪
)。若檢定統計量落在非拒絕域
( nonrejection region ),表示此事生機率
很大,因此這個主張無法被推翻(被告很可
能是無罪)。
44
二、顯著性檢定的依據
 顯著性檢定是藉由資料的證據去判斷是否要
拒絕虛無假說,一般而言,虛無假說為無影
響或沒有差異之猜測,而對立假說
( alternative hypothesis )則是有影響或有
差異之猜測。
 為了說明顯著性檢定的基本概念,以檀香山
心臟研究為例,設有人認為整個母體的 7683
名個案之年齡平均數為 53.00 歲,我們應該如
何去證實(拒絕)這個陳述的正確性,可從
抽樣開始,先抽 100 名,假定樣本年齡平均 45
數為 54.85 。
 目前要考慮的問題:「從真實平均數 μ 為 53
的母體中選擇樣本數為 100 ,平均數為 54.85
的可能性為何?」可檢視樣本平均數
( 54.85 )的相對位置,在圖 1 中,可以看出
54.85 離母體平均數 53 相當遠的位置。

圖1 樣本平均數之分佈 46
 如果小於顯著水平(雙尾)發生機率,表示
事件不尋常或是統計上顯著。為什麼要考慮
雙尾的面積?因為樣本平均值可能是大於或
小於平均數 μ ,如果接近中央值時,則事件
的發生機率將會相當地高。某事件發生機率
高時,代表統計上不顯著( not
significant )。樣本平均數是否距母體平均數
很遠,可利用顯著性檢定獲得解答。

47
三、顯著檢定的程序
 執行顯著性檢定,應依循以下步驟:

1. 列出 H0 : μ=μ0 vs H1 : μ1≠μ0
2. 選擇顯著水平 α=αo (通常 α=.05 或 .01 )

x−µ
3. 計算檢定統計量( Z 分數):Z = σ / n

4. 決定臨界域, Z 分佈中兩個尾端各為 α/2


之區域,如圖 2 。
48
5. 若檢定統計量 Z 落在臨界域內,則拒絕虛
無假說。
6. 若檢定統計量 Z 落在非拒絕域內,則無法
拒絕虛無假說。
7. 下結論。

圖2 檢定統計量的臨界域
49
 範例 1

檀香山心臟研究中之樣本 n=100 ,其年齡平均數


=54.85 ,利用顯著性檢定判斷樣本來自平均數為 53
的母體的可能性為何?若 σ=5.50 ,依步驟解答如下:
1. H0 : μ=53 vs H1 : μ1≠53
2. 顯著水平 α=0.05

3. 檢定統計量:

4. 臨界域:從 Z 分佈(表 x − µA )中,可找到雙尾檢定


54.85 − 53 1.85
Z= = = = 3.36
σ / n
α/2=.025 所對應 Z=±1.96 (如圖 3 )。55 / 100 . 55

50
5. 由步驟 3 得知檢定統計量 Z=3.36 落在臨界
域內(超越 ±1.96 外),所以拒絕樣本來自
於平均數 53 的母體的虛無假說。接受樣本來
自的母體,平均數不等於 53 的對立假說。

圖3 範例 1 之臨
界域 51
 因為發生的機率低於 .05 ,所以可說結果「達 .05 顯著意
義」,實際上 Z=3.36 或以上所對應的機率是更小(小
於 .05 )。
 計算得到的檢定統計量顯示距離平均數 3.36 個標準差,
即樣本平均數為 54.85 或以上的機率小於 .002 ,由圖中找
到超越 Z=±3.36 的面積之對應的 p 約為
2 ( .5-.4990 ) =2 ( .001 ) =.002 (在表 A 找不到
3.36 ,故以最大數值 3.06 代替,對應的面積 .4990 )
 p 值為 .002 表示隨機抽出一個樣本,其樣本平均數距母體
平均數有 3.36 個標準差的機率是非常小的──小於 .002 。
也許你會問自己「這是多麼好運或惡運才會得到如此的結
果?」比較合理的結論是:這個樣本可能是來自不同的母
體,其平均數不為 53 。

52
 從範例 1 可知道統計檢定是以 為依據,做為 μ
的估計,估計母體參數 μ 。當 Ho 正確,預期 -μ
值很小:當 H1 正確,則 x -μ 值將很大。比較
x )的比值──即檢定統計量──便可知
-μ 和 SE (
道 Ho 之合理性。即以檢定統計量落於 Ho 為真時
的 Z 或 t 的抽樣分佈的機率,決定應支持 Ho 或
H1 。又此機率以 p 值( p value )表示。 p 值愈
小,表示 Ho 愈可能是錯; p 值愈大,表示 H1 愈
可能是錯。換句話說,當 p 小於 α 時,可以說所
得結果達統計顯著意義。

53
四、單尾檢定和雙尾檢定
 在檢定統計假說時,必須要考慮一個重要問題:「考
慮 和 μ 之差異是單或雙向?」這種考量應該在列出
Ho , H1 便包含在內。例如若考慮平均年齡和母體年齡
平均數 μ 是否有差異時,應使用雙尾檢定( two-tailed
test ),因 -μ 之差值可以為正數,亦可為負數。
x
 若考慮平均年齡是否大於母體年齡平均數 μ 時,應使
用單尾檢定( one-tailed test );同樣地,若是只考慮
平均年齡小於 μ ,也是單尾檢定。

54
55
圖 4 雙尾和單尾檢定
( α=.05 )
 若考慮平均年齡是否大於母體年齡平均數 μ 時,應使用
單尾檢定( one-tailed test );同樣地,若是只考慮平
均年齡小於 μ ,也是單尾檢定。

 圖 4 說明每種檢定,圖 4a 為雙尾檢定,虛無假說 Ho :

μ=μo ,對立假說 H1 : μ≠μo ,在分佈的兩尾端各為臨界


域 α 的一半面積;如所得檢定統計量落在任一臨界域內
,便拒絕 Ho 。圖 4b 為單尾檢定,檢定虛無假說 Ho :
μ≦μo ,對立假說 μ>μo ,整個臨界域 α 位於正數方向的
尾端;當檢定統計量夠大落在臨界域時,便拒絕 Ho 。

56
圖
4c 為左邊的單尾檢定,檢定虛無假說 μ≧μo ,整
個臨界域 α 位於負數方向的尾端;當檢定統計量為
負數且落在臨界域時,便拒絕 Ho 。

 單尾檢定可用於以下問題:某一藥是否優於標準藥
品?空氣污染程度是否超過安全限制?戒菸者的死
亡率是否降低?雙尾檢定用於以下問題:男性和女
性的膽固醇含量是否有差異?自願為研究對象者和
一般人口的年齡平均數是否有差異?

57
 範例 2
菸霧警報被設定,當空氣中特定污染物含量超過
7ppm 時,將發出警報。從 16 個測量站收集本,
=7.84 , s=2.01 ,問樣本資料是否超出警報器設定
x
值?或以機率解釋其結果?

因 σ 未知,以 s 為估計值,故利用 t 檢定
1. H0 : μ≦7.0 vs H1 : μ1>7.0
2. α=.05
3. 檢定量:
x − µ 7.84 − 7.0 .84
t= = = = 1.68
s / n 2.01 / 16 .05
58
4. 臨界域:因 H1 : μ>7.0 表示為單尾檢定,臨
界域為正數方向 α=.05 ,及 15df ,查表得知
t.05=1.753 (見圖 5 )。
5. 因 t=1.68 < t.05=1.753 未落在臨界域內,故無
法拒絕 Ho ;即沒有充份證據顯示所測之空氣
超出 7ppm 。

圖5 範例 2 的臨界域 59
五、 「統計顯著」的意

 研究報告喜歡用結果達統計顯著意義
( statistical significant ),( p<.05 ),或
是類似的陳述。是指得到研究結果並非一偶
然事件,並非用抽樣誤差而來。顯著水平
( significance level )是任意決定,但常選擇
α=.05, .025, .01 或 .001 ,來表示結果的顯著
程度。顯著水平 α 也是決定拒絕虛無假說可
能錯誤判斷的大小;有些研究者較喜歡根據 p
值來發表他們的結果,然後讓讀者去決定證
據是否充份。
60
 在第 3 節中,因為雙尾檢定,所以為雙倍的
超越 Z=±3.36 之兩尾端面積──即 p<.002 。在
單尾檢定中, p 值則為大於 Z=3.36 之面積,
p<.001 。研究者和統計學者大體上會利用以
下說法來解釋 p 值:

p值 解 釋
p>.05 結果並不顯著;通常不特別加以註記
p<.05 結果為顯著的;通常以一個星號註記
p<.01 結果為顯著的;通常以二個星號註記

61
 有些研究人員喜歡將 p<.10 視為邊際顯著;
「統計顯著意義」表示樣本資料與虛無假說
不一致,故拒絕 Ho 。相反地,若結果為:「
未達顯著統計意義」證明 Ho 為正確。無法拒
絕 Ho 可能是因為樣本數太小,沒有足夠證據
去拒絕 Ho 。「統計顯著意義」不一定表示臨
床上具顯著意義。有時統計上得到的「顯著
」,在生物學上或實際上的影響並不顯著。

62
六、第一型和第二型錯誤
 在前面假說檢定和刑事審判的說明中,提及陪審團
可能犯以下二個其中之一個錯誤:( 1 )當被告的
確是無辜時,拒絕無罪的 Ho 或( 2 )當被告確實
有罪時,無法拒絕無罪的 Ho 。同樣地,在檢定虛
無假說( Ho ),可以有以下兩種正確的決定:
1. Ho 為偽且拒絕 Ho :即證明樣本來自不同的母體,
且此母體的 μ≠μo 。
2. Ho 為真且無法拒絕 Ho :即觀察得至 μ 和 μo 間的差
異非常小,相對的變異量在合理範圍內。
63
 若你判斷 Ho 為偽,且事實也是如此,表示你做了一個正

確決定;若你判斷 Ho 為偽,而事實上 Ho 為真,此事件


發生的機率固定為 α ,即觸犯第一型錯誤( type I
error )或 α 錯誤( α error )──推翻正確虛無假說,好
比法院審判中將無辜的人判定有罪。若 Ho 為真時,當判
斷 Ho 為正確,也做了一個正確決定;若 Ho 為偽時,而
判斷 Ho 為正確,這樣的情況發生機率為 β ,可以說觸犯
了第二型錯誤( type II error )或稱 β 錯誤( β error )─
─接受一個錯誤的對立假說,如同法院審判將有罪的人
判定為無罪。這兩種型錯誤總結如圖 6 。

64
圖6 假說檢定中可能的錯誤

65
 在假說檢定中,在 Ho 先定 μo 為某參數的特定值,如果 Ho
為真,但依樣本結果判斷拒絕 Ho ,便犯了第一型錯誤。
若 Ho 是不正確,卻依樣本的結果接受 Ho ,便犯了第二型
錯誤。因此,可以說第一型錯誤是拒絕正確的虛無假說之
機率,第二型錯誤是無法拒絕錯誤的虛無假說之機率。

 將這個檢定應用在檀香山心臟研究,母體年齡平均數
μ=54.36 。假定並未知道母體年齡平均數,猜測 μ 為 53 ,
虛無假說 μ=53 的分佈中上臨界點為 53.90 ,因為

α=.5 ,單尾時, Z=1.645 ,所以


x − 53
1.645 =
5.5 / 100
66
 以上便得到=53.90 ,圖 7 說明當樣本平均低於 53.90 時,
即便不能拒絕錯誤的 Ho ( μ=53 )。 β 錯誤則是 =53.90
左邊的面積。 為 53.90 , s 為 5.5 ,樣本數為 100 ,面積所
對應的:

53.90 − 54.36 − .46


Z= = = −.84
5.5。
 利用表 A ,可得 β=.20 / 100 .55
 在圖 7 中可以看到拒絕錯誤的 Ho 之機率為 80% ( 1-
β=.80 )。 1-β 稱為統計檢定之檢力( power of a test )。

67
當Ho 為偽時,拒絕 Ho 之機率。一般而言,統
計學家嘗試設計高檢力的統計檢定,(即 β
很小,如 .2 或 .1 )。又可從圖 7 中,要達到
這個目的,可以降低顯著水平 α ,從 .1 降低
到 .05 ,或是增加樣本數。

圖7 樣本平均數 μo=53 和 μ=54.36 之分佈

68
 從前面的討論,清楚知道 α 水平表示第一型
錯誤之機率, β 表示第二型錯誤之機率;這
兩型錯誤之間有倒數的關係。在圖 7 中, α
愈小, β 則愈大。這是因為臨界域往右移動
一些, β 的面積為臨界點左點的面積就增加
,若要同時減少 α 和 β 錯誤,唯一的方法是
減少重疊的部份──即兩分佈相同的範圍之面
積。可以利用增加樣本數來達成,因 sx =s/√n
的減小,會使樣本分佈變窄。

69
七、兩個獨立樣本平均數的顯

性檢定
 在之前已學到比較不同樣本之平均數,因為 σ
很少是已知的,以 Sp( 母體平均數估計,公式 9) 代替,
便可計算檢定統計量:
x1 − x2 − ( µ1 − µ 2 )
t= (公式1)
s p 1 / n1 + 1 / n2

 其自由度為
n1+n2-2 。這個檢定統計量可以比
較兩個樣本平均數之差 1- 2 (母體平均數之
差的估計值)和未知母體平均數之差 μ1-μ2 。
在虛無假說為真時,兩平均數之差 μ1-μ2 為零
70
,因此公式 1 中 μ1-μ2 可以拿掉。
以 母體平均數估計單元中範例 2 作說明,若隨機樣本
n1=25 為來自慢跑者的母體,最大 VO2 攝取量平
均 1 為 47.5ml/kg 和 s1=4.8 ;另一隨機樣本是來自非慢
跑的母體,其 n2=26 ,最大 VO2 攝取量平均 2 為
37.5ml/kg 和 s2=5.1 。試問兩者之差異是否達統計顯著意
義,或只是因抽到不同樣本?其運算步驟如下:
1. H0 : μ1=μ2 vs. H1 : μ1≠μ2
μ1=μ2 可寫成 μ1-μ2=0 ;所以另一種寫法為
2. H0 : μ1-μ2=0 vs. H1 : μ1-μ2≠0
顯著水平 α=0.01

71
3. 為求出檢定統計量時,先利用公式計算 sp :

s12 (n1 − 1) + s22 (n2 − 1)


sp =
n1 + n2 − 2

(4.8) 2 (24) + (5.1) 2 (25) 1203.21


= =
25 + 26 − 2 49

= 24.56 = 4.96

72
4. 利用公式 1 計算檢定統計量,將 μ1-μ2 拿掉,
因 μ1-μ2=0 :
x1 − x2 − 0
t= (公式2)
s p 1 / n1 + 1 / n2

47.5 − 37.5 − 0
=
4.96 1 / 25 + 1 / 26

10.00
= = 7.2
1.39
73
5. 其中 t 之自由度為 n1+n2-2=49 及臨界域的位
置如圖 8 所示。因為是雙尾檢定,查表 B 的
直欄所示之 α=.01/2=.005 ,可找到 t=2.68 。
6. 由上式計算 t 值為 7.2 落在臨界域中,所以
拒絕虛無假說,即以 VO2 攝取量為體能狀況
之測量,判斷慢跑者體能狀況顯著地優於非
慢跑者。

圖8 檢定統計量的臨界域 74
 很多初學統計的人,常將公式 2 (比較兩個平均差
異)及 p85. 之配對 t 混淆。公式 2 比較兩個獨立
樣本的平均數有沒有差異;而配對 t 則是檢定兩樣
本為非獨立時平均有沒有差異。配對 t 的做法是將
兩組數據用相減的方式降為單一母體統計量的問題
,檢定統計量之計算如下:
d −0
t= (公 式3)
sd / n
 其中自由度為 n-1 。 d 為 x (前)和 x’ (後)差異
的平均數; sd 為 x 和 x’ 差的標準差;而虛無假說設
定實驗前平均數和實驗後平均數沒有差異即 x-
x’=0 。公式 3 便是配對 t 檢定之公式。
75
八、顯著檢定和信賴區間的關

 信賴區間也受 Z 或 t 的統計量所影響,所以大致會
猜測顯著性檢定所的的結果,與採用信賴區間所得
的結果會相同。事實上,在雙尾檢定時,兩者的結
果是一樣。在比較慢跑者和非慢跑者的 VO2 攝取
量平均數的例子中,用假說檢定,結論是兩組平均
數顯著不同。而 μ1-μ2 之 99% 信賴區間為 6.42 和
13.58 ,並不包含虛無假說平均數之差 =0 ,因此可
以下結論,兩組平均數的差異不可能因為抽樣不同
而來;注意兩信賴區間界限均為正數,有 99% 信
賴程度其差異介於 6.42 和 13.58 之間,有很高機率
不包含 0 。
76
 一般而言,以下有兩種方式藉由信賴區間判斷其
差異是否為顯著:
1. 當假說平均之差異如 μ1-μ2=0 包含在信賴區間內
,則 Ho 無法被拒絕。
2. 當假設平均之差異並不包含在信賴區間內,則拒
絕 Ho 。
 到目前為止,我們介紹過比較從單一樣本平均數
與母體平均數有沒有差異個及兩或是對兩樣本平
均數有沒有差異的顯著性檢定。事實上,也可以
同時比較三個或以上的樣本平均數,將於往後章
節介紹這種統計檢定。
77
九、推導公式摘要表

表
1 為綜合介紹過的信賴區間和檢定統
計量的公式,方便查閱。

78
79

表 1 各參數之信賴區間和檢定統計量公式摘要表
十、靈敏度和特異度
 很多時候對病人診斷都是根據臨床檢驗測量
的結果。很常見的是,測量結果對於臨床上
正常和疾病病患都有很寬的範圍;這是因為
沒有一個清楚的界限去劃清正常或有病的狀
態。有可能正常的人被診斷為有病,有病的
病人卻被診斷為正常。

80
 為了能夠區分受檢者有病或沒病,需對臨床檢
驗值設定一切點。當臨床測量數值在異常範圍
內,便認為此人有病;當臨床測量值落在正常
範圍內時,診斷此人為正常。若拒絕虛無假說
,可能觸犯以下二個錯誤:

1. 當受檢者正常時,被診斷為有病(稱假陽性,
false positive )。
2. 當受檢者有病時,被診斷為沒病(稱假陰性,
false negative )。

81
 下面說明了診斷錯誤如何發生:

 其中 c 為假陰性, b 為假陽性。

82
 在比較不同之臨床檢驗或篩檢試驗的效度時,常使用
靈敏度和特異度來表達。靈敏度( sensitivity )是在
有病人的人中檢查結果為陽

性的機率,從表中所示,可得: a
靈敏度 =
a+c
 特異度( specificity )是在沒病的人中檢查結

果為陰性的機率,即是:
 從上表中可看出這兩個機率及假陰性和假陽性之間的 d
特異度 =
關係;假陰性之機率為 1 減靈敏度,假陽性之機率為 b+d 1
減特異度。

83
 範例 3
在一糖尿病的篩檢計畫,以血糖值 125mg/100ml 為切點,超過
此值則視為糖尿病患者,低於此值則為正常者。利用表 2 所示
,從 100 名受檢者中,計算此篩檢試的靈敏度和特異度。

a 5
靈敏度 = = 100 × = 83.3%(假陰性為16.7%)
a+c 6
 即以 125g/100ml 為切點作篩檢,靈敏度為 83.3% 和特異度為
86.2% ;也就是說平均有 d 16.7%81 的人確實患有糖尿病但檢查結
果為正常,而 =
特異度13.8% = 100 × = 86.2%(假陰性為13.8%)
為正常但檢查結果為糖尿病者。
b+d 94

84
 因靈敏度和特異度均為二項機率,可以利用
表 1 所示之公式計算標準差和信賴區間。

85
 結論

顯著性檢定是判斷虛無假說的母體參數(如 μ1 或
μ1 - μ2 )值之合理性。從研究問題本身便可決定
應使用單尾或雙尾檢定。假說檢定的程序包括設定
虛無和對立假說,利用何種檢定方法及顯著水平。
決定了顯著水平,就等於決定了臨界域,與計算得
之檢定統計量作比較,便可下結論。若檢定統計量
落在臨界域,便拒絕虛無假說或無法拒絕對立假說
;若其值落在臨界域以外,則無法拒絕虛無假說或
無法「接受」對立假說。

86
 若檢定統計量落在臨界域,便拒絕虛無假說或無法拒
絕對立假說;若其值落在臨界域以外,則無法拒絕虛
無假說或無法「接受」對立假說。前者表示有足夠證
據支持對立假說;後者表示沒有充分證據支持對立假
說。當 p 值很小時,小於 α ,可以說結果具統計顯著
意義。在執行假說檢定時,可能會觸犯兩種錯誤,拒
絕正確的虛無假說,便犯了第一型錯誤( α 錯誤);
而接受錯誤的虛無假說時,便犯了第二型錯誤( β 錯
誤)。若不想計算臨界域,可以直接計算 p 時, p 值
的意義是當虛無假說為真,觀察到此樣本或更極端之
機率。

87

You might also like