You are on page 1of 26

常態分佈

1
一、常態分佈
 醫師通常依賴正常界限( normal limit )
來區分病人與健康者。例如,膽固醇值高於
200mg/dl 便有較高罹患冠狀動脈心臟病的
危險。這樣一個精確正常界限值,是以數學
模式為基礎,應用在臨床上。這樣的決定可
能關乎生死,因為醫生採用這些數值發生,
來決定如何治療病患。如果「正常界限值」
有錯誤,卻也許會發生悲劇,因為一些病人
接受了不必要的治療,而一些病人延誤或未
接受應有的治療。
2
 血清蛋白( serum albumin )是血漿中主
要的蛋白質,依循一常態分佈( normal
distribution )。血清蛋白的正常界限是
測量一大群正常人的血清蛋白,然後以平均
數加減 2 倍的標準差,定為血清蛋白的正常
範界限。這種計算方式包含測量值位於中間
的 95% 的人,不包括其餘的 5% ,即不包
含最低的 2.5% 和最高的 2.5% 的人。極端
處的觀察值,即為曲線圖上的尾部,可視為
異常值及可以當作推估是否健康的依據。

3
 然而,並非所有的變項均呈常態分佈,常見的兩
個反例為,尿素和鹼性活性磷酸酯脢( alkaline
phosphatase ),如果為平均值 ±2 倍標準差
來定義正常界限,不包含最高和最低尾部各
2.5% 的觀察值,便不正確。為了解決這樣的問
題,醫學統計學家 Elveback, Guillier 和
Keating 在 1970 年建議使用「臨床界限」取代
「常態界限」,臨床界限( Clinical limit )
是正常族群的資料,不論其分佈是否為常態,最
高和最低的 2.5% 的人即為有病的人。臨床界限
是從數據實證而來,並非由平均數加減 2 倍的標
準差。應用臨床界限優於常態界限,因為常態界
限已大量被濫用,所以應小心慎選。
4
 常態分佈可能是最重要的統計機率分佈,在
1733 年由法國數學家 Abraham Demoivre 首
先發展出來,而在 19 世紀初由法國數學家
Piere Simon de Laplace 、和德國數學家兼天
文學家 karl Friedrich Gauss 再延伸並應用在
自然和社會科學上。 Francis Galton 爵士,
(達爾文( Charles Darwin )的表兄弟)第一
位將常態分佈曲線應用在醫學上。

 有些學者喜歡將常態分佈稱為「高斯分佈」
( Gaussian distribution ),因為他們不
同意事件不是「常態」( normal )即為「不正
常」( abnormal )的說法。儘管如此,大多
時候統計學家和科學家都仍用常態分佈一詞。
5
 有許多原因可以說明為什麼常態分佈在統計上佔重
要角色,其中一個理由是,無以計數的變項的分佈
都趨近常態分佈,如身高、膽固醇值、燈泡的壽命
、健康人的體溫、柳橙的大小和銀河系中星星的高
度。同樣地,也有無數的變項的分佈並不是常態分
佈,如個人年收入,尿素、和鹼性活性磷酸酯脢。
另一個理由是常態分佈的普及性,它具有的數學特
性,使得常態分佈非常吸引和容易應用。再者是許
多的統計理論和方法理論之發展,均建立在該資料
的分佈須接近常態分佈的假說下。常態分佈是在推
論統計上運用的基礎。

6
二、常態分佈的特性
 常態分佈有三個特性,第一,形狀為對稱的鐘形
曲線( bell-shaped curve ),以平均數 µ 對
稱,並向外左右延伸至負無限大或正無限大。注
意並非所有鐘形曲線均有上述特性,只有常態分
佈才是如此。

 第二,所有常態分佈都可算出曲線下的面積,無
論平均數或標準差多大或多小,曲線下某兩點間
的相對面積永遠相同。橫座標上有三點常被用到
,如圖 1 中可以看出 68.26% 的面積在 µ±1σ 之
間, 95.45% 的面積在 µ±2σ 之間,及 99.74%
的面積在 µ±3σ 之間。 7
 在常態分佈曲線下的面
積與原來數值的百分比
成正比。例如,總面積
為 1.0 時之 .20 的面積
,表示原來數值佔 .20
或 20% ,如圖 2.1 所示
就是總面積 =1.0 。因為
這個微妙的特質,曲線
下某兩點的面積可解釋
為包含在這兩點間所有
數值之相對次數(或發
生的機率)。
圖 1 以智力測驗( IQ )為例的常態分佈

8
 第三,常態分佈需兩個參數之理論的分佈:
平均數 µ 和標準差 σ 。常態分佈的指數方程
式( exponential equation )為:
1 1 x−µ 2
y= exp[ − ( ) ](公式1)
σ 2π 2 σ

其中 y 為橫軸上某一點 x 對應的高度, exp


是以自然數 e 為底的指數( e≒2.71828 )
, π 則為常數(約為 3.141519 )。

9
三、常態分佈曲線下的面

 假定某一母體的智力測驗( IQ )呈常態分佈
,平均數 µ=100 ,標準差 σ=15 。 68.3%
的 IQ 分數落在 85 和 115 之間( 100 15 )
,如圖 1 ;相同地,可以得到 95% 的 IQ 分
數落在 70 和 130 之間; IQ 分數高於 130
的面積為 2.5% ,低於 70 的面積為
2.5% 。想要知道 IQ 在 130 和 135 間人數
的比例,則需要利用常態分佈曲線面積表。
下面將介紹如何使用此表。
10
 我們不可能對所有常態分佈的變項計算其面積,
卻可運用常態分佈曲線對稱性和面積總和為 1.0
的特性來解決不同常態分佈曲線面積的問題。就
是將其標準化,這個標準化分數
( standardized score ) Z 表示在整個分佈
中觀察值的相對位置。設某一變項呈常態分佈,
將原來數值轉換為 Z 分數,稱 Z 分數( Z
score )、 Z 值( Z value )或標準常態分數
( standard normal score )。對常態分佈
曲線上的 Z 可利用下列公式計算:

x−µ
Z= (公式2)
σ 11
 經標準化的觀察值可以知道某一觀察值低於或高於
平均數有多少個標準差,採用 x 的平均數和標準
差經簡單的步驟後便可轉換為 z :
變項 平均數 標準差
步驟 x μ σ
1 :從 x
開始
步驟 x-μ μ-μ=0 σ
2 :減
去μ
 步驟 步驟 Z=1/σ ( x-μ ) = ( x- (1/σ)0=0 (1/σ) σ=1
1 ,設變項
3 :除
x 的平均數為
μ ) /σ
μ 及標準差為 σ。
步驟 以2 ,各原來數值
σ x 均減去 μ ,平均數由 μ 變
為 0 ,,標準差為 σ 不改變。步驟 3 ,再除上
σ ,平均數依舊為 0 ,標準差由 σ 轉為 1 。
12
 這種 Z 轉換,就是將任何常態分佈的變項轉
換為標準常態分佈( standard normal
distribution ),標準常態分佈的標準差
=0 和 σ=1 。標準常態分佈在信賴區間及假
說檢定都扮演著非常重要的角色。圖 2 簡單
扼要的呈現橫座標上數個重要數值對應標準
常態分佈曲線下的面積。表 A 則詳盡地列出
橫座標上所有不同 Z 值對應之面積。

13
圖 2 標準常態分佈曲線下的面積
14
15
 表 A 之第一直欄為 Z 值之個位及小數後一位數值,
第一橫列則是 Z 值之小數後第二位數值,兩者合併
就是要查閱的 Z 值,而某直欄及某橫列相交之數字
就是 Z=0 到 Z 等於某值時標準常態曲線下之面積
(即表 A 中右上角常態分佈之 A 面積)。由於常態
分佈曲線為對稱,所以任一負 Z 值和 0 點間標準常
態曲線下的面積會等於相同正 Z 值到和 0 點間標準
常態曲線下的面積。又曲線的面積總和為 1 ,並以 0
點為中心對稱,所以 Z 點右邊的面積為 .5 減去表 A
查得之面積即可, A 面積(平均數至 Z 值間面積)
加 B 面積(大於 Z 值的面積)為 0.5 (見圖 3 )。
 以 IQ 資料作說明,母體為所有參與 IQ 測驗的人,
將所有 IQ 分數列成表,計算母體的平均數和標準差。
設平均數為 100 及標準差為 15 。以 IQ 分數來說明
表 A 的不同用途。 16
 範例 1 : IQ 分數介於 100 和 120 間佔多少
比例?
畫一曲線如圖 3 ,陰影部份的面積就是答案。將
IQ 變項轉換為 Z 分數,當 x=100 的對應 Z 為
Z= ( x-μ ) /σ= ( 100-100 ) /15=0 ,當
x=120 的對應 Z 為 Z= ( 120-
100 ) /15=20/15=1.33 ,從表 A 中可以找到
Z=1.33 對應的面積,答案為 .4082 ,即 IQ 介於
100 和 120 間標準常態曲線下面積為 .4082 ,約
佔全部人的 41% 。

17

圖 3 IQ 分數介於 100 和 120 間對應的面積


 範例 2 IQ 分數高於 120 佔多少比例?
畫一曲線圖如圖 4 ,因 Z=0 到正無限大右
邊的面積為 .5 ,又 Z=0 到 1.33 間的標準
常態曲線下面積為 .4082 , Z≧1.33 面積便
是 .5000 - .4082=.0918 即 IQ 高於 120
約有 9% 。

18
圖 4 IQ 分數高於 120 對應的面積
 範例3 IQ 分數介於 80 和 120 間佔多少
比例?
經標準化後 Z 值為 -1.33 和 1.33 ,由於對
稱性,可以計算 2 倍的 Z=0 到 1.33 間的面
積,即 2‧ ( .4082 ) =.8164 ,所以 IQ 分
數介於 80 和 120 間約佔 82% ,如圖 5 所
示。

圖 5 IQ 分數介於 80 和 120 間的對應面積 19


 值得注意的是負 Z 分數表示原始數值為一小
於平均數的數值,圖 2.5 橫軸上 IQ 的 80 對
應 Z 分數之 -1.33 ,介於平均數和兩個 Z 間
的面積(均標記為 A 面積)為相等,唯一不
同的是一個是正數 Z ,大於平均數高於平均
數 1.33 個標準差;另一個為負數 Z ,小於
平均數。負 Z 表示橫軸上 IQ 之 80 對應的 Z
分數為 -1.33 ,低於平均數 1.33 個標準差

20
 範例4 IQ 分數介於 95 和 125 佔多少比例?
Z 分數所對應的兩個面積為 A1 和 A2 為

95 −100 −5
1 Z =
A: = = − 0.33
15 15
125 −100 25
2 Z =
A: = = 1.67
15 15
如圖 6 所示此兩個面積:
面積 A1 為 Z=0 至 -.33 間標準常態曲線下面積相等
於 Z=0 和 .33 間的面積,查表 A 得知 A1
為 .1293 , A2 為 Z=0 和 1.67 間面積為 .4525 ,
A1+ A2=.1293+.4525=.5818 。即 IQ 分數介於
95 和 125 間約佔 58%

21
圖 6 IQ 分數介於 95 和 125 間對應的面

表 A 也可用來查閱標準常態曲線下面積之對應
Z 值。舉例來說,曲線右邊面積 10% 即橫軸上
第九十百分位( percentile ), P90 ,如範例 5
和範例 6 。 22
 範例 5 在常態分佈曲線中,面積為最右
邊 10% 所對應的 z 值為何?

圖 7 IQ 最右邊 10% 面積對應的 Z 分數

 如圖 7 所示, IQ 最高的 10% 數值就是面積


為 0.5+0.40 所對應的 Z 值,查表 A 得
Z=1.28 。
23
 範例 6 第九十百分位的 IQ 分數為何?
續範例 5 ,已知第九十百分位的 Z 值為 1.28 。
利用公式 2.2 作簡單的代數,得:
Z= ( x-μ ) /σ
1.28= ( x-100 ) /15
x=μ+Zσ
 所以 x=1000+1.25 ( 15 ) =119.2 ,即第
九十百分位的 IQ 分數為 119.2 ,如圖 8 所示。

24

圖 8 IQ 分佈的第九十百分位
 知道如何計算標準常態分佈曲線下的面積後,很
容易便可求出某變項數值所佔人數百分比(或出
現機率)。知道某一特定事件發生的機率便可對
事件的發生做適當的推論。

 總結:常態分佈是一個很重要的概念,在臨床上
常用來定義。某變項的「正常界限」。許多變項
呈常態分佈,因為常態分佈的特性,使得我們可
以快速地將任一常態分佈變項轉換為標準常態分
佈 Z 。又 Z 分數和對應常態分佈面積有方便的表
可查閱,很容易便可以計算各種事件發生機率及
判斷事件特異的程度。

25
 練習:

設 IQ 分數為常態分佈, μ=100 和 σ=15 ,


試問隨機選出某人 IQ 分數介於 100 和 133
間的機率為何?

26

You might also like