Professional Documents
Culture Documents
講義:
上課 Note
Advanced Engineering Mathematics, Chapter24 and 25
(Erwin Kreyszig)
參考書目:
by 鄭惟厚 譯
1
所謂統計學(Statistics)係指對一筆(大量)的數值資料所進行的蒐集、整理、陳示、
解釋與分析,並可藉由樣本資料推論母體的特徵,使能在不確定情況下作成決策
的一種科學方法。
定義:統計學(Statistics)為透過數值資料(Data)的分析,提供人們在不確定情況下
作成適當決策或傳達有用資訊的科學方法。
分類:
敘述統計(Descriptive Statistics)為統計學的一部份,係以蒐集整理、展示、描述、
解釋及分析資料為主要內容。
目的:描述統計資料的特徵,但並不將其意義及分析結果推廣全母體(Population)
推論的範圍。
Ex:
Stem-and-Leaf Plot (莖葉圖) (Fig.506;P.994)
Histogram (直方圖) (Fig.507;P.994)
Boxplot (盒圖) (Fig.508;P.995)
Pie Chart (圓瓣圖)
2
推論統計(Inferential Statistics)是由分析部份資料(稱為樣本 Sample)的結果去推
論母體未知的特徵(稱為參數 Parameter),以獲得一個合理的估計與結論。
樣本 母體
(合理的抽樣誤差)
以科學的抽樣方法,以期使由母體抽出具代表性的樣
本,進合減少誤差(error)的產生。
統計自助法(Statistical Bootstrapping):
電腦模擬方式,由較小的樣本所產生無效再生樣本的技術。
Ex:
Monte Carlo Simulation
3
Chapter 24
5 Classes (Groups)
75-79 , 80-84 , 85-89 , 90-94 , 95-99
將原始資料(raw data)依
÷10 再取整數 類別分成若干組稱之為
7 8 8 9 9 組距(Class Intervals)
stem(枝)
leaf(葉)
1 1 7 8 78
累計 ○
4 3 8 1 3 4
的個數 11 7 8 6 7 7 9999
13 2 9 0 1
cumulative 14 1 9 9
absolute frequencies 各組的次數稱為組次數(Class Frequency)
至此有 4 個數字
4
Absolute frequency = The number of times a value occurs
(發生的次數)
Ex:absolute frequency of 78 = 1
absolute frequency of 89 = 4
cumulative absolute frequencies (最左邊一列)
cumulative absolute frequencies
cumulative relative frequencies =
n
․Histogram 直方圖 (Fig.507;P.994) *莖葉圖的好處(1)可將原始資料加以整理與顯視,且
易於統計計算(如中位數及眾數)(2)將莖葉圖翻轉
直方圖)(2)資料多於二元(屬性)
median(中位數) (非平均值,指依大小順序排列時,位於正中央的數字,若為
偶數個,則為中央兩個數字的平均值) 7th 8th
Ex: 87 89
88
Ex: 99-78=21
將資料分隔成相等的四等分,則各隔點稱為四分位數(quartile)。
5
qd = Xk + [(n+1)d – k] ( Xk+1 - Xk )
Ex: qU = 89 , qL = 84
IQR = 89 – 84 = 5
median = qM = middle quartile
n
X =
1
n
∑
j=1
Xj =
1
n
(X1 + X2 + … Xn) qM
(arithmetic) mean
1 611
Ex: X = (89 + 84 + … 89) = ≈ 87.3
14 7
S standard deviation
S2 variance
n
2
S =
1
n −1
∑
j=1
(Xj - X )2 =
1
n− 1
[ (X1- X )2 + … + (Xn- X )2 ]
not n
S = (S2)1/2
Ex: marked in the book .
6
統計量數:位置的測度
統計量與參數
母體參數(Population Parameter):衡量母體的量數或特徵值
通常母體數量太大無法處理;欲推論母體特徵,可自母體中抽出具代表性的
樣本加以分析樣本資料特徵。
樣本統計量 (Sample Statistics)
X :樣本平均數 X=
1
n
∑
j=1
Xj =
1
n
(X1 + X2 + … Xn)
µ:母體平均數
當原始資料(即不分組資料)以不可得,或只有分組資料,則須由次數分配求得近
似的樣本平均值。
7
fK:K 組的組次數
XK:K 組的組中點 (midpoint) 加權平均數(weighted average)
Ex: XK fK
X1 = 77 1
X2 = 82 3
X3 = 87 7 14
X4 = 92 2
X5 = 97 1
77 x1 + 82 x3 + 87 x 7 + 92x2 + 97x1
X= = 86.64 表示分組資料往往會缺原
14
始資料的一些資訊。
X real = 87.3
中位數(Median):將資料(Data)按大小排序(通常由小排到大)後,位於最中間的數
值稱之。 (以 m 表之)
當資料個數為奇數時 最中間的數即為中位數
當資料個數為偶數時 則取最中間兩數的平均值為中位數
置(Position)的平均數,並不受極大或極小極端值的影響。
Ex:政府引用家庭所得資料通常使用 m 而不使用 X 。
眾數(Mode):為資料中出現次數最多數值。
Ex:Fig. 506, Mode = 89 (出現四次)
* 眾數可能不只一個或不存在 (見課本)
* 當資料以相對次數 (relative frequencies)分配曲線表示時,此時 Mode 取位於
最高相對次數位置的數值。(求 qM , qU , qL )
8
差異性的量度
變異量數(Measure of Variability)主要是用於衡量一組資料中,各個觀測值之間差
異或離散的程度,並用以反應平均數代表性的強弱。
Variability (變異度)
Dispersion (高散度) 同義
Spread (離度)
* 全距 (Range):R 數值最大者與最小者之差
R=X
A , B 兩地溫度平均值為 85F
A:75F 與 95F 之間 , R = 20F
B:Summer 50~120F
Winter -20~50F
缺點:易受極端值或稱界外值(Outlier)的影響,而無法得知除最大值與最小值外
資料的差異情形。
計算前須先核對查驗資料,若有極端值,則應予以剔除不計。
9
Outlier:Defined as a value more than a distance of 1.5 IQR from either end of the
box .
Fig.477 , IQR = 5 = qU(89)-qL(84)
5 x 1.5 = 7.5
Outlier is smaller than (84-7.5)
99 is outlier.
or greater than (89 + 7.5)
盒圖(Box plot)綜合圖示與量數來描述資料的集中量數與差異量數。所以藉由它
可有效的對兩組或以上的資料(例如不同時間或地點,但對象相同)進行比較。
變異數與標準差
n n n n
∑
j=1
(Xj- X ) = 0 = ∑
j=1
Xj - ∑ X = n ∑
j=1 j=1
Xj
n
-n X = n X -n X =
0
2
樣本變異數 (Sample variance):S
以變異數(Variance)表示
2
母體變異數 (Population variance):σ
2
通常σ 無法直接求出 (因為無法獲得母體全數資料)
10
2 估計 2
樣本變異數可以估計母體的變異數 (S σ ),由於母體之 µ 通常未知,而以
2 2
以 S 估計未知之σ ,分母用(n-1)會有較佳的結果。
標準差的意義,見下面
11
標準差的意義:
經驗法則(Empirical Rule):
係由常態分配(對稱之鐘型(Bell)分配(雙尾)之資料)之機率推導而得 尤其
對工程品質有很大的助益。
X±S 約有 68%的資料(Data;數據)落在距離平均數左右一個標準差的區
間內。
X ± 2S 約有 95%的資料(Data;數據)落在距離平均數左右兩個標準差的區
間內。
X ± 3S 約有 99.7%的資料(Data;數據)落在距離平均數左右参個標準差的
區間內。
Ex:工程師欲對滾軋機訂定這適當的設定以管制其生產金屬片製程的穩定
已知:標準厚度 (母體平均值 µ) = 0.0625’’
製程抽樣五片厚度(樣本):0.064’’ , 0.062’’ , 0.065’’ , 0.069’’ , 0.061’’
X = 0.0642’’
S2 = 0.00000970
S = 0.0031’’
管制上限 (UCL)
換言之:不在此區間而製程需調整的部份僅約 5%。
12
樣本變異係數 ( ;Coefficient of Variation)
上述 Ex: = 4.8%
可用 來衡量資料間相對變異的大小 (和單位無關)
當 X=m SK = 0 (無偏態,對稱)
SK > 0 正偏
SK < 0 負偏
17
22.2 Experiments , Outcomes , Events .
機會大小的度量
Probability theory chance effect
(model)
Ex: weather forecasting (降雨機率) , life insurance , quality of products , traffic
problems , games (賭博)
can be tests by suitable observation or experiments .
〝statistics〞
Ex:1~6 P.997
Events:the subsets(子集合) of S
Ex 7. (P.997)
18
22.2
要替各種結果的發生機率建立模型,用的就是機率論(Probability Theory),換句
話說它是為了給隨機現象(Chance Effect)建立模型而發展出來。
Experiments (實驗):來代表任何有不只一個可能結果的「行動」。
課本:在任何時間或地點所作量測(measurement)或觀察(observation)的過程。
本質是一種通稱,其內容包括隨機效應 不可能很準確的預測它的結果。
Events(事件):在機率論中它代表的是執行實驗時可能觀察到的任何事情,不可
和
「實驗結果」(指 S 的元素中發生了的哪一個)劃上等號。
A = {1 , 3 , 5} odd number 奇數
B = {2 , 4 , 6} even number 偶數
B = {5 , 6}
19
Simple events = {1}{2}{3}{4}{5}{6}
= {outcome}
* 集合是一些物件的聚集,這些物件叫作元素
元素 X 屬於集合 A X∈ A
定義集合有兩種方法
(1) 列舉法 (roster method)
集合中的全部元素列出清單
A ={1 , 2 , 3 , 4 , 5 , 6}
B ={1 , 2 , 3 …} 所有正整數的集合 (無窮集合)
φ ≠ { φ }, φ ⊂ A (任何集合)
* 聯集 (Union) , 寫成 A ∪ B 包含 A 中所有元素和 B 中所有元素所構成
20
的集合。
* 交集 (Intersection) 寫成 A ∩ B 包含同時屬於 A 與 B 所有元素的集合。
(恆等於)
A∪ B ≣ B∪ A
假如 A ∩ B = φ A 和 B 沒有共同元素
A 與 B 就稱分離集 (disjoint set)
A and B mutually exclusive
圖 510 .
21
* Complement of A= A C (A 之餘集或補集)
對 S 的任一部份集合 A,其補集為
A C = {X X ∉ A, X ∈ S} → A C 包含所有在S中但不在A中的元素
AC ∩ A = φ A∈B
S
A ∪A =S
C
AC ∈ B
A
AC
Ex.2
說明 24.2 作業之 17 題
DeMoregan’s laws
X ∈ (A ∪ B) → X ∉ (A ∪ B) → X ∉ A且X ∉ B → X ∈ A C
C
( )
且X ∈ B C → X ∈ A C ∩ B C → (A ∪ B) = A C ∩ B C
C
另一題請學生自己証
A:代表所有已婚男性
B:代表所有已婚女性
(A ∪ B)C = A C ∩ B C = 未婚男性和未婚女性的交集 = φ
→ 結論是所有男性和所有女性均為已婚 (問題出在哪裡?)
22
23
22.3 Probability (機率) P
如果一項實驗的有限樣本空間 S={1,2,3…k}中,每一個單一元素事件(simple
event)的機率都相同,我們稱此實驗有等機率結果(equally likely outcomes)。在此
m
情況下,任意事件 A ⊂ S 的發生機率就是 P(A)= ,此 m 為 A 之中元素的個數。
k
# of point in A (event)
課本(P.1000) P(A)(機率)=
# of point in S (Sample Space)
P(S)=1
24
由上述公理延伸Æ莫洛格夫三個公理
對任意本體 A ⊂ S (樣本空間)
(1) 0 ≤ P(A) ≤ 1
(2) P(S)=1
(3) P(A ∪ B) = P(A) + P(B),if A ∩ B = φ
[Thm 2] A 1 , A 2 , … A n in S are mutually exclusive (互斥)
P(A 1 ∪ A 2 ∪ A 3 K A n ) = P(A 1 ) + P(A 2 ) + L + P(A n )
Ex.3 (P.1002)
(4) P(φ ) = 0 對任意實驗均成立。
[Thm 1] (5) 對任一事件 A ⊂ S ,均有 P(A c ) = 1 - P(A)
Ex.2 (P.1002)
[Thm 3] (6) A ⊂ S , B ⊂ S (A與B之間不一定是互斥 )
P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
→ P(A) + P(B) = P(A ∪ B) + P(A ∩ B)
Ex.4 P(1003)
幾個事件聯集的機率,等於個別事件機率的和,減去所有兩兩配對
取交集的機率之和,再加上所有三個三個取交集的機率之和,再減
去所有四個集合交集機率之和,依此類推。
P(A ∪ B ∪ C) = P(A) + P(B) + P(C)
- [P(A ∩ B) + P(B ∩ C) - P(C ∩ A)]
+ P(A ∩ B ∩ C)
(7) 若A ⊂ B ⊂ S , 則P(A) ≤ P(B)
25
Conditional Probability (條件機率)
舉例說明:
假如有三個人要去摸彩,而共有三個獎,其中一個為一百萬元,另外兩個分
別為五百元和一百元。
在三個人都未抽之前,抽中一百萬元(本體 A)的機率為 1/3,若第一個人上
去抽,結果抽中一百元,則第二個人抽中一百萬元(本體 B)的機率變成 1/2 而非
1/3。
環境改變 Æ 機率改變
↓
3 個獎變成 2 個獎
P(A ∩ B)
對任一事件B ⊂ S,P(B | A) =
P(A)
P(A ∩ B) = P(B)P(A | B) = P(A)P(B | A)
P(A ∩ B)
→ P(A | B) =
P(B)
26
Independent Events Æ P(A ∩ B) = P(A)P(B)
( P(A) ≠ 0 , P(B) ≠ 0 )
Æ P(A)=P(A|B)
Æ事件 A 發生的機率和事件 B 是否發生完全無關,即事件 A
不受事件 B 的影響。
ÆA and B are independent
Sampling (取樣;抽樣)
1. Sampling with replacement 在一母體抽出一樣本後再放回去混合,所以再抽時,母
體數不變。
2. Sampling without replacement 抽出樣本後,不再放回母體。
Ex.6 P.1004
27