You are on page 1of 23

高等工程數學

講義:

上課 Note
Advanced Engineering Mathematics, Chapter24 and 25
(Erwin Kreyszig)

參考書目:

Modern Engineering Statistics (工程統計) 中譯本

by 潘南飛 (原著 Lapin)

統計學的世界 (Statistics:Concepts and Controversies)


 
機率學的世界 (Introduction to Probability)

by 鄭惟厚 譯

  1
所謂統計學(Statistics)係指對一筆(大量)的數值資料所進行的蒐集、整理、陳示、
解釋與分析,並可藉由樣本資料推論母體的特徵,使能在不確定情況下作成決策
的一種科學方法。

定義:統計學(Statistics)為透過數值資料(Data)的分析,提供人們在不確定情況下
作成適當決策或傳達有用資訊的科學方法。

分類:
敘述統計(Descriptive Statistics)為統計學的一部份,係以蒐集整理、展示、描述、
解釋及分析資料為主要內容。

目的:描述統計資料的特徵,但並不將其意義及分析結果推廣全母體(Population)
推論的範圍。

Ex:
Stem-and-Leaf Plot (莖葉圖) (Fig.506;P.994)
Histogram (直方圖) (Fig.507;P.994)
Boxplot (盒圖) (Fig.508;P.995)
Pie Chart (圓瓣圖)

  2
推論統計(Inferential Statistics)是由分析部份資料(稱為樣本 Sample)的結果去推
論母體未知的特徵(稱為參數 Parameter),以獲得一個合理的估計與結論。

樣本 母體
(合理的抽樣誤差)

以科學的抽樣方法,以期使由母體抽出具代表性的樣
本,進合減少誤差(error)的產生。

探究性資料分析(Exploratory Data Analysis):


它是一種結合敘述統計之量數與統計圖表以達到快速的描述資料特性的統計方
法。但此分析法之過程缺少機率原理的基礎,故尚未被廣泛接受與應用。

統計自助法(Statistical Bootstrapping):
電腦模擬方式,由較小的樣本所產生無效再生樣本的技術。
Ex:
Monte Carlo Simulation

  3
Chapter 24

Data Analysis, Probability Theory


Data processing by numerical method or graphic presentation
(property)
〝chance〞 probability theory

22.1 Data:Representation, Average, Spread


* The use of standard representations of data in statics.
(1) 89 , 84 , 87 , 81 , 89 , 86 , 91 , 90 , 78 , 89 , 87 , 99 , 83 , 89
n = 14 measurements
〝sort〞 the data 例如 Excel 即有此種功能
(排序)
below above
(2) 78 81 83 84 86 87 87 89 89 89 89 90 91 99

Graphical Representation of Data


Stem-and-Leaf Plot (Fig.506;P.994) 莖葉圖

5 Classes (Groups)
75-79 , 80-84 , 85-89 , 90-94 , 95-99
將原始資料(raw data)依
÷10 再取整數 類別分成若干組稱之為
7 8 8 9 9 組距(Class Intervals)

stem(枝)
leaf(葉)
1 1 7 8 78

累計 ○
4 3 8 1 3 4

的個數 11 7 8 6 7 7 9999
13 2 9 0 1
cumulative 14 1 9 9
absolute frequencies 各組的次數稱為組次數(Class Frequency)
至此有 4 個數字

  4
Absolute frequency = The number of times a value occurs
(發生的次數)
Ex:absolute frequency of 78 = 1
absolute frequency of 89 = 4
cumulative absolute frequencies (最左邊一列)
cumulative absolute frequencies
cumulative relative frequencies =
n
․Histogram 直方圖 (Fig.507;P.994) *莖葉圖的好處(1)可將原始資料加以整理與顯視,且
易於統計計算(如中位數及眾數)(2)將莖葉圖翻轉

底部 X – intervals (class intervals (組距)) 90o 即成直方圖,且每個觀察值皆可由圖中一一讀

midpoint (中點) (class mark) 缺點(1)不適合於龐大的資料量(可用下一

直方圖)(2)資料多於二元(屬性)

the number of data values in that class interval


frel(x) = = relative frequency
n

․Center(中心) and Spread(高度) of Data:Median(中位數) , Quartiles(四分位數)

median(中位數) (非平均值,指依大小順序排列時,位於正中央的數字,若為
偶數個,則為中央兩個數字的平均值) 7th 8th

Ex: 87 89
88

spread (variability) can be measured by〝range(全距)〞R = Xmax-Xmin

Ex: 99-78=21

Interquartile range IQR = qU (0.75)-qL (0.25)

Upper quartile Lower quartile


(下半部的中間) (上半部的中間)

將資料分隔成相等的四等分,則各隔點稱為四分位數(quartile)。

  5
qd = Xk + [(n+1)d – k] ( Xk+1 - Xk )
Ex: qU = 89 , qL = 84

IQR = 89 – 84 = 5
median = qM = middle quartile

․Box plot (Fig.477;P.1052)


Obtained from Xmin , qL , qM , qU , Xmax

․Outliers uniquely different from the rest of the data set .


A value more than a distance of 1.5 IQR from the either end of the box.
Ex: marked in the book .

Mean , Standard Derivation , Variance

n
X =
1
n

j=1
Xj =
1
n
(X1 + X2 + … Xn) qM

(arithmetic) mean

1 611
Ex: X = (89 + 84 + … 89) = ≈ 87.3
14 7

S standard deviation
S2 variance
n
2
S =
1
n −1

j=1
(Xj - X )2 =

n− 1
[ (X1- X )2 + … + (Xn- X )2 ]

not n

S = (S2)1/2
Ex: marked in the book .

  6
統計量數:位置的測度

(Statistical Measure) 求出資料的位置 (Location)

(1) 以集中趨勢或中央趨勢(Central Tendency)來代表資料中心的位置(即中心點)


(2) 以資料(Data)發生之次數分配的位置,來測量各資料之相對不同位置(Position)
Spread
* 資料變異性(Variability)或離散程度(Dispersion)是用來評量各資料與其中心位
置的差異程度的量測。

統計量與參數

母體參數(Population Parameter):衡量母體的量數或特徵值
通常母體數量太大無法處理;欲推論母體特徵,可自母體中抽出具代表性的
樣本加以分析樣本資料特徵。
樣本統計量 (Sample Statistics)

算術平均數 (Arithmetic Mean)


最常用且最容易瞭解衡量集中趨勢的方法

X :樣本平均數 X=
1
n

j=1
Xj =
1
n
(X1 + X2 + … Xn)

µ:母體平均數

當母體數 = 樣本數 (觀察值) X=µ

當原始資料(即不分組資料)以不可得,或只有分組資料,則須由次數分配求得近
似的樣本平均值。

  7
fK:K 組的組次數
XK:K 組的組中點 (midpoint) 加權平均數(weighted average)

Ex: XK fK
X1 = 77 1
X2 = 82 3
X3 = 87 7 14
X4 = 92 2
X5 = 97 1

77 x1 + 82 x3 + 87 x 7 + 92x2 + 97x1
X= = 86.64 表示分組資料往往會缺原
14
始資料的一些資訊。
X real = 87.3

中位數(Median):將資料(Data)按大小排序(通常由小排到大)後,位於最中間的數
值稱之。 (以 m 表之)
當資料個數為奇數時 最中間的數即為中位數
當資料個數為偶數時 則取最中間兩數的平均值為中位數

當資料個數 n 很大時,很困難求 m, X 反而容易計算而得;但 m 係資料中央位

置(Position)的平均數,並不受極大或極小極端值的影響。

Ex:政府引用家庭所得資料通常使用 m 而不使用 X 。

眾數(Mode):為資料中出現次數最多數值。
Ex:Fig. 506, Mode = 89 (出現四次)

* 眾數可能不只一個或不存在 (見課本)
* 當資料以相對次數 (relative frequencies)分配曲線表示時,此時 Mode 取位於
最高相對次數位置的數值。(求 qM , qU , qL )

  8
差異性的量度
變異量數(Measure of Variability)主要是用於衡量一組資料中,各個觀測值之間差
異或離散的程度,並用以反應平均數代表性的強弱。

Variability (變異度)
Dispersion (高散度) 同義
Spread (離度)

* 全距 (Range):R 數值最大者與最小者之差
R=X
A , B 兩地溫度平均值為 85F
A:75F 與 95F 之間 , R = 20F
B:Summer 50~120F
Winter -20~50F

缺點:易受極端值或稱界外值(Outlier)的影響,而無法得知除最大值與最小值外
資料的差異情形。
計算前須先核對查驗資料,若有極端值,則應予以剔除不計。

* 四分位距 ( Interquartile Range(IQR) 與 盒圖(Box Plot) )

IQR = qU - qL = q0.75 - q0.25


五數結合 Xmin , qL , m (or qµ) , qU , Xmax Box plot

R and IQR (見課本 Fig.508)

  9
Outlier:Defined as a value more than a distance of 1.5 IQR from either end of the
box .
Fig.477 , IQR = 5 = qU(89)-qL(84)
5 x 1.5 = 7.5
Outlier is smaller than (84-7.5)
99 is outlier.
or greater than (89 + 7.5)

盒圖(Box plot)綜合圖示與量數來描述資料的集中量數與差異量數。所以藉由它
可有效的對兩組或以上的資料(例如不同時間或地點,但對象相同)進行比較。

盒圖越短 高散性愈小 分配較均勻

變異數與標準差

Deviation (離差):各觀察值與其集中量數之差異,而此差異稱之。 (Xj- X )

n n n n


j=1
(Xj- X ) = 0 = ∑
j=1
Xj - ∑ X = n ∑
j=1 j=1
Xj
n
-n X = n X -n X =

0
2
樣本變異數 (Sample variance):S
以變異數(Variance)表示
2
母體變異數 (Population variance):σ

2
通常σ 無法直接求出 (因為無法獲得母體全數資料)

  10
2 估計 2
樣本變異數可以估計母體的變異數 (S σ ),由於母體之 µ 通常未知,而以

樣本的 X 來推估,因此上式中分母以 n-1 來除(考慮缺乏一個自由度)

2 2
以 S 估計未知之σ ,分母用(n-1)會有較佳的結果。

標準差 (Standard deviation)

標準差的意義,見下面

  11
標準差的意義:

經驗法則(Empirical Rule):
係由常態分配(對稱之鐘型(Bell)分配(雙尾)之資料)之機率推導而得 尤其
對工程品質有很大的助益。

X±S 約有 68%的資料(Data;數據)落在距離平均數左右一個標準差的區

間內。

X ± 2S 約有 95%的資料(Data;數據)落在距離平均數左右兩個標準差的區

間內。

X ± 3S 約有 99.7%的資料(Data;數據)落在距離平均數左右参個標準差的

區間內。

Ex:工程師欲對滾軋機訂定這適當的設定以管制其生產金屬片製程的穩定
已知:標準厚度 (母體平均值 µ) = 0.0625’’
製程抽樣五片厚度(樣本):0.064’’ , 0.062’’ , 0.065’’ , 0.069’’ , 0.061’’

X = 0.0642’’
S2 = 0.00000970
S = 0.0031’’

管制上限 (UCL)

95%檢驗樣本 管制下限 (LCL)

換言之:不在此區間而製程需調整的部份僅約 5%。

  12
樣本變異係數 ( ;Coefficient of Variation)

上述 Ex: = 4.8%

當資料為 (1) 單位不同 (不同型式 Data 的比較)


及 (2) 單位相同,但平均數相差很大時 (不同工廠的相同產品)

可用 來衡量資料間相對變異的大小 (和單位無關)

偏態係數 (SK;Coefficient of Skewness)


用來判別資料之次數分配的偏態方向(正偏或負偏)及程度(見圖 2-10)

當 X=m SK = 0 (無偏態,對稱)

SK > 0 正偏
SK < 0 負偏

若一組資料之 SK 差異極大 資料缺乏同質性及均勻性

  17
22.2 Experiments , Outcomes , Events .

機會大小的度量
Probability theory chance effect
(model)
Ex: weather forecasting (降雨機率) , life insurance , quality of products , traffic
problems , games (賭博)
can be tests by suitable observation or experiments .
〝statistics〞

Experiment: a process of measurement or observation


“randomness”, chance effects

Trial:single performance of an experiment

Outcome (a sample point):the result of a trial

n trials a sample of size n , consisting of n sample pt .

Sample(樣本) space (S):the set of all possible outcomes .

Ex:1~6 P.997
Events:the subsets(子集合) of S
Ex 7. (P.997)

Unions, Intersections, Complements of Events

IF A∩B = φ A and B are called mutually exclusive (or disjoint) .

  18
22.2
要替各種結果的發生機率建立模型,用的就是機率論(Probability Theory),換句
話說它是為了給隨機現象(Chance Effect)建立模型而發展出來。

Experiments (實驗):來代表任何有不只一個可能結果的「行動」。
課本:在任何時間或地點所作量測(measurement)或觀察(observation)的過程。
本質是一種通稱,其內容包括隨機效應 不可能很準確的預測它的結果。

Trial:A single performance of an experiment


Experiment:投擲骰子一百次,並記錄
Trial:投擲骰子一次
Outcome:The result of a trial ≣ a sample point (Simple Event )
={outcome}
element or 元素
n trials 提供 a sample of size n .

Sample Space (樣本空間):一項實驗(Experiment)的樣本空間(S),是所有可能觀察


到的結果(outcomes)所構成的集合(Set)。S 列出實驗所有可能的結果
Ex:見 P.997 的 6 項案例

Events(事件):在機率論中它代表的是執行實驗時可能觀察到的任何事情,不可

「實驗結果」(指 S 的元素中發生了的哪一個)劃上等號。

S 的子集合(Subset) 各種 outcomes 可能的組合。


Ex. (P.997 , Ex.7)
outcome
Rolling a die S ={1 , 2 , 3 , 4 , 5 , 6}
outcome
Experiment
sample space

A = {1 , 3 , 5} odd number 奇數
B = {2 , 4 , 6} even number 偶數
B = {5 , 6}

  19
Simple events = {1}{2}{3}{4}{5}{6}
= {outcome}

a:an outcome of a trial (element)


A:Set
a ∈ A 代表 a 為集合 A 的元素
a happens A happens

* 集合是一些物件的聚集,這些物件叫作元素
元素 X 屬於集合 A X∈ A
定義集合有兩種方法
(1) 列舉法 (roster method)
集合中的全部元素列出清單
A ={1 , 2 , 3 , 4 , 5 , 6}
B ={1 , 2 , 3 …} 所有正整數的集合 (無窮集合)

(2) 規則法 (Rule Methed)


C:{X | X = 1 , 2 , 3 … n}

虛位變數 (dummy variable)

* 當兩個集合 A 和 B 以含完全一樣的元素時 二集合相等(Equal)


以 A = B 表之。只要有元素屬於其中一個集合而不屬另一個集合
A≠ B
在集合中,元素的順序不重要,也允許把一個元素列出不只一次。
{1 , 2 , 4}={4 , 2 , 1}={4 , 1 , 2}
={4 , 4 , 2 , 1 , 1}
* 若 A 中每一個元素都屬於 B,我們稱 A 為 B 的部份集合或子集合(subset)
寫成 A ⊂ B
若 X ∈ A 可導致 X ∈ B A⊂B
元素
* A= B A⊂B 且 B⊂A

* 空集合 (null set;empty set) φ ={ }

φ ≠ { φ }, φ ⊂ A (任何集合)
* 聯集 (Union) , 寫成 A ∪ B 包含 A 中所有元素和 B 中所有元素所構成

  20
的集合。
* 交集 (Intersection) 寫成 A ∩ B 包含同時屬於 A 與 B 所有元素的集合。

參考 P.999, Fig.509 Venn Diagram (范式圖)


(A ∩ B) ⊂ A ⊂ (A ∪ B)
A = A∩ A = A∪ A
φ ∩ A =φ
φ ∪A=A
A∩ B ≣ B∩ A

(恆等於)
A∪ B ≣ B∪ A
假如 A ∩ B = φ A 和 B 沒有共同元素
A 與 B 就稱分離集 (disjoint set)
A and B mutually exclusive

Ex:A ={X | X = 自然數中的奇數}


A∩ B = φ
B ={X | X = 自然數中的偶數}

圖 510 .

  21
* Complement of A= A C (A 之餘集或補集)
對 S 的任一部份集合 A,其補集為

A C = {X X ∉ A, X ∈ S} → A C 包含所有在S中但不在A中的元素

AC ∩ A = φ A∈B
S
A ∪A =S
C
AC ∈ B

  A 

AC

Ex.2
說明 24.2 作業之 17 題
DeMoregan’s laws

X ∈ (A ∪ B) → X ∉ (A ∪ B) → X ∉ A且X ∉ B → X ∈ A C
C

( )
且X ∈ B C → X ∈ A C ∩ B C → (A ∪ B) = A C ∩ B C
C

另一題請學生自己証

A:代表所有已婚男性
B:代表所有已婚女性

(A ∪ B)C = A C ∩ B C = 未婚男性和未婚女性的交集 = φ
→ 結論是所有男性和所有女性均為已婚 (問題出在哪裡?)

  22
  23
22.3 Probability (機率) P
如果一項實驗的有限樣本空間 S={1,2,3…k}中,每一個單一元素事件(simple
event)的機率都相同,我們稱此實驗有等機率結果(equally likely outcomes)。在此
m
情況下,任意事件 A ⊂ S 的發生機率就是 P(A)= ,此 m 為 A 之中元素的個數。
k
# of point in A (event)
課本(P.1000) P(A)(機率)=
# of point in S (Sample Space)
P(S)=1

Ex 1 Fair die (P.1000)


* In practice, we do not have finitely many equally likely outcomes in many
problems. → ƒ rel (relative frequency)
f(A) # of times A occurs
ƒ rel (A) = = 代替P(A)
n # of trials
A did not occur ƒ(A)=0,ƒ rel (A)=0
A always occurs ƒ(A)=n,ƒ rel (A)=1

(4* ) 0 ≤ ƒ rel (A) ≤ 1

Axioms (5* ) ƒ rel (S)=1

(公理) (6 * ) A ∩ B = φ → mutually exclusive

ƒ rel (A ∪ B) = ƒ rel (A) + ƒ rel (B)

  24
由上述公理延伸Æ莫洛格夫三個公理
對任意本體 A ⊂ S (樣本空間)
(1) 0 ≤ P(A) ≤ 1
(2) P(S)=1
(3) P(A ∪ B) = P(A) + P(B),if A ∩ B = φ
[Thm 2] A 1 , A 2 , … A n in S are mutually exclusive (互斥)
P(A 1 ∪ A 2 ∪ A 3 K A n ) = P(A 1 ) + P(A 2 ) + L + P(A n )
Ex.3 (P.1002)
(4) P(φ ) = 0 對任意實驗均成立。
[Thm 1] (5) 對任一事件 A ⊂ S ,均有 P(A c ) = 1 - P(A)
Ex.2 (P.1002)
[Thm 3] (6) A ⊂ S , B ⊂ S (A與B之間不一定是互斥 )
P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
→ P(A) + P(B) = P(A ∪ B) + P(A ∩ B)
Ex.4 P(1003)
幾個事件聯集的機率,等於個別事件機率的和,減去所有兩兩配對
取交集的機率之和,再加上所有三個三個取交集的機率之和,再減
去所有四個集合交集機率之和,依此類推。
P(A ∪ B ∪ C) = P(A) + P(B) + P(C)
- [P(A ∩ B) + P(B ∩ C) - P(C ∩ A)]
+ P(A ∩ B ∩ C)
(7) 若A ⊂ B ⊂ S , 則P(A) ≤ P(B)

  25
Conditional Probability (條件機率)

舉例說明:
假如有三個人要去摸彩,而共有三個獎,其中一個為一百萬元,另外兩個分
別為五百元和一百元。
在三個人都未抽之前,抽中一百萬元(本體 A)的機率為 1/3,若第一個人上
去抽,結果抽中一百元,則第二個人抽中一百萬元(本體 B)的機率變成 1/2 而非
1/3。

環境改變 Æ 機率改變

3 個獎變成 2 個獎

*在樣本空間 S 的實驗中,另 A 代表任一滿足 P(A)>0 的事件,則已知 A 發生時,


B 發生的條件機率,定義為

P(A ∩ B)
對任一事件B ⊂ S,P(B | A) =
P(A)
P(A ∩ B) = P(B)P(A | B) = P(A)P(B | A)

P(A ∩ B)
→ P(A | B) =
P(B)

Thm 4:Multiplication rule


若要算 P(B|A),須先知道 P(A ∩ B)

  26
Independent Events Æ P(A ∩ B) = P(A)P(B)
( P(A) ≠ 0 , P(B) ≠ 0 )
Æ P(A)=P(A|B)
Æ事件 A 發生的機率和事件 B 是否發生完全無關,即事件 A
不受事件 B 的影響。
ÆA and B are independent

The events A, B, and C are independent if


P(A ∩ B) = P(A)P(B)
P(B ∩ C) = P(C)P(B)
P(C ∩ A) = P(A)P(C)
P(A ∩ B ∩ C) = P(A)P(B)P(C)

Sampling (取樣;抽樣)
1. Sampling with replacement 在一母體抽出一樣本後再放回去混合,所以再抽時,母
體數不變。
2. Sampling without replacement 抽出樣本後,不再放回母體。
Ex.6 P.1004

  27