醫學研究中常見的統計應用及誤用

醫學研究中常見的統計應用及誤用
慈濟醫學中心/研究部
王仁宏/Paul Wang
paulwang@tzuchi.com.tw
分機7651
醫學統計諮詢師
自我介紹
姓名：王仁宏/Paul Wang
辦公室分機：7651 簡碼:40460
辦公室位置：協力樓6樓628室
信箱：王仁宏/medicine/Tzuchi,
paulwang@tzuchi.com.tw
學歷：成大統計研究所碩士(88級)
經歷：原職旺宏電子資料分析處副部經理
(From 2001/09~2012/04)
102年度生物統計課程規劃(1)
臨床試驗
臨床流病健保資料
• 目的
– 增進同仁研究所需統計分析能力，進而促進研究品質提升
– 本年度著重臨床試驗、臨床流行病學及健保資料相關課程
• 開課對象
– 花蓮&新店慈院中、西、牙醫師&九大職類人員
• 開課時間
– 預計於3月至9月舉辦一梯次課程/共10堂課(每堂1.5小時)
• 上課方式
– 採主題式教學並輔以案例解說及統計軟體操作
102年度生物統計課程規劃(2)
• 主課老師慈大公衛系教師&研究部醫學統計諮詢師
– 謝宗成老師：專長--臨床試驗分析與設計
– 溫淑惠老師：專長--遺傳統計、生物統計
– 嚴嘉楓老師：專長--弱勢群體醫療、長期照護政策
– 謝佳容老師：專長--環境職業流行病學、應用生物統計
– 王仁宏老師：專長--統計應用、統計分析
• 課程規劃（原則上週五之中午12:30~14:00）
課程類型上課月份課程名稱授課講師
統計方法 3/15 醫學研究中常見的統計應用及誤用王仁宏老師
統計方法 3/29 問卷信效度分析與應用嚴嘉楓老師
統計方法 4/26 生活品質量表應用嚴嘉楓老師
臨床流病 5/10 臨床流病研究設計謝佳容老師
健保資料 5/24 全民健保資料庫簡介王仁宏老師
健保資料 6/21 健保資料庫的發展與應用-以內科為例謝宗成老師
健保資料 7/12 健保資料庫的發展與應用-以外科為例王仁宏老師
健保資料 7/19 健保資料庫的發展與應用-以婦科為例謝佳容老師
健保資料 8/16 健保資料庫的發展與應用-以內科為例溫淑惠老師
臨床試驗 9/13 臨床試驗研究設計與分析謝宗成老師
課程目標
• 溫故回顧醫學研究常見的統計觀念
– 統計是什麼?
– 統計如何應用到醫學研究?
– 常見的統計方法及概念
• 解讀&評論判斷醫學研究結果的合理性
– 避免統計方法誤用
– 避免統計分析結果解讀錯誤
Outline
• 統計是什麼?
• 統計跟醫學研究的關係?
• 資料蒐集(母體vs樣本)
• 醫學研究常用統計方法
– 敘述統計、推論統計、差異比較
– 相關、迴歸分析、質性資料分析
• 研究結果要如何解讀?
節能減碳愛地球
-- 上課講義請至研究部網站下載
注意事項
淡定
統計是什麼?
資訊
知識
資
料
•統計是從數據中找出訊息並且做成結論!!
•統計是幫助我們透過客觀的資料分析來瞭解
變異來源的一門科學!!
產生整合解釋
數據 + 數據 + 推論
為什麼要學習統計?
-- 有趣的例子(1)
-- 有趣的例子(2)
-- 用科學的方法來促進專業的進步
當新治療方法、藥物、設計或介
入發展出來時，關鍵問題是
“它有用嗎?”
文獻回顧資料收集
統計分析專業解釋結果
Make Decision
統計與醫學研究的關係
•描述流行病學假說的研擬與篩選
•分析流行病學假說的辨明與修訂
流行病學 •實驗性流行病學假說的實證與確立
•詳查審視思考醫學問題
•正確的研究設計確保資料收集品質
實證
醫學
•敘述性統計研究對象特性描述
•推論統計從樣本所獲得資訊說明母體
生物統計學 •科學化整理分析呈現證據
•合理的歸納與推論實證醫學發現
應用領域：醫學或公共衛生等
產生數據
母體與樣本
壞樣本的毛病
1.對調查母體沒有定義清楚
2.母體裡面的個體有些永遠不可能被抽中
產生數據
壞樣本的例子
• 1.便利抽樣碰到誰就問誰的抽樣非機率抽樣!!
– Ex:在新光三越的前廣場進行訪問
• 壞處：母體對象沒有定義，而且有些個體不會被抽中
• 2.自願樣本自動送上門來的樣本
– Ex:電話叩應、Yahoo奇摩新聞意見調查
• 壞處：一個人可以重覆許多次，導致有灌水的問題
• 3.立意抽樣依照本身的主觀判斷去挑樣本
– Ex:訪問對核能發電具有專業知識的人士
• 壞處：專業人士的意見是否足以代表一般人的意見?
• 4.配額選樣
– 把調查對象依照特徵分類後，依各類比例立意找人到額滿為止
• 壞處：容易受到訪員主觀選擇受訪者的影響，對於推論的正確性傷害相當大
產生數據
李昌鈺博士：有幾分證據說幾分話
∵資源有限好樣本的特性
•母體有定義
•樣本是母體的縮影
•樣本具有代表性
產生數據
觀察性 vs 實驗性資料
資料性質特徵可推論的方法 Example
觀察性順其自然相關分析醫院欲紀錄患有高血壓症
(Correlation) 狀之住院病患之狀況，每
天請護士測量並照實紀錄
Ex:病歷回顧
實驗性操之在我因果分析醫院欲測量降血壓的新藥
(Causal) 之療效，得到病患同意後，
每日給予病患治療，並記
錄病患血壓
Ex:臨床試驗
產生數據
Statisticians need DATA

• Qualitative Data
– Categorical
• Sex
• Diagnosis
– Anything that’s not a # • Quantitative Data
– Rank (1st, 2nd, etc) – Something you measure
– Age
– Weight
– Systolic BP
– Viral load
整合數據 & 解釋推論
醫學研究常用統計方法
• 有人針對社會科學與教育類、醫學護理類、管理類，每大類搜
尋20～30篇論文，然後將這些論文使用的統計方法整理如下：
– 醫護類會用到大量的描述統計(22%)、ANOVA(18%)和T檢定(18%)
– 其他統計方法(6~12%)：皮爾森相關、線性迴歸、無母數、邏輯斯迴歸
– 醫護類的論文很少使用到SEM和ANCOVA
Part 1
描述統計
-- 統計量 & 統計圖
目的：讓分析者可以在短時間內瞭解資料的分佈狀況與訊息
Histogram
統計量集中區勢、離散趨勢
•Mean Boxplot
•Median
•Mode
•Max/Min
•Quartile(Q1,Q3)
•Range
•Standard Deviation
Pie Chart
Part 1
極端值的影響
•這個籃球隊教練在考：究竟應該公
布”隊平均身高180cm”嚇對手，還是”
隊員身高中位數173cm”讓對手失去
戒心?
??
<注意>
平均數易受極端值的影響，尤其
在數字個數少的時候影響更大!!
Part 1
<範例>存活率的迷思
• 健保局2007年5月公布各醫院器官移植存活率
，以心臟移植五年存活率來看：
– 三總85% 、振興73% 、林口長庚70% 、台大65%
、北榮55%看來三總是首選?
若加上案例數，三總15/85% 、振興148/73% 、林口長庚11/70% 、

台大195/65% 、北榮59/55%選擇是否改觀?
振興優於台大?病患的病況及背景是否大致接近無法得知
讀到一項統計數據時，應注意上下文，弄清楚該統計量真正的
意義才能夠避免被誤導!!
Part 1
常態分布(Normal Distribution)
許多自然現象、社會現象與日常生活之現象，都以常態分布的情形最為普遍
Ex:身高、體重、學測與基測成績等
常態分布的位置與形狀會隨著
平均數與標準差不同而變化!!
Part 2
假設檢定(Hypothesis Testing)
• 假設(Hypothesis)H0(Null) vs H1(Alternative)
– 統計假設的架構，與刑事訴訟法中的無罪推定原則(被告未
經審判證明有罪確定前，推定其為無罪)類似!!
– 對立假設是研究者期望發現的
– 虛無假設是被保護的，除非證據夠強，否則不輕易推翻現況
• 檢定檢定統計量、臨界值、P-value
• 結論接受(Accept) or 拒絕(Reject)
• Example(2010世足賽的章魚哥)
– “章魚不可能預測比賽結果”(瞎矇)
– H0:章魚哥猜對機率=1/2
– H1:章魚哥猜對機率>1/2
Part 2
假設檢定的流程
• Step 1.決定虛無假說與對立假說
• Step 2.決定顯著水準(α)
– Type I error發生機率 ex:0.05, 0.01
• Step 3.選擇檢定統計量
• Step 4.收集資料，計算檢定統計量及P值
• Step 5.進行決策判定
<Remark>
– 實際上顯著與不顯著間並沒有一個真正的標準
– P值越小，表示我們得到越強的證據能力
Part 2
統計推論所產生的風險
利用樣本證據來對假說進行決策時，難免會因為樣本
的偏差而發生判斷錯誤的情況!!
事實(永遠不知)
決策
H0:無罪 H1:有罪
無法推翻H0 決策正確 Type II error
犯人無罪 (縱虎歸山)
推翻H0 Type I error 決策正確
犯人有罪 (錯殺忠良)
•Type I error亦稱做消費者風險(ex:沒有效的藥被批准上市)
•Type II error亦稱做生產者風險(ex:有效的藥無法上市)
[註]
應注意是否有measurement error, bias, confounding 等情況發生!!
Part 2
假設檢定(Hypothesis Testing)
• P-value 與Sample 的關係: 當Sample size 大時，偵測力會較好
– Example: A group : mean = 0 , std = 1
B group : mean = 0.4 , std = 1
Sample size = 5 , P-value = 0.5996 Sample size = 10 , P-value = 0.2295
Sample size = 50 , P-value =0.044 Sample size = 200 , P-value = 0

Part 2
P-value的迷思：顯著與非常顯著
問題:在很多統計方法裡都會看到p值，通常在許多期刊表格的下方都會看到
*p<0.05, **p<0.01, ***p<0.001，所以就說*是顯著，**是很顯著，***是非常顯
著，所以說p<.001 的效果比p<.05的好，這樣說對嗎？
•6種常見P值的錯誤解釋
 P值是指研究的發現屬於隨機的可能性
 P值 = 0.06，因此代表有94%的機會兩組之間是沒有差別
 P值 < 0.001，代表兩組之間一定有差別
 P值越小，則證據越明顯僅有在相同的實驗條件下，具有相同
 P值相同代表證據相同的樣本 (sample size)，才能做P值的
 P值代表虛無假設為真的機率直接比較!!
•P值代表在實驗的條件下，推翻虛無假設的證據強度
•P值是深受樣本數 (sample size)的影響
Part 2
P-value的探討
• 應有的認知
– P-value 並不能表示”效應的大小”,決定顯著水準
– P-value 並不是” H0為偽的機率”, 犯 type one error的機率
– P-value 並不是”觀測值是極端值的機率”
– P-value 並不是”重覆取得觀測值得到不同結果的機率”
• 統計學家和公衛學家之建議
– 臨床上的治療決定 (decision making)絕對不應該僅根基於
hypothesis testing (也就是只看P值)!!
– 必須要根據所有的證據，包括：相關性的強度，測量的精確
度，對公衛系統的優點和缺點影響，以及對國家經濟的影響(
是否會造成保險沉重負擔)
– P值無法完整呈現治療效果，學者建議以效果值(effect size)
和95%信賴區間來取代
Part 2
統計學意義 (statistical significance)
與臨床意義 (clinical significance)的差別
A藥 B藥 If you have cancer, which result
do you want?
• Mean = 1.4
• SD = 0.1
• P <0.0005
• Mean = 4
• SD = 2
• P = 0.051
Part 2
差異比較(1)
• 統計學家發明了許多統計檢定方法
– 單一樣本檢定平均數Z test(σ已知), T test(σ未知)
– 兩組樣本檢定平均數Independent T Test
Paired T Test
中位數Kruskal-Wallis Test(非常態)
Mean 有差異 Variation 有差異

A B A

Part 2
差異比較(2)
– 兩組或多組樣本檢定平均數
• 方法一、利用T Test進行兩兩比較
”過度檢定”(overtesting)
需要選擇合適的顯著水準，讓Overall Type I error控制
• 方法二、變異數分析(ANOVA, F-test)
檢定所有組別平均數是否有顯著差異的整體量測方式
前提假設
1. 所有觀測值是獨立的每個觀測值彼此不相關
For 2 Groups
2. 每一組內觀測值呈常態分布
F=t2
3. 變異同質性每一組內變異數與他組相同
ANOVA只要樣本數夠大、每組樣本數相近效果就不錯!!
Part 2
<範例>T Test的誤用
常見誤用情況：對於三組以上的資料，每次取兩組比較，針對所有組合比較
Example:比較A藥、B藥控制下病人的血糖值(A藥組、B藥組、對照組)
A藥組 vs B藥組 α=0.05
A藥組 vs 對照組 α=0.05
B藥組 vs 對照組 α=0.05
 Overall Type I error=3*0.05=15%(結論有15%的機率會是錯誤的!!)
34%
Part 2
差異比較(3)
– 多組樣本檢定平均數，若ANOVA發現有差異(i.e.至
少有一組平均數之間有差異存在)，如何發現差異在
哪?事後分析(Post-hoc Test)/多重比較
• Bonferroni Test 組數多過於保守
• Holm t Test 較Bonferroni不保守,有較大檢定力
• Tukey test低估偵測顯著差異
• Student-Newman-Keuls Test(SNK Test)過度偵測顯著差異
• Scheffe Test
• Fisher’s LSD Test太過自由
• Duncan’s Multiple Range Test
目前統計學家對於使用哪種統計方法較好尚未有共識
Part 2
信賴區間(Confidence Interval)
信賴區間可以幫助我們估計未知參數的值，同時告訴
我們估計的不確定程度有多大!!
母體樣本
N(μ, σ2) 
X ~ N ,
2
n
μ落在此區間的機率為95%
Part 2
怎麼比，才有效?
專家說：”成長期的兒童若營養攝取不足，會影響他的成年身高” Why? How?
方案一、觀察瓜地馬拉鄉下兒童吃到的食物約美國兒童的一半，
這些兒童長到七歲時，平均身高比美國同齡兒童矮約15 cm/體
重輕約5 kg，之後差距還會拉大(1960)
衛生條件、醫療設備、疾病盛行
、種族差異、父母經濟能力等因
素未考量!!
方案二、INCAP(WHO底下的研究單位)選了瓜國四個村莊分成
兩組分別施予蛋白質及高熱量的A飲料及不含蛋白質及低熱量的
B飲料，並登記兒童飲用量(1969)
結論：瓜國鄉下兒童與美國兒童的成長差異，主要是由蛋白質的攝取量造成
Finding平均來看，多攝取1磅可以多成長0.1 cm ，美國與瓜國兒童成長到
七歲蛋白質攝取量差距約150磅可以解釋方案一之發現
Part 3
兩個變數之關係
當兩個變項之間存有某種連動的變化趨勢，則稱他們之間是相關的
• 使用時機
– 研究常需同時審視兩個變項的資料(ex:身高、體重)
• 兩個變項之間是否有關連(relationship)
• 關連的強弱
• 統計圖形散佈圖(Scatter Plot)
• 統計量相關係數(Correlation Coefficient)
– 瞭解兩個變項之間的線性關係
Part 3
相關性的強弱
完全正相關完全負相關
正相關負相關可用相關係數(r)的

大小進行判斷越接
近+1 or -1代表線性
相關程度越強!!
沒有直線關係
沒有直線關係但有非線性相關
Part 3
各種相關係數
• 皮爾森相關係數(Pearson correlation coefficient)
– 主要是測量兩連續變數間關係的強弱
需符合常態假設
• 斯皮爾曼等級相關係數(Spearman rank C.C.)

– 主要是測量兩等級變項間關係的強弱
不需常態假設
Part 3
相關係數範例
Example：分析孩童注射疫苗比率的高低與死亡率是否相關?
方法一皮爾森相關係數
• r = -0.79
• t = -5.47
 p-value<0.001
方法二斯皮爾曼等級相關係數
• r = -0.54
• t = -2.72 顯著負相關
 p-value=0.014
Part 3
相關係數使用注意事項
Q ：假如我們取樣1000筆資料，研究兩個變數之間的相關性，
得到相關係數為r=-0.06 (p<0.001) ，該如何解釋?
•兩個變數之線性關係不強!! (∵ r 很接近0)
•相關係數檢定主要是檢定母群體相關係數是否為0
當樣本數大的時候，一般均會達到統計上的顯著差異
General Rule ： Portney & Watkins(2000)

• 0 ~ 0.25 無相關or輕微相關
• 0.25 ~ 0.5 輕度相關(fair degree)
• 0.5 ~ 0.75 中度相關(moderate to good relationship)
• >0.75 強相關(good to excellent relationship)
Part 3
相關≠因果
•即使相關係數數值很高且達顯著統
計意義，這並不表示兩個連續變
項具有因果關係。
•兩變項間是否為一因果關係，應是
依臨床或學理來決定。
Part 3
相關≠因果的例子(1)
吃黃瓜的禍害(有相關不代表有因果關係的一個著名的例子)
…酸黃瓜與身體大多數重要疾病有關。吃黃瓜會引起戰爭或共產主義的盛行；
大多數的空難、交通事故也與吃酸黃瓜有關，犯罪率的增加也與酸黃瓜的消
耗量有正相關。例如，
幾乎所有生病的人都吃過酸黃瓜…
99%死於癌症的人都吃過酸黃瓜…
100%的士兵都吃過酸黃瓜…
96.8%的共產黨人都吃過酸黃瓜…
99.7%的車禍或空難者，在事故發生前14天都有吃過酸黃瓜…
93.1%的犯罪青少年，都來自常吃酸黃瓜的家庭，證明酸黃瓜的長期影響。
在1839年出生且晚餐吃過酸黃瓜的人，有100%的死亡率。
出處:“Evils of Pickle Eating,” by Everett D. Edington, originally printed in Cyanograms.

Part 3
相關≠因果的例子(2)
2007.05奇摩新聞
-- 大樂透連六槓,上看3億,射手O型已婚男中獎率最高
• 台灣彩券針對近197位中獎五百萬元以上者
進行分析，發現每期都購買、且在住家附
近下注，中獎率超過三成。其中，已婚、
男性、四十歲到四十九歲、O型、射手座等
特質中頭獎機率最高，跟北富銀時代比較
，除了星座外，其餘特質皆相同。
相關不代表因果
Part 3
一致性 vs 相關性
• 相關性(Correlation)
– 如果資料點完全落在任何一直線上即是完美相關(r=1)!!
• 一致性(Agreement)
– 完美的一致性需要所有資料點全落在平等線!!
兩種量測 Bland-Altman Difference Plot
的差異
若>95%的點落在此區間一致
兩種量測的平均值
Part 3
一致性分析範例
-- 利用心臟超音波評估二尖瓣閉鎖不全
RF(逆流分率)
Objective：分析兩種測量方法是否一致?
r=0.89代表兩種方
法差不多，但是沒
有量化其一致性!!
利用Bias(Doppler-Cath) vs
平均值，判斷兩種測量方法
沒有系統偏差且相當一致!!
Part 3
迴歸分析(Regression)
• 迴歸(regression) 能迴歸者，必相關!!
– 以一個自變項(independent variable)的變化來預
測或解釋另一個應變項(dependent)的變化
<例如>
• 1.以身高來預測體重
• 2.以指考成績來預測大一第一學期的成績
• 3.以年齡來預測血中膽固醇濃度
• 4.預測食鹽攝取量對血壓值的影響
• 5.以氣溫來預測飲料的銷售量
Part 3
有相關並非證明有因果關係
Part 3
相關係數與迴歸分析(1)
Part 3
相關係數與迴歸分析(2)
Part 3
相關係數與迴歸分析的限制
• 無法有效測量一個非線性關係的強度
• 當樣本數n很小時(n<50) ，需對相關係數的
信賴度有所保留
• Outlier的影響很大
• Causation versus association
Outlier
Part 3
應用迴歸分析注意事項
• 相關分析確認變數間的關係
• 判斷是否存在”共線性”問題相關係數>0.8或VIF>10
– 若自變項間相關太密切，可挑選較有代表性的變項放入迴歸分析
– 或用主成分分析(principle component analysis)縮減變項
• 畫各自變項與依變項的「散佈圖」判斷是否非直線關係
– 若存在非直線關係則需修正迴歸方程式
• 確認樣本的同質性ex:不該把病人與正常人資料混合分析
• 「極端值」檢驗∵Outlier對結果的影響甚大
– 可用盒型圖或直方圖作檢查
• 不應盲目地選擇「逐步法」(可採Forward or Backward)
– 每個變數在放入迴歸模型之前最好都有一定的理論基礎
• 有「顯著」的迴歸係數(β)不代表就有”強的預測力”要看R2
• 切勿用很少的樣本數，但卻放很多的自變項建議10:1
Part 3
當用相關或迴歸聯繫兩個變數時
•必須檢視樣本資料作成的圖，以瞭
解資料是否符合統計方法之假設。
•兩變項間是否為一因果關係，應是
依臨床實驗或學理來決定。
Part 3
統計與因果
<重要觀念>
1. 即使兩個變數間有很強的關聯，也不代表改變其中一個變數的值會導致另
一個變數的改變。
2. 兩個變數之間的關聯，常常受其他潛在背景中的潛在變數(Z)影響。
3. 建立因果關係最好的證據，來自隨機化比較實驗。
?
X Y X Y X Y
?
Z Z
因果關係共同反應交絡
Example：看電視會延年益壽?(胡說相關) Example：胖媽媽和胖女兒
X:平均每人電視機數 X:媽媽BMI
Y:國民平均餘命 Y:女兒BMI
Z:國家財富 Z:其他因素(生活習慣)
Part 3
因果證據
Q:當我們不能做實驗時，能確立因果關係的標準在哪?
– 相關很強 ex:吸菸和肺癌之間的相關性很強
– 相關有一致性 ex:不同國家對不同人所做的研究都一致
– 較高劑量和較強反應有關 ex:吸菸較多或菸齡較長更常得病
– 被懷疑的原因在時間上早於結果(時序性)
• 肺癌是在吸菸多年後才顯現的
• 吸菸人口越普遍後，死於肺癌的人數才上升
– 被懷疑的原因是可信的(生物贊同性) ex:動物實驗結果顯示，
吸菸產生的焦油的確會致癌
出處Hill AB. The Environment and Disease: Association or Causation?
Proceedings of the Royal Society of Medicine. 1965;58:295-300.
此篇文章2010被YJBM選為Five Classic Articles in Public Health!!
因果證據強度還是比不上用設計完美的實驗所得到的證據
Part 4
質性資料的分析
• 質性資料特質
– 不能作個人量化量測，它是關於有沒有存在某種特質的資料
，例如：有無抽菸/喝酒/嚼檳榔
– 依照感興趣的特質將資料分組，例如:高血壓、老年人
– 觀測到的是次數
– 用來將資料分組的表格稱為列聯表(Contingency Table)
危險因子有疾病沒有疾病總計
有暴露 a b a+b
沒有暴露
• 關心什麼? c d c+d
– 兩個變數有沒有相關?獨立性
– 不同族群中某項特質的分佈是否相似?同質性
– 實驗組vs對照組治療成功的比例有差?比例差異顯著性
Part 4
分析方法
• 樣本為獨立樣本卡方檢定
<注意事項>
– 2X2列聯表，所有格子的期望值都要大於5
– 更大的列聯表，各格的期望值不要小於1，且期望值小於5
的格數不要超過20%
– 如果發生上述情況，應採用Fisher Exact Test
• 樣本為配對或非獨立McNemar’s Test
– 適用時機：Matched 、Before-and-after design
發生車禍
前後是否
習慣性繫
安全帶?
Part 4
範例--卡方檢定
Example:欲探討性別與睡眠困擾之相關性獨立樣本
觀測值(O) 期望值(E)
•性別和睡眠困擾
間是有相關性
•男>女
Part 4
範例--Fisher Exact Test

有兩格期望值<5
有兩格期望值<5
•P值=0.088
•職場壓力與睡眠
困擾無顯著相關
Part 4
範例--McNemar Test
Example: 醫院想分析評鑑與員工發生睡眠困擾是否有關
假設去年沒有評鑑，今年有評鑑
相依樣本
a b
c d
•P值=0.039
•評鑑顯著增加
睡眠困擾的比例
Part 4
相關強度的測量值
危險因子有病沒病總計
有暴露 a b a+b
• 相對風險(Relative Risk, RR) 沒有暴露 c d c+d
– 治療組之事件發生率/對照組之事件發生率
a / a  b 
RR 
c /( c  d )
– 若要計算RR ，需進行Prospective/Cohort Study
– Case-Control Study之資料不能計算RR
• 勝算比(Odds Ratio, OR)
– 個案組中暴露的勝算/對照組中暴露的勝算
a/c ad
OR  
b/d bc
– 當a&c遠小於b&d時，RR ≒OR
Part 4
範例--Odds Ratio
•沒壓力組沒睡眠困擾勝算2.4(12/5)
•有壓力組沒睡眠困擾勝算0.32(8/25)
•Odds Ratio7.5(2.4/0.32)
職場壓力與睡眠困擾有顯著相關!! 沒有壓力沒睡眠困擾勝算是有壓力的7.5倍
Part 4
Measure of Effect
• Risk Ratio / Odds Ratio
– Not the same thing, but close enough
• 暴露與不良結果的相關性
– RR 或 OR= 1有無暴露於危險因子中, 發生不良結果的可能性一樣
– RR 或 OR > 1暴露於危險因子中導致不良結果的風險增加
– RR 或 OR< 1暴露於危險因子者比未暴露更不可能發生不良結果
• Common Rule
– 病例對照研究(Case-control study)偏差(bias)較多, 當OR > 4 較有意義
– 世代研究(Cohort study)較嚴謹, 但仍有偏差存在, RR > 3 時較有意義
– 除考慮RR與OR的數值大小, 可利用信賴區間 (CI)來確認準確度
當信賴區間越窄, 結果準確度越高
Part 4
辛普森詭論(Simpson’s Paradox)
內容：在某個條件下的兩組數據，分別討論時都會滿足某種
性質，可是一旦合併考慮，卻可能導致相反的結論。
• Example: 入學審核有性別歧視? (E. H. Simpson, 1951)
電機工程英文合併
男女男女男女總和
通過
拒絕
30
30
10
10
+ 通過
拒絕
5
15
10
30
通過
拒絕
35
45
20
40
55
85
總和 60 20 總和 20 40 總和 80 60 140
男>女
男女申請通過比例皆50% 男女申請通過比例皆33% 男申請通過比例=44%
女申請通過比例=33%
當潛在變數存在時，觀察到的關聯有可能是誤導的，辛普森
詭論只是這項事實的一種極端形式!!
研究結果要如何解讀?
•媒體經常披露各式各樣的研究結果，通常
還加上引人注目的標題，例如：
咖啡喝多了對心臟不好
酒喝多想護肝來杯茶、咖啡
日本研究指出唱歌可以抗癌
低脂飲食無助防癌救心?
有此一說維他命丸A、E越吃越早死!!
…
<範例>咖啡喝多了對心臟不好?
IF=6.6
臨床營養期刊說：一個人若每天喝超過一杯以上的咖啡，則
當事人得到心臟病的機會會比別人高上許多!!
(希臘某大學營養學者研究結果)
<問卷>
約3000人每天喝多正相關
少咖啡?
咖啡喝得越多，
身體健血液中的發炎因
康成人抽血子含量越高!!
(無心血
管疾病)
+
目前的研究已知：當發炎因子多時，代表體內的血液循環系統有問題
推論
因果
咖啡喝得越多，對心臟越不好
要點一：看研究不能只看標題，必
須讀內文，瞭解研究怎麼做的!!
要點二：兩件事情有正向關聯，不
代表兩者有因果關係!!
<範例>低脂飲食無助防癌救心?
2006.2.9 綜合外電報導(經過剪輯內容較粗略)
此研究為美國國家衛生研究院”婦女健康促進計畫”的一部分
JAMA ：February 8, 2006, Vol 295, No. 6
IF=30!!
題外話辛苦是有代價的(N很大近五萬人, 長達八年蒐集資料)
•目標：改變飲食習慣(總熱量中只有20%來自脂肪)
增加蔬菜水果和穀類攝取量
<問卷>
實驗組
19541人 + 道德勸說 + 每天吃了
什麼食物
?
18+4*7=46次
Self-report
營養和健康：
美國人之飲食指南
<問卷>
每天吃了
對照組
29294人
+ + 什麼食物
?
要點三：當一項研究所需數據，必
須依賴參與研究者自己提供時，其
正確性值得審慎考量!!
<範例>維他命丸A、E越吃越早死!!
2007.3.9 綜合外電報導(經過剪輯內容較粗略)
JAMA ：
February 28, 2007, Vol 297, No. 8
其中47個實驗(18.1萬人)分析後發現
整體而言會使死亡率提高5%!!
•β胡蘿蔔素提高7%
•維他命Ａ提高16%
•維他命Ｅ提高4%
•維他命Ｃ可能不影響or提高6%
•硒減少10%
Again辛苦是有代
價的or N很大就好了
• Meta analysis/整合分析/薈萃分析
– 將現有的知識背景(base)加以組合。不管是已出版的論文或
是原始未處理的數據，以統計技術合成所有的知識。所得到
的結論是基於這些資料在過去的貢獻。
– 在實證醫學(Evidence-Based Medicine, EBM)常被用到
• 特色
– 1.多個且具同樣主題研究的綜合分析
– 2.利用統計方法予以客觀的量化數據
• Concerns
– 篩選標準該怎麼訂定沒有公認的準則
• 此例子中原本篩出的68個實驗和後來精挑的47個實驗結論不一致
2010有其他學者重新審視該分析的做法，從68個實驗中選出66
個，將實驗重新歸類(3類Primary/Secondary/Therapy)、重新定
義outcome (區分Benefit(+)/Null(0)/Harm(-))，分析後發現：
•依Outcome區分Benefit*24/Null*39/Harm*3
•不同類型實驗比較無充分證據顯示維他命補充劑是有益/有害!!
[註]實驗分類
Primary降低健康人群中的死亡風險
Secondary減緩發病或預防復發事件和死亡率
Therapy治療，以提高生活質量，限制併發症和/或提供康復
要點四：不要只看到一項研究結果，
就當作事實來遵行，當研究結論和
長期認知有違背時，更應存疑!!
要點五：對於薈萃分析的結論，不
妨保持保留態度!!
Review
• 統計是什麼?
• 統計跟醫學研究的關係?
• 資料蒐集(母體vs樣本)
• 醫學研究常用統計方法
– 敘述統計、推論統計、差異比較
– 相關、迴歸分析、質性資料分析
• 研究結果要如何解讀?
Reminder
Key 統計思考 >> 統計方法
聰明作推論的第一步，是瞭解你的數據及你想回答的問題
PS 其他的請找統計專家!!
Reference
• 統計與生活(國立台灣大學出版中心, 2010)
• 你不能不懂的統計常識(天下文化, 2007)
• 簡明生物統計學(2nd ed.)
• Basic Statistics for the Health Sciences(5th ed.)
• Reading Statistics and Research(5th ed.)
• Understanding Statistics for Research Staff, Rachel Enriquez
• Statistical guidelines for contributors to medical journals
• Statistical errors in medical research –a review of common
pitfalls(2007)
• Applying the Right Statistics: Analyses of Measurement
Studies(2003)
• Misusage of statistics in medical research(2007)
靜思語：知識要用心體會，才能變成自己的智慧。
感謝聆聽
Q&A
Part 3
Regression Example
-- Body depth vs Total length
Linear Regression vs Logistic Regression
比較 Multiple Regression Logistic Regression
應變數 Y必須為連續性資料 Y必須為類別性資料（是/否）
自變數可為連續性或類別資料可為連續性或類別資料

類別資料需以虛擬變數類別資料需設定參考組
表示（Dummy variable）
注意事項 K個水準的類別資料需設 Odds Ratio

K-1個虛擬自變數 95% CI of Odds Ratio
Ex:性別（0/1） 1個 P value (Wald statistic)
血型（A/B/O/AB） 3個 Accuracy of model=85.9%
x1 x2 x3 x1 x2 x3
Nagelkerke R2
A: ( 0 0 0 ) B: ( 1 0 0 )
O: ( 0 1 0 ) AB: ( 0 0 1 )
資料型態與適用統計方法
有母數與無母數統計方法之比較
比較方法有母數統計無母數統計
適用對象常態母體非常態或未知母體
推論對象母體參數 1. 母體參數

2. 非母體參數(適合性、獨立性、
一致性之檢定)
適用尺度等距、比率名目、順序、等距或比率
優點 1. 在等距或比率尺度時，其準 1. 無需假設母體為常態，因此應
確度較高。用較為廣泛。
2. 母體已知時，效率較高。 2. 各種尺度皆為適用。
3. 小樣本下，準確度較高。 3. 計算簡單且快速。
4. 在小樣本時特別適用於非常態
母體。
缺點 1. 需假設母體為常態，因此應 1. 在等距或比率尺度時，其準確
用較有限。度較低。
2. 無法適用於名目與順序尺度。 2. 因樣本較小，檢定誤差相對較
高。
3. 母體已知時，效率相對較低。
Research Design
• 只介紹同時有實驗組與對照組研究設計(最常見)
• 每一種研究設計使用的統計方法跟風險測量不盡相同
回溯性研究(Retrospective Study)
• 回溯性研究
– 最常見的設計為病例對照研究，即先選定病例組的人數，然後再
決定對照組的人數，然後再回溯兩組是否有暴露在某個危險因子
之下，進而探討該危險因子是否與疾病有所關聯。
– 以抽煙跟肺癌的例子，我們可先挑選50位罹患肺癌的病人，接著
按照一定的比例，例如1：3的比例(比例可自行決定)，收取150位
未罹患肺癌的病人資料，然後回顧這200位病人的抽煙史，結果可
能顯示病例組有70％曾經抽煙而對照組僅有40％曾經抽過煙，接
著透過統計分析來檢定抽煙跟肺癌是否具有關聯性。
– 優勢是速度比較快，只需查病歷資料即可完成，而且因為不是向
前收案，因此成本便宜而且不會有失去追蹤的問題。病例對照研
究也特別適合用於研究罕見的疾病，相較之下，世代研究若追蹤
很罕見的疾病則不適合，例如追蹤10年才少數幾位個案發生疾病
，會導致統計分析上的檢定力（power）薄弱。反之病例對照研究
的劣勢是不適合研究罕見的暴露因子。
世代研究(Cohort Study)
• 世代研究
– 研究一開始將研究對象(不一定是有病的人)隨機地分派至兩組，
其中一組是暴露組(exposed group)另一組則是未暴露組
(unexposed group)，至於暴露的因子則是研究者關心的變項
– 例如:抽煙與肺癌的關係或居住在高壓電附近與腦部病變的關係。
然後往後追蹤一段期間，就會觀察到暴露組與未暴露組都有人發
生事件(event，例如疾病)
– 此時就可計算兩組發生事件比例的比較，例如追蹤10年後抽煙組
發生肺癌比例為3％而未抽煙組罹患肺癌比例為1％，接著進而透
過統計分析評估究竟暴露因子(抽煙)是否與事件(肺癌)有關聯。
– 世代研究是非常具有因果推論效力的研究設計，但是非常耗時也
非常耗費成本，以抽煙跟肺癌來說，可能至少的追蹤期要10年以
上才有意義。另外一方面也因為追蹤期很長，研究參與對象會有
失去追蹤(lost to follow up)的問題。
臨床實驗(Clinical Trials)
• 臨床實驗(或稱作臨床試驗)
– 包括平行設計(Parallel Trial)及交叉設計(Cross-over)，而以平行設計較常見/簡單
• 平行設計(Parallel Trial)
– 類似於心理教育領域的準實驗設計(Quasi-experimental design，或稱類實驗)，即
一開始將研究對象隨機分派(random assign)為治療組與對照組。
– 例如以藥廠的臨床藥物實驗，想要比較原廠及台廠的藥物療效比較，則一開始即
隨機將自願參加病人分成兩組，然後開始進行藥物使用，最後評估療效，例如檢
定台廠藥物成功治癒的比例與原廠藥物是否有差別。
– 不過在隨機分派的過程中也有可能兩組病人的基本特性差異很大，例如一組剛好
年齡很大另外一組比較年輕，因此在分派過程可適當考慮重要的基本特性（例如
性別、年齡層、疾病嚴重分級）來作隨機的分派，即作分層隨機分派（stratified
randomization），以確保兩組病人的基本資料是同質的（homogeneous）。
• 交叉設計(Cross-over)

醫學研究中常見的統計應用及誤用

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

醫學研究中常見的統計應用及誤用

Uploaded by

Copyright:

Available Formats

醫學研究中常見的統計應用及誤用

Statisticians need DATA

若加上案例數，三總15/85% 、振興148/73% 、林口長庚11/70% 、

Sample size = 50 , P-value =0.044 Sample size = 200 , P-value = 0

Mean 有差異 Variation 有差異

正相關負相關可用相關係數(r)的

• 斯皮爾曼等級相關係數(Spearman rank C.C.)

General Rule ： Portney & Watkins(2000)

出處:“Evils of Pickle Eating,” by Everett D. Edington, originally printed in Cyanograms.

範例--Fisher Exact Test

自變數可為連續性或類別資料可為連續性或類別資料

注意事項 K個水準的類別資料需設 Odds Ratio

適用對象常態母體非常態或未知母體

推論對象母體參數 1. 母體參數

You might also like

醫學研究中常見的統計應用及誤用

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

醫學研究中常見的統計應用及誤用

Uploaded by

Copyright:

Available Formats

醫學研究中常見的統計應用及誤用

Statisticians need DATA

若加上案例數，三總15/85% 、振興148/73% 、林口長庚11/70% 、

Sample size = 50 , P-value =0.044 Sample size = 200 , P-value = 0

Mean 有差異 Variation 有差異

正相關 負相關 可用相關係數(r)的

• 斯皮爾曼等級相關係數(Spearman rank C.C.)

General Rule ： Portney & Watkins(2000)

出處:“Evils of Pickle Eating,” by Everett D. Edington, originally printed in Cyanograms.

範例--Fisher Exact Test

自變數 可為連續性或類別資料 可為連續性或類別資料

注意事項 K個水準的類別資料需設 Odds Ratio

適用對象 常態母體 非常態或未知母體

推論對象 母體參數 1. 母體參數

You might also like

正相關負相關可用相關係數(r)的

自變數可為連續性或類別資料可為連續性或類別資料

適用對象常態母體非常態或未知母體

推論對象母體參數 1. 母體參數