Professional Documents
Culture Documents
慈濟醫學中心/研究部
王仁宏/Paul Wang
paulwang@tzuchi.com.tw
分機7651
醫學統計諮詢師
自我介紹
姓名:王仁宏/Paul Wang
辦公室分機:7651 簡碼:40460
辦公室位置:協力樓6樓628室
信箱:王仁宏/medicine/Tzuchi,
paulwang@tzuchi.com.tw
學歷:成大統計研究所碩士(88級)
經歷:原職旺宏電子資料分析處副部經理
(From 2001/09~2012/04)
102年度生物統計課程規劃(1)
臨床試驗
臨床流病 健保資料
• 目的
– 增進同仁研究所需統計分析能力,進而促進研究品質提升
– 本年度著重臨床試驗、臨床流行病學及健保資料相關課程
• 開課對象
– 花蓮&新店慈院中、西、牙醫師&九大職類人員
• 開課時間
– 預計於3月至9月舉辦一梯次課程/共10堂課(每堂1.5小時)
• 上課方式
– 採主題式教學並輔以案例解說及統計軟體操作
102年度生物統計課程規劃(2)
• 主課老師慈大公衛系教師&研究部醫學統計諮詢師
– 謝宗成老師:專長--臨床試驗分析與設計
– 溫淑惠老師:專長--遺傳統計、生物統計
– 嚴嘉楓老師:專長--弱勢群體醫療、長期照護政策
– 謝佳容老師:專長--環境職業流行病學、應用生物統計
– 王仁宏老師:專長--統計應用、統計分析
• 課程規劃(原則上週五之中午12:30~14:00)
課程類型 上課月份 課程名稱 授課講師
統計方法 3/15 醫學研究中常見的統計應用及誤用 王仁宏老師
統計方法 3/29 問卷信效度分析與應用 嚴嘉楓老師
統計方法 4/26 生活品質量表應用 嚴嘉楓老師
臨床流病 5/10 臨床流病研究設計 謝佳容老師
健保資料 5/24 全民健保資料庫簡介 王仁宏老師
健保資料 6/21 健保資料庫的發展與應用-以內科為例 謝宗成老師
健保資料 7/12 健保資料庫的發展與應用-以外科為例 王仁宏老師
健保資料 7/19 健保資料庫的發展與應用-以婦科為例 謝佳容老師
健保資料 8/16 健保資料庫的發展與應用-以內科為例 溫淑惠老師
臨床試驗 9/13 臨床試驗研究設計與分析 謝宗成老師
課程目標
• 溫故回顧醫學研究常見的統計觀念
– 統計是什麼?
– 統計如何應用到醫學研究?
– 常見的統計方法及概念
• 解讀&評論判斷醫學研究結果的合理性
– 避免統計方法誤用
– 避免統計分析結果解讀錯誤
Outline
• 統計是什麼?
• 統計跟醫學研究的關係?
• 資料蒐集(母體vs樣本)
• 醫學研究常用統計方法
– 敘述統計、推論統計、差異比較
– 相關、迴歸分析、質性資料分析
• 研究結果要如何解讀?
節能減碳愛地球
-- 上課講義請至研究部網站下載
注意事項
淡定
統計是什麼?
資訊
知識
資
料
•統計是從數據中找出訊息並且做成結論!!
•統計是幫助我們透過客觀的資料分析來瞭解
變異來源的一門科學!!
產生 整合 解釋
數據 + 數據 + 推論
為什麼要學習統計?
-- 有趣的例子(1)
為什麼要學習統計?
-- 有趣的例子(2)
為什麼要學習統計?
-- 用科學的方法來促進專業的進步
當新治療方法、藥物、設計或介
入發展出來時,關鍵問題是
“它有用嗎?”
文獻回顧資料收集
統計分析專業解釋結果
Make Decision
統計與醫學研究的關係
•描述流行病學假說的研擬與篩選
•分析流行病學假說的辨明與修訂
流行病學 •實驗性流行病學假說的實證與確立
•詳查審視思考醫學問題
•正確的研究設計確保資料收集品質
實證
醫學
•敘述性統計研究對象特性描述
•推論統計從樣本所獲得資訊說明母體
生物統計學 •科學化整理分析呈現證據
•合理的歸納與推論實證醫學發現
應用領域:醫學或公共衛生等
產生數據
母體與樣本
壞樣本的毛病
1.對調查母體沒有定義清楚
2.母體裡面的個體有些永遠不可能被抽中
產生數據
壞樣本的例子
• 1.便利抽樣碰到誰就問誰的抽樣 非機率抽樣!!
– Ex:在新光三越的前廣場進行訪問
• 壞處:母體對象沒有定義,而且有些個體不會被抽中
• 2.自願樣本自動送上門來的樣本
– Ex:電話叩應、Yahoo奇摩新聞意見調查
• 壞處:一個人可以重覆許多次,導致有灌水的問題
• 3.立意抽樣依照本身的主觀判斷去挑樣本
– Ex:訪問對核能發電具有專業知識的人士
• 壞處:專業人士的意見是否足以代表一般人的意見?
• 4.配額選樣
– 把調查對象依照特徵分類後,依各類比例立意找人到額滿為止
• 壞處:容易受到訪員主觀選擇受訪者的影響,對於推論的正確性傷害相當大
產生數據
李昌鈺博士:有幾分證據說幾分話
∵資源有限 好樣本的特性
•母體有定義
•樣本是母體的縮影
•樣本具有代表性
產生數據
觀察性 vs 實驗性資料
資料性質 特徵 可推論的方法 Example
觀察性 順其自然 相關分析 醫院欲紀錄患有高血壓症
(Correlation) 狀之住院病患之狀況,每
天請護士測量並照實紀錄
Ex:病歷回顧
實驗性 操之在我 因果分析 醫院欲測量降血壓的新藥
(Causal) 之療效,得到病患同意後,
每日給予病患治療,並記
錄病患血壓
Ex:臨床試驗
產生數據
醫學研究常用統計方法
• 有人針對社會科學與教育類、醫學護理類、管理類,每大類搜
尋20~30篇論文,然後將這些論文使用的統計方法整理如下:
– 醫護類會用到大量的描述統計(22%)、ANOVA(18%)和T檢定(18%)
– 其他統計方法(6~12%):皮爾森相關、線性迴歸、無母數、邏輯斯迴歸
– 醫護類的論文很少使用到SEM和ANCOVA
Part 1
描述統計
-- 統計量 & 統計圖
目的:讓分析者可以在短時間內瞭解資料的分佈狀況與訊息
Histogram
統計量集中區勢、離散趨勢
•Mean Boxplot
•Median
•Mode
•Max/Min
•Quartile(Q1,Q3)
•Range
•Standard Deviation
Pie Chart
Part 1
極端值的影響
•這個籃球隊教練在考:究竟應該公
布”隊平均身高180cm”嚇對手,還是”
隊員身高中位數173cm”讓對手失去
戒心?
??
<注意>
平均數易受極端值的影響,尤其
在數字個數少的時候影響更大!!
Part 1
<範例>存活率的迷思
• 健保局2007年5月公布各醫院器官移植存活率
, 以心臟移植五年存活率來看:
– 三總85% 、振興73% 、林口長庚70% 、台大65%
、北榮55%看來三總是首選?
振興優於台大?病患的病況及背景是否大致接近無法得知
讀到一項統計數據時,應注意上下文,弄清楚該統計量真正的
意義才能夠避免被誤導!!
Part 1
常態分布(Normal Distribution)
許多自然現象、社會現象與日常生活之現象,都以常態分布的情形最為普遍
Ex:身高、體重、學測與基測成績等
常態分布的位置與形狀會隨著
平均數與標準差不同而變化!!
Part 2
假設檢定(Hypothesis Testing)
• 假設(Hypothesis)H0(Null) vs H1(Alternative)
– 統計假設的架構,與刑事訴訟法中的無罪推定原則(被告未
經審判證明有罪確定前,推定其為無罪)類似!!
– 對立假設是研究者期望發現的
– 虛無假設是被保護的,除非證據夠強,否則不輕易推翻現況
• 檢定檢定統計量、臨界值、P-value
• 結論接受(Accept) or 拒絕(Reject)
• Example(2010世足賽的章魚哥)
– “章魚不可能預測比賽結果”(瞎矇)
– H0:章魚哥猜對機率=1/2
– H1:章魚哥猜對機率>1/2
Part 2
假設檢定的流程
• Step 1.決定虛無假說與對立假說
• Step 2.決定顯著水準(α)
– Type I error發生機率 ex:0.05, 0.01
• Step 3.選擇檢定統計量
• Step 4.收集資料,計算檢定統計量及P值
• Step 5.進行決策判定
<Remark>
– 實際上顯著與不顯著間並沒有一個真正的標準
– P值越小,表示我們得到越強的證據能力
Part 2
統計推論所產生的風險
利用樣本證據來對假說進行決策時,難免會因為樣本
的偏差而發生判斷錯誤的情況!!
事實(永遠不知)
決策
H0:無罪 H1:有罪
無法推翻H0 決策正確 Type II error
犯人無罪 (縱虎歸山)
推翻H0 Type I error 決策正確
犯人有罪 (錯殺忠良)
•Type I error亦稱做消費者風險(ex:沒有效的藥被批准上市)
•Type II error亦稱做生產者風險(ex:有效的藥無法上市)
[註]
應注意是否有measurement error, bias, confounding 等情況發生!!
Part 2
假設檢定(Hypothesis Testing)
• P-value 與Sample 的關係: 當Sample size 大時,偵測力會較好
– Example: A group : mean = 0 , std = 1
B group : mean = 0.4 , std = 1
Sample size = 5 , P-value = 0.5996 Sample size = 10 , P-value = 0.2295
P-value的迷思:顯著與非常顯著
問題:在很多統計方法裡都會看到p值, 通常在許多期刊表格的下方都會看到
*p<0.05, **p<0.01, ***p<0.001,所以就說*是顯著,**是很顯著,***是非常顯
著,所以說p<.001 的效果比p<.05的好,這樣說對嗎?
•6種常見P值的錯誤解釋
P值是指研究的發現屬於隨機的可能性
P值 = 0.06,因此代表有94%的機會兩組之間是沒有差別
P值 < 0.001,代表兩組之間一定有差別
P值越小,則證據越明顯 僅有在相同的實驗條件下,具有相同
P值相同代表證據相同 的樣本 (sample size),才能做P值的
P值代表虛無假設為真的機率 直接比較!!
•P值代表在實驗的條件下,推翻虛無假設的證據強度
•P值是深受樣本數 (sample size)的影響
Part 2
P-value的探討
• 應有的認知
– P-value 並不能表示”效應的大小”,決定顯著水準
– P-value 並不是” H0為偽的機率”, 犯 type one error的機率
– P-value 並不是”觀測值是極端值的機率”
– P-value 並不是”重覆取得觀測值得到不同結果的機率”
• 統計學家和公衛學家之建議
– 臨床上的治療決定 (decision making)絕對不應該僅根基於
hypothesis testing (也就是只看P值)!!
– 必須要根據所有的證據,包括:相關性的強度,測量的精確
度,對公衛系統的優點和缺點影響,以及對國家經濟的影響(
是否會造成保險沉重負擔)
– P值無法完整呈現治療效果,學者建議以效果值(effect size)
和95%信賴區間來取代
Part 2
統計學意義 (statistical significance)
與臨床意義 (clinical significance)的差別
A藥 B藥 If you have cancer, which result
do you want?
• Mean = 1.4
• SD = 0.1
• P <0.0005
• Mean = 4
• SD = 2
• P = 0.051
Part 2
差異比較(1)
• 統計學家發明了許多統計檢定方法
– 單一樣本檢定平均數Z test(σ已知), T test(σ未知)
– 兩組樣本檢定平均數Independent T Test
Paired T Test
中位數Kruskal-Wallis Test(非常態)
Part 2
差異比較(2)
– 兩組或多組樣本檢定平均數
• 方法一、利用T Test進行兩兩比較
”過度檢定”(overtesting)
需要選擇合適的顯著水準,讓Overall Type I error控制
• 方法二、變異數分析(ANOVA, F-test)
檢定所有組別平均數是否有顯著差異的整體量測方式
前提假設
1. 所有觀測值是獨立的每個觀測值彼此不相關
For 2 Groups
2. 每一組內觀測值呈常態分布
F=t2
3. 變異同質性每一組內變異數與他組相同
ANOVA只要樣本數夠大、每組樣本數相近效果就不錯!!
Part 2
<範例>T Test的誤用
常見誤用情況:對於三組以上的資料,每次取兩組比較,針對所有組合比較
Example:比較A藥、B藥控制下病人的血糖值(A藥組、B藥組、對照組)
A藥組 vs B藥組 α=0.05
A藥組 vs 對照組 α=0.05
B藥組 vs 對照組 α=0.05
Overall Type I error=3*0.05=15%(結論有15%的機率會是錯誤的!!)
34%
Part 2
差異比較(3)
– 多組樣本檢定平均數,若ANOVA發現有差異(i.e.至
少有一組平均數之間有差異存在),如何發現差異在
哪?事後分析(Post-hoc Test)/多重比較
• Bonferroni Test 組數多過於保守
• Holm t Test 較Bonferroni不保守,有較大檢定力
• Tukey test低估偵測顯著差異
• Student-Newman-Keuls Test(SNK Test)過度偵測顯著差異
• Scheffe Test
• Fisher’s LSD Test太過自由
• Duncan’s Multiple Range Test
目前統計學家對於使用哪種統計方法較好尚未有共識
Part 2
信賴區間(Confidence Interval)
信賴區間可以幫助我們估計未知參數的值,同時告訴
我們估計的不確定程度有多大!!
母體 樣本
N(μ, σ2)
X ~ N ,
2
n
μ落在此區間的機率為95%
Part 2
怎麼比,才有效?
專家說:”成長期的兒童若營養攝取不足,會影響他的成年身高” Why? How?
方案一、觀察瓜地馬拉鄉下兒童吃到的食物約美國兒童的一半,
這些兒童長到七歲時, 平均身高比美國同齡兒童矮約15 cm/體
重輕約5 kg, 之後差距還會拉大(1960)
衛生條件、醫療設備、疾病盛行
、種族差異、父母經濟能力等因
素未考量!!
方案二、INCAP(WHO底下的研究單位)選了瓜國四個村莊分成
兩組分別施予蛋白質及高熱量的A飲料及不含蛋白質及低熱量的
B飲料,並登記兒童飲用量(1969)
結論:瓜國鄉下兒童與美國兒童的成長差異,主要是由蛋白質的攝取量造成
Finding平均來看,多攝取1磅可以多成長0.1 cm ,美國與瓜國兒童成長到
七歲蛋白質攝取量差距約150磅可以解釋方案一之發現
Part 3
兩個變數之關係
當兩個變項之間存有某種連動的變化趨勢,則稱他們之間是相關的
• 使用時機
– 研究常需同時審視兩個變項的資料(ex:身高、體重)
• 兩個變項之間是否有關連(relationship)
• 關連的強弱
• 統計圖形散佈圖(Scatter Plot)
• 統計量相關係數(Correlation Coefficient)
– 瞭解兩個變項之間的線性關係
Part 3
相關性的強弱
完全正相關 完全負相關
沒有直線關係
沒有直線關係 但有非線性相關
Part 3
各種相關係數
• 皮爾森相關係數(Pearson correlation coefficient)
– 主要是測量兩連續變數間關係的強弱
需符合常態假設
不需常態假設
Part 3
相關係數範例
Example:分析孩童注射疫苗比率的高低與死亡率是否相關?
方法一皮爾森相關係數
• r = -0.79
• t = -5.47
p-value<0.001
方法二斯皮爾曼等級相關係數
• r = -0.54
• t = -2.72 顯著負相關
p-value=0.014
Part 3
相關係數使用注意事項
Q :假如我們取樣1000筆資料,研究兩個變數之間的相關性,
得到相關係數為r=-0.06 (p<0.001) ,該如何解釋?
•兩個變數之線性關係不強!! (∵ r 很接近0)
•相關係數檢定主要是檢定母群體相關係數是否為0
當樣本數大的時候,一般均會達到統計上的顯著差異
相關≠因果
•即使相關係數數值很高且達顯著統
計意義,這並不表示兩個連續變
項具有因果關係。
•兩變項間是否為一因果關係,應是
依臨床或學理來決定。
Part 3
相關≠因果的例子(1)
吃黃瓜的禍害(有相關不代表有因果關係的一個著名的例子)
…酸黃瓜與身體大多數重要疾病有關。吃黃瓜會引起戰爭或共產主義的盛行;
大多數的空難、交通事故也與吃酸黃瓜有關,犯罪率的增加也與酸黃瓜的消
耗量有正相關。例如,
幾乎所有生病的人都吃過酸黃瓜…
99%死於癌症的人都吃過酸黃瓜…
100%的士兵都吃過酸黃瓜…
96.8%的共產黨人都吃過酸黃瓜…
99.7%的車禍或空難者,在事故發生前14天都有吃過酸黃瓜…
93.1%的犯罪青少年,都來自常吃酸黃瓜的家庭,證明酸黃瓜的長期影響。
在1839年出生且晚餐吃過酸黃瓜的人,有100%的死亡率。
相關≠因果的例子(2)
2007.05奇摩新聞
-- 大樂透連六槓,上看3億,射手O型已婚男中獎率最高
• 台灣彩券針對近197位中獎五百萬元以上者
進行分析,發現每期都購買、且在住家附
近下注,中獎率超過三成。其中,已婚、
男性、四十歲到四十九歲、O型、射手座等
特質中頭獎機率最高,跟北富銀時代比較
,除了星座外,其餘特質皆相同。
相關不代表因果
Part 3
一致性 vs 相關性
• 相關性(Correlation)
– 如果資料點完全落在任何一直線上即是完美相關(r=1)!!
• 一致性(Agreement)
– 完美的一致性需要所有資料點全落在平等線!!
兩種量測 Bland-Altman Difference Plot
的差異
若>95%的點落在此區間一致
兩種量測的平均值
Part 3
一致性分析範例
-- 利用心臟超音波評估二尖瓣閉鎖不全
RF(逆流分率)
Objective:分析兩種測量方法是否一致?
r=0.89代表兩種方
法差不多,但是沒
有量化其一致性!!
利用Bias(Doppler-Cath) vs
平均值,判斷兩種測量方法
沒有系統偏差且相當一致!!
Part 3
迴歸分析(Regression)
• 迴歸(regression) 能迴歸者,必相關!!
– 以一個自變項(independent variable)的變化來預
測或解釋另一個應變項(dependent)的變化
<例如>
• 1.以身高來預測體重
• 2.以指考成績來預測大一第一學期的成績
• 3.以年齡來預測血中膽固醇濃度
• 4.預測食鹽攝取量對血壓值的影響
• 5.以氣溫來預測飲料的銷售量
Part 3
有相關並非證明有因果關係
Part 3
相關係數與迴歸分析(1)
Part 3
相關係數與迴歸分析(2)
Part 3
相關係數與迴歸分析的限制
• 無法有效測量一個非線性關係的強度
• 當樣本數n很小時(n<50) ,需對相關係數的
信賴度有所保留
• Outlier的影響很大
• Causation versus association
Outlier
Part 3
應用迴歸分析注意事項
• 相關分析確認變數間的關係
• 判斷是否存在”共線性”問題相關係數>0.8或VIF>10
– 若自變項間相關太密切,可挑選較有代表性的變項放入迴歸分析
– 或用主成分分析(principle component analysis)縮減變項
• 畫各自變項與依變項的「散佈圖」判斷是否非直線關係
– 若存在非直線關係則需修正迴歸方程式
• 確認樣本的同質性ex:不該把病人與正常人資料混合分析
• 「極端值」檢驗∵Outlier對結果的影響甚大
– 可用盒型圖或直方圖作檢查
• 不應盲目地選擇「逐步法」(可採Forward or Backward)
– 每個變數在放入迴歸模型之前最好都有一定的理論基礎
• 有「顯著」的迴歸係數(β)不代表就有”強的預測力”要看R2
• 切勿用很少的樣本數,但卻放很多的自變項建議10:1
Part 3
當用相關或迴歸聯繫兩個變數時
•必須檢視樣本資料作成的圖,以瞭
解資料是否符合統計方法之假設。
•兩變項間是否為一因果關係,應是
依臨床實驗或學理來決定。
Part 3
統計與因果
<重要觀念>
1. 即使兩個變數間有很強的關聯,也不代表改變其中一個變數的值會導致另
一個變數的改變。
2. 兩個變數之間的關聯,常常受其他潛在背景中的潛在變數(Z)影響。
3. 建立因果關係最好的證據,來自隨機化比較實驗。
?
X Y X Y X Y
?
Z Z
因果關係 共同反應 交絡
Example:看電視會延年益壽?(胡說相關) Example:胖媽媽和胖女兒
X:平均每人電視機數 X:媽媽BMI
Y:國民平均餘命 Y:女兒BMI
Z:國家財富 Z:其他因素(生活習慣)
Part 3
因果證據
Q:當我們不能做實驗時,能確立因果關係的標準在哪?
– 相關很強 ex:吸菸和肺癌之間的相關性很強
– 相關有一致性 ex:不同國家對不同人所做的研究都一致
– 較高劑量和較強反應有關 ex:吸菸較多或菸齡較長更常得病
– 被懷疑的原因在時間上早於結果(時序性)
• 肺癌是在吸菸多年後才顯現的
• 吸菸人口越普遍後,死於肺癌的人數才上升
– 被懷疑的原因是可信的(生物贊同性) ex:動物實驗結果顯示,
吸菸產生的焦油的確會致癌
出處Hill AB. The Environment and Disease: Association or Causation?
Proceedings of the Royal Society of Medicine. 1965;58:295-300.
此篇文章2010被YJBM選為Five Classic Articles in Public Health!!
因果證據強度還是比不上用設計完美的實驗所得到的證據
Part 4
質性資料的分析
• 質性資料特質
– 不能作個人量化量測,它是關於有沒有存在某種特質的資料
,例如:有無抽菸/喝酒/嚼檳榔
– 依照感興趣的特質將資料分組,例如:高血壓、老年人
– 觀測到的是次數
– 用來將資料分組的表格稱為列聯表(Contingency Table)
危險因子 有疾病 沒有疾病 總計
有暴露 a b a+b
沒有暴露
• 關心什麼? c d c+d
– 兩個變數有沒有相關?獨立性
– 不同族群中某項特質的分佈是否相似?同質性
– 實驗組vs對照組治療成功的比例有差?比例差異顯著性
Part 4
分析方法
• 樣本為獨立樣本卡方檢定
<注意事項>
– 2X2列聯表,所有格子的期望值都要大於5
– 更大的列聯表,各格的期望值不要小於1,且期望值小於5
的格數不要超過20%
– 如果發生上述情況,應採用Fisher Exact Test
• 樣本為配對或非獨立McNemar’s Test
– 適用時機:Matched 、Before-and-after design
發生車禍
前後是否
習慣性繫
安全帶?
Part 4
範例--卡方檢定
Example:欲探討性別與睡眠困擾之相關性 獨立樣本
觀測值(O) 期望值(E)
•性別和睡眠困擾
間是有相關性
•男>女
Part 4
有兩格期望值<5
•P值=0.088
•職場壓力與睡眠
困擾無顯著相關
Part 4
範例--McNemar Test
Example: 醫院想分析評鑑與員工發生睡眠困擾是否有關
假設去年沒有評鑑,今年有評鑑
相依樣本
a b
c d
•P值=0.039
•評鑑顯著增加
睡眠困擾的比例
Part 4
相關強度的測量值
危險因子 有病 沒病 總計
有暴露 a b a+b
• 相對風險(Relative Risk, RR) 沒有暴露 c d c+d
– 治療組之事件發生率/對照組之事件發生率
a / a b
RR
c /( c d )
– 若要計算RR ,需進行Prospective/Cohort Study
– Case-Control Study之資料不能計算RR
• 勝算比(Odds Ratio, OR)
– 個案組中暴露的勝算/對照組中暴露的勝算
a/c ad
OR
b/d bc
– 當a&c遠小於b&d時,RR ≒OR
Part 4
範例--Odds Ratio
•沒壓力組沒睡眠困擾勝算2.4(12/5)
•有壓力組沒睡眠困擾勝算0.32(8/25)
•Odds Ratio7.5(2.4/0.32)
職場壓力與睡眠困擾有顯著相關!! 沒有壓力沒睡眠困擾勝算是有壓力的7.5倍
Part 4
Measure of Effect
• Risk Ratio / Odds Ratio
– Not the same thing, but close enough
• 暴露與不良結果的相關性
– RR 或 OR= 1有無暴露於危險因子中, 發生不良結果的可能性一樣
– RR 或 OR > 1暴露於危險因子中導致不良結果的風險增加
– RR 或 OR< 1暴露於危險因子者比未暴露更不可能發生不良結果
• Common Rule
– 病例對照研究(Case-control study)偏差(bias)較多, 當OR > 4 較有意義
– 世代研究(Cohort study)較嚴謹, 但仍有偏差存在, RR > 3 時較有意義
– 除考慮RR與OR的數值大小, 可利用信賴區間 (CI)來確認準確度
當信賴區間越窄, 結果準確度越高
Part 4
辛普森詭論(Simpson’s Paradox)
內容:在某個條件下的兩組數據,分別討論時都會滿足某種
性質,可是一旦合併考慮,卻可能導致相反的結論。
• Example: 入學審核有性別歧視? (E. H. Simpson, 1951)
電機工程 英文 合併
男 女 男 女 男 女 總和
通過
拒絕
30
30
10
10
+ 通過
拒絕
5
15
10
30
通過
拒絕
35
45
20
40
55
85
總和 60 20 總和 20 40 總和 80 60 140
男>女
男女申請通過比例皆50% 男女申請通過比例皆33% 男申請通過比例=44%
女申請通過比例=33%
當潛在變數存在時,觀察到的關聯有可能是誤導的,辛普森
詭論只是這項事實的一種極端形式!!
研究結果要如何解讀?
•媒體經常披露各式各樣的研究結果,通常
還加上引人注目的標題,例如:
咖啡喝多了對心臟不好
酒喝多 想護肝 來杯茶、咖啡
日本研究指出唱歌可以抗癌
低脂飲食無助防癌救心?
有此一說維他命丸A、E越吃越早死!!
…
<範例>咖啡喝多了對心臟不好?
IF=6.6
臨床營養期刊說:一個人若每天喝超過一杯以上的咖啡,則
當事人得到心臟病的機會會比別人高上許多!!
(希臘某大學營養學者研究結果)
<範例>咖啡喝多了對心臟不好?
<問卷>
約3000人 每天喝多 正相關
少咖啡?
咖啡喝得越多,
身體健 血液中的發炎因
康成人 抽血 子含量越高!!
(無心血
管疾病)
+
目前的研究已知:當發炎因子多時,代表體內的血液循環系統有問題
推論
因果
咖啡喝得越多,對心臟越不好
<範例>咖啡喝多了對心臟不好?
要點一:看研究不能只看標題,必
須讀內文,瞭解研究怎麼做的!!
要點二:兩件事情有正向關聯,不
代表兩者有因果關係!!
<範例>低脂飲食無助防癌救心?
2006.2.9 綜合外電報導(經過剪輯內容較粗略)
<範例>低脂飲食無助防癌救心?
此研究為美國國家衛生研究院”婦女健康促進計畫”的一部分
JAMA :February 8, 2006, Vol 295, No. 6
IF=30!!
題外話辛苦是有代價的(N很大近五萬人, 長達八年蒐集資料)
<範例>低脂飲食無助防癌救心?
•目標:改變飲食習慣(總熱量中只有20%來自脂肪)
增加蔬菜水果和穀類攝取量
<問卷>
實驗組
19541人 + 道德勸說 + 每天吃了
什麼食物
?
18+4*7=46次
Self-report
營養和健康:
美國人之飲食指南
<問卷>
每天吃了
對照組
29294人
+ + 什麼食物
?
<範例>低脂飲食無助防癌救心?
要點三:當一項研究所需數據,必
須依賴參與研究者自己提供時,其
正確性值得審慎考量!!
<範例>維他命丸A、E越吃越早死!!
2007.3.9 綜合外電報導(經過剪輯內容較粗略)
<範例>維他命丸A、E越吃越早死!!
JAMA :
February 28, 2007, Vol 297, No. 8
其中47個實驗(18.1萬人)分析後發現
整體而言會使死亡率提高5%!!
•β胡蘿蔔素提高7%
•維他命A提高16%
•維他命E提高4%
•維他命C可能不影響or提高6%
•硒減少10%
Again辛苦是有代
價的or N很大就好了
<範例>維他命丸A、E越吃越早死!!
• Meta analysis/整合分析/薈萃分析
– 將現有的知識背景(base)加以組合。不管是已出版的論文或
是原始未處理的數據,以統計技術合成所有的知識。所得到
的結論是基於這些資料在過去的貢獻。
– 在實證醫學(Evidence-Based Medicine, EBM)常被用到
• 特色
– 1.多個且具同樣主題研究的綜合分析
– 2.利用統計方法予以客觀的量化數據
• Concerns
– 篩選標準該怎麼訂定沒有公認的準則
• 此例子中原本篩出的68個實驗和後來精挑的47個實驗結論不一致
<範例>維他命丸A、E越吃越早死!!
2010有其他學者重新審視該分析的做法,從68個實驗中選出66
個,將實驗重新歸類(3類Primary/Secondary/Therapy)、重新定
義outcome (區分Benefit(+)/Null(0)/Harm(-)),分析後發現:
•依Outcome區分Benefit*24/Null*39/Harm*3
•不同類型實驗比較無充分證據顯示維他命補充劑是有益/有害!!
[註]實驗分類
Primary降低健康人群中的死亡風險
Secondary減緩發病或預防復發事件和死亡率
Therapy治療,以提高生活質量,限制併發症和/或提供康復
<範例>維他命丸A、E越吃越早死!!
要點四:不要只看到一項研究結果,
就當作事實來遵行,當研究結論和
長期認知有違背時,更應存疑!!
要點五:對於薈萃分析的結論,不
妨保持保留態度!!
Review
• 統計是什麼?
• 統計跟醫學研究的關係?
• 資料蒐集(母體vs樣本)
• 醫學研究常用統計方法
– 敘述統計、推論統計、差異比較
– 相關、迴歸分析、質性資料分析
• 研究結果要如何解讀?
Reminder
Key 統計思考 >> 統計方法
聰明作推論的第一步,是瞭解你的數據及你想回答的問題
PS 其他的請找統計專家!!
Reference
• 統計與生活(國立台灣大學出版中心, 2010)
• 你不能不懂的統計常識(天下文化, 2007)
• 簡明生物統計學(2nd ed.)
• Basic Statistics for the Health Sciences(5th ed.)
• Reading Statistics and Research(5th ed.)
• Understanding Statistics for Research Staff, Rachel Enriquez
• Statistical guidelines for contributors to medical journals
• Statistical errors in medical research –a review of common
pitfalls(2007)
• Applying the Right Statistics: Analyses of Measurement
Studies(2003)
• Misusage of statistics in medical research(2007)
靜思語:知識要用心體會,才能變成自己的智慧。
感謝聆聽
Q&A
Part 3
Regression Example
-- Body depth vs Total length
Linear Regression vs Logistic Regression
比較 Multiple Regression Logistic Regression
應變數 Y必須為連續性資料 Y必須為類別性資料(是/否)
優點 1. 在等距或比率尺度時,其準 1. 無需假設母體為常態,因此應
確度較高。 用較為廣泛。
2. 母體已知時,效率較高。 2. 各種尺度皆為適用。
3. 小樣本下,準確度較高。 3. 計算簡單且快速。
4. 在小樣本時特別適用於非常態
母體。
缺點 1. 需假設母體為常態,因此應 1. 在等距或比率尺度時,其準確
用較有限。 度較低。
2. 無法適用於名目與順序尺度。 2. 因樣本較小,檢定誤差相對較
高。
3. 母體已知時,效率相對較低。
Research Design
• 只介紹同時有實驗組與對照組研究設計(最常見)
• 每一種研究設計使用的統計方法跟風險測量不盡相同
回溯性研究(Retrospective Study)
• 回溯性研究
– 最常見的設計為病例對照研究,即先選定病例組的人數,然後再
決定對照組的人數,然後再回溯兩組是否有暴露在某個危險因子
之下,進而探討該危險因子是否與疾病有所關聯。
– 以抽煙跟肺癌的例子,我們可先挑選50位罹患肺癌的病人,接著
按照一定的比例,例如1:3的比例(比例可自行決定),收取150位
未罹患肺癌的病人資料,然後回顧這200位病人的抽煙史,結果可
能顯示病例組有70%曾經抽煙而對照組僅有40%曾經抽過煙,接
著透過統計分析來檢定抽煙跟肺癌是否具有關聯性。
– 優勢是速度比較快,只需查病歷資料即可完成,而且因為不是向
前收案,因此成本便宜而且不會有失去追蹤的問題。病例對照研
究也特別適合用於研究罕見的疾病,相較之下,世代研究若追蹤
很罕見的疾病則不適合,例如追蹤10年才少數幾位個案發生疾病
,會導致統計分析上的檢定力(power)薄弱。反之病例對照研究
的劣勢是不適合研究罕見的暴露因子。
世代研究(Cohort Study)
• 世代研究
– 研究一開始將研究對象(不一定是有病的人)隨機地分派至兩組,
其中一組是暴露組(exposed group)另一組則是未暴露組
(unexposed group),至於暴露的因子則是研究者關心的變項
– 例如:抽煙與肺癌的關係或居住在高壓電附近與腦部病變的關係。
然後往後追蹤一段期間,就會觀察到暴露組與未暴露組都有人發
生事件(event,例如疾病)
– 此時就可計算兩組發生事件比例的比較,例如追蹤10年後抽煙組
發生肺癌比例為3%而未抽煙組罹患肺癌比例為1%,接著進而透
過統計分析評估究竟暴露因子(抽煙)是否與事件(肺癌)有關聯。
– 世代研究是非常具有因果推論效力的研究設計,但是非常耗時也
非常耗費成本,以抽煙跟肺癌來說,可能至少的追蹤期要10年以
上才有意義。另外一方面也因為追蹤期很長,研究參與對象會有
失去追蹤(lost to follow up)的問題。
臨床實驗(Clinical Trials)
• 臨床實驗(或稱作臨床試驗)
– 包括平行設計(Parallel Trial)及交叉設計(Cross-over),而以平行設計較常見/簡單
• 平行設計(Parallel Trial)
– 類似於心理教育領域的準實驗設計(Quasi-experimental design,或稱類實驗),即
一開始將研究對象隨機分派(random assign)為治療組與對照組。
– 例如以藥廠的臨床藥物實驗,想要比較原廠及台廠的藥物療效比較,則一開始即
隨機將自願參加病人分成兩組,然後開始進行藥物使用,最後評估療效,例如檢
定台廠藥物成功治癒的比例與原廠藥物是否有差別。
– 不過在隨機分派的過程中也有可能兩組病人的基本特性差異很大,例如一組剛好
年齡很大另外一組比較年輕,因此在分派過程可適當考慮重要的基本特性(例如
性別、年齡層、疾病嚴重分級)來作隨機的分派,即作分層隨機分派(stratified
randomization),以確保兩組病人的基本資料是同質的(homogeneous)。
• 交叉設計(Cross-over)