醫學論文常見撰寫錯誤 大林慈濟醫院耳鼻喉科 李清池 摘要 研究設計需注意事項: 了解研究設計 事前準備工作 了解sample組成 選擇適當之測量工具 常見之統計錯誤: 常見的統計錯誤 統計方法陳述不完整 常見錯誤結果呈現方式 常態分布 vs.非常態分布 錯誤的P值寫法 錯誤解釋結果 學習目標 了解研究設計 認識常見的統計錯誤 了解正確之統計方式、進而避免錯誤使用 大綱 第一章 第二章 第三章 第四章 研究設計需注意事項 常見之統計錯誤 表達方式錯誤 課程總結 第一章 研究設計需注意事項 1.1單元學習目標 1.2 了解研究設計 1.3 事前準備工作 1.4 了解sample組成 1.5 選擇適當之測量工具 1.6 單元小結 1.1 單元教學目標 認識研究設計 認識研究需準備之事前工作 1.2 了解研究設計 RCT (randomized controlled study): experimental or interventional study Controlled comparative study Observational study: Case-control study Cohort study Survey 1.3 研究前準備工作(1) 了解研究的dependent variables: primary outcome, secondary outcomes 了解研究的independent variables: x1, x2,.. 可能之risk factors, confounding factors 適合的統計方式 不要等研究做完才來用統計方式找關聯性 研究前準備工作(2) 於申請計畫經費時,應先估算達到 power=0.8 時所需之sample size. 而估算公式可用pilot study或之前相關研究利 用公式或套裝軟體計算 (free software: power and sample size calculation). 清楚了解 type I error及 type II error定義 網路上下載免費軟體 http://www.cher.ubc.ca/PDFs/Sample_size.pdf 講 義 SAS power and sample calculation:使用sas syntax 輕鬆計算 使用NCSS, PASS software Truth H0 H1 Accept H0 1-α β (type II error) Reject H0 α (type I error) 1-β (power) 關於收案病例數目應於方法 (material and methods)中 描述清楚 若有個案退出可用flow chart幫助讀者釐清人 數變化 若是採用RCT (randomized controlled study) 應徹底執行 randomization 及 blinding 步驟 清楚了解sample之組成 常見在非RCT之研究中,比較兩組之變相有無差 異時,應謹慎以對 若是個案數過少,p value>0.05並不表示兩組 間無差異! Selection bias always should be considered! 若個案數適當,可考慮使用propensity score 處理selection bias問題 測量工具之選擇 避免自製問卷 研究工具應採有信度 (reliability)及效度 (validity)驗證過之問卷或測量方式 如量測癌症生活品質問卷,可用中文化之SF-36、 中文化之EORTC QLQ-C30或HN35 1.6 單元小結 了解研究設計是進行研究前必備知識 進行研究前應先估計收案數目 可採用flow chart幫助讀者釐清病例數目變化過程 選擇適當之測量工具(有信度及效度之工具) 第二章常見之統計錯誤 2.1 單元學習目標 2.2 常見的統計錯誤 2.3 統計方法陳述不完整 2.4 單元小結 2.1單元教學目標 了解常見之統計錯誤 避免統計錯誤 2.2 常見的統計錯誤 在進行統計分析之前,應對資料庫之分布有基 本之認識,才能選擇正確之分析方式 但卻發現研究者常忽略採用統計分析之基本假 設,因而誤用統計方法 在撰寫論文中誤用統計方法,可能遭致退稿或 不正確解讀結果 認識正確之統計方式,避免錯誤 使用不正確之統計方式 Two-sample t test vs paired-t test Parametric method vs non-parametric test Pearson’s chi-square test vs Fisher’s exact test Continuous variable vs Categorical or Ordinal variable 誤用linear regression Y=β0+β1X1+ε Linear regression被廣泛的使用,卻也常常被 誤用: 如資料不是常態分佈 Xi間未完全獨立 (如重複測量) Y和X間不是線性關係 (如Y= β1X2+ ε) LINE原則 Type I error 問題 進行研究時,若有多組比較時,應事前即定義 好組別 不應為了產生統計意義而重新分組 分組應符合常理,不然應於方法中詳細敘述 若結果為連續變項,多組比較時,應採ANOVA 及 post-hoc (Bonferonni or Tukey, etc.), 不可兩兩相比,產生過多之type I error. Example: 若有10組學生比較身高,要用何種檢定呢? One-way ANOVA及post-hoc 若兩兩檢定會有什麼問題嗎? type I error 可能會達到 45x0.05 解決方法: Bonferroni Multiple comparisons procedure, 此時達統計意義之標準為 0.05/45=0.0011 Example 若有甲乙兩班各5人比較體重高低,要用何種檢 定? Wilcoxon Rank-Sum test or Mann-Whitney U test 因為個案數過少,採用無母數方法 使用Chi-square test常見錯誤 應先建立要檢測之虛無假說(null hypothesis) ,再選定檢定變項。 若列聯表中有期望值<5時,應改用Fisher’s exact test 評估結果 若組別過多,可考慮併組 Tx * Result Crosstabulation Result 1.00 Tx 1.00 Count Expected Count 2.00 Count Expected Count Total Count Expected Count 2.00 Total 8 10 18 6.2 11.8 18.0 1 7 8 2.8 5.2 8.0 9 17 26 9.0 17.0 26.0 Chi-Square Tests Valu e Asymp. Sig. (2sided) df Pearson ChiSquare 2.49 7a 1 .114 Continuity Correctionb 1.28 5 1 .257 Likelihood Ratio 2.78 3 1 .095 Fisher's Exact Test Exact Sig. (2sided) .190 Linear-by-Linear Association 2.40 1 N of Valid Cases 26 1 .121 a. 1 cells (25.0%) have expected count less than 5. The minimum expected count is 2.77. b. Computed only for a 2x2 table Exact Sig. (1sided) .128 2.3 統計方法陳述不完整 雙尾或單尾檢定 Two sample t-test vs. paired t test 少用之統計方式未詳細說明 若同一Table中有數種變項檢定應陳述清楚 2.4 單元小結 於類別變項統計時,若expected value<5要改用 Fisher’s exact test 於連續變項多組比較應採用ANOV及事後比較 (post-hoc) 若同一Table中有數種變項檢定應陳述清楚 第三章 常見錯誤結果呈現方式 3.1 3.2 3.3 3.4 3.5 單元學習目標 常態分布 vs.非常態分布 錯誤的P值寫法 錯誤解釋結果 單元小結 3.1 單元教學目標 認識結果呈現方式 了解standard deviation 和 standard error 之使用時機 避免錯誤之P值表達方式 3.2 常態分布 vs.非常態分布 Parametric : Mean±SD Paired-t test Two-sample t test ANOVA Nonparametric: Median; range Wilcoxon Signed-Rank test Wilcoxon Rank-Sum test Kruskal-Wallis test 常態分布 Mean Standard deviation (SD): 描述資料之分佈 所有樣本中,有95%樣本會在mean±1.96 SD內 Standard error (SE): 使用sample mean來估計 population之平均值,95% confidence interval = mean±1.96 SE 3.3 錯誤的P值寫法 Example: Hazard ratio=5, P=ns; HR=3, P<0.05; HR=4, P>0.05 以上皆是錯誤之書寫方式,除非P<0.001 應清楚載明P值,如 HR=0.656, P=0.007 除 P value外,加入95% CI The effect of drug on lowering DBP was statistically significant (P<0.05) report the real P value, such as P=0.02 The effect of drug in treatment group on lowering DBP dropped from 110 to 92 mmHg (P=0.02) The drug lowered DBP by a mean of 18 mmHg (95% CI=2-34 mmHg, P=0.02) 3.4 錯誤解釋結果 P值未達統計意義為”non significant” 不等於”no effect” 或 “no difference” 當研究統計結果為non significant時,應計算 統計之power,一般當power=0.8以上才可說兩 組間無明顯差別! Power=1-β (type II error) Pr (rejecting H0 when H1 is true) 於結果呈現及討論時,需討論potential bias 及confounding factors 探討bias之方向 若結果可能被低估下仍達統計學顯注意義,責 實際情況上更有意義 若結果可能被高估,則於結果之判讀應更保守 及小心 如左圖p=0.388; 應解讀為兩者差距未無 統計學之意義,而不 應過度解讀為兩者無 差別 若能提供power更好 Clinical importance vs. statistical significance 當sample size大時,統計結果常達統計之顯著 意義,但若effect size過小,反而於臨床上沒 有實際效用! 當sample size小時,統計結果未達統計之顯著 意義,但若臨床上影響很大,也應趕快發表, 告知其他研究員! 3.5 單元小結 描述資料分佈: Standard deviation 推估95% confidence interval: mean±1.96SE 確切描述p value至小數點後3位 若p value 未達統計學顯著意義應小心保守描 述 第四章 課程總結 4.1 課程總結 4.2 參考資料 4.1 課程總結 進行研究前,對研究設計有詳細知了解,清楚知道是 case-control study, or cohort study or RCT. 應先計算達到 power=0.8所需個案數 選擇適當之統計分析方式: paired t test vs. twosample t test; ANOVA vs. Kruskal-Wallis test 使用列聯表計算,當expected value <5時要採用 Fisher’s exact test. 於統計方式清楚描述本研究是採雙尾或單尾檢定 描述資料分佈使用 standard deviation 推估95% confidence interval: mean±1.96 SE 未達統計學意義不代表無差別! Absence of proof is not proof of absence. 4.2 參考資料 Alexander MS, Qamruz Z, Karl PF et al. Statistical errors in medical research-a review of common pitfalls. Swiss Med Wkly 2007; 137: 44-49. Tom L. Twenty statistical errors even you can find in biomedical research articles. Croat Med J 2004; 45: 361-370. 劉仁沛. 公共衛生論文常見之統計問題. 台灣衛誌 2003; 22:356-361. 謝謝各位!