💥 20 個 #常見的統計錯誤,你犯過,或是犯了卻不知道嗎?⠀
⠀
MedCalc 的作者 Frank,在 Facebook 分享了一篇跟統計相關的文章,叫做「生物醫學研究文章中,連你都可以發現的 20 個統計錯誤」,很有意思。(連結請見原始貼文)
⠀
我(蔡依橙)認真看完後,覺得蠻不錯的,於是把這 20 個統計錯誤的標題翻成中文,協助大家節省時間,如果剛好有興趣的,可再針對該部分去閱讀原文。接著,分享一些我看完之後的想法。
⠀
⠀
1. 數值報告時,提供了不必要的精確。例如 60 公斤體重,硬要寫成 60.18 公斤。
⠀
2. 將連續變項分組,變成次序變項,但沒有說明為什麼這樣分。像是 CRP 不以數值去統計,而分成低、中、高三組,卻沒說明為什麼這樣分。
⠀
3. 配對資料,只報告各組平均,卻沒報告其改變。也就是只報告治療前血壓、治療後血壓,卻沒報告有多少人上升、多少人下降、平均下降多少。
⠀
4. 描述性統計的誤用,尤其該用 median (interquartile range) 的,硬是用成 mean +- SD。
⠀
5. 使用 standard error of the mean (SEM) 描述量測的精確度,而非 95% CI。
⠀
6. 只報告 p 值,卻沒提到差值以及臨床意義。
⠀
7. 誤用統計方式。尤其常見的是混淆有母數跟無母數統計方法。
⠀
8. 使用線性迴歸,卻沒有先確定資料之間是真的有線性關係。
⠀
9. 沒有使用全部的資料,然後又沒把去掉的資料「為什麼被去掉」說清楚。
⠀
10. 多組比較的 p 值校正問題。
⠀
11. 在隨機分組研究時,過於詳盡地比較了兩組受試者的基本資料,像是性別比例、年齡、體重、血壓等等,而且資料好得太奇怪。
⠀
12. 報告檢驗數值時,沒有定義 normal 與 abnormal。
⠀
13. 計算 sensitivity 與 specificity 時,沒有說明一些介在灰色地帶的檢查結果,如何呈現與去除。
⠀
14. 使用圖片與表格,只是為了儲存數據,而非以協助讀者理解為出發點。
⠀
15. 畫出來的數據圖,視覺主觀上給人的印象,竟然跟數據本身不同。
⠀
16. 在報告數據與解讀時,搞不清楚 units of observation 是什麼,例如心臟病的觀察研究,在 1000 個患者中有 18 位心臟病發,那 units of observation 就是 18。但如果這個研究是以診斷正確率為主,那 sample size 就是 1000。
⠀
17. 把不顯著的統計,或 low power,解讀成 negative,而非 inconclusive。
⠀
18. 分不清楚解釋性研究與實務性研究,前者為 explanatory / efficacy / laboratory,後者為 pragmatic / effectiveness / real world。嘗試兩種混著做,結果兩邊都做不好。
⠀
19. 沒有用臨床能理解的方式來報告最終結果。
⠀
20. 把統計的顯著性,當成臨床的重要性。例如:癌症用新藥治療,統計上很顯著的好,但追蹤了五年,患者只延長了七天的壽命。這就是統計有顯著,但臨床意義不大的例子。
⠀
⠀
🗨 我(蔡依橙)的一些想法
⠀
由統計專業人的角度,來看生物醫學發表,是很有警惕意義的,能讓準備發表的朋友,仔細看看自己是不是也犯了相關的錯誤。
⠀
但另一個角度看,作者也提到,這些錯誤在幾乎一半的生物醫學論文上反覆出現!這就代表,其實生物醫學論文要刊登,並不代表我們什麼錯都不能犯,相反地,這 20 個錯誤裡頭,有些就算犯了,也還是能被刊登。
⠀
以我們自己發表,以及過去協助同學的經驗來說,我會認為 2、7、10、14、15,是初學者也 #必須理解並避開的,其他的則是發表起步了之後,陸陸續續去注意,在往更高分期刊挑戰時,逐漸進步就行。
⠀
實務上,3 分以下的醫學期刊,幾乎沒有專門的統計查核,你只要能通過「一般同行」的統計知識審查就行。也就是說,我是一個放射科醫師,剛開始起步,投稿到放射科 3 分以下期刊,文章中的統計,只要「#一般有在做研究的放射科醫師」覺得可以就行,不見得要到「統計專家看過並挑不出毛病」。
⠀
對於初學者如何起步,實務的協助,新思惟規劃了各種類型的研究課程,歡迎有興趣的朋友可以參考。目前正在開放報名中的,有以下三場工作坊,歡迎您瞭解各課程的課綱後,評估挑選最符合您需求的內容,前來上課,讓我們協助您成功起步。
⠀
🟠 2021 / 11 / 7(日)統合分析工作坊
無經費、資源少也能發表,不用 IRB 且免收案的好選擇。
https://meta-analysis.innovarad.tw/event/
⠀
🔵 2021 / 10 / 17(日)臨床研究與發表工作坊
全新改款!跟著國際學者走,讓你寫作投稿都上手。
https://clip2014.innovarad.tw/event/
⠀
🟢 2021 / 10 / 16(六)個案報告、技術發表與文獻回顧工作坊
把臨床上的各種想法,在 PubMed 化作專業生涯上的里程碑。
https://casereport.innovarad.tw/event/
⠀ ⠀
不只是說說而已,我們會舉實例,說明其意義、如何避開,在互動實作過程,實際由各位在自己的電腦上操作,從數據到軟體,從統計到繪圖,一次搞定,並避開常見錯誤,是真正以 #初學者起步 為核心的規劃。
⠀
⠀
二十個常見的統計錯誤,與實務寫作時的考量。
🔗 原始貼文 │ https://bit.ly/2WESphu
sensitivity specificity意義 在 新思惟國際 Facebook 的最讚貼文
💥 20 個 #常見的統計錯誤,你犯過,或是犯了卻不知道嗎?⠀
⠀
MedCalc 的作者 Frank,在 Facebook 分享了一篇跟統計相關的文章,叫做「生物醫學研究文章中,連你都可以發現的 20 個統計錯誤」,很有意思。(連結請見原始貼文)
⠀
我(蔡依橙)認真看完後,覺得蠻不錯的,於是把這 20 個統計錯誤的標題翻成中文,協助大家節省時間,如果剛好有興趣的,可再針對該部分去閱讀原文。接著,分享一些我看完之後的想法。
⠀
⠀
1. 數值報告時,提供了不必要的精確。例如 60 公斤體重,硬要寫成 60.18 公斤。
⠀
2. 將連續變項分組,變成次序變項,但沒有說明為什麼這樣分。像是 CRP 不以數值去統計,而分成低、中、高三組,卻沒說明為什麼這樣分。
⠀
3. 配對資料,只報告各組平均,卻沒報告其改變。也就是只報告治療前血壓、治療後血壓,卻沒報告有多少人上升、多少人下降、平均下降多少。
⠀
4. 描述性統計的誤用,尤其該用 median (interquartile range) 的,硬是用成 mean +- SD。
⠀
5. 使用 standard error of the mean (SEM) 描述量測的精確度,而非 95% CI。
⠀
6. 只報告 p 值,卻沒提到差值以及臨床意義。
⠀
7. 誤用統計方式。尤其常見的是混淆有母數跟無母數統計方法。
⠀
8. 使用線性迴歸,卻沒有先確定資料之間是真的有線性關係。
⠀
9. 沒有使用全部的資料,然後又沒把去掉的資料「為什麼被去掉」說清楚。
⠀
10. 多組比較的 p 值校正問題。
⠀
11. 在隨機分組研究時,過於詳盡地比較了兩組受試者的基本資料,像是性別比例、年齡、體重、血壓等等,而且資料好得太奇怪。
⠀
12. 報告檢驗數值時,沒有定義 normal 與 abnormal。
⠀
13. 計算 sensitivity 與 specificity 時,沒有說明一些介在灰色地帶的檢查結果,如何呈現與去除。
⠀
14. 使用圖片與表格,只是為了儲存數據,而非以協助讀者理解為出發點。
⠀
15. 畫出來的數據圖,視覺主觀上給人的印象,竟然跟數據本身不同。
⠀
16. 在報告數據與解讀時,搞不清楚 units of observation 是什麼,例如心臟病的觀察研究,在 1000 個患者中有 18 位心臟病發,那 units of observation 就是 18。但如果這個研究是以診斷正確率為主,那 sample size 就是 1000。
⠀
17. 把不顯著的統計,或 low power,解讀成 negative,而非 inconclusive。
⠀
18. 分不清楚解釋性研究與實務性研究,前者為 explanatory / efficacy / laboratory,後者為 pragmatic / effectiveness / real world。嘗試兩種混著做,結果兩邊都做不好。
⠀
19. 沒有用臨床能理解的方式來報告最終結果。
⠀
20. 把統計的顯著性,當成臨床的重要性。例如:癌症用新藥治療,統計上很顯著的好,但追蹤了五年,患者只延長了七天的壽命。這就是統計有顯著,但臨床意義不大的例子。
⠀
⠀
🗨 我(蔡依橙)的一些想法
⠀
由統計專業人的角度,來看生物醫學發表,是很有警惕意義的,能讓準備發表的朋友,仔細看看自己是不是也犯了相關的錯誤。
⠀
但另一個角度看,作者也提到,這些錯誤在幾乎一半的生物醫學論文上反覆出現!這就代表,其實生物醫學論文要刊登,並不代表我們什麼錯都不能犯,相反地,這 20 個錯誤裡頭,有些就算犯了,也還是能被刊登。
⠀
以我們自己發表,以及過去協助同學的經驗來說,我會認為 2、7、10、14、15,是初學者也 #必須理解並避開的,其他的則是發表起步了之後,陸陸續續去注意,在往更高分期刊挑戰時,逐漸進步就行。
⠀
實務上,3 分以下的醫學期刊,幾乎沒有專門的統計查核,你只要能通過「一般同行」的統計知識審查就行。也就是說,我是一個放射科醫師,剛開始起步,投稿到放射科 3 分以下期刊,文章中的統計,只要「#一般有在做研究的放射科醫師」覺得可以就行,不見得要到「統計專家看過並挑不出毛病」。
⠀
對於初學者如何起步,實務的協助,新思惟規劃了各種類型的研究課程,歡迎有興趣的朋友可以參考。目前正在開放報名中的,有以下三場工作坊,歡迎您瞭解各課程的課綱後,評估挑選最符合您需求的內容,前來上課,讓我們協助您成功起步。
⠀
🟠 2021 / 11 / 7(日)統合分析工作坊
無經費、資源少也能發表,不用 IRB 且免收案的好選擇。
https://meta-analysis.innovarad.tw/event/
⠀
🔵 2021 / 10 / 17(日)臨床研究與發表工作坊
全新改款!跟著國際學者走,讓你寫作投稿都上手。
https://clip2014.innovarad.tw/event/
⠀
🟢 2021 / 10 / 16(六)個案報告、技術發表與文獻回顧工作坊
把臨床上的各種想法,在 PubMed 化作專業生涯上的里程碑。
https://casereport.innovarad.tw/event/
⠀ ⠀
不只是說說而已,我們會舉實例,說明其意義、如何避開,在互動實作過程,實際由各位在自己的電腦上操作,從數據到軟體,從統計到繪圖,一次搞定,並避開常見錯誤,是真正以 #初學者起步 為核心的規劃。
⠀
⠀
二十個常見的統計錯誤,與實務寫作時的考量。
🔗 原始貼文 │ https://bit.ly/2WESphu
sensitivity specificity意義 在 我是台灣人.台灣是咱的國家 Facebook 的最讚貼文
聖光 #大仁哥 專業又不失禮貌的打臉
截錄重點:
血清流行病學調查的正確性,決定於(1)檢驗方法的敏感度和特異度,(2)檢驗抗體陽性的盛行率,(3)受檢個案的代表性。
血清流行病學調查所得到的檢測陽性盛行率,受到真正陽性率的高低,以及敏感度和特異度的高低的影響。一般而言,敏感度越低、特異度越低、盛行率越低,調查估計出來的檢測盛行率也越嚴重「#失真」
#彰化縣政府的研究失真
#當盛行率遠小於偽陽性這個研究的意義就不大
失真的調查:從假陽性個案談起
最近,彰化縣展開了COVID-19的血清流行病學調查,以瞭解縣民感染COVID-19的盛行率。該調查採集受檢個案的血液檢體,進行COVID-19抗體的檢驗,判定每名個案是否陽性,來估計彰化縣民的抗體陽性盛行率。但是,血清流行病學調查的正確性,決定於(1)檢驗方法的敏感度和特異度,(2)檢驗抗體陽性的盛行率,(3)受檢個案的代表性。
檢驗方法的敏感度(sensitivity)是指真正得到感染的人,有多少百分比呈現陽性;特異度(specificity)是指真正沒有得到感染的人,有多少百分比呈現陰性。假陽性率是指真正沒有得到感染的人,有多少百分比呈現陽性,也就是1-specificity。假陰性率是指真正得到感染的人,有多少百分比呈現陰性,也就是1-sensitivity。血清流行病學調查所得到的檢測陽性盛行率,受到真正陽性率的高低,以及敏感度和特異度的高低的影響。一般而言,敏感度越低、特異度越低、盛行率越低,調查估計出來的檢測盛行率也越嚴重失真!
我們舉例檢測五萬人的調查來看,如表1所示,如果敏感度和特異度都是99%,在每萬人盛行率分別是1,10,100的三種狀況下,真正感染人數分別是5,50,500人;真正未感染人數分別是49995,49950,49500人。由於敏感度是99%,所以在三種狀況下,真正感染檢測呈陽性人數分別是5,50,495人。由於特異度是99%,也就是真正未感染的人會有1%呈假陽性,所以在三種狀況下,假陽性人數分別是500,500,495人。因此,利用陽性人數(無法分辨真假)來估計三種狀況下每萬人檢測盛行率,分別是 101,110,198。也就是說,檢測盛行率高估倍數(g欄)竟高達到101倍,11倍,2倍。換句話說,盛行率越低,錯誤高估盛行率的失真現象越嚴重!
另外,如表2所示,如果真正盛行率是千分之1,敏感度是99%,在檢驗特異度分別是90%,99%,99.9%的三種狀況下,檢測真陽性人數都是50人;但是檢測假陽性人數分別是4995,500,50人。因此這三種狀況下的每萬人檢測盛行率,分別1009,110,20換句話說,檢測盛行率高估倍數也高達到101,11倍,2倍。換句話說,特異度越低,錯誤高估盛行率的失真現象越嚴重!
從以上的例子可以看出,盛行率調查研究的特異度越低或真正盛行率越低,檢測盛行率也就越容易被高估,也越會失真!雖然研究者可以利用敏感度和特異度來進行調整,推算出真正盛行率[真正盛行率=(檢測盛行率+特異度-1)/(敏感度+特異度-1)]!但是,除非利用更特異的方法再做確認,否則調查者必須告訴每個陽性個案,他真正感染的機率只有50%,10%或1%!
同樣的,在入境旅客的抗原篩檢策略上,如果盛行率相當低而特異度無法提升到非常高的情況下,進行普篩而非精篩,也需要注意假陽性的問題!
sensitivity specificity意義 在 數感實驗室Numeracy Lab - ⁕ #數感防疫| 一種試劑,不只一種 ... 的推薦與評價
... 到的「#靈敏度(sensitivity)」與「#特異度(specificity)」分別指的是「# ... 的數值和物理意義,我們很難光憑「錯誤率高達80%」這句話,就知道是 ... <看更多>