💥 20 個 #常見的統計錯誤,你犯過,或是犯了卻不知道嗎?⠀
⠀
MedCalc 的作者 Frank,在 Facebook 分享了一篇跟統計相關的文章,叫做「生物醫學研究文章中,連你都可以發現的 20 個統計錯誤」,很有意思。(連結請見原始貼文)
⠀
我(蔡依橙)認真看完後,覺得蠻不錯的,於是把這 20 個統計錯誤的標題翻成中文,協助大家節省時間,如果剛好有興趣的,可再針對該部分去閱讀原文。接著,分享一些我看完之後的想法。
⠀
⠀
1. 數值報告時,提供了不必要的精確。例如 60 公斤體重,硬要寫成 60.18 公斤。
⠀
2. 將連續變項分組,變成次序變項,但沒有說明為什麼這樣分。像是 CRP 不以數值去統計,而分成低、中、高三組,卻沒說明為什麼這樣分。
⠀
3. 配對資料,只報告各組平均,卻沒報告其改變。也就是只報告治療前血壓、治療後血壓,卻沒報告有多少人上升、多少人下降、平均下降多少。
⠀
4. 描述性統計的誤用,尤其該用 median (interquartile range) 的,硬是用成 mean +- SD。
⠀
5. 使用 standard error of the mean (SEM) 描述量測的精確度,而非 95% CI。
⠀
6. 只報告 p 值,卻沒提到差值以及臨床意義。
⠀
7. 誤用統計方式。尤其常見的是混淆有母數跟無母數統計方法。
⠀
8. 使用線性迴歸,卻沒有先確定資料之間是真的有線性關係。
⠀
9. 沒有使用全部的資料,然後又沒把去掉的資料「為什麼被去掉」說清楚。
⠀
10. 多組比較的 p 值校正問題。
⠀
11. 在隨機分組研究時,過於詳盡地比較了兩組受試者的基本資料,像是性別比例、年齡、體重、血壓等等,而且資料好得太奇怪。
⠀
12. 報告檢驗數值時,沒有定義 normal 與 abnormal。
⠀
13. 計算 sensitivity 與 specificity 時,沒有說明一些介在灰色地帶的檢查結果,如何呈現與去除。
⠀
14. 使用圖片與表格,只是為了儲存數據,而非以協助讀者理解為出發點。
⠀
15. 畫出來的數據圖,視覺主觀上給人的印象,竟然跟數據本身不同。
⠀
16. 在報告數據與解讀時,搞不清楚 units of observation 是什麼,例如心臟病的觀察研究,在 1000 個患者中有 18 位心臟病發,那 units of observation 就是 18。但如果這個研究是以診斷正確率為主,那 sample size 就是 1000。
⠀
17. 把不顯著的統計,或 low power,解讀成 negative,而非 inconclusive。
⠀
18. 分不清楚解釋性研究與實務性研究,前者為 explanatory / efficacy / laboratory,後者為 pragmatic / effectiveness / real world。嘗試兩種混著做,結果兩邊都做不好。
⠀
19. 沒有用臨床能理解的方式來報告最終結果。
⠀
20. 把統計的顯著性,當成臨床的重要性。例如:癌症用新藥治療,統計上很顯著的好,但追蹤了五年,患者只延長了七天的壽命。這就是統計有顯著,但臨床意義不大的例子。
⠀
⠀
🗨 我(蔡依橙)的一些想法
⠀
由統計專業人的角度,來看生物醫學發表,是很有警惕意義的,能讓準備發表的朋友,仔細看看自己是不是也犯了相關的錯誤。
⠀
但另一個角度看,作者也提到,這些錯誤在幾乎一半的生物醫學論文上反覆出現!這就代表,其實生物醫學論文要刊登,並不代表我們什麼錯都不能犯,相反地,這 20 個錯誤裡頭,有些就算犯了,也還是能被刊登。
⠀
以我們自己發表,以及過去協助同學的經驗來說,我會認為 2、7、10、14、15,是初學者也 #必須理解並避開的,其他的則是發表起步了之後,陸陸續續去注意,在往更高分期刊挑戰時,逐漸進步就行。
⠀
實務上,3 分以下的醫學期刊,幾乎沒有專門的統計查核,你只要能通過「一般同行」的統計知識審查就行。也就是說,我是一個放射科醫師,剛開始起步,投稿到放射科 3 分以下期刊,文章中的統計,只要「#一般有在做研究的放射科醫師」覺得可以就行,不見得要到「統計專家看過並挑不出毛病」。
⠀
對於初學者如何起步,實務的協助,新思惟規劃了各種類型的研究課程,歡迎有興趣的朋友可以參考。目前正在開放報名中的,有以下三場工作坊,歡迎您瞭解各課程的課綱後,評估挑選最符合您需求的內容,前來上課,讓我們協助您成功起步。
⠀
🟠 2021 / 11 / 7(日)統合分析工作坊
無經費、資源少也能發表,不用 IRB 且免收案的好選擇。
https://meta-analysis.innovarad.tw/event/
⠀
🔵 2021 / 10 / 17(日)臨床研究與發表工作坊
全新改款!跟著國際學者走,讓你寫作投稿都上手。
https://clip2014.innovarad.tw/event/
⠀
🟢 2021 / 10 / 16(六)個案報告、技術發表與文獻回顧工作坊
把臨床上的各種想法,在 PubMed 化作專業生涯上的里程碑。
https://casereport.innovarad.tw/event/
⠀ ⠀
不只是說說而已,我們會舉實例,說明其意義、如何避開,在互動實作過程,實際由各位在自己的電腦上操作,從數據到軟體,從統計到繪圖,一次搞定,並避開常見錯誤,是真正以 #初學者起步 為核心的規劃。
⠀
⠀
二十個常見的統計錯誤,與實務寫作時的考量。
🔗 原始貼文 │ https://bit.ly/2WESphu
同時也有1部Youtube影片,追蹤數超過3萬的網紅孫在陽,也在其Youtube影片中提到,「孫在陽」直播-數據科學與雲遄運算1.using the data 「孫在陽」直播-數據科學與雲遄運算2.Data cleaning up 大數據分析-統計分析從資料取得,資料清理到視覺化分析。如何做大數據分析? 孫在陽老師主講,[email protected] 範例、講義下載:h...
描述性統計 在 新思惟國際 Facebook 的最讚貼文
💥 20 個 #常見的統計錯誤,你犯過,或是犯了卻不知道嗎?⠀
⠀
MedCalc 的作者 Frank,在 Facebook 分享了一篇跟統計相關的文章,叫做「生物醫學研究文章中,連你都可以發現的 20 個統計錯誤」,很有意思。(連結請見原始貼文)
⠀
我(蔡依橙)認真看完後,覺得蠻不錯的,於是把這 20 個統計錯誤的標題翻成中文,協助大家節省時間,如果剛好有興趣的,可再針對該部分去閱讀原文。接著,分享一些我看完之後的想法。
⠀
⠀
1. 數值報告時,提供了不必要的精確。例如 60 公斤體重,硬要寫成 60.18 公斤。
⠀
2. 將連續變項分組,變成次序變項,但沒有說明為什麼這樣分。像是 CRP 不以數值去統計,而分成低、中、高三組,卻沒說明為什麼這樣分。
⠀
3. 配對資料,只報告各組平均,卻沒報告其改變。也就是只報告治療前血壓、治療後血壓,卻沒報告有多少人上升、多少人下降、平均下降多少。
⠀
4. 描述性統計的誤用,尤其該用 median (interquartile range) 的,硬是用成 mean +- SD。
⠀
5. 使用 standard error of the mean (SEM) 描述量測的精確度,而非 95% CI。
⠀
6. 只報告 p 值,卻沒提到差值以及臨床意義。
⠀
7. 誤用統計方式。尤其常見的是混淆有母數跟無母數統計方法。
⠀
8. 使用線性迴歸,卻沒有先確定資料之間是真的有線性關係。
⠀
9. 沒有使用全部的資料,然後又沒把去掉的資料「為什麼被去掉」說清楚。
⠀
10. 多組比較的 p 值校正問題。
⠀
11. 在隨機分組研究時,過於詳盡地比較了兩組受試者的基本資料,像是性別比例、年齡、體重、血壓等等,而且資料好得太奇怪。
⠀
12. 報告檢驗數值時,沒有定義 normal 與 abnormal。
⠀
13. 計算 sensitivity 與 specificity 時,沒有說明一些介在灰色地帶的檢查結果,如何呈現與去除。
⠀
14. 使用圖片與表格,只是為了儲存數據,而非以協助讀者理解為出發點。
⠀
15. 畫出來的數據圖,視覺主觀上給人的印象,竟然跟數據本身不同。
⠀
16. 在報告數據與解讀時,搞不清楚 units of observation 是什麼,例如心臟病的觀察研究,在 1000 個患者中有 18 位心臟病發,那 units of observation 就是 18。但如果這個研究是以診斷正確率為主,那 sample size 就是 1000。
⠀
17. 把不顯著的統計,或 low power,解讀成 negative,而非 inconclusive。
⠀
18. 分不清楚解釋性研究與實務性研究,前者為 explanatory / efficacy / laboratory,後者為 pragmatic / effectiveness / real world。嘗試兩種混著做,結果兩邊都做不好。
⠀
19. 沒有用臨床能理解的方式來報告最終結果。
⠀
20. 把統計的顯著性,當成臨床的重要性。例如:癌症用新藥治療,統計上很顯著的好,但追蹤了五年,患者只延長了七天的壽命。這就是統計有顯著,但臨床意義不大的例子。
⠀
⠀
🗨 我(蔡依橙)的一些想法
⠀
由統計專業人的角度,來看生物醫學發表,是很有警惕意義的,能讓準備發表的朋友,仔細看看自己是不是也犯了相關的錯誤。
⠀
但另一個角度看,作者也提到,這些錯誤在幾乎一半的生物醫學論文上反覆出現!這就代表,其實生物醫學論文要刊登,並不代表我們什麼錯都不能犯,相反地,這 20 個錯誤裡頭,有些就算犯了,也還是能被刊登。
⠀
以我們自己發表,以及過去協助同學的經驗來說,我會認為 2、7、10、14、15,是初學者也 #必須理解並避開的,其他的則是發表起步了之後,陸陸續續去注意,在往更高分期刊挑戰時,逐漸進步就行。
⠀
實務上,3 分以下的醫學期刊,幾乎沒有專門的統計查核,你只要能通過「一般同行」的統計知識審查就行。也就是說,我是一個放射科醫師,剛開始起步,投稿到放射科 3 分以下期刊,文章中的統計,只要「#一般有在做研究的放射科醫師」覺得可以就行,不見得要到「統計專家看過並挑不出毛病」。
⠀
對於初學者如何起步,實務的協助,新思惟規劃了各種類型的研究課程,歡迎有興趣的朋友可以參考。目前正在開放報名中的,有以下三場工作坊,歡迎您瞭解各課程的課綱後,評估挑選最符合您需求的內容,前來上課,讓我們協助您成功起步。
⠀
🟠 2021 / 11 / 7(日)統合分析工作坊
無經費、資源少也能發表,不用 IRB 且免收案的好選擇。
https://meta-analysis.innovarad.tw/event/
⠀
🔵 2021 / 10 / 17(日)臨床研究與發表工作坊
全新改款!跟著國際學者走,讓你寫作投稿都上手。
https://clip2014.innovarad.tw/event/
⠀
🟢 2021 / 10 / 16(六)個案報告、技術發表與文獻回顧工作坊
把臨床上的各種想法,在 PubMed 化作專業生涯上的里程碑。
https://casereport.innovarad.tw/event/
⠀ ⠀
不只是說說而已,我們會舉實例,說明其意義、如何避開,在互動實作過程,實際由各位在自己的電腦上操作,從數據到軟體,從統計到繪圖,一次搞定,並避開常見錯誤,是真正以 #初學者起步 為核心的規劃。
⠀
⠀
二十個常見的統計錯誤,與實務寫作時的考量。
🔗 原始貼文 │ https://bit.ly/2WESphu
描述性統計 在 Y道理 Facebook 的最佳解答
/ 企業與企業的研究方法 / #周末認真文系列
.
雖然我時常談一些市場推估或者產業分析的議題,但 ... 我覺得一般的企業可以「應用」這些能力在你的日常工作哩,我覺得很難建立起好的「市場分析或產業分析」團隊。
.
為什麼這麼說呢?因為精度 (專業度)。與其你要長時間養一個市場分析或產業分析團隊,你不如把研究題目外包給研究公司;但你肯定會覺得有些東西 in-house 做比較好
.
好吧,這就是企業主的兩難囉。為什麼理論常在探討交易成本?因為這是一個「實心問題。」
.
我覺得企業裡 .... 倒是可以很快的建起資料分析師(團隊)跟商業分析師這兩個功能。實用,然後不需要很大的編制。
.
分析是很「應用導向」的東西。特別在企業,沒有用的分析原則上就是沒有價值,所以多數分析都是結果導向的。
.
究竟,in-house 的分析師終究是「決定性的幕僚」角色,還是「輔助性助攻」角色呢?這個真的無法簡單的說完,需要討論的是目標、績效與組織設計。
.
但我最近發覺一個較大的問題,是企業裡的高層普遍少了「方法」的訓練。這個弱點會直接影響了企業裡做各種科學判斷 ...
.
我舉個例子。例如說公司裡頭總有各種問卷。可是設計問卷就有各種學問,你不能只是題目列一列,回收跑跑描述性統計就好 (你的統計學 / 研究方法老師正站在你背後,他看起來很火。)
.
但如果缺乏專業訓練,只知道「要設計問卷測量反應」,但不知道問卷應該要依照科學原則好好設計、檢討,那麼問卷做多少次都沒有用的 ...
.
企業真的要孰悉好各種方法的精神,採用適當的工具啊!
描述性統計 在 孫在陽 Youtube 的最佳貼文
「孫在陽」直播-數據科學與雲遄運算1.using the data
「孫在陽」直播-數據科學與雲遄運算2.Data cleaning up
大數據分析-統計分析從資料取得,資料清理到視覺化分析。如何做大數據分析?
孫在陽老師主講,[email protected]
範例、講義下載:https://goo.gl/ytzRxT
時間軸
00:00 簡介
03:40 數據科學
09:30 大數據分析與統計分析的差別
13:35 AI是什麼
14:52 圖靈測試 Turing test
17:35 機器學習
20:47 建模
21:58 用線性迴歸做預測
26:46 用羅吉斯迴歸做分類
28:54 其他機器學習
31:28 研究目的
33:21 數據來源的差別
42:58 取得 Azure API for FHIR 數據
01:10:00 資料清理
01:19:48 如何展開資料
01:37:40 描述性統計:樣本個數