拒絕「綵衣娛親」式的民調
隨著2018年11月底「九合一」選戰的到來,可以預見各種民調將陸續出籠。但最讓選民困惑的是,各民調結果常南轅北轍,媒體、學者或名嘴通稱這是所謂的「機構效應」。我大學讀統計系,所以最近常被朋友們問:什麼是「機構效應」。
談統計的書,給多數人的印象是很「悶」或「艱澀」。因此我特別推薦一本美國普渡大學(Purdue University)統計學教授大衛•摩爾(David Moore),以深入淺出方式,所寫的書--【統計的概念與爭議】(Statistics –Concepts and Controversies)。
他首先談到如何利用樣本來推估母體,以及在什麼條件下,其統計量(statistic)才能用來估計母體的參數(parameter)。
參數是用來描述母體的數字,但實際上我們無法知道;不過如果我們抽樣時遵守統計學邏輯,然後計算樣本的統計量,那就可用來推估母體的參數。
這個統計邏輯是,雖無法保證樣本一定能代表母體,但要用公平的方法來選擇樣本。也就是樣本必須是不偏(unbise)的,這就像打靶時,瞄準不能偏離靶心一樣。
要取得不偏樣本,首先是民調問題的設計不可刻意引導,讓其往特定的方向偏移。
其次是不能為方便,而使用「方便抽樣(convenience sampling)」或自發性回應樣本(voluntary reponse sample)。前者是選最容易取得的樣本,例如在特定場所隨意問經過的人們;後者例如電視call-in調查。因為用以上方式取得的樣本,都是偏向的。
要取得不偏樣本,可用簡單隨機抽樣(SRS)來取樣,因SRS符合:「抽樣時每個個體,被選入樣本的機率都相同」。
SRS的作法,步驟一是先將樣本中的個體,依所需的樣本數編碼。
其次是製作隨機數字表,該表滿足以下性質:
1、每個數字出現的機會一樣。
2、每個數字的出現,不會影響下個數字出現的機率。例如丟銅板實驗,由於銅板沒有記憶,所以它不會認為已經連續出現5次正面,所以下次「故意」出現反面。
步驟三是依據隨機數字表和樣本個體的編碼,進行抽樣。
以上SRS這些工作,現在都可設計程式,然後用電腦來執行。
簡單隨機抽樣雖解決瞄準偏離靶心的問題,但當我們從同一母體進行多次抽樣時,每次樣本統計量的值會隨之改變。這猶如多次射擊時,彈著點不可能打中同一點,這就是精確度問題。
不過抽樣分布(sampling distribution)原理告訴我們,大樣本的抽樣變異遠低於小樣本,所以足夠的樣本數可以解決精確度的問題。
根據以上的統計知識,嚴格的說「機構效應」並非科學名詞。真正的原因,應是這些民調中,有某些至少犯了:
1、 設計引導性問題。
2、採用方便抽樣、自發性回應抽樣或其他不當方法導致樣本偏向。
3、樣本太小,以致抽樣誤差太大,使得該統計量無法推估母體參數。
最等而下之的是製造假數字,或分析民調數字時濫用工具「拷打資料」,最後資料在「酷刑逼供」下「投降」了,給出政客想要的數字。
通常台灣戰略模擬學會(TASS)稱以上這些為討好政客,而刻意操作的民調為「綵衣娛親」式的民調。
今年的選戰,我們必須睜大眼睛,不要輕易相信「數字會說話」的文宣,也別再被「機構效應」這個名詞呼嚨,更應拒絕接受「綵衣娛親」式的民調。
母體樣本參數統計量 在 母體參數舉例、樣本統計量英文在PTT/mobile01評價與討論 的推薦與評價
【定義1.2.6 】樣本統計量(Sample Statistic). 統計量是由樣本中所計算出的量,其為隨機樣本觀察值的. 函數,用來推論未知母體參數。 ▫ 是描述樣本資料特性的統計測量 ... ... <看更多>
母體樣本參數統計量 在 母體參數舉例、樣本統計量英文在PTT/mobile01評價與討論 的推薦與評價
【定義1.2.6 】樣本統計量(Sample Statistic). 統計量是由樣本中所計算出的量,其為隨機樣本觀察值的. 函數,用來推論未知母體參數。 ▫ 是描述樣本資料特性的統計測量 ... ... <看更多>
母體樣本參數統計量 在 2-2 母體與樣本(難度: ) - YouTube 的推薦與評價
學習重點:(1)理解 母體 與 樣本 的差異(2) 參數 與 統計量 (3)自行練習舉例. ... <看更多>