上廁所看統計: 系統誤差無關乎民調統計誤差

實在沒有很懂美國的選舉研究，不過來講一下大家很愛講的民調準不準的這個問題。民調的誤差是「統計誤差（抽樣誤差）」跟「系統誤差」的加總。

【民調揭露的誤差都是「統計誤差」】

我們一般說的95%信心水準下幾%的誤差，指的都是「統計誤差」，這種誤差來自於純粹的機率性：「是不是那麼剛好抽到比較多某一方的支持者？」，換句話說：「有沒有那麼賽連擲了10次正面銅板？」。

這個可以靠樣本數N以及多次的調查弭平誤差。如果大多數的民調結果都朝向某一方，其實「單純以統計來說」幾乎可判定該方就是領先優勢。

【統計誤差背後的假設】

但「統計誤差」的假設在於母體每一個人被抽到的機率都相等、拒訪、回答的平均狀況也都相同。在這個情況下民調的誤差只會有統計誤差。

可是如果母體每個人被抽到的機率不同、或是不同的人回答狀況不同，就會有「系統誤差」產生。這種系統誤差 #無法靠樣本數N、多次的調查弭平，它就是冥冥之中有一股力量讓整個民調結果偏向一邊，這只能倚靠民調公司事後的加權技術。

所以所謂的「95%信心水準下幾%的誤差」跟「系統誤差」是完全不相關的東西。

本篇文章置頂的圖片，就用擲銅板的比喻「統計誤差」跟「系統誤差」。「單純的統計誤差」就好比擲一個公正的硬幣，多擲幾次正面的機率就會趨近0.5，而且誤差會越來越小。但是如果是個壞硬幣，就代表這個硬幣本身存在「系統誤差」，而且這個系統誤差造成不會因為多擲幾次，就讓擲出正面機率趨近於0.5。

【系統誤差有哪些？】

目前我確定的台灣民調存在的系統誤差，比較明顯常見的是西瓜倚大爿，弱勢方的民調通常會被低估，票開出來往往更好。

由於不同群體的接受訪問的機率不同，民調公司通常倚賴人口結構加權做平衡消除系統誤差，因此幾年內短期的人口結構改變，也可能造成嚴重的誤差（我猜測2014鄭文燦滿有可能就是這樣翻盤的）。

【2016絕非統計誤差】

目前一說是2016的民調其實也都在統計誤差內，民調並沒有不準。但「這麼多」民調都導向同一邊贏，用「統計誤差」實在不太可能說得過，只有系統誤差的可能。

但過了四年，民調公司難道完全沒長進，修正系統誤差嗎？但現在很多情境又跟四年不一樣，例如尚未決定投給誰的中間選民數量。人口結構校正勉強還有點數據上的根據，但像是傳說中的「不表態選民」、「Shy Trumpers」這類的誤差究竟要怎麼校正呢？說實在的，這種校正就有點藝術的成份在裡頭。

題外話，現在台灣川普支持者的氛圍，讓我覺得有點像2018綠營的氛圍：「五五波，最後險勝！」。＝＝

2020年11月4日星期三