2020年11月4日 星期三

系統誤差無關乎民調統計誤差



實在沒有很懂美國的選舉研究,不過來講一下大家很愛講的民調準不準的這個問題。民調的誤差是「統計誤差(抽樣誤差)」跟「系統誤差」的加總。


【民調揭露的誤差都是「統計誤差」】

我們一般說的95%信心水準下幾%的誤差,指的都是「統計誤差」,這種誤差來自於純粹的機率性:「是不是那麼剛好抽到比較多某一方的支持者?」,換句話說:「有沒有那麼賽連擲了10次正面銅板?」。

這個可以靠樣本數N以及多次的調查弭平誤差。如果大多數的民調結果都朝向某一方,其實「單純以統計來說」幾乎可判定該方就是領先優勢。


【統計誤差背後的假設】

但「統計誤差」的假設在於母體每一個人被抽到的機率都相等、拒訪、回答的平均狀況也都相同。在這個情況下民調的誤差只會有統計誤差。

可是如果母體每個人被抽到的機率不同、或是不同的人回答狀況不同,就會有「系統誤差」產生。這種系統誤差 #無法 靠樣本數N、多次的調查弭平,它就是冥冥之中有一股力量讓整個民調結果偏向一邊,這只能倚靠民調公司事後的加權技術。

所以所謂的「95%信心水準下幾%的誤差」跟「系統誤差」是完全不相關的東西。


本篇文章置頂的圖片,就用擲銅板的比喻「統計誤差」跟「系統誤差」。「單純的統計誤差」就好比擲一個公正的硬幣,多擲幾次正面的機率就會趨近0.5,而且誤差會越來越小。但是如果是個壞硬幣,就代表這個硬幣本身存在「系統誤差」,而且這個系統誤差造成不會因為多擲幾次,就讓擲出正面機率趨近於0.5。


【系統誤差有哪些?】

目前我確定的台灣民調存在的系統誤差,比較明顯常見的是西瓜倚大爿,弱勢方的民調通常會被低估,票開出來往往更好。

由於不同群體的接受訪問的機率不同,民調公司通常倚賴人口結構加權做平衡消除系統誤差,因此幾年內短期的人口結構改變,也可能造成嚴重的誤差(我猜測2014鄭文燦滿有可能就是這樣翻盤的)。


【2016絕非統計誤差】

目前一說是2016的民調其實也都在統計誤差內,民調並沒有不準。但「這麼多」民調都導向同一邊贏,用「統計誤差」實在不太可能說得過,只有系統誤差的可能。

但過了四年,民調公司難道完全沒長進,修正系統誤差嗎?但現在很多情境又跟四年不一樣,例如尚未決定投給誰的中間選民數量。人口結構校正勉強還有點數據上的根據,但像是傳說中的「不表態選民」、「Shy Trumpers」這類的誤差究竟要怎麼校正呢?說實在的,這種校正就有點藝術的成份在裡頭。

--

題外話,現在台灣川普支持者的氛圍,讓我覺得有點像2018綠營的氛圍:「五五波,最後險勝!」。== 

沒有留言:

張貼留言