2019年1月5日 星期六

深綠丁粉?開票時間對於丁守中的影響




要回答這個問,分析方法有要非常謹慎的設計。這次開票最慢的是士林、文山、大安,大概也是「邊開邊投」最久的地方[1]。但是文山、大安是丁守中的大票倉,所以直接看開票時間與得票的關係,一定會是開票越久、丁守中得票越高。



所以我打算採用的分析策略是傾向分數配對法(PSM)。由2018年八成以上的投開票所,與2014年的投開票所,投票的鄰里都完全相同,或是差異很小[1]

因此我可以使用投開票所2014年的得票率,進行相似的批配。簡單來說:
「18年開很快、14年KMT低得票」與「18年開很久、14年KMT低得票」做配對
「18年開很快、14年KMT高得票」與「18年開很久、14年KMT高得票」做配對

這個動作是類似實驗法中隨機分派的效果,這樣就不會有「開票很久的地方,都是丁守中票」的問題了。當然在配對過程,一定有些投票所配不到,就會被遺漏掉。

接著,就能夠看開票時間對兩間2014KMT得票率相似的投票所,有沒有造成不同的影響了。看不太懂文字嗎?那看圖示吧。


結果,讓我非常的困惑,開票時間越常,對於丁守中反而有提高得票率的效果?七點後開完,大概都顯著比七點前開完高了1%左右。

難不成深綠丁粉真的存在?對於這個結果,林澤民老師[3]、鄧志松老師[4]用其他的分析方法,似乎也有相同的結果。

[1]中選會僅公告開票完成時間,未公告開始開票的時間,因此我是假設開票越久,應該代表邊開邊投的問題越大。
[2]我允許2014投票所與2018的投票所有3成以下的差異。舉例來說,2014某個投票所是A里的3、6、8、9、11-15鄰、2014年是A里的6、8、9、11-16鄰。他們之間的相似度超過八成(9/11),我仍會視之為同一個投開票所。
[3]林澤民老師於FB的發文,請見連結
[4]鄧志松老師於2019空間分析工作坊課堂上呈現他分析的結果,他使用的是空間回歸(SLM與GWR),有考量空間上的效果。結果投票與丁守中得票是正相關,但未達顯著水準。



幕後murmur:
2014中選會公告投開票所都是用PDF檔案,整個超級難整理。然後又要處理少數投開票所鄰里不同的問題。我當然不可能一間一間對,幸好會R,對於整理大量資料多打幾行程式就好了。

2018年12月23日 星期日

柯文哲變白所以吸到藍營票?

有個神祕的說法,柯文哲「白綠分手」後,在政治上的光譜越來越趨中,或是另一種說法:「超越藍綠」,而獲得一些淺藍民眾的支持。

其實上篇分析就已經顯示,台北市國民黨的支持率幾乎維持四年前的水平,絲毫沒有改變;這篇我更加把2018選舉中的柯文哲與姚文智分開做估計,結果仍然顯示,2014年到2018年間,柯文哲幾乎沒有再從藍營手中搶到什麼票。

當然,柯文哲不出來選,這26%的人,必然會有不少回到國民黨手上。但我強調的是:這四年間柯文哲似乎沒有爭取到更多藍營的支持。

柯文哲「白化」後,爭取到淺藍選民的支持,這種說法可能很有問題。


[1] 不過我們也不確定「如果白綠繼續合作」的反事實造成效果如何,說不定這樣2018比起2014會流失一些原本的支持者。我們只能從已發生的事實,說他沒有爭取到更多藍營支持者。



2018年12月12日 星期三

續:票投國民黨還是不投民進黨-跨層次推論的方法


接續回應熱烈的前文票投國民黨還是不投民進黨?我運用跨層次推論(生態推論 Ecological Inference)的方法,應證了前文所講的:國民黨在高雄選勝主因並非倒戈,而是將上一次不投票的人,動員出來投給韓國瑜;以及今年不少民進黨支持者未出來投票。


一般而言,整體資料不能推論個體層次的行為,會有「區位謬誤」的問題。例如一個經典的例子:移民越多的區域,識字率也越高。原因不是移民識字率比較高,而是移民居住在都市,而都市識字率較高。

但是「跨層次推論」,可以克服這個問題,我主要使用Gary King的方法簡單來說是在一些前提假設[1]下,運用電腦模擬的方式,創造出數十萬套虛擬的個體資料,然後挑選出當中相似機率較高的出來進行估計。我透過R的"eiPack"套件進行分析,每個縣市大約模擬五十萬種個體資料可能的分配,挑選出當中合適的一千套樣本計算平均。


2018年12月11日 星期二

票投國民黨還是不投民進黨?

民進黨大敗意味著「綠轉藍」的發生了嗎?還是只是藍綠支持者是否出來投票的各自消長?前些日子葉高華老師的一文提醒:「得票率可能誤導人......要談選舉變遷,支持度是比得票率更可靠的指標。其分母是選舉人數而不是有效票數,反映某黨能夠從所有選民當中獲取選票的能力。」


得票率 = 得票數 / 有效票數
支持率 = 得票數 / 有選舉權人數

如果單單看得票率,民進黨在台灣所有的選區幾乎是大幅流失,而國民黨大幅增加。但是如果看支持率就很有意思了,其實各縣市藍綠板塊的消長模式並不相同。像是鄭文燦的支持率實際上比陳其邁還要低,可是卻大敗國民黨。



接下來的圖表,是以村里為單位[1],分析國民兩黨的支持率[2]在2014至2018年間的變化。X軸代表民進黨支持率的衰退,越大代表出來投給民進黨的人變少了;Y軸則代表國民黨支持率的提升,越大代表出來投給國民黨的人變多了。


並且,縣市大部分的村里(點點)若是坐落於紅色區域,則代表相較2014的選舉,此次選舉藍綠板塊變化的主要是藍營支持者增加;若大部分坐落於橘色區域,則代表主要是綠營支持者減少。


  • 高雄與台中,兩個支持率變化不同的縣市


以兩個民進黨同樣慘敗的台中與高雄為例,高雄藍綠板塊的變化,主要動力來自於國民黨支持率的增加;而臺中市的變化主要來自於民進黨支持率的衰退。當然高雄民進黨的支持率有衰退、台中國民黨的支持率也有增加,但力道小於主要動力。

看來「韓流」最大的效果是將上一次不投票的人,動員出來投給國民黨,這也是高雄市投票率硬生生比其他縣市高了10%的原因。



  • 桃園大贏?還是藍營不投票?

比較有趣的是桃園,這次是鄭文燦大勝嗎?恐怕只是國民黨未成功動員支持者出來投票,然後民進黨有穩住支持者,沒有流失支持率。在桃園,民進黨整體的支持率是31.8%,但號稱慘敗的高雄支持率是32.5%,其實比桃園還來得高。


另一個民進黨同樣選贏的基隆市,民進黨一樣有穩住支持者,然後國民黨支持率「回血」的不夠多,所以最後還是贏了。若是像其他縣市一樣,民進黨支持率大幅減少,大概也會輸掉。



  • 台南國民黨越來越有機會?

至於過去一向號稱「綠到發黑」的臺南市,這次國民兩黨的得票率接近,但看國民兩黨的支持率變化,只是民進黨支持率流失,但流失的選票完全沒讓國民黨的支持率增加,而且這個現象在台南各里似乎相當一致。


  • 各縣市的情形

以下是各縣市國民、兩黨支持率的變化,各縣市國民兩黨支持率的變化方式並不相同。有些縣市民進黨支持者減少與國民黨支持者增加確實高度相關,但更多縣市卻並非如此。另外,有幾點注意:

1.民進黨14或18年在部分縣市未提名,因此未列入分析
2.有部分村里在4年間合併或重劃,無法連結的村里將替除,但數量不多(台南稍多)。
3.台北市18年我仍將柯文哲與姚文智合併計算




  • 整體資料對於「倒戈」推論的限制

文章開頭提到,究竟「綠轉藍」倒戈的現象是否有發生?基本上戈的情形無法從整體資料中確定,還是需要民調的個體資料確認。以上的作法是退一步透過間接猜測,假設倒在某個縣市中是普遍發生,那各村里民進黨支持率變化與國民黨支持率變化,理應該高度相關,不過結果是很多縣市的相關係數相當低。

而且這個猜測有很強的假設,如果高雄市確實有大量倒
,但是各區狀況不一樣,那繪製出來的圖可能也是低度相關;而上圖國民、兩黨支持率變化高度相關的南投與彰化等地區,事實上也無法肯定是「倒」發生,另一種可能是個村里民進黨支持者不投票的比例等於國民黨支持者出來投票的比例。

簡言之,此篇文章繪製村里藍綠支持率變化,最合宜的詮釋是了解各縣市是「投給國民黨變多」?還是「投給民進黨變少」?或是「國、民兩黨支持率的消長是否高度相關?」至於在個體層次上,倒有沒有發生,只能依靠相關性做比較合理的猜測。

不過,真的試圖想從個體資料推論,可以運用「跨層次推論」(生態推論 Ecological Inference)的技術,這個方法也是我寫完這篇文章,受老師指點才學到。這部份的分析我寫在新的文章以及此文文末。


[1] 為了呈現整體趨勢,我刪除分布於2個IQR外的極端值
[2] 得票數/有選舉權人數


※後記:跨層次推論的方法

跨層次推論的方式,簡單來說是在一些前提假設下,運用電腦模擬的方式,創造出數十萬套虛擬的個體資料,然後挑選出當中相似機率較高的出來進行估計。

我以高雄、台中兩個地方為例,更多說明請見最新一篇文章

下面這個表是運用跨層次推論出「個體層次在兩次選舉中的投票行為」。DPP14代表2014年投給民進黨,KMT18代表2018年投給國民黨,non代表未投票與投給其他候選人。交叉表的部份例如[DPP14 , DPP18]=31.5,代表2014年投給民進黨、且2018年也投給民進黨的人,佔所有選舉人的31.5%。

從高雄來看,綠營倒戈藍營僅佔7.2%,真正藍綠得票消長是靠動員出未投票的人出來投韓國瑜這群人,[non14 , KMT18]讓韓國瑜支持率足足多了12.6%;再加上今年不投票的14年綠營支持者,讓陳其邁少了5.8%。這種「出門投國民黨、窩在家不投民進黨」的效果,一來一往讓雙方支持率差了17.4%,換算成今年的選舉得票率,那是足足差了25%!

至於台中,也與前文散佈圖所推測的一致,台中藍綠得票消長的主要原因在於有7.7%民進黨2014年的支持者不願意出來投票。不過倒戈的也佔了5.6%。

跨層次推論的方法,在做估計時有相當強烈的假設,此方法目前仍有爭議。我認為最終的推論,仍要回到個體資料上最為保險。

2018年11月26日 星期一

民進黨高雄市各里得票與變化的空間分析

2014-18選票流失比例
本文製作了高雄市2018與2014年市長選舉的地圖。首先是2018年各里的得票。
再來則是2014-2018年之間民進黨各里所流失的選票百分比。高雄所有村里相比2014年,民進黨得票率都是衰減的,在5%~40%之間,平均值為22.2%,大於平均值以藍色畫出,小於平均值以綠色畫出。
以上兩張圖片的PDF檔案我掛在雲端上,是向量型態可以無限放大,歡迎自行下載,觀察自己家裡屬於高衰退區還是低衰退區。

不過需要注意,不要被地圖的顏色面積誤導,面積越大的里,往往人越少,舊高雄縣有些里比舊高雄市一個區還要大,不應用面積大小進行詮釋。

整體來說,民進黨各里得票衰退,具有非常強的空間相關性,某里的得票嚴重衰退,周圍各里大致上也嚴重衰退;某里得票衰退輕微,周圍各里也不致於衰退太嚴重。

我以一個里與周圍兩層的里做空間相關運算,空間自相關(Global Moran's I)=0.35。

下面這張則是高度/低度衰退的聚集熱區,以及變化孤島。