2019年4月18日 星期四

最愛說話的神

今早中研院SRDA小編發了一篇,列舉了台灣民眾聽到神說話的頻率。

不過我覺得不同宗教的神說話的頻率應該不太一樣。大概是這樣拉,媽祖可能還不是最常說話的。



2019年3月23日 星期六

多元邏輯迴歸的係數能跨模型比較嗎?如何詮釋?

不要比較。很難詮釋。



Q: 多元邏輯迴歸的係數能跨模型比較嗎?例如上表0.191跟0.294能比較嗎?
A: 最好不要。解釋上很危險。看你要解釋的是「發生機率的增加(X)(probability increase)」、「發生的機率增加率(O)(probability increase ratio)」、「勝算的增加(O)(odd increase)」



Q: 多元邏輯迴歸某項x的係數為負,代表發生的機率減少嗎?例如上表的-0.064代表成為技術工人的機率降低嗎?
A: 不代表。可能是一個j類別發生的機率增加率(probability increase ratio),小於k類別發生的機率增加率。但是x讓j、k發生的機率都提高了(probability increase)。教育程度實際上可能讓成為技術工人的機率提高。




多元邏輯迴是一種非常不直觀的模型,使用務必小心。為什麼?就我看過的中文書教科書,似乎都沒有認真講這部份的細節。請大家繼續看下去。


2019年1月5日 星期六

深綠丁粉?開票時間對於丁守中的影響




要回答這個問,分析方法有要非常謹慎的設計。這次開票最慢的是士林、文山、大安,大概也是「邊開邊投」最久的地方[1]。但是文山、大安是丁守中的大票倉,所以直接看開票時間與得票的關係,一定會是開票越久、丁守中得票越高。



所以我打算採用的分析策略是傾向分數配對法(PSM)。由2018年八成以上的投開票所,與2014年的投開票所,投票的鄰里都完全相同,或是差異很小[1]

因此我可以使用投開票所2014年的得票率,進行相似的批配。簡單來說:
「18年開很快、14年KMT低得票」與「18年開很久、14年KMT低得票」做配對
「18年開很快、14年KMT高得票」與「18年開很久、14年KMT高得票」做配對

這個動作是類似實驗法中隨機分派的效果,這樣就不會有「開票很久的地方,都是丁守中票」的問題了。當然在配對過程,一定有些投票所配不到,就會被遺漏掉。

接著,就能夠看開票時間對兩間2014KMT得票率相似的投票所,有沒有造成不同的影響了。看不太懂文字嗎?那看圖示吧。


結果,讓我非常的困惑,開票時間越常,對於丁守中反而有提高得票率的效果?七點後開完,大概都顯著比七點前開完高了1%左右。

難不成深綠丁粉真的存在?對於這個結果,林澤民老師[3]、鄧志松老師[4]用其他的分析方法,似乎也有相同的結果。

[1]中選會僅公告開票完成時間,未公告開始開票的時間,因此我是假設開票越久,應該代表邊開邊投的問題越大。
[2]我允許2014投票所與2018的投票所有3成以下的差異。舉例來說,2014某個投票所是A里的3、6、8、9、11-15鄰、2018年是A里的6、8、9、11-16鄰。他們之間的相似度超過八成(9/11),我仍會視之為同一個投開票所。
[3]林澤民老師於FB的發文,請見連結
[4]鄧志松老師於2019空間分析工作坊課堂上呈現他分析的結果,他使用的是空間回歸(SLM與GWR),有考量空間上的效果。結果投票與丁守中得票是正相關,但未達顯著水準。



幕後murmur:
2014中選會公告投開票所都是用PDF檔案,整個超級難整理。然後又要處理少數投開票所鄰里不同的問題。我當然不可能一間一間對,幸好會R,對於整理大量資料多打幾行程式就好了。

2018年12月23日 星期日

柯文哲變白所以吸到藍營票?

有個神祕的說法,柯文哲「白綠分手」後,在政治上的光譜越來越趨中,或是另一種說法:「超越藍綠」,而獲得一些淺藍民眾的支持。

其實上篇分析就已經顯示,台北市國民黨的支持率幾乎維持四年前的水平,絲毫沒有改變;這篇我更加把2018選舉中的柯文哲與姚文智分開做估計,結果仍然顯示,2014年到2018年間,柯文哲幾乎沒有再從藍營手中搶到什麼票。

當然,柯文哲不出來選,這26%的人,必然會有不少回到國民黨手上。但我強調的是:這四年間柯文哲似乎沒有爭取到更多藍營的支持。

柯文哲「白化」後,爭取到淺藍選民的支持,這種說法可能很有問題。


[1] 不過我們也不確定「如果白綠繼續合作」的反事實造成效果如何,說不定這樣2018比起2014會流失一些原本的支持者。我們只能從已發生的事實,說他沒有爭取到更多藍營支持者。



2018年12月12日 星期三

續:票投國民黨還是不投民進黨-跨層次推論的方法


接續回應熱烈的前文票投國民黨還是不投民進黨?我運用跨層次推論(生態推論 Ecological Inference)的方法,應證了前文所講的:國民黨在高雄選勝主因並非倒戈,而是將上一次不投票的人,動員出來投給韓國瑜;以及今年不少民進黨支持者未出來投票。


一般而言,整體資料不能推論個體層次的行為,會有「區位謬誤」的問題。例如一個經典的例子:移民越多的區域,識字率也越高。原因不是移民識字率比較高,而是移民居住在都市,而都市識字率較高。

但是「跨層次推論」,可以克服這個問題,我主要使用Gary King的方法簡單來說是在一些前提假設[1]下,運用電腦模擬的方式,創造出數十萬套虛擬的個體資料,然後挑選出當中相似機率較高的出來進行估計。我透過R的"eiPack"套件進行分析,每個縣市大約模擬五十萬種個體資料可能的分配,挑選出當中合適的一千套樣本計算平均。