2019年12月21日 星期六
【因果推論的控制邏輯】談談被你亂控制的迴歸
多數人控制迴歸前,十之八九沒想清楚。標題還是要寫聳動點,不過這篇真的是用迴歸做因果推論的重點。講到因果推論,很多人聯想到的就是:PSM、DID、IV、Fixed effect、Selection model、實驗法......等這些工具,傳統迴歸幾乎快被認為只能處理相關性,不能處理因果。
2019年10月23日 星期三
2009-2019 台灣民眾的墮胎態度
2019年7月9日 星期二
2019年4月18日 星期四
2019年3月23日 星期六
多元邏輯迴歸的係數能跨模型比較嗎?如何詮釋?
不要比較。很難詮釋。
Q: 多元邏輯迴歸的係數能跨模型比較嗎?例如上表0.191跟0.294能比較嗎?
A: 最好不要。解釋上很危險。看你要解釋的是「發生機率的增加(X)(probability increase)」、「發生的機率增加率(O)(probability increase ratio)」、「勝算的增加(O)(odd increase)」
A: 不代表。可能是一個j類別發生的機率增加率(probability increase ratio),小於k類別發生的機率增加率。但是x讓j、k發生的機率都提高了(probability increase)。教育程度實際上可能讓成為技術工人的機率提高。
多元邏輯迴是一種非常不直觀的模型,使用務必小心。為什麼?就我看過的中文書教科書,似乎都沒有認真講這部份的細節。請大家繼續看下去。
2019年1月5日 星期六
深綠丁粉?開票時間對於丁守中的影響
要回答這個問,分析方法有要非常謹慎的設計。這次開票最慢的是士林、文山、大安,大概也是「邊開邊投」最久的地方[1]。但是文山、大安是丁守中的大票倉,所以直接看開票時間與得票的關係,一定會是開票越久、丁守中得票越高。
所以我打算採用的分析策略是傾向分數配對法(PSM)。由2018年八成以上的投開票所,與2014年的投開票所,投票的鄰里都完全相同,或是差異很小[1]。
因此我可以使用投開票所2014年的得票率,進行相似的批配。簡單來說:
接著,就能夠看開票時間對兩間2014KMT得票率相似的投票所,有沒有造成不同的影響了。看不太懂文字嗎?那看圖示吧。
結果,讓我非常的困惑,開票時間越常,對於丁守中反而有提高得票率的效果?七點後開完,大概都顯著比七點前開完高了1%左右。
難不成深綠丁粉真的存在?對於這個結果,林澤民老師[3]、鄧志松老師[4]用其他的分析方法,似乎也有相同的結果。
[1]中選會僅公告開票完成時間,未公告開始開票的時間,因此我是假設開票越久,應該代表邊開邊投的問題越大。
[2]我允許2014投票所與2018的投票所有3成以下的差異。舉例來說,2014某個投票所是A里的3、6、8、9、11-15鄰、2018年是A里的6、8、9、11-16鄰。他們之間的相似度超過八成(9/11),我仍會視之為同一個投開票所。
[3]林澤民老師於FB的發文,請見連結。
[4]鄧志松老師於2019空間分析工作坊課堂上呈現他分析的結果,他使用的是空間回歸(SLM與GWR),有考量空間上的效果。結果投票與丁守中得票是正相關,但未達顯著水準。
幕後murmur:
2014中選會公告投開票所都是用PDF檔案,整個超級難整理。然後又要處理少數投開票所鄰里不同的問題。我當然不可能一間一間對,幸好會R,對於整理大量資料多打幾行程式就好了。
所以我打算採用的分析策略是傾向分數配對法(PSM)。由2018年八成以上的投開票所,與2014年的投開票所,投票的鄰里都完全相同,或是差異很小[1]。
因此我可以使用投開票所2014年的得票率,進行相似的批配。簡單來說:
「18年開很快、14年KMT低得票」與「18年開很久、14年KMT低得票」做配對
「18年開很快、14年KMT高得票」與「18年開很久、14年KMT高得票」做配對
這個動作是類似實驗法中隨機分派的效果,這樣就不會有「開票很久的地方,都是丁守中票倉」的問題了。當然在配對過程,一定有些投票所配不到,就會被遺漏掉。接著,就能夠看開票時間對兩間2014KMT得票率相似的投票所,有沒有造成不同的影響了。看不太懂文字嗎?那看圖示吧。
結果,讓我非常的困惑,開票時間越常,對於丁守中反而有提高得票率的效果?七點後開完,大概都顯著比七點前開完高了1%左右。
難不成深綠丁粉真的存在?對於這個結果,林澤民老師[3]、鄧志松老師[4]用其他的分析方法,似乎也有相同的結果。
[1]中選會僅公告開票完成時間,未公告開始開票的時間,因此我是假設開票越久,應該代表邊開邊投的問題越大。
[2]我允許2014投票所與2018的投票所有3成以下的差異。舉例來說,2014某個投票所是A里的3、6、8、9、11-15鄰、2018年是A里的6、8、9、11-16鄰。他們之間的相似度超過八成(9/11),我仍會視之為同一個投開票所。
[3]林澤民老師於FB的發文,請見連結。
[4]鄧志松老師於2019空間分析工作坊課堂上呈現他分析的結果,他使用的是空間回歸(SLM與GWR),有考量空間上的效果。結果投票與丁守中得票是正相關,但未達顯著水準。
幕後murmur:
2014中選會公告投開票所都是用PDF檔案,整個超級難整理。然後又要處理少數投開票所鄰里不同的問題。我當然不可能一間一間對,幸好會R,對於整理大量資料多打幾行程式就好了。
訂閱:
文章 (Atom)