2019年12月21日 星期六

【因果推論的控制邏輯】談談被你亂控制的迴歸


多數人控制迴歸前,十之八九沒想清楚。標題還是要寫聳動點,不過這篇真的是用迴歸做因果推論的重點。講到因果推論,很多人聯想到的就是:PSM、DID、IV、Fixed effect、Selection model、實驗法......等這些工具,傳統迴歸幾乎快被認為只能處理相關性,不能處理因果。




  • 因果推論工具可以對付的問題

PSM:消除過度控制與估計反事實效果
DID:消除不隨時間變化的未觀測變數影響(not time-varying unobserved variable)
Fixed effect:消除不隨時間變化的未觀測變數影響
IV:消除內生性
Selection model:消除樣本選擇性偏誤


事實上除了實驗法能夠逼近完美的因果關係外,所有因果推論工具,能解決也都是部分問題而已。而迴歸不是不能做因果推論,相反地迴歸做因果推論必須建立在很強的邏輯推導上。


要用迴歸做因果推論,必須要有好的控制;要有好的控制,必須先釐清因果路徑的問題。迴歸分析到底要放哪些變數?初學者經常是跟Y有關都放進去;進階一點的學生知道應該要放會干擾X→Y的。但是真實社會中干擾百百種,到底該怎麼放?

以下,我會舉出四種常見的因果路徑──就是文章預覽圖片的那些路徑──如何干擾X影響Y,並以模擬的資料做迴歸分析,展示正確或錯誤的控制,會發生什麼事情。



  • 模擬資料
在R中只要輸入"X = rnorm(1000) "即可生成樣本數為1000的隨機變數X,再輸入"Y = X + rnorm(1000)"即可模擬一個X影響Y的變數;重複操作可創造更多因果路徑。以下模擬資料,若有X→Y,則理論係數都是1,即1單位的X會提高1單位的Y。

不使用經驗資料而用模擬資料做示範的好處,是我們可以控制一切的變因,資料是最純淨的狀態。而這些模擬操作在Stata中也能達成。




  • 因果關係 Causation/chain/mediator

這種因果路徑,是否要控制M取決於你的研究目的
(無關號的為迴歸係數,括號中為標準誤,intercept是截距項不是重點)
大概會有下列兩種情況:
1. 研究目的為X是否會造成Y的影響,在這種情況不能控制M。因為XMY是在同一條因果鍊上,X確實造成了Y。一旦控制M會把X的效果吃掉,像是上面的Model2,可是這不代表X沒有效果,而是X的效果全部透過M影響Y了。
在真實社會社會的資料通常M不會完全把X吃掉,但是會嚴重低估X的效果。

2. 研究目的為M是否是X的中介機制,這種情況要控制M,但是要做模型比較。
這種研究是在研究X的機制為何,通常是已經確定X會造成Y(X→Y),但你想要更進一步探討原因。例如性別(X)為什麼會薪資不平(Y)等?其中一個機制可能是透過職位的分配(女性玻璃天花板)(M)。
但是這種機制、中介變數的研究,通常至少要做兩個模型,第一個是Model1,第二個是Model2,然後比較X的變化量。更嚴謹的則必須做中介模型,先做X→M的迴歸,再做X+M→Y的迴歸,然後利用中介模型的估計計算中介比例。




  • 干擾效果 Confounding/forks

像是C這種共同造成X跟Y的變數,C必須被控制不控制會產生虛假相關、或是嚴重抑制或高估X→Y

左邊是實際上X也有造成Y,但是C也同時造成X跟Y。種情況下不控制C,會造成X被高估1.5倍。
右邊是實際上X跟Y沒有關係,而C同時造成X跟Y。這種情況下不控制C會誘發虛假相關。常見的例子是一個國家吃巧克力數量(X)與諾貝爾獎數量(Y),干擾變數是國家經濟發展(C)。這種情形在總體層次的資料中尤其嚴重,也是造成生態謬誤的一大原因;但個體層次資料也是非常多例子。




  • 共同結果 common outcome/collider/inverted forks

Z是X跟Y共同造成的結果,這種狀況不能控制Z。如果隨意控制,會誘發虛假相關,甚至抑制或高估X→Y的效果


左邊實際上X有影響Y,且X跟Y又共同影響Z。這種情況亂控制Z,會導致X→Y的效果低估甚至消失。
右邊實際上X跟Y無關,但X跟Y卻共同影響Z。這種情況亂控制Z,會導致Y出現虛假的負相關。





  • 獨立變數

X跟U是完全獨立的,都共同影響Y。這種情況U可控制也可不控制,都不影響結果。

從模擬資料顯示,不加入U加入U,都不會影響結果。
但真實世界的資料很複雜,如果我們能有足夠信心U跟X完全獨立,那我傾向不控制U以防過多的干擾。




  • 更複雜的因果路徑

如果我們今天有個複雜的模型如上,除了X、Y還有C、M、Z、U等變數,那我們一定要控制誰?誰不能被控制?
一定要控制:C
不能被控制:Z、M(如果你的目的是探討X對Y的影響,那不應控制)
可控制可不控制:U
所以,X的係數在眾多模型中,只有Model3跟Model6是不偏估計,其他要嘛高估、要嘛低估,甚至誘發虛假相關。

這個模型也顯示了,不是解釋力(R^2)就是好的模型,能切合理論命題,才是好的模型。至於這些複雜的因果機制怎麼在分析前確認?靠理論,或是你至少自己要能說服自己,他們的因果關係長這樣。



近年來社會學界越加的看重控制變數,不是跟X跟Y有相關就得控制,亂控制甚至會導致完全相反的結果出現。Morgan稱這種現象見在開後門」,原本不存在的因果關係反而因為過度控制,而打開了一個後門誘發虛假相關


如果對因果推論與控制有興趣,推薦閱讀:
Morgan, Stephen L. and Christopher Winship. 2015. Counterfactuals and Causal Inference. Cambridge University Press.


本文的所有模擬可以操考這份code,你可以複製出完全一樣的結果。

沒有留言:

張貼留言