上廁所看統計: 交互作用模型的估計，能信嗎？新增Q/A問答

封面照片

今天分享一篇頂級期刊的論文"How Much Should We Trust Estimates from Multiplicative Interaction Models? Simple Tools to Improve Empirical Practice."這篇文章即將被 Political Analysis刊出。

該文複製近年來22篇政治學頂級期刊的論文，發現裡面46個交互作用模型，有七成無法通過作者的設計的模型檢驗。這篇文章絕對足以對社會科學的量化研究投下震撼彈。

先講結論

由於很少人會去注意交互作用項的變數分配情形，但這其實嚴重影響估計效果。不好的分配、加上調節效果線性變化的預設，導致有多數交互作用項的模型值得存疑。
但其實這不是交互作用項統計上的問題，而是資料分配本身的不健全，自然garbage in garbage out。這些問題同樣會發生在一般的變數，只是交互作用項往往特別容易發生。

另外，在文末我有附上一些讀者閱讀這篇文章收到的回應，以及釐清一些誤解。

何謂調節變數與交互作用項

不過在開始使分享論文前，究竟什麼是交互作用項？一般的複迴歸模型可能是Y=X1+X2，我們希望透過X1、X2去解釋Y。像是左下圖片的例子，我們知道受教育年數越多、男性，平均而言會有比較高的工作收入。但是不同的教育程度，對男/女的效果一樣嗎？男性除了原本的優勢，會不會在高等教育階段，還能額外獲得更多錢呢？

這時候就需要交互作用項，交互作用項就像一個「效果閥」，當這個閥開啟時，會放大（或是縮小）其他變數的效果。

這時，性別不僅是自變數，還是個「有調節作用的自變數」（調節變數）。而有調節變數的模型則會變成Y=X1+X2+X1*X2。

本文的討論範圍

這篇文章針對的是自變數或調節變數至少一個為「連續變數」的模型做討論，如果自變數與調節變數都是0 or 1這種dummy variable、binary variable的形態，較不容易發生錯誤估計導致假相關的問題。因此，以下討論都是針對自變數或調節變數至少一個為「連續變數」的模型。

交互作用模型的常見問題

一個典型的交互作用模型如下。


依變數Y =截距α + β1自變數X +β2調節變數D +β3自變數X*調節變數D +控制變數β +殘差ε

在開頭點出兩個交互作用模型常出現的問題。

首先，線性的交互作用模型有個很基本的假設：linear interaction effect (LIE) ，就是β3的調節效果是線性的。當調節效果不是線性的，模型估計就會有問題。

再來，交互作用模型在理想上要滿足兩個條件，而且要注意的是，這兩個狀況，經常都是連動發生的：


1.在D調節效果下的X，觀察值數量要足夠。

2.在D調節效果下的X，仍要保有變異性。

這兩個條件若不符合，常常會讓交互作用的估計出問題，不過它們聽起來有一點抽象，以下我用視覺化的方式說明。

首先，「在D調節效果下的X，觀察值數量數要足夠。」，如果今天調節變數是「性別」，D調節效果下的X仍有一半左右的觀察值數量能夠對Y進行估計，是很足夠的；但是今天調節變數若是比例很稀少的「原住民」，在估計上就會有危險。

再來，「在D調節效果下的X，仍要保有變異性。」，同樣的我們可以看到，兩性在每個受教育年數的分配不致於差太多，變異性很足夠；但是如果調節變數是「是否為公務員」，公務員通常就是個高教育程度的群體，因此「是公務員」調節下的教育程度，缺乏變異。也會對Y的估計有危機。

檢驗方法

作者設計可以同時檢驗這兩個問題的簡單方法──Binning Estimator──他把X切三等份，各組的X與D各自做交互作用，並分別檢視各組Y的估計值。
作者有把Binning Estimator寫成R的套件"interflex"，只要把模型條件輸入，就可以跑出下面視覺化的圖片了。


下面的是作者自己模擬的模型，圖解釋如下：

1.L,M,H就是將X分依大小為三組。

2.這個範例調節變數D是一個binary variable。

3.圖片上的回歸線，是原始迴歸模型交互作用項的迴歸線。

4.X軸上直方圖紅色部分，是D調節開啟下的X變數的分配。

5.dot與error bar是L,M,H各組D對X調節下，所估計出來的Y。

6.dot坐落的x軸位置，是D調節開啟下各組X的中位數。

擷取自Hainmueller(2018: 18)

另外，作者L,M,H三組對Y的估計是平均數，而非一般線性迴歸模型慣用的邊際效果；且分三組，樣本數變小、標準誤肯定被放大，這標準一定是較嚴苛的。基本上我認為L組跟H組有達到顯著差異，且L,M,H三組有線性變化趨勢，我就覺得這是個良好的交互作用模型。

※關於dot的分群估計，用個實務上的比方，它有點像是把連續變量的「受教育年數」分成類別變數的「三等份教育程度」。有在玩模型應該能理解這個意思XD。

作者在文章中還有開發另一個估計方法「Kernel Estimator」，方法上複雜很多，我也看不太懂數學公式，不過很有smooth regression跟local estimator的味道。

這個方法的好處

使用這個方法，X的分配、調節下X的分配、調節是否為線性效果，就能夠清楚的看出來的。

下面這個是「非常完美」的模型。

擷取自Hainmueller(2018: 40)

下面這個模型的主要問題是：D調節下的X缺乏變異。D調節效果開啟時，X的範圍僅在L組，M、H根本沒有X的存在。

擷取自Hainmueller(2018: 40)

下面這個模型的主要問題是：極端值、嚴重偏態。L,M組只佔了X軸20%的range。

擷取自Hainmueller(2018: 40)

下面這個模型的主要問題是：調節效果非線性。

擷取自Hainmueller(2018: 40)

論文洋洋灑灑列了22篇論文、46個模型，結果簡直慘不忍睹。

擷取自Hainmueller(2018: 39)

解決方案

作者的建議很簡單，在建立模型前，就該好好注意變數分配情形，並且善用他發明的檢驗工具。確實，其實以上的交互作用項出問題，也是在一般變數會發生的問題，只是交互作用項的複雜性，讓這些問題更容易發生、被放大。

方法上的限制

目前作者發明的Binning Estimator，只能用在Y為連續變數的模型上，不過這在個體資料中其實不常有。我想這篇paper若是真的引起軒然大波，很快的for Logistic的套件也會被開發出來。

Q：這篇文章是在講量化研究的盲點嗎？
A：我看到滿多人分享這篇文章，然後說「量化研究的盲點」。我認為這不是量化研究的盲點，這篇文章主要的工作在揭示「迴歸分析交互作用項的預設」。不要看了我的開頭說七成模型無法通過檢驗，就覺得量化研究不可信。這篇文章反而是說明量化研究是有前提的，在前提成立的情況下，研究才可靠可信。

該論文主要說明連續變數的交互作用幾個前提：1.線性調節效果 2.調節下的觀察個數足夠 3.調節下的變異性足夠。

事實上所有量化研究都有前提預設，像是OLS迴歸至少就有變異性、i.i.d.、共變數獨立、E(ε)=0等等諸多前提。簡單的迴歸預設多數人都概念，但是交互作用較為複雜，往往沒被注意到。

什麼是量化研究的盲點？我認為像是量化研究無法處理特例、個人經驗，那才稱得上盲點。

Q：為何論文挑選22篇？怎麼那麼少？摘櫻桃嗎？
A：該論文提供的檢驗方法有幾個限制：1.依變數為連續變數 2.自變數與調節變數至少一個為連續變數。個體資料的研究，這兩個幾乎限制幾乎可以扣掉90%的論文，並且剩下10%，又要是近年發表的政治學頂級期刊，論文數自然不多。
順帶一提，有趣的是，作者說他們在分析時，都有跟每篇論文的作者打過招呼，以示尊重。

※論文若有錯讀，敬請指正。英文程度普通，很多地方看得不是那麼明白，只能靠自己的認知理解。
參考資料：
Hainmueller, J., Mummolo, J., & Xu, Y. , 2018, How Much Should We Trust Estimates from Multiplicative Interaction Models? Simple Tools to Improve Empirical Practice. Political Analysis, forthcoming.

※第三作者徐軼青已經在5/28與6/4分別在台大與中山演講，「我們應多麼信賴交互作用模型？改善經驗實踐的簡單方法」、「關於調節變數，我們以為對的可能都做錯了」

2018年6月8日星期五

交互作用模型的估計，能信嗎？新增Q/A問答

先講結論

何謂調節變數與交互作用項

本文的討論範圍

交互作用模型的常見問題

檢驗方法

作者在文章中還有開發另一個估計方法「Kernel Estimator」，方法上複雜很多，我也看不太懂數學公式，不過很有smooth regression跟local estimator的味道。

這個方法的好處

方法上的限制

1 則留言:

2018年6月8日 星期五

交互作用模型的估計，能信嗎？新增Q/A問答

先講結論

何謂調節變數與交互作用項

本文的討論範圍

交互作用模型的常見問題

檢驗方法

作者在文章中還有開發另一個估計方法「Kernel Estimator」，方法上複雜很多，我也看不太懂數學公式，不過很有smooth regression跟local estimator的味道。 這個方法的好處

方法上的限制

1 則留言:

2018年6月8日星期五

作者在文章中還有開發另一個估計方法「Kernel Estimator」，方法上複雜很多，我也看不太懂數學公式，不過很有smooth regression跟local estimator的味道。

這個方法的好處