2018年6月8日 星期五

交互作用模型的估計,能信嗎?新增Q/A問答

封面照片
今天分享一篇頂級期刊的論文"How Much Should We Trust Estimates from Multiplicative Interaction Models? Simple Tools to Improve Empirical Practice."這篇文章即將被 Political Analysis刊出。

該文複製近年來22篇政治學頂級期刊的論文,發現裡面46個交互作用模型,有七成無法通過作者的設計的模型檢驗。這篇文章絕對足以對社會科學的量化研究投下震撼彈。



  • 先講結論

由於很少人會去注意交互作用項的變數分配情形,但這其實嚴重影響估計效果。不好的分配、加上調節效果線性變化的預設,導致有多數交互作用項的模型值得存疑。
但其實這不是交互作用項統計上的問題,而是資料分配本身的不健全,自然garbage in garbage out。這些問題同樣會發生在一般的變數,只是交互作用項往往特別容易發生。

另外,在文末我有附上一些讀者閱讀這篇文章收到的回應,以及釐清一些誤解。


  • 何謂調節變數與交互作用項

不過在開始使分享論文前,究竟什麼是交互作用項?一般的複迴歸模型可能是Y=X1+X2,我們希望透過X1、X2去解釋Y。像是左下圖片的例子,我們知道受教育年數越多、男性,平均而言會有比較高的工作收入。但是不同的教育程度,對男/女的效果一樣嗎?男性除了原本的優勢,會不會在高等教育階段,還能額外獲得更多錢呢?

這時候就需要交互作用項,交互作用項就像一個「效果閥」,當這個閥開啟時,會放大(或是縮小)其他變數的效果。

這時,性別不僅是自變數,還是個「有調節作用的自變數」(調節變數)。而有調節變數的模型則會變成Y=X1+X2+X1*X2。



  • 本文的討論範圍

這篇文章針對的是自變數或調節變數至少一個為「連續變數」的模型做討論,如果自變數與調節變數都是0 or 1這種dummy variable、binary variable的形態,較不容易發生錯誤估計導致假相關的問題。因此,以下討論都是針對自變數或調節變數至少一個為「連續變數」的模型。


  • 交互作用模型的常見問題

一個典型的交互作用模型如下。



依變數=截距α β1自變數X +β2調節變數D +β3自變數X*調節變數D +控制變數β +殘差ε


在開頭點出兩個交互作用模型常出現的問題。

首先,線性的交互作用模型有個很基本的假設:linear interaction effect (LIE) ,就是β3的調節效果是線性的。當調節效果不是線性的,模型估計就會有問題。

再來,交互作用模型在理想上要滿足兩個條件,而且要注意的是,這兩個狀況,經常都是連動發生的

1.在D調節效果下的X,觀察值數量要足夠。
2.在D調節效果下的X,仍要保有變異性


這兩個條件若不符合,常常會讓交互作用的估計出問題,不過它們聽起來有一點抽象,以下我用視覺化的方式說明。

首先,「在D調節效果下的X,觀察值數量數要足夠。」,如果今天調節變數是「性別」,D調節效果下的X仍有一半左右的觀察值數量能夠對Y進行估計,是很足夠的;但是今天調節變數若是比例很稀少的「原住民」,在估計上就會有危險。



再來,「在D調節效果下的X,仍要保有變異性。」,同樣的我們可以看到,兩性在每個受教育年數的分配不致於差太多,變異性很足夠;但是如果調節變數是「是否為公務員」,公務員通常就是個高教育程度的群體,因此「是公務員」調節下的教育程度,缺乏變異。也會對Y的估計有危機。



  • 檢驗方法

作者設計可以同時檢驗這兩個問題簡單方法──Binning Estimator──他把X切三等份,各組的X與D各自做交互作用,並分別檢視各組Y的估計值。
作者有把Binning Estimator寫成R的套件"interflex",只要把模型條件輸入,就可以跑出下面視覺化的圖片了。

下面的是作者自己模擬的模型,圖解釋如下:
1.L,M,H就是將X分依大小為三組。
2.這個範例調節變數D是一個binary variable
3.圖片上的回歸線,是原始迴歸模型交互作用項的迴歸線。
4.X軸上直方圖紅色部分,是D調節開啟下X變數的分配。
5.dot與error bar是L,M,H各組D對X調節下,所估計出來的Y。
6.dot坐落的x軸位置,是D調節開啟下各組X的中位數。

擷取自Hainmueller(2018: 18)

另外,作者L,M,H三組對Y的估計是平均數,而非一般線性迴歸模型慣用的邊際效果;且分三組,樣本數變小、標準誤肯定被放大,這標準一定是較嚴苛的。基本上我認為L組跟H組有達到顯著差異,且L,M,H三組有線性變化趨勢,我就覺得這是個良好的交互作用模型。

※關於dot的分群估計,用個實務上的比方,它有點像是把連續變量的「受教育年數」分成類別變數的「三等份教育程度」。有在玩模型應該能理解這個意思XD。

作者在文章中還有開發另一個估計方法「Kernel Estimator」,方法上複雜很多,我也看不太懂數學公式,不過很有smooth regression跟local estimator的味道。
  • 這個方法的好處


使用這個方法,X的分配、調節下X的分配、調節是否為線性效果,就能夠清楚的看出來的。


下面這個是「非常完美」的模型。
擷取自Hainmueller(2018: 40)


下面這個模型的主要問題是:D調節下的X缺乏變異。D調節效果開啟時,X的範圍僅在L組,M、H根本沒有X的存在。
擷取自Hainmueller(2018: 40)

下面這個模型的主要問題是:極端值、嚴重偏態。L,M組只佔了X軸20%的range。
擷取自Hainmueller(2018: 40)
下面這個模型的主要問題是:調節效果非線性。
擷取自Hainmueller(2018: 40)

論文洋洋灑灑列了22篇論文、46個模型,結果簡直慘不忍睹。
擷取自Hainmueller(2018: 39)

  • 解決方案
作者的建議很簡單,在建立模型前,就該好好注意變數分配情形,並且善用他發明的檢驗工具。確實,其實以上的交互作用項出問題,也是在一般變數會發生的問題,只是交互作用項的複雜性,讓這些問題更容易發生、被放大。

  • 方法上的限制

目前作者發明的Binning Estimator,只能用在Y為連續變數的模型上,不過這在個體資料中其實不常有。我想這篇paper若是真的引起軒然大波,很快的for Logistic的套件也會被開發出來。




  • Q/A
Q:這篇文章是在講量化研究的盲點嗎?
A:我看到滿多人分享這篇文章,然後說「量化研究的盲點」。我認為這不是量化研究的盲點,這篇文章主要的工作在揭示「迴歸分析交互作用項的預設」。不要看了我的開頭說七成模型無法通過檢驗,就覺得量化研究不可信。這篇文章反而是說明量化研究是有前提的,在前提成立的情況下,研究才可靠可信。

該論文主要說明連續變數的交互作用幾個前提:1.線性調節效果 2.調節下的觀察個數足夠 3.調節下的變異性足夠。

事實上所有量化研究都有前提預設,像是OLS迴歸至少就有變異性、i.i.d.、共變數獨立、E(ε)=0等等諸多前提。簡單的迴歸預設多數人都概念,但是交互作用較為複雜,往往沒被注意到。

什麼是量化研究的盲點?我認為像是量化研究無法處理特例、個人經驗,那才稱得上盲點。


Q:為何論文挑選22篇?怎麼那麼少?摘櫻桃嗎?
A:該論文提供的檢驗方法有幾個限制:1.依變數為連續變數 2.自變數與調節變數至少一個為連續變數。個體資料的研究,這兩個幾乎限制幾乎可以扣掉90%的論文,並且剩下10%,又要是近年發表的政治學頂級期刊,論文數自然不多。
順帶一提,有趣的是,作者說他們在分析時,都有跟每篇論文的作者打過招呼,以示尊重。


※論文若有錯讀,敬請指正。英文程度普通,很多地方看得不是那麼明白,只能靠自己的認知理解。
參考資料:
Hainmueller, J., Mummolo, J., & Xu, Y. , 2018, How Much Should We Trust Estimates from Multiplicative Interaction Models? Simple Tools to Improve Empirical Practice. Political Analysis, forthcoming.

※第三作者徐軼青已經在5/28與6/4分別在台大與中山演講,「我們應多麼信賴交互作用模型?改善經驗實踐的簡單方法」、「關於調節變數,我們以為對的可能都做錯了」

1 則留言: