該文複製近年來22篇政治學頂級期刊的論文,發現裡面46個交互作用模型,有七成無法通過作者的設計的模型檢驗。這篇文章絕對足以對社會科學的量化研究投下震撼彈。
- 先講結論
由於很少人會去注意交互作用項的變數分配情形,但這其實嚴重影響估計效果。不好的分配、加上調節效果線性變化的預設,導致有多數交互作用項的模型值得存疑。但其實這不是交互作用項統計上的問題,而是資料分配本身的不健全,自然garbage in garbage out。這些問題同樣會發生在一般的變數,只是交互作用項往往特別容易發生。
另外,在文末我有附上一些讀者閱讀這篇文章收到的回應,以及釐清一些誤解。
- 何謂調節變數與交互作用項
不過在開始使分享論文前,究竟什麼是交互作用項?一般的複迴歸模型可能是Y=X1+X2,我們希望透過X1、X2去解釋Y。像是左下圖片的例子,我們知道受教育年數越多、男性,平均而言會有比較高的工作收入。但是不同的教育程度,對男/女的效果一樣嗎?男性除了原本的優勢,會不會在高等教育階段,還能額外獲得更多錢呢?這時候就需要交互作用項,交互作用項就像一個「效果閥」,當這個閥開啟時,會放大(或是縮小)其他變數的效果。
這時,性別不僅是自變數,還是個「有調節作用的自變數」(調節變數)。而有調節變數的模型則會變成Y=X1+X2+X1*X2。
- 本文的討論範圍
這篇文章針對的是自變數或調節變數至少一個為「連續變數」的模型做討論,如果自變數與調節變數都是0 or 1這種dummy variable、binary variable的形態,較不容易發生錯誤估計導致假相關的問題。因此,以下討論都是針對自變數或調節變數至少一個為「連續變數」的模型。
- 交互作用模型的常見問題
一個典型的交互作用模型如下。
依變數Y =截距α + β1自變數X +β2調節變數D +β3自變數X*調節變數D +控制變數β +殘差ε
在開頭點出兩個交互作用模型常出現的問題。
再來,交互作用模型在理想上要滿足兩個條件,而且要注意的是,這兩個狀況,經常都是連動發生的:
1.在D調節效果下的X,觀察值數量要足夠。
2.在D調節效果下的X,仍要保有變異性。
這兩個條件若不符合,常常會讓交互作用的估計出問題,不過它們聽起來有一點抽象,以下我用視覺化的方式說明。
首先,「在D調節效果下的X,觀察值數量數要足夠。」,如果今天調節變數是「性別」,D調節效果下的X仍有一半左右的觀察值數量能夠對Y進行估計,是很足夠的;但是今天調節變數若是比例很稀少的「原住民」,在估計上就會有危險。
再來,「在D調節效果下的X,仍要保有變異性。」,同樣的我們可以看到,兩性在每個受教育年數的分配不致於差太多,變異性很足夠;但是如果調節變數是「是否為公務員」,公務員通常就是個高教育程度的群體,因此「是公務員」調節下的教育程度,缺乏變異。也會對Y的估計有危機。
- 檢驗方法
作者設計可以同時檢驗這兩個問題的簡單方法──Binning Estimator──他把X切三等份,各組的X與D各自做交互作用,並分別檢視各組Y的估計值。作者有把Binning Estimator寫成R的套件"interflex",只要把模型條件輸入,就可以跑出下面視覺化的圖片了。
下面的是作者自己模擬的模型,圖解釋如下:
1.L,M,H就是將X分依大小為三組。
2.這個範例調節變數D是一個binary variable。
3.圖片上的回歸線,是原始迴歸模型交互作用項的迴歸線。
4.X軸上直方圖紅色部分,是D調節開啟下的X變數的分配。
5.dot與error bar是L,M,H各組D對X調節下,所估計出來的Y。
6.dot坐落的x軸位置,是D調節開啟下各組X的中位數。
另外,作者L,M,H三組對Y的估計是平均數,而非一般線性迴歸模型慣用的邊際效果;且分三組,樣本數變小、標準誤肯定被放大,這標準一定是較嚴苛的。基本上我認為L組跟H組有達到顯著差異,且L,M,H三組有線性變化趨勢,我就覺得這是個良好的交互作用模型。
※關於dot的分群估計,用個實務上的比方,它有點像是把連續變量的「受教育年數」分成類別變數的「三等份教育程度」。有在玩模型應該能理解這個意思XD。
作者在文章中還有開發另一個估計方法「Kernel Estimator」,方法上複雜很多,我也看不太懂數學公式,不過很有smooth regression跟local estimator的味道。
- 這個方法的好處
使用這個方法,X的分配、調節下X的分配、調節是否為線性效果,就能夠清楚的看出來的。
下面這個是「非常完美」的模型。
![]() |
擷取自Hainmueller(2018: 40) |
下面這個模型的主要問題是:D調節下的X缺乏變異。D調節效果開啟時,X的範圍僅在L組,M、H根本沒有X的存在。
![]() |
擷取自Hainmueller(2018: 40) |
下面這個模型的主要問題是:極端值、嚴重偏態。L,M組只佔了X軸20%的range。
下面這個模型的主要問題是:調節效果非線性。
論文洋洋灑灑列了22篇論文、46個模型,結果簡直慘不忍睹。
- 解決方案
作者的建議很簡單,在建立模型前,就該好好注意變數分配情形,並且善用他發明的檢驗工具。確實,其實以上的交互作用項出問題,也是在一般變數會發生的問題,只是交互作用項的複雜性,讓這些問題更容易發生、被放大。
- 方法上的限制
目前作者發明的Binning Estimator,只能用在Y為連續變數的模型上,不過這在個體資料中其實不常有。我想這篇paper若是真的引起軒然大波,很快的for Logistic的套件也會被開發出來。
- Q/A
A:我看到滿多人分享這篇文章,然後說「量化研究的盲點」。我認為這不是量化研究的盲點,這篇文章主要的工作在揭示「迴歸分析交互作用項的預設」。不要看了我的開頭說七成模型無法通過檢驗,就覺得量化研究不可信。這篇文章反而是說明量化研究是有前提的,在前提成立的情況下,研究才可靠可信。
該論文主要說明連續變數的交互作用幾個前提:1.線性調節效果 2.調節下的觀察個數足夠 3.調節下的變異性足夠。
事實上所有量化研究都有前提預設,像是OLS迴歸至少就有變異性、i.i.d.、共變數獨立、E(ε)=0等等諸多前提。簡單的迴歸預設多數人都概念,但是交互作用較為複雜,往往沒被注意到。
什麼是量化研究的盲點?我認為像是量化研究無法處理特例、個人經驗,那才稱得上盲點。
Q:為何論文挑選22篇?怎麼那麼少?摘櫻桃嗎?
A:該論文提供的檢驗方法有幾個限制:1.依變數為連續變數 2.自變數與調節變數至少一個為連續變數。個體資料的研究,這兩個幾乎限制幾乎可以扣掉90%的論文,並且剩下10%,又要是近年發表的政治學頂級期刊,論文數自然不多。
順帶一提,有趣的是,作者說他們在分析時,都有跟每篇論文的作者打過招呼,以示尊重。
※論文若有錯讀,敬請指正。英文程度普通,很多地方看得不是那麼明白,只能靠自己的認知理解。
參考資料:
Hainmueller, J., Mummolo, J., & Xu, Y. , 2018, How Much Should We Trust Estimates from Multiplicative Interaction Models? Simple Tools to Improve Empirical Practice. Political Analysis, forthcoming.
※第三作者徐軼青已經在5/28與6/4分別在台大與中山演講,「我們應多麼信賴交互作用模型?改善經驗實踐的簡單方法」、「關於調節變數,我們以為對的可能都做錯了」
現在才看到這篇猛文
回覆刪除