上廁所看統計: 滾雪球抽樣能夠估計母體？

「你這滾雪球抽樣，可能總同一群人，難以了解更異質的群體……」「滾雪球如果一開始找到錯的人，一路滾下去就會出問題……」質性研究在針對社會邊緣人士、次團體進行訪談時，因為研究對象難以接觸，經常會以滾雪球的方式徵詢受訪者。許多人認為會是滾雪球面臨的問題，滾出來的人經常差異不大。

但事實上，統計學家、社會網絡學家，早已對滾雪球做過不少研究（學術上通常稱之RDS, Respondent-Driven Sampling）。只要符合一些假定，不論一開始找誰滾雪球，在數波滾雪球後，樣本分配會趨近於平衡，甚至可以反應母體分配。

這是為什麼呢？

秀術語的回答：

因為滾雪球的過程基本上是個Markov chain(馬可夫鏈)，而最終必然會達到Markov equilibrium(馬可夫均衡)。

白話文的回答：

滾雪球的過程，必然有一定的機率，滾到與上一個受訪者異質的人──換個類似的概念，只中獎機率不為0，抽到最後仍會中獎──而這個「特性A者滾到特性B者」的過程，就是Markov chain中transition的概念。
如果把滾雪球過程，所有特性滾出的機率都找出來，就是個Markov transition matrix。在經過數次的轉換後，每種特性的人被找到的機率累積，會趨於均衡。

這樣講還是很抽象吧。我們就來假設個transition matrix。就假設這個特性是「政黨認同(partisanship)」好了，有國民黨、民進黨、時代力量、無認同，這四種人。

該表的機制是：
1. 假設母體分配為20%, 25%, 10%, 45%。
2. 有50%的人，會直接尋找與自己同政黨偏好的人；剩餘的50%則不依據政黨偏好找人。

因此，以國民黨的人為例，50%會直接找偏好國民黨的人；而另外那不會的50%，找到的人的政黨，則會反應母體的政黨分布，因為是隨機的。因此可以計算出國民黨找國民黨的機率是：0.5+(1-0.5)*0.2=0.6。其餘這政黨的人機制相同。

被提名者受訪者	國民黨	民進黨	時代力量	無認同
國民黨	60%	13%	5%	23%
民進黨	10%	63%	5%	23%
時代力量	10%	13%	55%	23%
無認同	10%	13%	5%	73%

接下來我就做個模擬，條件是：受訪者每次提供兩位滾雪球樣本。這2位中，有一半的機率只有1位會繼續提供受訪者。滾出15波樣本。

那麼，滾雪球的起頭，如果分別是四種不同的政黨，滾完15波後會發生什麼事情？答案是不管起頭是誰，最後滾出的累積樣本分布都相同！

這意味著什麼？「滾雪球如果一開始找到錯的人，一路滾下去就會出問題……」的問題，只要滾雪球方法上嚴謹，就不會存在。因此，滾雪球抽樣最重要的並非「一開始選誰」，而是抽樣過程如何增加Markov transition matrix的轉換率。

那麼這個模擬有背後有什麼假定？首先，前面說到「有50%的人，會直接尋找與自己同政黨偏好的人」這個同政黨自我繁殖的過程(inbreeding bias)，在每個政黨中必須相同。假如國民黨比較內聚，有70%直接找同政黨的；但民進黨只有50%，最終的平衡與母體之間就會產生偏誤，需要進行校正。（校正的方程式非常複雜，就不放上來嚇人了）。

另外，最重要的就是滾雪球必須一直滾下去，才有可能達到Markov equilibrium，但這在實務上有一定難度，尤其質性訪談。

RDS在Heckathorn(1997) 發表研究後，陸續有越來越多估計模型被發明出來，他們各自的假設以及優缺點，也沒哪種估計母體的方式最好。

RDS強大在於針對「社會邊緣人士」、「次團體」等難以機率抽樣的群體，提供了一個很好的研究管道與估計方法；尤其在公衛領域，已經使用這個方法做了許多疾病、吸毒等研究。

參考資料
Heckathorn, Douglas D. 1997. “Respondent-Driven Sampling: A New Approach to the Study of Hidden Populations.” Social Problems 44(2):174–99.
Heckathorn, Douglas D. and Christopher J. Cameron. 2017. “Network Sampling: From Snowball and Multiplicity to Respondent-Driven Sampling.” Annual Review of Sociology 43(1):101–19.

2018年9月22日星期六

滾雪球抽樣能夠估計母體？

沒有留言:

張貼留言

2018年9月22日 星期六

滾雪球抽樣能夠估計母體？

沒有留言:

張貼留言

2018年9月22日星期六