2018年9月22日 星期六

滾雪球抽樣能夠估計母體?


「你這滾雪球抽樣,可能總同一群人,難以了解更異質的群體……」「滾雪球如果一開始找到錯的人,一路滾下去就會出問題……」質性研究在針對社會邊緣人士、次團體進行訪談時,因為研究對象難以接觸,經常會以滾雪球的方式徵詢受訪者。許多人認為會是滾雪球面臨的問題,滾出來的人經常差異不大。

但事實上,統計學家、社會網絡學家,早已對滾雪球做過不少研究(學術上通常稱之RDS, Respondent-Driven Sampling)。只要符合一些假定,不論一開始找誰滾雪球,在數波滾雪球後,樣本分配會趨近於平衡,甚至可以反應母體分配。


這是為什麼呢?


  • 秀術語的回答:

因為滾雪球的過程基本上是個Markov chain(馬可夫鏈),而最終必然會達到Markov equilibrium(馬可夫均衡)。


  • 白話文的回答:

滾雪球的過程,必然有一定的機率,滾到與上一個受訪者異質的人──換個類似的概念,只中獎機率不為0,抽到最後仍會中獎──而這個「特性A者滾到特性B者」的過程,就是Markov chain中transition的概念。
如果把滾雪球過程,所有特性滾出的機率都找出來,就是個Markov transition matrix。在經過數次的轉換後,每種特性的人被找到的機率累積,會趨於均衡。


這樣講還是很抽象吧。我們就來假設個transition matrix。就假設這個特性是「政黨認同(partisanship)」好了,有國民黨、民進黨、時代力量、無認同,這四種人。

該表的機制是:
1. 假設母體分配為20%, 25%, 10%, 45%。
2. 有50%的人,會直接尋找與自己同政黨偏好的人;剩餘的50%則不依據政黨偏好找人。

因此,以國民黨的人為例,50%會直接找偏好國民黨的人;而另外那不會的50%,找到的人的政黨,則會反應母體的政黨分布,因為是隨機的。因此可以計算出國民黨找國民黨的機率是:0.5+(1-0.5)*0.2=0.6。其餘這政黨的人機制相同。



  被提名者
受訪者
國民黨
民進黨
時代力量
無認同
國民黨
60%
13%
5%
23%
民進黨
10%
63%
5%
23%
時代力量
10%
13%
55%
23%
無認同
10%
13%
5%
73%

接下來我就做個模擬,條件是:受訪者每次提供兩位滾雪球樣本。這2位中,有一半的機率只有1位會繼續提供受訪者。滾出15波樣本。

那麼,滾雪球的起頭,如果分別是四種不同的政黨,滾完15波後會發生什麼事情?答案是不管起頭是誰,最後滾出的累積樣本分布都相同!




這意味著什麼?「滾雪球如果一開始找到錯的人,一路滾下去就會出問題……」的問題,只要滾雪球方法上嚴謹,就不會存在。因此,滾雪球抽樣最重要的並非「一開始選誰」,而是抽樣過程如何增加Markov transition matrix的轉換率。

那麼這個模擬有背後有什麼假定?首先,前面說到「有50%的人,會直接尋找與自己同政黨偏好的人」這個同政黨自我繁殖的過程(inbreeding bias),在每個政黨中必須相同。假如國民黨比較內聚,有70%直接找同政黨的;但民進黨只有50%,最終的平衡與母體之間就會產生偏誤,需要進行校正。(校正的方程式非常複雜,就不放上來嚇人了)。

另外,最重要的就是滾雪球必須一直滾下去,才有可能達到Markov equilibrium,但這在實務上有一定難度,尤其質性訪談。

RDS在Heckathorn(1997) 發表研究後,陸續有越來越多估計模型被發明出來,他們各自的假設以及優缺點,也沒哪種估計母體的方式最好。

RDS強大在於針對「社會邊緣人士」、「次團體」等難以機率抽樣的群體,提供了一個很好的研究管道與估計方法;尤其在公衛領域,已經使用這個方法做了許多疾病、吸毒等研究。


參考資料
Heckathorn, Douglas D. 1997. “Respondent-Driven Sampling: A New Approach to the Study of Hidden Populations.” Social Problems 44(2):174–99.
Heckathorn, Douglas D. and Christopher J. Cameron. 2017. “Network Sampling: From Snowball and Multiplicity to Respondent-Driven Sampling.” Annual Review of Sociology 43(1):101–19.

沒有留言:

張貼留言