「你這滾雪球抽樣,可能總同一群人,難以了解更異質的群體……」「滾雪球如果一開始找到錯的人,一路滾下去就會出問題……」質性研究在針對社會邊緣人士、次團體進行訪談時,因為研究對象難以接觸,經常會以滾雪球的方式徵詢受訪者。許多人認為會是滾雪球面臨的問題,滾出來的人經常差異不大。
但事實上,統計學家、社會網絡學家,早已對滾雪球做過不少研究(學術上通常稱之RDS, Respondent-Driven Sampling)。只要符合一些假定,不論一開始找誰滾雪球,在數波滾雪球後,樣本分配會趨近於平衡,甚至可以反應母體分配。
這是為什麼呢?
- 秀術語的回答:
因為滾雪球的過程基本上是個Markov chain(馬可夫鏈),而最終必然會達到Markov equilibrium(馬可夫均衡)。
- 白話文的回答:
滾雪球的過程,必然有一定的機率,滾到與上一個受訪者異質的人──換個類似的概念,只中獎機率不為0,抽到最後仍會中獎──而這個「特性A者滾到特性B者」的過程,就是Markov chain中transition的概念。
如果把滾雪球過程,所有特性滾出的機率都找出來,就是個Markov transition matrix。在經過數次的轉換後,每種特性的人被找到的機率累積,會趨於均衡。
這樣講還是很抽象吧。我們就來假設個transition matrix。就假設這個特性是「政黨認同(partisanship)」好了,有國民黨、民進黨、時代力量、無認同,這四種人。
該表的機制是:
1. 假設母體分配為20%, 25%, 10%, 45%。
2. 有50%的人,會直接尋找與自己同政黨偏好的人;剩餘的50%則不依據政黨偏好找人。
因此,以國民黨的人為例,50%會直接找偏好國民黨的人;而另外那不會的50%,找到的人的政黨,則會反應母體的政黨分布,因為是隨機的。因此可以計算出國民黨找國民黨的機率是:0.5+(1-0.5)*0.2=0.6。其餘這政黨的人機制相同。
被提名者
受訪者
|
國民黨
|
民進黨
|
時代力量
|
無認同
|
國民黨
|
60%
|
13%
|
5%
|
23%
|
民進黨
|
10%
|
63%
|
5%
|
23%
|
時代力量
|
10%
|
13%
|
55%
|
23%
|
無認同
|
10%
|
13%
|
5%
|
73%
|
接下來我就做個模擬,條件是:受訪者每次提供兩位滾雪球樣本。這2位中,有一半的機率只有1位會繼續提供受訪者。滾出15波樣本。
這意味著什麼?「滾雪球如果一開始找到錯的人,一路滾下去就會出問題……」的問題,只要滾雪球方法上嚴謹,就不會存在。因此,滾雪球抽樣最重要的並非「一開始選誰」,而是抽樣過程如何增加Markov transition matrix的轉換率。
那麼這個模擬有背後有什麼假定?首先,前面說到「有50%的人,會直接尋找與自己同政黨偏好的人」這個同政黨自我繁殖的過程(inbreeding bias),在每個政黨中必須相同。假如國民黨比較內聚,有70%直接找同政黨的;但民進黨只有50%,最終的平衡與母體之間就會產生偏誤,需要進行校正。(校正的方程式非常複雜,就不放上來嚇人了)。
另外,最重要的就是滾雪球必須一直滾下去,才有可能達到Markov equilibrium,但這在實務上有一定難度,尤其質性訪談。
RDS在Heckathorn(1997) 發表研究後,陸續有越來越多估計模型被發明出來,他們各自的假設以及優缺點,也沒哪種估計母體的方式最好。
RDS強大在於針對「社會邊緣人士」、「次團體」等難以機率抽樣的群體,提供了一個很好的研究管道與估計方法;尤其在公衛領域,已經使用這個方法做了許多疾病、吸毒等研究。
參考資料
Heckathorn, Douglas D. 1997. “Respondent-Driven Sampling: A New Approach to the Study of Hidden Populations.” Social Problems 44(2):174–99.
Heckathorn, Douglas D. and Christopher J. Cameron. 2017. “Network Sampling: From Snowball and Multiplicity to Respondent-Driven Sampling.” Annual Review of Sociology 43(1):101–19.
沒有留言:
張貼留言