傾向得分匹配法是一種研究方法,,它在研究某項(xiàng)治療,、政策,、或者其他事件的影響因素上很常見。對(duì)于經(jīng)濟(jì),、金融學(xué)領(lǐng)域來說,,比如需要研究某個(gè)勞動(dòng)者接受某種高等教育對(duì)其收入的影響,或者比如研究某個(gè)企業(yè)運(yùn)用了某項(xiàng)管理層激勵(lì)措施以后對(duì)企業(yè)業(yè)績的影響,。如果我們簡(jiǎn)單地將是否執(zhí)行了某項(xiàng)時(shí)間作為虛擬變量,,而對(duì)總體進(jìn)行回歸的話,參數(shù)估計(jì)就會(huì)產(chǎn)生偏誤,,因?yàn)樵谶@樣的情況下,,我們只觀察到了某一個(gè)對(duì)象他因?yàn)榘l(fā)生了某一事件后產(chǎn)生的表現(xiàn),并且拿這種表現(xiàn)去和另一些沒有發(fā)生這件事情的其他對(duì)象去做比較,。這樣的比較顯然是不科學(xué)的,,因?yàn)楸容^的基礎(chǔ)并不同。
通俗地說,,我們真正要做的是考慮,,如果拿小明來說,小明讀了研究生和小明沒有讀研究生,,他的收入會(huì)差多少,?可是小明已經(jīng)讀了研究生,我怎么才能估計(jì)出他要是不讀研究生,,他的收入會(huì)是多少呢,? 于是,我們引入“傾向得分匹配”這樣一種研究方法,。英文叫Propensity Score Matching,。這種方法能讓我們從一大堆沒有參加培訓(xùn)的人群中(也就是我們的總體樣本的一個(gè)子集),對(duì)每個(gè)人讀研究生的概率進(jìn)行估計(jì),,然后選出和小明具有非常相似的去讀研究生的概率,,可是沒有去讀的同學(xué)小剛——作為小明的對(duì)照,然后再來看他們的區(qū)別,。當(dāng)樣本中的每個(gè)研究生”小明“都找到了匹配的非研究生”小剛“,,我們便能對(duì)這兩組樣本進(jìn)行比較研究了。 1. 所以第一步,,我們要對(duì)總體樣本執(zhí)行probit或者logit模型,,然后估計(jì)出每一個(gè)觀測(cè)對(duì)象讀研究生的概率是多少。以probit模型為例,,在stata中,,執(zhí)行以下命令:
probit [dependent var] [independent var] 其中,[dependent var]是一個(gè)0或1的二進(jìn)制變量,1代表該對(duì)象讀了研究生,,否則是0,。 2. 對(duì)每一個(gè)觀測(cè)值,我們根據(jù)估計(jì)出來的probit模型,,算出他讀研究生的概率是多少,。Stata中,執(zhí)行如下命令:
predict pscore, p 其中,,pscore是定義的記錄每個(gè)觀測(cè)對(duì)象概率的變量名稱,。 3. 使用psmatch2命令,讓Stata幫你對(duì)于每個(gè)讀了研究生的觀測(cè)對(duì)象,,找出一個(gè)與之具有最接近的概率值的,,可是沒有讀研究生的觀測(cè)對(duì)象: psmatch2 [dependent var], pscore(pscore) noreplacement 其中,(pscore)是在第二步中生成的那個(gè)記錄對(duì)象概率的變量,,noreplacement是一個(gè)選項(xiàng),,使得任何讀了研究生的觀察對(duì)象的對(duì)照對(duì)象都具有唯一性,換言之,,只能1對(duì)1匹配,。 4. Stata會(huì)在你的數(shù)據(jù)中自動(dòng)添加幾個(gè)變量,其中_id是自動(dòng)生成的每一個(gè)觀測(cè)對(duì)象唯一的ID,;_treated表示某個(gè)對(duì)象是否讀了研究生,,如果讀了,_n表示的是他被匹配到的對(duì)照對(duì)象的_id,;_pdif表示一組匹配了的觀察對(duì)象他們概率值的差,。 做好了這些,你就完成了一個(gè)最簡(jiǎn)單的1對(duì)1的傾向得分匹配,。psmatch2還提供多種匹配方法,,比如在一定的半徑范圍內(nèi)的臨近匹配、在一定概率閥值內(nèi)的全部匹配等等,。具體的可以在Stata中輸入help psmatch2查看所有可用的選項(xiàng),。 Help for psmatch2BlogNo.30 |
|