Stata: 斷點(diǎn)回歸 (RDD) 教程

萌糍粑 2020-01-01

展開(kāi)全文

作者：張子楠 (浙江財(cái)經(jīng)大學(xué))
E-mail: [email protected]

Stata連享會(huì) 計(jì)量專題 || 公眾號(hào)合集

點(diǎn)擊查看完整推文列表

連享會(huì)直播：我的特斯拉—實(shí)證研究設(shè)計(jì)(連玉君主講)
課程主頁(yè)：https:///arlionn/Live

1. RDD基本原理
2. 圖形觀察

2.1 生成模擬數(shù)據(jù)
2.2 斷點(diǎn)效應(yīng)的圖形觀察

3. 政策效應(yīng)估計(jì)

3.1 局部線性回歸
3.2 局部多項(xiàng)式回歸
3.3 全局多項(xiàng)式回歸

4. RDD有效性檢驗(yàn)

4.1 局部平滑性的檢驗(yàn)
4.2 驅(qū)動(dòng)變量不受人為控制的檢驗(yàn)

5. 穩(wěn)健性檢驗(yàn)

5.1 斷點(diǎn)的安慰劑檢驗(yàn)
5.2 樣本選擇的敏感性檢驗(yàn)
5.3 帶寬選擇的敏感性檢驗(yàn)

1. RDD基本原理

斷點(diǎn)回歸分析被認(rèn)為是最接近隨機(jī)實(shí)驗(yàn)的檢驗(yàn)方法,，能夠緩解參數(shù)估計(jì)的內(nèi)生性問(wèn)題，近來(lái)在越來(lái)越多的研究中得到使用?，F(xiàn)有資料已經(jīng)對(duì)斷點(diǎn)回歸方法的基本原理和效應(yīng)識(shí)別進(jìn)行了較為廣泛的介紹,，但對(duì)階數(shù)選擇和穩(wěn)健性檢驗(yàn)等問(wèn)題的仍相對(duì)較少涉及。本文將基于Stata軟件來(lái)系統(tǒng)介紹斷點(diǎn)回歸方法的圖形觀測(cè),、效應(yīng)識(shí)別和有效性和穩(wěn)健性檢驗(yàn),。限于篇幅，本文將內(nèi)容限定于清晰斷點(diǎn)回歸方法（Sharp Regression Discontinuity Design ）,，且只考慮只有一個(gè)斷點(diǎn)和一個(gè)分配變量的問(wèn)題。

2. 圖形觀察

2.1 生成模擬數(shù)據(jù)

我們先生成一份模擬數(shù)據(jù),，并保存為 RDD_simu_data0 ,。生成的數(shù)據(jù)中， z1 和 z2 為控制變量,。y1 為結(jié)果變量（outcome variable）,。x 為分配變量（assignment vaiable）。分配點(diǎn)（cutoff point）設(shè)定為 0.5 ,，從而x大于0.5 的為實(shí)驗(yàn)組,，小于0.5的為對(duì)照組,。

此外，在RDD檢驗(yàn)中,，我們通常還會(huì)對(duì)分配變量進(jìn)行去中心化處理,，即用分配變量減去分配點(diǎn)值。如本文中,，令 xc=x-0.5 ,。進(jìn)而 xc 大于 0 的位實(shí)驗(yàn)組，反之為對(duì)照組,。

本部分的相應(yīng)代碼如下：

	clear all
	global dir d:/RDDStata
	capture mkdir $dir
	cd $dir
	
	set obs 4000
	set seed 123
	
	gen x = runiform()     //分配變量
	gen xc = x-0.5  //分配變量去中心化

	gen e = rnormal()/5    // noise
	gen z1 = rnormal()*0.5  //控制變量
	gen z2=1+3*invnormal(uniform())+sin(x*5)/3+e  //另一個(gè)控制變量
	
	gen T=0
	replace T=1 if x>0.5   //treatment
	
	gen g0 = 0 + 3*log(x+1) + sin(x*6)/3
	gen g1 = T + 3*log(x+1) + sin(x*6)/3
	gen y1 = g1 + 0.5*z1 +0.3*z2+ e   // outcome vaiable,，with cutoff effect
	gen y0 = g0 + 0.5*z1 +0.3*z2+ e  // outcome variable, without cutoff effect

	label var y1 'Outcome variable (y)'
    label var y0 'Outcome variable (y)'
	label var x  'Assignment variable (x)'
	label var xc 'Centered Assignment variable (x-c)'
	label var T  'T=1 for x>0.5, T=0 otherwise'
	
	drop e g*
	
	save 'RDD_simu_data0.dta', replace  //保存一份數(shù)據(jù)以備后用

2.2 斷點(diǎn)效應(yīng)的圖形觀察

使用 RDD 方法檢驗(yàn)時(shí)，首先要確定結(jié)果變量在分配點(diǎn)存在跳躍現(xiàn)象,，也即存在斷點(diǎn)效應(yīng),。可以用散點(diǎn)圖來(lái)觀察,。下圖中給出了不存在斷點(diǎn)效應(yīng)和存在斷點(diǎn)效應(yīng)兩種情況,。如下圖所示，右側(cè)圖的結(jié)果變量y在分配點(diǎn)0.5處一個(gè)相對(duì)較為明顯的跳躍,，說(shuō)明可能存在斷點(diǎn)效應(yīng),。

本部分相應(yīng)代碼如下：

use 'RDD_simu_data0.dta', clear

twoway (scatter y0 xc, msymbol(+) msize(*0.4) mcolor(black*0.3))  ,   title('無(wú)斷點(diǎn)')
graph save y0,  replace
twoway (scatter y1 xc, msymbol(+) msize(*0.4) mcolor(black*0.3))  ,   title('有斷點(diǎn)')
graph save y1, replace

graph  combine y0.gph y1.gph, row(1)

但用散點(diǎn)圖來(lái)觀察存在兩個(gè)問(wèn)題：一是樣本太多時(shí)不夠直觀，二是實(shí)際分析時(shí)中跳躍現(xiàn)象可能不那么清晰,。為此,，我們可以利用擬合方法，對(duì)分配點(diǎn)左右分別擬合,，通過(guò)觀察兩側(cè)擬合線的的差異來(lái)更容易推測(cè)跳躍現(xiàn)象是否發(fā)生RDD分析里提供了rdplot命令處理這項(xiàng)工作,。下圖中分別列出了利用散點(diǎn)圖、 rdplot 命令 + 線性擬合,、 rdplot命令 + 二階多項(xiàng)式擬合圖和rdplot命令 + 三階多項(xiàng)式擬合圖的結(jié)果,。

本部分相應(yīng)代碼如下。其中 rdplot 命令中,， c() 選項(xiàng)表示斷點(diǎn)位置,，不設(shè)定則默認(rèn)為 0 。p() 選項(xiàng)表示擬合的階數(shù),。

use 'RDD_simu_data0.dta', clear

twoway (scatter y1 xc, msymbol(+) msize(*0.4) mcolor(black*0.3)),   title('散點(diǎn)圖')
graph save scatter.gph,  replace
rdplot y1 xc, c(0) p(1) graph_options(title(線性擬合)) // 線性擬合圖
graph save rd1,  replace
rdplot y1 xc, c(0) p(2) graph_options(title(二次型擬合))//二次型擬合圖
graph save rd2,  replace
graph  combine scatter.gph  rd1.gph rd2.gph

3. 政策效應(yīng)估計(jì)

3.1 局部線性回歸

使用局部線性回歸法,，是假定在斷點(diǎn)鄰域中的處理效應(yīng)為線性，通過(guò)在左右兩側(cè)鄰域分別進(jìn)行線性回歸并比較兩側(cè)回歸系數(shù)差異來(lái)進(jìn)行識(shí)別,。局部回歸檢驗(yàn)的一個(gè)重要環(huán)節(jié)在于斷點(diǎn)鄰域大小的選擇,，也即 RDD 分析里帶寬選擇（bandwidth selection）的權(quán)衡問(wèn)題。這是因?yàn)閹捲酱?，則意味著有越多的樣本被納入檢驗(yàn)中,，參數(shù)估計(jì)更準(zhǔn)確,，但也意味著樣本隨機(jī)性要求越難滿足，內(nèi)生性問(wèn)題可能更嚴(yán)重,。

本文中斷點(diǎn)xc的鄰域?yàn)?([xc-h1,xc+h2]) ,， h1 和 h2 分別為左右兩側(cè)帶寬。h1和h2可以相等,，也可以不等,。在斷點(diǎn)分析中，可進(jìn)行局部線性斷點(diǎn)回歸的命令有 rd,、rdrobust 和 rdcv 三個(gè)命令,。這三個(gè)都會(huì)自動(dòng)給出該命令下最優(yōu)帶寬。本部分相應(yīng)代碼如下,。

//由于rdc命令回歸較為耗時(shí),，本文僅隨機(jī)抽取模擬數(shù)據(jù)中10%的觀察值來(lái)演示。
use 'RDD_simu_data0.dta', clear
set matsize 2000
set seed 135
sample 10          //隨機(jī)抽取10%的觀察值
rdplot y1 xc, c(0) //檢測(cè)一下,，看看數(shù)據(jù)特征是否發(fā)生明顯變化

// 不同局部線性斷點(diǎn)回歸命令			
rd   y1 xc, c(0)
rdrobust y1 xc, c(0) p(1)
rdcv y1 xc, thr(0) deg(1)

比較三個(gè)命令的回歸結(jié)果,，可以發(fā)現(xiàn)回歸系數(shù)分別為 0.982,0.978和0.978 ，不同命令的系數(shù)結(jié)果基本一致,。對(duì)于最優(yōu)帶寬選擇,，三個(gè)命令下分別為 0.208，0.187和0.2 ,，十分接近,。

此外， rd 命令不僅給出了最優(yōu)帶寬,，還同時(shí)給出了帶寬取最優(yōu)帶寬50%和200%的回歸結(jié)果,。觀察 rd 命令結(jié)果可發(fā)現(xiàn)，50%,、100%和200%帶寬下回歸系數(shù)也較為接近,，分別為 0.954,0.982和0.954 ?？芍M數(shù)據(jù)的清晰斷點(diǎn)回歸結(jié)果對(duì)帶寬選擇并不敏感,，這也表明回歸結(jié)果是穩(wěn)健的。

3.2 局部多項(xiàng)式回歸

線性假設(shè)可能會(huì)錯(cuò)誤估計(jì)了斷點(diǎn)左右的回歸系數(shù),，我們可以采取非線性擬合的辦法進(jìn)行彌補(bǔ),，即使用局部多項(xiàng)式斷點(diǎn)回歸方法。上文介紹的 rd,、rdrobust和rdcv 三個(gè)命令，同樣可以用于局部多項(xiàng)式斷點(diǎn)回歸分析,。本部分相應(yīng)代碼如下：

use 'RDD_simu_data0.dta', clear

rdrobust y1 xc  //自動(dòng)選擇階數(shù)
rdrobust y1 xc, p(2) //二階擬合
rdrobust y1 xc, p(3) //三階擬合

對(duì)于局部多項(xiàng)式斷點(diǎn)回歸,，關(guān)鍵問(wèn)題之一在于階數(shù)的選擇,。我們利用赤池信息準(zhǔn)則（Akaike Information Criterion，AIC）和貝葉斯信息準(zhǔn)則（Bayesian Information Criterion,，BIC） ,，選擇不同階數(shù)回歸中AIC或BIC信息準(zhǔn)則小的值。本文采用連玉君 Stata 培訓(xùn)班介紹的方法,，結(jié)合 rdcv 命令來(lái)選擇階數(shù),。

	*---------------------------------myic-----------------------
		 program define myic
		 version 13
		   qui estat ic
		   mat a = r(S)
		   estadd scalar AIC = a[1,5]
		   estadd scalar BIC = a[1,6]
		 end
		*---------------------------------myic------------------
		*-Note: 調(diào)用自定義程序myic的方法為選中上述代碼，按快捷鍵 Ctrl+R, 將程序讀入內(nèi)存


    use 'RDD_simu_data0.dta', clear
    set matsize 2000
    set seed 135
    sample 10          //rdcv回歸較為耗時(shí),，僅隨機(jī)抽取10%的觀察值來(lái)演示,。
    
#d ;
    rdcv y1 xc, thr(0) deg(1);		myic;   est store m1;
    rdcv y1 xc, thr(0) deg(2);		myic;   est store m2;
    rdcv y1 xc, thr(0) deg(3)  ;	myic;   est store m3;
#d cr    // #d 表示 #delimit

*-對(duì)比回歸結(jié)果
	local m 'm1 m2 m3'
	esttab `m', mtitle(`m') b(%6.3f) t(%6.3f)  ///
		    s(N r2 r2_a AIC BIC) nogap compress

回歸結(jié)果的 AIC 和 BIC 信息如下表格所示，我們會(huì)選擇 m2 ,，即認(rèn)為二次型擬合是最優(yōu)的,。

	線性	二次型	三次型
AIC	761.160	446.327	819.628
BIC	775.494	464.740	849.097

3.3 全局多項(xiàng)式回歸

全局多項(xiàng)式回歸是使用了樣本里所有數(shù)據(jù)來(lái)進(jìn)行多項(xiàng)式回歸。這在方法上,，等價(jià)于局部回歸分析里將左右?guī)捲O(shè)置為分配變量的最小值和最大值,。從而可以同樣用上述命令來(lái)分析。需要注意的是,，由于使用了全部樣本,，全局?jǐn)帱c(diǎn)回歸分析可能存在較為嚴(yán)重的內(nèi)生性問(wèn)題。本部分相應(yīng)代碼如下：

			   
use 'RDD_simu_data0.dta', clear
sum xc
 local hvalueR=r(max)
 local hvalueL= abs(r(min))
 
rdrobust y1 xc,   h(`hvalueL'  `hvalueR') //自動(dòng)選擇階數(shù)
rdrobust y1 xc,   h(`hvalueL'  `hvalueR') p(2) //二階擬合
rdrobust y1 xc,   h(`hvalueL'  `hvalueR') p(3) //三階擬合

連享會(huì)計(jì)量方法專題……,，https:///arlionn/Course

4. RDD有效性檢驗(yàn)

4.1 局部平滑性的檢驗(yàn)

對(duì)于局部平滑假設(shè),，是指除了結(jié)果變量，所有所有其它變量在斷點(diǎn)附近都不應(yīng)該存在處理效應(yīng),，也即沒(méi)有出現(xiàn)跳躍現(xiàn)象,。在檢驗(yàn)方法上，我們可以利用圖形直接觀察,，也可以將每一個(gè)協(xié)變量作為安慰劑結(jié)果變量 (placebo outcomes) ,，使用斷點(diǎn)回歸方法進(jìn)行檢驗(yàn)。

本部分圖形檢驗(yàn)和回歸檢驗(yàn)的代碼如下：

use 'RDD_simu_data0.dta', clear
		
rdplot y1 xc  graph_options(title(z1平滑性檢驗(yàn)))
	graph save rdz1_smooth,  replace
rdplot z2 xc  graph_options(title(z2平滑性檢驗(yàn)))/
    graph save rdz2_smooth,  replace

graph  combine rdz1_smooth.gph   rdz2_smooth.gph,    title('變量z1 & z2的平滑性檢驗(yàn)')

// 從圖形,，似乎是存在跳躍的,，但這并不嚴(yán)格，要看回歸結(jié)果
rdrobust z1 xc
rdrobust z2 xc

兩個(gè)回歸結(jié)果的p值分別 0.399 和 0.741 ,，說(shuō)明不能拒絕不存在斷點(diǎn)的假設(shè),，可知局部平滑假設(shè)滿足。

4.2 驅(qū)動(dòng)變量不受人為控制的檢驗(yàn)

檢驗(yàn)的思路在于,，如果不存在人為操控,，那么在斷點(diǎn)附近樣本的數(shù)量應(yīng)該相近，才符合隨機(jī)性,。我們可以用 rddensity 命令來(lái)檢驗(yàn)斷點(diǎn)兩側(cè)樣本數(shù)量是否相近,。本部分相應(yīng)代碼如下所示,，回歸結(jié)的 p 值為 0.195 ，不能拒絕斷點(diǎn)附近兩測(cè)樣本量大致相等的假設(shè),，可知驅(qū)動(dòng)變量不受人為控制的假設(shè)滿足,。

use 'RDD_simu_data0.dta', clear
		
rdrobust y1 xc
local h = e(h_l)   //獲取最優(yōu)帶寬
rddensity xc, p(1) hl(`h') hr(`h')

5. 穩(wěn)健性檢驗(yàn)

5.1 斷點(diǎn)的安慰劑檢驗(yàn)

穩(wěn)健性檢驗(yàn)的一個(gè)自然而然的思路在于選擇一個(gè)不同于斷點(diǎn)的值作為安慰劑斷點(diǎn) (placcebo cutoff points) 。如果斷點(diǎn)回歸結(jié)果變得不顯著,，則表明斷點(diǎn)的真實(shí)性,。相應(yīng)代碼分別取真實(shí)斷點(diǎn)兩側(cè) 20%、40%,、60% 和 80% 樣本分位數(shù)處作為斷點(diǎn),。作為對(duì)比，我們也放入了真實(shí)斷點(diǎn)在圖形里,。如下圖所示,，五個(gè)placebo cutoffs 的回歸系數(shù)都不顯著異于0，從而在這些點(diǎn)處不存在處理效應(yīng),。

本部分相應(yīng)代碼如下：


use 'RDD_simu_data0.dta', clear
 sum xc
 local xcmax=r(max)
 local xcmin= r(min)

forvalues i=1(1)4{
local jr=`xcmax'/(`i'+1)
local jl=`xcmin'/(`i'+1)
rdrobust y1 xc if xc>0,c(`jr')
estimates store jl`i'
rdrobust y1 xc if xc<0,c(`jl')
estimates store jr`i'
}

//加上真實(shí)斷點(diǎn)的回歸結(jié)果,，作為benchmark結(jié)果
rdrobust y1 xc ,c(0)
estimates store jbaseline

//輸出圖形
local vlist 'jl1 jl2 jl3 jl4 jbaseline jr4 jr3 jr2 jr1  '
coefplot `vlist'  ,  yline(0) drop(_cons) vertical

連享會(huì)計(jì)量方法專題……，https:///arlionn/Course

5.2 樣本選擇的敏感性檢驗(yàn)

由于越接近斷點(diǎn)的樣本,，越有動(dòng)機(jī)去人為操控,，我們刪除最接近斷點(diǎn)的樣本，來(lái)觀察回歸是否顯著（甜甜圈效應(yīng), donut hole approach ）,。如果仍舊存在,，說(shuō)明即使存在人為操控，斷點(diǎn)效應(yīng)仍舊存在,。下面代碼里,，我們分別刪除了斷點(diǎn)附近 5%，10%,，15%,，25% 和 30% 的樣本，進(jìn)行了 6 組穩(wěn)健性檢驗(yàn),。圖形給出了回歸系數(shù)和 95% 的置信區(qū)間,。可知,，在刪除 20% 及以下時(shí),，回歸結(jié)果都保持顯著。

本部分相應(yīng)代碼如下：


use 'RDD_simu_data0.dta', clear
sum xc
local xcmax=r(max)

forvalues i=1(1)6{
local j=`xcmax'*0.05*`i'
rdrobust y1 xc if abs(xc)>`j'
estimates store obrob`i'
}

//輸出圖形
local vlist 'obrob1 obrob2 obrob3 obrob4 obrob5 obrob6  '
coefplot `vlist' , yline(0) drop(_cons) vertical

5.3 帶寬選擇的敏感性檢驗(yàn)

帶寬長(zhǎng)度會(huì)顯著影響回歸結(jié)果,，一個(gè)穩(wěn)健的結(jié)果要求對(duì)帶寬長(zhǎng)度不那么敏感,。下面代碼里，我們先通過(guò)rdrobust命令提取最優(yōu)帶寬h，然后分別手動(dòng)設(shè)置帶寬為 h 的 25%-400% 倍,，看回歸結(jié)果是否仍舊顯著,。圖形給出了回歸系數(shù)和95%的置信區(qū)間?？芍谧顑?yōu)帶寬 25%-400% 范圍內(nèi),，回歸結(jié)果保持顯著,，說(shuō)明結(jié)論較為可靠。

本部分相應(yīng)代碼如下：

use 'RDD_simu_data0.dta', clear
rdrobust y1 xc     //自動(dòng)選擇最優(yōu)帶寬
local h = e(h_l)   //獲取最優(yōu)帶寬

forvalues i=1(1)8{
local hrobust=`h'*0.25*`i'
rdrobust y1 xc ,h(`hrobust')
estimates store hrob`i'
}

//輸出圖形
local vlist 'hrob1 hrob2 hrob3 hrob4 hrob5 hrob6 hrob7 hrob8  '
coefplot `vlist'  ,  yline(0) drop(_cons) vertical

關(guān)于我們

Stata連享會(huì) 由中山大學(xué)連玉君老師團(tuán)隊(duì)創(chuàng)辦,，定期分享實(shí)證分析經(jīng)驗(yàn),。
歡迎賜稿： 歡迎賜稿至[email protected]。錄用稿件達(dá) 三篇以上,，即可 免費(fèi) 獲得一期 Stata 現(xiàn)場(chǎng)培訓(xùn)資格,。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：萌糍粑 > 《方法概論》

舉報(bào)/認(rèn)領(lǐng)