久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

Stata: 斷點(diǎn)回歸 (RDD) 教程

 萌糍粑 2020-01-01

作者:張子楠 (浙江財(cái)經(jīng)大學(xué))
E-mail: [email protected]

Stata連享會(huì) 計(jì)量專題  || 公眾號(hào)合集

點(diǎn)擊查看完整推文列表

連享會(huì)直播:我的特斯拉—實(shí)證研究設(shè)計(jì)(連玉君主講)
課程主頁(yè):https:///arlionn/Live

  • 1. RDD基本原理

  • 2. 圖形觀察

    • 2.1 生成模擬數(shù)據(jù)

    • 2.2 斷點(diǎn)效應(yīng)的圖形觀察

  • 3. 政策效應(yīng)估計(jì)

    • 3.1 局部線性回歸

    • 3.2 局部多項(xiàng)式回歸

    • 3.3 全局多項(xiàng)式回歸

  • 4. RDD有效性檢驗(yàn)

    • 4.1 局部平滑性的檢驗(yàn)

    • 4.2 驅(qū)動(dòng)變量不受人為控制的檢驗(yàn)

  • 5. 穩(wěn)健性檢驗(yàn)

    • 5.1 斷點(diǎn)的安慰劑檢驗(yàn)

    • 5.2 樣本選擇的敏感性檢驗(yàn)

    • 5.3 帶寬選擇的敏感性檢驗(yàn)

1. RDD基本原理

斷點(diǎn)回歸分析被認(rèn)為是最接近隨機(jī)實(shí)驗(yàn)的檢驗(yàn)方法,,能夠緩解參數(shù)估計(jì)的內(nèi)生性問(wèn)題,近來(lái)在越來(lái)越多的研究中得到使用?,F(xiàn)有資料已經(jīng)對(duì)斷點(diǎn)回歸方法的基本原理和效應(yīng)識(shí)別進(jìn)行了較為廣泛的介紹,,但對(duì)階數(shù)選擇和穩(wěn)健性檢驗(yàn)等問(wèn)題的仍相對(duì)較少涉及。本文將基于Stata軟件來(lái)系統(tǒng)介紹斷點(diǎn)回歸方法的圖形觀測(cè),、效應(yīng)識(shí)別和有效性和穩(wěn)健性檢驗(yàn),。限于篇幅,本文將內(nèi)容限定于清晰斷點(diǎn)回歸方法(Sharp Regression Discontinuity Design ),,且只考慮只有一個(gè)斷點(diǎn)和一個(gè)分配變量的問(wèn)題。

2. 圖形觀察

2.1 生成模擬數(shù)據(jù)

我們先生成一份模擬數(shù)據(jù),,并保存為 RDD_simu_data0 ,。生成的數(shù)據(jù)中, z1 和 z2 為控制變量,。y1 為結(jié)果變量(outcome variable),。x 為分配變量(assignment vaiable)。分配點(diǎn)(cutoff point)設(shè)定為 0.5 ,,從而x大于0.5 的為實(shí)驗(yàn)組,,小于0.5的為對(duì)照組,。

此外,在RDD檢驗(yàn)中,,我們通常還會(huì)對(duì)分配變量進(jìn)行去中心化處理,,即用分配變量減去分配點(diǎn)值。如本文中,,令 xc=x-0.5 ,。進(jìn)而 xc 大于 0 的位實(shí)驗(yàn)組,反之為對(duì)照組,。

本部分的相應(yīng)代碼如下:

clear all
global dir d:/RDDStata
capture mkdir $dir
cd $dir

set obs 4000
set seed 123

gen x = runiform() //分配變量
gen xc = x-0.5 //分配變量去中心化

gen e = rnormal()/5 // noise
gen z1 = rnormal()*0.5 //控制變量
gen z2=1+3*invnormal(uniform())+sin(x*5)/3+e //另一個(gè)控制變量

gen T=0
replace T=1 if x>0.5 //treatment

gen g0 = 0 + 3*log(x+1) + sin(x*6)/3
gen g1 = T + 3*log(x+1) + sin(x*6)/3
gen y1 = g1 + 0.5*z1 +0.3*z2+ e // outcome vaiable,,with cutoff effect
gen y0 = g0 + 0.5*z1 +0.3*z2+ e // outcome variable, without cutoff effect

label var y1 'Outcome variable (y)'
label var y0 'Outcome variable (y)'
label var x 'Assignment variable (x)'
label var xc 'Centered Assignment variable (x-c)'
label var T 'T=1 for x>0.5, T=0 otherwise'

drop e g*

save 'RDD_simu_data0.dta', replace //保存一份數(shù)據(jù)以備后用

2.2 斷點(diǎn)效應(yīng)的圖形觀察

使用 RDD 方法檢驗(yàn)時(shí),首先要確定結(jié)果變量在分配點(diǎn)存在跳躍現(xiàn)象,,也即存在斷點(diǎn)效應(yīng),。可以用散點(diǎn)圖來(lái)觀察,。下圖中給出了不存在斷點(diǎn)效應(yīng)和存在斷點(diǎn)效應(yīng)兩種情況,。如下圖所示,右側(cè)圖的結(jié)果變量y在分配點(diǎn)0.5處一個(gè)相對(duì)較為明顯的跳躍,,說(shuō)明可能存在斷點(diǎn)效應(yīng),。

graph1.png

本部分相應(yīng)代碼如下:

use 'RDD_simu_data0.dta', clear

twoway (scatter y0 xc, msymbol(+) msize(*0.4) mcolor(black*0.3)) , title('無(wú)斷點(diǎn)')
graph save y0, replace
twoway (scatter y1 xc, msymbol(+) msize(*0.4) mcolor(black*0.3)) , title('有斷點(diǎn)')
graph save y1, replace

graph combine y0.gph y1.gph, row(1)

但用散點(diǎn)圖來(lái)觀察存在兩個(gè)問(wèn)題:一是樣本太多時(shí)不夠直觀,二是實(shí)際分析時(shí)中跳躍現(xiàn)象可能不那么清晰,。為此,,我們可以利用擬合方法,對(duì)分配點(diǎn)左右分別擬合,,通過(guò)觀察兩側(cè)擬合線的的差異來(lái)更容易推測(cè)跳躍現(xiàn)象是否發(fā)生RDD分析里提供了rdplot命令處理這項(xiàng)工作,。下圖中分別列出了利用散點(diǎn)圖、 rdplot 命令 + 線性擬合,、 rdplot命令 + 二階多項(xiàng)式擬合圖和rdplot命令 + 三階多項(xiàng)式擬合圖的結(jié)果,。

graph2.png

本部分相應(yīng)代碼如下。其中 rdplot 命令中,, c() 選項(xiàng)表示斷點(diǎn)位置,,不設(shè)定則默認(rèn)為 0 。p() 選項(xiàng)表示擬合的階數(shù),。

use 'RDD_simu_data0.dta', clear

twoway (scatter y1 xc, msymbol(+) msize(*0.4) mcolor(black*0.3)), title('散點(diǎn)圖')
graph save scatter.gph, replace
rdplot y1 xc, c(0) p(1) graph_options(title(線性擬合)) // 線性擬合圖
graph save rd1, replace
rdplot y1 xc, c(0) p(2) graph_options(title(二次型擬合))//二次型擬合圖
graph save rd2, replace
graph combine scatter.gph rd1.gph rd2.gph

3. 政策效應(yīng)估計(jì)

3.1 局部線性回歸

使用局部線性回歸法,,是假定在斷點(diǎn)鄰域中的處理效應(yīng)為線性,通過(guò)在左右兩側(cè)鄰域分別進(jìn)行線性回歸并比較兩側(cè)回歸系數(shù)差異來(lái)進(jìn)行識(shí)別,。局部回歸檢驗(yàn)的一個(gè)重要環(huán)節(jié)在于斷點(diǎn)鄰域大小的選擇,,也即 RDD 分析里帶寬選擇 (bandwidth selection) 的權(quán)衡問(wèn)題。這是因?yàn)閹捲酱?,則意味著有越多的樣本被納入檢驗(yàn)中,,參數(shù)估計(jì)更準(zhǔn)確,,但也意味著樣本隨機(jī)性要求越難滿足,內(nèi)生性問(wèn)題可能更嚴(yán)重,。

本文中斷點(diǎn)xc的鄰域?yàn)?([xc-h1,xc+h2]) ,, h1 和 h2 分別為左右兩側(cè)帶寬。h1和h2可以相等,,也可以不等,。在斷點(diǎn)分析中,可進(jìn)行局部線性斷點(diǎn)回歸的命令有 rd,、rdrobust 和 rdcv 三個(gè)命令,。這三個(gè)都會(huì)自動(dòng)給出該命令下最優(yōu)帶寬。本部分相應(yīng)代碼如下,。

//由于rdc命令回歸較為耗時(shí),,本文僅隨機(jī)抽取模擬數(shù)據(jù)中10%的觀察值來(lái)演示。
use 'RDD_simu_data0.dta', clear
set matsize 2000
set seed 135
sample 10 //隨機(jī)抽取10%的觀察值
rdplot y1 xc, c(0) //檢測(cè)一下,,看看數(shù)據(jù)特征是否發(fā)生明顯變化

// 不同局部線性斷點(diǎn)回歸命令
rd y1 xc, c(0)
rdrobust y1 xc, c(0) p(1)
rdcv y1 xc, thr(0) deg(1)

比較三個(gè)命令的回歸結(jié)果,,可以發(fā)現(xiàn)回歸系數(shù)分別為 0.982,0.978和0.978 ,不同命令的系數(shù)結(jié)果基本一致,。對(duì)于最優(yōu)帶寬選擇,,三個(gè)命令下分別為 0.208,0.187和0.2 ,,十分接近,。

此外, rd 命令不僅給出了最優(yōu)帶寬,,還同時(shí)給出了帶寬取最優(yōu)帶寬50%和200%的回歸結(jié)果,。觀察 rd 命令結(jié)果可發(fā)現(xiàn),50%,、100%和200%帶寬下回歸系數(shù)也較為接近,,分別為 0.954,0.982和0.954 ??芍M數(shù)據(jù)的清晰斷點(diǎn)回歸結(jié)果對(duì)帶寬選擇并不敏感,,這也表明回歸結(jié)果是穩(wěn)健的。

3.2 局部多項(xiàng)式回歸

線性假設(shè)可能會(huì)錯(cuò)誤估計(jì)了斷點(diǎn)左右的回歸系數(shù),,我們可以采取非線性擬合的辦法進(jìn)行彌補(bǔ),,即使用局部多項(xiàng)式斷點(diǎn)回歸方法。上文介紹的 rd,、rdrobust和rdcv 三個(gè)命令,同樣可以用于局部多項(xiàng)式斷點(diǎn)回歸分析,。本部分相應(yīng)代碼如下:

use 'RDD_simu_data0.dta', clear

rdrobust y1 xc //自動(dòng)選擇階數(shù)
rdrobust y1 xc, p(2) //二階擬合
rdrobust y1 xc, p(3) //三階擬合

對(duì)于局部多項(xiàng)式斷點(diǎn)回歸,,關(guān)鍵問(wèn)題之一在于階數(shù)的選擇,。我們利用赤池信息準(zhǔn)則 (Akaike Information Criterion,AIC) 和貝葉斯信息準(zhǔn)則 (Bayesian Information Criterion,,BIC) ,,選擇不同階數(shù)回歸中AIC或BIC信息準(zhǔn)則小的值。本文采用連玉君 Stata 培訓(xùn)班介紹的方法,,結(jié)合 rdcv 命令來(lái)選擇階數(shù),。

	*---------------------------------myic-----------------------
program define myic
version 13
qui estat ic
mat a = r(S)
estadd scalar AIC = a[1,5]
estadd scalar BIC = a[1,6]
end
*---------------------------------myic------------------
*-Note: 調(diào)用自定義程序myic的方法為選中上述代碼,按快捷鍵 Ctrl+R, 將程序讀入內(nèi)存


use 'RDD_simu_data0.dta', clear
set matsize 2000
set seed 135
sample 10 //rdcv回歸較為耗時(shí),,僅隨機(jī)抽取10%的觀察值來(lái)演示,。

#d ;
rdcv y1 xc, thr(0) deg(1); myic; est store m1;
rdcv y1 xc, thr(0) deg(2); myic; est store m2;
rdcv y1 xc, thr(0) deg(3) ; myic; est store m3;
#d cr // #d 表示 #delimit

*-對(duì)比回歸結(jié)果
local m 'm1 m2 m3'
esttab `m', mtitle(`m') b(%6.3f) t(%6.3f) ///
s(N r2 r2_a AIC BIC) nogap compress

回歸結(jié)果的 AIC 和 BIC 信息如下表格所示,我們會(huì)選擇 m2 ,,即認(rèn)為二次型擬合是最優(yōu)的,。


線性二次型三次型
AIC761.160446.327819.628
BIC775.494464.740849.097

3.3 全局多項(xiàng)式回歸

全局多項(xiàng)式回歸是使用了樣本里所有數(shù)據(jù)來(lái)進(jìn)行多項(xiàng)式回歸。這在方法上,,等價(jià)于局部回歸分析里將左右?guī)捲O(shè)置為分配變量的最小值和最大值,。從而可以同樣用上述命令來(lái)分析。需要注意的是,,由于使用了全部樣本,,全局?jǐn)帱c(diǎn)回歸分析可能存在較為嚴(yán)重的內(nèi)生性問(wèn)題。本部分相應(yīng)代碼如下:


use 'RDD_simu_data0.dta', clear
sum xc
local hvalueR=r(max)
local hvalueL= abs(r(min))

rdrobust y1 xc, h(`hvalueL' `hvalueR') //自動(dòng)選擇階數(shù)
rdrobust y1 xc, h(`hvalueL' `hvalueR') p(2) //二階擬合
rdrobust y1 xc, h(`hvalueL' `hvalueR') p(3) //三階擬合

連享會(huì)計(jì)量方法專題……,,https:///arlionn/Course

4. RDD有效性檢驗(yàn)

4.1 局部平滑性的檢驗(yàn)

對(duì)于局部平滑假設(shè),,是指除了結(jié)果變量,所有所有其它變量在斷點(diǎn)附近都不應(yīng)該存在處理效應(yīng),,也即沒(méi)有出現(xiàn)跳躍現(xiàn)象,。在檢驗(yàn)方法上,我們可以利用圖形直接觀察,,也可以將每一個(gè)協(xié)變量作為安慰劑結(jié)果變量 (placebo outcomes) ,,使用斷點(diǎn)回歸方法進(jìn)行檢驗(yàn)。

graph3.png

本部分圖形檢驗(yàn)和回歸檢驗(yàn)的代碼如下:

use 'RDD_simu_data0.dta', clear

rdplot y1 xc graph_options(title(z1平滑性檢驗(yàn)))
graph save rdz1_smooth, replace
rdplot z2 xc graph_options(title(z2平滑性檢驗(yàn)))/
graph save rdz2_smooth, replace

graph combine rdz1_smooth.gph rdz2_smooth.gph, title('變量z1 & z2的平滑性檢驗(yàn)')

// 從圖形,,似乎是存在跳躍的,,但這并不嚴(yán)格,要看回歸結(jié)果
rdrobust z1 xc
rdrobust z2 xc

兩個(gè)回歸結(jié)果的p值分別 0.399 和 0.741 ,,說(shuō)明不能拒絕不存在斷點(diǎn)的假設(shè),,可知局部平滑假設(shè)滿足。

4.2 驅(qū)動(dòng)變量不受人為控制的檢驗(yàn)

檢驗(yàn)的思路在于,,如果不存在人為操控,,那么在斷點(diǎn)附近樣本的數(shù)量應(yīng)該相近,才符合隨機(jī)性,。我們可以用 rddensity 命令來(lái)檢驗(yàn)斷點(diǎn)兩側(cè)樣本數(shù)量是否相近,。本部分相應(yīng)代碼如下所示,,回歸結(jié)的 p 值為 0.195 ,不能拒絕斷點(diǎn)附近兩測(cè)樣本量大致相等的假設(shè),,可知驅(qū)動(dòng)變量不受人為控制的假設(shè)滿足,。

use 'RDD_simu_data0.dta', clear

rdrobust y1 xc
local h = e(h_l) //獲取最優(yōu)帶寬
rddensity xc, p(1) hl(`h') hr(`h')

5. 穩(wěn)健性檢驗(yàn)

5.1 斷點(diǎn)的安慰劑檢驗(yàn)

穩(wěn)健性檢驗(yàn)的一個(gè)自然而然的思路在于選擇一個(gè)不同于斷點(diǎn)的值作為安慰劑斷點(diǎn) (placcebo cutoff points) 。如果斷點(diǎn)回歸結(jié)果變得不顯著,,則表明斷點(diǎn)的真實(shí)性,。相應(yīng)代碼分別取真實(shí)斷點(diǎn)兩側(cè)  20%、40%,、60% 和 80% 樣本分位數(shù)處作為斷點(diǎn),。作為對(duì)比,我們也放入了真實(shí)斷點(diǎn)在圖形里,。如下圖所示,,五 個(gè)placebo cutoffs 的回歸系數(shù)都不顯著異于0,從而在這些點(diǎn)處不存在處理效應(yīng),。

graph4.png

本部分相應(yīng)代碼如下:


use 'RDD_simu_data0.dta', clear
sum xc
local xcmax=r(max)
local xcmin= r(min)

forvalues i=1(1)4{
local jr=`xcmax'/(`i'+1)
local jl=`xcmin'/(`i'+1)
rdrobust y1 xc if xc>0,c(`jr')
estimates store jl`i'
rdrobust y1 xc if xc<0,c(`jl')
estimates store jr`i'
}

//加上真實(shí)斷點(diǎn)的回歸結(jié)果,,作為benchmark結(jié)果
rdrobust y1 xc ,c(0)
estimates store jbaseline

//輸出圖形
local vlist 'jl1 jl2 jl3 jl4 jbaseline jr4 jr3 jr2 jr1 '
coefplot `vlist' , yline(0) drop(_cons) vertical

連享會(huì)計(jì)量方法專題……,https:///arlionn/Course

5.2 樣本選擇的敏感性檢驗(yàn)

由于越接近斷點(diǎn)的樣本,,越有動(dòng)機(jī)去人為操控,,我們刪除最接近斷點(diǎn)的樣本,來(lái)觀察回歸是否顯著(甜甜圈效應(yīng),  donut hole approach ),。如果仍舊存在,,說(shuō)明即使存在人為操控,斷點(diǎn)效應(yīng)仍舊存在,。下面代碼里,,我們分別刪除了斷點(diǎn)附近 5%,10%,,15%,,25% 和 30% 的樣本,進(jìn)行了 6 組穩(wěn)健性檢驗(yàn),。圖形給出了回歸系數(shù)和 95% 的置信區(qū)間,。可知,,在刪除 20% 及以下時(shí),,回歸結(jié)果都保持顯著。

graph5.png

本部分相應(yīng)代碼如下:


use 'RDD_simu_data0.dta', clear
sum xc
local xcmax=r(max)

forvalues i=1(1)6{
local j=`xcmax'*0.05*`i'
rdrobust y1 xc if abs(xc)>`j'
estimates store obrob`i'
}

//輸出圖形
local vlist 'obrob1 obrob2 obrob3 obrob4 obrob5 obrob6 '
coefplot `vlist' , yline(0) drop(_cons) vertical

5.3 帶寬選擇的敏感性檢驗(yàn)

帶寬長(zhǎng)度會(huì)顯著影響回歸結(jié)果,,一個(gè)穩(wěn)健的結(jié)果要求對(duì)帶寬長(zhǎng)度不那么敏感,。下面代碼里,我們先通過(guò)rdrobust命令提取最優(yōu)帶寬h,然后分別手動(dòng)設(shè)置帶寬為 h 的 25%-400% 倍,,看回歸結(jié)果是否仍舊顯著,。圖形給出了回歸系數(shù)和95%的置信區(qū)間??芍谧顑?yōu)帶寬 25%-400% 范圍內(nèi),,回歸結(jié)果保持顯著,,說(shuō)明結(jié)論較為可靠。

graph6.png

本部分相應(yīng)代碼如下:

use 'RDD_simu_data0.dta', clear
rdrobust y1 xc //自動(dòng)選擇最優(yōu)帶寬
local h = e(h_l) //獲取最優(yōu)帶寬

forvalues i=1(1)8{
local hrobust=`h'*0.25*`i'
rdrobust y1 xc ,h(`hrobust')
estimates store hrob`i'
}

//輸出圖形
local vlist 'hrob1 hrob2 hrob3 hrob4 hrob5 hrob6 hrob7 hrob8 '
coefplot `vlist' , yline(0) drop(_cons) vertical

關(guān)于我們

  • Stata連享會(huì) 由中山大學(xué)連玉君老師團(tuán)隊(duì)創(chuàng)辦,,定期分享實(shí)證分析經(jīng)驗(yàn),。
  • 歡迎賜稿: 歡迎賜稿至[email protected]。錄用稿件達(dá) 三篇 以上,,即可 免費(fèi) 獲得一期 Stata 現(xiàn)場(chǎng)培訓(xùn)資格,。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多