1. RDD基本原理斷點(diǎn)回歸分析被認(rèn)為是最接近隨機(jī)實(shí)驗(yàn)的檢驗(yàn)方法,,能夠緩解參數(shù)估計(jì)的內(nèi)生性問(wèn)題,近來(lái)在越來(lái)越多的研究中得到使用?,F(xiàn)有資料已經(jīng)對(duì)斷點(diǎn)回歸方法的基本原理和效應(yīng)識(shí)別進(jìn)行了較為廣泛的介紹,,但對(duì)階數(shù)選擇和穩(wěn)健性檢驗(yàn)等問(wèn)題的仍相對(duì)較少涉及。本文將基于Stata軟件來(lái)系統(tǒng)介紹斷點(diǎn)回歸方法的圖形觀測(cè),、效應(yīng)識(shí)別和有效性和穩(wěn)健性檢驗(yàn),。限于篇幅,本文將內(nèi)容限定于清晰斷點(diǎn)回歸方法(Sharp Regression Discontinuity Design ),,且只考慮只有一個(gè)斷點(diǎn)和一個(gè)分配變量的問(wèn)題。 2. 圖形觀察2.1 生成模擬數(shù)據(jù)我們先生成一份模擬數(shù)據(jù),,并保存為 RDD_simu_data0 ,。生成的數(shù)據(jù)中, z1 和 z2 為控制變量,。y1 為結(jié)果變量(outcome variable),。x 為分配變量(assignment vaiable)。分配點(diǎn)(cutoff point)設(shè)定為 0.5 ,,從而x大于0.5 的為實(shí)驗(yàn)組,,小于0.5的為對(duì)照組,。 此外,在RDD檢驗(yàn)中,,我們通常還會(huì)對(duì)分配變量進(jìn)行去中心化處理,,即用分配變量減去分配點(diǎn)值。如本文中,,令 xc=x-0.5 ,。進(jìn)而 xc 大于 0 的位實(shí)驗(yàn)組,反之為對(duì)照組,。 本部分的相應(yīng)代碼如下: clear all 2.2 斷點(diǎn)效應(yīng)的圖形觀察使用 RDD 方法檢驗(yàn)時(shí),首先要確定結(jié)果變量在分配點(diǎn)存在跳躍現(xiàn)象,,也即存在斷點(diǎn)效應(yīng),。可以用散點(diǎn)圖來(lái)觀察,。下圖中給出了不存在斷點(diǎn)效應(yīng)和存在斷點(diǎn)效應(yīng)兩種情況,。如下圖所示,右側(cè)圖的結(jié)果變量y在分配點(diǎn)0.5處一個(gè)相對(duì)較為明顯的跳躍,,說(shuō)明可能存在斷點(diǎn)效應(yīng),。 本部分相應(yīng)代碼如下:
但用散點(diǎn)圖來(lái)觀察存在兩個(gè)問(wèn)題:一是樣本太多時(shí)不夠直觀,二是實(shí)際分析時(shí)中跳躍現(xiàn)象可能不那么清晰,。為此,,我們可以利用擬合方法,對(duì)分配點(diǎn)左右分別擬合,,通過(guò)觀察兩側(cè)擬合線的的差異來(lái)更容易推測(cè)跳躍現(xiàn)象是否發(fā)生RDD分析里提供了rdplot命令處理這項(xiàng)工作,。下圖中分別列出了利用散點(diǎn)圖、 rdplot 命令 + 線性擬合,、 rdplot命令 + 二階多項(xiàng)式擬合圖和rdplot命令 + 三階多項(xiàng)式擬合圖的結(jié)果,。 本部分相應(yīng)代碼如下。其中 rdplot 命令中,, c() 選項(xiàng)表示斷點(diǎn)位置,,不設(shè)定則默認(rèn)為 0 。p() 選項(xiàng)表示擬合的階數(shù),。 use 'RDD_simu_data0.dta', clear 3. 政策效應(yīng)估計(jì)3.1 局部線性回歸使用局部線性回歸法,,是假定在斷點(diǎn)鄰域中的處理效應(yīng)為線性,通過(guò)在左右兩側(cè)鄰域分別進(jìn)行線性回歸并比較兩側(cè)回歸系數(shù)差異來(lái)進(jìn)行識(shí)別,。局部回歸檢驗(yàn)的一個(gè)重要環(huán)節(jié)在于斷點(diǎn)鄰域大小的選擇,,也即 RDD 分析里帶寬選擇 (bandwidth selection) 的權(quán)衡問(wèn)題。這是因?yàn)閹捲酱?,則意味著有越多的樣本被納入檢驗(yàn)中,,參數(shù)估計(jì)更準(zhǔn)確,,但也意味著樣本隨機(jī)性要求越難滿足,內(nèi)生性問(wèn)題可能更嚴(yán)重,。 本文中斷點(diǎn)xc的鄰域?yàn)?([xc-h1,xc+h2]) ,, h1 和 h2 分別為左右兩側(cè)帶寬。h1和h2可以相等,,也可以不等,。在斷點(diǎn)分析中,可進(jìn)行局部線性斷點(diǎn)回歸的命令有 rd,、rdrobust 和 rdcv 三個(gè)命令,。這三個(gè)都會(huì)自動(dòng)給出該命令下最優(yōu)帶寬。本部分相應(yīng)代碼如下,。
比較三個(gè)命令的回歸結(jié)果,,可以發(fā)現(xiàn)回歸系數(shù)分別為 0.982,0.978和0.978 ,不同命令的系數(shù)結(jié)果基本一致,。對(duì)于最優(yōu)帶寬選擇,,三個(gè)命令下分別為 0.208,0.187和0.2 ,,十分接近,。 此外, rd 命令不僅給出了最優(yōu)帶寬,,還同時(shí)給出了帶寬取最優(yōu)帶寬50%和200%的回歸結(jié)果,。觀察 rd 命令結(jié)果可發(fā)現(xiàn),50%,、100%和200%帶寬下回歸系數(shù)也較為接近,,分別為 0.954,0.982和0.954 ??芍M數(shù)據(jù)的清晰斷點(diǎn)回歸結(jié)果對(duì)帶寬選擇并不敏感,,這也表明回歸結(jié)果是穩(wěn)健的。 3.2 局部多項(xiàng)式回歸線性假設(shè)可能會(huì)錯(cuò)誤估計(jì)了斷點(diǎn)左右的回歸系數(shù),,我們可以采取非線性擬合的辦法進(jìn)行彌補(bǔ),,即使用局部多項(xiàng)式斷點(diǎn)回歸方法。上文介紹的 rd,、rdrobust和rdcv 三個(gè)命令,同樣可以用于局部多項(xiàng)式斷點(diǎn)回歸分析,。本部分相應(yīng)代碼如下: use 'RDD_simu_data0.dta', clear 對(duì)于局部多項(xiàng)式斷點(diǎn)回歸,,關(guān)鍵問(wèn)題之一在于階數(shù)的選擇,。我們利用赤池信息準(zhǔn)則 (Akaike Information Criterion,AIC) 和貝葉斯信息準(zhǔn)則 (Bayesian Information Criterion,,BIC) ,,選擇不同階數(shù)回歸中AIC或BIC信息準(zhǔn)則小的值。本文采用連玉君 Stata 培訓(xùn)班介紹的方法,,結(jié)合 rdcv 命令來(lái)選擇階數(shù),。
回歸結(jié)果的 AIC 和 BIC 信息如下表格所示,我們會(huì)選擇 m2 ,,即認(rèn)為二次型擬合是最優(yōu)的,。
3.3 全局多項(xiàng)式回歸全局多項(xiàng)式回歸是使用了樣本里所有數(shù)據(jù)來(lái)進(jìn)行多項(xiàng)式回歸。這在方法上,,等價(jià)于局部回歸分析里將左右?guī)捲O(shè)置為分配變量的最小值和最大值,。從而可以同樣用上述命令來(lái)分析。需要注意的是,,由于使用了全部樣本,,全局?jǐn)帱c(diǎn)回歸分析可能存在較為嚴(yán)重的內(nèi)生性問(wèn)題。本部分相應(yīng)代碼如下:
4. RDD有效性檢驗(yàn)4.1 局部平滑性的檢驗(yàn)對(duì)于局部平滑假設(shè),,是指除了結(jié)果變量,所有所有其它變量在斷點(diǎn)附近都不應(yīng)該存在處理效應(yīng),,也即沒(méi)有出現(xiàn)跳躍現(xiàn)象,。在檢驗(yàn)方法上,我們可以利用圖形直接觀察,,也可以將每一個(gè)協(xié)變量作為安慰劑結(jié)果變量 (placebo outcomes) ,,使用斷點(diǎn)回歸方法進(jìn)行檢驗(yàn)。 本部分圖形檢驗(yàn)和回歸檢驗(yàn)的代碼如下:
兩個(gè)回歸結(jié)果的p值分別 0.399 和 0.741 ,,說(shuō)明不能拒絕不存在斷點(diǎn)的假設(shè),,可知局部平滑假設(shè)滿足。 4.2 驅(qū)動(dòng)變量不受人為控制的檢驗(yàn)檢驗(yàn)的思路在于,,如果不存在人為操控,,那么在斷點(diǎn)附近樣本的數(shù)量應(yīng)該相近,才符合隨機(jī)性,。我們可以用 rddensity 命令來(lái)檢驗(yàn)斷點(diǎn)兩側(cè)樣本數(shù)量是否相近,。本部分相應(yīng)代碼如下所示,,回歸結(jié)的 p 值為 0.195 ,不能拒絕斷點(diǎn)附近兩測(cè)樣本量大致相等的假設(shè),,可知驅(qū)動(dòng)變量不受人為控制的假設(shè)滿足,。 use 'RDD_simu_data0.dta', clear 5. 穩(wěn)健性檢驗(yàn)5.1 斷點(diǎn)的安慰劑檢驗(yàn)穩(wěn)健性檢驗(yàn)的一個(gè)自然而然的思路在于選擇一個(gè)不同于斷點(diǎn)的值作為安慰劑斷點(diǎn) (placcebo cutoff points) 。如果斷點(diǎn)回歸結(jié)果變得不顯著,,則表明斷點(diǎn)的真實(shí)性,。相應(yīng)代碼分別取真實(shí)斷點(diǎn)兩側(cè) 20%、40%,、60% 和 80% 樣本分位數(shù)處作為斷點(diǎn),。作為對(duì)比,我們也放入了真實(shí)斷點(diǎn)在圖形里,。如下圖所示,,五 個(gè)placebo cutoffs 的回歸系數(shù)都不顯著異于0,從而在這些點(diǎn)處不存在處理效應(yīng),。 本部分相應(yīng)代碼如下:
5.2 樣本選擇的敏感性檢驗(yàn)由于越接近斷點(diǎn)的樣本,,越有動(dòng)機(jī)去人為操控,,我們刪除最接近斷點(diǎn)的樣本,來(lái)觀察回歸是否顯著(甜甜圈效應(yīng), donut hole approach ),。如果仍舊存在,,說(shuō)明即使存在人為操控,斷點(diǎn)效應(yīng)仍舊存在,。下面代碼里,,我們分別刪除了斷點(diǎn)附近 5%,10%,,15%,,25% 和 30% 的樣本,進(jìn)行了 6 組穩(wěn)健性檢驗(yàn),。圖形給出了回歸系數(shù)和 95% 的置信區(qū)間,。可知,,在刪除 20% 及以下時(shí),,回歸結(jié)果都保持顯著。 本部分相應(yīng)代碼如下:
5.3 帶寬選擇的敏感性檢驗(yàn)帶寬長(zhǎng)度會(huì)顯著影響回歸結(jié)果,,一個(gè)穩(wěn)健的結(jié)果要求對(duì)帶寬長(zhǎng)度不那么敏感,。下面代碼里,我們先通過(guò)rdrobust命令提取最優(yōu)帶寬h,然后分別手動(dòng)設(shè)置帶寬為 h 的 25%-400% 倍,,看回歸結(jié)果是否仍舊顯著,。圖形給出了回歸系數(shù)和95%的置信區(qū)間??芍谧顑?yōu)帶寬 25%-400% 范圍內(nèi),,回歸結(jié)果保持顯著,,說(shuō)明結(jié)論較為可靠。 本部分相應(yīng)代碼如下:
|
|