久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

Top前沿: 農(nóng)業(yè)和應(yīng)用經(jīng)濟(jì)學(xué)中的機(jī)器學(xué)習(xí), 其與計(jì)量經(jīng)濟(jì)學(xué)的比較, 不讀不懂你就out了,!

 liyu_sun 2020-05-11
機(jī)器學(xué)習(xí)方法逐漸在經(jīng)濟(jì)管理等社科類頂刊,,如AER,JPE,,QJE,,JOF等期刊上出現(xiàn)了。為了進(jìn)一步了解機(jī)器學(xué)習(xí)在國(guó)外最新應(yīng)用動(dòng)向,,我們?yōu)楦魑粚W(xué)者奉上“農(nóng)業(yè)和應(yīng)用經(jīng)濟(jì)學(xué)中的機(jī)器學(xué)習(xí)”,。對(duì)機(jī)器學(xué)習(xí)方法感興趣的學(xué)者,建議認(rèn)真研讀這篇非常重要,、全面的文章,。
正文
關(guān)于下方文字內(nèi)容,作者王樂,,東北財(cái)經(jīng)大學(xué)金融學(xué)院,,通信郵箱[email protected]

《農(nóng)業(yè)和應(yīng)用經(jīng)濟(jì)學(xué)中的機(jī)器學(xué)習(xí)》

Machine learning in agricultural and applied economics, European Review of Agricultural Economics

這篇文章從應(yīng)用經(jīng)濟(jì)學(xué)的角度介紹了機(jī)器學(xué)習(xí)方法,。作者首先介紹了與經(jīng)濟(jì)學(xué)實(shí)踐相關(guān)的主要計(jì)量經(jīng)濟(jì)學(xué)方法。然后,,確定了當(dāng)前計(jì)量經(jīng)濟(jì)學(xué)和模擬模型工具箱在應(yīng)用經(jīng)濟(jì)學(xué)方面的局限性,,并探索了機(jī)器學(xué)習(xí)法提供的潛在解決方案。在預(yù)測(cè)和因果分析中,,深入研究了不靈活的函數(shù)形式,、非結(jié)構(gòu)化數(shù)據(jù)源和大量解釋性變量等情況,并強(qiáng)調(diào)了復(fù)雜模擬模型的挑戰(zhàn),。最后,,作者認(rèn)為,當(dāng)用于定量經(jīng)濟(jì)分析時(shí),,經(jīng)濟(jì)學(xué)家在解決機(jī)器學(xué)習(xí)法的缺點(diǎn)方面有著至關(guān)重要的作用,。
一、引言
(一)什么是ML,?
機(jī)器學(xué)習(xí)(ML),、人工智能(AI)和深度學(xué)習(xí)(DL)經(jīng)常互換使用,。ML是AI的一部分,而AI又是計(jì)算機(jī)科學(xué)的一門學(xué)科,。DL是機(jī)器學(xué)習(xí)ML的一個(gè)特定子集,,它使用分層方法,每一步都將前一步的信息轉(zhuǎn)換成更復(fù)雜的數(shù)據(jù)表示,。
(二)為什么要把機(jī)器學(xué)習(xí)引入農(nóng)業(yè)和應(yīng)用經(jīng)濟(jì)學(xué),?
1.在許多不同領(lǐng)域,包括農(nóng)業(yè),、環(huán)境和發(fā)展領(lǐng)域,,數(shù)據(jù)的可獲得性都有了顯著提高。除了幫助處理來自這些新來源的數(shù)據(jù),,ML方法比傳統(tǒng)的統(tǒng)計(jì)方法更能有效地利用大量數(shù)據(jù),。
2.自21世紀(jì)初以來,多處理器圖形卡(Multi-Processor Graphic Cards) ,或稱圖形處理單元(Graphic Processing Unit,,GPU)的使用極大地加速了計(jì)算機(jī)學(xué)習(xí),,許多機(jī)器學(xué)習(xí)方法可以并行化并利用圖形處理器的潛力。
3.機(jī)器學(xué)習(xí)研究團(tuán)體正在迅速開發(fā)用戶應(yīng)用這些方法所需的工具,。研究人員已經(jīng)開發(fā)并改進(jìn)了能夠突破ML/DL邊界的算法,。這個(gè)團(tuán)體有著強(qiáng)大的開源傳統(tǒng),包括強(qiáng)大的DL庫 (如tensorflow.org,、pytorch.org)和預(yù)處理模型(如VVGNet,、ResNet),,增加了采用的可能性。
4.最后,,經(jīng)濟(jì)學(xué)家已經(jīng)開始意識(shí)到,,機(jī)器學(xué)習(xí)的預(yù)測(cè)能力不僅可以如此使用,而且還可以改善因果識(shí)別(Athey,,2019),。
(三)機(jī)器學(xué)習(xí)如何有助于農(nóng)業(yè)和應(yīng)用經(jīng)濟(jì)學(xué)?
傳統(tǒng)經(jīng)濟(jì)學(xué)模型通常包含很少的關(guān)于函數(shù)形式的先驗(yàn)信息,,在不同的觀察單元之間有很大的潛在異質(zhì)性,,并且經(jīng)常有多個(gè)輸出。例如,,一個(gè)人想要估計(jì)化肥對(duì)農(nóng)作物產(chǎn)量的影響,。產(chǎn)量由土壤質(zhì)量、天氣,、投放,、投放時(shí)機(jī)和其他管理選擇的復(fù)雜組合決定,充滿非線性和相互作用,。雖然傳統(tǒng)方法允許我們處理這些問題,,但是機(jī)器學(xué)習(xí)方法增加了數(shù)據(jù)和函數(shù)形式的靈活性,以及處理效率,,開辟了其他分析途徑,。
(四)本文創(chuàng)新處
1.已有文獻(xiàn)還沒有關(guān)于機(jī)器學(xué)習(xí)在農(nóng)業(yè)和應(yīng)用經(jīng)濟(jì)學(xué)分析中的現(xiàn)有和潛在應(yīng)用的概述。而機(jī)器學(xué)習(xí)方法對(duì)上述領(lǐng)域有著特別的前景,,因?yàn)樗鼈兣c復(fù)雜的生物或物理過程有著頻繁的聯(lián)系,,使用了非傳統(tǒng)的數(shù)據(jù)源,并且經(jīng)常使用模擬方法,。
2.本文從標(biāo)準(zhǔn)的計(jì)量經(jīng)濟(jì)學(xué)和模擬工具的角度來幫助對(duì)于機(jī)器學(xué)習(xí)的理解和應(yīng)用。本文強(qiáng)調(diào)了ML工具如何填補(bǔ)我們現(xiàn)有方法工具箱中的空白,,重點(diǎn)是它們能解決哪些長(zhǎng)期存在的挑戰(zhàn),。作者特別強(qiáng)調(diào)神經(jīng)網(wǎng)絡(luò)NN,因?yàn)楸M管神經(jīng)網(wǎng)絡(luò)在捕捉復(fù)雜的空間和時(shí)間關(guān)系方面具有巨大的潛力,,但它們?cè)诮?jīng)濟(jì)分析中仍未得到廣泛應(yīng)用,。
3.回顧了機(jī)器學(xué)習(xí)在政策模擬中的應(yīng)用,它還沒有被廣泛覆蓋,。

二,、應(yīng)用計(jì)量經(jīng)濟(jì)學(xué)視角下的機(jī)器學(xué)習(xí)

(一)與計(jì)量經(jīng)濟(jì)學(xué)的區(qū)別
1.目標(biāo):
(1)計(jì)量經(jīng)濟(jì)學(xué):目的是獲得邊際效應(yīng)的可靠估計(jì),如獲得系數(shù)的無偏/一致估計(jì),。
(2)機(jī)器學(xué)習(xí):目的是獲得準(zhǔn)確的預(yù)測(cè),,當(dāng)涉及偏差,、方差或均方誤差(MSE)時(shí),它們是根據(jù)預(yù)測(cè)來定義的,。就預(yù)測(cè)而言一個(gè)在預(yù)測(cè)方面是無偏的模型不一定在系數(shù)方面是無偏的,。
2.不確定性估計(jì)量
(1)計(jì)量經(jīng)濟(jì)學(xué):能夠得出估計(jì)系數(shù)的不確定性估計(jì)量,因此可以將估計(jì)量用于假設(shè)檢驗(yàn),。
(2)機(jī)器學(xué)習(xí):通常不能獲得不確定性估計(jì)量,,這是該方法的一個(gè)實(shí)質(zhì)性限制,也是一個(gè)活躍的研究領(lǐng)域,。
(二)機(jī)器學(xué)習(xí)方法
1.訓(xùn)練集-驗(yàn)證集-測(cè)試集(Training Set-Validation Set-Test Set)方法—避免過度擬合
在傳統(tǒng)的計(jì)量經(jīng)濟(jì)學(xué)中,,我們關(guān)心的是“足夠”的自由度,更多的自由度可以減少任何單一估計(jì)系數(shù)的標(biāo)準(zhǔn)誤差,。這種方法限制了協(xié)變量的數(shù)量(給定一個(gè)有限的“N”),,從而限制了模型的靈活性。而機(jī)器學(xué)習(xí)通常包含大量參數(shù)和潛在的負(fù)自由度,,因此避免了過度擬合,。
機(jī)器學(xué)習(xí)方法將可用的數(shù)據(jù)集分成訓(xùn)練集(Training Set)、驗(yàn)證集(Validation Set)和測(cè)試集(Test Set):訓(xùn)練集用于估計(jì)模型,;驗(yàn)證集(也稱為開發(fā)或保持集, Development or Hold-Out Set)用于監(jiān)控樣本外預(yù)測(cè)誤差,,然后選擇驗(yàn)證集中樣本外預(yù)測(cè)誤差最小的模型,;測(cè)試集最終用于評(píng)估所選模型的樣本外預(yù)測(cè)誤差,,既不能用于訓(xùn)練也不能用于模型選擇。
當(dāng)數(shù)據(jù)集較大時(shí),,訓(xùn)練/驗(yàn)證/測(cè)試方法可以很容易地應(yīng)用,。而當(dāng)數(shù)據(jù)集較小時(shí),訓(xùn)練/驗(yàn)證/測(cè)試分割方法的一個(gè)常見變化是k-fold交叉驗(yàn)證,。即將樣本分成k個(gè)部分,,每個(gè)部分有相同數(shù)量的觀察值,。然后估計(jì)我們選擇的模型k倍,;每次使用除了遺漏的k部分外的所有數(shù)據(jù),。這個(gè)遺漏部分然后被用于得出樣本外預(yù)測(cè)誤差,。通過對(duì)k個(gè)估計(jì)量的樣本外預(yù)測(cè)誤差進(jìn)行平均,,我們獲得了樣本外預(yù)測(cè)誤差期望值的估計(jì)。
2.監(jiān)督方法
(1)特征縮減方法(Shrinkage Methods)
諸如嶺回歸或lasso之類的特征縮減方法是把線性回歸模型根據(jù)系數(shù)的大小上增加一個(gè)懲罰項(xiàng),,將系數(shù)推向零,。它們可用于預(yù)測(cè)連續(xù)結(jié)果或分類,并可有效地用于具有大量解釋變量的數(shù)據(jù)集,。對(duì)于偏離零的系數(shù),,變量必須對(duì)預(yù)測(cè)能力有很大貢獻(xiàn)??s減或正則化的程度可以調(diào)整,,其中最佳水平通常使用交叉驗(yàn)證來確定。
(2)樹狀模型方法(Tree-Based Methods)
①?zèng)Q策樹
決策樹可以用于分類和回歸,,這種方法使用線性分割來劃分特征空間(即解釋變量所跨越的空間),,以最大化每個(gè)分割所創(chuàng)建的分割內(nèi)的同質(zhì)性,順序分割的結(jié)尾稱為“葉”,。一旦樹“生長(zhǎng)”,,人們可以用它來預(yù)測(cè)一個(gè)結(jié)果,基于觀察的協(xié)變量落在每個(gè)連續(xù)分裂的哪一側(cè),,即它填充哪片“葉子”,。樹的深度描述了分割或節(jié)點(diǎn)的數(shù)量,。每個(gè)分割都是根據(jù)其對(duì)損失函數(shù)的貢獻(xiàn)順序選擇的,。
優(yōu)點(diǎn):容易解釋,并且非常適合捕捉高度非線性的關(guān)系。
缺點(diǎn):可能不穩(wěn)定并且容易過度擬合,數(shù)據(jù)的微小變化會(huì)導(dǎo)致分裂的實(shí)質(zhì)性變化。在捕捉真正的線性或光滑函數(shù)方面受到限制,,因?yàn)楦鶕?jù)構(gòu)造,得到的模型是階躍函數(shù)(Step Function)。然而,,有了足夠的數(shù)據(jù),,他們可以任意很好地逼近任何線性或光滑函數(shù),。
②集成方法——提高預(yù)測(cè)精度,、減少方差
A.隨機(jī)森林:對(duì)許多生長(zhǎng)在隨機(jī)觀測(cè)子樣本和變量子集上的深樹的結(jié)果進(jìn)行平均。隨機(jī)森林可以被認(rèn)為與具有自適應(yīng)加權(quán)的kNN方法相關(guān),,其中樣本外觀測(cè)的預(yù)測(cè)結(jié)果由其特征的加權(quán)定義的鄰域給出,。
B.梯度增強(qiáng)樹(Gradient boosted trees)是由通過在殘差上重復(fù)擬合淺樹而訓(xùn)練的樹的總和組成的加性模型。給定它們的加法結(jié)構(gòu),,與傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)中的廣義相加模型(Generalised Additive Models,GAMs)密切相關(guān),。然而,當(dāng)使用大量的解釋變量時(shí),,GAMs的估計(jì)不如梯度提升有效,。
這些方法可以檢測(cè)高度非線性關(guān)系、處理定量和分類數(shù)據(jù),、處理高度非正常數(shù)據(jù)或異常值,、提供缺失數(shù)據(jù)、提供不相關(guān)變量的算法處理,,因此需要相對(duì)較少的輸入數(shù)據(jù)預(yù)處理和相對(duì)較少的訓(xùn)練期間調(diào)整的優(yōu)勢(shì),。此外,它們還提供了每個(gè)解釋變量重要性的排名,。
(3)神經(jīng)網(wǎng)絡(luò)(Neural Networks)
①卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks ,,CNN)
適合處理類似網(wǎng)格的數(shù)據(jù),,如1D時(shí)間序列數(shù)據(jù)或2D圖像數(shù)據(jù)。CNN至少在一層中使用卷積算子,,這就是所謂的卷積層,。在完全連接(密集)的神經(jīng)網(wǎng)絡(luò)中,隱藏層或輸出層中的每個(gè)單元通過矩陣乘法w h()?)k k連接到前一層中的每個(gè)單元(神經(jīng)元),。相比之下,,在卷積層中,每個(gè)單元僅查看前一層中的一小部分單元(因此是稀疏互連),并在不同位置使用相同的參數(shù)(參數(shù)共享),從而顯著減少了需要估計(jì)的參數(shù)數(shù)量,。
與經(jīng)典時(shí)間序列模型的區(qū)別:CNN學(xué)習(xí)濾波器的參數(shù),,提取有用的特征。例如,,在圖像處理應(yīng)用中,,濾波器可以學(xué)習(xí)檢測(cè)圖像的小位置中的垂直邊緣,而另一個(gè)濾波器檢測(cè)水平邊緣,、角和曲線,。然后在圖像上移動(dòng)每個(gè)過濾器,創(chuàng)建一個(gè)特征圖(每個(gè)過濾器一個(gè)),,指定特征在圖像中的位置,。下一個(gè)卷積層然后組合特征(邊緣、角等),。)轉(zhuǎn)化為更復(fù)雜的結(jié)構(gòu)(例如眼睛,、嘴巴或鼻子),繪制這些特征的地圖,。
②遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Net-Works ,,RNN)
在處理順序數(shù)據(jù)、處理動(dòng)態(tài)關(guān)系和長(zhǎng)期依賴關(guān)系方面,,RNN是CNN的替代,。RNN,特別是使用長(zhǎng)短期記憶(Long Short Term Memory ,,LSTM)細(xì)胞的RNN,,越來越受歡迎。RNN-LSTM模型的關(guān)鍵特征是,,過去的信息是通過細(xì)胞狀態(tài)向量跨時(shí)間傳遞的,。在每個(gè)時(shí)間步驟中,新引入的解釋變量被編碼并與單元狀態(tài)向量中的過去信息相結(jié)合,模型本身學(xué)習(xí)信息編碼的方式和哪些編碼的信息可以被遺忘(即對(duì)于后續(xù)步驟的預(yù)測(cè)并不重要),。
與傳統(tǒng)的自回歸區(qū)別:不需要指定滯后結(jié)構(gòu),,并且可以捕捉更復(fù)雜的關(guān)系。CNN和RNN都利用了參數(shù)共享的思想,,這使得它們能夠檢測(cè)特定的模式,,而不管模式在序列或圖像中的位置,。兩者都可以應(yīng)用于非常長(zhǎng)的時(shí)間序列或具有許多短時(shí)間序列的面板數(shù)據(jù)。
3.無監(jiān)督方法(Unsupervised Approaches)——基于觀測(cè)特征的數(shù)據(jù)分組或聚類
無監(jiān)督方法旨在發(fā)現(xiàn)(x)的聯(lián)合概率,,而不是E(y|x),,可以應(yīng)用于只有解釋性變量(特征)而沒有因變量(結(jié)果或標(biāo)簽)的情況,通常用于降低數(shù)據(jù)的維數(shù),。
①線性劃分——主成分分析(Principal Component Analysis,PCA)
l 應(yīng)用于對(duì)數(shù)據(jù)的邏輯分組,,類似于聚類分析,,例如定義新聞文章的“主題”。
l 應(yīng)用于預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)(Pre-Train Neural Networks),。在這些設(shè)置中,,主要目標(biāo)是學(xué)習(xí)未標(biāo)記數(shù)據(jù)中的相關(guān)關(guān)系,然后可以在第二步中用于監(jiān)督學(xué)習(xí)任務(wù),。
②非線性劃分——自動(dòng)編碼器(Autoencoders)(PCA的非線性推廣)
(三)模型復(fù)雜性與可解釋性
反對(duì)使用機(jī)器學(xué)習(xí)工具的一個(gè)常見理由是,,它們是“黑箱”,在這里,,模型學(xué)習(xí)到的關(guān)系不容易解釋,。盡管許多機(jī)器學(xué)習(xí)方法比線性回歸方法更復(fù)雜,但這不是機(jī)器學(xué)習(xí)工具的固有問題,,而是反映了任何方法面臨的靈活性和可解釋性之間不可避免的權(quán)衡,。一旦我們的目標(biāo)是反映非線性、交互作用或異質(zhì)性,,模型解釋就變得更加困難,。可通過一下幾種方法解釋:
1.繪制一個(gè)或多個(gè)特定特征的隱含邊際效應(yīng),。
部分依賴圖(Partial Dependence Plots)和累積局部效應(yīng)圖(Accumulated Local Effects Plots)都將一個(gè)或兩個(gè)變量的結(jié)果與其預(yù)測(cè)結(jié)果進(jìn)行比較,,而個(gè)體條件期望圖(Individual Conditional Expectation Plots)生成它們用于個(gè)人觀察。
2.確定解釋變量的相對(duì)重要性
預(yù)測(cè)變量的相對(duì)重要性可以通過對(duì)不同預(yù)測(cè)變量的重要性進(jìn)行排序來評(píng)估機(jī)器學(xué)習(xí)法中的一個(gè)常見方法是確定導(dǎo)致某個(gè)模型預(yù)測(cè)變化的解釋變量的最小變化,。其他的方法發(fā)展出所謂的“對(duì)抗樣本(Adversarial Examples)”,,識(shí)別一個(gè)觀察的特征需要產(chǎn)生一個(gè)錯(cuò)誤的預(yù)測(cè)。
3.原型和批評(píng)(Prototypes  Versus Criticisms)
通過集群算法識(shí)別一些有代表性的數(shù)據(jù)點(diǎn)—原型(Prototypes)和一些偶然事件—批評(píng)(Criticisms)來探索模型捕獲的異類影響,,然后將模型對(duì)這些原型和批評(píng)的預(yù)測(cè)與它們的實(shí)際結(jié)果進(jìn)行比較,。

三、機(jī)器學(xué)習(xí)法能給農(nóng)業(yè)經(jīng)濟(jì)學(xué)帶來什么

(一)豐富函數(shù)形式
1. 問題提出
(1)農(nóng)業(yè)和環(huán)境經(jīng)濟(jì)學(xué)中的許多現(xiàn)象本質(zhì)上是非線性的,,是潛在的生物,、物理、社會(huì)或經(jīng)濟(jì)過程的結(jié)果,。例如,,氣候變量對(duì)產(chǎn)量的影響,、地下水開采對(duì)抽水成本的影響或污染對(duì)健康的影響都可能包含非線性。
(2)對(duì)于時(shí)間,,空間或社會(huì)網(wǎng)絡(luò),,我們目前的方法也通常強(qiáng)加一些限制性的結(jié)構(gòu),如空間計(jì)量經(jīng)濟(jì)學(xué)中預(yù)先確定的鄰域和相互作用的結(jié)構(gòu),。
(3)通常,,我們對(duì)異質(zhì)性的特定方面感興趣。而在大多數(shù)當(dāng)前的方法中,,應(yīng)用經(jīng)濟(jì)學(xué)家估計(jì)平均效應(yīng),,或者允許效應(yīng)在不同的維度上或者在預(yù)先定義的有限數(shù)量的組之間有所不同,,或者事后選擇組,,誘惑著去挑選那些符合研究者的先驗(yàn)或者那些產(chǎn)生顯著結(jié)果的組,。
(4)經(jīng)濟(jì)理論很少對(duì)人們?cè)噲D估計(jì)的對(duì)象的具體形式給出明確的指導(dǎo)。它只提供有關(guān)形狀限制的信息,,如曲率或單調(diào)性,。選擇一個(gè)不能捕捉非線性、相互作用或異質(zhì)和分布效應(yīng)的模型可能會(huì)導(dǎo)致錯(cuò)誤的描述偏差,。這種偏差隨著基礎(chǔ)過程的非線性程度的增加而增加,。
2.當(dāng)前的計(jì)量經(jīng)濟(jì)學(xué)方法
當(dāng)前的計(jì)量經(jīng)濟(jì)學(xué)工具箱已經(jīng)提供了靈活的模型,但在許多情況下,,計(jì)算需求限制了它們對(duì)大數(shù)據(jù)集(大“N”)或高維數(shù)據(jù)(大“K”)的適用性,。
(1)隨機(jī)系數(shù)模型(Random Coefficient Models),分位數(shù)回歸模型(Quantile Regression Models)或混合模型(Mixture Models),,允許一定的靈活性,,但仍然對(duì)估計(jì)的關(guān)系強(qiáng)加限制性的線性假設(shè),這種靈活性只是局部的,,不是在解釋變量的范圍內(nèi)靈活,,因而限制了對(duì)經(jīng)濟(jì)環(huán)境變化的異質(zhì)反應(yīng)的能力。
(2)樣條模型(Spline Models),、核模型(Kernel Models)和局部加權(quán)回歸模型(Locally Weighted Regression Models)和GAM模型增加了更大的靈活性,,但它們的應(yīng)用通常僅限于有限數(shù)量的解釋變量。
(3)數(shù)值貝葉斯推理方法(Numerical Bayesian Inference),,如Gibbs 或 Metropolis Hasting這樣的多中心抽樣方法在處理大樣本的能力方面是有限的
3.機(jī)器學(xué)習(xí)可以做什么
(1)集成樹(Ensembles Of Trees)特別是梯度推進(jìn)方法(Gradient Boosting Approaches)
梯度增強(qiáng)正在成為許多環(huán)境中最有效的預(yù)測(cè)工具,;例如,信用評(píng)分和企業(yè)破產(chǎn)預(yù)測(cè),。雖然增強(qiáng)主要用于基于樹的方法,,但并不限于此。
  • Fenske、Kneib和Hothorn (2011年)開發(fā)了一種貝葉斯地理加性分位數(shù)回歸方法(Bayesian Geoadditive Quantile Regression),,該方法通過梯度增強(qiáng)進(jìn)行估計(jì),。

  • 在農(nóng)業(yè)經(jīng)濟(jì)學(xué)中,Mrz等人(2016年)將這一方法應(yīng)用于農(nóng)田租賃費(fèi)率,。除了非常靈活之外,,該方法還使用了自動(dòng)數(shù)據(jù)驅(qū)動(dòng)的參數(shù)選擇,允許不同分位數(shù)上有不同參數(shù),。他們的結(jié)果揭示了協(xié)變量和租金之間存在著重要的非線性,、異質(zhì)性關(guān)系。

  • Ifft,、Kuhns和Patrick (2018)發(fā)現(xiàn),,這些方法在預(yù)測(cè)農(nóng)民信貸需求方面優(yōu)于其他機(jī)器學(xué)習(xí)法和傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)方法。

(2)神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)還能夠捕捉高度非線性的關(guān)系,。神經(jīng)網(wǎng)絡(luò)和基于樹的方法之間的一個(gè)重要區(qū)別是,,使用神經(jīng)網(wǎng)絡(luò)是復(fù)雜的,,并且通常需要用戶指定更多的屬性,,例如層數(shù)和神經(jīng)元,以及在訓(xùn)練期間進(jìn)行更多的調(diào)整,。
  • Cao,,Ewing和Thompson (2012)發(fā)現(xiàn)單變量在風(fēng)速預(yù)測(cè)方面優(yōu)于單變量自回歸綜合移動(dòng)平均(Autoregressive Integrated Moving Average,ARIMA)模型。

  • Karlaftis和Vlahogianni (2011)比較了神經(jīng)網(wǎng)絡(luò)和ARIMA模型在交通領(lǐng)域的性能的研究并報(bào)告了神經(jīng)網(wǎng)絡(luò)的優(yōu)越性能的證據(jù),。

與樹狀模型方法相比:神經(jīng)網(wǎng)絡(luò)提供了更自然的方法來處理超越諸如時(shí)間序列,、面板或空間數(shù)據(jù)的橫截面數(shù)據(jù)的非線性關(guān)系。
缺點(diǎn):Marchi等人(2004年)質(zhì)疑神經(jīng)網(wǎng)絡(luò)相對(duì)于logistic回歸模型的優(yōu)越性,,認(rèn)為模型應(yīng)該盡可能的簡(jiǎn)約,,并擔(dān)心神經(jīng)網(wǎng)絡(luò)的過度擬合和可解釋性。
優(yōu)點(diǎn):Beck,,King和Zeng (2004)認(rèn)為使用測(cè)試集控制過度擬合優(yōu)于logit模型,。最重要的是,logit模型可能需要做出不切實(shí)際的假設(shè),。例如,,在他們的假設(shè)中,所有國(guó)家發(fā)生沖突的可能性是相同的,,而我們預(yù)期影響是不同的,,
(3)變分推理(Variational Inference)
變分推理通過允許更多的參數(shù)來增加模型的靈活性。它還可以有效地處理較大的數(shù)據(jù)集,。變分推理的基本思想是用更容易計(jì)算的分布來近似復(fù)雜的分布,。它提供了一種替代MCMC抽樣方法的方法,用準(zhǔn)確性來換取計(jì)算效率,。
  • Athey等人使用變分推斷來估計(jì)具有大量反映未觀察到的特征的潛在變量的餐館需求,,這將挑戰(zhàn)傳統(tǒng)方法,。

  • Ruiz,Athey和Blei (2017)估計(jì)了一個(gè)潛在屬性交互的順序消費(fèi)者選擇模型,,該模型使用高度分類的購(gòu)物車數(shù)據(jù),,考慮了單個(gè)商品之間的交互。

(二)處理非結(jié)構(gòu)化數(shù)據(jù)
1.問題提出
經(jīng)濟(jì)學(xué)家一般使用高度結(jié)構(gòu)化的數(shù)據(jù)(如橫截面,、時(shí)間序列或面板),。而目前非結(jié)構(gòu)化數(shù)據(jù)(如圖像、文本或語音等)變得越來越可獲得,,傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)工具包對(duì)后者的用處有限,。
** 2.當(dāng)前方法**
傳統(tǒng)方法依賴于基于領(lǐng)域知識(shí)的手工特性聚合數(shù)據(jù)。例如,,遙感數(shù)據(jù)被用來得出植被指數(shù)(NDVI),,或諸如夜間光照強(qiáng)度的單一測(cè)量。手機(jī)記錄被轉(zhuǎn)換成特定的指數(shù),。同樣,,當(dāng)處理文本數(shù)據(jù)時(shí),索引通常是基于某些術(shù)語或短語的出現(xiàn)次數(shù)來導(dǎo)出的,。
3.機(jī)器學(xué)習(xí)可以做什么
(1)端到端學(xué)習(xí)(End-To-End Learning),。
如果我們有大量的標(biāo)記數(shù)據(jù),我們可以使用“End-To-End Learning”,,不依賴手工的特征或變量,,而是讓機(jī)器學(xué)習(xí)算法(通常是DNN算法)學(xué)會(huì)直接從原始數(shù)據(jù)中提取有用的特征。這種方法避免了傳統(tǒng)方法中選擇或聚集所隱含的信息丟失,。
  • Ru?wurm and K?rner (2017)使用遙感數(shù)據(jù)(Sentinel 2 A圖像)作為輸入,,并使用德國(guó)Bavaria 137,000多個(gè)標(biāo)記田地的數(shù)據(jù)集來確定19個(gè)田地類別,。

  • You等人(2017年)使用多光譜遙感數(shù)據(jù)預(yù)測(cè)美國(guó)縣級(jí)大豆產(chǎn)量,。通過對(duì)數(shù)據(jù)生成過程做弱假設(shè),他們能夠減少輸入數(shù)據(jù)的維數(shù),。

(2)無監(jiān)督的DNNs預(yù)訓(xùn)練
無監(jiān)督的DNNs預(yù)訓(xùn)練用大量未標(biāo)記數(shù)據(jù)和有限標(biāo)記數(shù)據(jù),,其思想是以無監(jiān)督的方式依次訓(xùn)練神經(jīng)網(wǎng)絡(luò)的每一層。每一層都像一個(gè)自動(dòng)編碼器,,它的目標(biāo)是將輸入映射到自身,,同時(shí)采用某種形式的規(guī)范化。因此,,該模型也稱為堆疊式自動(dòng)編碼器,。一旦第一層被訓(xùn)練(即第一自動(dòng)編碼器),學(xué)習(xí)的編碼被給予第二層(第二自動(dòng)編碼器),然后第二層被訓(xùn)練并且其編碼被給予下一層,。這個(gè)過程持續(xù)到第二個(gè)最后一層,,其輸出可以被認(rèn)為是輸入數(shù)據(jù)的表示。最后一層然后使用標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,,以將該學(xué)習(xí)的表示與目標(biāo)變量相匹配,,通常只涉及少量參數(shù)。訓(xùn)練可以在此停止,,也可以使用標(biāo)記的數(shù)據(jù)在最后的監(jiān)督訓(xùn)練步驟中細(xì)化所有層的模型參數(shù),。
與PCA相比:無監(jiān)督的預(yù)訓(xùn)練靈活性較高。
(3)遷移學(xué)習(xí)(Transfer Learning)
在一個(gè)環(huán)境中訓(xùn)練的模型和參數(shù)可以在另一個(gè)環(huán)境中使用,。典型的應(yīng)用是圖像分類或目標(biāo)識(shí)別,。如VGG或ResNet這樣的大型模型是在大量標(biāo)記圖像數(shù)據(jù)集(如ImageNet)上進(jìn)行訓(xùn)練的。這些模型及其訓(xùn)練的參數(shù)可以被轉(zhuǎn)移到其他圖像識(shí)別任務(wù)中,,在這些任務(wù)中,,只有最后一層被訓(xùn)練,或者預(yù)處理的參數(shù)被用作起始值,。在直覺層面上,,即使一個(gè)模型最終被訓(xùn)練來區(qū)分狗和貓,模型的早期層次學(xué)習(xí)是通過如何識(shí)別圖像中的一般結(jié)構(gòu),,如邊緣,、線條或圓,,這些對(duì)其他應(yīng)用也是有用的,。
(4)'Brute Force' Feature Engineering
'Brute Force' Feature Engineering使用確定性有限自動(dòng)機(jī)(Deterministic Finite Automaton)自動(dòng)生成大量特征,目的是盡可能多地捕捉原始數(shù)據(jù)的變化,。然后在特征縮減回歸中使用創(chuàng)建的特征來選擇最有希望的特征,,雖然定義特征需要更多的“手工制作”,而不是端到端的學(xué)習(xí),、轉(zhuǎn)移學(xué)習(xí)或無監(jiān)督的預(yù)培訓(xùn),,但在網(wǎng)絡(luò)數(shù)據(jù)、軌跡,、電話記錄或家庭層面的跨國(guó)家掃描儀數(shù)據(jù)等輸入數(shù)據(jù)特別復(fù)雜的情況下,,這種方法很有潛力。
(三)文本分析
1.問題提出:解釋變量較多
在許多領(lǐng)域,,經(jīng)濟(jì)學(xué)家可以訪問大量的數(shù)據(jù)集,,包括觀察數(shù)據(jù)的數(shù)量(N)和解釋變量的數(shù)量(K)。例如土壤或天氣數(shù)據(jù),,可以包括許多在高粒度空間和時(shí)間分辨率下觀察到的特征(風(fēng),、溫度、降水量、蒸發(fā)等),,這些特征通常隨時(shí)間和/或空間的變化而不一致,。通常,經(jīng)濟(jì)理論和領(lǐng)域知識(shí)對(duì)于選擇應(yīng)該包含在模型中的特定變量只能提供微弱的指導(dǎo),。
2.當(dāng)前的計(jì)量經(jīng)濟(jì)學(xué)方法
(1)強(qiáng)加結(jié)構(gòu)來選擇K,,這種方法只有在K < N時(shí)才可行,如AIC比較所有可能的模型組合,,這只對(duì)小K可行,,當(dāng)K較大時(shí),特別是在處理空間或時(shí)間上不一致的高分辨率數(shù)據(jù)時(shí),,數(shù)據(jù)通常是通過提取相關(guān)的手工特性來聚合的,,這種聚集度量的設(shè)計(jì)需要特定的領(lǐng)域知識(shí),信息的丟失是不可避免的,。
(2)使用數(shù)據(jù)驅(qū)動(dòng)的降維技術(shù),,如主成分分析(PCA)。貝葉斯變量選擇或模型平均方法更靈活,,理論上也更一致,,但在行業(yè)中并不常用。
3.機(jī)器學(xué)習(xí)可以做什么
機(jī)器學(xué)習(xí)法在解決大K問題,,尤其是K>N時(shí)很有用,。但是即使當(dāng)N > K時(shí),這些方法也經(jīng)常是有用的,。一些不利于模型復(fù)雜性的機(jī)器學(xué)習(xí)方法,,如lasso可以被視為變量選擇技術(shù),樹形模型用于內(nèi)部變量選擇也可以很好地處理不相關(guān)的解釋變量。
(1)無監(jiān)督的降維方法,,例如用于貪婪分層預(yù)訓(xùn)練的(堆疊)自動(dòng)編碼器或者作為特征提取器,。
  • Li等(2016年)使用自動(dòng)編碼器基于傳感器數(shù)據(jù)提供更好的空氣污染預(yù)測(cè),同時(shí)考慮到空間和時(shí)間相關(guān)性,,并避免使用人工設(shè)計(jì)的特征,。

  • Zapana等人(2017年)使用自動(dòng)編碼器提取特征來表征大氣候時(shí)間序列數(shù)據(jù)。

  • Liu等(2015年),、薩哈,、米特拉和南軍地亞(2016年)和李等人(2018年)分別使用自動(dòng)編碼器來獲得天氣、季風(fēng)和水質(zhì)預(yù)報(bào),。

  • Bianchi等(2018),、Li等(2018)將自動(dòng)編碼器還與RNNs相結(jié)合,以捕捉時(shí)間動(dòng)態(tài)并處理丟失的觀測(cè)數(shù)據(jù),。

優(yōu)點(diǎn):可以利用未標(biāo)記的數(shù)據(jù),。
缺點(diǎn):它們旨在盡可能多地保留底層數(shù)據(jù)的變化,,但沒有考慮到對(duì)于給定的任務(wù),某些變化比其他變化更相關(guān),。例如,,對(duì)于產(chǎn)量預(yù)測(cè),天氣的某個(gè)變化可能是不相關(guān)的(例如,,生長(zhǎng)海子外部的溫度),。
(2)端到端學(xué)習(xí)
端到端學(xué)習(xí)方法可以考慮哪種變化最相關(guān),但要求有“足夠”的標(biāo)記數(shù)據(jù),, “足夠”取決于輸入數(shù)據(jù)的維度和問題的復(fù)雜性,。
(3)RNNs和CNNs
RNNs和CNNs非常適合處理大的K,特別適用于觀測(cè)在空間或時(shí)間上不重合的情況,。與無監(jiān)督方法相比,,神經(jīng)網(wǎng)絡(luò)的目標(biāo)不是盡可能多地保留變異,而是提取與有監(jiān)督預(yù)測(cè)任務(wù)相關(guān)的特征,。
①RNNs的一個(gè)缺點(diǎn)是,,盡管它們的體系結(jié)構(gòu)擅長(zhǎng)記憶事件的時(shí)間順序,但它們不能很好地檢測(cè)某個(gè)事件發(fā)生在哪個(gè)位置,。此外,,盡管RNN理論上可以記憶任意長(zhǎng)度的序列,但在實(shí)踐中,,一旦輸入序列變得過長(zhǎng),,它們的性能就會(huì)迅速下降。
②CNN具有更長(zhǎng)的有效記憶,,并能處理更大的序列長(zhǎng)度,。同時(shí),在CNN中,,事件的時(shí)間安排可以更自然地預(yù)先安排,。該模型因此可以得知冬季的天氣事件與春季的天氣事件有不同的影響,。
(四)因果推理和識(shí)別
1.問題提出:需要預(yù)測(cè)反事實(shí)
我們沒有觀察到未經(jīng)處理的觀察結(jié)果(或經(jīng)處理的對(duì)照觀察結(jié)果)會(huì)發(fā)生什么,,需要預(yù)測(cè)反事實(shí)。大多數(shù)因果推理的計(jì)量經(jīng)濟(jì)學(xué)方法都假設(shè)某種結(jié)構(gòu),。
2.當(dāng)前的計(jì)量經(jīng)濟(jì)學(xué)方法
(1)匹配
例如,,最近鄰對(duì)傾向分?jǐn)?shù),將由幾個(gè)匹配變量組成的多維對(duì)象折疊成一維鄰近度量的不同方式,。
①雙重穩(wěn)健回歸:A.匹配處理和對(duì)照觀察B.使用由它們的匹配傾向分?jǐn)?shù)加權(quán)的觀察進(jìn)行的處理來回歸結(jié)果,。這種方法對(duì)于匹配或回歸階段的錯(cuò)誤指定都是穩(wěn)健的。
②合成控制:其在處理前對(duì)結(jié)果匹配,,當(dāng)處理單位很少但時(shí)間序列較長(zhǎng)時(shí)是有用的,。局限性是對(duì)于許多可能的控制觀察,,估計(jì)每個(gè)控制的權(quán)重可能是有問題的。
(2)雙重差分(Difference In Differences)
如果處理的選擇是基于非時(shí)變的不可觀測(cè)數(shù)據(jù),,并且觀察了處理后的觀測(cè)數(shù)據(jù)的預(yù)處理,,那么就可以簡(jiǎn)單地應(yīng)用一個(gè)單位固定效應(yīng)的“雙重差分”方法。局限性為模型假設(shè)平行趨勢(shì)和普通沖擊對(duì)處理單位和控制單位有相同的影響,。如在評(píng)估一個(gè)地區(qū)的政策變化時(shí),,假設(shè)經(jīng)濟(jì)沖擊對(duì)該地區(qū)和其他“控制”地區(qū)的影響相同,而當(dāng)處理組中存在的異質(zhì)性未被建模時(shí),,對(duì)處理組的估計(jì)可能產(chǎn)生偏差,。
(3)兩階段最小二乘法(2SLS)
在內(nèi)生回歸的情況下,人們經(jīng)常使用兩階段最小二乘法(2SLS)的工具,。局限性為它假設(shè)在第一階段和第二階段都是線性關(guān)系,,以及處理的同質(zhì)性。
3.機(jī)器學(xué)習(xí)可以做什么
(1)反事實(shí)模擬(Counterfactual Simulation)
反事實(shí)模擬使用預(yù)處理和對(duì)照觀測(cè)的數(shù)據(jù),,預(yù)測(cè)如果不進(jìn)行處理,,外源處理的觀測(cè)結(jié)果會(huì)發(fā)生什么變化。將這一預(yù)測(cè)與處理觀察的實(shí)際結(jié)果進(jìn)行比較,,可以確定處理效果,。這些方法可用于隨機(jī)處理或控制處理分配的準(zhǔn)實(shí)驗(yàn)環(huán)境。
  • Burlig等人(2017年)將面板數(shù)據(jù)方法與lasso相結(jié)合,,從預(yù)處理數(shù)據(jù)中預(yù)測(cè)高頻學(xué)校能源消耗的靈活反事實(shí),,以評(píng)估減少學(xué)校能源使用的方案的效果。

(2)雙機(jī)器學(xué)習(xí)(Double ML,,DML)
DML結(jié)合了機(jī)器學(xué)習(xí)法的預(yù)測(cè)能力和解決正則化偏差的方法,。考慮下面的模型,,其中試驗(yàn)的結(jié)果是處理的加性效應(yīng)加上協(xié)變量的一些非線性函數(shù)(1),,并且這些相同的協(xié)變量非線性地決定處理
(3)匹配的機(jī)器學(xué)習(xí)方法和面板方法(ML Methods for Matching and Panel Methods.)。
①匹配的機(jī)器學(xué)習(xí)方法
梯度增強(qiáng)樹已被用于醫(yī)學(xué)研究中的傾向分?jǐn)?shù)匹配,。模擬數(shù)據(jù)表明,,在協(xié)變量之間的非線性和非加性關(guān)聯(lián)下,增強(qiáng)樹的表現(xiàn)很好,。Doudchenko和Imbens (2016)使用彈性網(wǎng)絡(luò)(Elastic Net)來估計(jì)這些權(quán)重,,因?yàn)閺母旧蟻碚f,這是一個(gè)預(yù)測(cè)問題,,其中控制觀測(cè)被用來預(yù)測(cè)趨勢(shì)前處理觀測(cè),。用于選擇的降維機(jī)器學(xué)習(xí)技術(shù)經(jīng)常與雙穩(wěn)健回歸相結(jié)合,以控制模型指定中的潛在誤差,。
  • Mullally和Chakravarty (2018年)應(yīng)用這種方法來估計(jì)Nicaragua地下水灌溉方案的效果,。

②面板方法
當(dāng)處理是由可觀察性決定時(shí),,標(biāo)準(zhǔn)方法是使用面板方法進(jìn)行識(shí)別,建立一個(gè)差異框架,。然后控制可能與處理位置相關(guān)的非時(shí)變的不可觀察的事物,。一些作者已經(jīng)將機(jī)器學(xué)習(xí)方法用于面板設(shè)置,以允許降維和更靈活的功能形式,。
可能存在的問題:A.許多系數(shù)實(shí)際上為零的假設(shè)可能與大多數(shù)個(gè)體異質(zhì)性非零的觀點(diǎn)相沖突,。B.我們通常假設(shè)同一個(gè)體的誤差隨著時(shí)間的推移是相關(guān)的,這可能影響使用正則化選擇的解釋變量的數(shù)量,。
(4)因果森林(Causal Forests)
①可以估計(jì)相當(dāng)復(fù)雜的模型,,根據(jù)預(yù)測(cè)能力選擇協(xié)變量作為權(quán)重,因此對(duì)于添加非信息協(xié)變量是穩(wěn)健的,。
②可以在無基礎(chǔ)的情況下一致地評(píng)估異基因處理效果,。他們的算法生長(zhǎng)“誠(chéng)實(shí)”的樹,根據(jù)一個(gè)子樣本估計(jì)分裂,,根據(jù)另一個(gè)子樣本估計(jì)處理效果,。
③可以在純預(yù)測(cè)任務(wù)中生成置信區(qū)間也很有用。與DML相反,,因果森林僅限于這種特定的機(jī)器學(xué)習(xí)法,,以控制協(xié)方差對(duì)結(jié)果的影響。
  • Chernozhukov等人(2018)應(yīng)用幾種機(jī)器學(xué)習(xí)方法來估計(jì)隨機(jī)處理對(duì)小額信貸干預(yù)對(duì)借款,、自營(yíng)職業(yè)和消費(fèi)的異質(zhì)性影響,。他們確定受影響最大和最小的群體以及與他們相關(guān)的特征。

  • Carter, Tjernstr?m and Toledo (2019)使用廣義隨機(jī)森林來評(píng)估Nicaragua小企業(yè)項(xiàng)目對(duì)農(nóng)民結(jié)果的異質(zhì)性影響,,并找出對(duì)弱勢(shì)家庭的最大影響,。雖然他們發(fā)現(xiàn)總體成果不大,但那些在基線時(shí)處于不利地位的家庭從該方案中獲益更多,,突出了鎖定目標(biāo)的潛在好處,。

  • Rana和Miller (2019年)使用因果森林結(jié)合匹配來估計(jì)印度兩種類型森林管理方案的異質(zhì)性影響。

(5)IV和Deep IV,。
①IV
如果預(yù)測(cè)因子與誤差項(xiàng)不相關(guān),,即它們是外生的,那么反事實(shí)結(jié)果的預(yù)測(cè)只能識(shí)別政策或處理效果,。有幾篇論文采用機(jī)器學(xué)習(xí)技術(shù)來選擇子集,,以預(yù)測(cè)線性IV回歸的第一階段。
  • Bevis and Villa (2017)使用這種方法來估計(jì)母親健康對(duì)兒童結(jié)局的長(zhǎng)期影響,,他們?cè)谀赣H的早期生命中有大量來自天氣變化的潛在工具。

  • Ordonez,,Baylis和Ramirez (2018)使用這種方法預(yù)測(cè)墨西哥Michoacan社區(qū)森林管理的采用情況,,以評(píng)估其對(duì)森林結(jié)果的影響,。它們有來自地點(diǎn)和活動(dòng)或林務(wù)人員的多種潛在工具,影響社區(qū)森林管理計(jì)劃的供應(yīng),。

②Deep IV
Deep IV是一種2LS類型的方法,,該方法使用機(jī)器學(xué)習(xí)法技術(shù)來放松2LS的限制性線性和同質(zhì)性假設(shè),并克服了非參數(shù)IV方法的計(jì)算限制,。與其他機(jī)器學(xué)習(xí)方法一樣,,它也提供了一種變量選擇的算法方法,這在面對(duì)大量可能的工具時(shí)可能是有用的,。Deep IV第一階段的估計(jì)方法是一個(gè)直接的監(jiān)督預(yù)測(cè)任務(wù),,其中靈活的機(jī)器學(xué)習(xí)法工具,如神經(jīng)網(wǎng)絡(luò),,可以用來預(yù)測(cè)復(fù)雜的儀器和控制對(duì)處理的非線性影響,。第二階段也是受監(jiān)督的機(jī)器學(xué)習(xí)設(shè)置。然而,,用這種方法訓(xùn)練神經(jīng)網(wǎng)絡(luò)更加復(fù)雜,,因?yàn)樗枰谟?xùn)練期間評(píng)估積分以導(dǎo)出損失函數(shù)的梯度。
(五)政策分析模擬
1.問題提出
除了計(jì)量經(jīng)濟(jì)學(xué)應(yīng)用之外,,我們的專業(yè)還大量使用計(jì)算模擬模型,,尤其是用于政策分析。與政策相關(guān)的模型或建模系統(tǒng)的復(fù)雜性不斷增加,,這種復(fù)雜性在應(yīng)用和校準(zhǔn)中產(chǎn)生了巨大的計(jì)算需求,。
2. 當(dāng)前方法
ABM模型越來越多地被用作分析農(nóng)業(yè)和環(huán)境經(jīng)濟(jì)問題。盡管它們很適合分析個(gè)體之間復(fù)雜的相互作用所產(chǎn)生的動(dòng)態(tài)關(guān)系和涌現(xiàn)出的現(xiàn)象,,但它們的區(qū)域覆蓋范圍,、個(gè)體數(shù)量或模擬的個(gè)體行為復(fù)雜性通常受到計(jì)算約束等因素的限制。
3.機(jī)器學(xué)習(xí)可以做什么
(1)代理模型(Surrogate Modelling)
代理模型,,也稱為元模型(Meta-Modelling)或響應(yīng)面模型(Response Surface Modelling),,近似基礎(chǔ)復(fù)雜模型的輸入和輸出之間的映射。這種方法的潛在優(yōu)勢(shì)在于,,預(yù)測(cè)的準(zhǔn)確性和維數(shù)僅受模型生成的待逼近數(shù)據(jù)量的限制,。
①可用于模型校準(zhǔn),并在水資源建模,,陸地表面模型,,建筑能源需求和材料科學(xué)中廣泛應(yīng)用。使用代理模型進(jìn)行校準(zhǔn)的基本思想:A.在模擬模型輸出的樣本上訓(xùn)練替代模型,;B.基于該代理模型執(zhí)行校準(zhǔn),,以找到與經(jīng)驗(yàn)觀察數(shù)據(jù)最接近的參數(shù)值。
②用于物理系統(tǒng)復(fù)雜模型的靈敏度分析,。
這種方法仍然需要運(yùn)行相對(duì)大量的底層模型來生成樣本以訓(xùn)練代理模型,。為了緩解這一問題,,可采用自適應(yīng)抽樣(Adaptive Sampling)或迭代標(biāo)定法(Iterative Calibration)等方法。
(2)生成式對(duì)抗網(wǎng)(Generative Adversarial Nets ,,GANs)
GANs訓(xùn)練一個(gè)生成器和一個(gè)鑒別器模型,。生成器旨在學(xué)習(xí)生成與實(shí)際圖像相似的圖像,而鑒別器旨在學(xué)習(xí)如何有效區(qū)分生成的圖像和實(shí)際圖像,。將鑒別器結(jié)果反饋給發(fā)生器并以迭代方式提高其性能,。在模型校準(zhǔn)的情況下,模型生成器可以探索以何種方式來調(diào)整模型的參數(shù),,使得生成的輸出數(shù)據(jù)盡可能接近觀察數(shù)據(jù),,同時(shí)訓(xùn)練鑒別器來區(qū)分生成的數(shù)據(jù)和觀察數(shù)據(jù)。
優(yōu)點(diǎn):不需要事先指定比較標(biāo)準(zhǔn),,鑒別器自己學(xué)習(xí)哪些特征對(duì)檢測(cè)生成的數(shù)據(jù)最有用,;而發(fā)生器的目標(biāo)是盡可能接近地模擬觀察到的數(shù)據(jù)。

四,、經(jīng)濟(jì)學(xué)家能給機(jī)器學(xué)習(xí)帶來什么

(一)為什么單純的數(shù)據(jù)驅(qū)動(dòng)模型是不夠的,?
1. 數(shù)據(jù)及其標(biāo)簽短缺
盡管數(shù)據(jù)可用性有所提高,但在許多應(yīng)用中,,我們?nèi)匀幻媾R數(shù)據(jù)及其標(biāo)簽的短缺,。
2.數(shù)據(jù)中包含的信息不足
例如,當(dāng)處理罕見事件時(shí),,或者當(dāng)結(jié)果非常嘈雜時(shí),,或者在處理高度復(fù)雜的過程和動(dòng)態(tài)變化的非平穩(wěn)模式時(shí),即使是“大數(shù)據(jù)”也可能是不夠的,,在這些情況下,,發(fā)現(xiàn)虛假相關(guān)性和發(fā)現(xiàn)非泛化關(guān)系的風(fēng)險(xiǎn)都很高。
3.數(shù)據(jù)的選擇偏差
例如,,手機(jī)數(shù)據(jù)只提供給那些能夠使用手機(jī)的人,;標(biāo)簽的質(zhì)量可能因國(guó)家或地區(qū)而異。
(二)理論知識(shí)可以從兩個(gè)方面幫助應(yīng)對(duì)這些數(shù)據(jù)挑戰(zhàn),。
1.理論領(lǐng)域的知識(shí)可以幫助理解一個(gè)模型為什么工作以及它是否已經(jīng)學(xué)會(huì)了合理的關(guān)系,。
2.結(jié)合理論知識(shí)可以提高機(jī)器學(xué)習(xí)法的效率(見第3.1節(jié)),尤其是在所描述的數(shù)據(jù)信息有限且過程復(fù)雜的情況下,。

五,、前沿研究

(一)提高機(jī)器學(xué)習(xí)的預(yù)測(cè)性能
1.引入結(jié)構(gòu)信息
經(jīng)濟(jì)理論通常提供關(guān)于行為函數(shù)曲率(生產(chǎn)前沿、利潤(rùn)函數(shù))或邊際效應(yīng)符號(hào)的信息,。這種附加的結(jié)構(gòu)信息在數(shù)據(jù)可用性有限和特征之間的復(fù)雜交互關(guān)系的情況下可能特別有幫助,。
2. 監(jiān)督方法和非監(jiān)督方法相結(jié)合
(二)用于統(tǒng)計(jì)推斷
將ML與統(tǒng)計(jì)推斷過程相結(jié)合,從變分推理程序的具體情況發(fā)展到一個(gè)通用的方法,只需要說明一個(gè)概率經(jīng)濟(jì)模型,,就可以從中產(chǎn)生一個(gè)隨機(jī)樣本,。
(三)用于模型模擬
1.強(qiáng)化學(xué)習(xí)(Reinforcement Learning)
強(qiáng)化方法通過選擇不同的動(dòng)作并觀察相關(guān)的獎(jiǎng)勵(lì)來學(xué)習(xí),是一種優(yōu)化方法,。它們特別適合于順序設(shè)置,,其中代理按順序執(zhí)行多個(gè)操作,之前的操作影響后續(xù)操作的結(jié)果,,并且反饋不是即時(shí)的,,而是延遲的。他們也能處理不確定的環(huán)境,,其結(jié)果不是決定性的,。
強(qiáng)化學(xué)習(xí)越來越多地用于博弈論環(huán)境,但迄今為止政策相關(guān)性有限,。進(jìn)一步的發(fā)展可能有潛力在更具描述性的,、與政策相關(guān)的模型中建立具有學(xué)習(xí)代理的模型,例如,,代理根據(jù)自己的經(jīng)驗(yàn)和環(huán)境(網(wǎng)絡(luò))提供的信息做出最佳戰(zhàn)略選擇,。
2.GANs
GANs中的生成器和鑒別器算法之間的相互作用允許該方法了解什么特征是重要的,而不必先驗(yàn)地選擇要校準(zhǔn)的數(shù)據(jù)的特定的有限特征,。因此可利用復(fù)雜的數(shù)據(jù)結(jié)構(gòu),,并且生成的仿真模型通常更有效。
(四)保護(hù)隱私的機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)法研究的一個(gè)新的活躍領(lǐng)域促進(jìn)了在多個(gè)數(shù)據(jù)集上模型的分布式訓(xùn)練,,這些數(shù)據(jù)集不需要被共享,。鑒于機(jī)器學(xué)習(xí)從數(shù)據(jù)中獲取信息的強(qiáng)大能力,僅僅移除個(gè)人標(biāo)識(shí)符已被證明不足以保護(hù)參與者的身份,。此外,,數(shù)據(jù)泄露正變得越來越普遍,引起了學(xué)者們對(duì)收集或分析機(jī)密數(shù)據(jù)的擔(dān)憂,。保護(hù)隱私的機(jī)器學(xué)習(xí)對(duì)未來的經(jīng)濟(jì)學(xué)家來說可能很重要,,既允許使用機(jī)密數(shù)據(jù),又有利于合作,。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多