久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

潮科技行業(yè)入門指南:深度學(xué)習(xí)理論與實戰(zhàn):提高篇(20)—— ?強化學(xué)習(xí)簡介 (六)

 昵稱535749 2019-03-25

編者按:本文節(jié)選自《深度學(xué)習(xí)理論與實戰(zhàn):提高篇 》一書,原文鏈接http://fancyerii./2019/03/14/dl-book/ ,。作者李理,,環(huán)信人工智能研發(fā)中心vp,有十多年自然語言處理和人工智能研發(fā)經(jīng)驗,,主持研發(fā)過多款智能硬件的問答和對話系統(tǒng),,負(fù)責(zé)環(huán)信中文語義分析開放平臺和環(huán)信智能機器人的設(shè)計與研發(fā)。

以下為正文,。

潮科技行業(yè)入門指南 | 深度學(xué)習(xí)理論與實戰(zhàn):提高篇(20)—— 強化學(xué)習(xí)簡介(六)

本文介紹Policy Gradient,,這是這個系列的最后一篇文章。

更多本系列文章請點擊強化學(xué)習(xí)簡介系列文章,。更多內(nèi)容請點擊深度學(xué)習(xí)理論與實戰(zhàn):提高篇,。

值函數(shù)的方法里的策略是隱式的,比如)π(a|s)=argmaxaQ(s,a),。而Policy Gradient不同,,它直接有一個參數(shù)化的策略(比如是一個神經(jīng)網(wǎng)絡(luò)),Policy Gradient通過直接求Reward對策略函數(shù)的參數(shù)的梯度來不斷的找到更好的策略(參數(shù))使得期望的Reward越來越大,。這是一種梯度上升(Gradient Ascent)算法,,和梯度下降類似,只不過一個是求最大值,,一個是求最小值,,如果加一個負(fù)號,那么就是一樣的了,。

Reward

假設(shè)策略函數(shù)(可以是很復(fù)雜的神經(jīng)網(wǎng)絡(luò))的參數(shù)是θ,我們把策略函數(shù)記作πθ(a|s),,它表示在狀態(tài)s時采取策略a的概率,。Reward函數(shù)的定義如下:

潮科技行業(yè)入門指南 | 深度學(xué)習(xí)理論與實戰(zhàn):提高篇(20)—— 強化學(xué)習(xí)簡介(六)

上式中,dπ(s)是以πθπθ為轉(zhuǎn)移概率的馬爾科夫鏈的穩(wěn)態(tài)分布(stationary distribution),。馬爾科夫鏈有一個很好的性質(zhì),,當(dāng)跳轉(zhuǎn)次數(shù)趨于無窮大的時候,最終它處于某個狀態(tài)的概率只取決于跳轉(zhuǎn)概率,而與初始狀態(tài)無關(guān),。為了記號的簡單,,我們把dπθ簡記為dπQπθ簡記作Qπ。穩(wěn)態(tài)概率的形式化定義為:)dπ(s)=limt→∞P(st=s|s0,πθ),。當(dāng)t趨于無窮大的時候,,概率P(st=s|s0,πθ)與s0s0無關(guān),因此可以記作dπ(s),。

我們可以這樣來解讀J(θ):要計算一個策略π的Reward,,我們可以一直運行(run)這個策略無窮多次,那么最終停在狀態(tài)s的概率是穩(wěn)態(tài)分布dπ(s),,而狀態(tài)s的價值是Vπ(s),,因此我們認(rèn)為最終的Reward就是∑s∈Sdπ(s)Vπ(s)。而后面那個等式就是簡單的把Vπ(s)展開成Qπ(s),,這個技巧我們在前面已經(jīng)見過很多次了,。

Policy Gradient定理

計算Reward對參數(shù)θ的梯度?θJ(θ)比較Tricky。因為J(θ)中的三項dπ(s),、πθ(a|s)和Qπ(s,a)都與參數(shù)θθ有關(guān),,而且dπ(s)和Qπ(s,a)都是非常間接的受θ的影響——θ影響策略πθ(a|s),而策略(跳轉(zhuǎn)概率)影響穩(wěn)態(tài)分布dpi(s)和值函數(shù)Qπ(s,a),。

Policy Gradient定理幫我們理清上面復(fù)雜的函數(shù)依賴關(guān)系,,給出了簡潔的Policy Gradient的計算公式:

潮科技行業(yè)入門指南 | 深度學(xué)習(xí)理論與實戰(zhàn):提高篇(20)—— 強化學(xué)習(xí)簡介(六)

上面的公式非常簡潔好記,直接把梯度符號?越過各種求和符合直接放到)πθ(a|s)前就行,。

Policy Gradient定理的推導(dǎo)

推導(dǎo)數(shù)學(xué)公式有點多,,跳過也不影響理解后續(xù)的內(nèi)容(但是Policy Gradient定理得記住),但是作者強烈建議讀者能拿出紙筆詳細(xì)的抄寫一遍,,這會對后續(xù)的算法的理解很有幫助,。雖然推導(dǎo)過程有些繁瑣,但并不復(fù)雜,,如果有一兩步確實不能理解,,讀者也可以忽略其推導(dǎo)過程暫時”假設(shè)”它是對的,也許等讀完整個過程之后就能理解它了,。

我們先看Vπ(s)的梯度:

潮科技行業(yè)入門指南 | 深度學(xué)習(xí)理論與實戰(zhàn):提高篇(20)—— 強化學(xué)習(xí)簡介(六)因此我們有:

潮科技行業(yè)入門指南 | 深度學(xué)習(xí)理論與實戰(zhàn):提高篇(20)—— 強化學(xué)習(xí)簡介(六)

上面的公式是遞歸定義的,,右邊的?θVπ(s′)又可以用相同的方法展開,后面我們會用到,。

我們下面考慮如下的訪問序列:

潮科技行業(yè)入門指南 | 深度學(xué)習(xí)理論與實戰(zhàn):提高篇(20)—— 強化學(xué)習(xí)簡介(六)

定義從狀態(tài)s經(jīng)過k步跳轉(zhuǎn)到狀態(tài)x的概率為ρπ(s→x,k),。這個概率的計算需要遞歸進行:

當(dāng)k=0時,ρπ(s→s,k=0)=1,,除了跳轉(zhuǎn)到自己之外其余的概率都是0

k=1時,,ρπ(s→s′,k=1)=∑aπθ(a|s)P(s′|s,a),。

k>1時,ρπ(s→x,k+1)=∑s′ρπ(s→s′,k)ρπ(s′→x,1),。

當(dāng)k=1時,,也就是從狀態(tài)s調(diào)整到s’的概率,我們需要遍歷每一個action a,,在策略π下,,我們采取a的概率是π(a|s),而我們在狀態(tài)s下采取a跳到s’的概率是P(s′|s,a),,因此就得到k=1時的計算公式,。

而從s通過k+1步跳轉(zhuǎn)到x的概率計算,我們分為兩步:第一步是s通過k步跳轉(zhuǎn)到s’,;第二步從s’跳轉(zhuǎn)到x,。前者的概率是ρπ(s→s′,k),后者的概率是ρπ(s′→x,1),,因此就得到k>1的情況,。

接下來我們遞歸的展開?θVπ(s),為了簡單,,我們定義?(s)=∑a∈A?θπθ(a|s)Qπ(s,a),,因為對a求和了,所有右邊是只與s有關(guān)而與a無關(guān)的函數(shù),。

下面的推導(dǎo)就是通過不斷的展開?θVπ(s):

潮科技行業(yè)入門指南 | 深度學(xué)習(xí)理論與實戰(zhàn):提高篇(20)—— 強化學(xué)習(xí)簡介(六)

上面的推導(dǎo)把?θQπ(s,a)去掉了,,有了?θVπ(s)之后,我們就可以計算

潮科技行業(yè)入門指南 | 深度學(xué)習(xí)理論與實戰(zhàn):提高篇(20)—— 強化學(xué)習(xí)簡介(六)

我們可以這樣來解讀η(s)=∑k=0∞ρπ(s0→s,k):η(s)表示這個policy從s0開始重復(fù)不斷的執(zhí)行,,”經(jīng)過”狀態(tài)s的概率,。顯然我們可以從s0零步跳轉(zhuǎn)到s(只能是跳到自己);s0一步跳轉(zhuǎn)到s,;…,。因此把這些概率加起來就是”經(jīng)過”狀態(tài)s的概率。

因為馬爾科夫鏈的極限是趨近于穩(wěn)態(tài)分布,,用通俗的話說就是時間足夠大之后處于狀態(tài)s的概率與初始狀態(tài)無關(guān),。因此存在某個T,當(dāng)時刻t>T時,,p(s)=dπ(s),。因此∑k=0∞ρπ(s0→s,k)可以分為兩部分,第一部分是∑k=0T,,另一部分是sumk=T+1∞,。前一部分總是一個有限的值,而后一部分是無窮大,,因此可以忽略前一部分,,而sumk=T+1∞ρπ(s0→s,k)的平均值等于dπ(s),而且∑sdπ(s)=1,,因此有dπ(s)=η(s)/∑sη(s),。

對于連續(xù)的情況∑sη(s)=1,而對于Episode的情況∑sη(s)等于Episode的平均長度,。上面的梯度可以繼續(xù)簡化:

潮科技行業(yè)入門指南 | 深度學(xué)習(xí)理論與實戰(zhàn):提高篇(20)—— 強化學(xué)習(xí)簡介(六)

上式中Eπ指的是Es~dπ,a~πθ,。這里有一個公式需要大家熟悉:

潮科技行業(yè)入門指南 | 深度學(xué)習(xí)理論與實戰(zhàn):提高篇(20)—— 強化學(xué)習(xí)簡介(六)

對照上面的公式,最后一步就比較容易理解了,。把Policy Gradient定理寫成期望的形式在實現(xiàn)的時候更加方便,,因為實現(xiàn)時我們通常會使用采樣的方法(不過是MC的全采樣還是TD的只采樣一個時刻),期望等價于采樣的求和Ef(X)≈1N∑if(xi),。

這個式子是各種Policy Gradient算法的基礎(chǔ),,所有的Policy Gradient算法的目的都是為了使得估計的Eπ的均值接近真實值同時又盡量保證方差較少。

也就是說,,Policy Gradient的目的是為了計算梯度g:=?θE[∑t=0∞r(nóng)t],,最終又都可以寫出統(tǒng)一的形式:=E[∑t=0∞Ψt?θlogπθ(at|st)]。其中l(wèi)ogπθ(at|st)可以類比?θln?πθ(a|s),,而Ψt可以有很多種近似方法,,比如:

潮科技行業(yè)入門指南 | 深度學(xué)習(xí)理論與實戰(zhàn):提高篇(20)—— 強化學(xué)習(xí)簡介(六)

因為Policy Gradient通常和深度學(xué)習(xí)結(jié)合,因此本章不介紹具體的代碼,,后面深度強化學(xué)習(xí)的部分會有Policy Gradient代碼介紹,。

本文經(jīng)授權(quán)發(fā)布,不代表36氪立場,。如若轉(zhuǎn)載請聯(lián)系原作者,。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報,。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多