久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

概率圖模型(六):強化學(xué)習(xí)概率推斷

 漢無為 2022-11-13

每日一句

There is not one big cosmic meaning for all, there is only the meaning we each give to our life. —Ana?s Nin

本文大綱如下:

Image


前言

通過將學(xué)習(xí)問題的全部內(nèi)容用概率理論的術(shù)語來表達,概率圖模型(PGM)提供了一致和靈活的框架來設(shè)計原則性的目標(biāo),,建立反映世界因果結(jié)構(gòu)的模型,并允許針對廣泛的問題領(lǐng)域部署一套通用的推理方法,。最重要的是,,在PGM的框架中,,只需寫下模型和提出問題,,學(xué)習(xí)和推理的目標(biāo)就會自動出現(xiàn),。

強化學(xué)習(xí)(reinforcement learning)或最優(yōu)控制的決策問題被設(shè)計為一個框架,,該框架旨在通過用效用或獎勵來增強概率模型,,其中獎勵函數(shù)( eward function)被視為一個外在的信號,。盡管底層動態(tài)系統(tǒng)仍可由概率圖模型描述,,確定最佳行動方案(計劃)或最佳決策策略(政策)是一個與概率推理完全不同的問題類型,。后面將介紹:決策問題只是一個特定類型的圖模型中的推理問題。將決策形式化為概率圖模型中的推理,,原則上可以讓我們使用大量的近似推理工具,,以靈活和強大的方式擴展模型,,并對組合性和部分觀察性進行推理,。

具體來說,我們將討論強化學(xué)習(xí)或最優(yōu)控制問題的泛化,,有時被稱為最大熵強化學(xué)習(xí)(maximum entropy reinforcement learning),,在確定性動力學(xué)的情況下相當(dāng)于精確的概率推理,而在隨機動力學(xué)的情況下相當(dāng)于變分推理,。雖然具體的推導(dǎo)方法不同,但基礎(chǔ)框架和優(yōu)化目標(biāo)是相同的,。所有這些方法都涉及到將控制或強化學(xué)習(xí)明確或隱含地表述為PGM,,然后使用PGM學(xué)習(xí)和推理方法來解決問題,。

將強化學(xué)習(xí)和決策表述為推理,還引出了提供了:基于最大熵的自然探索策略,,逆向強化學(xué)習(xí)(inverse reinforcement learning),,以及部署強大的近似推理算法來解決強化學(xué)習(xí)問題的能力,。此外,概率推理和控制之間的聯(lián)系為獎勵函數(shù)的意義及其對最優(yōu)策略的影響提供了概率解釋,。強化學(xué)習(xí)中獎勵或成本函數(shù)的設(shè)計往往是藝術(shù)與科學(xué)的結(jié)合,,獎勵的選擇往往模糊了算法和目標(biāo)之間的界限,,特定任務(wù)的啟發(fā)式方法和任務(wù)目標(biāo)結(jié)合成一個獎勵,。在作為推理的控制框架中,獎勵勾勒一個隨機變量的分布,最優(yōu)策略的目的是明確地匹配由獎勵和系統(tǒng)動力學(xué)定義的概率分布,。

強化學(xué)習(xí)介紹

在監(jiān)督學(xué)習(xí)中,,我們有一組數(shù)據(jù),,我們的目的是學(xué)習(xí)一個近似于的模型,。在無監(jiān)督學(xué)習(xí)中,,我們有一組數(shù)據(jù),,我們尋求學(xué)習(xí)一個接近的模型,。強化學(xué)習(xí)是一個閉環(huán),,AGENT可以與世界互動,獲得樣本并學(xué)習(xí)一個策略,,在給定的環(huán)境中實現(xiàn)獎勵函數(shù)的最大化,。

強化學(xué)習(xí)可以稱為馬爾可夫決策過程(Markov Decision Process, MDP),。一個MDP由一組、一組可能的行動,、環(huán)境動態(tài)和一個獎勵函數(shù)指定,。環(huán)境動力學(xué)(environment dynamics)規(guī)定了agent在采取行動后從狀態(tài)到狀態(tài)的轉(zhuǎn)移概率,。獎勵函數(shù)提供了一個標(biāo)量反饋,,指定了行動的效用,。該MDP中的軌跡(trajectory)表示為

利用這個框架,我們可以解決兩個常見的問題,。第一個問題是找到一個策略,,為每個給定的狀態(tài)輸出行動,,使沿軌跡的累積獎勵達到最大,。另外,我們可能給定的一組最優(yōu)軌跡找出MDP,。第一個問題是標(biāo)準的RL目標(biāo),,而第二個問題則被稱為逆向強化學(xué)習(xí),。

定義

從時間點t開始的累積回報被定義為從時間點t開始的累積獎勵

如果,,總和就會發(fā)散,我們可以使用折扣系數(shù)的概念,,其中,,得到一個有限的總和,。

策略是一種從狀態(tài)到行動的映射。它可以是確定性的,,也可以是隨機性的,。在最一般的形式下,,在任何狀態(tài)下,,s

狀態(tài)的價值函數(shù)被定義為從狀態(tài)開始并遵循策略時獲得的累積獎勵期望,。

狀態(tài)-行動對的價值函數(shù)或更多地被稱為狀態(tài)-行動對(s,a)的函數(shù),,被定義為從狀態(tài)開始,,采取行動a并在此后遵循策略時獲得的累積獎勵期望,。

價值和Q函數(shù)的貝爾曼方程

鑒于價值和函數(shù)的定義,,自然可以推導(dǎo)出以下貝爾曼方程,。

最優(yōu)策略和價值函數(shù)

RL的目標(biāo):找到能實現(xiàn)最高預(yù)期收益的最優(yōu)政策,。如果一個策略在所有狀態(tài)下的預(yù)期收益都大于 ,,則該策略優(yōu)于或等于:

鑒于此,我們可以定義最優(yōu)價值和Q函數(shù),以及貝爾曼最優(yōu)方程:

其中是折扣因子,,表示未來狀態(tài)下獎勵的重要性.上述貝爾曼更新也可以用下圖來說明,。

Image

如果我們能計算出最優(yōu)的,,那么我們可以恢復(fù)最優(yōu)政策:

為了恢復(fù)一組最優(yōu)軌跡,,我們只需要執(zhí)行最優(yōu)策略:

設(shè),。作為完整軌跡,。,。在圖模型中推理,,可以計算出:

此外,,我們還知道以下的軟性關(guān)系:

我們也能得到:

其中,,我們通常稱優(yōu)勢函數(shù)(advantage function),。

推理程序想要優(yōu)化的目標(biāo)是散度:

其中是策略的熵,。第一項只是標(biāo)準的RL目標(biāo),,而第二個熵項是用于正則化。

對于確定性動態(tài),,我們可以直接得到這個目標(biāo)。對于隨機動態(tài),,我們從ELBO中得到(后面介紹).

小結(jié)

Image

強化學(xué)習(xí)通常被建模為馬爾可夫決策過程(MDP),一個典型的MDP有4個主要部分,。

  • 初始狀態(tài)分布:
  • 轉(zhuǎn)移概率:
  • 策略:
  • 獎勵:

Image

為了用圖形模型表示MDP,我們引入了一個輔助變量來定義最優(yōu)軌跡的分布,。圖模型的表示方法為:
  • 初始狀態(tài)分布:
  • 轉(zhuǎn)移概率:
  • 策略:
  • 獎勵:
  • 優(yōu)化:

引入的輔助變量允許我們對次優(yōu)行為進行建模,,并可用于解決逆向強化學(xué)習(xí)問題,。的圖模型表示為我們提供了一種通過推理算法解決控制和規(guī)劃問題的選擇。

策略梯度

在本節(jié)中,,我們將研究直接優(yōu)化標(biāo)準RL目標(biāo)函數(shù),。是策略函數(shù)的參數(shù),,即,,相當(dāng)于找到最佳策略函數(shù)。

首先,,讓我們從定義軌跡的概率分布開始,。任何軌跡的概率由以下公式給出:

現(xiàn)在,的最優(yōu)值是使我們的報酬期望最大化,,即:

目標(biāo)函數(shù)

因此,,最優(yōu)的是使目標(biāo)函數(shù)最大化的

我們可以通過提取軌跡,、計算期望的蒙特卡洛估計來估計這個目標(biāo)函數(shù)

對目標(biāo)函數(shù)進行梯度上升來優(yōu)化,。在目標(biāo)函數(shù)的近似形式中,,對參數(shù)沒有明確的依賴性,。這可能會使我們認為,。當(dāng)然不是,對的依賴被加入蒙特卡洛近似中,。為了明確這種依賴性,我們可以把寫成如下形式:

其中第二步來自期望的定義,,第三步是由于積分和梯度算子的線性,,第四步是由于不依賴,。

很難計算,,因為這個積分沒有明顯的蒙特卡洛估計,取決于環(huán)境的動態(tài)變化,,我們可能不知道這種變化是什么。

我們可以使用對數(shù)梯度技巧來輕松估計,。更具體地說 :

因此, 可以寫為:

現(xiàn)在,,我們將代入到的表達式中

因此,,我們把寫成對的期望

試著評估,,首先寫出

變?yōu)椋?/p>

最后,,將的表達式代入的表達式,可以得到:

通過抽取樣本軌跡,,用蒙特卡洛平均值來估計這個期望值 :

現(xiàn)在可以通過執(zhí)行梯度上升法來更新的估計:

很明顯,,更新規(guī)則試圖提高總回報較高軌跡的權(quán)重(因為)較高),并抑制那些總回報較低的軌跡(因為較低),。

將所有步驟放在一起,,我們就有了REINFORCE算法:

Image

Value Based Reinforcement Learning

我們可以學(xué)習(xí)最優(yōu)價值函數(shù),并從中檢索最佳策略,,而不是學(xué)習(xí)強化學(xué)習(xí)代理的策略,。如果我們得到的值,我們可以得到最優(yōu)策略為.

策略迭代

策略迭代分兩步進行,。第一步,策略評估,,使用bellman更新迭代評估策略函數(shù)。

第二步是貪婪地更新策略,,采取具有最高值的行動。

Image

策略改進步驟保證至少和當(dāng)前策略一樣好,。這可以直觀地理解為以下幾點。假設(shè)我們在第一步采取了的行動,,并依照策略,。這樣做比從一開始就遵循政策要好,或者至少是一樣好,,因為我們采取了具有最高值的行動。然后,,當(dāng)我們從轉(zhuǎn)移到狀態(tài)時,我們可以擴展這個論點,。也就是說,我們選擇行動. 從狀態(tài)選擇行動,,并從那里開始遵循策略,。同樣地,在每一步跟隨更新的策略,,保證至少與當(dāng)前策略一樣好。

Image

上圖顯示了策略迭代,。策略驗證步驟評估了正確的價值函數(shù),。對策略的貪婪更新改善了策略,,但價值函數(shù)不再正確,。經(jīng)過多個迭代步驟,,這兩個步驟都收斂到了真實值。

價值迭代

我們是否有辦法避免明確表示策略,,而只根據(jù)價值函數(shù)進行強化學(xué)習(xí)。我們可以將策略評估和策略改進步驟合并為一個步驟,。

在bellman更新中,我們用 代替

Image

由于替換,,我們可以用價值函數(shù)來表示更新方程。策略迭代和價值迭代之間有一個關(guān)鍵區(qū)別,。策略迭代對值進行多步更新,直到收斂,,然后對策略進行一次貪婪的更新。價值迭代對策略的每一次貪婪更新都做一次價值函數(shù)的更新。

擬合Q迭代

策略迭代和價值迭代只適用于小規(guī)模的離散狀態(tài)空間,。對于一個有狀態(tài)和每個狀態(tài)有行動的環(huán)境,我們需要存儲和更新值,。

對于大的或連續(xù)的狀態(tài)空間,我們可以用一個參數(shù)為的函數(shù)近似器來近似值函數(shù),。我們可以使誤差最小化:

這里,。我們可以用隨機梯度下降法使這個目標(biāo)最小化。在更新參數(shù)時,,我們不考慮目標(biāo)相對于參數(shù)的梯度,。我們可以像在策略迭代中一樣對策略進行貪婪的更新,。在實踐中,擬合Q-learning非常不穩(wěn)定,。

soft策略梯度和soft Q-學(xué)習(xí)

soft策略梯度寫為:

為了計算第二項的梯度,,我們使用軌跡的期望計算:

從RL中的后向信息來看

從這兩個方程中, 可得

為了擺脫的項,我們用次抽樣軌跡對其進行近似,。展開soft策略梯度并對參數(shù)求導(dǎo),得到:

由于括號內(nèi)包含的項成為,。展開與有關(guān)的項,,我們得到:

這個方程的結(jié)果與Q-learning更新非常相似:

其中價值函數(shù)定義為:

從技術(shù)上講,,我們可以在Q函數(shù)的exp里面添加一個溫度參數(shù),,如exp 。較高的值對應(yīng)于更多的 '隨機 '政策,,接近于0意味著較少的隨機性政策。

RL/控制作為推理

MDP作為圖模型

標(biāo)準MDP的圖模型顯示下圖的左邊,。狀態(tài)是一個馬爾可夫鏈,狀態(tài)和行動都是隨機變量,。

在MDP中,一些轉(zhuǎn)換會得到高額的獎勵,我們希望提高高額獎勵的軌跡的權(quán)重,,降低次優(yōu)軌跡的權(quán)重。因此,,我們用一個優(yōu)化變量來增強圖模型,該變量是可觀察的,,使其成為一個隱馬爾可夫過程。優(yōu)化變量的條件分布是,。高獎勵意味著在時間點上成為最優(yōu)的概率很高。請注意,,這里我們假設(shè)獎勵滿足:是一個概率分布。

Image

為什么最優(yōu)性變量很重要,?

  • 輔助變量使我們能夠?qū)ⅹ剟钚畔⒓{入概率生成過程,,以便對軌跡進行采樣。我們可以在這個隱馬爾科夫模型中使用概率推理算法解決控制和規(guī)劃問題,。
  • 它允許我們以概率方式指定一個最佳行為的模型,這對逆向RL很重要,。
  • 還解釋為什么隨機行為可能是首選(對于解釋和轉(zhuǎn)移學(xué)習(xí)的觀點)。

鑒于圖模型,,我們可以

  • 給出一個獎勵,確定一個軌跡成為最優(yōu)的可能性有多大,。在數(shù)學(xué)上,我們可以計算出,,即一個軌跡在整個軌跡中表現(xiàn)為最優(yōu)的概率。
  • 給定一個最優(yōu)軌跡的集合,,推斷出獎勵和先驗,這是一個逆向RL問題,。

該問題是一個特征化的CRF,。通過恢復(fù)參數(shù)化的勢能函數(shù),,我們可以學(xué)習(xí)從軌跡中恢復(fù)的獎勵。請注意,,CRF是無向的,不具有因果結(jié)構(gòu),;這種模型的限制性更強,被稱為MEMM,。

  • 給定獎勵,通過計算 現(xiàn)在我們可以不解決優(yōu)化問題,,而是解決推斷問題,。

通過推理實現(xiàn)最優(yōu)策略

現(xiàn)在我們的目標(biāo)是通過標(biāo)準的消息傳遞算法推斷出最優(yōu)策略。只要計算出,,表示從的狀態(tài)和行動開始,從的最優(yōu)軌跡的概率,。我們還引入了信息。然后可以遞歸地計算這些:

那么,,最佳行動分布可以通過兩個后向信息得出:

然后,,最佳行動分布可以通過兩個后向信息得出這里我們假設(shè)行動先驗是一個均勻分布

然后,,我們引入對數(shù)空間的信息:

實際上,對數(shù)信息對應(yīng)于軟版的狀態(tài)行動和狀態(tài)價值函數(shù)。行動分布與優(yōu)勢值(advantage value)成正比。此外,,我們可以推導(dǎo)出的以下關(guān)系 :

因此,,可以被看作是的軟最大值,。當(dāng)動態(tài)是確定的,,第二個關(guān)系正是貝爾曼方程的備份(backup):

然而,,當(dāng)動態(tài)是隨機的,,更新是樂觀的,因為它將主要由下一個狀態(tài)的最大值決定,,這就產(chǎn)生了尋求風(fēng)險的行為。這個問題將在下一節(jié)通過變分推理得到緩解,。總之,,在PGM的基礎(chǔ)上增加了優(yōu)化變量,我們將最優(yōu)控制簡化為類似HMM模型的推理,,并將其與動態(tài)規(guī)劃、RL的值迭代聯(lián)系起來,。

與變分推斷的聯(lián)系

推理優(yōu)化目標(biāo)

回顧一下,最優(yōu)軌跡分布:

現(xiàn)在我們的目標(biāo)是優(yōu)化一個近似策略,,使之與這個策略分布相閉。策略為, 那么它在確定性動力學(xué)下的軌跡分布 (其中 :

精確推理下。因此,我們可以把優(yōu)化目標(biāo)看作是最大化負散度:

現(xiàn)在,,在確定性條件下的動態(tài)為-

而在隨機條件下的動態(tài)則為 -

這里,,我們想問的不是樂觀項(它假定如果任何一個未來狀態(tài)有高回報,,而不考慮導(dǎo)致該狀態(tài)的中間狀態(tài),那么指數(shù)項將只有利于該高回報狀態(tài)),,而是鑒于過去獲得了高回報,在轉(zhuǎn)移概率沒有改變的情況下,,行動概率是多少,?

變分推斷進行控制

為了解決上述問題,,我們將使用變分推斷,其目標(biāo)是找到,,使其接近,同時動態(tài)保持在,。

最佳軌跡的分布為

策略產(chǎn)生分布為

Image

因此,,我們可以計算ELBO:

對可觀察變量的對數(shù)概率使用Jensen不等式計算ELBO?,F(xiàn)在的目標(biāo)由兩部分組成的,,就像確定性的情況一樣,但在變分分布方面,。第一個項目是由變分策略導(dǎo)致收益的期望,,第二個項目是變分策略的熵。現(xiàn)在,,為了得到最優(yōu)政策,,有

進一步求解,有

當(dāng)時有最小值

價值函數(shù)為:

參考文獻

  1. Reinforcement learning and control as probabilistic inference: Tutorial and review  Levine, S., 2018. arXiv preprint arXiv:1805.00909.

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,,謹防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報,。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多