B站學(xué)強(qiáng)化學(xué)習(xí)？港中文周博磊變身up主,，中文課程已上線

托尼虎 2020-03-19

展開(kāi)全文

機(jī)器之心報(bào)道

機(jī)器之心編輯部

眾所周知,，B 站是一個(gè)學(xué)習(xí)網(wǎng)站。在看完羅翔老師的刑法課之后,，是時(shí)候探索人工智能了,。

新冠疫情還未退散，目前國(guó)內(nèi)很多大學(xué)仍然沒(méi)有返校開(kāi)學(xué)的計(jì)劃,，不過(guò)留在家中的我們已經(jīng)可以獲得越來(lái)越多的線上學(xué)習(xí)內(nèi)容,。

此前有很多國(guó)內(nèi)外學(xué)校已經(jīng)把自家的 AI 課程搬到了線上。不過(guò)對(duì)于不少人來(lái)說(shuō),，YouTube 和英文是個(gè)問(wèn)題,。有沒(méi)有直接在 B 站上開(kāi)課的教授呢？

最近，香港中文大學(xué)（CUHK）信息工程系助理教授周博磊就有了一個(gè)大膽的想法,，他決定把自己每周的《強(qiáng)化學(xué)習(xí)》課程用中文在 B 站上進(jìn)行直播,。目前這門(mén)課程的第一課已經(jīng)上線。機(jī)器之心經(jīng)授權(quán)進(jìn)行了整理,。

B站學(xué)強(qiáng)化學(xué)習(xí),？港中文周博磊變身up主，中文課程已上線

周博磊老師博士畢業(yè)于麻省理工學(xué)院,，現(xiàn)任香港中文大學(xué)信息工程系助理教授,，研究方向主要為機(jī)器感知和決策，重點(diǎn)是通過(guò)學(xué)習(xí)可解釋,、結(jié)構(gòu)化的表征,，使機(jī)器能夠在復(fù)雜的環(huán)境中感知,、推理和行動(dòng),。

除了直播和課程視頻之外，周博磊還會(huì)同步更新課程的代碼,，使用的編程語(yǔ)言為 Python,，深度學(xué)習(xí)框架則是 TensorFlow 和 PyTorch 皆可（PyTorch 為主）。和常規(guī)的課程一樣,，《強(qiáng)化學(xué)習(xí)綱要》也會(huì)在每節(jié)課后留下一些作業(yè),。

GitHub 鏈接：https://github.com/zhoubolei/introRL

課程概覽

整個(gè)課程共分為基礎(chǔ)課程和高階課程兩大部分。其中,，基礎(chǔ)課程共分為 8 個(gè)小節(jié),，包括課程概覽、馬爾科夫決策過(guò)程,、無(wú)模型預(yù)測(cè)及控制,、on-policy 和 off-policy 學(xué)習(xí)、值函數(shù)近似,、策略優(yōu)化基礎(chǔ),、策略優(yōu)化現(xiàn)狀、基于模型的強(qiáng)化學(xué)習(xí)等內(nèi)容,。其中,，每個(gè)小節(jié)都會(huì)有一兩節(jié)課的內(nèi)容。

B站學(xué)強(qiáng)化學(xué)習(xí),？港中文周博磊變身up主,，中文課程已上線

高階課程包括一些案例研究，如圍棋 AI AlphaGo,、游戲 AI AlphaStar,、OpenAI Five 等，此外還包含強(qiáng)化學(xué)習(xí)的分布式構(gòu)建、生成模型等,。

B站學(xué)強(qiáng)化學(xué)習(xí),？港中文周博磊變身up主，中文課程已上線

該課程主要面向大三,、大四或研一的學(xué)生,。參加課程的學(xué)生需要具備相關(guān)背景知識(shí)，包括線性代數(shù),、概率論,、機(jī)器學(xué)習(xí)（數(shù)據(jù)挖掘、模式識(shí)別,、深度學(xué)習(xí)）等,。此外，由于該課程有不少實(shí)踐內(nèi)容,，所以參加課程的同學(xué)最好有一些編程經(jīng)驗(yàn),，會(huì)用 Python、PyTorch,。

B站學(xué)強(qiáng)化學(xué)習(xí),？港中文周博磊變身up主，中文課程已上線

此外,，周博磊博士還給出了本課程的參考教科書(shū)——Sutton 和 Barton 合作撰寫(xiě)的《強(qiáng)化學(xué)習(xí)》,。大家可以根據(jù)參考鏈接下載電子版。

B站學(xué)強(qiáng)化學(xué)習(xí),？港中文周博磊變身up主,，中文課程已上線

新課嘗鮮

目前，我們已經(jīng)能夠在 B 站上看到第一課的完整內(nèi)容,，包括上,、下兩部分，主要介紹了課程綱要,、強(qiáng)化學(xué)習(xí)基本概念,、序列決策入門(mén)、強(qiáng)化學(xué)習(xí)編程實(shí)踐等內(nèi)容,。

B站學(xué)強(qiáng)化學(xué)習(xí),？港中文周博磊變身up主，中文課程已上線

在基本概念部分,，周老師介紹了強(qiáng)化學(xué)習(xí)的定義,、重要性、與監(jiān)督學(xué)習(xí)的區(qū)別等內(nèi)容,。

B站學(xué)強(qiáng)化學(xué)習(xí),？港中文周博磊變身up主，中文課程已上線

這里對(duì)強(qiáng)化學(xué)習(xí)的定義引用了一個(gè) Sutton 的經(jīng)典表述。強(qiáng)化學(xué)習(xí)用于描述和解決智能體在與環(huán)境的交互過(guò)程中如何最大化獎(jiǎng)賞值的問(wèn)題,。在強(qiáng)化學(xué)習(xí)中,，智能體（agent）與環(huán)境（environment）是其兩個(gè)重要組成部分。

強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)存在以下區(qū)別：

輸入數(shù)據(jù)時(shí)序相關(guān)（非獨(dú)立同分布）,；
智能體并不知道什么是正確的策略,，其策略需要通過(guò)從環(huán)境得到的獎(jiǎng)賞值中自行習(xí)得；
通過(guò)試錯(cuò)進(jìn)行探索（強(qiáng)化學(xué)習(xí)里非常經(jīng)典的探索與利用（exploration and exploitation）問(wèn)題）,；
訓(xùn)練過(guò)程中沒(méi)有嚴(yán)格的標(biāo)簽,，學(xué)習(xí)信號(hào)僅為獎(jiǎng)賞值（往往還是延遲的獎(jiǎng)賞）。

B站學(xué)強(qiáng)化學(xué)習(xí),？港中文周博磊變身up主,，中文課程已上線

強(qiáng)化學(xué)習(xí)具有以下特點(diǎn)：通過(guò)試錯(cuò)進(jìn)行學(xué)習(xí)、獎(jiǎng)賞值往往存在延遲（例如種西瓜,，我們澆水,、施肥后需要很長(zhǎng)一段時(shí)間才能知道瓜苗的長(zhǎng)勢(shì)），訓(xùn)練數(shù)據(jù)需要注意其對(duì)應(yīng)時(shí)序（數(shù)據(jù)之間不是獨(dú)立同分布）,，智能體的動(dòng)作會(huì)影響其下一時(shí)刻獲得的觀測(cè)值,。

B站學(xué)強(qiáng)化學(xué)習(xí),？港中文周博磊變身up主,，中文課程已上線

此外，周老師還介紹了一些與深度強(qiáng)化學(xué)習(xí)有關(guān)的內(nèi)容,。

B站學(xué)強(qiáng)化學(xué)習(xí),？港中文周博磊變身up主，中文課程已上線

在剛剛上線的第二部分中,，周博磊博士介紹了時(shí)序決策過(guò)程,。

B站學(xué)強(qiáng)化學(xué)習(xí)？港中文周博磊變身up主,，中文課程已上線

在強(qiáng)化學(xué)習(xí)過(guò)程中,，agent 需要與環(huán)境進(jìn)行交互，環(huán)境會(huì)將動(dòng)作造成的結(jié)果返還給 agent,，而 agent 需要從觀測(cè)中學(xué)習(xí)出能夠?qū)ⅹ?jiǎng)勵(lì)最大化的策略,。在強(qiáng)化學(xué)習(xí)中，算法總是希望能夠讓獎(jiǎng)勵(lì)極大化,，但有時(shí)獎(jiǎng)勵(lì)的過(guò)程可能會(huì)被延遲,。強(qiáng)化學(xué)習(xí)中的一個(gè)重要問(wèn)題就是近期獎(jiǎng)勵(lì)和遠(yuǎn)期獎(jiǎng)勵(lì)的 trade off。

強(qiáng)化學(xué)習(xí)算法在策略優(yōu)化方式上可分為基于值函數(shù)與基于策略的,，另外又可分為無(wú)模型強(qiáng)化學(xué)習(xí)與基于模型的強(qiáng)化學(xué)習(xí),，其相互關(guān)系如下圖所示：

B站學(xué)強(qiáng)化學(xué)習(xí)？港中文周博磊變身up主，中文課程已上線

在課程中,，周博磊還演示了在 OpenAI Gym 環(huán)境中構(gòu)建強(qiáng)化學(xué)習(xí)智能體,，并在不同游戲中進(jìn)行測(cè)試的過(guò)程。

B站學(xué)強(qiáng)化學(xué)習(xí),？港中文周博磊變身up主,，中文課程已上線

在之后的課程中，周博磊還將繼續(xù)介紹通過(guò)決策函數(shù)實(shí)現(xiàn)優(yōu)化的過(guò)程,。

其他優(yōu)質(zhì)強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)課程推薦

還想學(xué)其他課程,？在強(qiáng)化學(xué)習(xí)領(lǐng)域，除了周博磊老師的課之外,，我們還有一些優(yōu)質(zhì)課程要推薦給大家

首先要提的就是 David Silver 在 UCL 講授的強(qiáng)化學(xué)習(xí)入門(mén)課程,。沒(méi)錯(cuò)，就是來(lái)自 DeepMind 那個(gè)在 Nature 上發(fā)表了 DQN 論文,，緊接著提出 AlphaGo 和 AlphaGo Zero,，從此掀起深度強(qiáng)化學(xué)習(xí)研究浪潮的 Silver。他的課程深入淺出,，在介紹強(qiáng)化學(xué)習(xí)概念的過(guò)程中穿插了很多例子,，對(duì)初學(xué)者非常友好，建議作為第一個(gè)觀看的入門(mén)視頻課程,。

B站學(xué)強(qiáng)化學(xué)習(xí),？港中文周博磊變身up主，中文課程已上線

課程鏈接：http://www0.cs./staff/D.Silver/web/Teaching.html

以上視頻課程在 B 站上也有分流,，感興趣的小伙伴可自行搜索,。

此外，臺(tái)灣大學(xué)李宏毅教授的視頻課程也非常不錯(cuò),，而且也是中文授課,。

B站學(xué)強(qiáng)化學(xué)習(xí)？港中文周博磊變身up主,，中文課程已上線

課程鏈接：https://www.bilibili.com/video/av24724071

在進(jìn)階版課程方面,，我們要推薦的是兩位在深度強(qiáng)化學(xué)習(xí)領(lǐng)域非常有名的科學(xué)家——Pieter Abbeel 與 Sergey Levine。他們長(zhǎng)期致力于深度強(qiáng)化學(xué)習(xí)的教學(xué),、研究等工作,，在其個(gè)人主頁(yè)可以找到很多他們所講授課程的鏈接。

Pieter Abbeel 個(gè)人主頁(yè)：https://people.eecs./~pabbeel/
Sergey Levine 個(gè)人主頁(yè)：https://people.eecs./~svlevine/

對(duì)于想上手實(shí)踐度強(qiáng)化學(xué)習(xí)的小伙伴們,，以下資源是不錯(cuò)的選擇：

OpenAI Spinning Up ：從 VPG(Vanilla Policy Gradient) 到 TRPO(Trust Region Policy Optimization),、SAC(Soft Actor-Critic) 均有實(shí)現(xiàn)，關(guān)鍵是 OpenAI 出品,，代碼質(zhì)量高,。資源鏈接：https:///blog/spinning-up-in-deep-rl/
Stable Baselines：大量深度強(qiáng)化學(xué)習(xí)算法優(yōu)質(zhì)實(shí)現(xiàn),，文檔豐富，包含 Colab Notebook,，深度強(qiáng)化學(xué)習(xí)入坑必看 repo,。資源鏈接：https://stable-baselines./en/master/

今天，你準(zhǔn)備花多少時(shí)間用在學(xué)習(xí)上,？

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：托尼虎 > 《資源》

舉報(bào)/認(rèn)領(lǐng)