機(jī)器之心報(bào)道 機(jī)器之心編輯部
新冠疫情還未退散,目前國(guó)內(nèi)很多大學(xué)仍然沒(méi)有返校開(kāi)學(xué)的計(jì)劃,,不過(guò)留在家中的我們已經(jīng)可以獲得越來(lái)越多的線上學(xué)習(xí)內(nèi)容,。 此前有很多國(guó)內(nèi)外學(xué)校已經(jīng)把自家的 AI 課程搬到了線上。不過(guò)對(duì)于不少人來(lái)說(shuō),,YouTube 和英文是個(gè)問(wèn)題,。有沒(méi)有直接在 B 站上開(kāi)課的教授呢? 最近,香港中文大學(xué)(CUHK)信息工程系助理教授周博磊就有了一個(gè)大膽的想法,,他決定把自己每周的《強(qiáng)化學(xué)習(xí)》課程用中文在 B 站上進(jìn)行直播,。目前這門(mén)課程的第一課已經(jīng)上線。機(jī)器之心經(jīng)授權(quán)進(jìn)行了整理,。 周博磊老師博士畢業(yè)于麻省理工學(xué)院,,現(xiàn)任香港中文大學(xué)信息工程系助理教授,,研究方向主要為機(jī)器感知和決策,重點(diǎn)是通過(guò)學(xué)習(xí)可解釋,、結(jié)構(gòu)化的表征,,使機(jī)器能夠在復(fù)雜的環(huán)境中感知,、推理和行動(dòng),。 除了直播和課程視頻之外,周博磊還會(huì)同步更新課程的代碼,,使用的編程語(yǔ)言為 Python,,深度學(xué)習(xí)框架則是 TensorFlow 和 PyTorch 皆可(PyTorch 為主)。和常規(guī)的課程一樣,,《強(qiáng)化學(xué)習(xí)綱要》也會(huì)在每節(jié)課后留下一些作業(yè),。 GitHub 鏈接:https://github.com/zhoubolei/introRL 課程概覽 整個(gè)課程共分為基礎(chǔ)課程和高階課程兩大部分。其中,,基礎(chǔ)課程共分為 8 個(gè)小節(jié),,包括課程概覽、馬爾科夫決策過(guò)程,、無(wú)模型預(yù)測(cè)及控制,、on-policy 和 off-policy 學(xué)習(xí)、值函數(shù)近似,、策略優(yōu)化基礎(chǔ),、策略優(yōu)化現(xiàn)狀、基于模型的強(qiáng)化學(xué)習(xí)等內(nèi)容,。其中,,每個(gè)小節(jié)都會(huì)有一兩節(jié)課的內(nèi)容。 高階課程包括一些案例研究,如圍棋 AI AlphaGo,、游戲 AI AlphaStar,、OpenAI Five 等,此外還包含強(qiáng)化學(xué)習(xí)的分布式構(gòu)建、生成模型等,。 該課程主要面向大三,、大四或研一的學(xué)生,。參加課程的學(xué)生需要具備相關(guān)背景知識(shí),包括線性代數(shù),、概率論,、機(jī)器學(xué)習(xí)(數(shù)據(jù)挖掘、模式識(shí)別,、深度學(xué)習(xí))等,。此外,由于該課程有不少實(shí)踐內(nèi)容,,所以參加課程的同學(xué)最好有一些編程經(jīng)驗(yàn),,會(huì)用 Python、PyTorch,。 此外,,周博磊博士還給出了本課程的參考教科書(shū)——Sutton 和 Barton 合作撰寫(xiě)的《強(qiáng)化學(xué)習(xí)》,。大家可以根據(jù)參考鏈接下載電子版。 新課嘗鮮 目前,我們已經(jīng)能夠在 B 站上看到第一課的完整內(nèi)容,,包括上,、下兩部分,主要介紹了課程綱要,、強(qiáng)化學(xué)習(xí)基本概念,、序列決策入門(mén)、強(qiáng)化學(xué)習(xí)編程實(shí)踐等內(nèi)容,。 在基本概念部分,,周老師介紹了強(qiáng)化學(xué)習(xí)的定義,、重要性、與監(jiān)督學(xué)習(xí)的區(qū)別等內(nèi)容,。 這里對(duì)強(qiáng)化學(xué)習(xí)的定義引用了一個(gè) Sutton 的經(jīng)典表述。強(qiáng)化學(xué)習(xí)用于描述和解決智能體在與環(huán)境的交互過(guò)程中如何最大化獎(jiǎng)賞值的問(wèn)題,。在強(qiáng)化學(xué)習(xí)中,,智能體(agent)與環(huán)境(environment)是其兩個(gè)重要組成部分。 強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)存在以下區(qū)別:
強(qiáng)化學(xué)習(xí)具有以下特點(diǎn):通過(guò)試錯(cuò)進(jìn)行學(xué)習(xí)、獎(jiǎng)賞值往往存在延遲(例如種西瓜,,我們澆水,、施肥后需要很長(zhǎng)一段時(shí)間才能知道瓜苗的長(zhǎng)勢(shì)),訓(xùn)練數(shù)據(jù)需要注意其對(duì)應(yīng)時(shí)序(數(shù)據(jù)之間不是獨(dú)立同分布),,智能體的動(dòng)作會(huì)影響其下一時(shí)刻獲得的觀測(cè)值,。 此外,周老師還介紹了一些與深度強(qiáng)化學(xué)習(xí)有關(guān)的內(nèi)容,。 在剛剛上線的第二部分中,,周博磊博士介紹了時(shí)序決策過(guò)程,。 在強(qiáng)化學(xué)習(xí)過(guò)程中,,agent 需要與環(huán)境進(jìn)行交互,環(huán)境會(huì)將動(dòng)作造成的結(jié)果返還給 agent,,而 agent 需要從觀測(cè)中學(xué)習(xí)出能夠?qū)ⅹ?jiǎng)勵(lì)最大化的策略,。在強(qiáng)化學(xué)習(xí)中,算法總是希望能夠讓獎(jiǎng)勵(lì)極大化,,但有時(shí)獎(jiǎng)勵(lì)的過(guò)程可能會(huì)被延遲,。強(qiáng)化學(xué)習(xí)中的一個(gè)重要問(wèn)題就是近期獎(jiǎng)勵(lì)和遠(yuǎn)期獎(jiǎng)勵(lì)的 trade off。 強(qiáng)化學(xué)習(xí)算法在策略優(yōu)化方式上可分為基于值函數(shù)與基于策略的,,另外又可分為無(wú)模型強(qiáng)化學(xué)習(xí)與基于模型的強(qiáng)化學(xué)習(xí),,其相互關(guān)系如下圖所示: 在課程中,,周博磊還演示了在 OpenAI Gym 環(huán)境中構(gòu)建強(qiáng)化學(xué)習(xí)智能體,,并在不同游戲中進(jìn)行測(cè)試的過(guò)程。 在之后的課程中,周博磊還將繼續(xù)介紹通過(guò)決策函數(shù)實(shí)現(xiàn)優(yōu)化的過(guò)程,。 其他優(yōu)質(zhì)強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)課程推薦 還想學(xué)其他課程,?在強(qiáng)化學(xué)習(xí)領(lǐng)域,除了周博磊老師的課之外,,我們還有一些優(yōu)質(zhì)課程要推薦給大家 首先要提的就是 David Silver 在 UCL 講授的強(qiáng)化學(xué)習(xí)入門(mén)課程,。沒(méi)錯(cuò),就是來(lái)自 DeepMind 那個(gè)在 Nature 上發(fā)表了 DQN 論文,,緊接著提出 AlphaGo 和 AlphaGo Zero,,從此掀起深度強(qiáng)化學(xué)習(xí)研究浪潮的 Silver。他的課程深入淺出,,在介紹強(qiáng)化學(xué)習(xí)概念的過(guò)程中穿插了很多例子,,對(duì)初學(xué)者非常友好,建議作為第一個(gè)觀看的入門(mén)視頻課程,。 課程鏈接:http://www0.cs./staff/D.Silver/web/Teaching.html 以上視頻課程在 B 站上也有分流,,感興趣的小伙伴可自行搜索,。 此外,臺(tái)灣大學(xué)李宏毅教授的視頻課程也非常不錯(cuò),,而且也是中文授課,。 課程鏈接:https://www.bilibili.com/video/av24724071 在進(jìn)階版課程方面,,我們要推薦的是兩位在深度強(qiáng)化學(xué)習(xí)領(lǐng)域非常有名的科學(xué)家——Pieter Abbeel 與 Sergey Levine。他們長(zhǎng)期致力于深度強(qiáng)化學(xué)習(xí)的教學(xué),、研究等工作,,在其個(gè)人主頁(yè)可以找到很多他們所講授課程的鏈接。
對(duì)于想上手實(shí)踐度強(qiáng)化學(xué)習(xí)的小伙伴們,,以下資源是不錯(cuò)的選擇:
今天,你準(zhǔn)備花多少時(shí)間用在學(xué)習(xí)上,? |
|