久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

B站學(xué)強(qiáng)化學(xué)習(xí)?港中文周博磊變身up主,,中文課程已上線

 托尼虎 2020-03-19

機(jī)器之心報(bào)道

機(jī)器之心編輯部

眾所周知,,B 站是一個(gè)學(xué)習(xí)網(wǎng)站。在看完羅翔老師的刑法課之后,,是時(shí)候探索人工智能了,。

新冠疫情還未退散,目前國(guó)內(nèi)很多大學(xué)仍然沒(méi)有返校開(kāi)學(xué)的計(jì)劃,,不過(guò)留在家中的我們已經(jīng)可以獲得越來(lái)越多的線上學(xué)習(xí)內(nèi)容,。

此前有很多國(guó)內(nèi)外學(xué)校已經(jīng)把自家的 AI 課程搬到了線上。不過(guò)對(duì)于不少人來(lái)說(shuō),,YouTube 和英文是個(gè)問(wèn)題,。有沒(méi)有直接在 B 站上開(kāi)課的教授呢?

最近,香港中文大學(xué)(CUHK)信息工程系助理教授周博磊就有了一個(gè)大膽的想法,,他決定把自己每周的《強(qiáng)化學(xué)習(xí)》課程用中文在 B 站上進(jìn)行直播,。目前這門(mén)課程的第一課已經(jīng)上線。機(jī)器之心經(jīng)授權(quán)進(jìn)行了整理,。

B站學(xué)強(qiáng)化學(xué)習(xí),?港中文周博磊變身up主,中文課程已上線

周博磊老師博士畢業(yè)于麻省理工學(xué)院,,現(xiàn)任香港中文大學(xué)信息工程系助理教授,,研究方向主要為機(jī)器感知和決策,重點(diǎn)是通過(guò)學(xué)習(xí)可解釋,、結(jié)構(gòu)化的表征,,使機(jī)器能夠在復(fù)雜的環(huán)境中感知,、推理和行動(dòng),。

除了直播和課程視頻之外,周博磊還會(huì)同步更新課程的代碼,,使用的編程語(yǔ)言為 Python,,深度學(xué)習(xí)框架則是 TensorFlow 和 PyTorch 皆可(PyTorch 為主)。和常規(guī)的課程一樣,,《強(qiáng)化學(xué)習(xí)綱要》也會(huì)在每節(jié)課后留下一些作業(yè),。

GitHub 鏈接:https://github.com/zhoubolei/introRL

課程概覽

整個(gè)課程共分為基礎(chǔ)課程和高階課程兩大部分。其中,,基礎(chǔ)課程共分為 8 個(gè)小節(jié),,包括課程概覽、馬爾科夫決策過(guò)程,、無(wú)模型預(yù)測(cè)及控制,、on-policy 和 off-policy 學(xué)習(xí)、值函數(shù)近似,、策略優(yōu)化基礎(chǔ),、策略優(yōu)化現(xiàn)狀、基于模型的強(qiáng)化學(xué)習(xí)等內(nèi)容,。其中,,每個(gè)小節(jié)都會(huì)有一兩節(jié)課的內(nèi)容。

B站學(xué)強(qiáng)化學(xué)習(xí),?港中文周博磊變身up主,,中文課程已上線

高階課程包括一些案例研究,如圍棋 AI AlphaGo,、游戲 AI AlphaStar,、OpenAI Five 等,此外還包含強(qiáng)化學(xué)習(xí)的分布式構(gòu)建、生成模型等,。

B站學(xué)強(qiáng)化學(xué)習(xí),?港中文周博磊變身up主,中文課程已上線

該課程主要面向大三,、大四或研一的學(xué)生,。參加課程的學(xué)生需要具備相關(guān)背景知識(shí),包括線性代數(shù),、概率論,、機(jī)器學(xué)習(xí)(數(shù)據(jù)挖掘、模式識(shí)別,、深度學(xué)習(xí))等,。此外,由于該課程有不少實(shí)踐內(nèi)容,,所以參加課程的同學(xué)最好有一些編程經(jīng)驗(yàn),,會(huì)用 Python、PyTorch,。

B站學(xué)強(qiáng)化學(xué)習(xí),?港中文周博磊變身up主,中文課程已上線

此外,,周博磊博士還給出了本課程的參考教科書(shū)——Sutton 和 Barton 合作撰寫(xiě)的《強(qiáng)化學(xué)習(xí)》,。大家可以根據(jù)參考鏈接下載電子版。

B站學(xué)強(qiáng)化學(xué)習(xí),?港中文周博磊變身up主,,中文課程已上線

新課嘗鮮

目前,我們已經(jīng)能夠在 B 站上看到第一課的完整內(nèi)容,,包括上,、下兩部分,主要介紹了課程綱要,、強(qiáng)化學(xué)習(xí)基本概念,、序列決策入門(mén)、強(qiáng)化學(xué)習(xí)編程實(shí)踐等內(nèi)容,。

B站學(xué)強(qiáng)化學(xué)習(xí),?港中文周博磊變身up主,中文課程已上線

在基本概念部分,,周老師介紹了強(qiáng)化學(xué)習(xí)的定義,、重要性、與監(jiān)督學(xué)習(xí)的區(qū)別等內(nèi)容,。

B站學(xué)強(qiáng)化學(xué)習(xí),?港中文周博磊變身up主,中文課程已上線

這里對(duì)強(qiáng)化學(xué)習(xí)的定義引用了一個(gè) Sutton 的經(jīng)典表述。強(qiáng)化學(xué)習(xí)用于描述和解決智能體在與環(huán)境的交互過(guò)程中如何最大化獎(jiǎng)賞值的問(wèn)題,。在強(qiáng)化學(xué)習(xí)中,,智能體(agent)與環(huán)境(environment)是其兩個(gè)重要組成部分。

強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)存在以下區(qū)別:

  • 輸入數(shù)據(jù)時(shí)序相關(guān)(非獨(dú)立同分布),;
  • 智能體并不知道什么是正確的策略,,其策略需要通過(guò)從環(huán)境得到的獎(jiǎng)賞值中自行習(xí)得;
  • 通過(guò)試錯(cuò)進(jìn)行探索(強(qiáng)化學(xué)習(xí)里非常經(jīng)典的探索與利用(exploration and exploitation)問(wèn)題),;
  • 訓(xùn)練過(guò)程中沒(méi)有嚴(yán)格的標(biāo)簽,,學(xué)習(xí)信號(hào)僅為獎(jiǎng)賞值(往往還是延遲的獎(jiǎng)賞)。

B站學(xué)強(qiáng)化學(xué)習(xí),?港中文周博磊變身up主,,中文課程已上線

強(qiáng)化學(xué)習(xí)具有以下特點(diǎn):通過(guò)試錯(cuò)進(jìn)行學(xué)習(xí)、獎(jiǎng)賞值往往存在延遲(例如種西瓜,,我們澆水,、施肥后需要很長(zhǎng)一段時(shí)間才能知道瓜苗的長(zhǎng)勢(shì)),訓(xùn)練數(shù)據(jù)需要注意其對(duì)應(yīng)時(shí)序(數(shù)據(jù)之間不是獨(dú)立同分布),,智能體的動(dòng)作會(huì)影響其下一時(shí)刻獲得的觀測(cè)值,。

B站學(xué)強(qiáng)化學(xué)習(xí),?港中文周博磊變身up主,,中文課程已上線

此外,周老師還介紹了一些與深度強(qiáng)化學(xué)習(xí)有關(guān)的內(nèi)容,。

B站學(xué)強(qiáng)化學(xué)習(xí),?港中文周博磊變身up主,中文課程已上線

在剛剛上線的第二部分中,,周博磊博士介紹了時(shí)序決策過(guò)程,。

B站學(xué)強(qiáng)化學(xué)習(xí)?港中文周博磊變身up主,,中文課程已上線

在強(qiáng)化學(xué)習(xí)過(guò)程中,,agent 需要與環(huán)境進(jìn)行交互,環(huán)境會(huì)將動(dòng)作造成的結(jié)果返還給 agent,,而 agent 需要從觀測(cè)中學(xué)習(xí)出能夠?qū)ⅹ?jiǎng)勵(lì)最大化的策略,。在強(qiáng)化學(xué)習(xí)中,算法總是希望能夠讓獎(jiǎng)勵(lì)極大化,,但有時(shí)獎(jiǎng)勵(lì)的過(guò)程可能會(huì)被延遲,。強(qiáng)化學(xué)習(xí)中的一個(gè)重要問(wèn)題就是近期獎(jiǎng)勵(lì)和遠(yuǎn)期獎(jiǎng)勵(lì)的 trade off。

強(qiáng)化學(xué)習(xí)算法在策略優(yōu)化方式上可分為基于值函數(shù)與基于策略的,,另外又可分為無(wú)模型強(qiáng)化學(xué)習(xí)與基于模型的強(qiáng)化學(xué)習(xí),,其相互關(guān)系如下圖所示:

B站學(xué)強(qiáng)化學(xué)習(xí)?港中文周博磊變身up主,中文課程已上線

在課程中,,周博磊還演示了在 OpenAI Gym 環(huán)境中構(gòu)建強(qiáng)化學(xué)習(xí)智能體,,并在不同游戲中進(jìn)行測(cè)試的過(guò)程。

B站學(xué)強(qiáng)化學(xué)習(xí),?港中文周博磊變身up主,,中文課程已上線

在之后的課程中,周博磊還將繼續(xù)介紹通過(guò)決策函數(shù)實(shí)現(xiàn)優(yōu)化的過(guò)程,。

其他優(yōu)質(zhì)強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)課程推薦

還想學(xué)其他課程,?在強(qiáng)化學(xué)習(xí)領(lǐng)域,除了周博磊老師的課之外,,我們還有一些優(yōu)質(zhì)課程要推薦給大家

首先要提的就是 David Silver 在 UCL 講授的強(qiáng)化學(xué)習(xí)入門(mén)課程,。沒(méi)錯(cuò),就是來(lái)自 DeepMind 那個(gè)在 Nature 上發(fā)表了 DQN 論文,,緊接著提出 AlphaGo 和 AlphaGo Zero,,從此掀起深度強(qiáng)化學(xué)習(xí)研究浪潮的 Silver。他的課程深入淺出,,在介紹強(qiáng)化學(xué)習(xí)概念的過(guò)程中穿插了很多例子,,對(duì)初學(xué)者非常友好,建議作為第一個(gè)觀看的入門(mén)視頻課程,。

B站學(xué)強(qiáng)化學(xué)習(xí),?港中文周博磊變身up主,中文課程已上線

課程鏈接:http://www0.cs./staff/D.Silver/web/Teaching.html

以上視頻課程在 B 站上也有分流,,感興趣的小伙伴可自行搜索,。

此外,臺(tái)灣大學(xué)李宏毅教授的視頻課程也非常不錯(cuò),,而且也是中文授課,。

B站學(xué)強(qiáng)化學(xué)習(xí)?港中文周博磊變身up主,,中文課程已上線

課程鏈接:https://www.bilibili.com/video/av24724071

在進(jìn)階版課程方面,,我們要推薦的是兩位在深度強(qiáng)化學(xué)習(xí)領(lǐng)域非常有名的科學(xué)家——Pieter Abbeel 與 Sergey Levine。他們長(zhǎng)期致力于深度強(qiáng)化學(xué)習(xí)的教學(xué),、研究等工作,,在其個(gè)人主頁(yè)可以找到很多他們所講授課程的鏈接。

  • Pieter Abbeel 個(gè)人主頁(yè):https://people.eecs./~pabbeel/
  • Sergey Levine 個(gè)人主頁(yè):https://people.eecs./~svlevine/

對(duì)于想上手實(shí)踐度強(qiáng)化學(xué)習(xí)的小伙伴們,,以下資源是不錯(cuò)的選擇:

  • OpenAI Spinning Up :從 VPG(Vanilla Policy Gradient) 到 TRPO(Trust Region Policy Optimization),、SAC(Soft Actor-Critic) 均有實(shí)現(xiàn),關(guān)鍵是 OpenAI 出品,,代碼質(zhì)量高,。資源鏈接:https:///blog/spinning-up-in-deep-rl/
  • Stable Baselines:大量深度強(qiáng)化學(xué)習(xí)算法優(yōu)質(zhì)實(shí)現(xiàn),,文檔豐富,包含 Colab Notebook,,深度強(qiáng)化學(xué)習(xí)入坑必看 repo,。資源鏈接:https://stable-baselines./en/master/

今天,你準(zhǔn)備花多少時(shí)間用在學(xué)習(xí)上,?

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多