久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

ICLR 2019論文主題|RL最受歡迎,,RNN下降幅度最大,GAN仍在繼續(xù)發(fā)展

 學術頭條 2020-11-27

本文作者:Chip Huyen

編譯:學術君

相比于鬧得沸沸揚揚的IJCAI審稿爭議,,2019 ICLR的評審結果沒有出現(xiàn)太多爭論,。并于 2019年5月6日至9日在美國新奧爾良舉行會議。2019年的投稿數(shù)量比去年增長了近60%,,共收到1591篇,,錄取率為31.7%。

此次會議開始后,,在Sasha Rush的開場白中,,他提到了一些統(tǒng)計數(shù)據(jù)如下:

  • 只有8.6%的演講者和15%的參與者是女性

  • 有2/3的LGBTQ +研究人員不專業(yè)

  • 8位受邀演講者都是白人


來自Sasha Rush開場白的幻燈片

加州大學伯克利分校的助理教授謝爾蓋·萊文(Sergey Levine)可能是今年在ICLR發(fā)表論文最多的人,他有15篇被接受的論文,。

Sergey Levine于2009年獲得斯坦福大學計算機科學學士和碩士學位,,在獲得博士學位后,他于2014年加入加州大學伯克利分校電子工程和計算機科學系,。他的研究包括開發(fā)結合感知和控制的深度神經(jīng)網(wǎng)絡策略的端到端訓練算法,,用于逆強化學習的可擴展算法,深度強化學習算法等,。

圖片源自谷歌

無監(jiān)督表示學習相關論文入選率低

無監(jiān)督表示學習的主要目標是從未標記數(shù)據(jù)中發(fā)現(xiàn)有用的數(shù)據(jù)表示以用于后續(xù)任務,。在自然語言處理中,它通常通過語言建模來完成,。然后將學習的表示用于諸如情感分析,,名稱實體識別和機器翻譯之類的任務。

去年發(fā)表的一些最具進展性的論文是關于自然語言處理的無監(jiān)督表示學習,,包括如下內(nèi)容:

Matthew E. Peters等人的《Deep contextualized word representations》

論文摘要:我們引入了一種新的深層語境化詞語表示,,它模擬了(1)單詞使用的復雜特征(例如,,語法和語義),以及(2)這些用法如何在語言上下文中變化(即模型多義詞),。我們的單詞向量是深度雙向語言模型(biLM)的內(nèi)部狀態(tài)的學習函數(shù),,它是在大型文本語料庫上預先訓練的。我們表明,,這些表示可以很容易地添加到現(xiàn)有模型中,,并顯著改善六個具有挑戰(zhàn)性的NLP問題的技術發(fā)展水平,包括問答,、文本蘊涵和情感分析,。我們還提供了一個分析,表明暴露預訓練網(wǎng)絡的深層內(nèi)部是至關重要的,,允許下游模型混合不同類型的半監(jiān)督信號,。

Jeremy Howard等人的《Universal Language Model Fine-tuning for Text Classification》

歸納轉移學習極大地影響了計算機視覺,但NLP中的現(xiàn)有方法仍需要從頭開始進行任務特定的修改和培訓,。我們提出了通用語言模型微調(diào)(ULMFiT),,這是一種有效的傳遞學習方法,可以應用于NLP中的任何任務,,并介紹了微調(diào)語言模型的關鍵技術,。我們的方法明顯優(yōu)于六個文本分類任務的最新技術,將大多數(shù)數(shù)據(jù)集的誤差降低了18-24%,。此外,,僅使用100個標記示例,它可以在100倍以上的數(shù)據(jù)上從頭開始匹配訓練的性能,。我們開源我們的預訓練模型和代碼,。

盡管大多數(shù)大牌研究實驗室已經(jīng)在研究“我們怎樣才能讓無監(jiān)督的代表學習為圖像工作?”,,但ICLR只選了一篇論文:“無監(jiān)督表征學習的元學習更新規(guī)則”(Metz等人),。他們的算法不是更新權重,而是更新學習規(guī)則,。然后對從學習的學習規(guī)則中學習到的表示在少量標記樣本上進行微調(diào),,以完成圖像分類任務。他們能夠找到學習規(guī)則,,在MNIST和Fashion MNIST上達到準確率> 70%,。外部循環(huán)需要大約100k個培訓步驟,256個CPU需要200個小時,。

元學習的內(nèi)循環(huán)和外循環(huán)(Metz等)

在不久的將來,,也許我們會看到更多這樣的論文??梢杂糜跓o監(jiān)督學習的一些任務包括:自動編碼,,預測圖像旋轉(Spyros Gidaris等人的《Unsupervised Representation Learning by Predicting Image Rotations》在ICLR 2018已經(jīng)命中),預測視頻中的下一幀,。

基礎語言學習相關論文卷土重來

麻省理工學院媒體實驗室的基礎語言學習和理解項目于2001年停止,,但基礎語言學習的相關論文今年卷土重來,有兩篇論文穿著強化學習的衣服:

  • 《DOM-Q-NET: Grounded RL on Structured Language》 - 一種RL算法,,通過填充字段和點擊鏈接來學習瀏覽網(wǎng)頁,,給出用自然語言表達的目標。

  • 《BabyAI: A Platform to Study the Sample Efficiency of Grounded Language Learning》 - OpenAI Gym兼容平臺,,帶有手工制作的機器人代理,,模擬人類老師指導代理人學習合成語言。

確定有窮自動機(DFA)今年也在深度學習領域找到了自己的位置,,有兩篇論文:

《Representing Formal Languages: A Comparison Between Finite Automata and Recurrent Neural Networks》

論文摘要:我們研究了遞歸神經(jīng)網(wǎng)絡(RNN)在學習識別常規(guī)形式語言時所使用的內(nèi)部表示,。具體來說,我們從常規(guī)語言訓練RNN的正面和負面示例,,并詢問是否存在將該RNN的狀態(tài)映射到該語言的最小確定性有限自動機(MDFA)的狀態(tài)的簡單解碼函數(shù),。我們的實驗表明,這樣的解碼函數(shù)確實存在,,并且它將RNN的狀態(tài)映射到MDFA狀態(tài),,而是映射到通過將小的MDFA狀態(tài)集合成“''''superstates''獲得的{\ em抽象}的狀態(tài)。 ,。定性分析表明,,抽象通常有一個簡單的解釋??偟膩碚f,,結果表明RNN和有限自動機使用的內(nèi)部表示之間存在強烈的結構關系。

《Learning Finite State Representations of Recurrent Policy Networks 》

論文摘要:循環(huán)神經(jīng)網(wǎng)絡(RNN)是控制策略的有效表示,,用于廣泛的強化和模仿學習問題,。然而,由于使用連續(xù)值記憶向量和觀察特征,,RNN策略特別難以解釋,,理解和分析。在本文中,,我們介紹了一種新技術,,即量化瓶頸插入,以學習這些向量和特征的有限表示,。結果是RNN的量化表示,,可以對其進行分析,以提高我們對記憶使用和一般行為的理解。我們在合成環(huán)境和六個Atari游戲中展示了這種方法的結果,。在某些情況下,,所得到的有限表示非常小,使用少至3個離散存儲器狀態(tài)和10個完美Pong策略的觀察結果,。

從RNN學習DFA的三個階段(Koul等)

提取的自動機(Koul等人)

RNN相關論文數(shù)量下降幅度最大

從2018年到2019年,提交主題的相對變化表明RNN的下降幅度最大,。這并不奇怪,,因為雖然RNN對于順序數(shù)據(jù)是直觀的,但它們存在巨大的缺點:它們無法并行化,,因此無法利用自2012年以來推動研究進步的最大因素:計算能力,。RNN從未在CV或RL中流行,對于NLP,,它們正在被基于注意力的架構所取代,。

圖片來自ICLR 2019的補充統(tǒng)計數(shù)據(jù)

這是否意味著RNN在研究界“死”了?并不是的,。今年兩個最佳論文獎之一是《Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks 》,。除了本文和上述兩篇關于自動機之外,今年還有9篇關于RNN的論文被接受,,其中大部分都深入研究了RNN的數(shù)學基礎,,而不是發(fā)現(xiàn)RNN的新應用。

但是RNN在行業(yè)中仍然非?;钴S,特別是對于那些處理貿(mào)易公司等時間序列數(shù)據(jù)的公司,,不過這些公司通常不會公布他們的工作。雖然RNN目前對研究人員沒有吸引力,,誰知道它在未來會不會卷土重來呢?

GAN仍在繼續(xù)發(fā)展

盡管GAN與去年相比呈現(xiàn)負相對變化,,但實際上相關論文數(shù)量從約70增加到約100。

整個海報會議第一次專門討論GAN,。內(nèi)容包含了新的GAN架構、舊GAN架構的改進,、GAN分析,。從圖像生成到文本生成到音頻合成的GAN應用有PATE-GAN,、GANSYnth、ProbGAN,、InstaGAN,、RelGAN、MisGAN,、SPIGAN,、LayoutGAN和KnockoffGAN等,。

強化學習仍然是提交論文中最受歡迎的主題

RL社區(qū)正在從無模型方法轉向基于樣本的模型和元學習算法。大部分被接受的論文,,連同RL研討會的整個結構和入門,,致力于將有關環(huán)境的一些知識整合到學習算法中。雖然早期深度RL算法的主要優(yōu)勢之一是通用性(例如,,DQN對所有Atari游戲使用相同的架構而不了解任何特定游戲),,新算法表明,結合先前知識有助于完成更復雜的任務,。例如,,在運輸者網(wǎng)絡(Jakab等人)中,代理人使用先驗知識進行更具信息性的結構探索,。

在多個任務之間執(zhí)行快速轉移學習的元學習算法在樣本效率和性能方面也得到了很大改善,。當我們可以使用從其他任務中學習的控制策略而不是從頭開始訓練它們時(這對于復雜的任務是不可能的),這些改進使我們更接近“ImageNet的RL時刻”,。

PEARL在六個基準任務的漸近性能和元訓練樣本效率方面都優(yōu)于以前的meta-RL方法

總而言之,,在過去的5年中,RL社區(qū)開發(fā)了各種有效的工具,,用于在無模型設置中解決RL問題?,F(xiàn)在是時候提出更多樣本效率和可轉移的算法來將RL應用于現(xiàn)實世界的問題。

ICLR 2019的補充統(tǒng)計數(shù)據(jù)中的這張圖特別具有指示性,。也許有人應該寫一篇關于“用于普遍的,,可轉移的無監(jiān)督元學習的強大概率框架”的論文。

    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多