久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

強化學習之旅,,AI最熱門的話題

 taotao_2016 2020-05-05

強化學習之旅,AI最熱門的話題

> Images from Unsplash.

以及如何擊敗監(jiān)督學習

人工智能AlphaGo成為全球頂級圍棋選手,。

Google的搜索引擎每天處理54億次搜索,,并且經(jīng)過優(yōu)化,可以為搜索創(chuàng)造最佳結果,。

YouTube根據(jù)您當前的興趣查找推薦視頻的最佳字符串,,以吸引您。

以下是什么共同點,?

它們都是通過強化學習來完成的,,強化學習是AI中最熱門的話題,。

本文將介紹強化學習-適用于機器學習,強化學習術語和類比,,多帶問題和解決方案,,企業(yè)為何偏愛監(jiān)督學習以及其在商業(yè)中的應用。

機器學習曾經(jīng)分為兩類-有監(jiān)督的學習和無監(jiān)督的學習,。

監(jiān)督學習是具有一組特征或預測變量x?,,x?,…,,x?和目標變量y的數(shù)據(jù),。 通常,監(jiān)督學習的目標是找到特征與目標之間的關系,,也許是預測目標,。 這可用于諸如圖像識別(圖像像素為x且圖像標簽為y)或房屋價值估算(如浴室數(shù)量,床位為x且房屋價格為y)之類的任務中,。

強化學習之旅,,AI最熱門的話題

無監(jiān)督學習是僅具有一組特征x而沒有目標變量y的數(shù)據(jù)。 此數(shù)據(jù)通常用于諸如聚類(在多維空間內找到一組數(shù)據(jù)點)或異常檢測(這是從數(shù)據(jù)中尋找異常值的過程)之類的任務,。 無監(jiān)督學習可用于客戶細分,,用于為特定類型的客戶量身定制內容或營銷策略的業(yè)務策略,或用于欺詐檢測(例如用于檢測欺詐性信用卡交易)的應用,。

強化學習之旅,,AI最熱門的話題

最近,第三個兄弟姐妹進入了機器學習社區(qū):強化學習,。 機器學習的這一領域可以說是該領域三個領域中最適合企業(yè)應用的領域,。 由于商業(yè)和公司利益推動研究的速度比任何學術機構都快,因此強化學習的發(fā)展正在非常迅速地加速,。

強化學習可以被視為訓練狗的人的特技,。 由于狗不了解我們人類希望他們做什么,因此我們讓他們嘗試幾種技巧,,并在狗的反應正確的前提下給他們一種獎勵,。 通過重復重復此過程,狗會學會以最大程度獲得治療機會的方式做出反應,。 這完全類似于人類教計算機執(zhí)行某項操作(例如玩游戲),。 這就是'強化'這個名字的來歷—該模型具有反復強化的積極作用,因此最終幾乎總是以某種方式獲得回報,。

用強化學習術語重新解釋人與狗的類比:

· 狗是暴露于環(huán)境的媒介,。

· 狗選擇要進入的狀態(tài),可能是玩死,,奔跑,,跳躍等,。

· 代理通過執(zhí)行從一種狀態(tài)變?yōu)榱硪环N狀態(tài)的動作來做出反應。

· 在采取行動上的改變之后,,對坐席給予獎勵或懲罰,。

· 該策略是模型用來選擇動作的策略,以尋找可優(yōu)化獎勵機會的反應,。

換句話說,,代理通過輸入動作并接收新的狀態(tài)和潛在的回報來與其環(huán)境進行交互。

強化學習之旅,,AI最熱門的話題

主體和環(huán)境在強化學習算法中起著核心作用,。 環(huán)境是代理人賴以生存并試圖生存的世界。以下是我們正在創(chuàng)建的虛擬世界的正式定義:

· 狀態(tài),。 國家是對世界的完整描述。 世界上沒有任何信息被隱藏,。 它可以是位置,,常數(shù)或動態(tài)值。 這些狀態(tài)記錄在數(shù)組,,矩陣或高階張量中,。

· 行動。 動作基于環(huán)境-不同的環(huán)境導致基于代理的動作也不同,。 代理的一組有效動作記錄在一個稱為動作空間的空間中,,通常數(shù)量有限。

· 環(huán)境,。 這是代理人生活和互動的地方,。 不同類型的環(huán)境具有不同的獎勵和政策。

· 獎勵和回報,。 獎勵函數(shù)r(x)的連續(xù)跟蹤可指導強化學習,,優(yōu)化算法。 它的輸出取決于當前的世界狀態(tài),,最近的動作以及下一個世界狀態(tài),。

· 策略:策略也稱為代理的'頭腦'或'思想',是代理用來選擇下一個操作的規(guī)則,。

這五個概念構成了一個世界和個人對其的探索,。 在數(shù)學上,它用馬爾可夫決策過程(MDP)表示,,該過程由元組組成:

強化學習之旅,,AI最熱門的話題

· S是一組有限的狀態(tài)。

· A是一組有限的動作,。

· P是狀態(tài)轉移概率矩陣,,它表示轉移到另一個特定狀態(tài)的概率,。

· R是獎勵函數(shù)。

· γ是折現(xiàn)因子γ∈[0,1],,它確定代理'計劃'的數(shù)量,,或者關心將來的獎勵是否也與前面的獎勵相對。

強化學習之旅,,AI最熱門的話題

> Example MDP. Source: StackAbuse

從簡單的國際象棋游戲到壓倒性的高級視頻游戲,,幾乎每個現(xiàn)實世界都可以用馬爾可夫決策過程來表示。

強化學習中最著名的問題之一是多臂匪,,有時也稱為N臂匪或K臂匪,。 在此問題中,一個人必須在多項行動之間做出選擇-老虎機,,'單臂匪徒'-每項行動的支出都是未知的,。 問題的目標是確定通過一系列選擇實現(xiàn)的最佳或最有利可圖的結果。 在實驗開始時,,當賠率和賠付額未知時,,賭徒必須確定要拉的機器,順序和次數(shù),。

強化學習之旅,,AI最熱門的話題

這個問題是一個強化學習問題,因為玩家必須不斷地與其環(huán)境互動,,并在探索環(huán)境時改變其策略以優(yōu)化獎勵功能,。

有很多算法可以接近多臂匪。

Epsilon-Greedy算法在探索與開發(fā)之間取得了平衡-'貪婪'實驗總是會以已知的最高支出拉動杠桿,,除非采取隨機行動,。 隨機選擇的手臂被拉出時間的一部分ε,而其他1-ε的時間被拉出已知支出最高的手臂,。

最高可信度邊界策略基于面對不確定性原則的樂觀主義,,并基于可觀察的數(shù)據(jù),假設每個分支的未知平均收益將盡可能高,。

湯普森采樣(Thompson Sampling)是另一種策略,,它根據(jù)給定杠桿成為最佳杠桿的實際概率來拉多次。

強化學習與深度學習相結合已顯示出巨大的潛力,,可以將深度學習的神經(jīng)直覺和力量與強化學習的指導框架聯(lián)系起來,。 例如,本文介紹了AlphaGo算法如何成為世界上最好的Go播放器,,它被認為是人類最復雜的游戲,。

除了RL參與游戲之外,強化學習在行業(yè)中的應用還遠遠不夠,。 它的適應性和不斷發(fā)展的系統(tǒng)使其處于有監(jiān)督和無監(jiān)督的學習方法之上,,其結果在企業(yè)使用大數(shù)據(jù)時產(chǎn)生的成本很高,,并且只能給出一個靜態(tài)輸出,這意味著隨著新數(shù)據(jù)的傳入,,該算法需要全部進行訓練,。 再次。

RL在機器人技術和自動化領域(尤其是在自動駕駛汽車中)具有極大的希望,。 這些是在工作中進行強化學習的特別出色的例子,,因為該軟件甚至可以在投入生產(chǎn)之前就在數(shù)百萬英里的模擬道路上進行培訓。 在這種情況下,,由于道路法規(guī)和情況不斷更新,,強化學習模型的效果要比單純的監(jiān)督學習模型更好,以預測下一步該怎么做,。 有監(jiān)督的學習模型將需要完全更新,,而強化學習將輕松采用新法則。

其他應用程序包括:

· 相機調整,。 最佳相機拍攝是什么,? RL模型需要根據(jù)用戶的喜好進行調整,并可以根據(jù)傳入的信息進行更新(如果用戶使用了自動調整的設置,,則可獲得獎勵;如果調整了自動調整的設置,,則可獲得罰款),。

· 倉庫運營優(yōu)化。 由于倉庫庫存根據(jù)需求,,庫存,,法規(guī)和其他因素而不斷變化,因此,,適應性強的學習算法可以更好地操作倉庫操作,。

強化學習之旅,AI最熱門的話題

> Amazon Warehouse robots finding the most optimal path. Source

· 推薦系統(tǒng),。 當用戶輸入有關歌曲或電影的更多信息時,,系統(tǒng)會獲得有關用戶偏好的更多反饋。 在這種情況下,,使用強化學習比監(jiān)督學習系統(tǒng)更好,,因為用戶的品味總是在變化。 監(jiān)督學習系統(tǒng)假定您去年評價很高的電影仍然會吸引您,,但強化學習系統(tǒng)會證明這一點,。

關鍵點

· 強化學習是機器學習的三個子集之一,其他子集是監(jiān)督學習和無監(jiān)督學習,。

· 強化學習系統(tǒng)由環(huán)境和代理組成,,代理可以根據(jù)策略在特定狀態(tài)之間進行某些轉換,。 每個動作都可能得到獎勵或懲罰。

· 強化學習系統(tǒng)是有益的,,因為它們比例如有監(jiān)督的學習更具適應性,。

謝謝閱讀! 如果喜歡,,請隨時投票,。

(本文翻譯自Andre Ye的文章《A Tour of Reinforcement Learning, the Hottest Topic in AI》,參考:https:///dataseries/a-tour-of-reinforcement-learning-the-hottest-topic-in-ai-3822de3a0936)

    本站是提供個人知識管理的網(wǎng)絡存儲空間,,所有內容均由用戶發(fā)布,,不代表本站觀點。請注意甄別內容中的聯(lián)系方式,、誘導購買等信息,,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,,請點擊一鍵舉報,。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多