<1> 這篇文章與大家分享“強化學(xué)習(xí)”,英文名叫做“Reinforcement Learning”,。這是一個有趣的機器學(xué)習(xí)算法,,去年在國際圍棋界大顯身手、戰(zhàn)勝世界冠軍的AlphaGo以及其進化版AlphaGo zero的關(guān)鍵技術(shù)就是強化學(xué)習(xí),。它還被用于玩電腦游戲,,比如Dota2、英雄聯(lián)盟,、Flappy bird,,還有各種小游戲。 AlphaGo VS 柯潔 AI玩Pingpong游戲 <2> 正式介紹強化學(xué)習(xí)前我們先科普一下人工智能和智能算法的關(guān)系,,看圖 AI知識圖譜 人工智能是一個非常大的概念,,機器學(xué)習(xí)(Machine Learning)算法是人工智能的主要技術(shù)之一,而且是現(xiàn)在應(yīng)用最廣泛的也是機器學(xué)習(xí)算法, 深度學(xué)習(xí)(Deep Learning)或深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks)屬于機器學(xué)習(xí),,所以現(xiàn)在人們一般有下面的認(rèn)識: AI-ML-DL 傳統(tǒng)上,,機器學(xué)習(xí)算法一般可以分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),二者各有長短,。監(jiān)督學(xué)習(xí)認(rèn)為人要把自己的經(jīng)驗教給機器,。拿分辨貓貓和狗狗的 AI 來說,你需要準(zhǔn)備幾千張照片,,然后手把手教機器——哪張照片是貓,,哪張照片是狗。機器會從中學(xué)習(xí)到分辨貓狗的細(xì)節(jié),從毛發(fā)到眼睛到耳朵,,然后舉一反三得去判斷一張它從沒見過的照片是貓貓還是狗狗,。 而無監(jiān)督學(xué)習(xí)認(rèn)為機器要去自己摸索,自己發(fā)現(xiàn)規(guī)律,。人的經(jīng)驗或許能幫助機器掌握智能,,但或許人的經(jīng)驗是有缺陷的,不如讓機器自己發(fā)現(xiàn)新的,,更好的規(guī)律,。人的經(jīng)驗就放一邊吧。 <3> 強化學(xué)習(xí)是無監(jiān)督學(xué)習(xí)的一種,。強化學(xué)習(xí)是一種模仿人類學(xué)習(xí)方式的模型,,它的基本想法是:要是機器得到了好的結(jié)果就能得到獎勵,要是得到差的結(jié)果就得到懲罰,。 舉個例子,,訓(xùn)練一只汪星人聽懂人的命令。開始主人對小汪下了“坐下”的指令,,可小汪不知道什么意思,,搖了搖尾巴;然后主人又下了一次“坐下”的指令,,小汪還是聽不懂啊,,又搖了搖尾巴,主人生氣了,,踢了小汪一腳,;第三次,主人又對小汪下了“坐下”的命令,,小汪也著急了,,急得一屁股坐在了地上。哈哈,,然而主人很高興,小汪能聽懂了,,于是賞了小汪一根骨頭,。小汪啃著骨頭也恍然大悟了,主人說“坐下”的時候,,自己坐下就會有骨頭吃,,于是小汪就聽懂這個命令了。 我們來抽象一下上邊的例子就是強化學(xué)習(xí)了,。強化學(xué)習(xí)有四個要素:
實際的應(yīng)用場景中,,并不像訓(xùn)練小汪那么容易,有如下的難點:
強化學(xué)習(xí)概括起來就是,,計算機在很多次的嘗試中,根據(jù)每次嘗試的獎勵或懲罰反饋,,逐漸的找到了一系列最好的動作(Action)策略,。歡迎同學(xué)們來跟我們一起學(xué)習(xí)具體的算法和程序?qū)崿F(xiàn)。同學(xué)們可以思考一下,,如果是貪吃蛇游戲,,狀態(tài)和動作都有哪些? |
|