幾經沉浮，人工智能(AI)前路何方,？

taotao_2016 2021-06-18

展開全文

人工智能將和電力一樣具有顛覆性 ,。 --吳恩達

如同蒸汽時代的蒸汽機、電氣時代的發(fā)電機,、信息時代的計算機和互聯網,，人工智能（AI）正賦能各個產業(yè)，推動著人類進入智能時代,。

本文從介紹人工智能及主要的思想派系,，進一步系統(tǒng)地梳理了其發(fā)展歷程、標志性成果并側重其算法思想介紹,，將這段 60余年幾經沉浮的歷史,，以一個清晰的脈絡呈現出來，以此展望人工智能（AI）未來的趨勢,。

一,、人工智能簡介

1.1 人工智能研究目的

人工智能（Artificial Intelligence，AI）研究目的是通過探索智慧的實質,，擴展人類智能——促使智能主體會聽（語音識別,、機器翻譯等）,、會看（圖像識別、文字識別等）,、會說（語音合成,、人機對話等）、會思考（人機對弈,、專家系統(tǒng)等）,、會學習（知識表示，機器學習等）,、會行動（機器人,、自動駕駛汽車等）。一個經典的AI定義是：“ 智能主體可以理解數據及從中學習,，并利用知識實現特定目標和任務的能力,。(A system’s ability to correctly interpret external data, to learn from such data, and to use those learnings to achieve specific goals and tasks through flexible adaptation)”

1.2 人工智能的學派

在人工智能的發(fā)展過程中，不同時代,、學科背景的人對于智慧的理解及其實現方法有著不同的思想主張,，并由此衍生了不同的學派，影響較大的學派及其代表方法如下：

其中,，符號主義及聯結主義為主要的兩大派系：

“符號主義”（Symbolicism）,，又稱邏輯主義、計算機學派,，認為認知就是通過對有意義的表示符號進行推導計算,，并將學習視為逆向演繹，主張用顯式的公理和邏輯體系搭建人工智能系統(tǒng),。如用決策樹模型輸入業(yè)務特征預測天氣：
“聯結主義”（Connectionism）,，又叫仿生學派，篤信大腦的逆向工程,，主張是利用數學模型來研究人類認知的方法,，用神經元的連接機制實現人工智能。如用神經網絡模型輸入雷達圖像數據預測天氣：

二,、人工智能發(fā)展史

從始至此,，人工智能(AI)便在充滿未知的道路探索，曲折起伏,，我們可將這段發(fā)展歷程大致劃分為5個階段期：

起步發(fā)展期：1943年—20世紀60年代
反思發(fā)展期：20世紀70年代
應用發(fā)展期：20世紀80年代
平穩(wěn)發(fā)展期：20世紀90年代—2010年
蓬勃發(fā)展期：2011年至今

2.1 起步發(fā)展期：1943年—20世紀60年代

人工智能概念的提出后,，發(fā)展出了符號主義、聯結主義(神經網絡),，相繼取得了一批令人矚目的研究成果,，如機器定理證明、跳棋程序、人機對話等,，掀起人工智能發(fā)展的第一個高潮,。

1943年，美國神經科學家麥卡洛克（Warren McCulloch）和邏輯學家皮茨（Water Pitts）提出神經元的數學模型,，這是現代人工智能學科的奠基石之一,。
1950年，艾倫·麥席森·圖靈（Alan Mathison Turing）提出“圖靈測試”（測試機器是否能表現出與人無法區(qū)分的智能）,，讓機器產生智能這一想法開始進入人們的視野。
1950年,，克勞德·香農（Claude Shannon）提出計算機博弈,。
1956年，達特茅斯學院人工智能夏季研討會上正式使用了人工智能（artificial intelligence,，AI）這一術語,。這是人類歷史上第一次人工智能研討，標志著人工智能學科的誕生,。
1957年,弗蘭克·羅森布拉特（Frank Rosenblatt）在一臺IBM-704計算機上模擬實現了一種他發(fā)明的叫做“感知機”（Perceptron）的神經網絡模型,。

感知機可以被視為一種最簡單形式的前饋式人工神經網絡，是一種二分類的線性分類判別模型,，其輸入為實例的特征向量（x1,x2...）,，神經元的激活函數f為sign，輸出為實例的類別（+1或者-1）,，模型的目標是要將輸入實例通過超平面將正負二類分離,。

1958年，David Cox提出了logistic regression,。

LR是類似于感知機結構的線性分類判別模型,，主要不同在于神經元的激活函數f為sigmoid，模型的目標為(最大似然)極大化正確分類概率,。

1959年,，Arthur Samuel給機器學習了一個明確概念：Field of study that gives computers the ability to learn without being explicitly programmed.（機器學習是研究如何讓計算機不需要顯式的程序也可以具備學習的能力）。
1961年,，Leonard Merrick Uhr 和 Charles M Vossler發(fā)表了題目為A Pattern Recognition Program That Generates, Evaluates and Adjusts its Own Operators 的模式識別論文,，該文章描述了一種利用機器學習或自組織過程設計的模式識別程序的嘗試。
1965年,，古德（I. J. Good）發(fā)表了一篇對人工智能未來可能對人類構成威脅的文章,，可以算“AI威脅論”的先驅。他認為機器的超級智能和無法避免的智能爆炸最終將超出人類可控范疇,。后來著名科學家霍金,、發(fā)明家馬斯克等人對人工智能的恐怖預言跟古德半個世界前的警告遙相呼應。
1966 年，麻省理工學院科學家Joseph Weizenbaum 在 ACM 上發(fā)表了題為《ELIZA-a computer program for the study of natural language communication between man and machine》文章描述了ELIZA 的程序如何使人與計算機在一定程度上進行自然語言對話成為可能,，ELIZA 的實現技術是通過關鍵詞匹配規(guī)則對輸入進行分解,，而后根據分解規(guī)則所對應的重組規(guī)則來生成回復。
1967年,，Thomas等人提出K最近鄰算法（The nearest neighbor algorithm）,。

KNN的核心思想，即給定一個訓練數據集,，對新的輸入實例Xu,，在訓練數據集中找到與該實例最鄰近的K個實例，以這K個實例的最多數所屬類別作為新實例Xu的類別,。

1968年,，愛德華·費根鮑姆（Edward Feigenbaum）提出首個專家系統(tǒng)DENDRAL，并對知識庫給出了初步的定義,，這也孕育了后來的第二次人工智能浪潮,。該系統(tǒng)具有非常豐富的化學知識，可根據質譜數據幫助化學家推斷分子結構,。

專家系統(tǒng)（Expert Systems）是AI的一個重要分支,，同自然語言理解，機器人學并列為AI的三大研究方向,。它的定義是使用人類專家推理的計算機模型來處理現實世界中需要專家作出解釋的復雜問題,，并得出與專家相同的結論，可視作“知識庫(knowledge base)”和“推理機(inference machine)” 的結合,。

1969年,，“符號主義”代表人物馬文·明斯基（Marvin Minsky）的著作《感知器》提出對XOR線性不可分的問題：單層感知器無法劃分XOR原數據，解決這問題需要引入更高維非線性網絡（MLP, 至少需要兩層）,，但多層網絡并無有效的訓練算法,。這些論點給神經網絡研究以沉重的打擊，神經網絡的研究走向長達10年的低潮時期,。

2.2 反思發(fā)展期：20世紀70年代

人工智能發(fā)展初期的突破性進展大大提升了人們對人工智能的期望,，人們開始嘗試更具挑戰(zhàn)性的任務，然而計算力及理論等的匱乏使得不切實際目標的落空,，人工智能的發(fā)展走入低谷,。

1974年，哈佛大學沃伯斯(Paul Werbos)博士論文里,，首次提出了通過誤差的反向傳播(BP)來訓練人工神經網絡,，但在該時期未引起重視。

BP算法的基本思想不是（如感知器那樣）用誤差本身去調整權重,，而是用誤差的導數（梯度）調整,。通過誤差的梯度做反向傳播,，更新模型權重, 以下降學習的誤差，擬合學習目標,，實現'網絡的萬能近似功能'的過程,。

1975年，馬文·明斯基(Marvin Minsky)在論文《知識表示的框架》(A Framework for Representing Knowledge)中提出用于人工智能中的知識表示學習框架理論,。
1976年,，蘭德爾·戴維斯（Randall Davis）構建和維護的大規(guī)模的知識庫，提出使用集成的面向對象模型可以提高知識庫（KB）開發(fā),、維護和使用的完整性,。
1976年，斯坦福大學的肖特利夫(Edward H. Shortliffe)等人完成了第一個用于血液感染病的診斷,、治療和咨詢服務的醫(yī)療專家系統(tǒng)MYCIN,。
1976年，斯坦福大學的博士勒納特發(fā)表論文《數學中發(fā)現的人工智能方法——啟發(fā)式搜索》,，描述了一個名為“AM”的程序,，在大量啟發(fā)式規(guī)則的指導下開發(fā)新概念數學,，最終重新發(fā)現了數百個常見的概念和定理,。
1977年，海斯·羅思(Hayes. Roth)等人的基于邏輯的機器學習系統(tǒng)取得較大的進展,，但只能學習單一概念,，也未能投入實際應用。
1979年,，漢斯·貝利納（Hans Berliner）打造的計算機程序戰(zhàn)勝雙陸棋世界冠軍成為標志性事件,。(隨后，基于行為的機器人學在羅德尼·布魯克斯和薩頓等人的推動下快速發(fā)展,，成為人工智能一個重要的發(fā)展分支,。格瑞·特索羅等人打造的自我學習雙陸棋程序又為后來的強化學習的發(fā)展奠定了基礎。)

2.3 應用發(fā)展期：20世紀80年代

人工智能走入應用發(fā)展的新高潮,。專家系統(tǒng)模擬人類專家的知識和經驗解決特定領域的問題,，實現了人工智能從理論研究走向實際應用、從一般推理策略探討轉向運用專門知識的重大突破,。而機器學習(特別是神經網絡)探索不同的學習策略和各種學習方法,，在大量的實際應用中也開始慢慢復蘇。

1980年,，在美國的卡內基梅隆大學(CMU)召開了第一屆機器學習國際研討會,，標志著機器學習研究已在全世界興起。
1980年,，德魯·麥狄蒙（Drew McDermott）和喬恩·多伊爾（Jon Doyle）提出非單調邏輯,，以及后期的機器人系統(tǒng),。
1980年，卡耐基梅隆大學為DEC公司開發(fā)了一個名為XCON的專家系統(tǒng),，每年為公司節(jié)省四千萬美元,，取得巨大成功。
1981年,，保羅（R.P.Paul）出版第一本機器人學課本,，“Robot Manipulator：Mathematics，Programmings and Control”,，標志著機器人學科走向成熟,。
1982年，馬爾（David Marr）發(fā)表代表作《視覺計算理論》提出計算機視覺（Computer Vision）的概念,，并構建系統(tǒng)的視覺理論,，對認知科學（CognitiveScience）也產生了很深遠的影響。
1982年,，約翰·霍普菲爾德（John Hopfield）發(fā)明了霍普菲爾德網絡,，這是最早的RNN的雛形?；羝辗茽柕律窠浘W絡模型是一種單層反饋神經網絡（神經網絡結構主要可分為前饋神經網絡,、反饋神經網絡及圖網絡），從輸出到輸入有反饋連接,。它的出現振奮了神經網絡領域，在人工智能之機器學習,、聯想記憶,、模式識別、優(yōu)化計算,、VLSI和光學設備的并行實現等方面有著廣泛應用,。
1983年，Terrence Sejnowski, Hinton等人發(fā)明了玻爾茲曼機（Boltzmann Machines）,，也稱為隨機霍普菲爾德網絡,，它本質是一種無監(jiān)督模型，用于對輸入數據進行重構以提取數據特征做預測分析,。
1985年,，朱迪亞·珀爾提出貝葉斯網絡(Bayesian network)，他以倡導人工智能的概率方法和發(fā)展貝葉斯網絡而聞名,，還因發(fā)展了一種基于結構模型的因果和反事實推理理論而受到贊譽,。

貝葉斯網絡是一種模擬人類推理過程中因果關系的不確定性處理模型，如常見的樸素貝葉斯分類算法就是貝葉斯網絡最基本的應用,。貝葉斯網絡拓樸結構是一個有向無環(huán)圖(DAG),，通過把某個研究系統(tǒng)中涉及的隨機變量,，根據是否條件獨立繪制在一個有向圖中，以描述隨機變量之間的條件依賴,，用圈表示隨機變量(random variables),，用箭頭表示條件依賴(conditional dependencies)就形成了貝葉斯網絡。對于任意的隨機變量,，其聯合概率可由各自的局部條件概率分布相乘而得出,。如圖中b依賴于a(即：a->b)，c依賴于a和b,，a獨立無依賴,，根據貝葉斯定理有 P(a,b,c) = P(a)*P(b|a)*P(c|a,b)

1986年，羅德尼·布魯克斯(Brooks)發(fā)表論文《移動機器人魯棒分層控制系統(tǒng)》,，標志著基于行為的機器人學科的創(chuàng)立,，機器人學界開始把注意力投向實際工程主題。
1986年,，辛頓(Geoffrey Hinton)等人先后提出了多層感知器(MLP)與反向傳播（BP）訓練相結合的理念（該方法在當時計算力上還是有很多挑戰(zhàn),，基本上都是和鏈式求導的梯度算法相關的），這也解決了單層感知器不能做非線性分類的問題,，開啟了神經網絡新一輪的高潮,。
1986年，昆蘭（Ross Quinlan）提出ID3決策樹算法,。

決策樹模型可視為多個規(guī)則(if, then)的組合,，與神經網絡黑盒模型截然不同是,，它擁有良好的模型解釋性,。ID3算法核心的思想是通過自頂向下的貪心策略構建決策樹：根據信息增益來選擇特征進行劃分（信息增益的含義是引入屬性A的信息后，數據D的不確定性減少程度,。也就是信息增益越大,，區(qū)分D的能力就越強)，依次遞歸地構建決策樹,。

1989年,，George Cybenko證明了“萬能近似定理”（universal approximation theorem）。簡單來說,，多層前饋網絡可以近似任意函數,，其表達力和圖靈機等價。這就從根本上消除了Minsky對神經網絡表達力的質疑,。

“萬能近似定理”可視為神經網絡的基本理論：?個前饋神經?絡如果具有線性層和?少?層具有 “擠壓” 性質的激活函數（如 sigmoid 等）,，給定?絡?夠數量的隱藏單元，它可以以任意精度來近似任何從?個有限維空間到另?個有限維空間的 borel 可測函數,。

1989年,，LeCun (CNN之父) 結合反向傳播算法與權值共享的卷積神經層發(fā)明了卷積神經網絡（Convolutional Neural Network,，CNN），并首次將卷積神經網絡成功應用到美國郵局的手寫字符識別系統(tǒng)中,。

卷積神經網絡通常由輸入層,、卷積層、池化（Pooling）層和全連接層組成,。卷積層負責提取圖像中的局部特征,，池化層用來大幅降低參數量級(降維)，全連接層類似傳統(tǒng)神經網絡的部分,，用來輸出想要的結果,。

2.4 平穩(wěn)發(fā)展期：20世紀90年代—2010年

由于互聯網技術的迅速發(fā)展，加速了人工智能的創(chuàng)新研究,，促使人工智能技術進一步走向實用化,，人工智能相關的各個領域都取得長足進步。在2000年代初,，由于專家系統(tǒng)的項目都需要編碼太多的顯式規(guī)則,，這降低了效率并增加了成本，人工智能研究的重心從基于知識系統(tǒng)轉向了機器學習方向,。

1995年,，Cortes和Vapnik提出聯結主義經典的支持向量機(Support Vector Machine)，它在解決小樣本,、非線性及高維模式識別中表現出許多特有的優(yōu)勢,，并能夠推廣應用到函數擬合等其他機器學習問題中。

支持向量機（Support Vector Machine, SVM）可以視為在感知機基礎上的改進,，是建立在統(tǒng)計學習理論的VC維理論和結構風險最小原理基礎上的廣義線性分類器,。與感知機主要差異在于：1、感知機目標是找到一個超平面將各樣本盡可能分離正確(有無數個),，SVM目標是找到一個超平面不僅將各樣本盡可能分離正確,，還要使各樣本離超平面距離最遠(只有一個最大邊距超平面)，SVM的泛化能力更強,。2,、對于線性不可分的問題，不同于感知機的增加非線性隱藏層,，SVM利用核函數,，本質上都是實現特征空間非線性變換，使可以被線性分類,。

1995年,， Freund和schapire提出了 AdaBoost (Adaptive Boosting)算法。AdaBoost采用的是Boosting集成學習方法——串行組合弱學習器以達到更好的泛化性能,。另外一種重要集成方法是以隨機森林為代表的Bagging并行組合的方式,。以“偏差-方差分解”分析,，Boosting方法主要優(yōu)化偏差，Bagging主要優(yōu)化方差,。

Adaboost迭代算法基本思想主要是通過調節(jié)的每一輪各訓練樣本的權重(錯誤分類的樣本權重更高),，串行訓練出不同分類器。最終以各分類器的準確率作為其組合的權重,，一起加權組合成強分類器,。

1997年國際商業(yè)機器公司（簡稱IBM）深藍超級計算機戰(zhàn)勝了國際象棋世界冠軍卡斯帕羅夫。深藍是基于暴力窮舉實現國際象棋領域的智能,，通過生成所有可能的走法,，然后執(zhí)行盡可能深的搜索，并不斷對局面進行評估,，嘗試找出最佳走法,。
1997年，Sepp Hochreiter 和 Jürgen Schmidhuber提出了長短期記憶神經網絡(LSTM),。

LSTM是一種復雜結構的循環(huán)神經網絡（RNN）,，結構上引入了遺忘門、輸入門及輸出門：輸入門決定當前時刻網絡的輸入數據有多少需要保存到單元狀態(tài),，遺忘門決定上一時刻的單元狀態(tài)有多少需要保留到當前時刻,，輸出門控制當前單元狀態(tài)有多少需要輸出到當前的輸出值。這樣的結構設計可以解決長序列訓練過程中的梯度消失問題,。

1998年,，萬維網聯盟的蒂姆·伯納斯·李(Tim Berners-Lee)提出語義網(Semantic Web)的概念。其核心思想是：通過給萬維網上的文檔（如HTML）添加能夠被計算機所理解的語義(Meta data),，從而使整個互聯網成為一個基于語義鏈接的通用信息交換媒介,。換言之，就是構建一個能夠實現人與電腦無障礙溝通的智能網絡,。
2001年,，John Lafferty首次提出條件隨機場模型（Conditional random field,，CRF）,。CRF是基于貝葉斯理論框架的判別式概率圖模型，在給定條件隨機場P ( Y ∣ X ) 和輸入序列x,，求條件概率最大的輸出序列y *,。在許多自然語言處理任務中比如分詞、命名實體識別等表現尤為出色,。
2001年,，布雷曼博士提出隨機森林（Random Forest）。隨機森林是將多個有差異的弱學習器(決策樹)Bagging并行組合,，通過建立多個的擬合較好且有差異模型去組合決策,，以優(yōu)化泛化性能的一種集成學習方法,。多樣差異性可減少對某些特征噪聲的依賴，降低方差（過擬合）,，組合決策可消除些學習器間的偏差,。

隨機森林算法的基本思路是對于每一弱學習器(決策樹)有放回的抽樣構造其訓練集，并隨機抽取其可用特征子集,，即以訓練樣本及特征空間的多樣性訓練出N個不同的弱學習器,，最終結合N個弱學習器的預測（類別或者回歸預測數值），取最多數類別或平均值作為最終結果,。

2003年,，David Blei, Andrew Ng和 Michael I. Jordan于2003年提出LDA（Latent Dirichlet Allocation）。

LDA是一種無監(jiān)督方法,，用來推測文檔的主題分布,，將文檔集中每篇文檔的主題以概率分布的形式給出，可以根據主題分布進行主題聚類或文本分類,。

2003年,，Google公布了3篇大數據奠基性論文，為大數據存儲及分布式處理的核心問題提供了思路：非結構化文件分布式存儲（GFS）,、分布式計算（MapReduce）及結構化數據存儲（BigTable）,，并奠定了現代大數據技術的理論基礎。
2005 年,，波士頓動力公司推出一款動力平衡四足機器狗,，有較強的通用性，可適應較復雜的地形,。
2006年,，杰弗里·辛頓以及他的學生魯斯蘭·薩拉赫丁諾夫正式提出了深度學習的概念（Deeping Learning），開啟了深度學習在學術界和工業(yè)界的浪潮,。2006年也被稱為深度學習元年,，杰弗里·辛頓也因此被稱為深度學習之父。

深度學習的概念源于人工神經網絡的研究,，它的本質是使用多個隱藏層網絡結構,，通過大量的向量計算，學習數據內在信息的高階表示,。

2010年,，Sinno Jialin Pan和 Qiang Yang發(fā)表文章《遷移學習的調查》。

遷移學習(transfer learning)通俗來講,，就是運用已有的知識（如訓練好的網絡權重）來學習新的知識以適應特定目標任務,，核心是找到已有知識和新知識之間的相似性。

2.5 蓬勃發(fā)展期：2011年至今

隨著大數據、云計算,、互聯網,、物聯網等信息技術的發(fā)展，泛在感知數據和圖形處理器等計算平臺推動以深度神經網絡為代表的人工智能技術飛速發(fā)展,，大幅跨越了科學與應用之間的技術鴻溝,，諸如圖像分類、語音識別,、知識問答,、人機對弈、無人駕駛等人工智能技術實現了重大的技術突破,，迎來爆發(fā)式增長的新高潮,。

2011年，IBM Watson問答機器人參與Jeopardy回答測驗比賽最終贏得了冠軍,。Waston是一個集自然語言處理,、知識表示、自動推理及機器學習等技術實現的電腦問答（Q&A）系統(tǒng),。
2012年,，Hinton和他的學生Alex Krizhevsky設計的AlexNet神經網絡模型在ImageNet競賽大獲全勝，這是史上第一次有模型在 ImageNet 數據集表現如此出色,，并引爆了神經網絡的研究熱情,。

AlexNet是一個經典的CNN模型，在數據,、算法及算力層面均有較大改進,，創(chuàng)新地應用了Data Augmentation、ReLU,、Dropout和LRN等方法,，并使用GPU加速網絡訓練。

2012年,，谷歌正式發(fā)布谷歌知識圖譜Google Knowledge Graph）,，它是Google的一個從多種信息來源匯集的知識庫，通過Knowledge Graph來在普通的字串搜索上疊一層相互之間的關系,，協助使用者更快找到所需的資料的同時,，也可以知識為基礎的搜索更近一步，以提高Google搜索的質量,。

知識圖譜是結構化的語義知識庫,，是符號主義思想的代表方法，用于以符號形式描述物理世界中的概念及其相互關系,。其通用的組成單位是RDF三元組(實體-關系-實體)，實體間通過關系相互聯結,，構成網狀的知識結構,。

2013年,，Durk Kingma和Max Welling在ICLR上以文章《Auto-Encoding Variational Bayes》提出變分自編碼器（Variational Auto-Encoder，VAE）,。

VAE基本思路是將真實樣本通過編碼器網絡變換成一個理想的數據分布,，然后把數據分布再傳遞給解碼器網絡,，構造出生成樣本，模型訓練學習的過程是使生成樣本與真實樣本足夠接近,。

2013年,，Google的Tomas Mikolov 在《Efficient Estimation of Word Representation in Vector Space》提出經典的 Word2Vec模型用來學習單詞分布式表示，因其簡單高效引起了工業(yè)界和學術界極大的關注,。

Word2Vec基本的思想是學習每個單詞與鄰近詞的關系,，從而將單詞表示成低維稠密向量。通過這樣的分布式表示可以學習到單詞的語義信息,，直觀來看,，語義相似的單詞的距離相近。Word2Vec網絡結構是一個淺層神經網絡（輸入層-線性全連接隱藏層->輸出層）,，按訓練學習方式可分為CBOW模型(以一個詞語作為輸入,，來預測它的鄰近詞)或Skip-gram模型 (以一個詞語的鄰近詞作為輸入，來預測這個詞語),。

2014年,，聊天程序“尤金·古斯特曼”（Eugene Goostman）在英國皇家學會舉行的“2014圖靈測試”大會上，首次“通過”了圖靈測試,。
2014年,，Goodfellow及Bengio等人提出生成對抗網絡（Generative Adversarial Network，GAN）,，被譽為近年來最酷炫的神經網絡,。

GAN是基于強化學習(RL)思路設計的，由生成網絡(Generator, G)和判別網絡(Discriminator, D)兩部分組成,，生成網絡構成一個映射函數G: Z→X（輸入噪聲z, 輸出生成的偽造數據x）, 判別網絡判別輸入是來自真實數據還是生成網絡生成的數據,。在這樣訓練的博弈過程中，提高兩個模型的生成能力和判別能力。

2015年,，為紀念人工智能概念提出60周年,，深度學習三巨頭LeCun、Bengio和Hinton(他們于2018年共同獲得了圖靈獎)推出了深度學習的聯合綜述《Deep learning》,。

《Deep learning》文中指出深度學習就是一種特征學習方法,，把原始數據通過一些簡單的但是非線性的模型轉變成為更高層次及抽象的表達，能夠強化輸入數據的區(qū)分能力,。通過足夠多的轉換的組合,，非常復雜的函數也可以被學習。

2015年,，Microsoft Research的Kaiming He等人提出的殘差網絡（ResNet）在ImageNet大規(guī)模視覺識別競賽中獲得了圖像分類和物體識別的優(yōu)勝,。

殘差網絡的主要貢獻是發(fā)現了網絡不恒等變換導致的“退化現象（Degradation）”，并針對退化現象引入了 “快捷連接（Shortcut connection）”,，緩解了在深度神經網絡中增加深度帶來的梯度消失問題,。

2015年，谷歌開源TensorFlow框架,。它是一個基于數據流編程（dataflow programming）的符號數學系統(tǒng),，被廣泛應用于各類機器學習（machine learning）算法的編程實現，其前身是谷歌的神經網絡算法庫DistBelief,。
2015年,，馬斯克等人共同創(chuàng)建OpenAI。它是一個非營利的研究組織,，使命是確保通用人工智能 (即一種高度自主且在大多數具有經濟價值的工作上超越人類的系統(tǒng)）將為全人類帶來福祉,。其發(fā)布熱門產品的如：OpenAI Gym，GPT等,。
2016年,，谷歌提出聯邦學習方法，它在多個持有本地數據樣本的分散式邊緣設備或服務器上訓練算法,，而不交換其數據樣本,。

聯邦學習保護隱私方面最重要的三大技術分別是：差分隱私 ( Differential Privacy )、同態(tài)加密 ( Homomorphic Encryption )和隱私保護集合交集 ( Private Set Intersection ),，能夠使多個參與者在不共享數據的情況下建立一個共同的,、強大的機器學習模型，從而解決數據隱私,、數據安全,、數據訪問權限和異構數據的訪問等關鍵問題。

2016年,，AlphaGo與圍棋世界冠軍,、職業(yè)九段棋手李世石進行圍棋人機大戰(zhàn),，以4比1的總比分獲勝。

AlphaGo是一款圍棋人工智能程序,，其主要工作原理是“深度學習”,，由以下四個主要部分組成：策略網絡（Policy Network）給定當前局面,，預測并采樣下一步的走棋,；快速走子（Fast rollout）目標和策略網絡一樣，但在適當犧牲走棋質量的條件下,，速度要比策略網絡快1000倍,；價值網絡（Value Network）估算當前局面的勝率；蒙特卡洛樹搜索（Monte Carlo Tree Search）樹搜索估算每一種走法的勝率,。在2017年更新的AlphaGo Zero,，在此前的版本的基礎上，結合了強化學習進行了自我訓練,。它在下棋和游戲前完全不知道游戲規(guī)則,，完全是通過自己的試驗和摸索，洞悉棋局和游戲的規(guī)則,，形成自己的決策,。隨著自我博弈的增加，神經網絡逐漸調整,，提升下法勝率,。更為厲害的是，隨著訓練的深入,，AlphaGo Zero還獨立發(fā)現了游戲規(guī)則,，并走出了新策略，為圍棋這項古老游戲帶來了新的見解,。

2017年,，中國香港的漢森機器人技術公司（Hanson Robotics）開發(fā)的類人機器人索菲亞，是歷史上首個獲得公民身份的一臺機器人,。索菲亞看起來就像人類女性,，擁有橡膠皮膚，能夠表現出超過62種自然的面部表情,。其“大腦”中的算法能夠理解語言,、識別面部，并與人進行互動,。
2018年,，Google提出論文《Pre-training of Deep Bidirectional Transformers for Language Understanding》并發(fā)布Bert(Bidirectional Encoder Representation from Transformers)模型，成功在 11 項 NLP 任務中取得 state of the art 的結果,。

BERT是一個預訓練的語言表征模型,，可在海量的語料上用無監(jiān)督學習方法學習單詞的動態(tài)特征表示,。它基于Transformer注意力機制的模型，對比RNN可以更加高效,、能捕捉更長距離的依賴信息,，且不再像以往一樣采用傳統(tǒng)的單向語言模型或者把兩個單向語言模型進行淺層拼接的方法進行預訓練，而是采用新的masked language model（MLM）,，以致能生成深度的雙向語言表征,。

2019年， IBM宣布推出Q System One,，它是世界上第一個專為科學和商業(yè)用途設計的集成通用近似量子計算系統(tǒng),。
2019年，香港 Insilico Medicine 公司和多倫多大學的研究團隊實現了重大實驗突破,，通過深度學習和生成模型相關的技術發(fā)現了幾種候選藥物,，證明了 AI 發(fā)現分子策略的有效性，很大程度解決了傳統(tǒng)新藥開發(fā)在分子鑒定困難且耗時的問題,。
2020年,，Google與Facebook分別提出SimCLR與MoCo兩個無監(jiān)督學習算法，均能夠在無標注數據上學習圖像數據表征,。兩個算法背后的框架都是對比學習（contrastive learning）,，對比學習的核心訓練信號是圖片的“可區(qū)分性”。
2020年,，OpenAI開發(fā)的文字生成 (text generation) 人工智能GPT-3,，它具有1,750億個參數的自然語言深度學習模型，比以前的版本GPT-2高100倍,，該模型經過了將近0.5萬億個單詞的預訓練,，可以在多個NLP任務（答題、翻譯,、寫文章）基準上達到最先進的性能,。
2020年，馬斯克的腦機接口（brain–computer interface, BCI）公司Neuralink舉行現場直播,，展示了植入Neuralink設備的實驗豬的腦部活動,。
2020年，谷歌旗下DeepMind的AlphaFold2人工智能系統(tǒng)有力地解決了蛋白質結構預測的里程碑式問題,。它在國際蛋白質結構預測競賽（CASP）上擊敗了其余的參會選手,，精確預測了蛋白質的三維結構，準確性可與冷凍電子顯微鏡（cryo-EM）,、核磁共振或 X 射線晶體學等實驗技術相媲美,。
2020年，中國科學技術大學潘建偉等人成功構建76個光子的量子計算原型機“九章”,，求解數學算法“高斯玻色取樣”只需200秒,，而目前世界最快的超級計算機要用6億年,。
2021年，OpenAI提出兩個連接文本與圖像的神經網絡：DALL·E 和 CLIP,。DALL·E 可以基于文本直接生成圖像,，CLIP 則能夠完成圖像與文本類別的匹配。
2021年,，德國Eleuther人工智能公司于今年3月下旬推出開源的文本AI模型GPT-Neo,。對比GPT-3的差異在于它是開源免費的。
2021年,，美國斯坦福大學的研究人員開發(fā)出一種用于打字的腦機接口（brain–computer interface, BCI）,，這套系統(tǒng)可以從運動皮層的神經活動中解碼癱瘓患者想象中的手寫動作,，并利用遞歸神經網絡（RNN）解碼方法將這些手寫動作實時轉換為文本,。相關研究結果發(fā)表在2021年5月13日的Nature期刊上，論文標題為“High-performance brain-to-text communication via handwriting”,。

三,、AI 未來趨勢

人工智能有三個要素：數據、算力及算法,，數據即是知識原料,，算力及算法提供“計算智能”以學習知識并實現特定目標。人工智能60多年的技術發(fā)展,，可以歸根為數據,、算力及算法層面的發(fā)展，那么在可以預見的未來,，人工智能發(fā)展將會出現怎樣的趨勢呢,？

3.1 數據層面

數據是現實世界映射構建虛擬世界的基本要素，隨著數據量以指數形式增長,，開拓的虛擬世界的疆土也不斷擴張,。不同于AI算法開源，關鍵數據往往是不開放的,，數據隱私化,、私域化是一種趨勢，數據之于AI應用,，如同流量是互聯網的護城河,，有核心數據才有關鍵的AI能力。

3.2 算力層面

推理就是計算（reason is nothing but reckoning） --托馬斯.霍布斯

計算是AI的關鍵,，自2010年代以來的深度學習浪潮,，很大程度上歸功于計算能力的進步。

量子計算發(fā)展

在計算芯片按摩爾定律發(fā)展越發(fā)失效的今天,，計算能力進步的放慢會限制未來的AI技,，量子計算提供了一條新量級的增強計算能力的思路,。隨著量子計算機的量子比特數量以指數形式增長，而它的計算能力是量子比特數量的指數級,，這個增長速度將遠遠大于數據量的增長,，為數據爆發(fā)時代的人工智能帶來了強大的硬件基礎。

邊緣計算發(fā)展

邊緣計算作為云計算的一種補充和優(yōu)化,，一部分的人工智能正在加快速度從云端走向邊緣,，進入到越來越小的物聯網設備中。而這些物聯網設備往往體積很小,，為此輕量機器學習（TinyML）受到青睞,，以滿足功耗、延時以及精度等問題,。

類腦計算發(fā)展

以類腦計算芯片為核心的各種類腦計算系統(tǒng),，在處理某些智能問題以及低功耗智能計算方面正逐步展露出優(yōu)勢。類腦計算芯片設計將從現有處理器的設計方法論及其發(fā)展歷史中汲取靈感,，在計算完備性理論基礎上結合應用需求實現完備的硬件功能,。同時類腦計算基礎軟件將整合已有類腦計算編程語言與框架，實現類腦計算系統(tǒng)從“專用”向“通用”的逐步演進,。

人工智能計算中心成為智能化時代的關鍵基礎設施

人工智能計算中心基于最新人工智能理論,，采用領先的人工智能計算架構，是融合公共算力服務,、數據開放共享,、智能生態(tài)建設、產業(yè)創(chuàng)新聚集的“四位一體”綜合平臺,，可提供算力,、數據和算法等人工智能全棧能力，是人工智能快速發(fā)展和應用所依托的新型算力基礎設施,。未來,，隨著智能化社會的不斷發(fā)展，人工智能計算中心將成為關鍵的信息基礎設施,，推動數字經濟與傳統(tǒng)產業(yè)深度融合,，加速產業(yè)轉型升級，促進經濟高質量發(fā)展,。

3.3 算法層面

機器學習自動化(AutoML)發(fā)展

自動化機器學習（AutoML）解決的核心問題是：在給定數據集上使用哪種機器學習算法,、是否以及如何預處理其特征以及如何設置所有超參數。隨著機器學習在許多應用領域取得了長足的進步,，這促成了對機器學習系統(tǒng)的不斷增長的需求,，并希望機器學習應用可以自動化構建并使用。借助AutoMl,、MLOps技術,，將大大減少機器學習人工訓練及部署過程,，技術人員可以專注于核心解決方案。

向分布式隱私保護方向演進

當前全球多個國家和地區(qū)已出臺數據監(jiān)管法規(guī),，如HIPAA（美國健康保險便利和責任法案）,、GDPR（歐盟通用數據保護條例）等，通過嚴格的法規(guī)限制多機構間隱私數據的交互,。分布式隱私保護機器學習(聯邦學習)通過加密,、分布式存儲等方式保護機器學習模型訓練的輸入數據，是打破數據孤島,、完成多機構聯合訓練建模的可行方案,。

數據和機理融合

AI模型的發(fā)展是符合簡單而美的定律的。從數據出發(fā)的建模從數據中總結規(guī)律,，追求在實踐中的應用效果,。從機理出發(fā)的建模以基本物理規(guī)律為出發(fā)點進行演繹，追求簡潔與美的表達,。

一個好的,、主流的的模型，通常是高度總結了數據規(guī)律并切合機理的,，是“優(yōu)雅”的，因為它觸及了問題的本質,。就和科學理論一樣,，往往簡潔的，沒有太多補丁,，而這同時解決了收斂速度問題和泛化問題,。

神經網絡模型結構發(fā)展

神經網絡的演進一直沿著模塊化+層次化的方向，不斷把多個承擔相對簡單任務的模塊組合起來,。

神經網絡結構通過較低層級模塊偵測基本的特征,，并在較高層級偵測更高階的特征，無論是多層前饋網絡,，還是卷積神經網絡,，都體現了這種模塊性(近年Hinton提出的“膠囊”（capsule）網絡就是進一步模塊化發(fā)展)。因為我們處理的問題（圖像,、語音,、文字）往往都有天然的模塊性，學習網絡的模塊性若匹配了問題本身內在的模塊性,，就能取得較好的效果,。

層次化并不僅僅是網絡的拓撲疊加，更重要的是學習算法的升級,，僅僅簡單地加深層次可能會導致BP網絡的梯度消失等問題,。

多學派方法融合發(fā)展

通過多學派方法交融發(fā)展,，得以互補算法之間的優(yōu)勢和弱點。如 1）貝葉斯派與神經網絡融合,，Neil Lawrence組的Deep Gaussian process, 用簡單的概率分布替換神經網絡層,。2）符號主義、集成學習與神經網絡的融合,，周志華老師的深度隨機森林,。3) 符號主義與神經網絡的融合：將知識庫(KG)融入進神經網絡，如GNN,、知識圖譜表示學習,。4) 神經網絡與強化學習的融合，如谷歌基于DNN+強化學習實現的Alpha Go 讓AI的復雜任務表現逼近人類,。

基于大規(guī)模無(自)監(jiān)督預訓練發(fā)展

If intelligence is a cake, the bulk of the cake is unsupervised learning, the icing on the cake is supervised learning, and the cherry on the cake is reinforcement learning (RL) -- Yann Lecun

監(jiān)督學習需要足夠的帶標簽數據,，然而人工標注大量數據既耗時又費力，在一些領域(如醫(yī)學領域)上幾乎不太可能獲得足量的標注數據,。通過大規(guī)模無(自)監(jiān)督預訓練方法利用現實中大量的無標簽數據是一個研究的熱點,，如GPT-3的出現激發(fā)了對大規(guī)模自監(jiān)督預訓練方法繼續(xù)開展探索和研究。未來,，基于大規(guī)模圖像,、語音、視頻等多模態(tài)數據的跨語言的自監(jiān)督預訓練模型將進一步發(fā)展,，并不斷提升模型的認知,、推理能力。

基于因果學習方法發(fā)展

當前人工智能模型大多關注于數據特征間相關性,，而相關性與更為本源的因果關系并不等價,，可能導致預測結果的偏差，對抗攻擊的能力不佳,，且模型往往缺乏可解釋性,。另外，模型需要獨立同分布(i.i.d.)假設(現實很多情況,，i.i.d.的假設是不成立的),，若測試數據與訓練數據來自不同的分布，統(tǒng)計學習模型往往效果不佳,，而因果推斷所研究的正是這樣的情形：如何學習一個可以在不同分布下工作,、蘊含因果機制的因果模型(Causal Model)，并使用因果模型進行干預或反事實推斷,。

可解釋性AI (XAI)發(fā)展

可解釋的人工智能有可能成為未來機器學習的核心,，隨著模型變得越來越復雜，確定簡單的、可解釋的規(guī)則就會變得越來越困難,。一個可以解釋的AI（Explainable AI, XAI）意味著AI運作的透明,，便于人類對于對AI監(jiān)督及接納，以保證算法的公平性,、安全性及隱私性,。

后記

隨著數據、算力及算法取得不斷的突破,，人工智能可能進入一個永恒的春天,。本文主要從技術角度看待AI趨勢是比較片面的，雖然技術是“高大上”的第一生產力,，有著自身的發(fā)展規(guī)律,，但不可忽視的是技術是為需求市場所服務的。技術結合穩(wěn)定的市場需求,，才是技術發(fā)展的實際導向,。

優(yōu)秀人工智能圖書推薦，掃碼觀看詳情：