【導(dǎo)讀】現(xiàn)在的AI發(fā)展到什么水平了,?我們總說“超越人類水平”,有沒有一個量化的標(biāo)準(zhǔn),,來讓我們理性的認(rèn)識AI發(fā)展水平,,刺破火熱AI的迷霧?電子前沿基金會 EFF正在致力于這一方向研究,。從近期微軟宣布語音識別錯誤率降至5.1%,,與人類水平相當(dāng)談起,這篇文章將介紹目前AI領(lǐng)域最為知名的發(fā)展水平衡量標(biāo)準(zhǔn),,涉及計算機(jī)視覺,、文本理解、語音識別,、翻譯,、游戲等多個方向。包括ImageNet,、CIFAR-10,、COCO等多個近年來受到廣泛關(guān)注的數(shù)據(jù)集以及取得最好成績的模型的介紹,。 微軟上周宣布,在語音轉(zhuǎn)文字上,,他們的軟件取得了新的突破,。在一個標(biāo)準(zhǔn)的電話語音通話數(shù)據(jù)庫中,微軟的系統(tǒng)的識別錯誤率為:每20個單詞只有1個錯誤,,這與人類的水平相當(dāng),。 在一系列被人們認(rèn)為是能證明人工智能的進(jìn)步正在逐步加速,將大大促進(jìn)經(jīng)濟(jì)增長的證據(jù)中,,這一結(jié)果是最新的一例,。 一些軟件已經(jīng)被證明在識別圖像中的汽車或貓等對象上能比人做得更好,谷歌的AlphaGo軟件已經(jīng)戰(zhàn)勝了多個圍棋冠軍 ,,此前這被認(rèn)為是需要十年或以上的時間才能實(shí)現(xiàn)的,。各大公司都急切地希望基于這些進(jìn)步獲得發(fā)展,在各家企業(yè)的財報電話會議上,,AI 被提及的次數(shù)更是呈現(xiàn)指數(shù)級的增長,。 現(xiàn)在,一些AI觀察者正在嘗試制作更加精確的圖,,以展示這一技術(shù)是如何快速發(fā)展的,,以及進(jìn)步的速度如何。通過在不同的領(lǐng)域衡量AI的進(jìn)步,,他們希望能刺破AI泡沫和迷霧,。這些項目致力于給予研究者和政策制定者一個更加清晰的視角,讓他們能以最快的速度發(fā)現(xiàn)領(lǐng)域內(nèi)哪些地方在快速進(jìn)步,,以及我們應(yīng)該如何做出反應(yīng),。 圖像識別軟件在2016年的標(biāo)準(zhǔn)ImageNet測試中超越了人類。非營利實(shí)驗(yàn)室SRI國際研究員Ray Perrault說:“需要這么做的一部分原因,,是因?yàn)樵陉P(guān)于AI 會走向何方這一話題上,,人們有許多瘋狂的想法”。他是一個名為“AI指數(shù)”的項目的領(lǐng)導(dǎo)者之一,,其目的是在年底前發(fā)布一份關(guān)于該領(lǐng)域進(jìn)展情況的詳細(xì)情況,。該項目得到了2015年在斯坦福大學(xué)建立的“人工智能百年研究”的支持,以檢驗(yàn)人工智能對社會的影響,。 關(guān)于 AI 取得進(jìn)步的聲明幾乎是無處不在的,,即使是在快餐和牙刷的營銷人員口中。另外,,對于那些擁有最堅實(shí)的研究團(tuán)隊發(fā)布的成果,,我們也很難去評估。 去年10月,,微軟就首先公布在語音識別上達(dá)到了人類的標(biāo)準(zhǔn),,但是,,IBM和眾籌公司 Appen緊接著就公開宣稱,人類能做到的準(zhǔn)確率要比微軟所聲稱的高得多,。接下來,,微軟不得不其錯誤率再降低12%,以達(dá)到“人類水平”(human parity),。 注:微軟最開始宣布語音識別錯誤率為6.3%,,一個月后宣布達(dá)到5.9%,最近一次宣布錯誤率已經(jīng)降到了5.1%,。 AI指數(shù):記錄AI發(fā)展里程碑的10張趨勢圖 EFF是一家致力于保護(hù)公民自由免受數(shù)字威脅的電子前沿基金會,,他們已經(jīng)開始自己的努力來衡量和理解AI的進(jìn)展。這家非盈利組織正在梳理微軟等等機(jī)構(gòu)的論文,,以組建一個開源的,、在線的數(shù)據(jù)庫,以衡量的AI進(jìn)度和表現(xiàn),。 EFF的首席計算機(jī)科學(xué)家Peter Eckersley表示:“我們想知道AI真正發(fā)展到什么地步了,,哪些是緊急的任務(wù),哪些是長期的目標(biāo),,而不是只知道那些讓人們過度興奮的投機(jī)版本的AI,。” EFF的數(shù)據(jù)庫包含了從2012年起圖像識別快速進(jìn)展的圖表,,還有一個圖,,是關(guān)于讓軟件理解兒童讀物的測試,這能讓我們了解人類和機(jī)器在這一任務(wù)上的差距,。 “ AI指數(shù)”項目正在努力繪制AI子領(lǐng)域趨勢圖,,將最受研究員關(guān)注的趨勢表現(xiàn)出來。 視覺 1. ImageNet 視覺我們將介紹最知名的10個標(biāo)志性事件,,首先就是大名鼎鼎的ImageNet,大家都知道,,ImageNet在2017年是最后一屆了,。 EFF的統(tǒng)計表中列出了從2010年到2017年,ImageNet圖像識別競賽中取得突破的情況,。2014年的VGG和2015年的MSRA是兩大比較有代表性的突破,,其中2015年MSRA的突破,正式將機(jī)器對圖片的識別錯誤率降到了人類水平,。 2. CIFAR-10 和 CIFAR-100 CIFAR-10 數(shù)據(jù)庫包含了6萬張32X32的彩色圖像,,有10個類型,每個類型有6000張圖片,。共有5萬張訓(xùn)練圖像和1萬張測試圖像,。CIFAR-100和 CIFAR-10類似,,不同點(diǎn)在于,其類型有100個,,每個包含600張圖片,。 CIFAR-10 中,取得達(dá)到人類水平的突破也是發(fā)生在2015年之后,。下面是具體的算法和準(zhǔn)確率: 此外,,EFF還列出了MNIST 手寫識別、MSRC-21,、STL-10和SVHN等視覺和圖像數(shù)據(jù)集上幾年來的表現(xiàn),,包括算法和論文,詳情點(diǎn)擊:https://www./files/AI-progress-metrics.html#Vision 值得一提的是,,視覺問答數(shù)據(jù)集COCO上的成績: 游戲 游戲部分分為:抽象策略游戲和實(shí)時視頻游戲(各種Atari游戲),。較為有代表性的有: 1. 抽象策略游戲(計算機(jī)象棋程序) 語音識別 該數(shù)據(jù)集上近三年來不斷刷新新紀(jì)錄的算法: 語言建模與理解 翻譯 對話:聊天機(jī)器人與智能體 閱讀理解 上文提到的視覺、游戲和語音識別等,。新智元了解到,,EFF目前對AI發(fā)展的能力衡量分為以下11個部分: 玩游戲 視覺與圖像建模 文本語言 對話語言 音樂信息復(fù)合 科學(xué)和技術(shù)能力 學(xué)習(xí):正則化、遷移學(xué)習(xí)和單次學(xué)習(xí) 安全 透明性和可解釋性 公正與去偏見 隱私問題 更多內(nèi)容,,可點(diǎn)擊 https://www./files/AI-progress-metrics.html#Vision 趨勢圖的價值:創(chuàng)造AI版的“摩爾定律” AI 指數(shù)還將嘗試監(jiān)測和衡量人工智能在現(xiàn)實(shí)世界中的工作,。 Perrault說,例如,,將使用該技術(shù)的工程師的數(shù)量和以AI為中心的公司的投資在圖表中進(jìn)行體現(xiàn)可能是有用的,。 他的目標(biāo)是“了解這項研究對商業(yè)化產(chǎn)品有多大影響”,他說,。盡管他承認(rèn)公司可能不愿意發(fā)布數(shù)據(jù),。人工智能指數(shù)項目也在跟蹤媒體上報道的數(shù)量和情緒以及公眾對AI的關(guān)注。 Perrault說,,該項目應(yīng)該會贏得廣泛的觀眾,,因?yàn)檠芯咳藛T和資助機(jī)構(gòu)非常迫切地想看到AI的哪些領(lǐng)域有最大的發(fā)展勢頭,或哪些領(lǐng)域需要支持和新的想法,。他表示,,銀行和咨詢公司已經(jīng)呼吁,需要更好地處理人工智能的真實(shí)情況,??萍夹袠I(yè)與摩爾定律的數(shù)十年的“蜜月期”, 證明了AI進(jìn)展的路線圖將能在硅谷找到觀眾,。 至于這一衡量方式會對政府官員和監(jiān)管機(jī)構(gòu)應(yīng)對智能軟件在隱私等方面的影響能有多大的幫助,,現(xiàn)在還不清楚,華盛頓大學(xué)法律系教授 Ryan Calo表示:“我不知道它會有多么有用,?!彼罱岢隽薃I政策問題的詳細(xì)路線圖,。他認(rèn)為,決策者需要對底層技術(shù)進(jìn)行深度的了解,,而且需要強(qiáng)有力的價值觀,,而不是對細(xì)微的進(jìn)步進(jìn)行監(jiān)控。 EFF的 Eckersley 認(rèn)為,,AI 追蹤項目將隨著時間的推移變得更加有用,。例如,有關(guān)失業(yè)問題的辯論可能會通過關(guān)于軟件程序如何快速推動某些工作人員的核心任務(wù)進(jìn)行自動化的數(shù)據(jù)而被提及,。Eckersley說,,看這個領(lǐng)域的進(jìn)展情況已經(jīng)有助于說服他自己,讓AI系統(tǒng)更加可信賴是多么的重要,。他說:“我們收集的數(shù)據(jù)表明AI系統(tǒng)的安全性是一個相關(guān)甚至緊迫的研究領(lǐng)域,。” 學(xué)術(shù)界和谷歌等公司的研究人員最近已經(jīng)調(diào)查了如何欺騙人工智能軟件,,并防止它的錯誤行為,。隨著各家公司都在急切地用軟件來控制諸如汽車等更為普遍的技術(shù)上,如何使其可靠和安全可衡量的進(jìn)步可能是最重要的,。 |
|
來自: 百眼通 > 《02信息的編碼-100》