李根 發(fā)自 凹非寺 量子位 報(bào)道 | 公眾號(hào) QbitAI
不夠智能的人工智能,,往往被調(diào)侃成“人工智障”,,但不是所有人都清楚知道“智障”的原因。
1994年出生的巨丹,,屬于清楚知道原因的那部分人,。 這個(gè)23歲的化工大學(xué)化學(xué)專業(yè)畢業(yè)生,從第一份實(shí)習(xí)工作開始,,核心任務(wù)就是人工智能中“人工”的那部分,,現(xiàn)在她是一個(gè)AI視覺數(shù)據(jù)集審核團(tuán)隊(duì)的leader。每當(dāng)一個(gè)新成員加入,,她總會(huì)引用她的leader曾經(jīng)向她解釋的話:人工智能人工智能,,先有人工才有智能,,有多少人工才會(huì)有多少智能,。 “人工要不夠,就會(huì)從智能變智障,?!?/p> 超人90后巨丹領(lǐng)導(dǎo)的是一個(gè)12人規(guī)模的團(tuán)隊(duì),完全由來自北京高校的實(shí)習(xí)生組成,專業(yè)不限,,年齡不限,,被核心在意的只有實(shí)習(xí)的時(shí)間。 今年立夏前后,,他們開始了每天為期8小時(shí)的工作,,主要內(nèi)容就是為審核已被初步標(biāo)注的數(shù)據(jù)集。其中一部分人閱讀速度快,,被分到了審核“看圖說話”的工作,,另一部分人則較為細(xì)心,于是領(lǐng)到了復(fù)核“人體骨骼關(guān)鍵點(diǎn)”標(biāo)注的任務(wù),。 數(shù)據(jù)標(biāo)注公司給他們開發(fā)了專門的審核平臺(tái),,這些大學(xué)在校生人手一個(gè)賬號(hào),他們需要審核的工作對(duì)象,,要么是那些被框定的人物,,要么是被標(biāo)出14個(gè)人體骨骼節(jié)點(diǎn)的圖像。 這是個(gè)枯燥的工作,,但不時(shí)發(fā)生一些小趣事,。
在驗(yàn)收中,有一張圖片的“描述”寫道:一個(gè)男孩拿著話筒坐在椅子上,。但審核驗(yàn)收的同學(xué)認(rèn)為如此秀氣的一個(gè)女孩兒,,怎么就被描述成“男生”了?理所當(dāng)然駁回讓標(biāo)注組返工,。 然而來自標(biāo)注組的電話隨之到來,,電話那頭一臉懵逼地反問說:難道鹿晗不是男孩嗎?圖片中拿著話筒端坐的人物正是鹿晗呀,。 這樣的例子還有很多,,有時(shí)也確實(shí)是標(biāo)注組的“錯(cuò)誤”。比如有一張圖片里,,他們把王俊凱標(biāo)注成了李宇春…… 其實(shí)參與標(biāo)注,、審核驗(yàn)收的都是94、95年出生的年輕人,,他們正是鹿晗和王俊凱影響輻射范圍里的核心群體,,但機(jī)械、重復(fù)的審核工作,,對(duì)于青春偶像的認(rèn)知變得更為“客觀”,、“理性”和“AI化”。 這樣的工作任務(wù)日復(fù)一日,,持續(xù)進(jìn)行了很久,,甚至在上線日期緊迫的前幾周,,他們這12人小組還在周末加班加點(diǎn),以保證首批數(shù)據(jù)集如期推出,。 5個(gè)月辛苦工作后,,巨丹等到了第一批反饋。 9月4日,,AI Challenger(全球AI挑戰(zhàn)賽)數(shù)據(jù)集正式上線,。數(shù)小時(shí)后,有參賽選手完成了第一波數(shù)據(jù)集評(píng)價(jià),,參與這個(gè)視覺數(shù)據(jù)集打造并最終審核驗(yàn)收的產(chǎn)品經(jīng)理梁睿收到反饋:“數(shù)據(jù)集很贊,,竟然有針對(duì)圖片的如此豐富的中文場景描述,前所未見”,。 聽到這樣的評(píng)價(jià),,23歲的巨丹為之前的辛苦工作感到值得。她告訴量子位,,一線負(fù)責(zé)數(shù)據(jù)集審核驗(yàn)收的工作并不輕松,,但收到這樣的反饋會(huì)讓他們由衷開心。 作為數(shù)據(jù)集審核驗(yàn)收組組長,,巨丹比同組其他人更明白數(shù)據(jù)集的意義和價(jià)值,,其中大部分來自程序員和工程師的“言傳身教”。 畢業(yè)于康奈爾大學(xué),、本職為創(chuàng)新工場AI工程院產(chǎn)品經(jīng)理的梁睿告訴她,,人工智能之所以被稱為人工智能,就是先有人工再有智能,,如果人工付出不夠,,就會(huì)變成人工智障。而人工的多少,,最后反應(yīng)為數(shù)據(jù)集質(zhì)量的高低,。 盡管巨丹并無法詳述數(shù)據(jù)集具體如何讓AI算法更智能,但她知道核心原理:“數(shù)據(jù)不好,,就會(huì)影響牛逼技術(shù)的產(chǎn)生”,。 巨丹從事這份工作已有1年多的時(shí)間,她表示現(xiàn)在看到的世界“與眾不同”,,比如在商場人群密集區(qū),,她滿眼望去都是“人體骨骼節(jié)點(diǎn)”的圖像,哪些屬于上肢,,哪些又屬于下肢,,哪些很清晰,哪些又被遮擋住了……她好幾次這樣看著就自己笑出聲來,,覺得自己擁有了一項(xiàng)“超人”的新技能,。 之前有外界對(duì)這樣的工作表達(dá)過悲觀,,認(rèn)為數(shù)據(jù)標(biāo)注審核完全就是新時(shí)代的富士康工作,,但顯然巨丹不這樣認(rèn)為,,她覺得有站在前面研發(fā)算法和技術(shù)應(yīng)用的人,也不能缺像她一樣的背后服務(wù)者,,即便看起來沒有那么光鮮,。 △ AI Challenger數(shù)據(jù)集驗(yàn)收中巨丹的觀點(diǎn)也得到倪笑海認(rèn)同,后者是Face++的第4號(hào)員工,,也是此次AI Challenger提供的三個(gè)視覺數(shù)據(jù)集之一圖像中文描述數(shù)據(jù)集的標(biāo)注團(tuán)隊(duì)負(fù)責(zé)人,。 倪笑海正在打造起一支數(shù)據(jù)標(biāo)注方面的正規(guī)軍,他常對(duì)自己的團(tuán)隊(duì)說,,他們所做的工作可以說是“數(shù)字工人”,,也可以看做AI前線的認(rèn)知者,在每一個(gè)領(lǐng)域的數(shù)據(jù)標(biāo)注中,,他們都會(huì)因此成為對(duì)該領(lǐng)域AI化結(jié)合認(rèn)知最深刻的人,。 數(shù)據(jù)標(biāo)注的工作,確實(shí)不輕松,,但也并非外界想象的缺乏前景,。 耗資數(shù)百萬在Face++,倪笑海承擔(dān)了這家全球聞名的人臉識(shí)別公司光鮮背后的那部分工作,,他出身金融財(cái)務(wù)專業(yè),,被印奇、唐文斌和楊沐等人拉攏參與創(chuàng)業(yè),,“負(fù)責(zé)了技術(shù)之外所有的事情”,。 現(xiàn)在,倪笑海最核心的工作,,是為Face++每一個(gè)垂直領(lǐng)域的開拓鋪墊基礎(chǔ),、準(zhǔn)備好數(shù)據(jù)糧草。在Face++,,每一名博士都會(huì)配備3-4名數(shù)據(jù)標(biāo)注人員當(dāng)助手,。而倪笑海領(lǐng)導(dǎo)的300人規(guī)模的團(tuán)隊(duì),有些類似于京東壯大過程中的“京東物流”,。 這一次給AI Challenger提供圖像中文描述數(shù)據(jù)集標(biāo)注服務(wù),,倪笑海動(dòng)用了團(tuán)隊(duì)中的250人,其中200人標(biāo)注,,50人檢查,,從2月份正式開工啟動(dòng),直至近期才基本結(jié)束,,歷時(shí)超過7個(gè)月時(shí)間,。 但這還未計(jì)入“標(biāo)準(zhǔn)定義”時(shí)期的時(shí)間,。倪笑海認(rèn)為,這才是一個(gè)數(shù)據(jù)集標(biāo)注最具挑戰(zhàn)的部分,。 原本這個(gè)數(shù)據(jù)集標(biāo)注項(xiàng)目2016年10月就開始尋找團(tuán)隊(duì)接手,,但在公開標(biāo)注市場找尋一圈之后,并沒有在“客服和運(yùn)營轉(zhuǎn)型”而來的標(biāo)注公司中尋得滿意的供應(yīng)商,。 于是創(chuàng)新工場投資公司Face++的標(biāo)注團(tuán)隊(duì)進(jìn)入主辦方視野,,希望借助經(jīng)驗(yàn)豐富的Face++標(biāo)注團(tuán)隊(duì)來實(shí)現(xiàn)借圖像中文描述數(shù)據(jù)集”標(biāo)注這一具有挑戰(zhàn)的任務(wù)。 實(shí)際的標(biāo)注工作并沒有馬上開始,,AI Challenger組委會(huì)與Face++標(biāo)注團(tuán)隊(duì)聚在一起,,又花了一個(gè)月多時(shí)間進(jìn)行任務(wù)的“重新定義”。如果不把這個(gè)標(biāo)準(zhǔn)工作變成一個(gè)可標(biāo)準(zhǔn)化執(zhí)行的工作,,那后期一定問題不少,。例如標(biāo)注的數(shù)據(jù)會(huì)偏,訓(xùn)練出來的模型準(zhǔn)確性也會(huì)大打折扣,。 他認(rèn)為這個(gè)前期定義的需求,,需要“產(chǎn)品經(jīng)理”式的人物定義和梳理,把每一個(gè)“描述點(diǎn)”摳清楚,。 這也是人類傳授機(jī)器“智慧”,、使其更加“智能”的過程。 比如在最初的設(shè)想概念中,,圖像中文描述數(shù)據(jù)集中標(biāo)注“描述”的任務(wù),,原始概念是“看圖說話,描述圖片中的場景”,。
但在實(shí)際情況出發(fā),,這是一個(gè)無法標(biāo)準(zhǔn)化完成的任務(wù),因?yàn)槊恳粋€(gè)標(biāo)注人員之間的主觀重心不同,、關(guān)注點(diǎn)不同,,最后描述出的圖片可能也會(huì)差別巨大。于是在正式啟動(dòng)標(biāo)注前,,組委會(huì)和標(biāo)注團(tuán)隊(duì)會(huì)花很多時(shí)間去明確“場景描述”里的主體,,哪些主體需要描述,哪些可以忽略,,如何量化描述的正確度,。 主干線索明確后,還需要通過多個(gè)主觀描述讓機(jī)器算法在學(xué)習(xí)中找到“客觀”,,于是在多組對(duì)比嘗試后,,最終選用了5人獨(dú)立描述1張圖片的方式,確保描述的多樣性,。這是一項(xiàng)對(duì)于標(biāo)注團(tuán)隊(duì)來說前所未有的任務(wù),。 因?yàn)橹暗臄?shù)據(jù)集標(biāo)注,,更偏向于垂直領(lǐng)域的算法或自家技術(shù)的自檢自查,但這次更多出于產(chǎn)業(yè)化去做事,,試圖覆蓋學(xué)術(shù)界到產(chǎn)業(yè)界,,從落地的角度去看問題,于是標(biāo)注起來的普適性要求更明顯——涉及場景更多,,需要的圖片數(shù)據(jù)更廣泛,,而按照關(guān)鍵詞分類,,場景數(shù)量超過了250個(gè),。 倪笑海還透露,在溝通“定義”的過程中,,他可以感受到AI Challenger執(zhí)行委員王詠剛的期望:希望能夠傾力投入,,從無到有打造一個(gè)中文世界的數(shù)據(jù)集和競賽,讓更多人才和AI交流愈加活躍起來,。 量子位請倪笑海對(duì)比AI Challenger和ImageNet,、MS COCO等數(shù)據(jù)集,他表示現(xiàn)在后二者在垂直領(lǐng)域上的高精尖地位還無法馬上被撼動(dòng),。此次的數(shù)據(jù)集建設(shè),,創(chuàng)新工場、搜狗,、今日頭條等主辦方致力于廣泛參與和影響力,,但在將來持續(xù)的數(shù)據(jù)集建設(shè)中,超過ImageNet等經(jīng)典數(shù)據(jù)集并非沒有可能,。 關(guān)于未來的規(guī)劃,,AI Challenger執(zhí)行委員兼創(chuàng)新工場AI工程院副院長王詠剛說,主辦方將會(huì)花幾年時(shí)間,,建成一個(gè)具有世界級(jí)影響力的科研數(shù)據(jù)集和競賽平臺(tái),。今年的“圖像中文描述”、“人體骨骼關(guān)鍵點(diǎn)”,、和“翻譯數(shù)據(jù)集”在各自的領(lǐng)域,,都形成了獨(dú)特的優(yōu)勢。但這僅僅是一個(gè)開始,。接下來,,主辦方將與最頂尖的學(xué)者一起,為最前沿的科學(xué)研究建設(shè)更多頂級(jí)數(shù)據(jù)集,。 然而這并不意味著一切輕而易舉,,背后的付出很容易被忽略。 王詠剛告訴量子位,,這次AI Challenger的數(shù)據(jù)標(biāo)注,,光成本就花費(fèi)了數(shù)百萬元,,嚴(yán)格時(shí)間投入超過7個(gè)月,熟練標(biāo)注員工投入400人,。至少從數(shù)據(jù)集的角度將,,這已是中文世界最具標(biāo)志意義的AI開發(fā)大賽。
數(shù)據(jù)集在AI狂飆突進(jìn)的這幾年中,,最成功也最經(jīng)典的數(shù)據(jù)集,,非李飛飛和她的ImageNet莫屬。 ImageNet誕生于2009年,,在2017年CVPR宣布合并到kaggle,,在這8年歷程中,完全改變了AI研究的認(rèn)知,、方法,,以及留下一個(gè)全新的數(shù)據(jù)集驅(qū)動(dòng)的AI世界。短短7年內(nèi),,ImageNet優(yōu)勝者的識(shí)別率就從71.8%提升到97.3%,,超過了人類,并證明了更龐大的數(shù)據(jù)可以帶來更精確的結(jié)果,。 很多人都將此視作當(dāng)今這輪人工智能浪潮的催化劑,。更為關(guān)鍵的是,“數(shù)據(jù)集重新定義了AI從業(yè)者對(duì)模型的思考方式,?!?/p> 參與ImageNet挑戰(zhàn)賽的企業(yè)遍布科技行業(yè)的每個(gè)角落。2010年的第一場競賽優(yōu)勝者都出任了百度,、谷歌和華為的高管,。馬修·澤勒(Matthew Zeiler)利用2013年贏得ImageNet挑戰(zhàn)賽時(shí)的程序創(chuàng)辦了Clarifai公司,目前獲得了4000萬美元風(fēng)險(xiǎn)投資,。 2009年以來,,數(shù)十個(gè)新開發(fā)的人工智能研究數(shù)據(jù)集已經(jīng)引入了計(jì)算機(jī)視覺、神經(jīng)語言處理和語音識(shí)別等子領(lǐng)域,。如何打造一個(gè)ImageNet一樣的經(jīng)典數(shù)據(jù)集,,成為后來者最核心討論的關(guān)鍵。 在中科院自動(dòng)化所研究員王亮博士看來,,打造ImageNet一樣的經(jīng)典數(shù)據(jù)集,,至少要有三方面的核心投入。 一方面是數(shù)據(jù)規(guī)模,,至少是100萬級(jí)以上的規(guī)模,,這樣才更有說服力; 二是多樣性,能夠有不同場景下的覆蓋,,比如人臉識(shí)別中,,光照、表情,、各種角度的多樣性是否豐富,,都會(huì)影響最后結(jié)果的準(zhǔn)確性和泛化; 三則是數(shù)據(jù)最好接近真實(shí)應(yīng)用,,這樣不僅對(duì)于學(xué)術(shù)研究有正向作用,,對(duì)于技術(shù)和產(chǎn)品研發(fā)落地,也能不斷補(bǔ)足算法開發(fā),。 這位國家模式識(shí)別重點(diǎn)實(shí)驗(yàn)室副主任坦承,,做到以上幾方面并不容易。 在以往國家模式識(shí)別重點(diǎn)實(shí)驗(yàn)室的研究中,,他們通常的做法是先找可共享的數(shù)據(jù)集,,再不行就自建數(shù)據(jù)集,,但自建則意味著精力和成本投入,,即便國家項(xiàng)目中有專門為數(shù)據(jù)集創(chuàng)建留出的預(yù)算,但承擔(dān)上限也極為清晰,,他們尚未有超過50萬元規(guī)模的投入,,這其中還不包括采集相關(guān)的費(fèi)用,真是一件耗時(shí)費(fèi)力的事情,。 此外,,更便利的方式是和企業(yè)合作,企業(yè)中的數(shù)據(jù)集偏向應(yīng)用,,規(guī)模和場景也符合,,但涉及企業(yè)版權(quán)、保密等原因,,企業(yè)開放數(shù)據(jù)需要機(jī)會(huì)和運(yùn)氣,。 這是王亮博士對(duì)此次AI Challenger飽含期待的原因之一。也是這個(gè)AI挑戰(zhàn)賽從無到有背后最大的挑戰(zhàn),。 發(fā)起這樣的比賽,,不僅要投入時(shí)間、金錢,、人力等各種資源,,還要找到并說服合作企業(yè)開放數(shù)據(jù),而且從結(jié)果看,,最后搜狗和今日頭條開放的數(shù)據(jù),,也在中國互聯(lián)網(wǎng)史上堪稱前所未見。 在AI challenger宣布推出后的第二天,,賽事發(fā)起人李開復(fù)寫下了一篇題為《從1983到2017,,我的幸運(yùn)與遺憾》的文章,,詳細(xì)回顧了1983年至1988年李開復(fù)的博士研究往事。 當(dāng)時(shí)在卡內(nèi)基-梅隆大學(xué)攻讀計(jì)算機(jī)博士學(xué)位的他,,從無到有用統(tǒng)計(jì)學(xué)的方法,,通過建立大型的數(shù)據(jù)庫提升語音識(shí)別準(zhǔn)確率,并打破了導(dǎo)師堅(jiān)持的專家系統(tǒng)的研究方式,。這讓26歲的李開復(fù)一戰(zhàn)成名,。不僅是當(dāng)年《商業(yè)周刊》評(píng)選的“1988最重要科學(xué)發(fā)明”,也讓李開復(fù)破格留校,,成為卡耐基-梅隆大學(xué)的助理教授,。 其間幸運(yùn)的是,李開復(fù)的博士導(dǎo)師瑞迪(Raj Reddy)給予了這個(gè)當(dāng)時(shí)“離經(jīng)叛道”的學(xué)生莫大的支持和鼓勵(lì),,這位圖靈獎(jiǎng)得主,、CMU終身教授,不僅在精神上表現(xiàn)出“和而不同”的風(fēng)度,,而且在數(shù)據(jù)庫打造和計(jì)算資源支持方面,,提供了共計(jì)30萬美元的研發(fā)經(jīng)費(fèi)支持。 “這在30多年前,,我還是一個(gè)AI科研人員的時(shí)代,,能接觸到真實(shí)世界里如此海量的數(shù)據(jù),是個(gè)遙不可及的夢想”,,談到這次開放出來的數(shù)據(jù)集李開復(fù)說:“我當(dāng)年受惠于瑞迪教授的幫助和指導(dǎo),,今天也非常希望能給更多和我一樣的年輕人,創(chuàng)造研究機(jī)會(huì)和條件”,。
|