圖片,、文字、語音都能理解 這個AI平臺是“全能”選手 ◎本報記者 陸成寬 “小初,,請以天宮為主題作首詩吧,?” “天宮生殿開成,萬花垂露照初,。稠云不掩國志,,飛天當(dāng)觸明霞,?!?/p> “你能看懂這個視頻嗎?” “視頻中,,火箭正在發(fā)射,。” “小初,,圖片中航天員正在干什么,?” “航天員正穿著航天服站在機(jī)械臂上遨游太空?!?/p> …… 7月9日,,在2021世界人工智能大會(WAIC2021)上,中國科學(xué)院自動化研究所所長徐波發(fā)布了自動化所研發(fā)的跨模態(tài)通用人工智能平臺——“紫東太初”,?;凇白蠔|太初”平臺打造的虛擬人“小初”在大會現(xiàn)場賺足了眼球。它不僅能讀懂圖片,、看懂視頻,、中文續(xù)寫、雙語翻譯,,而且能吟詩作賦,,生動證明了通過圖片、文字,、語音三種模態(tài)的關(guān)聯(lián)與協(xié)同,,可以有效地提升機(jī)器的理解和生成能力,讓AI接近人類想象力,。 “紫東太初”平臺是跨模態(tài)通用人工智能平臺,,以多模態(tài)大模型為核心,基于全棧國產(chǎn)化基礎(chǔ)軟硬件平臺,,可支撐全場景AI應(yīng)用,?!八^跨模態(tài)是指它可以理解語音、文字和圖片等多種模態(tài)信息,;所謂全棧國產(chǎn)化是指這個平臺的底層算力,、模型、框架等都是自主研發(fā)的,?!毙觳ń忉尩馈?/p> 多種模態(tài)預(yù)訓(xùn)練模型被廣泛認(rèn)為是從限定領(lǐng)域的弱人工智能邁向通用人工智能路徑的探索,。依托面向超大規(guī)模的高效分布式訓(xùn)練框架,,自動化所構(gòu)建了具有業(yè)界領(lǐng)先性能的中文預(yù)訓(xùn)練模型、語音預(yù)訓(xùn)練模型,、視覺預(yù)訓(xùn)練模型,,并開拓性地通過跨模態(tài)語義關(guān)聯(lián)實(shí)現(xiàn)了視覺、文本,、語音三種模態(tài)統(tǒng)一表示,,構(gòu)建了三模態(tài)預(yù)訓(xùn)練大模型,賦予跨模態(tài)通用人工智能平臺多種核心能力,。 徐波介紹,,“紫東太初”兼具跨模態(tài)理解和生成能力。與單模態(tài)和圖片,、文字兩種模態(tài)相比,,“紫東太初”采用一個大模型就可以靈活支撐圖片、文字以及語音的全場景AI應(yīng)用,,具有了在無監(jiān)督情況下多任務(wù)聯(lián)合學(xué)習(xí),、并快速遷移到不同領(lǐng)域數(shù)據(jù)的強(qiáng)大能力。 “引入語音模態(tài)后的多模態(tài)預(yù)訓(xùn)練模型,,可實(shí)現(xiàn)共性圖片,、語音和文字的空間表征和利用,并突破性地直接實(shí)現(xiàn)三模態(tài)的統(tǒng)一表示,?!毙觳ㄕf,特別值得強(qiáng)調(diào)的是,,該平臺首次讓“以圖生音”和“以音生圖”成為現(xiàn)實(shí),,對更廣泛、更多樣的下游任務(wù)提供模型基礎(chǔ)支撐,,讓AI能夠在視頻配音,、語音播報、標(biāo)題摘要、海報創(chuàng)作等更多場景實(shí)現(xiàn)應(yīng)用,。 同時,,研發(fā)團(tuán)隊還提出了弱關(guān)聯(lián)三模態(tài)數(shù)據(jù)的語義統(tǒng)一表達(dá),可同時支持三種或任兩種模態(tài)弱關(guān)聯(lián)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,,有效降低了多模態(tài)數(shù)據(jù)收集與清洗成本,。 “'紫東太初’跨模態(tài)通用人工智能平臺包括三大關(guān)鍵技術(shù)和六大核心能力?!毙觳ㄕf,,三大關(guān)鍵技術(shù)分別是多模態(tài)理解與生成多任務(wù)統(tǒng)一建模、面向國產(chǎn)化軟硬件的高效訓(xùn)練與部署,、多模態(tài)預(yù)訓(xùn)練模型架構(gòu)設(shè)計與優(yōu)化,。六大核心能力則體現(xiàn)為多模態(tài)統(tǒng)一表示與語義關(guān)聯(lián)、跨模態(tài)內(nèi)容轉(zhuǎn)化與生成,、預(yù)訓(xùn)練模型網(wǎng)絡(luò)架構(gòu)設(shè)計,、標(biāo)注受限自監(jiān)督模型學(xué)習(xí)、模型適配與分布式訓(xùn)練,、模型輕量化與推理加速,。 徐波表示,,“大數(shù)據(jù)+大模型+多模態(tài)”將改變當(dāng)前單一模型對應(yīng)單一任務(wù)的人工智能研發(fā)范式,,多模態(tài)大模型將成為不同領(lǐng)域的共性平臺技術(shù),是邁向通用人工智能路徑的探索,,具有廣闊的應(yīng)用前景,。 同時,全棧國產(chǎn)化通用人工智能平臺的實(shí)踐將使人工智能研發(fā)的規(guī)則發(fā)生重大變革并逐漸形成壁壘,,對我國實(shí)現(xiàn)AI領(lǐng)域科技創(chuàng)新,、占領(lǐng)核心技術(shù)高地具有重要的戰(zhàn)略意義。 (《科技日報》2021年7月12日第 2 版,。) |
|