從單模態(tài)、多模態(tài),,到全模態(tài),,這下一個(gè)模型就實(shí)現(xiàn)了。 現(xiàn)在,,大模型的發(fā)展態(tài)勢已經(jīng)從單模態(tài)迅速轉(zhuǎn)向多模態(tài)研究了,。就如 Hugging Face 聯(lián)合創(chuàng)始人 Thomas Wolf 所說的:過去幾年里,好的多模態(tài)模型一直是許多大型技術(shù)實(shí)驗(yàn)室的圣杯,。不僅如此,,多模態(tài)也一直被學(xué)術(shù)界奉為達(dá)到通用人工智能的必經(jīng)之路。就在不久前,,OpenAI 的 CEO Sam Altman 透漏出一個(gè)重要消息,,表明 2024 年 GPT-4 的發(fā)展方向也是奔著多模態(tài)去的。一時(shí)之間,,各大科技公司,、機(jī)構(gòu)爭先入局多模態(tài)領(lǐng)域。國外如微軟等機(jī)構(gòu)提出可組合擴(kuò)散模型 CoDi,,但這種模型只能同時(shí)處理圖片,、文本,、聲音、視頻 4 種模態(tài),,對傳感信號,、3D 點(diǎn)云等模態(tài)還無法處理。在國內(nèi),,作為早早布局多模態(tài)大模型的科研機(jī)構(gòu),,中國科學(xué)院自動化研究所自 2019 年開始在語音、文本,、圖像等單模態(tài)大模型研究和應(yīng)用的基礎(chǔ)上,,向多模態(tài)大模型攻關(guān),并于 2021 年 7 月正式發(fā)布了全球首個(gè)千億參數(shù)多模態(tài)大模型「紫東太初」,。今天上午,,在人工智能框架生態(tài)峰會 2023 上,中國科學(xué)院自動化研究所和武漢人工智能研究院推出新一代大模型:全模態(tài)大模型「紫東太初 2.0」版本,,依托華為全棧國產(chǎn)化軟硬件平臺昇騰 AI 與開源 AI 框架昇思 MindSpore,,「紫東太初 2.0」在文本、圖像,、語音三模態(tài)的基礎(chǔ)上,,融入 3D 點(diǎn)云、視頻,、信號等更多模態(tài)數(shù)據(jù),,現(xiàn)已支持多輪問答、文本創(chuàng)作,、圖像生成,、3D 理解、信號分析等全面問答任務(wù),,擁有更強(qiáng)的認(rèn)知,、理解、創(chuàng)作能力,,帶來全新互動體驗(yàn),。實(shí)現(xiàn)了真正意義上的任意輸入,任意輸出,??梢哉f大模型的發(fā)展已經(jīng)從單模態(tài)、多模態(tài),,進(jìn)化到全模態(tài)賽道上了,。中國科學(xué)院自動化研究所所長徐波表示:「紫東太初 2.0 全模態(tài)大模型是自動化所持續(xù)探索可自主進(jìn)化的通用人工智能道路上的里程碑?!?/span> 大會上,,中國科學(xué)院自動化研究所(以下簡稱自動化所)還進(jìn)行了現(xiàn)場演示,,演示效果得到大家的一致好評,現(xiàn)場環(huán)節(jié),,觀眾還提出了自己問題,,紫東太初都對答如流,。例如,,現(xiàn)場觀眾要求「生成竹林圖片,中國國畫風(fēng)格」,。從現(xiàn)場來看,,紫東太初生成的竹林圖片還不錯。除了現(xiàn)場演示外,,機(jī)器之心也上手測試了紫東太初 2.0,,下面我們看看這個(gè)全模態(tài)大模型到底有哪些能力。紫東太初 2.0:一個(gè)模型打通全部模態(tài)首先讓紫東太初 2.0 做一段簡短的自我介紹,,并獲知了它的數(shù)據(jù)日期:接下來,機(jī)器之心從文本創(chuàng)作,、知識問答,、圖文音理解、3D 理解,、信號分析等多個(gè)方面對紫東太初 2.0 進(jìn)行了全方位的測評,。首先考察紫東太初 2.0 的文學(xué)創(chuàng)作能力。毋庸置疑,,創(chuàng)作能力是每個(gè)對話大模型都要具備的重要能力之一,,無論是生成詩歌、散文,、劇本等,。首先要求紫東太初「創(chuàng)作一篇關(guān)于夏天的散文,200 字」,。從結(jié)果來看,,紫東太初 2.0 的文筆還是不錯的,字?jǐn)?shù)也符合要求,。紫東太初 2.0 幫助招聘人員寫招聘材料也不在話下,,它能把公司的大體情況,職位要求都寫的很清楚,,以后寫招聘文案的活可以放心的交給它了:文本創(chuàng)作能力對大模型來說是件很容易的事,,接下來考察紫東太初 2.0 的知識問答能力,看它能否準(zhǔn)確理解用戶輸入的問題語境,,并實(shí)時(shí)地做出對應(yīng)的知識性問答,。如今的大模型不僅要具備通用能力,,還要有多樣化的垂直專業(yè)能力,回答專業(yè)范疇內(nèi)的問題(比如醫(yī)學(xué),、天文地理,、影視、哲學(xué)等等),。紫東太初 2.0 在這方面也做得很好:此外,,紫東太初 2.0 具備多語言能力,可以處理多語言任務(wù),,包括中文,、英文、法文等,。那么是否具備譯者的基本能力呢,?我們先讓紫東太初 2.0 翻譯了《再別康橋》節(jié)選片段,結(jié)果來看還不錯,。接下來,,我們在將問題難度提高,看看紫東太初 2.0 邏輯推理能力,。測試下來,,結(jié)果顯而易見,它的頭腦還是相當(dāng)清醒的,。對于藍(lán)牙耳機(jī)壞了等問題,,紫東太初沒有陷入圈套,給出了正確的結(jié)果:大模型是否實(shí)用的一個(gè)重要方面在于它的數(shù)理能力,,因此數(shù)理推算是測評必不可少的內(nèi)容,。經(jīng)典的雞兔同籠問題,紫東太初輕松拿下:紫東太初在圖文音理解能力方面怎么樣呢,?這也難不倒這個(gè)大模型,,例如生成一張小狗的圖像,一眨眼的功夫,,一張可愛的小狗就出現(xiàn)在眼前:難度加大,,這次我們讓它生成白色的小狗,這也不在話下,,然后我們接著問圖中幾只小狗,,模型都能回答正確:然后,我們上傳一段音樂,,讓紫東太初 2.0 進(jìn)行識別,,結(jié)果也都準(zhǔn)確:除此以外,,紫東太初還能進(jìn)行 3D 理解,、信號分析。如下是室內(nèi) 3D 點(diǎn)云圖,,將點(diǎn)云數(shù)據(jù)上傳 ,,模型就能基于點(diǎn)云數(shù)據(jù)的 3D 場景進(jìn)行理解和物體感知,例如你可以問點(diǎn)云中包含什么物體,,模型都能回答: 輸入的點(diǎn)云數(shù)據(jù)如下:紫東太初還支持信號鑒別與知識交互,,可借助模型快速掌握信號基本來源及參數(shù)等。輸入信號,,紫東太初給出了信號名稱,、帶寬、赫茲等重要信息:最后考察一下紫東太初 2.0 多模態(tài)對話能力,。我們輸入一張狼的圖片,以及狗叫聲,,問圖片和聲音是不是對應(yīng)同一種動物,。之后,我們繼續(xù)測試:輸入一張圖書管和汽車?yán)嚷曇?,問這段聲音有沒有可能出現(xiàn)在這個(gè)場景中,,紫東太初回答正確(這也是現(xiàn)場 Demo 展示的,親測一下,,結(jié)果也是正確的):一番測試下來,紫東太初 2.0 各項(xiàng)能力還是很能打的,。歷經(jīng) 1.0,,紫東太初 2.0 進(jìn)入全模態(tài)發(fā)展階段回望 2008 年,自動化所團(tuán)隊(duì)開始單獨(dú)攻關(guān)圖像,、文本,、音頻技術(shù);2020 年 1 月,,他們開始轉(zhuǎn)向多模態(tài)人工智能大模型研究,,研發(fā)紫東太初大模型;2021 年 9 月,,紫東太初 1.0 作為全球首個(gè)千億參數(shù)三模態(tài)大模型正式發(fā)布,。如今,紫東太初 2.0 全模態(tài)大模型已經(jīng)發(fā)布了,。大家都了解,,在數(shù)字物聯(lián)時(shí)代,除了我們?nèi)祟愖陨懋a(chǎn)生的語音,、圖像,、文字等數(shù)據(jù)外,,還有機(jī)器產(chǎn)生的大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),例如攝像頭,、醫(yī)學(xué)影像,、力觸覺、工業(yè)傳感信號等,。針對數(shù)字物聯(lián)時(shí)代的新需求與新趨勢,,紫東太初 2.0 誕生了。從技術(shù)架構(gòu)上實(shí)現(xiàn)了結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的全模態(tài)接入,。面對全模態(tài)數(shù)據(jù),,紫東太初 2.0 率先實(shí)現(xiàn)了認(rèn)知增強(qiáng)的多模態(tài)關(guān)聯(lián),在全模態(tài)理解能力,、生成能力和對齊能力上實(shí)現(xiàn)了躍升,。總結(jié)而言,紫東太初 2.0 具有三大技術(shù)特點(diǎn):- 首先,,紫東太初 2.0 可以實(shí)現(xiàn)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的全模態(tài)開放式接入,;
- 其次,紫東太初 2.0 可以全模態(tài)分組認(rèn)知編解碼,,實(shí)現(xiàn)多種數(shù)據(jù)信息的充分理解和靈活生成,;
- 最后,紫東太初 2.0 實(shí)現(xiàn)了有效融合多任務(wù)的認(rèn)知增強(qiáng)多模態(tài)關(guān)聯(lián)技術(shù)等,。
由此,,紫東太初 2.0 打通了感知、認(rèn)知乃至決策的交互屏障,,具有全模態(tài)能力涌現(xiàn),,使人工智能進(jìn)一步感知世界、認(rèn)知世界,,從而延伸出更加強(qiáng)大的通用能力,,深入貫通多模態(tài)人工智能行業(yè)應(yīng)用。目前,,由自動化研究所牽頭打造的多模態(tài)人工智能產(chǎn)業(yè)聯(lián)合體已吸納產(chǎn)學(xué)研界近 70 家成員單位,。發(fā)布至今,紫東太初大模型已經(jīng)在神經(jīng)外科手術(shù)導(dǎo)航,、短視頻內(nèi)容審核,、法律咨詢、醫(yī)療多模態(tài)鑒別診斷,、交通違規(guī)圖像研讀等領(lǐng)域被廣泛應(yīng)用,。此外,基于紫東太初大模型,團(tuán)隊(duì)還打造了面向行業(yè)應(yīng)用的紫東太初開放服務(wù)平臺,。平臺只需少量行業(yè)樣本數(shù)據(jù),,即可通過低代碼一站式開發(fā),產(chǎn)出自主可控的行業(yè)相關(guān)大模型,,大大提升開發(fā)效率,,普惠千行百業(yè)。
|