紫東太初全模態(tài)大模型來了，一個(gè)模型打通感知,、認(rèn)知,、決策交互屏障

天承辦公室 2023-06-17 發(fā)布于北京

展開全文

機(jī)器之心原創(chuàng)

作者：陳萍

從單模態(tài)、多模態(tài),，到全模態(tài),，這下一個(gè)模型就實(shí)現(xiàn)了。

現(xiàn)在,，大模型的發(fā)展態(tài)勢已經(jīng)從單模態(tài)迅速轉(zhuǎn)向多模態(tài)研究了,。

就如 Hugging Face 聯(lián)合創(chuàng)始人 Thomas Wolf 所說的：過去幾年里，好的多模態(tài)模型一直是許多大型技術(shù)實(shí)驗(yàn)室的圣杯,。

不僅如此,，多模態(tài)也一直被學(xué)術(shù)界奉為達(dá)到通用人工智能的必經(jīng)之路。就在不久前,，OpenAI 的 CEO Sam Altman 透漏出一個(gè)重要消息,，表明 2024 年 GPT-4 的發(fā)展方向也是奔著多模態(tài)去的。

一時(shí)之間,，各大科技公司,、機(jī)構(gòu)爭先入局多模態(tài)領(lǐng)域。國外如微軟等機(jī)構(gòu)提出可組合擴(kuò)散模型 CoDi,，但這種模型只能同時(shí)處理圖片,、文本,、聲音、視頻 4 種模態(tài),，對傳感信號,、3D 點(diǎn)云等模態(tài)還無法處理。

在國內(nèi),，作為早早布局多模態(tài)大模型的科研機(jī)構(gòu),，中國科學(xué)院自動化研究所自 2019 年開始在語音、文本,、圖像等單模態(tài)大模型研究和應(yīng)用的基礎(chǔ)上,，向多模態(tài)大模型攻關(guān)，并于 2021 年 7 月正式發(fā)布了全球首個(gè)千億參數(shù)多模態(tài)大模型「紫東太初」,。

今天上午,，在人工智能框架生態(tài)峰會 2023 上，中國科學(xué)院自動化研究所和武漢人工智能研究院推出新一代大模型：全模態(tài)大模型「紫東太初 2.0」版本,，依托華為全棧國產(chǎn)化軟硬件平臺昇騰 AI 與開源 AI 框架昇思 MindSpore,，「紫東太初 2.0」在文本、圖像,、語音三模態(tài)的基礎(chǔ)上,，融入 3D 點(diǎn)云、視頻,、信號等更多模態(tài)數(shù)據(jù),，現(xiàn)已支持多輪問答、文本創(chuàng)作,、圖像生成,、3D 理解、信號分析等全面問答任務(wù),，擁有更強(qiáng)的認(rèn)知,、理解、創(chuàng)作能力,，帶來全新互動體驗(yàn),。實(shí)現(xiàn)了真正意義上的任意輸入，任意輸出,?？梢哉f大模型的發(fā)展已經(jīng)從單模態(tài)、多模態(tài),，進(jìn)化到全模態(tài)賽道上了,。

中國科學(xué)院自動化研究所所長徐波表示：「紫東太初 2.0 全模態(tài)大模型是自動化所持續(xù)探索可自主進(jìn)化的通用人工智能道路上的里程碑?！?/span>

大會上,，中國科學(xué)院自動化研究所（以下簡稱自動化所）還進(jìn)行了現(xiàn)場演示,，演示效果得到大家的一致好評，現(xiàn)場環(huán)節(jié),，觀眾還提出了自己問題,，紫東太初都對答如流,。例如,，現(xiàn)場觀眾要求「生成竹林圖片，中國國畫風(fēng)格」,。從現(xiàn)場來看,，紫東太初生成的竹林圖片還不錯。

除了現(xiàn)場演示外,，機(jī)器之心也上手測試了紫東太初 2.0,，下面我們看看這個(gè)全模態(tài)大模型到底有哪些能力。

紫東太初 2.0：一個(gè)模型打通全部模態(tài)

打開紫東太初 2.0,，對話界面是這樣的：

首先讓紫東太初 2.0 做一段簡短的自我介紹,，并獲知了它的數(shù)據(jù)日期：

接下來，機(jī)器之心從文本創(chuàng)作,、知識問答,、圖文音理解、3D 理解,、信號分析等多個(gè)方面對紫東太初 2.0 進(jìn)行了全方位的測評,。

文本創(chuàng)作

首先考察紫東太初 2.0 的文學(xué)創(chuàng)作能力。毋庸置疑,，創(chuàng)作能力是每個(gè)對話大模型都要具備的重要能力之一,，無論是生成詩歌、散文,、劇本等,。首先要求紫東太初「創(chuàng)作一篇關(guān)于夏天的散文，200 字」,。從結(jié)果來看,，紫東太初 2.0 的文筆還是不錯的，字?jǐn)?shù)也符合要求,。

紫東太初 2.0 幫助招聘人員寫招聘材料也不在話下,，它能把公司的大體情況，職位要求都寫的很清楚,，以后寫招聘文案的活可以放心的交給它了：

知識問答

文本創(chuàng)作能力對大模型來說是件很容易的事,，接下來考察紫東太初 2.0 的知識問答能力，看它能否準(zhǔn)確理解用戶輸入的問題語境,，并實(shí)時(shí)地做出對應(yīng)的知識性問答,。

如今的大模型不僅要具備通用能力,，還要有多樣化的垂直專業(yè)能力，回答專業(yè)范疇內(nèi)的問題（比如醫(yī)學(xué),、天文地理,、影視、哲學(xué)等等）,。紫東太初 2.0 在這方面也做得很好：

此外,，紫東太初 2.0 具備多語言能力，可以處理多語言任務(wù),，包括中文,、英文、法文等,。那么是否具備譯者的基本能力呢,？我們先讓紫東太初 2.0 翻譯了《再別康橋》節(jié)選片段，結(jié)果來看還不錯,。

接下來,，我們在將問題難度提高，看看紫東太初 2.0 邏輯推理能力,。測試下來,，結(jié)果顯而易見，它的頭腦還是相當(dāng)清醒的,。對于藍(lán)牙耳機(jī)壞了等問題,，紫東太初沒有陷入圈套，給出了正確的結(jié)果：

大模型是否實(shí)用的一個(gè)重要方面在于它的數(shù)理能力,，因此數(shù)理推算是測評必不可少的內(nèi)容,。經(jīng)典的雞兔同籠問題，紫東太初輕松拿下：

圖文音理解能力

紫東太初在圖文音理解能力方面怎么樣呢,？這也難不倒這個(gè)大模型,，例如生成一張小狗的圖像，一眨眼的功夫,，一張可愛的小狗就出現(xiàn)在眼前：

難度加大,，這次我們讓它生成白色的小狗，這也不在話下,，然后我們接著問圖中幾只小狗,，模型都能回答正確：

然后，我們上傳一段音樂,，讓紫東太初 2.0 進(jìn)行識別,，結(jié)果也都準(zhǔn)確：

其中，輸入的音樂為：

接下來你也可以追問,，肖邦的生平：

除此以外,，紫東太初還能進(jìn)行 3D 理解,、信號分析。

3D 理解

如下是室內(nèi) 3D 點(diǎn)云圖,，將點(diǎn)云數(shù)據(jù)上傳 ,，模型就能基于點(diǎn)云數(shù)據(jù)的 3D 場景進(jìn)行理解和物體感知，例如你可以問點(diǎn)云中包含什么物體,，模型都能回答：

輸入的點(diǎn)云數(shù)據(jù)如下：

信號分析

紫東太初還支持信號鑒別與知識交互,，可借助模型快速掌握信號基本來源及參數(shù)等。輸入信號,，紫東太初給出了信號名稱,、帶寬、赫茲等重要信息：

其中信號信息為：

多模態(tài)對話能力

最后考察一下紫東太初 2.0 多模態(tài)對話能力,。我們輸入一張狼的圖片，以及狗叫聲,，問圖片和聲音是不是對應(yīng)同一種動物,。

其中輸入的音頻為：

之后，我們繼續(xù)測試：輸入一張圖書管和汽車?yán)嚷曇?，問這段聲音有沒有可能出現(xiàn)在這個(gè)場景中,，紫東太初回答正確（這也是現(xiàn)場 Demo 展示的，親測一下,，結(jié)果也是正確的）：

其中,，汽車?yán)嚷曇魹椋?/span>

一番測試下來，紫東太初 2.0 各項(xiàng)能力還是很能打的,。

歷經(jīng) 1.0,，紫東太初 2.0 進(jìn)入全模態(tài)發(fā)展階段

回望 2008 年，自動化所團(tuán)隊(duì)開始單獨(dú)攻關(guān)圖像,、文本,、音頻技術(shù)；2020 年 1 月,，他們開始轉(zhuǎn)向多模態(tài)人工智能大模型研究,，研發(fā)紫東太初大模型；2021 年 9 月,，紫東太初 1.0 作為全球首個(gè)千億參數(shù)三模態(tài)大模型正式發(fā)布,。如今，紫東太初 2.0 全模態(tài)大模型已經(jīng)發(fā)布了,。

大家都了解,，在數(shù)字物聯(lián)時(shí)代，除了我們?nèi)祟愖陨懋a(chǎn)生的語音,、圖像,、文字等數(shù)據(jù)外,，還有機(jī)器產(chǎn)生的大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)，例如攝像頭,、醫(yī)學(xué)影像,、力觸覺、工業(yè)傳感信號等,。針對數(shù)字物聯(lián)時(shí)代的新需求與新趨勢,，紫東太初 2.0 誕生了。從技術(shù)架構(gòu)上實(shí)現(xiàn)了結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的全模態(tài)接入,。面對全模態(tài)數(shù)據(jù),，紫東太初 2.0 率先實(shí)現(xiàn)了認(rèn)知增強(qiáng)的多模態(tài)關(guān)聯(lián)，在全模態(tài)理解能力,、生成能力和對齊能力上實(shí)現(xiàn)了躍升,。

總結(jié)而言，紫東太初 2.0 具有三大技術(shù)特點(diǎn)：

首先,，紫東太初 2.0 可以實(shí)現(xiàn)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的全模態(tài)開放式接入,；
其次，紫東太初 2.0 可以全模態(tài)分組認(rèn)知編解碼,，實(shí)現(xiàn)多種數(shù)據(jù)信息的充分理解和靈活生成,；
最后，紫東太初 2.0 實(shí)現(xiàn)了有效融合多任務(wù)的認(rèn)知增強(qiáng)多模態(tài)關(guān)聯(lián)技術(shù)等,。

由此,，紫東太初 2.0 打通了感知、認(rèn)知乃至決策的交互屏障,，具有全模態(tài)能力涌現(xiàn),，使人工智能進(jìn)一步感知世界、認(rèn)知世界,，從而延伸出更加強(qiáng)大的通用能力,，深入貫通多模態(tài)人工智能行業(yè)應(yīng)用。

目前,，由自動化研究所牽頭打造的多模態(tài)人工智能產(chǎn)業(yè)聯(lián)合體已吸納產(chǎn)學(xué)研界近 70 家成員單位,。

發(fā)布至今，紫東太初大模型已經(jīng)在神經(jīng)外科手術(shù)導(dǎo)航,、短視頻內(nèi)容審核,、法律咨詢、醫(yī)療多模態(tài)鑒別診斷,、交通違規(guī)圖像研讀等領(lǐng)域被廣泛應(yīng)用,。

此外，基于紫東太初大模型，團(tuán)隊(duì)還打造了面向行業(yè)應(yīng)用的紫東太初開放服務(wù)平臺,。平臺只需少量行業(yè)樣本數(shù)據(jù),，即可通過低代碼一站式開發(fā)，產(chǎn)出自主可控的行業(yè)相關(guān)大模型,，大大提升開發(fā)效率,，普惠千行百業(yè)。

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：天承辦公室 > 《022機(jī)器之心》

舉報(bào)/認(rèn)領(lǐng)