中科院出手,！1000億參數(shù)全模態(tài)大模型發(fā)布,，能看懂視頻,、繪畫作曲、分析信號(hào)

細(xì)雨青衫 2023-06-17 發(fā)布于重慶

展開全文

大模型成為AI發(fā)展的里程碑和分水嶺,。作者 | ZeR0

編輯 | 漠影

智東西6月16日?qǐng)?bào)道,，在今日舉行的人工智能框架生態(tài)峰會(huì)2023上，中國(guó)科學(xué)院自動(dòng)化研究所所長(zhǎng)徐波正式發(fā)布紫東太初2.0全模態(tài)大模型,。

相比以前的大模型,，紫東太初2.0新增了視頻、傳感信號(hào),、3D點(diǎn)云等模態(tài),，擁有了更強(qiáng)的認(rèn)知、理解,、創(chuàng)作能力,。它不僅有和ChatGPT類似的多輪問答、文本創(chuàng)作能力,，還實(shí)現(xiàn)了全模態(tài)輸入,，支持視頻、圖像,、音樂,、3D、信號(hào)的理解,，并能夠?qū)崿F(xiàn)圖文音搜索,、圖像生成、音樂生成,、信號(hào)分析等功能,。

智東西第一時(shí)間對(duì)紫東太初2.0的音樂能力、信號(hào)類能力,、視頻能力,、跨模態(tài)能力、圖像能力,、語言能力等進(jìn)行體驗(yàn),。

01.五大能力詳解，從生成音樂,、看懂視頻到推理分析1,、音樂及信號(hào)類能力：生成、識(shí)別,、多模問答紫東太初2.0可以通過給定的文本提示,，可控生成高保真的音樂，并支持即興創(chuàng)作多種風(fēng)格類型和多種樂器演奏的音樂。

比如,，上傳一段音樂文件，讓紫東太初2.0識(shí)別這個(gè)音樂是什么,，它能識(shí)別出這是貝多芬的交響曲,，并分享了這段音樂表達(dá)了怎樣的感情。

你還可以詢問這段音樂是用什么樂器演奏的,，讓紫東太初2.0根據(jù)這段音樂作詩,，或者追問貝多芬的生平是怎樣的。紫東太初2.0也支持雷達(dá)信號(hào)鑒別與知識(shí)交互,，可借助模型快速掌握信號(hào)基本來源及參數(shù)等,。上傳一段信號(hào)后，你可以向它詢問這段信號(hào)的相關(guān)信息,。

2,、視頻能力：理解、描述,、搜索視頻能力方面,，紫東太初2.0能基于用戶上傳的視頻素材，準(zhǔn)確理解并回答視頻識(shí)別,、視頻描述類問題,，同時(shí)支持上下文信息理解和多輪問答。比如,，上傳一段唱歌跳舞的視頻,，問紫東太初2.0這段視頻描述了什么、對(duì)視頻中音樂的感受,、是否認(rèn)可等問題,。

此外，紫東太初2.0擁有海量的高質(zhì)視頻素材庫,，具備視頻素材檢索能力,。比如讓它找一個(gè)踢足球的視頻。

你還可以針對(duì)視頻內(nèi)容進(jìn)一步發(fā)問,，讓紫東太初2.0結(jié)合動(dòng)作和音樂分析視頻,，或是根據(jù)視頻內(nèi)容預(yù)測(cè)后面可能發(fā)生什么事。

3,、跨模態(tài)能力：“圖像音頻視頻”理解與分析紫東太初2.0能結(jié)合多個(gè)圖像,、音頻、視頻文件,，進(jìn)行綜合理解與創(chuàng)作,。上傳兩個(gè)視頻，問這兩個(gè)視頻的共同特點(diǎn)是什么？對(duì)此,，紫東太初2.0能夠結(jié)合視頻的畫面和聲音,，分析出共通之處以及各自的差異點(diǎn)。

另一個(gè)例子是圖像音頻,。上傳一張圖書館的圖片和一段鼓掌聲音頻,，問這段音頻有沒有可能出現(xiàn)在圖片里的場(chǎng)景中？

紫東太初2.0給出答案：不太可能,，原因是圖片中的場(chǎng)景沒有慶?；驓g迎的氛圍。

或者,，上傳一張足球場(chǎng)的圖片一段鼓掌聲音頻,，讓紫東太初2.0結(jié)合圖片和音頻，分析一下場(chǎng)景的氛圍,。

通過綜合理解圖像,、音頻、視頻信息,，紫東太初2.0“拼出”一個(gè)完整的信息描述,，或者將這些內(nèi)容串聯(lián)形成一段流暢的故事。

4,、圖像與3D場(chǎng)景能力：描述,、目標(biāo)檢測(cè)、檢索,、生成紫東太初2.0能基于用戶上傳的圖片素材,，準(zhǔn)確理解并回答圖片識(shí)別類問題，包括識(shí)別圖像主體,、背景,、動(dòng)作、顏色等等,，同時(shí)支持上下文信息理解和多輪問答,。比如問“圖里有幾只動(dòng)物”、“小狗和小貓?jiān)谧鍪裁础?，紫東太初2.0給出了具體的描述,。

你還可以針對(duì)這張圖片，詢問更多細(xì)節(jié),，比如小動(dòng)物的毛色,、它們?cè)谑裁吹胤酵妗?/p>

上傳風(fēng)車的圖片，問“這個(gè)裝置的作用是什么”,，紫東太初2.0給的回答包括“風(fēng)力發(fā)電站”,。

接著追問“為什么要在圖中位置建設(shè)這樣的裝置”，它馬上給出回答：“為了讓它更加接近自然環(huán)境，以便更好地利用風(fēng)能,?！?/p>

此外，紫東太初2.0具備基于點(diǎn)云數(shù)據(jù)的3D場(chǎng)景理解和物體感知能力,。你可以讓它描述從這張三維圖里看到了什么信息,。

不過在理解梗圖方面，紫東太初2.0的能力還沒有開發(fā)出來,，并不能弄明白下圖好笑在哪兒。

除了搜視頻,，紫東太初2.0也能被用于搜圖,。比如讓它生成一張熊貓的圖片。

在生成圖像方面,，紫東太初2.0可以生成指定風(fēng)格的圖,。比如我要求“用中國(guó)畫風(fēng)格畫一只慵懶的貓”，紫東太初2.0立刻畫出了一張臥著的虎皮貓,。

5,、語言與編程：?jiǎn)柎稹?chuàng)作,、查錯(cuò),、寫代碼在語言能力方面，和多數(shù)大型語言模型一樣,，紫東太初2.0支持中文問答,、邏輯推理、文本摘要,、文本續(xù)寫,、文本創(chuàng)作、標(biāo)題生成,、語法分析,、機(jī)器翻譯等等。

它能準(zhǔn)確理解用戶輸入的問題語境,，并能做出準(zhǔn)確的知識(shí)性問答,，包括生活常識(shí)、工作技能,、醫(yī)學(xué)知識(shí),、歷史人文等知識(shí)領(lǐng)域。

給紫東太初2.0一篇文章,，它能快速理解文章的核心觀點(diǎn),，根據(jù)長(zhǎng)文本提取簡(jiǎn)潔而準(zhǔn)確的摘要。

它也能寫一個(gè)擁有出人意料結(jié)局的推理小說。

寫個(gè)快速排序代碼,，同樣不在話下,。

綜合來看，紫東太初2.0在圖文音多模態(tài)能力的基礎(chǔ)之上,，增加了對(duì)視頻,、3D場(chǎng)景和信號(hào)等模態(tài)的理解，用更多模態(tài)信息來彌補(bǔ)單模態(tài)的局限性,，更好地增強(qiáng)了對(duì)多種模態(tài)的綜合理解和認(rèn)知,。

02.突破多項(xiàng)多模態(tài)關(guān)鍵技術(shù)完成跨模態(tài)對(duì)齊徐波說，中科院早在2008年就開始推進(jìn)圖文音的單獨(dú)攻關(guān),，2020年1月啟動(dòng)多模態(tài)聯(lián)合攻關(guān),，從2021年1月做出百億模型到2021年9月發(fā)布全球首個(gè)千億參數(shù)圖文音三模態(tài)大模型紫東太初1.0，再到推出紫東太初2.0,，以昇騰AI硬件及昇思MindSpore AI框架為基礎(chǔ),，依托武漢人工智能計(jì)算中心算力支持，利用預(yù)訓(xùn)練微調(diào)技術(shù),，在大的神經(jīng)網(wǎng)絡(luò)上,，把多個(gè)場(chǎng)景的知識(shí)和數(shù)據(jù)都吸納到一個(gè)模型上。

但物理世界的信息種類遠(yuǎn)多于圖文音,，有大量結(jié)構(gòu)化,、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),，包括溫度,、深度、壓力信號(hào),、3D超聲波指紋,、脈搏波、降水量,、人體紅外,、3D激光等等諸多形式。

基于這樣的認(rèn)識(shí),，面向數(shù)字物聯(lián)時(shí)代,，紫東太初2.0推出實(shí)現(xiàn)了能接入非結(jié)構(gòu)化、半結(jié)構(gòu)化,、結(jié)構(gòu)化等數(shù)據(jù)的全模態(tài)大模型開放系統(tǒng)架構(gòu),。面對(duì)全模態(tài)數(shù)據(jù)，紫東太初2.0率先實(shí)現(xiàn)了認(rèn)知增強(qiáng)的多模態(tài)關(guān)聯(lián),，在全模態(tài)理解能力,、生成能力,、對(duì)齊能力上實(shí)現(xiàn)了躍升。研究團(tuán)隊(duì)重點(diǎn)研究突破了多模態(tài)分組認(rèn)知編碼,、全模態(tài)認(rèn)知對(duì)齊和融合,、多模態(tài)分組認(rèn)知解碼等關(guān)鍵技術(shù)，使多模態(tài)關(guān)聯(lián)的認(rèn)知能力大幅提高,。

通過完成音樂,、圖像、視頻等數(shù)據(jù)之間的跨模態(tài)對(duì)齊,，紫東太初2.0可處理音樂視頻分析,、三維導(dǎo)航等多模態(tài)關(guān)聯(lián)應(yīng)用應(yīng)用需求，并可實(shí)現(xiàn)音樂,、視頻等多模態(tài)內(nèi)容生成,。由此，紫東太初2.0打通了感知,、認(rèn)知乃至決策的交互屏障，具有全模態(tài)能力的涌現(xiàn),，使得人工智能進(jìn)一步感知,、認(rèn)知世界，從而延伸出更加強(qiáng)大的通用能力,。

03.落地進(jìn)展：助攻顱內(nèi)手術(shù),，研判違規(guī)行為，溯源敏感信息徐波說,，紫東太初底座大模型正賦能千行百業(yè),，包括布匹紡織及缺陷檢測(cè)、文旅導(dǎo)游,、柔性手術(shù)機(jī)器人,、AI手語老師等。

例如在醫(yī)療場(chǎng)景,，基于紫東太初打造的顱內(nèi)手術(shù)多模態(tài)智能助手可實(shí)現(xiàn)不同模態(tài)的高效協(xié)同與轉(zhuǎn)換,，尤其是視覺、觸覺的跨模態(tài)融合,，解決了機(jī)器人輔助手術(shù)中觸覺缺失的國(guó)際性難題,。協(xié)和醫(yī)院用到紫東太初2.0在全模態(tài)方面的推理功能，去嘗試在醫(yī)療診斷方面做一些有挑戰(zhàn)性的工作,，尤其是在心,、腦、腎三個(gè)罕見病中,，利用多種醫(yī)療模態(tài)和患者病例特點(diǎn),，生成擬診討論,，在診斷、鑒別診斷和治療計(jì)劃給出一些建議,。在交通場(chǎng)景,，以前智能系統(tǒng)更多關(guān)注識(shí)別到比較常見的交通違規(guī)行為，但實(shí)際場(chǎng)景中會(huì)有很多細(xì)碎的違規(guī)行為,，比如壓實(shí)線,、摩托車不戴頭盔、三輪車違法載人等等,。只需輸入對(duì)違規(guī)行為的文字描述,，再給1~2張圖片，紫東太初就能實(shí)現(xiàn)對(duì)違規(guī)行為認(rèn)知級(jí)別的研判,。在互聯(lián)網(wǎng)短視頻場(chǎng)景中,，有些短視頻的標(biāo)題和簡(jiǎn)介文本沒有問題，但視頻內(nèi)容包含敏感信息,。利用多模態(tài)融合感知技術(shù),，可以對(duì)視頻進(jìn)行溯源，及時(shí)發(fā)現(xiàn)風(fēng)險(xiǎn)內(nèi)容,。在大模型的基礎(chǔ)上,，中科院也研發(fā)了紫東太初開放服務(wù)平臺(tái)，以惠及更多用戶,。

04.結(jié)語：邁向通用人工智能的三條路徑徐波說,，大模型成為人工智能發(fā)展的里程碑和分水嶺，以ChatGPT為代表的“大算力大數(shù)據(jù) 大模型”標(biāo)志著通用人工智能時(shí)代的來臨,，大模型將實(shí)現(xiàn)對(duì)勞動(dòng)力,、資本等生產(chǎn)要素的智能替代和功能倍增，促進(jìn)全要素生產(chǎn)率的提高,。人類的學(xué)習(xí)和交互過程中充滿了多模態(tài)信息,，包括自然語言、視覺,、聽覺,、觸覺、嗅覺/味覺,、生理信號(hào)等等,。以嬰兒早期發(fā)育為例，它通過多種模態(tài)信息可以很容易地感知和學(xué)習(xí)世界,，基于這一認(rèn)識(shí),，紫東太初大模型從一開始走的就是多模態(tài)技術(shù)路線。據(jù)徐波分享,，通過可自主進(jìn)化通用人工智能有三條路徑：類腦智能,、信息智能,、博弈智能。

他認(rèn)為,，目前全模態(tài)的信息智能走得更快,，但它一定會(huì)吸納類腦智能在極低功耗及演化機(jī)制方面的優(yōu)勢(shì)，也一定會(huì)吸納博弈智能與環(huán)境交互產(chǎn)生自適應(yīng)能力的機(jī)制,，融合起來,，才是更強(qiáng)的通用人工智能。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請(qǐng)點(diǎn)擊一鍵舉報(bào),。

久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

中科院出手,！1000億參數(shù)全模態(tài)大模型發(fā)布,，能看懂視頻,、繪畫作曲、分析信號(hào)