ChatGPT研究(三)——AIGC多模態(tài)交互功能,，奠定多場景商用基礎(chǔ)

gogotl0l2b15ws 2023-03-12 發(fā)布于上海

展開全文

前言

最近ChatGPT,，想必大家已經(jīng)是耳熟能詳了，一度認(rèn)為ChatGPT的到來是人工智能的奇點到來,，那么到底ChatGPT是什么,？為什么ChatGPT為代表的人工智能技術(shù)不僅受到平民用戶的喜愛，還受到資本市場追捧呢,？

上篇文章《ChatGPT研究(二)——AI平民化的里程碑》中從技術(shù)角度,，解讀ChatGPT的AI發(fā)展和應(yīng)用，本篇文章將會更多的從商業(yè)場景使用中來介紹ChatGPT的應(yīng)用,。

AIGC多模態(tài)交互功能持續(xù)演化,，奠定多場景商用基礎(chǔ)

AIGC：利用人工智能產(chǎn)生內(nèi)容，提升生產(chǎn)力曲線

AIGC: Artificial Intelligence Generated Context，即可以利用人工智能技術(shù)自動產(chǎn)生內(nèi)容,，常見如代碼生成,，文本問答等

ChatGPT已成為AIGC功能矩陣中的重要板塊

ChatGPT是AIGC“數(shù)字內(nèi)容智能編輯”功能中的重要組成部分，ChatGPT模型的出現(xiàn)對于文字/語音模態(tài)的AIGC應(yīng)用具有重要意義

?? 隨著深度學(xué)習(xí)技術(shù)的快速突破以及數(shù)字內(nèi)容的海量增長,，AIGC領(lǐng)域相關(guān)技術(shù)打破了預(yù)定義規(guī)則的局限性,，使得快速便捷且智慧地輸出多模態(tài)的數(shù)字內(nèi)容成為可能。 ?? 在技術(shù)創(chuàng)新以及多模態(tài)模型的持續(xù)突破下,，AIGC根據(jù)功能和對象的不同,，按順序可包括「三種主要實用功能: 數(shù)字內(nèi)容孿生，數(shù)字內(nèi)容的智能編輯,、數(shù)字內(nèi)容的智能創(chuàng)作」,。這三種功能相互嵌套與結(jié)合，可以讓AIGC產(chǎn)品具備超越人類的創(chuàng)作潛力,。「而ChatGPT正是AIGC的數(shù)字內(nèi)容編輯這一大功能領(lǐng)域中的重要組成部分」,。

ChatGPT是AIGC的產(chǎn)品應(yīng)用框架中大型語言模型的重要板塊

AIGC相關(guān)技術(shù)包含了三大前沿能力

數(shù)字內(nèi)容孿生能力構(gòu)建現(xiàn)實世界-虛擬世界映射

孿生能力包括智能增強與轉(zhuǎn)譯技術(shù)，其中增強技術(shù)彌補內(nèi)容數(shù)字化過程中的信息損失,，轉(zhuǎn)譯技術(shù)在理解基礎(chǔ)上對內(nèi)容進(jìn)行多種形式的呈現(xiàn)

數(shù)字編輯能力打通現(xiàn)實世界虛擬世界交互通道

編輯能力包括智能語義理解與屬性控制,，語義理解幫助實現(xiàn)數(shù)字內(nèi)容各屬性的分離解耦，屬性控制則在理解基礎(chǔ)上對屬性進(jìn)行精確修改,、編輯與二次生成,，最終反饋于現(xiàn)實世界，形成孿生-反饋閉環(huán)

數(shù)字創(chuàng)作能力從數(shù)據(jù)理解走向數(shù)據(jù)創(chuàng)作

創(chuàng)作能力可分為基于模仿的創(chuàng)作與基于概念的創(chuàng)作,，前者基于對某一類作品數(shù)據(jù)分布進(jìn)行創(chuàng)作,，而后者從海量數(shù)據(jù)中學(xué)習(xí)抽象概念，并基于概念創(chuàng)作出現(xiàn)實世界不存在的內(nèi)容

AIGC行業(yè)發(fā)展經(jīng)歷了三個主要時期

AIGC發(fā)展經(jīng)歷了早期萌芽,、沉淀積累和2014年之后的快速發(fā)展階段

從分析式AI到生成式AI逐步演化,，生成式AI賦予AIGC創(chuàng)新力

生成式AI起源于分析式AI，分析式AI發(fā)展過程匯總的技術(shù)積累為生成式AI的產(chǎn)生奠定基礎(chǔ)

分析式AI其學(xué)習(xí)的知識局限于數(shù)據(jù)本身,；生成式AI在總結(jié)歸納數(shù)據(jù)知識的基礎(chǔ)上可生成數(shù)據(jù)中不存在的樣本最新生成式AI技術(shù)如GAN,，Diffusion等，催生多款A(yù)IGC產(chǎn)品如:OpenAI系列,、DALL·E2(Diffusion),，Starry A.I.(基于GAN)等

AIGC是在分析式AI的基礎(chǔ)上，學(xué)習(xí)數(shù)據(jù)產(chǎn)生模式,，實現(xiàn)新樣本內(nèi)容的創(chuàng)造 — AIGC是在分析式AI的基礎(chǔ)上,，學(xué)習(xí)數(shù)據(jù)產(chǎn)生模式，實現(xiàn)新樣本內(nèi)容的創(chuàng)造

AIGC：學(xué)習(xí)范式更新奠定基礎(chǔ),，模型結(jié)構(gòu)升級助力騰飛

人工智能技術(shù)推動AIGC行業(yè)不斷發(fā)展,，其中學(xué)習(xí)范式的更新賦予AI模型主動學(xué)習(xí)能力,，模型結(jié)構(gòu)升級提升AI模型學(xué)習(xí)，歸納與創(chuàng)新能力

AIGC產(chǎn)業(yè)鏈涵蓋了從硬件到多類終端應(yīng)用的廣泛領(lǐng)域

AIGC關(guān)聯(lián)產(chǎn)業(yè)可分為應(yīng)用層,、模型層、云計算平臺與計算硬件層

計算硬件層結(jié)合云計算平臺為AIGC提供機器學(xué)習(xí)訓(xùn)練與推理算力,，其中GPU與TPU為硬件核心,，主要參與廠商包括英偉達(dá)(GPU)與谷歌 (TPU)；云平臺參與廠商則包含AWS,，GCP,，Azure以及 Coreweave;計算硬件層中云計算平臺廠商分布穩(wěn)定，競爭出現(xiàn)于模型層面與應(yīng)用層面

模型層面,，閉源基礎(chǔ)模型提供商如OpenAI通過API向用戶提供服務(wù),，而開源基礎(chǔ)模型則通過在托管平臺如Hugging Face、Replica公開模型權(quán)重,。模型訓(xùn)練其高計算力需求推動了模型層廠商與云計算廠商建立合作關(guān)系(如 OpenAI+Azure,，GCP+DeepMind。模型層面閉源模型較為普遍,，各廠商依靠模型建立技術(shù)壁壘,。

在應(yīng)用層面，MidJourney,，Runway等自主研發(fā),、持有模型;而 Jasper，Github Copilot則通過調(diào)用閉源模型商提供的API或采用托管平臺共享的模型,。

AIGC市場框架可由基礎(chǔ)設(shè)置層,、模型層、托管平臺以及應(yīng)用層來進(jìn)行劃分 — AIGC市場框架可由基礎(chǔ)設(shè)置層,、模型層,、托管平臺以及應(yīng)用層來進(jìn)行劃分

AIGC產(chǎn)業(yè)鏈上下游玩家百家齊放

AIGC上游主要包括數(shù)據(jù)供給方、算法機構(gòu),、創(chuàng)作者生態(tài)以及底層配合工具等,，中游主要是文字、圖像,、音頻和視頻處理廠商,，其中玩家眾多；下游主要是各類內(nèi)容創(chuàng)作及分發(fā)平臺以及內(nèi)容服務(wù)機構(gòu)等

AIGC廠商之間的競爭在于模型層面競爭

追根溯源,，AIGC依賴于底層機器學(xué)習(xí)模型產(chǎn)生內(nèi)容,，因此模型為AIGC行業(yè)廠商真正競爭力所在

文本生成產(chǎn)品多依賴GPT系列模型，自己訓(xùn)練的模型在圖像/視頻模態(tài)產(chǎn)品中較為普遍(圖像/視頻模態(tài)產(chǎn)品通常擁有自己訓(xùn)練的模型,，而不是如文本模態(tài)調(diào)用OpenAI提供的模型服務(wù))

比較而言,，OpenAI依靠模型建立先發(fā)競爭優(yōu)勢,，技術(shù)到產(chǎn)品轉(zhuǎn)化相對亮眼

AIGC取長補短，有望成為主流內(nèi)容生產(chǎn)模式

AIGC所屬內(nèi)容生產(chǎn)生態(tài)的發(fā)展經(jīng)歷了專家生產(chǎn)內(nèi)容(PGC),、用戶生成內(nèi)容(UGC),、AI輔助生產(chǎn)內(nèi)容、AI生產(chǎn)內(nèi)容 (AIGC)四個階段,，目前處于一,、二階段為主，第三階段為輔的境況
AIGC克服PGC與UGC存在的質(zhì)量,、產(chǎn)量無法兼具的缺點,，其有望成為未來主流的內(nèi)容生產(chǎn)模式

AIGC生態(tài)內(nèi)容生產(chǎn)模式理論上會經(jīng)歷四個發(fā)展階段

AIGC生成技術(shù)可按模態(tài)進(jìn)行分類

AIGC根據(jù)其內(nèi)容模態(tài)不同可分為文本、視頻,、圖像,，音頻與跨模態(tài)生成

AIGC不同模態(tài)對應(yīng)著各種生成技術(shù)及應(yīng)用場景

AIGC不同模態(tài)對應(yīng)的技術(shù)應(yīng)用場景也有著各自的細(xì)分品類

AIGC各技術(shù)應(yīng)用場景對應(yīng)的特征及細(xì)分品類如圖所示

AIGC文本生成技術(shù)場景可分為交互式和非交互式

AIGC非交互式文本生成技術(shù)中，結(jié)構(gòu)化寫作其形式相對固定,，生成難度較小,，商業(yè)化應(yīng)用較為廣泛；而創(chuàng)作型寫作開放性較大,，在長文本生成中難度較大,，仍需技術(shù)進(jìn)一步發(fā)展
隨著通信互聯(lián)網(wǎng)技術(shù)發(fā)展，線上社交需求快速增長,，如閑聊機器人等交互式文本產(chǎn)品將迎來快速發(fā)展

文本內(nèi)容生產(chǎn)領(lǐng)域相關(guān)細(xì)分特征如下架構(gòu)圖所述

AIGC文本生成技術(shù)商業(yè)化落地有望優(yōu)勢先發(fā)

文本領(lǐng)域預(yù)訓(xùn)練大模型技術(shù)成熟,，文本領(lǐng)域細(xì)分垂類較多，產(chǎn)品數(shù)量居首位,，模型數(shù)量發(fā)展超過其他模態(tài)技術(shù)
數(shù)字內(nèi)容中,，文字模態(tài)數(shù)據(jù)遠(yuǎn)大于圖片/視頻/音頻等，發(fā)展前景相對較大
基于GPT-3的文字生成功能已嵌入如Writesonic,、Conversion.ai,、Copysmith等軟件中，商業(yè)化前景相對清晰

AIGC文本模態(tài)技術(shù)(包括文本與代碼)商業(yè)化領(lǐng)跑視頻/圖像模態(tài)技術(shù)

AIGC圖像生成技術(shù)隨著模型結(jié)構(gòu)的優(yōu)化而明顯提升

模型結(jié)構(gòu)不斷進(jìn)化提高了AIGC生產(chǎn)圖像的多樣性,，但要求較高的功能實現(xiàn)還有待于技術(shù)的進(jìn)一步提升

“圖像編輯” 難度低于“圖像生成” 與“2D-3D” 轉(zhuǎn)換,，目前已存在多款產(chǎn)品支持“圖像編輯” ，而對于“圖像生成”任務(wù),，由于圖片相較包含更多元素,，其生成效果仍存在不穩(wěn)定性，對于要求較高的功能類圖像生成仍需要技術(shù)上的提升

圖像生成技術(shù)具體實現(xiàn)包括圖像編輯,、2D-3D轉(zhuǎn)換以及自主生成

AIGC音頻生成技術(shù)正朝更富情感等人類特征演化

文本到語音任務(wù)已比較成熟，語音質(zhì)量已達(dá)到自然的標(biāo)準(zhǔn),，未來將朝更富情感,、富韻律的語音合成以及小樣本語音學(xué)習(xí)方向發(fā)展

音樂生成任務(wù)中仍需解決音樂數(shù)據(jù)難以標(biāo)注的問題,，數(shù)據(jù)標(biāo)注其顆粒度大小影響音樂生成任務(wù)的可控性。若可控性得以解決,，則可指定風(fēng)格,、情緒等因素的音樂生成任務(wù)有希望在影視、游戲等場景下的到大量應(yīng)用,。

視頻生成為AIGC應(yīng)用生態(tài)中的高潛力場景

視頻生成本質(zhì)上與圖片生成類似,，通過對視頻進(jìn)行幀數(shù)級別的切割，實現(xiàn)對每一幀的處理

視頻生成過程包括三個階段:數(shù)據(jù)的提取,、訓(xùn)練和轉(zhuǎn)換，當(dāng)前技術(shù)正在著重提升視頻修改精準(zhǔn)度和實時性兩個維度,。鑒于視頻本身的文本,、圖像和音頻的綜合屬性，視頻生成也是跨模態(tài)生成領(lǐng)域的重要應(yīng)用場景,。

視頻生成技術(shù)具體包括視頻屬性編輯,、視頻自動剪輯、視頻部分編輯 — 視頻生成技術(shù)具體包括視頻屬性編輯,、視頻自動剪輯,、視頻部分編輯

跨模態(tài)生成技術(shù)是真正實現(xiàn)認(rèn)知和決策智能的轉(zhuǎn)折點

現(xiàn)實世界的信息是文本、音頻,、視覺,、傳感器以及人類各種觸覺的綜合體系，要更為精準(zhǔn)地模擬現(xiàn)實世界,，就需要將各種模態(tài)能力之間打通,，例如文字-圖像、文字-視頻等跨模態(tài)生成能力

大型預(yù)訓(xùn)練模型的發(fā)展使得跨模態(tài)逐步成熟,，“文本-圖像” 生成正在快速落地,，“文字-視頻”的實驗效果也已較為理想(視頻時長、清晰程度,、邏輯等還有較大提升空間),。

AIGC改變數(shù)字內(nèi)容生產(chǎn)模式

AIGC作為新的內(nèi)容生產(chǎn)模式，其具有內(nèi)容多樣,，可控性強與生產(chǎn)效率高的優(yōu)點,，符合傳媒，電商,，影視,，娛樂等行業(yè)對內(nèi)容數(shù)字化程度高、內(nèi)容多樣以及內(nèi)容更新快的要求,，AIGC在以上行業(yè)逐漸替代傳統(tǒng)內(nèi)容生產(chǎn)模式的趨勢十分顯著

AIGC滲透傳媒領(lǐng)域各個環(huán)節(jié)

AIGC技術(shù)逐漸滲透傳媒領(lǐng)域包括采集,、編輯,、傳播等環(huán)節(jié)，有助于加快內(nèi)容生產(chǎn)效率,，提高內(nèi)容質(zhì)量,，擴寬內(nèi)容影響力

AIGC化2D為3D，拓展電商展示維度

AIGC 2D圖像生成3D模型技術(shù)為傳統(tǒng)電商提供多維度的展示空間
虛擬合成主播為客戶提供更及時,、可靠,、親和的服務(wù)體驗

AIGC打破傳統(tǒng)娛樂體驗邊界

AIGC技術(shù)打破物理邊界，使粉絲可與偶像親密互動,，并形成新的發(fā)展點
AIGC為用戶打開虛擬世界入口,，通過趣味方式體驗虛擬世界

AIGC在娛樂領(lǐng)域也有諸多賦能點，有助于進(jìn)一步提升產(chǎn)業(yè)空間 — AIGC在娛樂領(lǐng)域也有諸多賦能點,，有助于進(jìn)一步提升產(chǎn)業(yè)空間

AIGC拓寬影視行業(yè)創(chuàng)意邊際

AIGC技術(shù)以其內(nèi)容多樣性為作品內(nèi)容帶來更多靈感
AIGC技術(shù)幫助拍攝突破物理限制,，還原劇本效果，提高作品質(zhì)量

AIGC促進(jìn)各行業(yè)轉(zhuǎn)型升級

AIGC技術(shù)在各行業(yè)數(shù)字內(nèi)容相關(guān)領(lǐng)域均有發(fā)揮空間

AIGC在教育、金融,、工業(yè),、醫(yī)療領(lǐng)域的應(yīng)用優(yōu)勢如圖所示

最后歡迎大家點贊、收藏,、評論,，轉(zhuǎn)發(fā)！

歡迎大家關(guān)注我的微信公眾號,！隨機分享無用的計算機知識,，

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報,。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： gogotl0l2b15ws > 《待分類》

舉報/認(rèn)領(lǐng)