整整300天,，Sora終于引爆了視覺核彈

新用戶62133265 2024-12-19

展開全文

經(jīng)過300天的期待,，Sora V2版本終于揭開了神秘的面紗,，帶來了革命性的視頻生成技術(shù),。這篇文章將帶您深入了解Sora如何重新定義世界模型，以及它在視頻創(chuàng)作,、電影生成和內(nèi)容開發(fā)等領(lǐng)域的深遠影響,。

從2024年2月15到2024年12月10日,，整整間隔300天,，最強期貨Sora從預(yù)告到終于面世。

在大洋彼岸,，OpenAI打造的12天春晚的Day 3,，山姆奧特曼終于正式發(fā)布了Sora V2版本。從未正式推出的V1版本,，曾經(jīng)通過演示視頻帶給過大家震撼,。

這次OpenAI公布了更高端快速版本—Sora Turbo，帶給ChatGPT Plus 和 Pro 用戶,。

就像1984年的Mac一樣重新定義影像創(chuàng)作，Sora重新定義了世界模型：“Sora 是理解和模擬現(xiàn)實的人工智能的基礎(chǔ),，這是開發(fā)能夠與物理世界互動的模型的重要一步,?！?/p>

我們且看這次發(fā)布的 Sora 最終呈現(xiàn)的能力：

支持分辨率高達 1080p、時長最長 20 秒的視頻,，格式可選寬屏,、豎屏或方形。這點沒什么,，國產(chǎn)AI都可以,。相比國產(chǎn)最長的2分鐘，Sora這項指標(biāo)還落后了,。
但重要的是,，Sora配備了分鏡工具，故事板工具（Storyboard）能讓用戶能夠精確指定每一幀的輸入,，用戶可以通過在時間線上拖動和間隔卡片,、添加字幕和上傳源媒體來控制節(jié)奏，同時確保適當(dāng)?shù)拈g距以避免突然切換,。
提供文本生成視頻（text-to-video）,、圖像生成視頻（text+image-to-video）、視頻編輯生成（text+video-to-video）,。這點也沒什么,，國產(chǎn)AI也都能實現(xiàn)。
覺得簡單生成不太好玩,，OpenAI加入了Remix和Blend兩項新功能,。這意味著用戶可以選擇自帶素材進行擴展、混音和混合,，或者從文本生成全新的內(nèi)容,。換句話說，你可以使用Recut修剪和延長（重新剪輯）,、重新混合以創(chuàng)建新變化,、混合視頻之間的過渡。直播演示中,，猛犸象和機器人混合在了一起,，走在了沙漠上。

Sora可以添加很多幀,，連接兩個不相關(guān)的開頭和結(jié)尾。據(jù)說測試中的許多藝術(shù)家都非常喜歡這個視頻循環(huán)功能,。
包含“精選”和“最近”內(nèi)容板塊Explore,，幫助大家從社區(qū)中汲取靈感。

實際上這次短短的直播中,，并沒有過多呈現(xiàn)Sora生成的案例視頻有多精彩,，而是重點介紹了Sora產(chǎn)品的功能特點,。

此前在日本藝術(shù)家創(chuàng)作的80年代年輕人舞蹈和OpenAI創(chuàng)意專家ChadNelson 在倫敦展示的 Sora V2 視頻，體現(xiàn)了多主體,，多視角,、多變焦等環(huán)境中，Sora的畫面逼真清晰,、人物一致性,、視頻延展等能力。

大家可以在今天晚點時間開放后體驗Sora,，是否是對目前所有的視頻生成模型的一次碾壓,。

當(dāng)然，在Sora閉關(guān)迭代的這一年中,，國內(nèi)AI視頻也經(jīng)歷了很多變化,。

1.Runway

Runway發(fā)布了第三代視頻生成模型Gen-3，該模型在保真度,、一致性和運動方面有了重大改進,。

Gen-3 Alpha模型使用視頻和圖像聯(lián)合訓(xùn)練，特色包括90秒內(nèi)快速生成10秒視頻,、并行生成多個視頻,、模型驅(qū)動新的文本到視頻（T2V）、圖像到視頻（I2V）和文本到圖像（T2I）等功能,。

2.可靈（快手）

快手可靈在6月份發(fā)布,，也是類Sora的DiT架構(gòu)，能夠生成長達2分鐘的視頻,，且?guī)蔬_到30fps,。圖生視頻、文生視頻,、視頻續(xù)寫都可，每天有6次免費機會,。

可靈AI以其生成時長,、效率，以及視頻質(zhì)量位于AI視頻生成產(chǎn)品的第一梯隊,，2分鐘的生成時長是現(xiàn)在所有產(chǎn)品里的第一,，尤其在真實風(fēng)格場景上的表現(xiàn)更好?？焓挚伸`應(yīng)該是目前商業(yè)化做的最好的,，此前公布過營收過千萬。

3.即夢（字節(jié)跳動）

最開始的即夢大概也是采用SDXL模型,，當(dāng)時鯨哥體驗下覺得是runway1.0的水平,。但是在10月份豆包發(fā)布視頻生成-PixelDance模型后,，其實已經(jīng)進化到，一度讓我們不再期待Sora了,。

搭載這款模型的即夢AI 2.0,，在對提示詞的捕捉和理解方面展現(xiàn)出高一致性，精確控制多個主體,，可對連續(xù)動作,，連續(xù)鏡頭做高度控制。超寫實效果媲美電影拍攝效果,，還支持首幀到尾幀的變化動畫,，這功能Sora今天也發(fā)布了。

4.騰訊混元

最近被熱議的則是騰訊混元正式上線文生視頻,，并全面開源,，參數(shù)量達到130億，是當(dāng)前最大的視頻開源模型,。

混元視頻生成模型在文本視頻一致性,、運動質(zhì)量和畫面質(zhì)量多個維度效果領(lǐng)先，在人物,、人造場所等場景下表現(xiàn)尤為出色,。能夠?qū)崿F(xiàn)在畫面主角保持不變的情況下自動切鏡頭。

綜合來說,，AI視頻在影像創(chuàng)作,、電影生成、短視頻內(nèi)容開發(fā)等領(lǐng)域都具有重大意義,。

AI視頻創(chuàng)作者“AI Talk”主理人汗青說道：“如果Sora能很快提供類似效果的民用服務(wù),，那確實是降維打擊，其實對創(chuàng)作者來說,，這個視頻中多人物同屏,，以及畫面的表現(xiàn)力運鏡才是最寶貴的，完全是另一個層面的東西,。什么清晰度,、鏡頭長度其實不太重要，這是真正做創(chuàng)作的人和技術(shù)狂熱者看待事物的不同角度,?！?

Sora目前應(yīng)該超出了很多人的預(yù)期，甚至是狂喜,。

2023年好萊塢曾爆發(fā)上萬名從業(yè)人員走上街頭,，他們抗議AI帶來的挑戰(zhàn)和工作機會減少。但現(xiàn)在隨著Sora面世，尤其官方說道并不希望一鍵生成,，而是希望促進創(chuàng)意發(fā)展?，F(xiàn)實影響真的會是這樣嗎？

從實際來看,，Sora這么延遲發(fā)布,，很可能并不是技術(shù)上有很大難題，而是安全隱私保護等問題遲遲沒有解決,。

現(xiàn)在終于有了解決方案,，OpenAI在官網(wǎng)中提到：

所有 Sora 生成的視頻都帶有元數(shù)據(jù)，元數(shù)據(jù)會將視頻標(biāo)識為來自 Sora,，以提供透明度,，并可用于驗證來源。雖然不完善,，但我們默認(rèn)添加了可見水印等保護措施,，并構(gòu)建了一個內(nèi)部搜索工具，該工具使用第2代的技術(shù)屬性來幫助驗證內(nèi)容是否來自 Sora,。

而對于用戶很關(guān)心的價格,，披露使用 openai plus 賬戶，您每月可獲得 50 次生成,。使用專業(yè)賬戶,，每月可以獲得 500 次快速生成（高分辨率下更少），并在較慢的生成模式下獲得無限制生成,。

Sam Altman在直播結(jié)束時說道：回到GPT-1的類比，現(xiàn)在還處于早期階段,，它會變得更好,。

作者｜楊曉鶴

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報,。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：新用戶62133265 > 《AI&互聯(lián)網(wǎng)》

舉報/認(rèn)領(lǐng)