就在我們歡度新春佳節(jié)時,,大洋彼岸的美國AI行業(yè)先后打出了一對大小王,。先是英偉達(dá)的Chat with RTX,讓大家可以在自己的電腦上本地運(yùn)行AI聊天機(jī)器人,,大幅降低了大語言模型基于消費(fèi)級顯卡部署的門檻,。緊接著OpenAI毫無征兆地曝光了新模型Sora,可以將文本提示轉(zhuǎn)化為長達(dá)一分鐘的高清視頻,且在一致性,、合理性和穩(wěn)定性上都超乎想象,,直接降維打擊了Runway、Pika,,更是使得文生視頻賽道翻開了嶄新的一頁,。 如果說Chat with RTX只是一個更接地氣的工具,,那么OpenAI的Sora就堪稱是給整個視頻創(chuàng)作領(lǐng)域投下一枚深水炸彈,。一時間,網(wǎng)絡(luò)上一大批短視頻創(chuàng)作者乃至影視行業(yè)從業(yè)者紛紛開始談?wù)?,一個如此強(qiáng)大的文生視頻模型對于現(xiàn)有秩序的影響,。 Sora有多強(qiáng)大呢?簡單來說,,它不僅僅能生成一個一分鐘連貫且高清的視頻,,而且視頻中每一幀的畫面都與Midjourney、Stable Diffusion精雕細(xì)琢的東西不相上下,。 在Pika等“上一代”文生視頻模型還在努力將生成視頻的長度突破四五秒這一桎梏時,Sora就已經(jīng)做到了生成一分鐘的連續(xù),、多機(jī)位視頻,,還可以基于視頻擴(kuò)展生成后續(xù),完全就是兩個時代的產(chǎn)品,。更妙的是Sora還使用了世界模型,,能夠理解模擬物體的運(yùn)動、并作出預(yù)測,,這是以往一眾文生視頻的AI模型從未實現(xiàn)的功能,,更是做到了輸出符合物理規(guī)律的圖像。 相比于聊天機(jī)器人,、文生圖,,看起來更符合當(dāng)下互聯(lián)網(wǎng)環(huán)境的文生視頻為什么不是2023年AI應(yīng)用的主角?當(dāng)然是技術(shù)限制,,去年被熱炒的Pika Labs只能做到生成3秒的視頻,Meta的Emu Video則是4秒,,表現(xiàn)最好的Runway Gen-2也就18秒,。以體量來計算,這一批模型生成的視頻顯然很難稱得上是“視頻”,,反而更像是GIF動圖,。 但這并不是Pika、Meta們不想把視頻長度加長,而是只能如此,,因為一旦時間變長,,模型就會變成“脫韁的野馬”,不知道會生成什么“妖魔鬼怪”出來,。 Sora不僅理解用戶在文本提示中所要求的內(nèi)容,,更是能夠?qū)⑦@些事物與現(xiàn)實世界中的存在方式相結(jié)合,呈現(xiàn)出逼真的視頻效果,,OpenAI在介紹中的這一句描述,,就道出了Sora的魅力所在。 相信大家更關(guān)心的,,是Sora會不會改變我們看到的世界,,答案大概率是肯定的。Sora之于視頻創(chuàng)作就像是一年半以前,,Stable Diffusion之于繪畫一樣,。 問題就出在這里,過去一年里,,大量由AI生成的圖片直接把“繪圈”的水給攪混了,。Stable Diffusion等AI繪畫工具已經(jīng)在事實上導(dǎo)致了畫師的失業(yè)潮,從國內(nèi)到海外的游戲廠商不約而同地琢磨著裁撤美術(shù)團(tuán)隊,,許多靠著繪畫技術(shù)謀生的人轉(zhuǎn)行的轉(zhuǎn)行,、失業(yè)的失業(yè),因此如今視頻創(chuàng)作者自然也是心有戚戚,,害怕同樣的事情會發(fā)生在他們自己身上,。 Sora的橫空出世必然會改變視頻創(chuàng)作的既有格局,,這一點毋庸置疑,,不過對于不同類型的創(chuàng)作者所產(chǎn)生的影響,卻很可能并不一樣,。暫時,、或者說兩三年之內(nèi),Sora還不會顛覆專業(yè)影視創(chuàng)作,,這是受到該模型的技術(shù)原理所限制,。按照OpenAI方面披露的技術(shù)文檔顯示,Sora依然使用Transformer架構(gòu),、基于Diffusion model,,并非外界猜測的“一個數(shù)據(jù)驅(qū)動的物理引擎”。 Diffusion model也就是所謂的擴(kuò)散模型,,該模型的原理就是給一張圖片加上大堆雪花一樣的噪音,,然后讓AI去除噪音,、還原本真。這一技術(shù)目前在AI業(yè)界并不是什么“絕世神功”,,而是類似“少林長拳”的大路貨,,但OpenAI的Sora做到了模型越大、數(shù)據(jù)越多,,效果卻能相應(yīng)變好,、而不是原地踏步??伞癟ransformer+Diffusion model”這樣的基座就決定了Sora的運(yùn)行邏輯是模仿,,它的世界模型也做不到嚴(yán)謹(jǐn)?shù)貜?fù)現(xiàn)物理規(guī)律。 實際上,,目前受邀用戶在社交平臺所展示的由Sora生成的視頻,也真實地展示了該模型的瑕疵,。比如有一個老奶奶在熬湯的視頻里,,老奶奶手中的湯勺就在視頻中間突兀地憑空出現(xiàn)。簡單來說,,Sora生成的視頻暫時還是不可控的,,這一點對于專業(yè)化的影視制作需求來說顯然是無法接受的,電影,、電視劇的制片方是不可能直接將隨時可能翻車的視頻用作成片,,所以必然就會需要人工后期精修,進(jìn)而也導(dǎo)致了Sora只能進(jìn)行輔助,、卻無法取代相關(guān)專業(yè)人士,。 雖然Sora暫時還改變不了PGC、卻很可能會顛覆UGC,,自媒體幾乎是一定會受到劇烈的沖擊,,準(zhǔn)確來說是一大批靠追逐熱點內(nèi)容而活的自媒體,會受到巨大的挑戰(zhàn),。這類自媒體的特點就是對于熱點內(nèi)容的高度敏感性,,他們更像信息的二道販子,賺的就是信息差,,并且絕大多數(shù)自媒體制作的內(nèi)容在畫面呈現(xiàn)效果上比不上Sora,,而且產(chǎn)能更是被Sora碾壓。 制作視頻的門檻大幅度降低,,就意味著以往只對熱點敏感、卻不具備視頻制作能力的創(chuàng)作者,,現(xiàn)在也能“入行”了,,當(dāng)一個賽道變得更卷之后,既得利益者的日子自然就會難過,。但具備對信息深加工能力的創(chuàng)作者則會笑到最后,,畢竟獨(dú)特的視角、深度的解讀此時也會變得更有價值,。換而言之,,如果創(chuàng)作者滿腹珠璣,那么Sora就會成為一大助力,,讓視頻的產(chǎn)能更上一層樓,。 只能說,彼時彼刻恰如此時此刻,,繼此前Stable Diffusion讓中低層畫師失業(yè)后,,Sora大概率也會讓“內(nèi)容農(nóng)場”變成一個歷史名詞。 MWC24前瞻:更“混搭”的展會,,也更值得關(guān)注阿里云盤對超容量存儲下手,,只為讓深度用戶付費(fèi) |
|