全球首個(gè)開(kāi)源類(lèi)Sora猛升級(jí)，16秒720p畫(huà)質(zhì)電影感拉滿(mǎn),！代碼權(quán)重全開(kāi)源

天承辦公室 2024-06-19 發(fā)布于北京

展開(kāi)全文

新智元報(bào)道

編輯：編輯部

【新智元導(dǎo)讀】搶先OpenAI一步的「國(guó)產(chǎn)Sora」,，再給開(kāi)源社區(qū)帶來(lái)億點(diǎn)點(diǎn)震撼：權(quán)重代碼全開(kāi)源！16秒720p高清畫(huà)質(zhì)一鍵生成,，人物渲染逼真到爆,，電影級(jí)變焦。而美國(guó)獨(dú)角獸基于之前權(quán)重打造的數(shù)字宇宙,，直接讓樂(lè)高迷嗨翻了,。

就在剛剛，潞晨Open-Sora團(tuán)隊(duì)在720p高清文生視頻質(zhì)量和生成時(shí)長(zhǎng)上實(shí)現(xiàn)了突破性進(jìn)展,！

如今,，全新升級(jí)的Open-Sora不僅支持無(wú)縫產(chǎn)出任意風(fēng)格的高質(zhì)量短片，而且更令人驚喜的是,，團(tuán)隊(duì)選擇再給開(kāi)源社區(qū)帶來(lái)億點(diǎn)點(diǎn)震撼——繼續(xù)全部開(kāi)源,。

開(kāi)源地址：https://github.com/hpcaitech/Open-Sora

通過(guò)他們的模型權(quán)重，能夠生成各種酷炫的短片,，比如海浪和海螺的親密接觸,，還有那些深不可測(cè)的森林秘境。

人物肖像的渲染也相當(dāng)逼真,。不管是中國(guó)古典美女,，還是歐美風(fēng)的人物，能夠保持一致的風(fēng)格,。

還能精準(zhǔn)渲染賽博朋克風(fēng),，讓短片瞬間充滿(mǎn)強(qiáng)烈的未來(lái)感和科技感。

也能生成有趣生動(dòng)的動(dòng)畫(huà)鏡頭,，帶來(lái)極具表現(xiàn)力的視覺(jué)體驗(yàn),。

即使是電影級(jí)別的鏡頭制作，也能輕松應(yīng)對(duì),。

例如,，實(shí)現(xiàn)流暢的變焦效果，為影片增添專(zhuān)業(yè)級(jí)的視覺(jué)效果。

還能幫助電影制作人員創(chuàng)造出逼真的電影鏡頭,。

潞晨的Open-Sora模型以其卓越的性能揭示了視頻生成領(lǐng)域的廣闊前景,，而他們的模型權(quán)重和訓(xùn)練代碼已經(jīng)全面開(kāi)源，感興趣的朋友可以訪問(wèn)他們的GitHub項(xiàng)目,。

GitHub地址：https://github.com/hpcaitech/Open-Sora

文生視頻界的開(kāi)源戰(zhàn)士

LambdaLabs,，美國(guó)科技界獨(dú)角獸，基于潞晨團(tuán)隊(duì)先前開(kāi)源的Open-Sora模型權(quán)重打造了一個(gè)數(shù)字樂(lè)高宇宙,，樂(lè)高迷們?cè)谶@里找到了極致的創(chuàng)意體驗(yàn),。

潞晨團(tuán)隊(duì)深諳開(kāi)源對(duì)于文生視頻技術(shù)突破的加速度，他們不僅持續(xù)開(kāi)源模型權(quán)重,，還在Github上曬出了技術(shù)路線,，讓每個(gè)玩家都能成為文生視頻大模型的掌控者，不再是單純的圍觀群眾,。

報(bào)告地址：https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md

技術(shù)深度解碼

潞晨Open-Sora團(tuán)隊(duì)的這份技術(shù)報(bào)告，深度剖析了本次模型訓(xùn)練的核心和關(guān)鍵,。

在上一個(gè)版本基礎(chǔ)上,，引入了視頻壓縮網(wǎng)絡(luò)（Video Compression Network）、更優(yōu)的擴(kuò)散模型算法,、更多的可控性,，并利用更多的數(shù)據(jù)訓(xùn)練出了1.1B的擴(kuò)散生成模型。

在這個(gè)「算力為王」的時(shí)代,，視頻模型訓(xùn)練有兩大痛點(diǎn)：計(jì)算資源的巨大消耗與模型輸出質(zhì)量的高標(biāo)準(zhǔn),。潞晨Open-Sora團(tuán)隊(duì)以一種極簡(jiǎn)而有效的方案，成功地在成本和質(zhì)量之間找到了平衡點(diǎn),。

Open-Sora團(tuán)隊(duì)提出了一個(gè)創(chuàng)新的視頻壓縮網(wǎng)絡(luò)（VAE）,，該網(wǎng)絡(luò)在空間和時(shí)間兩個(gè)維度上分別進(jìn)行壓縮。

具體來(lái)說(shuō),，他們首先在空間維度上進(jìn)行了8x8倍的壓縮,，接著在時(shí)間維度上進(jìn)一步壓縮了4倍。通過(guò)這種創(chuàng)新的壓縮策略,，既避免了因抽幀而犧牲視頻流暢度的弊端,，又大幅降低了訓(xùn)練成本，實(shí)現(xiàn)了成本與質(zhì)量的雙重優(yōu)化,。

視頻壓縮網(wǎng)絡(luò)結(jié)構(gòu)

Stable Diffusion 3,，最新的擴(kuò)散模型，通過(guò)采用了rectified flow技術(shù)替代DDPM,，顯著提升了圖片和視頻生成的質(zhì)量,。

盡管SD3的rectified flow訓(xùn)練代碼尚未公開(kāi)，但潞晨Open-Sora團(tuán)隊(duì)已經(jīng)基于SD3的研究成果,，提供了一套完整的訓(xùn)練解決方案,，包括：

簡(jiǎn)單易用的整流（rectified flow）訓(xùn)練
用于訓(xùn)練加速的Logit-norm時(shí)間步長(zhǎng)采樣
基于分辨率和視頻長(zhǎng)度的時(shí)間步長(zhǎng)采樣

通過(guò)這些技術(shù)的整合,，不僅能夠加快模型的訓(xùn)練速度，還能顯著減少推理階段的等待時(shí)間,，確保用戶(hù)體驗(yàn)的流暢性,。

此外，這套訓(xùn)練方案還支持在推理過(guò)程中輸出多種視頻寬高比,，滿(mǎn)足了多樣化場(chǎng)景下的視頻素材需求,，為視頻內(nèi)容創(chuàng)作者提供了更加豐富的創(chuàng)作工具。

他們?cè)趫?bào)告中也透露了更多關(guān)于模型訓(xùn)練的核心細(xì)節(jié),，包括數(shù)據(jù)清洗和模型調(diào)優(yōu)的實(shí)用技巧,，以及構(gòu)建了更完善的模型評(píng)估體系，保障模型的穩(wěn)健性和泛化能力,。

他們還提供了可以自行一鍵部署的Gradio應(yīng)用,，并支持調(diào)節(jié)輸出的運(yùn)動(dòng)分?jǐn)?shù)、美學(xué)分?jǐn)?shù)和鏡頭移動(dòng)方式等參數(shù),，甚至可以一鍵通過(guò)GPT-4o自動(dòng)修改指令并支持中文輸入,。

打破閉環(huán)，開(kāi)源賦能

自O(shè)penAI Sora發(fā)布以來(lái),，業(yè)界對(duì)Sora的開(kāi)放性期待值爆表,，但現(xiàn)實(shí)卻是持續(xù)的等待游戲。潞晨Open-Sora的開(kāi)源,，為文生視頻的創(chuàng)新和發(fā)展注入了強(qiáng)勁的活力,。

「授人以魚(yú)不如授人以漁」，訪問(wèn)他們的GitHub地址,，即可零門(mén)檻免費(fèi)獲得模型權(quán)重和全套訓(xùn)練代碼,，這使用戶(hù)從被動(dòng)的內(nèi)容消費(fèi)者轉(zhuǎn)變?yōu)榉e極的內(nèi)容創(chuàng)造者。

這一轉(zhuǎn)型為企業(yè)用戶(hù)解鎖了自主開(kāi)發(fā)文生視頻應(yīng)用的新技能,，無(wú)論是打造沉浸式游戲,、創(chuàng)意廣告還是制作影視大片，文生視頻技術(shù)的應(yīng)用場(chǎng)景得到了指數(shù)級(jí)擴(kuò)展,。

或許可以期待這股星星之火,，能夠點(diǎn)燃整個(gè)文生視頻領(lǐng)域的創(chuàng)新激情，實(shí)現(xiàn)從點(diǎn)到面的燎原之勢(shì),。

潞晨Open-Sora開(kāi)源鏈接：

https://github.com/hpcaitech/Open-Sora

參考資料：

https:///lambdalabs/lego/reports/Text2Bricks-Fine-tuning-Open-Sora-in-1-000-GPU-Hours--Vmlldzo4MDE3MTky

https:///blog/open-sora-from-hpc-ai-tech-team-continues-open-source-generate-any-16-second-720p-hd-video-with-one-click-model-weights-ready-to-use

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請(qǐng)點(diǎn)擊一鍵舉報(bào),。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：天承辦公室 > 《023新智元說(shuō)》

舉報(bào)/認(rèn)領(lǐng)