自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

單鏡頭16秒720p高清視頻一鍵生成,開源版Sora又有新驚喜了

人工智能 新聞
通過他們的模型權重,能夠生成各種酷炫的短片,比如海浪和海螺的親密接觸,還有那些深不可測的森林秘境。

潞晨 Open-Sora 團隊在 720p 高清文生視頻質(zhì)量和生成時長上實現(xiàn)了突破性進展,支持無縫產(chǎn)出任意風格的高質(zhì)量短片,令人驚喜的是,他們選擇再給開源社區(qū)帶來億點點震撼,繼續(xù)全部開源。

開源地址:https://github.com/hpcaitech/Open-Sora

通過他們的模型權重,能夠生成各種酷炫的短片,比如海浪和海螺的親密接觸,還有那些深不可測的森林秘境。

圖片

人物肖像的渲染也相當逼真。

圖片

還能精準渲染賽博朋克風,讓短片瞬間充滿強烈的未來感和科技感。

圖片經(jīng)過壓縮。

也能生成有趣生動的動畫鏡頭,帶來極具表現(xiàn)力的視覺體驗。

圖片經(jīng)過壓縮。

即使是電影級別的鏡頭制作,也能輕松應對。

例如,實現(xiàn)流暢的變焦效果,為影片增添專業(yè)級的視覺效果。

 圖片

圖片經(jīng)過壓縮。

還能幫助電影制作人員創(chuàng)造出逼真的電影鏡頭。

圖片

圖片經(jīng)過壓縮。

潞晨的 Open-Sora 模型以其卓越的性能揭示了視頻生成領域的廣闊前景,而他們的模型權重和訓練代碼已經(jīng)全面開源,感興趣的朋友可以訪問他們的 GitHub 地址:https://github.com/hpcaitech/Open-Sora

文生視頻界的開源戰(zhàn)士

LambdaLabs,美國科技界獨角獸,基于潞晨團隊先前開源的 Open-Sora 模型權重打造了一個數(shù)字樂高宇宙,樂高迷們在這里找到了極致的創(chuàng)意體驗。

圖片圖片

潞晨團隊深諳開源對于文生視頻技術突破的加速度,他們不僅持續(xù)開源模型權重,還在 Github 上曬出了技術路線,讓每個玩家都能成為文生視頻大模型的掌控者,不再是單純的圍觀群眾。報告一出爐,我們就火速進行了深度挖掘和解析,試圖捕捉文生視頻技術的最新動向。(報告地址:https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md)

技術深度解碼

在潞晨 OpenSora 團隊發(fā)布的這份技術報告中,他們深度剖析了本次模型訓練的核心和關鍵。在上一個版本基礎上,引入了視頻壓縮網(wǎng)絡(Video Compression Network)、更優(yōu)的擴散模型算法、更多的可控性,并利用更多的數(shù)據(jù)訓練出了 1.1B 的擴散生成模型。

在這個 "算力為王" 的時代,我們深知視頻模型訓練的兩大痛點:計算資源的巨大消耗與模型輸出質(zhì)量的高標準。潞晨 Open-Sora 團隊以一種極簡而有效的方案,成功地在成本和質(zhì)量之間找到了平衡點。

OpenSora 團隊提出了一個創(chuàng)新的視頻壓縮網(wǎng)絡(VAE),該網(wǎng)絡在空間和時間兩個維度上分別進行壓縮。具體來說,他們首先在空間維度上進行了 8x8 倍的壓縮,接著在時間維度上進一步壓縮了 4 倍。通過這種創(chuàng)新的壓縮策略,既避免了因抽幀而犧牲視頻流暢度的弊端,又大幅降低了訓練成本,實現(xiàn)了成本與質(zhì)量的雙重優(yōu)化。

圖片

視頻壓縮網(wǎng)絡結構

Stable Diffusion 3,最新的擴散模型,通過采用了 rectified flow 技術替代 DDPM,顯著提升了圖片和視頻生成的質(zhì)量。盡管 SD3 的 rectified flow 訓練代碼尚未公開,但潞晨 Open-Sora 團隊已經(jīng)基于 SD3 的研究成果,提供了一套完整的訓練解決方案,包括:

  • 簡單易用的整流(rectified flow)訓練
  • 用于訓練加速的 Logit-norm 時間步長采樣
  • 基于分辨率和視頻長度的時間步長采樣

通過這些技術的整合,我們不僅能夠加快模型的訓練速度,還能顯著減少推理階段的等待時間,確保用戶體驗的流暢性。此外,這套訓練方案還支持在推理過程中輸出多種視頻寬高比,滿足了多樣化場景下的視頻素材需求,為視頻內(nèi)容創(chuàng)作者提供了更加豐富的創(chuàng)作工具。

他們在報告中也透露了更多關于模型訓練的核心細節(jié),包括數(shù)據(jù)清洗和模型調(diào)優(yōu)的實用技巧,以及構建了更完善的模型評估體系,保障模型的穩(wěn)健性和泛化能力。他們還提供了可以自行一鍵部署的 Gradio 應用,并支持調(diào)節(jié)輸出的運動分數(shù)、美學分數(shù)和鏡頭移動方式等參數(shù),甚至可以一鍵通過 GPT-4o 自動修改指令并支持中文輸入。要忍不住 get hands dirty 了,詳情請戳 https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md

打破閉環(huán),開源賦能

自 OpenAI Sora 發(fā)布以來,業(yè)界對 Sora 的開放性期待值爆表,但現(xiàn)實卻是持續(xù)的等待游戲。潞晨 Open-Sora 的開源,為文生視頻的創(chuàng)新和發(fā)展注入了強勁的活力。“授人以魚不如授人以漁”,訪問他們的 github 地址,即可零門檻免費獲得模型權重和全套訓練代碼,這使用戶從被動的內(nèi)容消費者轉(zhuǎn)變?yōu)榉e極的內(nèi)容創(chuàng)造者。這一轉(zhuǎn)型為企業(yè)用戶解鎖了自主開發(fā)文生視頻應用的新技能,無論是打造沉浸式游戲、創(chuàng)意廣告還是制作影視大片,文生視頻技術的應用場景得到了指數(shù)級擴展。

我們期待這股星星之火,能夠點燃整個文生視頻領域的創(chuàng)新激情,實現(xiàn)從點到面的燎原之勢。

最后附上潞晨 OpenSora 開源鏈接:https://github.com/hpcaitech/Open-Sora

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-01-10 09:40:00

視頻生成AI開源

2024-04-25 13:14:19

模型數(shù)據(jù)

2024-10-05 10:57:21

2023-08-02 13:08:00

圖像AI

2011-05-03 11:01:32

GE數(shù)碼相機投影

2011-10-13 09:28:58

明基投影儀

2012-06-01 11:29:03

明基投影機

2024-10-15 14:00:00

AdobeAI生成

2024-03-22 13:05:23

數(shù)據(jù)訓練

2009-02-10 10:49:28

滕博視頻應用

2011-05-19 10:58:46

投影機評測

2012-06-08 13:11:29

明基投影機

2010-11-24 16:14:54

手機衛(wèi)士手機安全網(wǎng)秦科技

2010-12-01 19:14:53

手機安全流量監(jiān)控網(wǎng)秦科技

2024-04-16 07:10:46

大模型AI自動生成視頻

2023-04-03 10:04:44

開源模型

2011-01-12 12:21:21

銳迪訊統(tǒng)一通訊RADVISION

2012-05-04 16:21:29

明基投影機

2012-05-14 16:49:57

愛普生投影機

2020-03-04 09:35:55

開源技術 軟件
點贊
收藏

51CTO技術棧公眾號