開源視頻生成天花板?最強(qiáng)攪局者M(jìn)ochi 1免費(fèi)直出電影級(jí)特效
AI視頻生成賽道最強(qiáng)攪局者,來了!
何謂攪局?下面這些是模型直出的效果,開源免費(fèi)送給你!
這也讓一些網(wǎng)友直呼:「賽博菩薩」!
雖然很想把標(biāo)題寫成「劍指Sora」,但可惜這個(gè)標(biāo)題小編我用過了~
而驀然回首,那驚世駭俗的Sora也已經(jīng)是很久之前的事情了。
今天,我們已經(jīng)可以通過親自與開源模型交互,來體驗(yàn)當(dāng)初的震撼。
先來個(gè)高仿版世界名畫:
是不是直接夢(mèng)回當(dāng)年?
這算是小編目前體驗(yàn)過的最強(qiáng)開源文生視頻模型了。
開放權(quán)重:https://huggingface.co/genmo/mochi-1-preview
源代碼:https://github.com/genmoai/models
這個(gè)「賽博菩薩」名叫Mochi 1,來自Genmo,模型的研究預(yù)覽版已經(jīng)在hugging face開源(或通過磁力鏈接下載),Apache 2.0許可證,可免費(fèi)用于個(gè)人和商業(yè)用途。
作為Genmo家最新的開源視頻生成模型,Mochi 1在運(yùn)動(dòng)質(zhì)量方面表現(xiàn)出色,并且具有極強(qiáng)的提示依從性。
除了開放權(quán)重之外,Genmo還在官網(wǎng)提供了免費(fèi)試用Mochi 1的平臺(tái):https://www.genmo.ai/play,完全免費(fèi),只不過限制每6小時(shí)生成2個(gè)視頻。
開玩!
神奇的魔法世界:
海上戰(zhàn)爭:
星際穿越:
月下美人:
開測(cè)
這些都是來自discover頁面的作品,有可能是網(wǎng)友做的,效果包不包真咱不知道,所以小編只好下場一試:
A Chinese female college student with fair skin, slim figure, and wearing a school uniform stood next to the bookshelf in the library, smiling and looking at the camera attentively. High resolution 4k.
直出的效果小編是比較滿意的,這里的動(dòng)圖質(zhì)量有限,而且截圖工具過來有點(diǎn)偏色,還是推薦大家親自體驗(yàn),會(huì)有驚喜。
在上面的基礎(chǔ)上加一點(diǎn)細(xì)節(jié):
A Chinese female college student with fair skin, slender figure, and wearing a school uniform is standing next to the bookshelf in the library. She has shoulder-length black short hair, a high nose bridge, and a pointed chin. She is smiling and looking at the camera attentively. High resolution 4k.
雖然但是......還行吧,可能小編的提示詞功力還需修煉。
下面這張的效果最令小編驚喜,盡管有些瑕疵,但基本能上官圖了吧。
A young woman wearing a white shirt and navy blue dress on the beach at sunset. She was holding high heels in her hands and walking barefoot on the beach, her long silver hair fluttering in the sea breeze. The waves gently lap on the shore, creating a fresh and elegant atmosphere. 4K ultra-high definition, delicate and realistic style.
來看一下刻板印象(doge):
In the summer, a cute Japanese high school student is on campus. She was wearing a school uniform, a short skirt, white stockings and black leather shoes. She was carrying a black schoolbag, with her hands behind her back, smiling at the camera, with the University of Tokyo building behind her.
當(dāng)然肯定也有翻車的時(shí)候:
A cute girl walks on campus in summer. She was wearing her school uniform, short skirt, black stockings and boots, and was carrying a black school bag. She walks confidently and casually
翻車了嗎?微翻,翻的不多,也就40%
目前Genmo只發(fā)布了生成480p視頻的基礎(chǔ)版本,而更高級(jí)的Mochi 1 HD將于今年晚些時(shí)候推出。
另外模型的相關(guān)API也已經(jīng)發(fā)布,開發(fā)者可以將其無縫集成到自己的應(yīng)用程序中。
本地跑?
hugging face上的模型權(quán)重大小為40多G,根據(jù)官方的說法,需要4個(gè)H100才能運(yùn)行。
——不過別擔(dān)心,既然敢開源,那么總有大神幫你解決問題:
地址:https://github.com/kijai/ComfyUI-MochiWrapper
Mochi 1已經(jīng)進(jìn)入ComfyUI了,可以使用flash attention、pytorch attention(sdpa)或sage attention進(jìn)行加速。
根據(jù)設(shè)置的幀數(shù),可以把生成過程限制在20GB內(nèi)存以下,作者還嘗試了CogVideoX -diffusers來挑戰(zhàn)更高的幀數(shù),目前做到了97幀。
Mochi 1模型架構(gòu)
Genmo表示自己要搞一個(gè)「人工智能的右腦」,而Mochi 1就是構(gòu)建可以想象任何東西的世界模擬器的第一步。
Mochi 1是基于新型的非對(duì)稱擴(kuò)散Transformer(Asymmetric Diffusion Transformer,AsymmDiT) 架構(gòu)構(gòu)建的擴(kuò)散模型。
參數(shù)量為100億,是有史以來開源的最大視頻生成模型。
Mochi 1是完全從頭開始訓(xùn)練的,同時(shí)提供了簡單、可以自由修改的架構(gòu)。
計(jì)算效率對(duì)于模型的發(fā)展至關(guān)重要。與Mochi一起開源的還有它的VAE編碼器。
VAE將視頻壓縮了128倍(包括空間壓縮和時(shí)間壓縮),轉(zhuǎn)化到12通道的潛在空間。
AsymmDiT通過簡化文本處理,并將神經(jīng)網(wǎng)絡(luò)能力集中在視覺推理上,有效地處理用戶提示和壓縮的視頻token。
AsymmDiT通過多模態(tài)自我注意共同關(guān)注文本和視覺token,并為每種模態(tài)學(xué)習(xí)單獨(dú)的MLP層,這類似于Stable Diffusion 3,所不同的是,這里的視覺流通過更大的隱藏維度(擁有幾乎是文本流的 4 倍的參數(shù))。
為了統(tǒng)一自我注意的模態(tài),研究人員使用非方形QKV和輸出投影層。這種非對(duì)稱設(shè)計(jì)降低了推理內(nèi)存要求。
許多現(xiàn)代擴(kuò)散模型使用多個(gè)預(yù)訓(xùn)練語言模型來表示用戶提示。相比之下,Mochi 1只使用單個(gè)T5-XXL對(duì)提示進(jìn)行編碼。
Mochi 1的上下文窗口高達(dá)44,520個(gè)視頻token,并具有完整的3D attention。
為了定位每個(gè)token,研究人員將可學(xué)習(xí)的旋轉(zhuǎn)位置嵌入(RoPE)擴(kuò)展到3維,網(wǎng)絡(luò)端到端學(xué)習(xí)空間軸和時(shí)間軸的混合頻率。
其他的設(shè)計(jì)包括SwiGLU前饋層、用于增強(qiáng)穩(wěn)定性的query-key normalization,以及用于控制內(nèi)部激活的sandwich normalization。
詳細(xì)的技術(shù)論文將在不久之后發(fā)布。
評(píng)估
當(dāng)前的視頻生成模型與現(xiàn)實(shí)之間存在巨大差距。運(yùn)動(dòng)質(zhì)量和提示遵循是視頻生成模型中仍然缺少的兩個(gè)最關(guān)鍵的功能。
Mochi 1為開源視頻生成設(shè)定了新的標(biāo)準(zhǔn),對(duì)比領(lǐng)先的封閉模型也表現(xiàn)出很強(qiáng)的競爭力:
提示依從性
提示依從性衡量生成的視頻遵循提供的文本說明的準(zhǔn)確性,從而確保對(duì)用戶意圖的高度保真度。模型應(yīng)該允許用戶對(duì)字符、設(shè)置和操作進(jìn)行詳細(xì)控制。
研究人員使用視覺語言模型作為裁判,遵循OpenAI DALL-E 3協(xié)議,使用自動(dòng)指標(biāo)對(duì)提示依從性進(jìn)行基準(zhǔn)測(cè)試。這里使用 Gemini-1.5-Pro-002評(píng)估生成的視頻。
Elo Score
運(yùn)動(dòng)質(zhì)量評(píng)估運(yùn)動(dòng)平滑度和空間真實(shí)感,確保生成的視頻流暢且具有視覺吸引力。
Mochi 1 以每秒30幀的速度生成流暢的視頻,持續(xù)時(shí)間長達(dá)5.4秒,具有高度的時(shí)間連貫性和逼真的運(yùn)動(dòng)動(dòng)態(tài)。
Mochi模擬流體動(dòng)力學(xué)、毛皮和頭發(fā)等物理特性,以及一致、流暢的人類動(dòng)作,不存在恐怖谷問題。
評(píng)分者根據(jù)運(yùn)動(dòng)而不是幀級(jí)美學(xué)(標(biāo)準(zhǔn)包括運(yùn)動(dòng)的趣味性、物理合理性和流動(dòng)性)來進(jìn)行打分。Elo分?jǐn)?shù)是按照LMSYS Chatbot Arena協(xié)議計(jì)算的。
局限性
Mochi 1目前仍處于不斷發(fā)展的狀態(tài),存在一些已知的限制。
比如初始版本只能生成480p的視頻,比如在某些極端運(yùn)動(dòng)的邊緣情況下,可能會(huì)出現(xiàn)輕微的扭曲。
由于Mochi 1針對(duì)照片級(jí)真實(shí)感樣式進(jìn)行了優(yōu)化,因此在動(dòng)畫內(nèi)容中表現(xiàn)不佳。
此外,模型實(shí)施了強(qiáng)大的安全審核協(xié)議,以確保所有視頻都保持安全并符合道德準(zhǔn)則。
應(yīng)用
Mochi 1的開源在各個(gè)領(lǐng)域開辟了新的可能性:
研發(fā):推進(jìn)視頻生成領(lǐng)域并探索新方法。
產(chǎn)品開發(fā):在娛樂、廣告、教育等領(lǐng)域構(gòu)建創(chuàng)新應(yīng)用程序。
創(chuàng)意表達(dá):使藝術(shù)家和創(chuàng)作者能夠通過AI生成的視頻將他們的愿景變?yōu)楝F(xiàn)實(shí)。
機(jī)器人:生成合成數(shù)據(jù),用于在機(jī)器人、自動(dòng)駕駛汽車和虛擬環(huán)境中訓(xùn)練AI模型。
What's next?
Genmo近日宣布已經(jīng)成功籌集了2840萬美元的A輪融資,該輪融資由Rick Yang、NEA領(lǐng)投,The House Fund、Gold House Ventures、WndrCo、Eastlink Capital Partners和Essence VC,以及天使投資人Abhay Parasnis(Typespace 首席執(zhí)行官)、Amjad Masad(Replit 首席執(zhí)行官)、Sabrina Hahn、Bonita Stewart和Michele Catasta等參投。
Genmo團(tuán)隊(duì)包括DDPM(去噪擴(kuò)散概率模型)、DreamFusion和Emu Video等項(xiàng)目的核心成員,由領(lǐng)先的技術(shù)專家提供咨詢,包括 Ion Stoica(Databricks和Anyscale的執(zhí)行主席兼聯(lián)合創(chuàng)始人)、Pieter Abbeel(Covariant的聯(lián)合創(chuàng)始人、OpenAI的早期團(tuán)隊(duì)成員)和 Joey Gonzalez(語言模型系統(tǒng)的先驅(qū)、Turi的聯(lián)合創(chuàng)始人)。
Genmo表示將在今年年底之前,發(fā)布Mochi 1的完整版,其中包括 Mochi 1 HD。
Mochi 1 HD將支持720p視頻生成,具有更高的保真度和更流暢的運(yùn)動(dòng),可解決復(fù)雜場景中的翹曲等邊緣情況。
除此之外,團(tuán)隊(duì)還在開發(fā)圖像到視頻功能,并專注于提高模型的可控性和可操控性,以便用戶能夠更精確地控制自己的輸出。
展望未來,高分辨率、長視頻生成將觸手可及。