「全球首個(gè)自回歸視頻生成大模型」，剛剛，Swin Transformer作者創(chuàng)業(yè)團(tuán)隊(duì)重磅開(kāi)源！

作者：機(jī)器之心 2025-04-22 15:34:08

馬爾獎(jiǎng)、清華特獎(jiǎng)得主曹越的創(chuàng)業(yè)公司 Sand AI 推出了自己的視頻生成大模型 ——MAGI-1。

視頻生成領(lǐng)域，又出現(xiàn)一位重量級(jí)開(kāi)源選手。

今天，馬爾獎(jiǎng)、清華特獎(jiǎng)得主曹越的創(chuàng)業(yè)公司 Sand AI 推出了自己的視頻生成大模型 ——MAGI-1。這是一個(gè)通過(guò)自回歸預(yù)測(cè)視頻塊序列來(lái)生成視頻的世界模型，生成效果自然流暢，還有多個(gè)版本可以下載。

以下是一些官方 demo：

提示詞（翻譯版）：柔和的自然光：一個(gè)留著卷曲的紅棕色長(zhǎng)發(fā)的年輕人站在盛開(kāi)的白花中?；ǘ湓谥黧w周?chē)怀龆S富，創(chuàng)造了一個(gè)花卉背景。這個(gè)人似乎在花園或自然環(huán)境中，郁郁蔥蔥的綠葉在背景中模糊。孩子輕輕地彎下腰聞聞花香，然后慢慢睜開(kāi)眼睛。她的臉上綻開(kāi)了笑容，因?yàn)樗芟硎苓@一刻。相機(jī)一直聚焦在孩子身上，確保她始終站在鏡頭的中心。超高畫(huà)質(zhì)，超高清，8K。

提示詞（翻譯版）：特寫(xiě)鏡頭：老船長(zhǎng)目不轉(zhuǎn)睛地盯著鏡頭，嘴里叼著煙斗，縷縷青煙在他飽經(jīng)風(fēng)霜的臉上裊裊升起。鏡頭開(kāi)始緩慢地順時(shí)針旋轉(zhuǎn)，向后拉開(kāi)，最后，鏡頭高高升起，露出整艘木帆船在海浪中穿行，船長(zhǎng)無(wú)動(dòng)于衷，凝視著遠(yuǎn)方的地平線。

根據(jù)官方介紹，MAGI-1 生成的視頻具有以下特點(diǎn)：

1、流暢度高，不卡頓，可以無(wú)限續(xù)寫(xiě)。它可以一鏡到底生成連續(xù)的長(zhǎng)視頻場(chǎng)景，沒(méi)有尷尬的剪輯或奇怪的拼接，就像電影一樣流暢自然。

MAGI-1 生成的視頻。提示詞（翻譯版）：地面鏡頭捕捉到茂密、生機(jī)勃勃的綠色草地，從上方射下的強(qiáng)光照亮了草地。草地?fù)u曳著向地平線延伸，通向一個(gè)狹窄的峽谷，峽谷兩側(cè)是陡峭的暗色巖層。天空在畫(huà)面頂端清晰可見(jiàn)，與周?chē)鷳已峦断碌年幱靶纬晒庠磳?duì)比。鏡頭緊貼地面，拍攝輕輕搖擺的草葉。突然，攝影機(jī)加速向前，在茂密的草叢中迅速飛馳，營(yíng)造出一種動(dòng)態(tài)的前進(jìn)運(yùn)動(dòng)。當(dāng)鏡頭保持低角度時(shí)，草叢模糊而過(guò)，突出了......

2、精準(zhǔn)時(shí)間軸控制。MAGI-1 是唯一具有秒級(jí)時(shí)間軸控制的模型 —— 你可以按自己設(shè)想的那樣，精準(zhǔn)地雕琢每一秒。

MAGI-1 生成的視頻。提示詞（翻譯版）：畫(huà)面中央是一只巨大的眼睛，表面呈粉紅色，紋理清晰，瞳孔深黑色。眼睛似乎在眨動(dòng)，周?chē)衅つw褶皺。兩側(cè)是高聳、陰暗的未來(lái)派建筑，垂直延伸到背景中。環(huán)境光線昏暗，使眼睛在高樓大廈的襯托下更加突出。整體色調(diào)以灰色和黑色為主，與眼睛的粉紅色形成鮮明對(duì)比。這只巨大的眼睛緩緩眨動(dòng)，眼瞼閉合，然后睜開(kāi)，露出一個(gè)黑色的大瞳孔。眼睛完全睜開(kāi)后，瞳孔開(kāi)始左右移動(dòng)，掃視四周。攝像機(jī)持續(xù)對(duì)準(zhǔn)眼睛，確保眼睛始終保持在鏡頭中心。超高畫(huà)質(zhì)，超高清，8K。

3、運(yùn)動(dòng)更加自然，更有生機(jī)。不少 AI 生成的視頻，畫(huà)面動(dòng)作不是慢吞吞，就是僵硬死板、幅度過(guò)小。Magi-1 克服了這些問(wèn)題，生成的動(dòng)作更加流暢、有活力，且場(chǎng)景切換更加順滑。

MAGI-1 生成的視頻。提示詞（翻譯版）：一個(gè)黑發(fā)卷曲的年輕女孩正在拉小提琴。樂(lè)器靠近她的肩膀，她的手放在琴弓上，在琴弦上移動(dòng)。背景是昏暗的燈光，強(qiáng)調(diào)她的身材和小提琴。她穿著一件深色毛衣。一個(gè)女孩拉著小提琴，在琴弦上前后拉著琴弓。相機(jī)緩慢而平穩(wěn)地圍繞著她旋轉(zhuǎn)，將焦點(diǎn)集中在她使用樂(lè)器的動(dòng)態(tài)動(dòng)作上。超高畫(huà)質(zhì)，超高清，8K。

效果究竟如何？機(jī)器之心做了一些簡(jiǎn)單的測(cè)試。

首先，先來(lái)一張奧特曼的「OK 照」，并使用提示詞「圖中人物捶胸頓足大笑」。

可以看到，MAGI-1 首先會(huì)對(duì)用戶輸入的提示詞進(jìn)行增強(qiáng)，得到更詳細(xì)的提示詞：

之后，MAGI-1 會(huì)使用這個(gè)新提示詞進(jìn)行生成。我們等待了 4 分鐘，得到了結(jié)果，效果還算不錯(cuò)。

接下來(lái)，我們又試了一下讓「走紅毯的馬斯克」與左邊的人握手，隨后跳舞，結(jié)果生成效果也不錯(cuò)。

同時(shí)，Sand AI 也提供了視頻擴(kuò)展功能，可以沿著之前生成視頻或用戶上傳視頻繼續(xù)生成新的視頻片段，并且無(wú)需用戶自己手動(dòng)拼接 —— 會(huì)直接輸出經(jīng)過(guò)擴(kuò)展后的更長(zhǎng)視頻。用戶只需設(shè)置每次擴(kuò)展生成的持續(xù)時(shí)間為 1 秒，便可以實(shí)現(xiàn)「以一秒為單位做精細(xì)化控制」。

在測(cè)試過(guò)程中我們發(fā)現(xiàn)，MAGI-1 目前支持 1-10 秒長(zhǎng)度的視頻生成，單個(gè)生成每秒耗費(fèi) 10 點(diǎn)積分。初始注冊(cè)用戶可以免費(fèi)獲得 500 積分。

當(dāng)然，免費(fèi)額度用完了，用戶也可以選擇繼續(xù)付費(fèi)使用。Sand AI 提供了訂閱制和積分制兩種付費(fèi)模式，其相應(yīng)的價(jià)格如下。

此外，由于 Sand AI 開(kāi)源了 MAGI-1 的幾個(gè)版本，我們也可以下載之后本地運(yùn)行。

技術(shù)報(bào)告：https://static.magi.world/static/files/MAGI_1.pdf
GitHub頁(yè)面：https://github.com/SandAI-org/Magi-1
HuggingFace頁(yè)面：https://huggingface.co/sand-ai/MAGI-1

MAGI-1 的發(fā)布在海外引起了一些轟動(dòng)，開(kāi)源大神 Simo Ryu 發(fā)帖提問(wèn)，想要了解 Sand AI背后是怎樣一個(gè)團(tuán)隊(duì)。OpenAI 研究員 Lucas beyer 則給出了自己收集到的資料，看來(lái)他也在關(guān)注 Sand AI。

MAGI-1 模型介紹

我們可以通過(guò)團(tuán)隊(duì)披露的信息來(lái)了解這個(gè)模型的技術(shù)創(chuàng)新。

MAGI-1 是一種通過(guò)自回歸預(yù)測(cè)視頻塊序列生成視頻的世界模型，視頻塊被定義為連續(xù)幀的固定長(zhǎng)度片段。MAGI-1 可對(duì)隨時(shí)間單調(diào)增加的每塊噪聲進(jìn)行去噪訓(xùn)練，從而實(shí)現(xiàn)因果時(shí)間建模，并自然支持流式生成。

它在以文本指令為條件的圖像到視頻（I2V）任務(wù)中表現(xiàn)出色，提供了高度的時(shí)間一致性和可擴(kuò)展性，這得益于多項(xiàng)算法創(chuàng)新和專(zhuān)用的基礎(chǔ)架構(gòu)棧。MAGI-1 還通過(guò)分塊提示進(jìn)一步支持可控生成，實(shí)現(xiàn)了平滑的場(chǎng)景轉(zhuǎn)換、長(zhǎng)視距合成和細(xì)粒度文本驅(qū)動(dòng)控制。

Sand AI 團(tuán)隊(duì)表示，MAGI-1 為統(tǒng)一高保真視頻生成、靈活指令控制和實(shí)時(shí)部署提供了一個(gè)很有前途的方向。

在項(xiàng)目主頁(yè)中，團(tuán)隊(duì)提供了 MAGI-1 的預(yù)訓(xùn)練權(quán)重，包括 24B 和 4.5B 模型，以及相應(yīng)的 distill 和 distill+quant 模型。

模型細(xì)節(jié)如下（更多詳情可參閱技術(shù)報(bào)告）：

基于 Transformer 的 VAE

變分自編碼器 (VAE) + 基于 transformer 的架構(gòu)，空間壓縮率為 8 倍，時(shí)間壓縮率為 4 倍。
最快的平均解碼時(shí)間和極具競(jìng)爭(zhēng)力的重建質(zhì)量。

自回歸去噪算法

MAGI-1 逐塊生成視頻，而不是整體生成。每個(gè)片段（24 幀）都是整體去噪的，當(dāng)前片段達(dá)到一定的去噪水平時(shí)，就開(kāi)始生成下一個(gè)片段。這種流水線設(shè)計(jì)可同時(shí)處理多達(dá)四個(gè)片段，從而實(shí)現(xiàn)高效的視頻生成。

擴(kuò)散模型架構(gòu)

MAGI-1 建立在 DiT 的基礎(chǔ)上，融入了多項(xiàng)關(guān)鍵創(chuàng)新，以提高大規(guī)模訓(xùn)練的效率和穩(wěn)定性。相關(guān)技術(shù)包括因果注意力 block、并行注意力 block、QK-Norm 和 GQA、FFN 中的三明治層歸一化、SwiGLU 和 Softcap Modulation。

蒸餾算法

MAGI-1 采用了一種快捷的蒸餾方法，訓(xùn)練了一個(gè)基于速度的模型，以支持不同的推理預(yù)算。通過(guò)強(qiáng)制執(zhí)行自一致性約束，即將一個(gè)大步長(zhǎng)等同于兩個(gè)小步長(zhǎng)，模型學(xué)會(huì)了在多個(gè)步長(zhǎng)范圍內(nèi)逼近流匹配軌跡。

在訓(xùn)練過(guò)程中，步長(zhǎng)從 {64, 32, 16, 8} 中循環(huán)采樣，并采用無(wú)分類(lèi)器引導(dǎo)蒸餾法來(lái)保持條件對(duì)齊。這樣就能以最小的保真度損失實(shí)現(xiàn)高效推理。

評(píng)估

內(nèi)部人工評(píng)估。在開(kāi)源模型中，MAGI-1 實(shí)現(xiàn)了最先進(jìn)的性能（超過(guò) Wan-2.1，明顯優(yōu)于 Hailuo 和 HunyuanVideo），尤其是在指令遵循和運(yùn)動(dòng)質(zhì)量方面表現(xiàn)出色，使其成為 Kling 等閉源商業(yè)模型的潛在有力競(jìng)爭(zhēng)者。

物理評(píng)估。得益于自回歸架構(gòu)的天然優(yōu)勢(shì)，Magi 在通過(guò)視頻連續(xù)性預(yù)測(cè)物理行為方面實(shí)現(xiàn)了遠(yuǎn)超常人的精度，明顯優(yōu)于所有現(xiàn)有模型。

截屏2025-04-22 10.35.50.png

成立一年多，Sand AI拿出全球首個(gè)自回歸視頻生成大模型

Sand AI 創(chuàng)立于 2024 年 1 月，由曹越、張拯等人聯(lián)合創(chuàng)立。

創(chuàng)始人曹越是清華大學(xué)軟件工程博士。在讀博期間，曹越的研究方向就是機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)。2019 年獲博士學(xué)位后，他加入微軟亞洲研究院，在此期間的代表作包括 Swin Transformer（獲 ICCV 馬爾獎(jiǎng)）、GCNet、VL-BERT 和 DAN 等。同時(shí)，曹越還是清華大學(xué)特等獎(jiǎng)學(xué)金得主。目前，曹越的谷歌被引量已經(jīng)接近 6 萬(wàn)次。

聯(lián)合創(chuàng)始人張拯本碩均畢業(yè)于華中科技大學(xué)軟件工程專(zhuān)業(yè)，也是 Swin Transformer 作者之一。他也曾在微軟亞洲研究院工作，與曹越合作五年，并與曹越一起獲得 ICCV2021 最佳論文獎(jiǎng)（馬爾獎(jiǎng)）。根據(jù) Google Scholar 統(tǒng)計(jì)數(shù)據(jù)，張拯的被引量接近 5 萬(wàn)次。

截至目前，Sand AI 共融資近六千萬(wàn)美金。連續(xù)三輪融資分別由源碼、今日、經(jīng)緯領(lǐng)投，跟投方包含華業(yè)天成、創(chuàng)新工場(chǎng)、IDG、襄禾、商湯國(guó)香以及知名個(gè)人投資者。

Sand AI 這次發(fā)布的 MAGI-1 是全球首個(gè)自回歸視頻生成大模型，這是 2025 年備受關(guān)注的圖像、視頻生成技術(shù)路線。前段時(shí)間，OpenAI 在 GPT-4o 的報(bào)告中也提到，GPT-4o 圖像生成是原生嵌入在 ChatGPT 中的自回歸模型。

在公司官網(wǎng)上，我們看到他們的下一步計(jì)劃是實(shí)現(xiàn)視頻的實(shí)時(shí)、快速生成，讓他們的 AI 模型實(shí)現(xiàn)從「創(chuàng)作工具」到實(shí)時(shí)體驗(yàn)的升級(jí)。

期待該公司的下一步進(jìn)展。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心