自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

清華特獎得主團隊視頻生成AI一夜刷屏!100%開源+61頁技術(shù)報告,還能無限擴展生成,網(wǎng)友:游戲規(guī)則改變者

人工智能
Magi-1,首個實現(xiàn)頂級畫質(zhì)輸出的自回歸視頻生成模型,模型權(quán)重、代碼100%開源。整整61頁的技術(shù)報告中還詳細介紹了創(chuàng)新的注意力改進和推理基礎設施設計,給人一種視頻版DeepSeek的感覺。

整整61頁的技術(shù)報告中還詳細介紹了創(chuàng)新的注意力改進和推理基礎設施設計,給人一種視頻版DeepSeek的感覺。

圖片圖片

Magi-1將視頻生成卷到了新高度,大片級品質(zhì)直接鎖住大家的眼球,請看VCR:

其主打能力,一是無限長度擴展,實現(xiàn)跨時間的無縫連貫敘事:

圖片圖片

二是能將生成時長控制精確到每一“秒”:

圖片圖片

另外,Magi-1對物理規(guī)律也有更深度的理解,Physics-IQ基準測試56.02%,大幅領先一眾頂流。

現(xiàn)在看這張圖,Sora的時代是真的過去了。

圖片圖片

這匹“黑馬”來自中國團隊Sand.ai,中文名聽著有點萌叫三呆科技,實力卻不容小覷。

創(chuàng)始人,清華特獎得主、光年之外聯(lián)合創(chuàng)始人。

目前大伙兒可在官網(wǎng)免費試玩Magi-1。GitHub更是一晚過后狂攬500+Star。

圖片圖片

此次開源了從24B到4.5B參數(shù)的一系列模型,最低配置一塊4090就能跑。

圖片圖片

網(wǎng)友們激動轉(zhuǎn)發(fā)測試,評價也是相當高,看一下這個feel:

圖片圖片

這絕對是令人驚嘆的工作。將自回歸擴散應用于視頻領域不僅是研究上的一大步,更是為現(xiàn)實世界的創(chuàng)意領域開辟了新可能。Magi-1在生成質(zhì)量和精度上樹立了新標桿。

開源特性+令人矚目的基準測試表現(xiàn)=游戲規(guī)則改變者。

圖片圖片

無限長度擴展,控制精確到每“秒”

還有更多官方效果展示,先來欣賞一波~

比如漂在水面上的貓,水面自然晃動,波光粼粼:

圖片圖片

抽著雪茄的海盜船長,頗有大片的感jio:

圖片圖片

光影等細節(jié)滿滿:

圖片圖片

網(wǎng)友們也都陸陸續(xù)續(xù)曬出了自己的實測效果:

畫質(zhì)超清晰,VR頭顯上的細微反光以及狗的胡須和毛發(fā)細節(jié)都栩栩如生。

圖片圖片

還有網(wǎng)友生成了正在跳舞的小動物,belike:

圖片圖片

量子位自然不能錯過,第一時間上手實測了一波。

玩法上,打開Magi-1,主打圖生成視頻,且是以一個“項目”為單位:

圖片圖片

上傳好圖片之后,Magi-1像一張畫布一樣,呈現(xiàn)節(jié)點式的交互界面,點擊圖片側(cè)邊加號按鈕就能創(chuàng)建一個“視頻塊”。

開始設置prompt,支持精確調(diào)整時長,一次最長10s,也可設置Variations一次性生成多個視頻:

圖片圖片

稍等片刻,一只活蹦亂跳的吉卜力小狗就生成好了。

我們第一次嘗試就得到了下面醬嬸兒的效果,小狗的動作姿態(tài)整體比較符合物理規(guī)律,沒有離譜的扭曲以及突然出現(xiàn)的第五條腿(doge)。

視頻左邊還有自動改寫增強后的prompt。

圖片圖片

接著,對這段視頻進行擴展,小狗搖頭晃腦活蹦亂跳在表達什么呢?

圖片圖片

原來是在講述它今天在河里游泳玩耍的事情。

圖片圖片

把這一個個鏡頭“組裝”起來,分分鐘就能打造出一部連貫的敘事短片。

另外Magi-1中還有“資產(chǎn)管理”板塊,可基于生成的視頻再創(chuàng)建一個新項目,進行二次加工創(chuàng)作。

圖片圖片


完整模型架構(gòu)、推理基礎設施公開

Magi-1公布的技術(shù)論文足足有61頁之多。

圖片圖片

Magi-1整體架構(gòu)基于Diffusion Transformer,采用Flow-Matching作為訓練目標。

訓練分為多階段,第一階段固定分辨率(256×256,16 幀),第二階段引入可變分辨率和圖像-視頻聯(lián)合訓練,并在推理時使用滑動窗口方法來支持任意分辨率。

其最大的特點是不把視頻當成一個整體去生成,而是通過自回歸去噪方式預測固定長度的視頻片段(chunk),每個片段固定為24幀。

當前一個片段達到一定去噪水平后,便開始生成下一個片段。這種流水線設計最多可同時處理四個片段,提高視頻生成的效率。

同時,這種約束早期片段噪聲水平低于后期片段的設計,確保了視頻前后的因果性,避免片段的信息影響過去,導致時間一致性差(如物體突然消失或運動軌跡斷裂)。

圖片圖片

配合這種分片段自回歸設計,Magi-1在Diffusion Transformer的基礎上融入了多項改進。

圖片圖片

光是在注意力機制上就有多項創(chuàng)新。

Block-Causal Attention

  • 片段內(nèi)全注意力:每個視頻片段內(nèi)的所有幀間進行全注意力計算,捕捉片段內(nèi)短時序依賴(如單片段內(nèi)物體的快速運動)。
  • 片段間因果注意力:僅允許當前片段關注之前已生成的片段,禁止未來片段信息反向流入,確保因果性。
  • 3D RoPE 位置編碼:結(jié)合空間和時間位置信息,學習可訓練的基頻參數(shù),提升長時序建模能力。

Parallel Attention Block

傳統(tǒng)DiT架構(gòu)中自注意力(處理視覺特征)和交叉注意力(處理文本條件)串行執(zhí)行,需兩次TP通信(Tensor Parallel);并行塊將兩者的查詢投影Q共享,僅需一次通信,減少GPU間同步開銷

QK-NormGQA

QK-Norm是源自視覺Transformer的技術(shù),通過歸一化查詢(Q)和鍵(K)的范數(shù),穩(wěn)定注意力權(quán)重計算,避免梯度爆炸/消失。Magi-1將其擴展到時空注意力和交叉注意力模塊,提升訓練穩(wěn)定性,尤其在240億參數(shù)規(guī)模下效果顯著。

接下來的GQA、FFN 中的三明治歸一化、SwiGLU大家就很熟悉了。

到了具體軟硬協(xié)同層面,論文還提出了可擴展分布式注意力機制MagiAttention。

Flex-Flash-Attention

基于FlashAttention-3,將不規(guī)則注意力掩碼分解為多個 AttnSlice,使各種常用注意力掩碼可表示為多個AttnSlice的組合,從而支持靈活的注意力掩碼類型。利用英偉達Hopper 架構(gòu)的TMA 特征,引入Slice級并行和原子操作,在支持靈活掩碼的同時,保持與FlashAttention-3相當?shù)挠嬎阈阅堋?/span>

計算負載均衡

將整個掩碼沿查詢維度均勻劃分為多個dispatch chunks,并分配到不同的上下文并行(CP)對應的bucket中,使每個bucket包含相同數(shù)量的dispatch chunks,避免因負載不均衡導致的計算資源閑置。

零冗余通信原語

針對現(xiàn)有環(huán)形點對點通信原語存在冗余通信的問題,引入group-cast和 group-reduce原語。根據(jù)注意力掩碼的需求,精準地發(fā)送和收集關鍵值(KV)及梯度(dKV)信息,避免不必要的通信,實現(xiàn)零冗余通信。通過使用all-to-all-v原語進行原型實現(xiàn),并借助內(nèi)核融合減少預處理和后處理開銷。

圖片圖片

自適應多階段重疊

為實現(xiàn)真正的線性擴展,引入多階段計算-通信重疊策略,將每個rank的遠程 KV/dKV 通信劃分為多個階段。

在正向傳遞中,先啟動group-cast內(nèi)核預取下一階段的遠程KV,然后異步執(zhí)行Flex-Flash-Attention(FFA)內(nèi)核進行部分注意力計算;

在反向傳遞中,除了預取 KV,還在啟動 FFA 內(nèi)核前,通過group-reduce內(nèi)核減少上一階段的dKV。通過引入可調(diào)節(jié)超參數(shù)num_stages,根據(jù)不同訓練設置、微批次以及正向和反向傳遞的計算-通信比率,自適應地控制重疊粒度。

所有這些改動作為一個完整的MagiAttention項目,代碼也在GitHub上開源。

圖片圖片

推理基礎設施方面,主要針對兩種場景進行設計:實時流式視頻生成和在 RTX 4090 GPU 上的經(jīng)濟高效部署,以滿足不同應用需求。

在實時流式視頻生成上采用異構(gòu)服務架構(gòu),將T5(提取文本Embedding,為視頻生成提供語義信息)和Magi-1部署在高性能GPU 上,VAE部分部署在經(jīng)濟高效的硬件上,實現(xiàn)Magi-1推理和VAE解碼并發(fā)執(zhí)行,并通過分析性能數(shù)據(jù)來分配資源,提升整體吞吐量。

針對RTX4090部署場景,借鑒語言模型將KV緩存存儲在CPU內(nèi)存中,根據(jù)需要動態(tài)加載回GPU。針對RTX4090的PCIe總線帶寬限制,提出Context Shuffle Overlap(CSO)技術(shù),優(yōu)化通信與計算的重疊,提升計算資源利用率,使4.5B參數(shù)模型在單塊RTX 4090 GPU上部署時,峰值內(nèi)存占用控制在21.94GB;24B模型在8塊RTX4090 GPU上部署時,峰值內(nèi)存占用控制在19.29GB,且最大MFU(浮點運算數(shù)利用率)達到 58% 。

最后,評估結(jié)果分為內(nèi)部人工評估、自動評估(VBench-I2V基準)、物理理解能力評估三部分。

人類評估中Magi-1與海螺、騰訊混元、通義萬相Wan2.1相比,尤其是在指令跟隨和運動質(zhì)量方面有優(yōu)勢,與閉源模型可靈1.6在視覺質(zhì)量上還有一些差距。

圖片圖片

在VBench-I2V基準上:MAGI-1(2×解碼器)以總分89.28排名第一,尤其在動態(tài)程度(Dynamic Degree)上有優(yōu)勢,平衡運動幅度與圖像質(zhì)量。

圖片圖片

曹越執(zhí)掌的團隊,已完成三輪融資

Sand.AI創(chuàng)始人曹越,博士畢業(yè)于清華大學軟件學院,2018年獲清華大學特等獎學金。

圖片

讀博期間在微軟MSRA實習,2021年以Swin Transformer共同一作身份獲ICCV最佳論文“馬爾獎”。

2022年,曹越與王慧文等共同創(chuàng)辦光年之外,后加入智源研究院領導多模態(tài)與視覺研究中心。

2023年曹越創(chuàng)辦Sand.ai,在很長一段時間保持隱身模式。

2024年7月,其投資方今日資本“風投女王”徐新的一條傳聞把Sand.ai炸出水面。

當時有人發(fā)帖稱“今日資本撤離一級市場”,徐新發(fā)朋友圈辟謠時透露,2024年5月今日資本領投了Sand.AI的早期融資。

到現(xiàn)在據(jù)了解,Sand.AI已完成三輪融資,主要參與方包括今日資本、經(jīng)緯創(chuàng)投等。

創(chuàng)新工廠創(chuàng)始人李開復剛剛也發(fā)帖推薦了Sand.AI與Magi-1,稱“很高興看到繼 DeepSeek 之后,又有一家AI公司開發(fā)出世界一流的開源模型”。

圖片圖片

目前Sand.ai具體融資金額,團隊規(guī)模等尚未可知,不過從MAGI-1論文附帶的貢獻者名單看,核心技術(shù)團隊至少有36人。

圖片圖片

其中很多成員與曹越在工作經(jīng)歷上有交集。

如創(chuàng)始成員方羽新,有微軟MSRA、智源研究院實習經(jīng)歷,也是光年之外創(chuàng)始成員之一。

圖片圖片

兩人在智源研究院期間在大規(guī)模視覺表征預訓練模型EVA系列上多次合作。

圖片圖片

核心貢獻者李凌志,也有MSRA實習經(jīng)歷,曾擔任小紅書算法主管和阿里巴巴集團達摩院算法專家。

圖片圖片

多位團隊成員在個人主頁等處介紹自己現(xiàn)在為一家隱形初創(chuàng)公司工作。

現(xiàn)在答案已經(jīng)明了,他們在Sand AI,做AI視頻生成界的DeepSeek。

在線試玩:https://sand.ai/

參考鏈接:

[1] https://github.com/SandAI-org/MAGI-1

[2]https://static.magi.world/static/files/MAGI_1.pdf

[3]https://x.com/kaifulee/status/1914528611429966315

責任編輯:武曉燕 來源: 量子位
相關推薦

2025-04-22 15:34:08

視頻生成AI

2024-03-18 00:09:19

人工智能生成式人工智能安全

2023-08-04 08:00:00

ControlNet醫(yī)學圖像

2025-03-04 08:36:31

開源形狀生成庫React

2025-03-26 08:10:56

2023-12-20 15:26:13

AI谷歌

2023-07-07 11:24:04

2025-04-07 00:00:00

OpenAIGPT-4o圖像

2021-10-15 11:28:06

物聯(lián)網(wǎng)邊緣計算IoT

2023-11-03 11:03:10

AIGen-2

2023-05-25 13:39:00

AI功能分隔帶

2024-02-23 16:12:47

2020-08-19 09:45:10

IBMAIOps混合多云管理

2025-03-06 10:52:02

2023-04-12 16:49:18

數(shù)字技術(shù)物聯(lián)網(wǎng)

2024-03-12 13:26:46

2023-04-03 10:04:44

開源模型

2018-01-14 16:01:33

2025-02-20 08:20:00

AISOC網(wǎng)絡攻擊
點贊
收藏

51CTO技術(shù)棧公眾號