LLM合集:視頻生成新王炸!Step-Video-T2V,全方位碾壓開源與商業(yè)模型
1. Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model
我們提出了 Step-Video-T2V,這是個有 300 億參數(shù)的超厲害的文本到視頻預(yù)訓(xùn)練模型,它能生成有 204 幀那么長的視頻內(nèi)容。為了做好視頻生成這個任務(wù),我們專門設(shè)計了一個深度壓縮變分自動編碼器,也就是 Video-VAE。它能把空間壓縮到 16x16,時間上壓縮 8 倍,還能保證視頻重建的質(zhì)量非常高。。
用戶要是輸入提示內(nèi)容,我們用兩個雙語文本編碼器來處理,不管是英語還是中文都沒問題。我們還通過 Flow Matching 訓(xùn)練了一個帶 3D 全注意力機制的 DiT 模型,它能把輸入的噪聲去掉,變成有用的潛在幀。另外,我們還用了基于視頻的 DPO 方法,也就是視頻 - DPO,這么做是為了減少視頻里的瑕疵,讓生成的視頻看起來畫質(zhì)更好。
我們還整理了詳細的訓(xùn)練策略,這里面的關(guān)鍵要點和一些發(fā)現(xiàn)也都能分享給大家。我們在新的視頻生成基準 Step-Video-T2V-Eval 上測試了 Step-Video-T2V 的性能,結(jié)果表明,不管跟開源的還是商業(yè)的引擎比,它的文本轉(zhuǎn)視頻能力都是最牛的。要是大家想深入了解,我們會在https://github.com/stepfun-ai/Step-Video-T2V 分享 Step-Video-T2V 和 Step-Video-T2V-Eval 。
論文: ??https://arxiv.org/pdf/2502.10248??
2. Region-Adaptive Sampling for Diffusion Transformers
擴散模型在生成任務(wù)中很受歡迎,但多次順序前向傳遞影響實時性能。此前加速方法因卷積 U-Net 結(jié)構(gòu)限制,無法利用圖像空間區(qū)域變化。
擴散 transformer(DiTs)能靈活處理不同數(shù)量標(biāo)記,基于此我們提出無需訓(xùn)練的 RAS 采樣策略,它可根據(jù) DiT 模型關(guān)注點,動態(tài)分配不同區(qū)域采樣比例。 我們發(fā)現(xiàn)模型采樣時聚焦語義重要區(qū)域,且這些區(qū)域連續(xù)性強。RAS 利用這一特性,只更新關(guān)注區(qū)域,其他區(qū)域用上一步噪聲更新,依據(jù)上一步結(jié)果確定關(guān)注區(qū)域,利用時間一致性。
在 Stable Diffusion 3 和 Lumina-Next-T2I 上測試,RAS 最高分別提速 2.36 倍和 2.51 倍,圖像質(zhì)量略有下降。用戶研究表明,RAS 生成質(zhì)量與人評估相當(dāng),速度提升 1.6 倍。
論文: ??https://arxiv.org/pdf/2502.10389??
3. Large Language Diffusion Models
一直以來,大家都覺得自回歸模型(ARMs)是大語言模型(LLMs)的核心基礎(chǔ)。但今天我們提出了 LLaDA,這是一種擴散模型,它不走尋常路,是從預(yù)訓(xùn)練和監(jiān)督微調(diào)(SFT)這個全新的范式出發(fā),完全從頭開始訓(xùn)練的。
LLaDA 的原理其實不難理解,它通過正向的數(shù)據(jù)掩碼過程,還有一個反向過程來對分布進行建模。這里面起關(guān)鍵作用的是一個基礎(chǔ) Transformer,它負責(zé)預(yù)測那些被掩碼的令牌。通過不斷優(yōu)化似然性邊界,LLaDA 提供了一種很靠譜的生成方法,能夠進行概率推理。
在各種基準測試中,LLaDA 的表現(xiàn)相當(dāng)驚艷。它展現(xiàn)出了強大的擴展能力,直接超越了我們自己搭建的自回歸模型基線。更讓人意想不到的是,LLaDA 8B 在上下文學(xué)習(xí)方面,居然能和 LLaMA3 8B 這樣厲害的大型語言模型一較高下。而且在微調(diào)之后,從案例研究來看,它在指令執(zhí)行能力上,比如多輪對話,表現(xiàn)得非常出色。還有啊,LLaDA 還解決了反轉(zhuǎn)詛咒這個難題,在反轉(zhuǎn)詩歌完成任務(wù)中,連 GPT-4o 都不是它的對手。
論文: ??https://arxiv.org/pdf/2502.09992??
4. MM-RLHF: The Next Step Forward in Multimodal LLM Alignment
最近這些年,多模態(tài)大語言模型(MLLMs)確實取得了不小的進步,好多模型的表現(xiàn)都挺厲害。不過呢,這里面其實有個問題,大部分先進的模型都沒有好好地去和人類的偏好對齊。為啥會這樣呢?現(xiàn)在的對齊研究,主要是在一些特定的小領(lǐng)域有成果,像減少模型產(chǎn)生幻覺這方面,確實有進展。但有個更重要的問題卻一直沒怎么被深入研究,那就是按照人類的偏好來調(diào)整模型,到底能不能讓MLLM的能力得到系統(tǒng)性的提升呢?
為了解決這個問題,我們提出了MM-RLHF數(shù)據(jù)集,這里面有12萬對經(jīng)過人工仔細標(biāo)注的偏好對比數(shù)據(jù)。和以前的那些數(shù)據(jù)集比起來,我們這個強太多了,數(shù)據(jù)量更大,涵蓋的范圍更廣,多樣性十足,質(zhì)量也特別高。
有了這個數(shù)據(jù)集,我們還提出了一些新點子。一方面,我們做了個基于批評的獎勵模型。以前的獎勵機制就只是給個簡單的分數(shù),我們這個不一樣,在打分之前,會先對模型的輸出給出詳細的評價和建議。這樣一來,大家就能更清楚模型好在哪、不好在哪,反饋的信息也更有用。另一方面,我們還提出了動態(tài)獎勵縮放方法。簡單來說,就是根據(jù)獎勵信號的情況,靈活調(diào)整每個樣本的損失權(quán)重,這樣就能把那些高質(zhì)量的對比對利用得更充分。
為了驗證這些方法好不好用,我們做了大量的測試。在10個不同的維度,還有27個不同的基準測試里,都對我們的方法進行了嚴格的評估。結(jié)果特別讓人驚喜,模型的性能有了明顯的提升,而且在各種測試里表現(xiàn)都很穩(wěn)定。就拿LLaVA-ov-7B這個模型舉例,用我們的MM-RLHF數(shù)據(jù)集和對齊算法對它進行微調(diào)之后,它的對話能力提高了19.5%,安全性更是提升了60%。
論文: ??https://arxiv.org/pdf/2502.10391??
本文轉(zhuǎn)載自 ??AI-PaperDaily??,作者: AI-PaperDaily
