自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LLM合集:MiniMax-01 開(kāi)源,性能比肩 GPT-4o,上下文窗口領(lǐng)先 20-32 倍

發(fā)布于 2025-1-16 12:14
瀏覽
0收藏

1.MiniMax-01: Scaling Foundation Models with Lightning Attention

LLM合集:MiniMax-01 開(kāi)源,性能比肩 GPT-4o,上下文窗口領(lǐng)先 20-32 倍-AI.x社區(qū)

我們推出了 MiniMax-01 系列,包括 MiniMax-Text-01 和 MiniMax-VL-01。這兩款產(chǎn)品不僅性能可與頂尖模型相媲美,而且在處理更長(zhǎng)文本上下文方面具備卓越能力。其核心技術(shù)是Lightning Attention及其高效的擴(kuò)展方法。為充分發(fā)揮計(jì)算能力,我們將其與混合專家(MoE)技術(shù)相結(jié)合,打造出擁有 32 個(gè)專家模塊、共計(jì) 4560 億參數(shù)的模型,每個(gè)Token激活 459 億參數(shù)。針對(duì) MoE 和閃電注意力機(jī)制,我們開(kāi)發(fā)了優(yōu)化的并行策略以及高效的計(jì)算 - 通信重疊技術(shù)。通過(guò)這種方式,我們能夠在包含數(shù)百億參數(shù)的模型上,對(duì)數(shù)百萬(wàn)Token長(zhǎng)度的上下文進(jìn)行高效的訓(xùn)練與推理。MiniMax-Text-01 在訓(xùn)練時(shí)上下文窗口可達(dá) 100 萬(wàn)個(gè)Token,推理時(shí)以較低成本外推至 400 萬(wàn)個(gè)Token。我們的視覺(jué) - 語(yǔ)言模型 MiniMax-VL-01 則通過(guò)使用 5120 億視覺(jué) - 語(yǔ)言Token持續(xù)訓(xùn)練構(gòu)建而成。在標(biāo)準(zhǔn)和內(nèi)部基準(zhǔn)測(cè)試中,我們的模型性能與 GPT-4o、Claude-3.5-Sonnet 等最先進(jìn)模型相當(dāng),但上下文窗口長(zhǎng)度卻是它們的 20 - 32 倍。我們已在https://github.com/MiniMax-AI上公開(kāi)發(fā)布 MiniMax-01 。

論文: ??https://arxiv.org/pdf/2501.08313??

2. Diffusion Adversarial Post-Training for One-Step Video Generation

LLM合集:MiniMax-01 開(kāi)源,性能比肩 GPT-4o,上下文窗口領(lǐng)先 20-32 倍-AI.x社區(qū)

擴(kuò)散模型在圖像和視頻生成領(lǐng)域應(yīng)用廣泛,但其迭代生成過(guò)程緩慢且成本高昂。盡管現(xiàn)有的蒸餾方法已在圖像領(lǐng)域展現(xiàn)出一步生成的潛力,但生成質(zhì)量仍顯著下降。在本文中,我們提出在擴(kuò)散預(yù)訓(xùn)練之后,針對(duì)真實(shí)數(shù)據(jù)采用對(duì)抗后訓(xùn)練(APT)方法,實(shí)現(xiàn)一步視頻生成。

為提升訓(xùn)練穩(wěn)定性和生成質(zhì)量,我們對(duì)模型架構(gòu)和訓(xùn)練流程進(jìn)行了多項(xiàng)改進(jìn),并引入了近似的 R1 正則化目標(biāo)。實(shí)驗(yàn)表明,經(jīng)對(duì)抗后訓(xùn)練的模型 Seaweed - APT,能夠在單步前向評(píng)估中實(shí)時(shí)生成 2 秒時(shí)長(zhǎng)、分辨率為 1280×720、幀率 24fps 的視頻。此外,該模型還能一步生成 1024 像素的圖像,生成質(zhì)量與當(dāng)前最先進(jìn)的方法相當(dāng)。

論文: ??https://arxiv.org/pdf/2501.08316??

3.MangaNinja: Line Art Colorization with Precise Reference Following

LLM合集:MiniMax-01 開(kāi)源,性能比肩 GPT-4o,上下文窗口領(lǐng)先 20-32 倍-AI.x社區(qū)

MangaNinjia 源于擴(kuò)散模型,專門用于參考引導(dǎo)的線稿上色任務(wù)。為確保精準(zhǔn)轉(zhuǎn)錄角色細(xì)節(jié),我們?nèi)谌肓藘身?xiàng)精心設(shè)計(jì):一是補(bǔ)丁混洗模塊,助力參考彩色圖像與目標(biāo)線稿之間的對(duì)應(yīng)關(guān)系學(xué)習(xí);二是點(diǎn)驅(qū)動(dòng)控制方案,實(shí)現(xiàn)精細(xì)的色彩匹配。在自行收集的基準(zhǔn)數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,我們的模型在精準(zhǔn)上色方面優(yōu)于當(dāng)前的其他解決方案。我們還展示了所提出的交互式點(diǎn)控制在處理復(fù)雜情況、跨角色上色、多參考圖像協(xié)調(diào)等方面的潛力,這些都是現(xiàn)有算法難以企及的。

論文: ??https://arxiv.org/pdf/2501.08332??

4.Padding Tone: A Mechanistic Analysis of Padding Tokens in T2I Models

LLM合集:MiniMax-01 開(kāi)源,性能比肩 GPT-4o,上下文窗口領(lǐng)先 20-32 倍-AI.x社區(qū)

文本轉(zhuǎn)圖像(T2I)擴(kuò)散模型依靠編碼后的提示詞來(lái)引導(dǎo)圖像生成過(guò)程。通常,在對(duì)文本進(jìn)行編碼之前,這些提示詞會(huì)通過(guò)添加填充標(biāo)記擴(kuò)展到固定長(zhǎng)度。盡管這是一種默認(rèn)做法,但填充標(biāo)記對(duì)圖像生成過(guò)程的影響卻從未有人研究過(guò)。在這項(xiàng)研究中,我們首次深入分析了填充標(biāo)記在 T2I 模型中所起的作用。

我們開(kāi)發(fā)了兩種因果分析技術(shù),用于剖析在 T2I 流程的不同組件中,信息是如何編碼到標(biāo)記表示中的。借助這些技術(shù),我們探究了填充標(biāo)記何時(shí)以及如何影響圖像生成過(guò)程。我們的研究結(jié)果揭示了三種不同的情況:填充標(biāo)記可能在文本編碼階段、擴(kuò)散過(guò)程中影響模型輸出,或者被模型有效忽略。此外,我們還明確了這些情況與模型架構(gòu)(交叉注意力或自注意力)及其訓(xùn)練過(guò)程(文本編碼器凍結(jié)或訓(xùn)練)之間的關(guān)鍵聯(lián)系。 這些見(jiàn)解有助于我們更深入地理解填充標(biāo)記的作用機(jī)制,有望為未來(lái) T2I 系統(tǒng)的模型設(shè)計(jì)和訓(xùn)練方法提供參考。

論文: ???https://arxiv.org/pdf/2501.06751??

本文轉(zhuǎn)載自??AI-PaperDaily??,作者: AI-PaperDaily ????

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦