自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

MiniMax震撼開源,突破傳統(tǒng)Transformer架構(gòu),4560億參數(shù),支持400萬長上下文

人工智能
隨著 Agent 進(jìn)入應(yīng)用場景,無論是單個(gè) Agent 工作時(shí)產(chǎn)生的記憶,還是多個(gè) Agent 協(xié)作所產(chǎn)生的 context,都會(huì)對模型的長上下文窗口提出更多需求。

2025 年,我們可能會(huì)看到第一批 AI Agent 加入勞動(dòng)力大軍,并對公司的生產(chǎn)力產(chǎn)生實(shí)質(zhì)性的影響。

——OpenAI CEO Sam Altman

2025 年,每個(gè)公司都將擁有 AI 軟件工程師 Agent,它們會(huì)編寫大量代碼。

——Meta CEO Mark Zuckerberg

未來,每家公司的 IT 部門都將成為 AI Agent 的 HR 部門。

—— 英偉達(dá) CEO 黃仁勛

2025 新年伊始,在很多趨勢都還不明朗的情況下,幾位 AI 業(yè)界的重要人物幾乎在同一時(shí)間做出了類似的判斷 ——2025 年將是 AI Agent 之年。

沒想到,MiniMax 很快就有了動(dòng)作:開源了最新的基礎(chǔ)語言模型 MiniMax-Text-01 和視覺多模態(tài)模型 MiniMax-VL-01。

新模型的最大亮點(diǎn)是,在業(yè)內(nèi)首次大規(guī)模實(shí)現(xiàn)了新的線性注意力機(jī)制,這使得輸入的上下文窗口大大變長:一次可處理 400 萬 token,是其他模型的 20-32 倍。

他們相信,這些模型能夠給接下來一年潛在 Agent 相關(guān)應(yīng)用的爆發(fā)做出貢獻(xiàn)。

為什么這項(xiàng)工作對于 Agent 如此重要?

隨著 Agent 進(jìn)入應(yīng)用場景,無論是單個(gè) Agent 工作時(shí)產(chǎn)生的記憶,還是多個(gè) Agent 協(xié)作所產(chǎn)生的 context,都會(huì)對模型的長上下文窗口提出更多需求。

  • 開源地址:https://github.com/MiniMax-AI
  • Hugging Face:https://huggingface.co/MiniMaxAI
  • 技術(shù)報(bào)告:https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf
  • 網(wǎng)頁端:https://www.hailuo.ai
  • API:https://www.minimaxi.com/platform

一系列創(chuàng)新造就比肩頂尖模型的開源模型

MiniMax-Text-01 究竟是如何煉成的?事實(shí)上,他們?yōu)榇诉M(jìn)行了一系列創(chuàng)新。從新型線性注意力到改進(jìn)版混合專家架構(gòu),再到并行策略和通信技術(shù)的優(yōu)化,MiniMax 解決了大模型在面對超長上下文時(shí)的多項(xiàng)效果與效率痛點(diǎn)。

MiniMax-Text-01 的架構(gòu)

1. Lightning Attention

目前領(lǐng)先的 LLM 大都基于 Transformer,而 Transformer 核心的自注意力機(jī)制是其計(jì)算成本的重要來源。為了優(yōu)化,研究社區(qū)可以說是絞盡腦汁,提出了稀疏注意力、低秩分解和線性注意力等許多技術(shù)。MiniMax 的 Lightning Attention 便是一種線性注意力。

通過使用線性注意力,原生 Transformer 的計(jì)算復(fù)雜度可從二次復(fù)雜度大幅下降到線性復(fù)雜度,如下圖所示。

MiniMax 的相關(guān)技術(shù)報(bào)告中寫道,這主要是得益于一種右邊積核技巧(right product kernel trick)。以 2022 年論文《The Devil in Linear Transformer》中的 TransNormer 為例,下圖左側(cè)的 NormAttention 機(jī)制可轉(zhuǎn)換成使用「右側(cè)矩陣乘法」的線性變體。

而 Lightning Attention 便是基于 TransNormer 實(shí)現(xiàn)的一個(gè) I/O 感知型優(yōu)化版本。

以下是 Lightning Attention 前向通過的算法描述。

基于 Lightning Attention,MiniMax 還提出了一種 Hybrid-lightning,即每隔 8 層將 Lightning Attention 替換成 softmax 注意力,從而既解決了 softmax 注意力的效率問題,也提升了 Lightning Attention 的 scaling 能力。

效果如何?下表給出了根據(jù)層數(shù)  l、模型維度  d、批量大小 b 和序列長度 n 計(jì)算注意力架構(gòu)參數(shù)量與 FLOPs 的公式。

可以明顯看出,模型規(guī)模越大,Lightning Attention 與 Hybrid-lightning 相對于 softmax 注意力的優(yōu)勢就越明顯。

2. 混合專家(MoE) 

MoE 相對于密集模型的效率優(yōu)勢已經(jīng)得到了大量研究證明。MiniMax 團(tuán)隊(duì)同樣也進(jìn)行了一番比較實(shí)驗(yàn)。他們比較了一個(gè) 7B 參數(shù)的密集模型以及 2B 激活參數(shù)和 20B 總參數(shù)的 MoE 模型。結(jié)果如下圖所示。

可以看到,在多種基準(zhǔn)上,當(dāng)計(jì)算負(fù)載一樣時(shí),MoE 模型的表現(xiàn)要大幅優(yōu)于密集模型。

MiniMax 還引入了一個(gè)新的 allgather 通信步驟,可解決擴(kuò)大 MoE 模型的規(guī)模時(shí)可能會(huì)遇到路由崩潰(routing collapse)問題。

3. 計(jì)算優(yōu)化

與許多大模型訓(xùn)練項(xiàng)目一樣,MiniMax 先通過小規(guī)模實(shí)驗(yàn)上述技術(shù)改進(jìn)的有效性以及 Scaling Law,然后再開始著手大規(guī)模訓(xùn)練。MiniMax 為此采用了 1500 到 2500 臺(tái) H800 GPU—— 并且在訓(xùn)練過程中,具體使用 GPU 數(shù)量會(huì)動(dòng)態(tài)變化。而大規(guī)模訓(xùn)練都有自己的特有挑戰(zhàn),MiniMax 開發(fā)了一系列針對性的優(yōu)化技術(shù)。

首先,對于 MoE 架構(gòu),最主要的優(yōu)化目標(biāo)是降低其通信負(fù)載。尤其是對于采用 all-to-all(a2a)通信的 MoE 模型。MiniMax 的解決方案是一種基于 token 分組的重疊方案。

其次,對于長上下文訓(xùn)練,一大主要挑戰(zhàn)是難以將真實(shí)的訓(xùn)練樣本標(biāo)準(zhǔn)化到統(tǒng)一長度。傳統(tǒng)的方式是進(jìn)行填充,但這種方法非常浪費(fèi)計(jì)算。MiniMax 的解決思路是進(jìn)行數(shù)據(jù)格式化,其中不同樣本會(huì)沿序列的維度首尾相連。他們將這種技術(shù)命名為 data-packing。這種格式可盡可能地降低計(jì)算過程中的計(jì)算浪費(fèi)。

最后,為了將 Lightning Attention 投入實(shí)踐,MiniMax 采用了四項(xiàng)優(yōu)化策略:分批核融合、分離式的預(yù)填充與解碼執(zhí)行、多級(jí)填充、跨步分批矩陣乘法擴(kuò)展。

MiniMax-Text-01上下文巨長,能力也夠強(qiáng)

基于以上一系列創(chuàng)新,MiniMax 最終得到了一個(gè)擁有 32 個(gè)專家共 4560 億參數(shù)的 LLM,每個(gè) token 都會(huì)激活其中 459 億個(gè)參數(shù)。MiniMax 將其命名為 MiniMax-Text-01。在執(zhí)行推理時(shí),它的上下文長度最高可達(dá) 400 萬 token,并且其表現(xiàn)出了非常卓越的長上下文能力。

1. MiniMax-Text-01 基準(zhǔn)成績優(yōu)秀

在常見的學(xué)術(shù)測試集上,MiniMax-Text-01 基本上能媲美甚至超越 GPT-4o、Claude 3.5 Sonnet 等閉源模型以及 Qwen2.5、DeepSeek v3、Llama 3.1 等 SOTA 開源模型。下面直接上成績。

可以看到,在 HumanEval 上,MiniMax-Text-01 與 Instruct Qwen2.5-72B 相比表現(xiàn)出色。此外,MiniMax-Text-01 在 GPQA Diamond 這樣具有挑戰(zhàn)性問答的數(shù)據(jù)集上取得了 54.4 的成績,超過了大多數(shù)開源指令微調(diào)的 LLM 以及最新版本的 GPT-4o。

MiniMax-Text-01 在 MMLU、IFEval 和 Arena-Hard 等測試中也取得了前三名的成績,展示了其在給定限制條件下,應(yīng)用全面知識(shí)來充分滿足用戶查詢、與人類偏好保持一致的卓越能力。可以想象,基于最新的模型能力,也給開發(fā)者開發(fā) Agent 應(yīng)用提供了更好的基礎(chǔ)。

2. 領(lǐng)先的上下文能力

那 MiniMax-Text-01 引以為傲的長上下文能力呢?其優(yōu)勢就更為明顯了。

在長上下文理解任務(wù)上,MiniMax 測試了 Ruler 和 LongBench v2 這兩個(gè)常見基準(zhǔn)。首先在 Ruler 上,可以看到,當(dāng)上下文長度在 64k 或更短時(shí),MiniMax-Text-01 與其它 SOTA 模型不相上下,而當(dāng)上下文長度超過 128k 時(shí),MiniMax-Text-01 的優(yōu)勢就明顯顯現(xiàn)出來了。

在 Ruler 上,MiniMax-Text-01 與其它模型的性能比較

同樣,MiniMax-Text-01 在 LongBench v2 的長上下文推理任務(wù)上的表現(xiàn)也非常突出。

在  LongBench v2 上,MiniMax-Text-01 與其它模型的性能比較

另外,MiniMax-Text-01 的長上下文學(xué)習(xí)能力(終身學(xué)習(xí)的一個(gè)核心研究領(lǐng)域)也是 SOTA 水平。MiniMax 在 MTOB 基準(zhǔn)上驗(yàn)證了這一點(diǎn)。

在 MTOB 上,MiniMax-Text-01 與其它模型的性能比較

3. 長文本能力Showcase

MiniMax-Text-01 得到了很不錯(cuò)的基準(zhǔn)分?jǐn)?shù),但實(shí)際表現(xiàn)如何呢?下面展示了一些示例。

首先,來寫首歌吧!

人類評(píng)估者也給出了非常正面的評(píng)價(jià):詩意的語言和演繹空間為歌曲增添了層層的趣味和情感共鳴,使歌曲既引人入勝又發(fā)人深省。

下面重點(diǎn)來看看 MiniMax-Text-01 的長上下文能力。對于新幾內(nèi)亞的一門小眾語言 Kalamang,先將指令、語法書、單詞表、與英語的對照例句放入 MiniMax-Text-01 的上下文,然后讓其執(zhí)行翻譯??梢钥吹?,MiniMax-Text-01 給出的答案基本與標(biāo)準(zhǔn)答案一致。

至于長對話記憶任務(wù),MiniMax-Text-01 可說是表現(xiàn)完美。

4. 視覺-語言模型

基于 MiniMax-Text-01,MiniMax 還開發(fā)了一個(gè)多模態(tài)版本:MiniMax-VL-01。思路很簡單,就是在文本模型的基礎(chǔ)上整合一個(gè)圖像編碼器和一個(gè)圖像適配器。簡而言之,就是要將圖像變成 LLM 能夠理解的 token 形式。

因此,其整體架構(gòu)符合比較常見的 ViT-MLP-LLM 范式:MiniMax-VL-01 作為基礎(chǔ)模型,再使用一個(gè) 303M 參數(shù)的 ViT 作為視覺編碼器,并使用了一個(gè)隨機(jī)初始化的兩層式 MLP projector 來執(zhí)行圖像適應(yīng)。

當(dāng)然,為了確保 MiniMax-VL-01 的視覺理解能力足夠好,還需要在文本模型的基礎(chǔ)上使用圖像-語言數(shù)據(jù)進(jìn)行持續(xù)訓(xùn)練。為此,MiniMax 設(shè)計(jì)了一個(gè)專有數(shù)據(jù)集,并實(shí)現(xiàn)了一個(gè)多階段訓(xùn)練策略。

最終,得到的 MiniMax-VL-01 模型在各個(gè)基準(zhǔn)上取得了如下表現(xiàn)。

可以看到,MiniMax-VL-01 整體表現(xiàn)強(qiáng)勁,整體能與其它 SOTA 模型媲美,并可在某些指標(biāo)上達(dá)到最佳。

下面展示了一個(gè)分析導(dǎo)航地圖的示例,MiniMax-VL-01 的表現(xiàn)可得一個(gè)贊。

探索無限的上下文窗口讓 Agent 走進(jìn)物理世界

有人認(rèn)為 [1],context 會(huì)是貫穿 AI 產(chǎn)品發(fā)展的一條暗線,context 是否充分同步會(huì)直接影響智能應(yīng)用的用戶體驗(yàn),這包括用戶的個(gè)性化信息、環(huán)境變化信息等各種背景上下文信息。

而為了保證 context 充分同步,足夠大的上下文窗口就成了大模型必須克服的技術(shù)難題。目前,MiniMax 已經(jīng)在這條路上邁出了重要的一步。

不過,400 萬 token 的上下文窗口明顯不是終點(diǎn)。他們在技術(shù)報(bào)告中寫道:「我們正在研究更高效的架構(gòu),以完全消除 softmax 注意力,這可能使模型能夠支持無限的上下文窗口,而不會(huì)帶來計(jì)算開銷?!?/p>

除此之外,MiniMax 還在 LLM 的基礎(chǔ)上訓(xùn)練的視覺語言模型,同樣擁有超長的上下文窗口,這也是由 Agent 所面臨的任務(wù)所決定的。畢竟,在現(xiàn)實(shí)生活中,多模態(tài)任務(wù)遠(yuǎn)比純文本任務(wù)更常見。

「我們認(rèn)為下一代人工智能是無限接近通過圖靈測試的智能體,交互自然,觸手可及,無處不在?!筂iniMax 創(chuàng)始人在去年的一次活動(dòng)中提到。

或許,「無處不在」也意味著,隨著多模態(tài) token 的加入,Agent 也將逐步進(jìn)入物理世界。為此,AI 社區(qū)需要更多的技術(shù)儲(chǔ)備。

責(zé)任編輯:趙寧寧 來源: 機(jī)器之心
相關(guān)推薦

2024-09-30 14:10:00

2025-02-06 10:21:51

2024-04-03 10:05:00

LLM性能基準(zhǔn)測試

2025-01-15 12:27:11

2023-08-10 14:04:15

代碼模型

2024-04-29 13:09:10

LLM架構(gòu)性能

2024-11-04 08:45:00

2024-09-05 08:24:09

2025-01-14 17:23:08

2023-09-16 13:47:47

人工智能數(shù)據(jù)

2017-05-11 14:00:02

Flask請求上下文應(yīng)用上下文

2025-02-26 00:16:56

RAGAI服務(wù)

2012-07-30 16:29:40

架構(gòu)架構(gòu)模式.NET

2024-01-08 12:51:34

AI數(shù)據(jù)

2012-12-31 10:01:34

SELinuxSELinux安全

2024-01-17 13:59:00

AI開源

2022-09-14 13:13:51

JavaScript上下文

2023-10-05 12:22:43

AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)