自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

真·MoE?路由LLM最全面探索:一種筆記本也能玩的大模型Scaling Up研究

人工智能 新聞
來自中山大學和普渡大學的研究人員在基于上述海量的記錄做了一番探索之后,發(fā)現(xiàn)了一個現(xiàn)象,叫做Model-level Scaling Up。

事關路由LLM(Routing LLM),一項截至目前最全面的研究,來了——

共計收集和整理了涉及8500+個LLM,在12個Benchmark上的共2億條性能記錄!

圖片

先來簡單科普一下路由LLM。

這種方法主要是把像ChatGPT、Qwen、DeepSeek這些成型的LLM當作 “專家” ,當給一個輸入的時候,有分類能力的Router(路由器)就會把這個輸入分配給合適的LLM處理。

如此一來,就能實現(xiàn)高性能、低計算消耗、低幻覺等目標。

而來自中山大學普渡大學的研究人員在基于上述海量的記錄做了一番探索之后,發(fā)現(xiàn)了一個現(xiàn)象,叫做Model-level Scaling Up

一言蔽之,就是一個好的Router,可以讓路由LLM范式的性能隨著LLM候選數(shù)量的增加迅速變強。

隨后,他們通過這些數(shù)據(jù)構(gòu)建了針對Router設計的評測RouterEval。

值得注意的是,其他研究人員,也可以通過RouterEval在很少的計算資源下(如筆記本單卡GPU上)就能參與到該路由LLM的研究當中。

2億條記錄中發(fā)現(xiàn)的新現(xiàn)象

當大多數(shù)研究人員和開發(fā)者第一次聽到Mixture-of-Expert (MoE) 的時候,可能第一反應不是現(xiàn)在常見的對結(jié)構(gòu)中的FFN層進行擴展,以FFN層作為”expert”。

而是直接將每一個成型的LLM,比如ChatGPT、Qwen、DeepSeek等直接看做是”expert”。

實際上,這種范式也稱為路由LLM(Routing LLMs)。

圖片

簡單地說,就是給定一個輸入input,一個具有一定分類能力的Router (路由器)會將input分配給指定的LLM進行處理,以達到高性能、低計算消耗或者是低幻覺等各種各樣的目標,或組合目標。

這類問題可以被認為是分類問題、推薦系統(tǒng)問題、Agent規(guī)劃甚至是檢索問題(注意,不是檢索數(shù)據(jù)for LLM,而是檢索LLM for 數(shù)據(jù))。

一些典型的例子有:

  1. 人機客服切換:機器人客服無法解決問題的時候自動切換到更高級的客服,比如更智能的機器人,甚至人類;
  2. 強弱LLM切換:比如困難問題給GPT4解決(費用貴),簡單問題給GPT3解決(費用低)
圖片
△路由LLM (Routing LLMs)示意圖

路由LLM具有很高的應用潛力和兼容性,不同LLM都可以被添加到LLM候選Pool中參與routing(包括異構(gòu)LLM,各種tuning/pretraining方法下得到的LLM,等等),而且可以發(fā)揮很強的性能。

比如最近UCB提出的Prompt-to-Leaderboard以很低的訓練成本,以路由LLM的范式下實現(xiàn)和需要數(shù)十萬個GPU訓練得到的Grok3相當?shù)男阅埽⒌巧螦rena排行榜第一。

然而當前路由LLM領域仍然存在一些挑戰(zhàn)影響了Router的發(fā)展:

  1. 缺乏統(tǒng)一的benchmark。各個研究都在小范圍的構(gòu)建各種的benchmark進行研究;
  2. 當前benchmark不夠全面:當前的工作一般只涉及少量的LLM、evaluations,而且大多數(shù)是閉源不公開。

于是,研究團隊收集并整理且開源了涉及8567個不同LLMs在12個evaluations下2億條性能記錄,并通過這些記錄發(fā)現(xiàn):

  1. Model-level Scaling Up現(xiàn)象:有一定能力的Router,可以使得routing llm范式下的性能隨著llm pool的擴大而迅速上升。過去的研究由于涉及的不同LLM較少,不容易觀察到這個現(xiàn)象。
  2. 通過這些數(shù)據(jù),我們構(gòu)建了全面的針對Router設計的評測RouterEval。其全面性可以大大幫助Router設計的探索。鑒于該測評已經(jīng)整理良好且很簡潔,可以被看做是傳統(tǒng)的分類問題,所有研究者都可以以很少的計算消耗(甚至單卡或筆記本電腦)參與該大模型的研究當中。
圖片
△Model-level Scaling Up現(xiàn)象示意圖

利用2億條性能記錄,可以構(gòu)建完美Router,即oracle Router ro

圖片

接著,根據(jù)上式可以構(gòu)建不同性能的Router ro(p),其中wm為隨機Router,當p→1時,Router ro(p)越解決上界分類性能,當p→0時,ro(p)越接近隨機Router。

從上圖結(jié)果來看,隨著LLM候選的數(shù)量增加,不同的evaluation在具有一定能力的Router下呈現(xiàn)了Scaling Up現(xiàn)象。

而性能一般的Router,比如隨機Router則幾乎沒有Scaling Up現(xiàn)象。

且快速超過參考模型Ref. LLM的性能(參考模型一般是GPT4)。

另外團隊還可以發(fā)現(xiàn)兩個有趣的現(xiàn)象:

圖片

RouterEval涉及的LLM的參數(shù)分布

  1. 弱LLM也能組合出非常強的性能。上圖給出了RouterEval中涉及的LLM的參數(shù)分布,LLM的參數(shù)為7B或以下的情況占優(yōu)。文章發(fā)現(xiàn),即使較弱的LLM也可以組合出不錯的性能,比如5個性能在少于0.3的情況下,ro可以讓他們互補優(yōu)勢在MMLU上達到0.95(超越GPT4)的性能。
  2. 少量的LLM候選已經(jīng)足夠。從Model-level Scaling Up現(xiàn)象示意圖可以看到3-10個LLM候選的時候已經(jīng)可以達到非常不錯的性能。而且此時的部署成本并不高,具有很高的性價比。

當前Router的結(jié)果

通過測試當前的已有的Routers的性能,可以發(fā)現(xiàn)現(xiàn)在Router仍然有很大的提升空間。

不過幸運的是,RouterEval進行的Router設計的實驗不需要大量的計算資源,且可以融入不同的已有技術,包括few-show learning,數(shù)據(jù)增強、推薦系統(tǒng)、正則化方法、預訓練模型、額外數(shù)據(jù)等等.

因此Router將有希望快速得到實質(zhì)性改進。

圖片

以及,和當前一些其他范式的區(qū)別和關系如下:

圖片

  1. 推薦系統(tǒng):Routing LLM其實是特殊的推薦系統(tǒng),LLM的input是推薦系統(tǒng)中的user信息,LLM候選是推薦系統(tǒng)中的商品item,而性能記錄則是推薦系統(tǒng)中的歷史用戶書記記錄;
  2. LLM集成:一般LLM集成是post-decision,即讓多個LLM完成推理后再合并。而Routing LLM是pre-decision,即在LLM推理前就要決定是哪個LLM來處理;
  3. LLM Fusion:LLM融合主要針對是同質(zhì)的LLM的“合作”,而Routing LLM可以讓“異質(zhì)”(包括不開源)的LLM進行“合作”
  4. Mixture-of-Experts (MoE): Routing LLM是model-level的MoE

當然,研究團隊也提出一些未來的挑戰(zhàn)。

首先就是缺乏數(shù)據(jù)。

要獲得足夠好的Router,當然的數(shù)據(jù)仍然遠遠不夠,因為這些性能記錄的數(shù)據(jù)一般不開源,且掌握在大公司手中,這需要全社區(qū)的共同努力。目前也可以通過算法一定程度緩解數(shù)據(jù)缺乏的問題。

其次是如何保持在多LLM候選情況下的Router性能的問題。

當LLM候選越多的時候,意味著Router要進行更多類的分類,這對于Router的訓練來說具有很高的挑戰(zhàn)性;

除此之外,還包括RouterEval目前只關注在性能。

盡管routing llm可以考慮計算消耗、幻覺等其他目標。但是目前性能的水平還遠遠不夠,如果現(xiàn)在就過度關注其他目標的話,可能言辭尚早。另外,計算消耗和幻覺等目標的數(shù)據(jù)不容易搜集,可能采集不到足夠多的LLM的記錄數(shù)據(jù),仍然需要全社區(qū)的努力。

最后,就是部署的難度。

即使足夠強的Router可以獲得,但是此時LLM候選的部署可能是新的瓶頸,這在計算機系統(tǒng)等領域中也有很多的研究角度,如計算負載,高效分配、動態(tài)模型激活等。幸運的是,從論文的觀察來看,3-10個LLM已經(jīng)能得到出色的結(jié)果。

GitHub和論文等地址放下面了,感興趣的小伙伴可以深入研究一下哦~

代碼地址:https://github.com/MilkThink-Lab/RouterEval

論文地址:https://arxiv.org/abs/2503.10657

論文合集:https://github.com/MilkThink-Lab/Awesome-Routing-LLMs

責任編輯:張燕妮 來源: 量子位
相關推薦

2012-05-18 11:40:40

神舟筆記本

2011-04-29 10:05:57

主板硬盤

2011-10-26 09:49:38

平板筆記本銷量

2024-09-02 14:30:00

數(shù)據(jù)訓練

2011-08-03 16:30:25

2012-04-13 11:24:46

蘋果筆記本

2025-02-21 13:20:00

2024-08-27 00:00:01

AI應用框架

2024-04-10 09:29:16

LLM開源大模型

2012-10-24 18:11:40

聯(lián)想IdeaPad Yog

2024-01-18 15:38:17

語言模型大型語言模型

2009-03-27 09:19:11

微軟Windows 7操作系統(tǒng)

2017-08-08 11:15:29

筆記本Titan XpQuadro

2020-09-01 14:09:39

筆記本SSD存儲

2024-02-06 10:38:10

昆侖萬維大模型

2024-05-06 07:58:23

MoE模型系統(tǒng)

2011-04-29 10:21:33

筆記本

2020-05-11 17:06:37

微軟筆記本換屏

2018-05-02 15:55:49

筆記本全面屏技術
點贊
收藏

51CTO技術棧公眾號