三個LLM頂一個OpenAI?2億條性能記錄加持,路由n個「小」模型逆襲
當(dāng)前大模型研究面臨三大困境:算力壟斷(頂尖成果集中于大廠)、成本壁壘(單次訓(xùn)練成本高,可能需要數(shù)千GPU小時)以及技術(shù)路徑單一化(過度依賴單一模型的規(guī)模擴(kuò)展)。
為突破這些限制,路由LLM(Routing LLM)范式應(yīng)運(yùn)而生——通過智能調(diào)度實現(xiàn)多個開源小模型的協(xié)同增效,以「組合創(chuàng)新」替代「規(guī)模競賽」。
代碼:https://github.com/MilkThink-Lab/RouterEval
論文: https://arxiv.org/abs/2503.10657
論文合集:https://github.com/MilkThink-Lab/Awesome-Routing-LLMs
路由LLM實際上是model level的MoE(Mixture-of-Experts),傳統(tǒng)MoE通過在模型內(nèi)部擴(kuò)展專家網(wǎng)絡(luò)(如稀疏激活的FFN層)提升性能,而路由LLM將完整LLM視為獨(dú)立「專家」,通過預(yù)訓(xùn)練Router動態(tài)分配任務(wù)輸入。
三個大模型=OpenAI
這種范式具有三重優(yōu)勢:
- 異構(gòu)兼容性:支持閉源模型(如GPT-4)、開源模型(如Llama系列)及專用微調(diào)模型的混合部署。
- 多目標(biāo)優(yōu)化:可根據(jù)場景需求,在性能、成本、風(fēng)險控制等維度實現(xiàn)動態(tài)權(quán)衡
- 靈活部署:可根據(jù)實際需求動態(tài)調(diào)整候選模型池,針對特定場景(如代碼生成、醫(yī)療問答)快速定制專屬解決方案,而無需從頭訓(xùn)練大模型
路由LLM范式的核心機(jī)制
路由LLM系統(tǒng)采用「輸入-路由-執(zhí)行器」三級架構(gòu),其中路由層是系統(tǒng)的智能中樞,承擔(dān)著任務(wù)分配與資源調(diào)度的核心功能:
1.輸入層:接收多樣化的用戶請求,包括文本生成、文本摘要、代碼補(bǔ)全等任務(wù)
2.路由層:通過預(yù)訓(xùn)練Router對輸入進(jìn)行深度分析,基于多維度特征選擇最優(yōu)LLM執(zhí)行器
性能優(yōu)先模式:識別任務(wù)領(lǐng)域特征,匹配性能最優(yōu)的LLM(當(dāng)前版本核心目標(biāo))
成本優(yōu)化模式:平衡性能與計算開銷,選擇性價比最高的LLM(后續(xù)版本特性)
風(fēng)險控制模式:通過多模型交叉驗證,降低單一模型的幻覺風(fēng)險(后續(xù)版本特性)
3.執(zhí)行層:由候選LLM池中被選定的模型完成實際推理,并將結(jié)果返回給用戶
與MoE(Mixture-of-Experts)相比,路由LLM實現(xiàn)了兩大突破:
協(xié)作粒度:在模型級實現(xiàn)專家協(xié)作,而非傳統(tǒng)MoE的層間專家擴(kuò)展
系統(tǒng)開放性:支持跨架構(gòu)、跨訓(xùn)練階段的LLM協(xié)同,包括閉源模型、開源模型及專用微調(diào)模型的混合部署
這種架構(gòu)使得路由LLM既能繼承MoE的動態(tài)優(yōu)勢,又突破了其封閉性限制,為構(gòu)建開放、靈活的大模型協(xié)作系統(tǒng)奠定了基礎(chǔ)。
RouterEval解決了什么問題?
研究人員系統(tǒng)性收集、整理并開源了涵蓋8567個不同LLM在12個主流評測基準(zhǔn)(包括MMLU、GSM8K等)下的2億條性能記錄,基于這些數(shù)據(jù)構(gòu)建了面向 router的基準(zhǔn)測試平臺RouterEval,創(chuàng)新性體現(xiàn)在:
- 數(shù)據(jù)完備性:覆蓋從7B到數(shù)百B參數(shù)規(guī)模的LLM,涵蓋通用能力、領(lǐng)域?qū)iL等多維度的 Benchmark,為router設(shè)計提供了全面的訓(xùn)練與驗證數(shù)據(jù)
- 研究低門檻化:所有性能記錄均已預(yù)處理完成,研究者只需訓(xùn)練一個分類器(即router)即可開展實驗,支持在單卡GPU甚至筆記本電腦上運(yùn)行,極大降低了參與門檻
- 問題范式轉(zhuǎn)化:將復(fù)雜的路由LLM問題轉(zhuǎn)化為標(biāo)準(zhǔn)的分類任務(wù),使研究者可復(fù)用成熟的機(jī)器學(xué)習(xí)方法(如few-shot learning、對比學(xué)習(xí)等)快速切入
8000+模型的參數(shù)量分布
基于RouterEval的海量數(shù)據(jù),研究團(tuán)隊首次揭示了Model-level Scaling Up現(xiàn)象:在具備一定能力的router調(diào)度下,路由LLM系統(tǒng)的性能可隨候選LLM池的擴(kuò)大而快速提升。這一現(xiàn)象在以往研究中難以被觀察到,主要受限于候選模型數(shù)量不足(通常<20個)。
RouterEval的發(fā)現(xiàn)
Model level scaling up現(xiàn)象
利用RouterEval基準(zhǔn)中的2億條性能記錄,研究團(tuán)隊構(gòu)建了理論性能上限——Oracle Router(r_o)。Oracle Router是一種理想化的路由器,它能夠始終為每個輸入選擇性能最佳的LLM,因此代表了路由LLM系統(tǒng)的性能上限。
為了系統(tǒng)研究router性能對系統(tǒng)整體表現(xiàn)的影響,研究人員定義了router性能的連續(xù)譜系r_o(p):
- 當(dāng)p→1時,r_o(p)趨近于Oracle Router,代表分類性能接近理論上限
- 當(dāng)p→0時,r_o(p)退化為隨機(jī)router,即隨機(jī)選擇候選LLM
- 中間狀態(tài)r_o(p)(0<p<1)模擬了不同能力水平的 router
實驗結(jié)果表明:
- 強(qiáng)router的scaling up效應(yīng):當(dāng)p>0.3時,系統(tǒng)性能隨候選LLM數(shù)量呈明顯快速上升
- 弱router的性能瓶頸:隨機(jī)router(p=0)幾乎未表現(xiàn)出scaling up現(xiàn)象
- 超越參考模型:一般候選LLM數(shù)量在3~10且p在0.5~0.7時,系統(tǒng)性能可以接近甚至超過參考模型(參考模型一般是GPT-4)
候選模型數(shù)量m = 5
弱模型逆襲效應(yīng)
通過智能路由調(diào)度,多個性能一般的LLM可以協(xié)同實現(xiàn)超越頂級單體模型的性能表現(xiàn)。例如,當(dāng)使用Oracle Router(r_o)調(diào)度5個在MMLU基準(zhǔn)上單獨(dú)表現(xiàn)僅為0.2-0.3的弱模型時,系統(tǒng)整體性能可躍升至0.95,顯著超越GPT-4(0.86)。
這一發(fā)現(xiàn)為資源有限的研究者提供了新的技術(shù)路徑:無需追求單一超大模型,而是通過多個中小模型的智能組合實現(xiàn)性能突破。
候選池規(guī)模閾值
從Model-level Scaling Up現(xiàn)象示意圖可以看到3-10個LLM候選的時候已經(jīng)可以達(dá)到非常不錯的性能。而且此時的部署成本并不高,具有很高的性價比。
實驗數(shù)據(jù)表明,路由LLM系統(tǒng)的性能提升存在明顯的規(guī)模經(jīng)濟(jì)拐點(diǎn):
- 3-5個候選LLM:可覆蓋大部分常見任務(wù)需求,部署成本相比單一頂級模型低。
- 5-10個候選LLM:性能進(jìn)入穩(wěn)定提升期,在多數(shù)基準(zhǔn)上可超越GPT-4等頂級單體模型
- 多于10個候選LLM:性能增益存在邊際效應(yīng),每增加1個模型帶來的性能提升并不大
這一發(fā)現(xiàn)為實際部署提供了重要指導(dǎo):在大多數(shù)應(yīng)用場景下,維護(hù)一個5-10個模型的候選池即可實現(xiàn)性能與成本的最佳平衡。
例如,在智能客服系統(tǒng)中,組合使用GPT-4(復(fù)雜問題)、Llama-3-8B(常規(guī)問題)和Phi-3(意圖識別)三個模型,即可在保證服務(wù)質(zhì)量的同時將運(yùn)營成本顯著降低。
主要挑戰(zhàn)
數(shù)據(jù)壁壘
要訓(xùn)練出高性能的router,當(dāng)前可用的性能記錄數(shù)據(jù)仍然遠(yuǎn)遠(yuǎn)不足。由于大多數(shù)LLM的性能數(shù)據(jù)掌握在少數(shù)科技公司手中且未開源,這需要整個研究社區(qū)的共同努力來構(gòu)建更全面的數(shù)據(jù)集。目前,可以通過遷移學(xué)習(xí)、數(shù)據(jù)增強(qiáng)等算法技術(shù)在一定程度上緩解數(shù)據(jù)不足的問題;
多候選分類挑戰(zhàn)
隨著候選LLM數(shù)量的增加,router需要處理的分類任務(wù)復(fù)雜度顯著上升。這不僅增加了模型訓(xùn)練的難度,也對router的泛化能力提出了更高要求。如何在保證分類精度的同時控制計算開銷,是未來研究的重點(diǎn)方向之一;
多目標(biāo)權(quán)衡局限
雖然路由LLM理論上可以同時優(yōu)化性能、計算成本和幻覺風(fēng)險等多個目標(biāo),但RouterEval目前僅聚焦于性能優(yōu)化。這是因為當(dāng)前router的性能水平尚未達(dá)到理想狀態(tài),過早引入多目標(biāo)優(yōu)化可能會分散研究重點(diǎn)。此外,計算成本和幻覺風(fēng)險等指標(biāo)的數(shù)據(jù)采集難度較大,需要社區(qū)共同推動相關(guān)數(shù)據(jù)集的構(gòu)建;
部署復(fù)雜度
即使獲得了高性能的router,實際部署仍面臨諸多挑戰(zhàn)。多個LLM的協(xié)同運(yùn)行需要解決計算負(fù)載均衡、資源動態(tài)分配、模型高效激活等系統(tǒng)級問題。幸運(yùn)的是,實驗表明僅需部署3-10個LLM即可獲得優(yōu)異性能,這大大降低了實際應(yīng)用的復(fù)雜度。未來研究可借鑒分布式計算領(lǐng)域的技術(shù)成果,進(jìn)一步優(yōu)化部署方案。