3B模型新SOTA!開源AI讓日常調(diào)用不同大模型更簡(jiǎn)單
大模型,大,能力強(qiáng),好用!
但單一大模型在算力、數(shù)據(jù)和能耗方面面臨巨大的限制,且消耗大量資源。
而且目前最強(qiáng)大的模型大多為閉源,對(duì)AI開發(fā)的速度、安全性和公平性有所限制。
AI大模型的未來發(fā)展趨勢(shì),需要怎么在單一大模型和多個(gè)專門化小模型之間做平衡和選擇?
針對(duì)如此現(xiàn)狀,兩位斯坦福校友創(chuàng)辦的NEXA AI,提出了一種新的方法:
采用functional token整合了多個(gè)開源模型,每個(gè)模型都針對(duì)特定任務(wù)進(jìn)行了優(yōu)化。
他們開發(fā)了一個(gè)名叫Octopus v4的模型,利用functional token智能地將用戶查詢引導(dǎo)至最合適的垂直模型,并重新格式化查詢以實(shí)現(xiàn)最佳性能。
介紹一下,Octopus v4是前代系列模型的演化,擅長(zhǎng)選擇和參數(shù)理解與重組。
此外,團(tuán)隊(duì)還探索了使用圖作為一種多功能數(shù)據(jù)結(jié)構(gòu),有效地協(xié)調(diào)多個(gè)開源模型,利用Octopus模型和functional token的能力。
通過激活約100億參數(shù)的模型,Octopus v4在同級(jí)別模型中實(shí)現(xiàn)了74.8的SOTA MMLU分?jǐn)?shù)。
Octopus系列模型
這里要重點(diǎn)介紹一下Octopus-V4-3B。
它擁有30億參數(shù),開源,是Nexa AI設(shè)想中的語(yǔ)言模型圖的主節(jié)點(diǎn)。
該模型專為MMLU基準(zhǔn)測(cè)試話題定制,能夠高效地將用戶查詢轉(zhuǎn)換成專業(yè)模型可以有效處理的格式。
它擅長(zhǎng)將這些查詢正確引導(dǎo)至相應(yīng)的專業(yè)模型,確保精確且有效的查詢處理。
Octopus-V4-3B具備以下特點(diǎn):
- 緊湊尺寸:Octopus-V4-3B體積緊湊,使其能在智能設(shè)備上高效、迅速地運(yùn)行。
- 準(zhǔn)確性:利用functional token設(shè)計(jì)準(zhǔn)確地將用戶查詢映射到專業(yè)模型,提高了其精度。
- 查詢重格式化:幫助將自然人類語(yǔ)言轉(zhuǎn)換為更專業(yè)的格式,改善了查詢描述,從而獲得更準(zhǔn)確的響應(yīng)。
Nexa AI把語(yǔ)言模型作為圖中的節(jié)點(diǎn)整合,并提供了針對(duì)實(shí)際應(yīng)用定制的系統(tǒng)架構(gòu)。
此外,討論了使用合成數(shù)據(jù)集對(duì)Octopus模型進(jìn)行訓(xùn)練的策略,強(qiáng)調(diào)了這種語(yǔ)言模型圖在生產(chǎn)環(huán)境中的系統(tǒng)設(shè)計(jì)。
從Octopus v2提取的用于分類的語(yǔ)言模型
研究人員在Octopus v2論文中介紹了一種名為functional token的分類方法。
Octopus v2模型有效地處理了這一任務(wù):
圖中的語(yǔ)言模型作為節(jié)點(diǎn)
考慮一個(gè)定義為:G=(N,E)。
其中N代表圖中的各種節(jié)點(diǎn),E代表連接這些節(jié)點(diǎn)的邊。
節(jié)點(diǎn)分為兩種類型:
一,主節(jié)點(diǎn)Nm,它們通過將查詢定向到合適的工作節(jié)點(diǎn)Nω并傳遞執(zhí)行任務(wù)所需的信息來協(xié)調(diào)查詢。
二,工作節(jié)點(diǎn),接收來自主節(jié)點(diǎn)的信息并執(zhí)行所需的任務(wù),使用Octopus模型來促進(jìn)進(jìn)一步的協(xié)調(diào)。
節(jié)點(diǎn)信息傳輸過程如下圖所示。
為了處理用戶查詢q并生成響應(yīng)y,研究人員將概率建模為:
對(duì)于只涉及一個(gè)工作節(jié)點(diǎn)的單步任務(wù),該過程可以定義為:
這里,P(Nω,ph|q;Nm)使用Octopus v2模型為??m選擇最佳的相鄰工作節(jié)點(diǎn)并重新格式化查詢?yōu)???,這是重構(gòu)的查詢。
概率P(y|qh;Nω)由位于工作節(jié)點(diǎn)的語(yǔ)言模型計(jì)算。
對(duì)于多步任務(wù),通常在多代理工作流中,該過程涉及多個(gè)節(jié)點(diǎn)之間的幾次順序交互,如下:
使用圖進(jìn)行多步驟操作的任務(wù)規(guī)劃
多步驟任務(wù)規(guī)劃中,所有功能列在上下文中提交給語(yǔ)言模型,生成基于用戶查詢的計(jì)劃。
傳統(tǒng)方法在處理長(zhǎng)功能描述時(shí)有局限性,尤其是參數(shù)少于10B的模型。
基于圖的方法確保只考慮與特定節(jié)點(diǎn)相關(guān)的鄰近節(jié)點(diǎn),顯著減少了選擇的復(fù)雜性。
語(yǔ)言模型圖的系統(tǒng)設(shè)計(jì)
以下詳細(xì)說明了復(fù)雜圖中每個(gè)節(jié)點(diǎn)代表一個(gè)語(yǔ)言模型的系統(tǒng)架構(gòu),利用多個(gè)Octopus模型進(jìn)行協(xié)調(diào)。
在準(zhǔn)備生產(chǎn)部署時(shí),整合一個(gè)負(fù)載均衡器以有效管理系統(tǒng)需求至關(guān)重要。
然后,研究團(tuán)隊(duì)將系統(tǒng)劃分為幾個(gè)可管理的組件,強(qiáng)調(diào)核心方法:
首先是工作節(jié)點(diǎn)部署。
每個(gè)工作節(jié)點(diǎn)Nω對(duì)應(yīng)一個(gè)單獨(dú)的語(yǔ)言模型。
團(tuán)隊(duì)建議為這些節(jié)點(diǎn)采用無服務(wù)器架構(gòu),特別推薦使用Kubernetes進(jìn)行基于內(nèi)存使用和工作負(fù)載的強(qiáng)大自動(dòng)縮放。
其次是主節(jié)點(diǎn)部署。
主節(jié)點(diǎn)應(yīng)使用不超過10B參數(shù)的基礎(chǔ)模型(實(shí)驗(yàn)中使用3B模型),以便在邊緣設(shè)備上部署。
每個(gè)工作節(jié)點(diǎn)與一個(gè)Octopus模型接口,以增強(qiáng)協(xié)調(diào)。
如Octopus v2所示,可以集成一個(gè)緊湊的Lora模型以擴(kuò)展functional token的能力。
建議使用單一基礎(chǔ)模型并補(bǔ)充多個(gè)Loras,每個(gè)工作節(jié)點(diǎn)一個(gè)。
推薦使用開源的LoraX庫(kù)來管理這種配置的推理操作。
再者是通訊。
工作節(jié)點(diǎn)和主節(jié)點(diǎn)分布在不同設(shè)備上,不限于單一設(shè)備。
因此,互聯(lián)網(wǎng)連接對(duì)于節(jié)點(diǎn)之間的數(shù)據(jù)傳輸至關(guān)重要。
雖然主節(jié)點(diǎn)可能位于智能設(shè)備上,工作節(jié)點(diǎn)則托管在云端或其他設(shè)備上,結(jié)果返回智能設(shè)備。
為了支持?jǐn)?shù)據(jù)緩存需求,包括聊天歷史存儲(chǔ),推薦使用Redis,一個(gè)高性能的內(nèi)存數(shù)據(jù)庫(kù),促進(jìn)分布式緩存。
實(shí)驗(yàn)
研究人員詳細(xì)介紹了框架進(jìn)行的實(shí)驗(yàn),通過多節(jié)點(diǎn)協(xié)作提高語(yǔ)言模型性能。
采用了17種不同的模型進(jìn)行MMLU任務(wù),Octopus v4模型將用戶查詢定向到相關(guān)的專業(yè)模型并適當(dāng)重格式化。
MMLU包含57個(gè)獨(dú)特的任務(wù),分為17個(gè)整合組。
專業(yè)模型根據(jù)基準(zhǔn)得分、人氣和用戶推薦從Hugging Face精選。
并非所有任務(wù)都有專門模型,例如人文學(xué)科和社會(huì)科學(xué)目前無專門模型,但Llama3模型通過系統(tǒng)提示調(diào)整模擬專業(yè)能力。
未來工作與討論
當(dāng)前,NEXA AI的GitHub 項(xiàng)目專注于開發(fā)語(yǔ)言模型的圖形框架,目前處于起始階段。
團(tuán)隊(duì)計(jì)劃通過整合多種垂直特定模型并加入Octopus v4模型來增強(qiáng)這一框架,以多代理能力為特征。
未來版本將在此存儲(chǔ)庫(kù)中展示更強(qiáng)大的圖形表示。
GitHub Repo將由Nexa AI維護(hù),團(tuán)隊(duì)今后旨在為多種垂直領(lǐng)域開發(fā)緊湊、專門化的模型。
與更大模型的縮放法則、數(shù)據(jù)集相比,NEXA AI的框架無限制,并且可以創(chuàng)建一個(gè)大型圖。
此外,團(tuán)隊(duì)正在開發(fā)多模態(tài)模型Octopus 3.5,能夠處理視覺、音頻和視頻數(shù)據(jù);完成開發(fā)后,將被納入圖形框架。
論文鏈接:https://arxiv.org/pdf/2404.19296
GitHub: https://github.com/NexaAI/octopus-v4試用Octopus v4:https://huggingface.co/NexaAIDev/Octopus-v4