把MLA和稀疏激活帶到端側(cè)!港科大廣州和倫敦大學(xué)學(xué)院團隊聯(lián)合發(fā)布軟硬協(xié)同設(shè)計的邊緣語言模型PLM
本文由 PLM 團隊撰寫,PLM 團隊是由香港科技大學(xué)(廣州)的校長倪明選教授,倫敦大學(xué)學(xué)院(UCL)AI 中心汪軍教授,香港科技大學(xué)(廣州)信息樞紐院長陳雷教授聯(lián)合指導(dǎo)。第一作者鄧程是香港科技大學(xué)(廣州)的研究助理,研究方向為端側(cè)大模型和高效模型推理;參與成員包括中科院自動化所的孫羅洋博士,曾勇程博士,姜紀(jì)文碩士,UCL 吳昕鍵,港科大廣州的博士生肖慶發(fā)和趙文欣,港科大的博士后王嘉川以及香港理工的助理教授(研究)李昊洋。通訊作者為鄧程博士,陳雷教授和汪軍教授。
在大模型「卷參數(shù)」的浪潮中,一個亟待解決的課題始終存在:如何讓百億級能力的 AI 跑進手機、嵌入設(shè)備、實現(xiàn)萬物互聯(lián)?內(nèi)存墻、算力墻、I/O 墻這三座邊緣設(shè)備的「大山」令許多大模型鎩羽而歸。
近日,香港科技大學(xué)(廣州)倪明選校長和陳雷教授聯(lián)合 UCL 汪軍教授團隊以及中科院自動化所團隊聯(lián)合提出 PLM(Peripheral Language Model),通過算法 - 系統(tǒng)協(xié)同設(shè)計,選擇了適合邊緣設(shè)備的模型架構(gòu)。
PLM 是首個結(jié)合 MLA 注意力機制與 ReLU2 激活 FFN 的架構(gòu)。評估結(jié)果表明,PLM 的表現(xiàn)優(yōu)于現(xiàn)有在公開數(shù)據(jù)上訓(xùn)練的小型語言模型,性能接近利用 18T tokens 訓(xùn)練的 Qwen2.5-1.5B 模型,同時保持最低激活參數(shù)數(shù)量。
其中,PLM 在通用知識理解(ARC)、數(shù)學(xué)(GSM8K)任務(wù)中表現(xiàn)出色,在代碼能力評測(HumanEval)基準(zhǔn)上更是以 64.6 分位居榜首。
- 項目論文:https://arxiv.org/abs/2503.12167
- 項目網(wǎng)站:https://www.project-plm.com
- 項目地址:https://github.com/plm-team/PLM
- 模型地址:Hugging Face: https://huggingface.co/PLM-Team
團隊還將模型適配至多種邊緣設(shè)備,在 Snapdragon 等芯片上展現(xiàn)出優(yōu)于同層數(shù)模型的吞吐優(yōu)勢。PLM 團隊不僅開源模型權(quán)重,還提供了從架構(gòu)設(shè)計到部署的完整技術(shù)報告,并計劃逐步開源訓(xùn)練數(shù)據(jù)集及相關(guān)代碼腳本。
剖析 PLM:1+1 能否大于 2?
核心模塊一:Multi-head Latent Attention(MLA)—— 把 KV 緩存壓縮到極致
PLM 采用了 Deepseek 提出的 MLA(Multi-Head Latent Attention)注意力機制,并首次將其應(yīng)用于 2B 參數(shù)以下的模型中。為適應(yīng)端側(cè)系統(tǒng)的需求,PLM 對 Deepseek 的 MLA 進行了適度優(yōu)化,去除了訓(xùn)練階段用于降低成本的 Q 矩陣壓縮過程,同時保留了 KV 矩陣的 512 維度。此外,PLM 通過解耦的位置編碼機制,確保了模型對長程依賴信息的有效捕捉。
核心模塊二:平方 ReLU 激活 —— 讓計算「稀疏化」
PLM 通過去除門控機制簡化了前饋神經(jīng)網(wǎng)絡(luò),從而有效降低了計算復(fù)雜度和內(nèi)存消耗。傳統(tǒng) SwiGLU 激活函數(shù)導(dǎo)致 MLP 層計算密集,而 PLM 采用了 ReLU2 作為替代。ReLU2 是一種在性能和稀疏性之間實現(xiàn)最優(yōu)平衡的激活函數(shù),特別適合稀疏計算場景。其定義如下:
這個設(shè)計使得 MLP 層激活稀疏度達(dá)到 90.9%,整體計算量減少 26%。此外,從硬件角度出發(fā),零值激活能夠觸發(fā)指令級優(yōu)化。這一設(shè)計理念成功地將模型與系統(tǒng)的聯(lián)合優(yōu)化整合到大語言模型架構(gòu)中。
訓(xùn)練策略:充分利用開源數(shù)據(jù)
三階段鍛造 PLM-1.8B
PLM 團隊精心設(shè)計了一條訓(xùn)練流水線,僅使用未精細(xì)設(shè)計與配比的 2.48B 預(yù)訓(xùn)練數(shù)據(jù),PLM 性能就達(dá)到企業(yè)級水平。所有訓(xùn)練數(shù)據(jù)均來自開源社區(qū)。
預(yù)訓(xùn)練
第一階段累計約 1.65T 的 Token。這個階段中,學(xué)習(xí)率是屬于預(yù)熱和穩(wěn)定的階段,模型的 Loss 也在 2.3 附近有收斂趨勢。第二階段累計約 550B 的 Token。在這個階段,模型的 Loss 隨著學(xué)習(xí)的衰減快速下降。第三階段累計約 280B 的 Token。
這個階段里,保持第二階段的最小學(xué)習(xí)率訓(xùn)練,模型進行最后的高質(zhì)量知識吸收,直到 loss 逐漸收斂。整個預(yù)訓(xùn)練中,始終保持中英數(shù)據(jù)比例 5:2。
SFT 階段
監(jiān)督微調(diào)數(shù)據(jù)遵循「由淺入深」的數(shù)據(jù)準(zhǔn)備方法,以漸進的方式進行監(jiān)督微調(diào)過程。PLM 的 SFT 訓(xùn)練分為基本指令微調(diào)和高難度指令微調(diào)。下面是各個階段的提升效果。
強化學(xué)習(xí)階段
PLM 在偏好訓(xùn)練階段沿用了團隊先前提出的 ARIES 訓(xùn)練方法,以解決經(jīng)過一般的對齊學(xué)習(xí)會經(jīng)多輪自我改進后,性能會顯著下降的問題。
性能實測:真的可以
PLM 采用獨特的模型架構(gòu),對比的基線模型涵蓋了當(dāng)前最先進的 2B 參數(shù)量級模型,具體對比如下。
實驗表明,PLM 表現(xiàn)頗具競爭力,平均分(57.29)位列第三,僅次于 Qwen2.5-1.5B(59.25)和 Yulan-Mini-2.4B(57.51)。PLM-1.8B 在 HumanEval 中獲得了所有模型中的最高分,在 ARC-C、ARC-E、MBPP 和 BoolQ 中排名第二,略遜于行業(yè)領(lǐng)先的 Qwen2.5-1.5B,需指出的是,Qwen 系列使用了 18T 閉源語料庫。
另一方面,與 Yulan-Mini-2.4B 相比,PLM-1.8B 在編碼和邏輯推理任務(wù)中旗鼓相當(dāng)。此外,PLM 僅包含 1.8B 參數(shù)和 32 層(Yulan-Mini 為 56 層),推理延遲會較低。綜上所述,PLM-1.8B 在基本知識理解、編碼和簡單推理任務(wù)中表現(xiàn)強勁且可靠,是一款值得關(guān)注的模型。
場景實測:從服務(wù)器到樹莓派,全場景通吃
除了基本的模型能力評估,PLM 團隊還在在 5 類硬件平臺完成部署驗證,并給出了實際的吞吐量數(shù)據(jù)。
文章全面評估了不同硬件平臺和量化級別的各種邊緣大小 LLM 的推理延遲,包括高性能 GPU(NVIDIA A10、Orin NX)、Apple 的 M3 芯片、Qualcomm 的 Snapdragon 8 Gen 3 和 BCM2712 等嵌入式系統(tǒng)。
評估數(shù)據(jù)揭示了幾個顯著特征:MLA 的確增加了計算量,ReLU2 的確可以提升模型推理速度,模型層數(shù)會顯著影響端側(cè)設(shè)備上推理的速度。
PLM 團隊的實驗表明,這些關(guān)鍵點恰好觸及了端側(cè)計算中最需要關(guān)注的內(nèi)存、算力和 I/O 三個核心維度。PLM 團隊通過模型與硬件的協(xié)同設(shè)計,在這一領(lǐng)域展現(xiàn)了其獨特的優(yōu)勢。
算法層面,PLM 做到了稀疏性與低秩的平衡:MLA 壓縮 KV 緩存,ReLU2 激活削減計算,二者互補突破內(nèi)存 - 算力瓶頸。系統(tǒng)層面,PLM 深度適配 TVM、llama.cpp 等框架,實現(xiàn)高效的量化與編譯優(yōu)化。
理解 PLM 的 MLA 和稀疏激活
在實際探索中,MLA 的引入會顯著增加計算量。然而,PLM 通過舍棄 Q 矩陣的低秩壓縮來降低推理計算復(fù)雜度,并結(jié)合稀疏激活函數(shù),成功避免了 MiniCPM3 在預(yù)填充或解碼階段的低效問題,從而在特定場景中展現(xiàn)出明顯優(yōu)勢。
PLM 團隊在較長文本序列上評估了其模型性能,結(jié)果表明,當(dāng)序列長度達(dá)到一定閾值后,PLM 的表現(xiàn)優(yōu)于同深度的 GQA 模型 Fox。
因此,盡管 MLA 增加了計算負(fù)載,其對緩存利用率、推理效率和內(nèi)存消耗的優(yōu)化,使得 PLM 在邊緣設(shè)備上展現(xiàn)出高效、低延遲的性能,為實際應(yīng)用提供了顯著優(yōu)勢。
再來看 PLM 的稀疏化設(shè)計,在邊緣模型中展現(xiàn)出了更高的普適性與高效性。從系統(tǒng)角度來看,零計算已被高度優(yōu)化,使得稀疏化在邊緣設(shè)備上的部署帶來顯著性能提升。
此外,由于邊緣設(shè)備的計算資源有限,模型通常無法完全加載到 GPU 或 RAM,需要 OffLoad 到緩存甚至存儲中。在此情況下,深度學(xué)習(xí)模型可采用分層加載,將當(dāng)前所需參數(shù)調(diào)入計算單元。
因此,最小化每層計算量至關(guān)重要。PLM 通過 KV 緩存存儲與稀疏激活減少計算開銷,有效緩解該問題。
PLM 團隊實驗驗證了推理所需的最小參數(shù)量。他們對所有模型進行相同稀疏化(即將激活函數(shù)后的最小值設(shè)為 0),并測試保持建模性能(困惑度下降 1)所需的最少參數(shù)量(如下圖)。
具體而言,PLM 團隊繪制了稀疏率(0~1)與困惑度差異的關(guān)系圖,以分析神經(jīng)激活減少的性能成本。不同模型的曲線揭示了各自對稀疏度的敏感性。理論上的「理想點」—— 完全稀疏且困惑度不增加 —— 是無法實現(xiàn)的,因為 MLP 層完全停用將損害模型質(zhì)量。
在此背景下,PLM 展現(xiàn)出顯著優(yōu)勢,僅需激活 74.3% 參數(shù),MLP 稀疏率達(dá) 90.9%,遠(yuǎn)低于同等規(guī)模模型,推理所需參數(shù)量最低。
PLM 團隊已全面開放資源,為社區(qū)提供了一個小型且易于使用的 MLA 模型,使科研工作者能夠在消費級顯卡上開展對 MLA 的研究。同時,PLM 為端側(cè)應(yīng)用廠商提供了一個高性能的端側(cè)模型,拓寬了選擇范圍,并支持基于 PLM 稀疏激活架構(gòu)的高效模型部署與開發(fā)。
結(jié)語
學(xué)術(shù)界在大規(guī)模模型結(jié)構(gòu)實驗方面面臨諸多挑戰(zhàn),而堅持從頭預(yù)訓(xùn)練的團隊更是少之又少。PLM 團隊在計算資源有限和數(shù)據(jù)質(zhì)量參差不齊的情況下,始終堅信開源社區(qū)提供的數(shù)據(jù)和技術(shù)能夠為學(xué)術(shù)界的持續(xù)探索提供強大支持。
未來,PLM 團隊將繼續(xù)致力于探索適用于邊緣設(shè)備的大模型,訓(xùn)練更具創(chuàng)新性的架構(gòu),并實現(xiàn)更高效的邊緣設(shè)備部署。PLM 團隊認(rèn)為,未來的語言模型不應(yīng)僅僅是參數(shù)的堆砌,而應(yīng)是效率與智能的精密平衡。PLM的探索,正是向著這一理想邁出的關(guān)鍵一步。