自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<p id="n1lki"><li id="n1lki"></li></p>

<abbr id="n1lki"><li id="n1lki"></li></abbr>

^{<sub id="n1lki"></sub>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

把MLA和稀疏激活帶到端側(cè)！港科大廣州和倫敦大學(xué)學(xué)院團隊聯(lián)合發(fā)布軟硬協(xié)同設(shè)計的邊緣語言模型PLM

作者：機器之心 2025-03-27 13:14:36

人工智能新聞

學(xué)術(shù)界在大規(guī)模模型結(jié)構(gòu)實驗方面面臨諸多挑戰(zhàn)，而堅持從頭預(yù)訓(xùn)練的團隊更是少之又少。

本文由 PLM 團隊撰寫，PLM 團隊是由香港科技大學(xué)（廣州）的校長倪明選教授，倫敦大學(xué)學(xué)院（UCL）AI 中心汪軍教授，香港科技大學(xué)（廣州）信息樞紐院長陳雷教授聯(lián)合指導(dǎo)。第一作者鄧程是香港科技大學(xué)（廣州）的研究助理，研究方向為端側(cè)大模型和高效模型推理；參與成員包括中科院自動化所的孫羅洋博士，曾勇程博士，姜紀(jì)文碩士，UCL 吳昕鍵，港科大廣州的博士生肖慶發(fā)和趙文欣，港科大的博士后王嘉川以及香港理工的助理教授（研究）李昊洋。通訊作者為鄧程博士，陳雷教授和汪軍教授。

在大模型「卷參數(shù)」的浪潮中，一個亟待解決的課題始終存在：如何讓百億級能力的 AI 跑進手機、嵌入設(shè)備、實現(xiàn)萬物互聯(lián)？內(nèi)存墻、算力墻、I/O 墻這三座邊緣設(shè)備的「大山」令許多大模型鎩羽而歸。

近日，香港科技大學(xué)（廣州）倪明選校長和陳雷教授聯(lián)合 UCL 汪軍教授團隊以及中科院自動化所團隊聯(lián)合提出 PLM（Peripheral Language Model），通過算法 - 系統(tǒng)協(xié)同設(shè)計，選擇了適合邊緣設(shè)備的模型架構(gòu)。

PLM 是首個結(jié)合 MLA 注意力機制與 ReLU2 激活 FFN 的架構(gòu)。評估結(jié)果表明，PLM 的表現(xiàn)優(yōu)于現(xiàn)有在公開數(shù)據(jù)上訓(xùn)練的小型語言模型，性能接近利用 18T tokens 訓(xùn)練的 Qwen2.5-1.5B 模型，同時保持最低激活參數(shù)數(shù)量。

其中，PLM 在通用知識理解（ARC）、數(shù)學(xué)（GSM8K）任務(wù)中表現(xiàn)出色，在代碼能力評測（HumanEval）基準(zhǔn)上更是以 64.6 分位居榜首。

項目論文：https://arxiv.org/abs/2503.12167
項目網(wǎng)站：https://www.project-plm.com
項目地址：https://github.com/plm-team/PLM
模型地址：Hugging Face: https://huggingface.co/PLM-Team

團隊還將模型適配至多種邊緣設(shè)備，在 Snapdragon 等芯片上展現(xiàn)出優(yōu)于同層數(shù)模型的吞吐優(yōu)勢。PLM 團隊不僅開源模型權(quán)重，還提供了從架構(gòu)設(shè)計到部署的完整技術(shù)報告，并計劃逐步開源訓(xùn)練數(shù)據(jù)集及相關(guān)代碼腳本。

剖析 PLM：1+1 能否大于 2？

核心模塊一：Multi-head Latent Attention（MLA）—— 把 KV 緩存壓縮到極致

PLM 采用了 Deepseek 提出的 MLA（Multi-Head Latent Attention）注意力機制，并首次將其應(yīng)用于 2B 參數(shù)以下的模型中。為適應(yīng)端側(cè)系統(tǒng)的需求，PLM 對 Deepseek 的 MLA 進行了適度優(yōu)化，去除了訓(xùn)練階段用于降低成本的 Q 矩陣壓縮過程，同時保留了 KV 矩陣的 512 維度。此外，PLM 通過解耦的位置編碼機制，確保了模型對長程依賴信息的有效捕捉。

核心模塊二：平方 ReLU 激活 —— 讓計算「稀疏化」

PLM 通過去除門控機制簡化了前饋神經(jīng)網(wǎng)絡(luò)，從而有效降低了計算復(fù)雜度和內(nèi)存消耗。傳統(tǒng) SwiGLU 激活函數(shù)導(dǎo)致 MLP 層計算密集，而 PLM 采用了 ReLU2 作為替代。ReLU2 是一種在性能和稀疏性之間實現(xiàn)最優(yōu)平衡的激活函數(shù)，特別適合稀疏計算場景。其定義如下：

這個設(shè)計使得 MLP 層激活稀疏度達(dá)到 90.9%，整體計算量減少 26%。此外，從硬件角度出發(fā)，零值激活能夠觸發(fā)指令級優(yōu)化。這一設(shè)計理念成功地將模型與系統(tǒng)的聯(lián)合優(yōu)化整合到大語言模型架構(gòu)中。

訓(xùn)練策略：充分利用開源數(shù)據(jù)

三階段鍛造 PLM-1.8B

PLM 團隊精心設(shè)計了一條訓(xùn)練流水線，僅使用未精細(xì)設(shè)計與配比的 2.48B 預(yù)訓(xùn)練數(shù)據(jù)，PLM 性能就達(dá)到企業(yè)級水平。所有訓(xùn)練數(shù)據(jù)均來自開源社區(qū)。

預(yù)訓(xùn)練

第一階段累計約 1.65T 的 Token。這個階段中，學(xué)習(xí)率是屬于預(yù)熱和穩(wěn)定的階段，模型的 Loss 也在 2.3 附近有收斂趨勢。第二階段累計約 550B 的 Token。在這個階段，模型的 Loss 隨著學(xué)習(xí)的衰減快速下降。第三階段累計約 280B 的 Token。

這個階段里，保持第二階段的最小學(xué)習(xí)率訓(xùn)練，模型進行最后的高質(zhì)量知識吸收，直到 loss 逐漸收斂。整個預(yù)訓(xùn)練中，始終保持中英數(shù)據(jù)比例 5:2。

SFT 階段

監(jiān)督微調(diào)數(shù)據(jù)遵循「由淺入深」的數(shù)據(jù)準(zhǔn)備方法，以漸進的方式進行監(jiān)督微調(diào)過程。PLM 的 SFT 訓(xùn)練分為基本指令微調(diào)和高難度指令微調(diào)。下面是各個階段的提升效果。

強化學(xué)習(xí)階段

PLM 在偏好訓(xùn)練階段沿用了團隊先前提出的 ARIES 訓(xùn)練方法，以解決經(jīng)過一般的對齊學(xué)習(xí)會經(jīng)多輪自我改進后，性能會顯著下降的問題。

性能實測：真的可以

PLM 采用獨特的模型架構(gòu)，對比的基線模型涵蓋了當(dāng)前最先進的 2B 參數(shù)量級模型，具體對比如下。

實驗表明，PLM 表現(xiàn)頗具競爭力，平均分（57.29）位列第三，僅次于 Qwen2.5-1.5B（59.25）和 Yulan-Mini-2.4B（57.51）。PLM-1.8B 在 HumanEval 中獲得了所有模型中的最高分，在 ARC-C、ARC-E、MBPP 和 BoolQ 中排名第二，略遜于行業(yè)領(lǐng)先的 Qwen2.5-1.5B，需指出的是，Qwen 系列使用了 18T 閉源語料庫。

另一方面，與 Yulan-Mini-2.4B 相比，PLM-1.8B 在編碼和邏輯推理任務(wù)中旗鼓相當(dāng)。此外，PLM 僅包含 1.8B 參數(shù)和 32 層（Yulan-Mini 為 56 層），推理延遲會較低。綜上所述，PLM-1.8B 在基本知識理解、編碼和簡單推理任務(wù)中表現(xiàn)強勁且可靠，是一款值得關(guān)注的模型。

場景實測：從服務(wù)器到樹莓派，全場景通吃

除了基本的模型能力評估，PLM 團隊還在在 5 類硬件平臺完成部署驗證，并給出了實際的吞吐量數(shù)據(jù)。

文章全面評估了不同硬件平臺和量化級別的各種邊緣大小 LLM 的推理延遲，包括高性能 GPU（NVIDIA A10、Orin NX）、Apple 的 M3 芯片、Qualcomm 的 Snapdragon 8 Gen 3 和 BCM2712 等嵌入式系統(tǒng)。

評估數(shù)據(jù)揭示了幾個顯著特征：MLA 的確增加了計算量，ReLU2 的確可以提升模型推理速度，模型層數(shù)會顯著影響端側(cè)設(shè)備上推理的速度。

PLM 團隊的實驗表明，這些關(guān)鍵點恰好觸及了端側(cè)計算中最需要關(guān)注的內(nèi)存、算力和 I/O 三個核心維度。PLM 團隊通過模型與硬件的協(xié)同設(shè)計，在這一領(lǐng)域展現(xiàn)了其獨特的優(yōu)勢。

算法層面，PLM 做到了稀疏性與低秩的平衡：MLA 壓縮 KV 緩存，ReLU2 激活削減計算，二者互補突破內(nèi)存 - 算力瓶頸。系統(tǒng)層面，PLM 深度適配 TVM、llama.cpp 等框架，實現(xiàn)高效的量化與編譯優(yōu)化。

理解 PLM 的 MLA 和稀疏激活

在實際探索中，MLA 的引入會顯著增加計算量。然而，PLM 通過舍棄 Q 矩陣的低秩壓縮來降低推理計算復(fù)雜度，并結(jié)合稀疏激活函數(shù)，成功避免了 MiniCPM3 在預(yù)填充或解碼階段的低效問題，從而在特定場景中展現(xiàn)出明顯優(yōu)勢。

PLM 團隊在較長文本序列上評估了其模型性能，結(jié)果表明，當(dāng)序列長度達(dá)到一定閾值后，PLM 的表現(xiàn)優(yōu)于同深度的 GQA 模型 Fox。

因此，盡管 MLA 增加了計算負(fù)載，其對緩存利用率、推理效率和內(nèi)存消耗的優(yōu)化，使得 PLM 在邊緣設(shè)備上展現(xiàn)出高效、低延遲的性能，為實際應(yīng)用提供了顯著優(yōu)勢。

再來看 PLM 的稀疏化設(shè)計，在邊緣模型中展現(xiàn)出了更高的普適性與高效性。從系統(tǒng)角度來看，零計算已被高度優(yōu)化，使得稀疏化在邊緣設(shè)備上的部署帶來顯著性能提升。

此外，由于邊緣設(shè)備的計算資源有限，模型通常無法完全加載到 GPU 或 RAM，需要 OffLoad 到緩存甚至存儲中。在此情況下，深度學(xué)習(xí)模型可采用分層加載，將當(dāng)前所需參數(shù)調(diào)入計算單元。

因此，最小化每層計算量至關(guān)重要。PLM 通過 KV 緩存存儲與稀疏激活減少計算開銷，有效緩解該問題。

PLM 團隊實驗驗證了推理所需的最小參數(shù)量。他們對所有模型進行相同稀疏化（即將激活函數(shù)后的最小值設(shè)為 0），并測試保持建模性能（困惑度下降 1）所需的最少參數(shù)量（如下圖）。

具體而言，PLM 團隊繪制了稀疏率（0~1）與困惑度差異的關(guān)系圖，以分析神經(jīng)激活減少的性能成本。不同模型的曲線揭示了各自對稀疏度的敏感性。理論上的「理想點」—— 完全稀疏且困惑度不增加 —— 是無法實現(xiàn)的，因為 MLP 層完全停用將損害模型質(zhì)量。

在此背景下，PLM 展現(xiàn)出顯著優(yōu)勢，僅需激活 74.3% 參數(shù)，MLP 稀疏率達(dá) 90.9%，遠(yuǎn)低于同等規(guī)模模型，推理所需參數(shù)量最低。

PLM 團隊已全面開放資源，為社區(qū)提供了一個小型且易于使用的 MLA 模型，使科研工作者能夠在消費級顯卡上開展對 MLA 的研究。同時，PLM 為端側(cè)應(yīng)用廠商提供了一個高性能的端側(cè)模型，拓寬了選擇范圍，并支持基于 PLM 稀疏激活架構(gòu)的高效模型部署與開發(fā)。

結(jié)語

學(xué)術(shù)界在大規(guī)模模型結(jié)構(gòu)實驗方面面臨諸多挑戰(zhàn)，而堅持從頭預(yù)訓(xùn)練的團隊更是少之又少。PLM 團隊在計算資源有限和數(shù)據(jù)質(zhì)量參差不齊的情況下，始終堅信開源社區(qū)提供的數(shù)據(jù)和技術(shù)能夠為學(xué)術(shù)界的持續(xù)探索提供強大支持。

未來，PLM 團隊將繼續(xù)致力于探索適用于邊緣設(shè)備的大模型，訓(xùn)練更具創(chuàng)新性的架構(gòu)，并實現(xiàn)更高效的邊緣設(shè)備部署。PLM 團隊認(rèn)為，未來的語言模型不應(yīng)僅僅是參數(shù)的堆砌，而應(yīng)是效率與智能的精密平衡。PLM的探索，正是向著這一理想邁出的關(guān)鍵一步。

責(zé)任編輯：張燕妮來源：機器之心

模型訓(xùn)練 AI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營