邊緣智能的新時(shí)代:端側(cè)大模型的研究進(jìn)展綜述
1 序言:邊緣智能的新紀(jì)元
在人工智能的飛速發(fā)展中,大型語言模型(LLMs)以其在自然語言處理(NLP)領(lǐng)域的革命性突破,引領(lǐng)著技術(shù)進(jìn)步的新浪潮。自 2017 年 Transformer 架構(gòu)的誕生以來,我們見證了從 OpenAI 的 GPT 系列到 Meta 的 LLaMA 系列等一系列模型的崛起,它們不僅在技術(shù)層面上不斷刷新我們對(duì)機(jī)器理解與生成人類語言能力的認(rèn)知,更在實(shí)際應(yīng)用中展現(xiàn)出巨大的潛力和價(jià)值。
然而,這些模型傳統(tǒng)上主要部署在云端服務(wù)器上,這種做法雖然保證了強(qiáng)大的計(jì)算力支持,卻也帶來了一系列挑戰(zhàn):網(wǎng)絡(luò)延遲、數(shù)據(jù)安全、持續(xù)的聯(lián)網(wǎng)要求等。這些問題在一定程度上限制了 LLMs 的廣泛應(yīng)用和用戶的即時(shí)體驗(yàn)。正因如此,將 LLMs 部署在端側(cè)設(shè)備上的探索應(yīng)運(yùn)而生,它不僅能夠提供更快的響應(yīng)速度,還能在保護(hù)用戶隱私的同時(shí),實(shí)現(xiàn)個(gè)性化的用戶體驗(yàn)。
隨著技術(shù)的不斷進(jìn)步,邊緣 AI 市場的全球規(guī)模正以驚人的速度增長。預(yù)計(jì)從 2022 年的 152 億美元增長到 2032 年的 1436 億美元,這一近十倍的增長不僅反映了市場對(duì)邊緣 AI 解決方案的迫切需求,也預(yù)示著在制造、汽車、消費(fèi)品等多個(gè)行業(yè)中,邊緣 AI 技術(shù)將發(fā)揮越來越重要的作用。
圖 1:2022 年至 2032 年按終端用戶劃分的端側(cè) AI 全球市場規(guī)模(單位:十億美元)。
在這樣的背景下,本綜述文章深入探討了在邊緣設(shè)備上部署 LLM 的策略和進(jìn)展。我們將詳細(xì)分析模型壓縮技術(shù)、能效計(jì)算策略以及輕量級(jí)模型架構(gòu)的創(chuàng)新設(shè)計(jì)。此外,文章還將討論硬件加速策略、邊緣 - 云協(xié)同部署方法,并重點(diǎn)介紹在邊緣場景中有效利用 LLM 的部署策略,以及這些技術(shù)在行業(yè)中的應(yīng)用實(shí)例和帶來的益處。
- 論文標(biāo)題:On-Device Language Models: A Comprehensive Review
- 論文鏈接:https://arxiv.org/abs/2409.00088
- 相關(guān)鏈接:LLMsOnDevice.com
通過本綜述,我們希望為讀者提供一份關(guān)于如何在端側(cè)設(shè)備上部署和優(yōu)化 LLMs 的全面指南,同時(shí)指出當(dāng)前研究的方向和面臨的挑戰(zhàn),為未來的技術(shù)發(fā)展提供參考和啟示。我們相信,通過跨學(xué)科的共同努力,我們能夠?qū)崿F(xiàn)智能計(jì)算的普及。
圖 2:本篇綜述結(jié)構(gòu)
2 技術(shù)進(jìn)展:探索端側(cè) LLMs 部署
在人工智能的浪潮中,端側(cè)大型語言模型(On-Device LLMs)正以其迅猛的發(fā)展速度和廣泛的應(yīng)用前景,成為技術(shù)革新的新寵。自 2023 年起,隨著參數(shù)量低于 10B 的模型系列如 Meta 的 LLaMA、Microsoft 的 Phi 系列等的涌現(xiàn),我們見證了 LLMs 在邊緣設(shè)備上運(yùn)行的可行性和重要性。這些模型不僅在性能上取得了長足的進(jìn)步,更通過混合專家、量化和壓縮等技術(shù),保持了參數(shù)量的優(yōu)化,為邊緣設(shè)備的多樣化應(yīng)用場景提供了強(qiáng)大支持。
進(jìn)入 2024 年,新模型的推出愈發(fā)密集,如圖 3 所示,Nexa AI 的 Octopus 系列、Google 的 Gemma 系列等,它們不僅在文本處理上有所增強(qiáng),更在多模態(tài)能力上展現(xiàn)了新的可能性,如結(jié)合文本與圖像等多模態(tài)輸入,以適應(yīng)更復(fù)雜的用戶交互需求。
圖 3:on-device LLM 的演進(jìn),展示了自 2023 年以來的重要模型和發(fā)展里程碑。
然而,要在資源受限的設(shè)備上部署這些強(qiáng)大的模型,我們必須面對(duì)內(nèi)存和計(jì)算能力的雙重挑戰(zhàn)。研究者們通過量化感知縮放、稀疏更新等創(chuàng)新方法,有效解決了這些問題,使得大型模型即便在參數(shù)量巨大的情況下,也能在設(shè)備端高效運(yùn)行。
相較于完全依賴云端的 LLM 服務(wù),端側(cè)推理的優(yōu)勢顯而易見。它不僅減少了數(shù)據(jù)傳輸?shù)难舆t,更保護(hù)了用戶數(shù)據(jù)的隱私安全。圖 4 的投票分布顯示,大多數(shù)參與者更傾向于邊緣云協(xié)作的架構(gòu),對(duì)現(xiàn)有僅云端的解決方案并不滿意。端側(cè)推理的低延遲特性,尤其適用于需要實(shí)時(shí)響應(yīng)的應(yīng)用場景,如 Google 的 Gemini Nano 支持的 TalkBack 功能,即便在完全離線的情況下也能正常工作。
圖 4:用戶對(duì)不同 LLM 部署方式的偏好情況
衡量端側(cè) LLMs 性能的指標(biāo)包括延遲、推理速度、內(nèi)存消耗等。這些指標(biāo)直接關(guān)系到模型在邊緣設(shè)備上的實(shí)際運(yùn)行效果,以及用戶的使用體驗(yàn)。隨著技術(shù)的不斷成熟,我們期待這些性能指標(biāo)能得到進(jìn)一步的優(yōu)化,使得端側(cè)大語言模型能在更多場景下發(fā)揮其潛力。
3 架構(gòu)創(chuàng)新:優(yōu)化邊緣設(shè)備的性能
在智能手機(jī)和邊緣設(shè)備上部署大型語言模型(LLMs)正成為人工智能領(lǐng)域的新挑戰(zhàn)。面對(duì)有限的內(nèi)存和計(jì)算能力,研究者們提出了一系列創(chuàng)新的架構(gòu)設(shè)計(jì)原則和方法,旨在實(shí)現(xiàn)資源的高效利用和性能的最大化。架構(gòu)創(chuàng)新變得尤為關(guān)鍵,其中包括參數(shù)共享、模塊化設(shè)計(jì)以及緊湊的表示形式。例如,MobileLLM 通過深度和瘦長的模型結(jié)構(gòu)優(yōu)化了參數(shù)量在十億以下的模型,而 EdgeShard 框架則通過邊緣云協(xié)作計(jì)算實(shí)現(xiàn)了模型的分布式處理,顯著降低了延遲并提高了吞吐量。
同時(shí),模型壓縮與參數(shù)共享技術(shù)的應(yīng)用,如 AWQ 方法和 MobileLLM,不僅減少了模型尺寸,還在保持性能的同時(shí)加快了推理速度。這些技術(shù)通過保護(hù)關(guān)鍵權(quán)重和優(yōu)化模型結(jié)構(gòu),為 LLMs 在端側(cè)的部署提供了新的可能性。協(xié)作和層次化模型方法通過分散計(jì)算負(fù)載和利用不同能力模型的組合,解決了資源受限設(shè)備的部署難題。EdgeShard 和 LLMCad 的研究成果展示了這種方法的有效性,它們通過在多個(gè)設(shè)備上分配計(jì)算任務(wù),提升了 LLMs 的可擴(kuò)展性和效率。
在內(nèi)存和計(jì)算效率的優(yōu)化方面,Samsung Electronics 提出的 PIM 和 PNM 技術(shù),以及 MELT 基礎(chǔ)設(shè)施,都顯著提升了內(nèi)存帶寬和容量,同時(shí)降低了能耗,為 LLMs 的移動(dòng)部署鋪平了道路。MoE 架構(gòu)的應(yīng)用,如 EdgeMoE 和 LocMoE,通過稀疏激活和動(dòng)態(tài)路由,進(jìn)一步提高了 LLMs 的效率。這些方法通過優(yōu)化專家網(wǎng)絡(luò)的選擇和路由,減少了模型的內(nèi)存占用和提高了計(jì)算速度。
此外,總體效率和性能提升的研究,如 Any-Precision LLM 和 LCDA 框架,通過提供多精度支持和軟硬件協(xié)同設(shè)計(jì),為 LLMs 在邊緣設(shè)備上的高效運(yùn)行提供了新的視角。隨著這些創(chuàng)新技術(shù)的迅速發(fā)展,我們期待在移動(dòng)設(shè)備和邊緣設(shè)備上享受到與云端相媲美的智能體驗(yàn),這將為用戶帶來更加快速、個(gè)性化的服務(wù),同時(shí)確保數(shù)據(jù)的安全性和隱私保護(hù)。智能邊緣計(jì)算的未來正變得愈發(fā)清晰,它將為人工智能領(lǐng)域帶來深遠(yuǎn)的影響和無限的可能性。
4 模型壓縮:平衡性能與效率
在邊緣設(shè)備上部署大型語言模型(LLMs)時(shí),保持性能的同時(shí)提升計(jì)算效率尤為關(guān)鍵。本文綜述了四種關(guān)鍵的模型壓縮技術(shù):量化、剪枝、知識(shí)蒸餾和低秩分解,這些方法通過在性能、內(nèi)存占用和推理速度之間找到平衡,確保了 LLMs 在端側(cè)應(yīng)用的可行性。
量化是一種通過降低模型權(quán)重和激活的精度來減少模型大小的技術(shù)。這種方法能夠在幾乎不損失模型性能的情況下,顯著減少模型所需的存儲(chǔ)空間和計(jì)算資源。后訓(xùn)練量化(PTQ)是一種在模型訓(xùn)練完成后應(yīng)用的技術(shù),它通過一些先進(jìn)的補(bǔ)償策略,如 GPTQ,可以在將模型權(quán)重量化到 3 或 4 位的情況下,保持模型的高準(zhǔn)確度。而量化感知訓(xùn)練(QAT)則將量化集成到模型的訓(xùn)練過程中,使模型在訓(xùn)練時(shí)就適應(yīng)低精度的約束,從而在量化后保持更高的準(zhǔn)確度。
剪枝是另一種通過減少模型復(fù)雜性來提升計(jì)算效率的方法。結(jié)構(gòu)化剪枝通過移除模型中的整個(gè)參數(shù)子集,如層、通道或過濾器,來優(yōu)化硬件性能。無結(jié)構(gòu)化剪枝則在更細(xì)的粒度上工作,移除單個(gè)權(quán)重,提供更高的壓縮率。此外,上下文剪枝根據(jù)模型的運(yùn)行上下文動(dòng)態(tài)地移除權(quán)重,確保在不同條件下都能保持最優(yōu)的性能。
知識(shí)蒸餾是一種將大型模型的知識(shí)遷移到小型模型的技術(shù)。黑盒 KD 只使用教師模型的輸出進(jìn)行學(xué)習(xí),而白盒 KD 則允許學(xué)生模型訪問教師模型的內(nèi)部狀態(tài),實(shí)現(xiàn)更深入的學(xué)習(xí)。這種方法可以在不犧牲性能的情況下,顯著減少模型的大小和計(jì)算需求。
低秩分解是一種將大型矩陣分解為較小矩陣的技術(shù)。這種方法利用了矩陣的低秩結(jié)構(gòu),減少了計(jì)算復(fù)雜性,同時(shí)保持了模型的準(zhǔn)確性。Yao 等人的研究將 LRF 與 PTQ 結(jié)合,提出了低秩補(bǔ)償(LoRC),在顯著減少模型大小的同時(shí),通過補(bǔ)償策略保持了模型的準(zhǔn)確性。
5 硬件加速:推動(dòng)端側(cè) LLMs 的高效運(yùn)行
硬件加速器在大型語言模型(LLMs)的端側(cè)部署中扮演著至關(guān)重要的角色。GPU 和 TPU 等專用硬件提供了強(qiáng)大的計(jì)算能力和高內(nèi)存帶寬,它們是訓(xùn)練和加速 LLMs 的重要基礎(chǔ)。NVIDIA 的 Tensor Cores 以及 Google TPU 的高效矩陣乘法能力,都為基于 Transformer 的模型提供了強(qiáng)有力的支持。同時(shí),F(xiàn)PGA 以其靈活性,通過稀疏矩陣乘法和量化技術(shù),在 Transformer 層的推理任務(wù)中展現(xiàn)出高效能,為特定模型架構(gòu)提供了定制優(yōu)化的可能。
軟硬件協(xié)同設(shè)計(jì)的方法,如量化感知訓(xùn)練和模型壓縮,進(jìn)一步提升了 LLMs 的效率,使得它們能夠跨越從高功率服務(wù)器到低功率邊緣設(shè)備的廣泛部署。這些技術(shù)通過參數(shù)共享和先進(jìn)的內(nèi)存管理,減少了模型的存儲(chǔ)需求,確保了快速且成本效益更高的部署。此外,各種框架如 Llama.cpp、MNN、PowerInfer 等,根據(jù)不同的硬件平臺(tái)和用例需求,提供了優(yōu)化的部署策略,從而實(shí)現(xiàn)從云端到邊緣的無縫協(xié)作。
在邊緣云部署方面,MLC-LLM 和 VLLM 等技術(shù)通過支持高效的量化方法和關(guān)鍵內(nèi)存管理,優(yōu)化了 LLMs 在邊緣設(shè)備和云環(huán)境中的部署。OpenLLM 等項(xiàng)目通過 BentoML 等工具,實(shí)現(xiàn)了開源 LLMs 的快速部署,提供了與 OpenAI 兼容的 API 服務(wù)。隨著硬件技術(shù)的不斷進(jìn)步,如 NVIDIA A100 GPU 和 Google TPU v4,我們看到了端側(cè) LLMs 性能的顯著提升,這些硬件不僅提供了巨大的計(jì)算能力,還通過混合精度訓(xùn)練等技術(shù),大幅減少了模型的內(nèi)存占用并提高了計(jì)算效率。
6 實(shí)例與應(yīng)用:端側(cè) LLMs 的實(shí)踐探索
端側(cè)語言模型的實(shí)例:Gemini Nano 模型通過 Google AI Edge SDK 為移動(dòng)操作系統(tǒng)提供了一個(gè)小型但功能強(qiáng)大的 LLM,它通過 4 位量化部署,提供了一流的性能和低延遲的推理速度。Nexa AI Octopus 系列模型則在邊緣設(shè)備上運(yùn)行,以超越 GPT-4 的準(zhǔn)確性和延遲,同時(shí)減少了 95% 的上下文長度。Apple 的 OpenELM 和 Ferret-v2 模型通過 iOS 集成,提供了類似系統(tǒng)服務(wù)的功能擴(kuò)展。Microsoft 的 Phi 系列,特別是 Phi-3-mini 模型,即使在移動(dòng)部署中也展現(xiàn)出與大型模型相媲美的性能。此外,MiniCPM-Llama3-V 2.5 和 Gemma2-9B 等開源模型也在各自的領(lǐng)域內(nèi)展現(xiàn)出卓越的性能。
端側(cè)大語言模型的應(yīng)用:端側(cè) LLMs 的應(yīng)用范圍極為廣泛,從即時(shí)消息生成、實(shí)時(shí)語言翻譯、會(huì)議摘要到醫(yī)療咨詢、科研支持、陪伴機(jī)器人、殘障人士輔助以及自動(dòng)駕駛等。例如,Google 的 Gboard 應(yīng)用利用 Gemini Nano 模型提供基于聊天內(nèi)容的快速回復(fù)建議。在翻譯領(lǐng)域,端側(cè)模型能夠在離線環(huán)境中快速響應(yīng),同時(shí)保證翻譯質(zhì)量。會(huì)議摘要應(yīng)用通過分析會(huì)議內(nèi)容,實(shí)時(shí)生成摘要,避免了云模型訂閱服務(wù)費(fèi)用和網(wǎng)絡(luò)延遲問題。在醫(yī)療領(lǐng)域,端側(cè)模型能夠在本地處理患者數(shù)據(jù),保護(hù)隱私同時(shí)提供緊急情況下的快速響應(yīng)。
科研支持方面,端側(cè) LLMs 能夠利用特定領(lǐng)域的大量專業(yè)數(shù)據(jù)進(jìn)行訓(xùn)練,加速科研進(jìn)展。陪伴機(jī)器人和 IoT 設(shè)備通過端側(cè) LLMs 提升了理解自然語言指令的能力。對(duì)于視障人士,端側(cè)多模態(tài)模型能夠?qū)D像轉(zhuǎn)換為文字,提供豐富的圖像描述,并支持離線使用。此外,手語識(shí)別和翻譯項(xiàng)目也利用了端側(cè)模型的低延遲和離線可用性。
自動(dòng)駕駛領(lǐng)域,結(jié)合大規(guī)模視覺語言模型的系統(tǒng)正在改善車輛對(duì)復(fù)雜和長尾場景的理解,提供即時(shí)響應(yīng)并處理動(dòng)態(tài)場景。
圖 5 展示了端側(cè) LLMs 在不同應(yīng)用領(lǐng)域的表現(xiàn),從文本生成、翻譯、會(huì)議摘要、醫(yī)療應(yīng)用、科研支持、伴侶機(jī)器人、殘障人士輔助到自動(dòng)駕駛等,端側(cè) LLMs 正以其智能、響應(yīng)迅速和個(gè)性化的特點(diǎn),改變我們與技術(shù)的互動(dòng)方式。
7 未來展望:邊緣計(jì)算的智能轉(zhuǎn)型
圖 6:on-device LLM 的未來方向和面臨的挑戰(zhàn)
在設(shè)備上運(yùn)行的大型語言模型(LLMs)正迅速發(fā)展,它們?cè)跀?shù)據(jù)安全、低延遲和個(gè)性化 AI 體驗(yàn)方面展現(xiàn)出巨大潛力。然而,要在資源受限的設(shè)備上部署這些模型,我們必須克服包括模型壓縮、高效推理、安全性和能源效率等一系列挑戰(zhàn)。未來的研究將致力于開發(fā)新的隱私保護(hù)技術(shù),如查詢混淆和先進(jìn)的隨機(jī)化技術(shù),同時(shí)加強(qiáng)風(fēng)險(xiǎn)評(píng)估和監(jiān)控,以確保模型的實(shí)用性和數(shù)據(jù)的安全性。此外,研究者們也在探索適應(yīng)性邊緣 - 云協(xié)作,通過智能緩存、請(qǐng)求分析和資源分配算法,優(yōu)化數(shù)據(jù)在邊緣設(shè)備與云服務(wù)器間的傳輸。
多模態(tài)和跨模態(tài)學(xué)習(xí)是推動(dòng) LLMs 發(fā)展的關(guān)鍵方向,它們使模型能夠整合并理解多種數(shù)據(jù)類型,從而提供更豐富的用戶體驗(yàn)。研究者們正致力于開發(fā)高效的多模態(tài)處理技術(shù),以及能夠適應(yīng)不同模態(tài)輸入的模型架構(gòu)。同時(shí),資源效率也成為研究的重點(diǎn),通過模型壓縮和執(zhí)行算法的優(yōu)化,以及利用模型稀疏性,可以顯著降低模型在邊緣設(shè)備上的能源消耗,這對(duì)環(huán)境保護(hù)具有重要意義。
為了進(jìn)一步提升 LLMs 的性能,硬件 - 軟件的協(xié)同設(shè)計(jì)變得至關(guān)重要。未來的研究將探索新的 PIM/PNM 架構(gòu),以及針對(duì) AI 特定需求優(yōu)化的編譯器和運(yùn)行時(shí)系統(tǒng)。此外,確保模型的魯棒性和可靠性也是未來工作的重點(diǎn),研究者們正在開發(fā)方法以檢測和減輕模型輸出中的偏見和幻覺,特別是在安全關(guān)鍵的應(yīng)用中。
個(gè)性化 AI 體驗(yàn)是設(shè)備上 LLMs 的另一大優(yōu)勢,但這也帶來了模型持續(xù)學(xué)習(xí)和適應(yīng)新信息的挑戰(zhàn)。未來的研究將集中于實(shí)現(xiàn)知識(shí)保留和遺忘的可控機(jī)制,以及開發(fā)持續(xù)學(xué)習(xí)的理論基礎(chǔ)和優(yōu)化策略。通過這些機(jī)制,模型能夠根據(jù)用戶交互和本地?cái)?shù)據(jù)自主學(xué)習(xí)新技能,并提高現(xiàn)有能力。
8 結(jié)語
在設(shè)備上部署的大型語言模型(LLMs)正開啟智能邊緣計(jì)算的新篇章,預(yù)示著一個(gè)個(gè)性化、高效的 AI 時(shí)代即將到來。這些模型通過強(qiáng)化數(shù)據(jù)安全、降低延遲,并提供深度個(gè)性化的體驗(yàn),將徹底改變我們與技術(shù)的互動(dòng)。展望未來,隨著技術(shù)的不斷成熟,我們期待一個(gè)設(shè)備更智能、服務(wù)更精準(zhǔn)、生活更便捷的新世界。個(gè)性化的 AI 將融入日常生活的方方面面,從智能家居到自動(dòng)駕駛,從虛擬助手到健康監(jiān)護(hù),它們將以前所未有的方式提升我們的生活品質(zhì)。隨著研究的深入,一個(gè)更智能、更可靠、更貼近人心的 AI 未來正向我們招手,讓我們滿懷期待,迎接這個(gè)由 LLMs 引領(lǐng)的創(chuàng)新紀(jì)元。
為了進(jìn)一步促進(jìn)學(xué)術(shù)交流和知識(shí)共享,我們建立了一個(gè)專門的 GitHub 資源庫 ——Awesome LLMs on Device。這個(gè)資源庫不僅收錄了本論文的詳細(xì)內(nèi)容,還將持續(xù)更新,以反映該領(lǐng)域的最新研究成果和技術(shù)動(dòng)態(tài)。
誠邀學(xué)術(shù)界同仁訪問我們的 GitHub 資源庫,參與到 LLMs 在邊緣設(shè)備上的研究中來,共同推動(dòng)智能邊緣技術(shù)的創(chuàng)新與發(fā)展。
Github Repo:https://github.com/NexaAI/Awesome-LLMs-on-device