自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

手機流暢運行470億大模型:上交大提出PowerInfer-2引領(lǐng)智能手機大模型推理新紀(jì)元 精華

發(fā)布于 2024-6-13 11:29
瀏覽
0收藏

引言:智能手機上的大型語言模型推理的挑戰(zhàn)與機遇

隨著大型語言模型(LLM)在理解和生成類似人類的文本方面的卓越能力,它們已經(jīng)從根本上改善了我們的日常生活并轉(zhuǎn)變了我們的工作環(huán)境。如今最先進的LLM,例如GPT-4和Claude-3,都部署在配備了最先進GPU的數(shù)據(jù)中心中。這些GPU提供了廣泛的高帶寬內(nèi)存,并提供達(dá)到數(shù)千teraflops的計算能力。與此同時,將LLM部署在普遍的智能手機上的趨勢也在興起,這一轉(zhuǎn)變旨在充分利用豐富的個人數(shù)據(jù),同時通過避免將私人數(shù)據(jù)傳輸?shù)皆品?wù)來維護隱私。

然而,智能手機盡管使用廣泛,但由于其處理能力有限和內(nèi)存大小受限,難以滿足LLM推理的復(fù)雜需求。為了解決這些問題,研究人員探索了兩種有前途的方法來在資源受限的條件下提供LLM推理服務(wù)。一種策略是部署縮小版的LLM,例如Google的Gemini Nano 3.25B,它使用不到2GB的內(nèi)存,通過減少智能能力來適應(yīng)內(nèi)存限制。另一些技術(shù)旨在降低推理期間LLM權(quán)重的計算和存儲需求。例如,PowerInfer項目通過將活躍神經(jīng)元分配給GPU,而非活躍神經(jīng)元分配給CPU,實現(xiàn)了在個人電腦上推理速度的11倍提升。然而,這些解決方案在智能手機上遇到了挑戰(zhàn),因為智能手機的硬件和存儲設(shè)備較弱,帶寬較低,且由于單一命令隊列不支持并發(fā)訪問,使得I/O活動成為智能手機上LLM推理的常見瓶頸。

本文介紹了PowerInfer-2,這是第一個在智能手機上執(zhí)行高速LLM推理的框架,能夠適應(yīng)超過設(shè)備內(nèi)存容量的高達(dá)47億參數(shù)的模型。PowerInfer-2是PowerInfer項目的后續(xù)工作,專門為智能手機設(shè)計。與其前身一樣,PowerInfer-2利用了LLM推理中固有的動態(tài)稀疏激活:每次推理迭代只需要一部分神經(jīng)元,而不是整個模型權(quán)重。這種方法在推理過程中大大降低了計算需求,因為PowerInfer-2每次迭代只需要處理選定的一組神經(jīng)元。固有的稀疏性還增強了局部性,使PowerInfer-2能夠構(gòu)建一個有效的內(nèi)存緩存,保持最常用的神經(jīng)元在內(nèi)存中,從而減輕了讀取權(quán)重相關(guān)的I/O開銷。

手機流暢運行470億大模型:上交大提出PowerInfer-2引領(lǐng)智能手機大模型推理新紀(jì)元-AI.x社區(qū)

論文標(biāo)題:PowerInfer-2: Fast Large Language Model Inference on a Smartphone

機構(gòu):Institute of Parallel and Distributed Systems (IPADS), Shanghai Jiao Tong University

論文鏈接:https://arxiv.org/pdf/2406.06282.pdf

PowerInfer-2框架概述

PowerInfer-2是一種專為智能手機設(shè)計的高速大型語言模型(LLM)推理框架。它能夠處理高達(dá)470億參數(shù)的模型,即使這些模型的大小超過了設(shè)備的內(nèi)存容量。PowerInfer-2是PowerInfer項目的后續(xù)工作,它利用LLM推理中固有的動態(tài)稀疏激活:每次推理迭代只需要一部分神經(jīng)元,而不是整個模型權(quán)重。這種方法顯著降低了推理過程中的計算需求,因為PowerInfer-2只需要處理每次迭代中選擇的一組神經(jīng)元。此外,固有的稀疏性還增強了局部性,使PowerInfer-2能夠構(gòu)建一個高效的內(nèi)存緩存,保持最常用的神經(jīng)元在內(nèi)存中,從而減輕了讀取權(quán)重的I/O開銷。

與PowerInfer不同,PowerInfer-2面臨的關(guān)鍵挑戰(zhàn)在于能夠利用現(xiàn)代智能手機中高度異構(gòu)的XPUs,如不對稱的big.LITTLE CPU核心、GPU和NPU。如果沒有充分利用硬件特性,推理過程就會導(dǎo)致生成速度不佳。此外,緩存未命中不可避免地會引起I/O開銷。盡管PowerInfer-2利用稀疏激活來減少推理過程中所需的權(quán)重量,但它仍然會產(chǎn)生大量的I/O讀取操作,這可能會對推理性能產(chǎn)生不利影響。

手機流暢運行470億大模型:上交大提出PowerInfer-2引領(lǐng)智能手機大模型推理新紀(jì)元-AI.x社區(qū)

神經(jīng)元集群和架構(gòu)

3.1 神經(jīng)元集群和架構(gòu)

PowerInfer-2提出了一種稱為神經(jīng)元集群的計算抽象,專為LLM在異構(gòu)計算場景中的推理設(shè)計。PowerInfer-2在神經(jīng)元集群的粒度上執(zhí)行計算和I/O操作,這些神經(jīng)元集群可以在計算過程中動態(tài)組成多個激活神經(jīng)元,其數(shù)量由計算單元的計算能力決定。例如,在解碼階段,當(dāng)計算由CPU核心執(zhí)行時,分配給每個CPU核心的神經(jīng)元集群的大小比在預(yù)填充階段NPU計算時的要小。通過使用這種抽象,PowerInfer-2可以充分利用具有不同計算能力的XPUs,有效地隱藏I/O開銷。

圖2展示了PowerInfer-2的整體架構(gòu),該架構(gòu)分為在線部分(右側(cè))和離線部分(左側(cè))。在線部分服務(wù)于神經(jīng)元集群粒度的推理,并包括四個協(xié)作組件:多態(tài)神經(jīng)元引擎(§4.1)、內(nèi)存中神經(jīng)元緩存(§4.2)、靈活的神經(jīng)元加載(§4.3)和神經(jīng)元集群級I/O管道(§4.4)。

多態(tài)神經(jīng)元引擎為預(yù)填充和解碼階段使用完全不同的計算模式。在預(yù)填充階段,神經(jīng)元集群包含來自權(quán)重矩陣的所有神經(jīng)元,并主要依賴NPU處理大規(guī)模矩陣計算。在解碼階段,由于顯示出顯著的稀疏性,只有少部分神經(jīng)元(大約10%)在權(quán)重矩陣中被激活并參與計算,因此PowerInfer-2專門利用CPU核心進行神經(jīng)元集群計算。

多態(tài)神經(jīng)元引擎

PowerInfer-2引入了一種多態(tài)神經(jīng)元引擎,該引擎能夠動態(tài)地將神經(jīng)元組合成神經(jīng)元簇,以利用LLM推理階段和異構(gòu)XPUs的不同計算特性。

4.1.1 NPU-Centric Prefill

在預(yù)填充階段,所有提示令牌都同時被處理。盡管每個令牌顯示出高度的稀疏性并激活不同的神經(jīng)元,但由于這些激活的聚合,總體稀疏性顯著降低。因此,PowerInfer-2在預(yù)填充階段不通過預(yù)測器計算激活的神經(jīng)元,而是選擇直接將所有神經(jīng)元合并成一個大的神經(jīng)元簇。鑒于NPU在處理大規(guī)模矩陣運算方面的優(yōu)勢,這一策略能夠最大化NPU的計算能力。

4.1.2 CPU-Centric Decoding

與預(yù)填充階段不同,解碼階段集中處理每次迭代中的單個令牌,顯示出顯著的稀疏性,因為僅有少部分神經(jīng)元(大約10%)在權(quán)重矩陣中被激活并參與計算。因此,從預(yù)填充階段過渡到解碼階段時,多態(tài)神經(jīng)元引擎將權(quán)重矩陣計算分解為小的神經(jīng)元簇,這些小簇的元素由預(yù)測器識別為活躍的。我們觀察到,當(dāng)批處理大小為一時,CPU核心上的矩陣-向量計算的延遲低于NPU。此外,由于稀疏性導(dǎo)致激活的神經(jīng)元數(shù)量減少,CPU核心非常適合這些較輕和稀疏的計算任務(wù)。

手機流暢運行470億大模型:上交大提出PowerInfer-2引領(lǐng)智能手機大模型推理新紀(jì)元-AI.x社區(qū)

高效的緩存設(shè)計與I/O優(yōu)化策略

PowerInfer-2通過引入分段緩存和細(xì)粒度的神經(jīng)元簇級流水線技術(shù),優(yōu)化了I/O讀取吞吐量并最小化了I/O操作,從而提高了整體的推理性能。

4.4 Neuron-Cluster-Level Pipeline

盡管引入了有效存儲活躍神經(jīng)元的神經(jīng)元緩存,推理過程仍然不可避免地會引發(fā)對未緩存神經(jīng)元的I/O操作。為了優(yōu)化I/O讀取吞吐量并最小化I/O操作,PowerInfer-2還捆綁了相關(guān)神經(jīng)元。盡管在移除熱神經(jīng)元后,單個FFN權(quán)重矩陣內(nèi)的共激活變得不頻繁,但不同矩陣中對應(yīng)位置的神經(jīng)元通常會一起激活。例如,第i個神經(jīng)元在Gate、Up和Down矩陣中的共激活概率高達(dá)80%。

PowerInfer-2還設(shè)計了隱藏I/O開銷的策略,通過重疊計算與I/O活動來實現(xiàn)。一個直接的方法是矩陣級重疊,它在從存儲中檢索矩陣神經(jīng)元的同時進行計算。隨著存儲中的神經(jīng)元被加載,它們會立即被處理。盡管這種矩陣級重疊方法可以在一定程度上隱藏計算過程中的I/O成本,但系統(tǒng)仍需等待所有神經(jīng)元的處理完成才能繼續(xù)進行下一步。為了消除I/O操作的等待時間,PowerInfer-2引入了神經(jīng)元簇級流水線機制。這種機制基于一個見解:通過關(guān)注神經(jīng)元簇的粒度,可以在多個矩陣的神經(jīng)元簇計算中重疊I/O操作。具體來說,PowerInfer-2打破了矩陣計算的障礙;一旦一個神經(jīng)元簇完成計算,它立即開始計算下一個矩陣中已在內(nèi)存中的神經(jīng)元簇。這種機制有效地減少了等待泡沫,如圖4-b所示。

手機流暢運行470億大模型:上交大提出PowerInfer-2引領(lǐng)智能手機大模型推理新紀(jì)元-AI.x社區(qū)

執(zhí)行計劃的生成與優(yōu)化

在PowerInfer-2系統(tǒng)中,執(zhí)行計劃的生成是一個關(guān)鍵步驟,它涉及到對硬件、模型和用戶需求的深入分析,以制定出最優(yōu)的運行配置。執(zhí)行計劃的生成過程包括以下幾個關(guān)鍵環(huán)節(jié):

1. 硬件和模型特性分析

執(zhí)行計劃首先需要對硬件的計算能力、I/O吞吐量和內(nèi)存帶寬進行評估。此外,還需要分析模型的大小、稀疏性和緩存特性。這一步驟是通過離線分析器完成的,它通過一系列的微基準(zhǔn)測試來評估各個組件的性能。

2. 成本模型的構(gòu)建和求解

在獲取了硬件和模型的具體參數(shù)后,執(zhí)行計劃使用成本模型來生成最優(yōu)配置。這個模型的目標(biāo)是在滿足用戶設(shè)定的約束條件下,最大化生成速度。成本模型考慮了計算時間和I/O傳輸時間,這些時間的計算基于硬件性能和模型激活率的函數(shù)。求解成本模型通常使用成熟的SMT求解器,如Z3。

3. 執(zhí)行計劃的輸出

最終的執(zhí)行計劃將詳細(xì)描述在在線推理過程中各個組件的配置,包括CPU和NPU的使用比例、緩存大小和I/O操作的配置。這些配置確保了系統(tǒng)在實際運行中達(dá)到預(yù)定的性能目標(biāo)。

通過這一系列的步驟,PowerInfer-2能夠為不同的智能手機和模型大小提供定制化的執(zhí)行計劃,從而在保證性能的同時,最大限度地利用設(shè)備的計算和存儲資源。

實驗設(shè)置與性能評估

為了驗證PowerInfer-2系統(tǒng)的性能,我們在不同的智能手機上進行了一系列的實驗。實驗的設(shè)置和性能評估包括以下幾個方面:

1. 實驗硬件

實驗使用了兩款OnePlus智能手機,分別代表高端和中端的硬件配置。這兩款手機不僅具備不同的處理器和內(nèi)存大小,而且都允許root權(quán)限,這為我們解鎖更多計算能力提供了可能。

2. 模型選擇

實驗中選用了不同架構(gòu)和大小的語言模型,包括TurboSparse-Mistral和TurboSparse-Mixtral系列。這些模型的選擇旨在展示PowerInfer-2在處理不同類型和大小模型時的性能表現(xiàn)。

3. 基準(zhǔn)系統(tǒng)比較

為了全面評估PowerInfer-2的性能,我們將其與當(dāng)前最先進的LLM推理框架進行了比較,包括llama.cpp和LLM in a Flash。這些比較幫助我們準(zhǔn)確地定位PowerInfer-2在市場中的性能優(yōu)勢。

4. 性能指標(biāo)

我們主要關(guān)注的性能指標(biāo)是端到端的生成速度,包括預(yù)填充速度和解碼速度。這些指標(biāo)直接反映了系統(tǒng)在實際應(yīng)用中的響應(yīng)速度。

通過這些詳細(xì)的實驗設(shè)置和性能評估,我們能夠全面地理解PowerInfer-2在不同條件下的性能表現(xiàn),并且驗證了其在智能手機上運行大型語言模型的能力。

手機流暢運行470億大模型:上交大提出PowerInfer-2引領(lǐng)智能手機大模型推理新紀(jì)元-AI.x社區(qū)

手機流暢運行470億大模型:上交大提出PowerInfer-2引領(lǐng)智能手機大模型推理新紀(jì)元-AI.x社區(qū)

討論與未來展望

隨著智能手機硬件的日益強大和多樣化,未來的大型語言模型(LLM)推理框架需要更加靈活和高效地利用這些資源。PowerInfer-2的出現(xiàn)標(biāo)志著在這一領(lǐng)域的一個重要進步,它不僅顯著提高了在資源受限的智能手機上進行LLM推理的速度,而且還優(yōu)化了內(nèi)存和I/O資源的使用。然而,盡管取得了顯著的進步,但在將來的發(fā)展中,仍有許多挑戰(zhàn)和機遇。

1. 硬件利用的優(yōu)化

盡管PowerInfer-2已經(jīng)在利用異構(gòu)硬件方面取得了顯著成效,但未來的工作可以進一步探索如何更有效地協(xié)調(diào)CPU、GPU、NPU等不同硬件的工作,以最大化計算資源的使用效率。例如,通過更智能的調(diào)度算法,動態(tài)地根據(jù)當(dāng)前的工作負(fù)載和硬件狀態(tài)調(diào)整資源分配。

2. 模型和存儲優(yōu)化

隨著模型規(guī)模的不斷擴大,如何在有限的存儲和內(nèi)存中高效地管理和調(diào)度模型權(quán)重將成為一個重要問題。PowerInfer-2中已經(jīng)采用了分段緩存和精細(xì)的I/O策略,未來可以進一步探索更高效的數(shù)據(jù)壓縮技術(shù)和智能預(yù)取策略,以減少I/O操作的需要并加速推理過程。

3. 能源效率

智能手機的能源限制也是未來研究的一個重要方向。開發(fā)更加節(jié)能的算法和框架,不僅可以延長設(shè)備的電池壽命,還可以減少環(huán)境影響。例如,通過優(yōu)化算法的能效比(即每瓦特計算速度),使得在保證性能的同時,盡可能減少能耗。

4. 用戶體驗與隱私保護

提升用戶體驗和保護用戶隱私將是LLM應(yīng)用普及的關(guān)鍵。未來的推理框架需要在保證響應(yīng)速度和準(zhǔn)確性的同時,更好地處理用戶數(shù)據(jù),確保數(shù)據(jù)的安全和隱私。例如,通過在本地設(shè)備上進行更多的數(shù)據(jù)處理來減少對云服務(wù)的依賴,從而保護用戶的隱私。

5. 跨平臺兼容性

隨著各種類型設(shè)備的普及,跨平臺的LLM推理框架將具有更廣泛的應(yīng)用前景。PowerInfer-2雖然主要針對Android系統(tǒng),但其設(shè)計理念和技術(shù)可以擴展到其他操作系統(tǒng)如iOS。未來的研究可以探索如何使這些技術(shù)更容易地遷移到不同的平臺和設(shè)備上。

通過持續(xù)的研究和創(chuàng)新,未來的LLM推理技術(shù)有望在智能手機及其他移動設(shè)備上提供更加智能、高效和安全的服務(wù),極大地豐富用戶的數(shù)字體驗。

本文轉(zhuǎn)載自 ??AI論文解讀??,作者:柏企

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦