自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

微軟提出LLM-dCache:GTP驅(qū)動(dòng)本地?cái)?shù)據(jù)緩存優(yōu)化的大模型

發(fā)布于 2024-10-8 15:37

瀏覽

0收藏

微軟提出LLM-dCache:GTP驅(qū)動(dòng)本地?cái)?shù)據(jù)緩存優(yōu)化的大模型-AI.x社區(qū)

大型語(yǔ)言模型（LLM）在系統(tǒng)級(jí)優(yōu)化中的新進(jìn)展

近年來(lái)，大型語(yǔ)言模型（LLM）在解決復(fù)雜問(wèn)題的推理能力方面取得了顯著進(jìn)展，使其能夠有效管理數(shù)千種工具和API調(diào)用。這些改進(jìn)釋放了它們?cè)诖笠?guī)模系統(tǒng)中的潛力，包括UI/網(wǎng)絡(luò)界面、移動(dòng)應(yīng)用程序、SQL后端和遠(yuǎn)程感應(yīng)平臺(tái)。這些用途通過(guò)需要集成各種API來(lái)加載、過(guò)濾、處理和跨多個(gè)時(shí)間和空間維度可視化數(shù)據(jù)，體現(xiàn)了系統(tǒng)級(jí)的復(fù)雜性。

隨著Copilots規(guī)模的擴(kuò)大，底層堆棧的開銷從云端點(diǎn)到本地執(zhí)行設(shè)備都在增加，這促使我們從根本上改變?cè)O(shè)計(jì)基于LLM的大規(guī)模系統(tǒng)和軟件的方式。然而，早期的系統(tǒng)優(yōu)化主要針對(duì)簡(jiǎn)化的查詢或定義良好的基準(zhǔn)，可能無(wú)法捕捉系統(tǒng)級(jí)任務(wù)模式和數(shù)據(jù)依賴性的細(xì)微差別。在現(xiàn)實(shí)的LLM工作負(fù)載中，數(shù)據(jù)顯示出顯著的可重用性。例如，一個(gè)地理空間分析師可能會(huì)問(wèn)：“顯示加州紐波特海灘周圍的衛(wèi)星圖像?！彪S后的提示是“現(xiàn)在，在這個(gè)區(qū)域檢測(cè)飛機(jī)”，這展示了一個(gè)數(shù)據(jù)元素被反復(fù)訪問(wèn)的場(chǎng)景。

在這項(xiàng)工作中，我們從類似于CPU緩存系統(tǒng)中觀察到的時(shí)間和空間可重用性模式中汲取靈感，我們引入了LLM-dCache，一種GPT驅(qū)動(dòng)的緩存策略，用于優(yōu)化LLM數(shù)據(jù)訪問(wèn)模式。我們的關(guān)鍵直覺在于一種新穎的設(shè)計(jì)選擇，其中緩存管理無(wú)縫集成為L(zhǎng)LM可用的工具之一，實(shí)現(xiàn)了與現(xiàn)有的函數(shù)調(diào)用機(jī)制和基線代理兼容的完全GPT驅(qū)動(dòng)的即插即用方法，同時(shí)施加最小的開銷。通過(guò)在大規(guī)模地理空間平臺(tái)上的評(píng)估，我們證明了我們的方法在不同的GPT和提示技術(shù)中實(shí)現(xiàn)了LLM延遲的減少。我們希望這些發(fā)現(xiàn)能激勵(lì)進(jìn)一步探索賦予LLM其他系統(tǒng)級(jí)優(yōu)化的可能性。

論文標(biāo)題：LLM-dCache: Improving Tool-Augmented LLMs with GPT-Driven Localized Data Caching

機(jī)構(gòu)：Microsoft Corporation, USA; Southern Illinois University, USA; University of Pittsburgh, USA

論文鏈接：https://arxiv.org/pdf/2406.06799.pdf

LLM-dCache的概念與設(shè)計(jì)動(dòng)機(jī)

1. 從CPU緩存系統(tǒng)中獲取靈感

LLM-dCache的設(shè)計(jì)靈感來(lái)源于CPU緩存系統(tǒng)，特別是其對(duì)時(shí)間和空間可重用性模式的利用。在CPU緩存中，頻繁訪問(wèn)的數(shù)據(jù)被存儲(chǔ)在快速訪問(wèn)的硬件中，以減少數(shù)據(jù)檢索時(shí)間和提高處理效率。類似地，LLM-dCache旨在通過(guò)緩存經(jīng)常被重新訪問(wèn)的數(shù)據(jù)來(lái)優(yōu)化大型語(yǔ)言模型（LLM）的數(shù)據(jù)訪問(wèn)模式，從而減少延遲并提高系統(tǒng)效率。

2. 針對(duì)大規(guī)模系統(tǒng)的緩存策略

在大規(guī)模系統(tǒng)中，如地理空間平臺(tái)，數(shù)據(jù)的重用性顯著，例如在連續(xù)的查詢中多次訪問(wèn)相同的衛(wèi)星圖像數(shù)據(jù)。LLM-dCache通過(guò)將緩存操作集成為L(zhǎng)LM可調(diào)用的API工具，使得緩存管理能夠無(wú)縫地融入到LLM的操作中。這種設(shè)計(jì)不僅適應(yīng)了大規(guī)模數(shù)據(jù)處理的需求，還通過(guò)減少對(duì)主存儲(chǔ)的訪問(wèn)需求，顯著提高了任務(wù)處理速度。

微軟提出LLM-dCache:GTP驅(qū)動(dòng)本地?cái)?shù)據(jù)緩存優(yōu)化的大模型-AI.x社區(qū)

緩存操作的集成與實(shí)現(xiàn)

1. 緩存讀取操作

在LLM-dCache中，緩存讀取操作被設(shè)計(jì)為GPT的一部分決策過(guò)程。當(dāng)LLM接收到用戶查詢時(shí)，它會(huì)檢查當(dāng)前的緩存內(nèi)容，并決定是否執(zhí)行緩存加載工具。例如，如果用戶請(qǐng)求的數(shù)據(jù)已經(jīng)存在于緩存中，則LLM會(huì)直接從緩存中讀取數(shù)據(jù)，而不是重新從數(shù)據(jù)庫(kù)或其他存儲(chǔ)系統(tǒng)加載。

2. 緩存更新策略

LLM-dCache采用最近最少使用（LRU）策略作為主要的緩存更新策略，并通過(guò)GPT來(lái)動(dòng)態(tài)管理緩存更新。在每輪操作中，GPT根據(jù)當(dāng)前的緩存狀態(tài)和新的數(shù)據(jù)加載操作，決定如何更新緩存。這種策略不僅優(yōu)化了緩存的使用效率，還減少了因緩存不命中而重新加載數(shù)據(jù)的需要。

3. GPT工具作為緩存操作的實(shí)現(xiàn)

將緩存功能作為GPT工具的一部分，簡(jiǎn)化了緩存操作的實(shí)現(xiàn)，并使其與平臺(tái)無(wú)關(guān)。這種方法不僅減少了需要進(jìn)行的更改，還允許LLM自主管理緩存操作，從而在出現(xiàn)緩存未命中時(shí)，LLM可以重新評(píng)估其工具序列，以實(shí)時(shí)糾正工具選擇中的不準(zhǔn)確性。這種動(dòng)態(tài)適應(yīng)性是系統(tǒng)優(yōu)化中的關(guān)鍵。

實(shí)驗(yàn)設(shè)置與數(shù)據(jù)集

1. GeoLLM-Engine平臺(tái)介紹

GeoLLM-Engine是一個(gè)大規(guī)模的、可參數(shù)化的LLM引擎，專門用于處理地理空間任務(wù)。該平臺(tái)設(shè)計(jì)用于捕捉代理性能，配備了長(zhǎng)期多工具LLM操作，這些操作需要頻繁地檢索和過(guò)濾數(shù)據(jù)。平臺(tái)還集成了一整套開源API、交互式地圖用戶界面、RAG和數(shù)據(jù)檢索工具，擁有超過(guò)110萬(wàn)張衛(wèi)星圖像。

2. 數(shù)據(jù)集的構(gòu)建與特點(diǎn)

為了測(cè)試GeoLLM-Engine的性能，我們擴(kuò)展了GeoLLM-Engine采樣器以獲取GeoLLM-Engine-1k數(shù)據(jù)集的變體。通過(guò)調(diào)整采樣率參數(shù)，并加入控制數(shù)據(jù)重用可能性的參數(shù)，我們選擇性地采樣了80%概率需要已在緩存中的數(shù)據(jù)的提示，構(gòu)建了一個(gè)包含1000個(gè)多步驟提示的測(cè)試數(shù)據(jù)集（總共約50000個(gè)工具調(diào)用）。此外，我們還準(zhǔn)備了一個(gè)包含500個(gè)查詢的小型數(shù)據(jù)集用于分析。最后，我們使用模型檢查器模塊來(lái)驗(yàn)證生成任務(wù)的功能正確性。

實(shí)驗(yàn)結(jié)果與分析

1. 不同配置下的任務(wù)完成時(shí)間比較

根據(jù)實(shí)驗(yàn)結(jié)果，LLM-dCache在不同配置下（包括GPT-4和GPT-3.5，以及Chain-of-Thought和ReAct技術(shù)，無(wú)論是少數(shù)樣本還是零樣本場(chǎng)景）平均能夠?qū)⑷蝿?wù)完成時(shí)間提高1.24倍（表I）。這表明緩存策略不會(huì)降低輸出質(zhì)量和代理的功能性，代理指標(biāo)仍在既定的方差范圍內(nèi)。

2. 緩存策略的有效性分析

通過(guò)對(duì)不同的緩存策略（LRU、LFU、RR和FIFO）進(jìn)行分析，我們發(fā)現(xiàn)在數(shù)據(jù)重用率高的情況下，不同策略之間的延遲差異不明顯（表II頂部）。這表明數(shù)據(jù)重用模式而非模型選擇或提示策略是影響性能的主要因素。此外，我們還進(jìn)行了多個(gè)小型驗(yàn)證子集的分析，每個(gè)子集包含500個(gè)查詢，但具有不同的重用率，結(jié)果顯示更高的重用率與更大的延遲節(jié)省相關(guān)。

微軟提出LLM-dCache:GTP驅(qū)動(dòng)本地?cái)?shù)據(jù)緩存優(yōu)化的大模型-AI.x社區(qū)

通過(guò)將緩存操作作為GPT工具進(jìn)行提示，我們的實(shí)驗(yàn)顯示，GPT驅(qū)動(dòng)的緩存操作在性能指標(biāo)和延遲方面與程序化緩存操作非常接近，這證明了GPT成功執(zhí)行系統(tǒng)優(yōu)化任務(wù)的能力（表III）。這種方法展示了LLM在傳統(tǒng)程序化解決方案之外，指導(dǎo)緩存管理的多功能性和潛力。

微軟提出LLM-dCache:GTP驅(qū)動(dòng)本地?cái)?shù)據(jù)緩存優(yōu)化的大模型-AI.x社區(qū)

討論：GPT驅(qū)動(dòng)的緩存操作與傳統(tǒng)編程實(shí)現(xiàn)的比較

1. GPT驅(qū)動(dòng)的緩存操作

GPT驅(qū)動(dòng)的緩存操作，如LLM-dCache所示，通過(guò)將緩存操作作為可調(diào)用的API工具暴露給GPT，使其能夠動(dòng)態(tài)地讀取和更新緩存數(shù)據(jù)以響應(yīng)用戶查詢。這種方法允許GPT在上下文提示的幫助下自主管理緩存操作，例如通過(guò)提示解釋LRU方案。這種集成方式使得緩存讀取和更新操作成為GPT的決策過(guò)程的一部分，從而只需很少的更改。此外，賦予LLM對(duì)緩存決策的自主權(quán)還能夠處理緩存未命中的情況：在功能調(diào)用失敗時(shí)，LLM會(huì)被提示重新評(píng)估其工具序列，就像處理任何其他工具選擇失誤一樣。

2. 傳統(tǒng)編程實(shí)現(xiàn)的緩存操作

傳統(tǒng)的編程實(shí)現(xiàn)緩存操作通常涉及直接在代碼中硬編碼緩存邏輯，如使用特定的緩存更新策略（LRU、LFU等）和緩存大小限制。這種方法在效率和可靠性方面可以達(dá)到很高的標(biāo)準(zhǔn)，因?yàn)樗苯涌刂屏怂械牡讓硬僮鳎狈`活性，并且通常需要針對(duì)每個(gè)應(yīng)用程序或系統(tǒng)進(jìn)行定制。

3. 性能比較

根據(jù)研究，GPT驅(qū)動(dòng)的緩存操作與傳統(tǒng)編程實(shí)現(xiàn)的緩存操作在性能指標(biāo)和延遲方面非常相似，表明GPT能夠成功執(zhí)行系統(tǒng)優(yōu)化任務(wù)。例如，GPT驅(qū)動(dòng)的變體在緩存“命中率”和延遲方面與完全編程方法相匹配，后者可以被視為效果和可靠性的上限。

限制與未來(lái)工作：擴(kuò)展到更多系統(tǒng)級(jí)優(yōu)化和其他計(jì)算環(huán)境

1. 限制

當(dāng)前的研究主要集中在云優(yōu)先環(huán)境中的代理性能和平均延遲上，這涉及到大量使用云端點(diǎn)。雖然這為系統(tǒng)性能提供了一定的基準(zhǔn)，但它限制了在不依賴云基礎(chǔ)設(shè)施的環(huán)境中的應(yīng)用廣泛性。此外，目前的實(shí)現(xiàn)主要關(guān)注地理空間數(shù)據(jù)，這可能限制了其在其他類型的數(shù)據(jù)密集型任務(wù)中的應(yīng)用。

2. 未來(lái)工作

為了克服這些限制并進(jìn)一步提升系統(tǒng)級(jí)優(yōu)化的能力，未來(lái)的工作將探索將GPT驅(qū)動(dòng)的緩存操作擴(kuò)展到其他計(jì)算環(huán)境，如本地執(zhí)行設(shè)備，這可能包括使用能夠在本地運(yùn)行的GPT替代品，如Llama-3和Phi-3.5。此外，計(jì)劃將評(píng)估擴(kuò)展到更廣泛的任務(wù)范圍，包括那些在最近的系統(tǒng)級(jí)LLM優(yōu)化論文中考慮的正交任務(wù)。

通過(guò)這些努力，希望能夠進(jìn)一步利用LLM進(jìn)行系統(tǒng)級(jí)優(yōu)化，以提高復(fù)雜數(shù)據(jù)密集型環(huán)境中的系統(tǒng)效率。

總結(jié)：LLM-dCache的貢獻(xiàn)與系統(tǒng)級(jí)優(yōu)化的潛力

在大型語(yǔ)言模型（LLM）的發(fā)展中，LLM-dCache的引入標(biāo)志著一個(gè)重要的進(jìn)步，它通過(guò)緩存機(jī)制優(yōu)化了數(shù)據(jù)訪問(wèn)模式，顯著提升了系統(tǒng)效率。本章節(jié)將總結(jié)LLM-dCache的主要貢獻(xiàn)，并探討其在系統(tǒng)級(jí)優(yōu)化中的潛力。

1. LLM-dCache的核心貢獻(xiàn)

LLM-dCache通過(guò)將緩存操作作為可調(diào)用的API工具集成到LLM中，使得大型語(yǔ)言模型能夠自主管理緩存操作。這種設(shè)計(jì)不僅減少了對(duì)傳統(tǒng)程序邏輯的依賴，還提高了緩存管理的靈活性和效率。例如，在處理地理空間數(shù)據(jù)時(shí)，LLM-dCache能夠根據(jù)數(shù)據(jù)的重用模式動(dòng)態(tài)調(diào)整緩存內(nèi)容，從而減少了數(shù)據(jù)加載時(shí)間并提高了任務(wù)完成速度。

2. 系統(tǒng)級(jí)優(yōu)化的實(shí)現(xiàn)

通過(guò)將緩存操作嵌入到LLM的決策過(guò)程中，LLM-dCache有效地將系統(tǒng)優(yōu)化的決策權(quán)下放給了語(yǔ)言模型本身。這一策略不僅簡(jiǎn)化了系統(tǒng)設(shè)計(jì)，還提高了操作的靈活性。在實(shí)際應(yīng)用中，這意味著LLM可以根據(jù)當(dāng)前的任務(wù)需求和數(shù)據(jù)狀態(tài)，自主決定何時(shí)讀取或更新緩存，從而優(yōu)化整體的系統(tǒng)性能。

3. 提升任務(wù)處理速度和準(zhǔn)確性

在多個(gè)測(cè)試場(chǎng)景中，LLM-dCache顯示出了顯著的性能提升。例如，在地理空間平臺(tái)上的評(píng)估顯示，通過(guò)使用LLM-dCache，任務(wù)完成時(shí)間平均縮短了1.24倍。此外，緩存策略的優(yōu)化還確保了在不同的模型和提示技術(shù)中，輸出的質(zhì)量和功能性不受影響。

4. 對(duì)未來(lái)系統(tǒng)級(jí)優(yōu)化的啟示

LLM-dCache的成功實(shí)施為未來(lái)的系統(tǒng)級(jí)優(yōu)化提供了新的思路。通過(guò)進(jìn)一步探索和擴(kuò)展這種以LLM為中心的優(yōu)化策略，我們可以將其應(yīng)用于更廣泛的任務(wù)和環(huán)境中，如動(dòng)態(tài)電壓頻率調(diào)整（DVFS）、核心分配和熱管理等。此外，這種策略的推廣還可能促進(jìn)其他非GPT工具增強(qiáng)型代理在不同計(jì)算環(huán)境中的無(wú)縫集成。

總之，LLM-dCache不僅提升了大型語(yǔ)言模型在處理復(fù)雜數(shù)據(jù)任務(wù)時(shí)的效率和靈活性，還展示了利用LLM進(jìn)行系統(tǒng)級(jí)優(yōu)化的巨大潛力。隨著技術(shù)的進(jìn)一步發(fā)展，我們期待看到更多基于LLM的系統(tǒng)優(yōu)化解決方案的出現(xiàn)。

本文轉(zhuǎn)載自 ??AI論文解讀??，作者：柏企

標(biāo)簽

已于2024-10-9 09:39:06修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

長(zhǎng)文本殺不死RAG：SQL+向量驅(qū)動(dòng)大模型和大數(shù)據(jù)新范式，MyScale AI數(shù)據(jù)庫(kù)正式開源

輕薄滴假象 ? 3127瀏覽 ? 0回復(fù)
拯救被「掰彎」的GPT-4！西交微軟北大聯(lián)合提出IN2訓(xùn)練治療LLM「中間迷失」

duhorse ? 1981瀏覽 ? 0回復(fù)
【LLM】對(duì)大語(yǔ)言模型微調(diào)優(yōu)化的研究

sbf_2000 ? 3465瀏覽 ? 0回復(fù)
應(yīng)用程序任務(wù)驅(qū)動(dòng)：詳細(xì)解析LLM的評(píng)估指標(biāo)

51CTO內(nèi)容精選 ? 3089瀏覽 ? 0回復(fù)
麻省理工提出“跨層注意力”，極大優(yōu)化Transformer緩存

Aceryt ? 3316瀏覽 ? 0回復(fù)
編碼大模型系列：Meta創(chuàng)新的“代碼編譯優(yōu)化”的LLM

魯班模錘1 ? 3394瀏覽 ? 0回復(fù)
AI技術(shù)新前沿本地LLM模型推理訓(xùn)練加速

AIGC觀察者 ? 3042瀏覽 ? 0回復(fù)
你想在本地部署大模型嗎？本地部署大模型的三種工具

AI探索時(shí)代 ? 4811瀏覽 ? 0回復(fù)
混合模型：HybridLLM、RouterLLM 等優(yōu)化 LLM 推理成本的新思路

amei2000go ? 4481瀏覽 ? 0回復(fù)
谷歌提出視覺記憶方法，讓大模型訓(xùn)練數(shù)據(jù)更靈活

Aceryt ? 1828瀏覽 ? 0回復(fù)
微軟 RetrievalAttention: LLM+ANN, LLM 推理速度與精度的平衡

amei2000go ? 2327瀏覽 ? 0回復(fù)
Crawl4AI：AI驅(qū)動(dòng)的網(wǎng)頁(yè)抓取神器，結(jié)合LLM實(shí)現(xiàn)自動(dòng)化數(shù)據(jù)提取與處理

老蛀蟲 ? 4494瀏覽 ? 0回復(fù)
如何借助Cortex運(yùn)行本地LLM

51CTO內(nèi)容精選 ? 1778瀏覽 ? 0回復(fù)
利用 Schemonic 優(yōu)化數(shù)據(jù)庫(kù)模式描述以降低大語(yǔ)言模型成本

AIGC前沿技術(shù)追蹤 ? 2167瀏覽 ? 0回復(fù)
本地知識(shí)庫(kù)優(yōu)化，讓 AI 回答更精準(zhǔn)

wsp_ping ? 3203瀏覽 ? 0回復(fù)
如何優(yōu)化大型語(yǔ)言模型（LLM）的分塊策略

51CTO內(nèi)容精選 ? 2286瀏覽 ? 0回復(fù)
AI驅(qū)動(dòng)數(shù)據(jù)存儲(chǔ)變革：2025年五大趨勢(shì)展望

chengganfei ? 2388瀏覽 ? 0回復(fù)
DeepSeek核心架構(gòu)-MLA：剖析低秩聯(lián)合壓縮優(yōu)化KV緩存、提升推理效率的技術(shù)細(xì)節(jié)

南夏的算法驛站 ? 3799瀏覽 ? 0回復(fù)
AI大模型本地化方案：Xinference 本地運(yùn)行大模型

風(fēng)云2002_1 ? 2015瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

深度剖析：為何擴(kuò)散模型會(huì)成為語(yǔ)言模型的未來(lái)？ 2025-03-14 07:45:15發(fā)布
一文讀懂 RAG-Gym：用過(guò)程監(jiān)督優(yōu)化推理與搜索智能體 2025-03-04 10:43:21發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： 3D語(yǔ)言模型的新突破：解鎖虛擬現(xiàn)實(shí)中的'幻覺'問(wèn)題

下一篇： LLM新巔峰||北大提出mllm-NPU,賦能1000字/秒的設(shè)備端LLM預(yù)填充

社區(qū)精華內(nèi)容

目錄