自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟提出LLM-dCache:GTP驅(qū)動(dòng)本地?cái)?shù)據(jù)緩存優(yōu)化的大模型

發(fā)布于 2024-10-8 15:37
瀏覽
0收藏

微軟提出LLM-dCache:GTP驅(qū)動(dòng)本地?cái)?shù)據(jù)緩存優(yōu)化的大模型-AI.x社區(qū)

大型語(yǔ)言模型(LLM)在系統(tǒng)級(jí)優(yōu)化中的新進(jìn)展

近年來(lái),大型語(yǔ)言模型(LLM)在解決復(fù)雜問(wèn)題的推理能力方面取得了顯著進(jìn)展,使其能夠有效管理數(shù)千種工具和API調(diào)用。這些改進(jìn)釋放了它們?cè)诖笠?guī)模系統(tǒng)中的潛力,包括UI/網(wǎng)絡(luò)界面、移動(dòng)應(yīng)用程序、SQL后端和遠(yuǎn)程感應(yīng)平臺(tái)。這些用途通過(guò)需要集成各種API來(lái)加載、過(guò)濾、處理和跨多個(gè)時(shí)間和空間維度可視化數(shù)據(jù),體現(xiàn)了系統(tǒng)級(jí)的復(fù)雜性。

隨著Copilots規(guī)模的擴(kuò)大,底層堆棧的開銷從云端點(diǎn)到本地執(zhí)行設(shè)備都在增加,這促使我們從根本上改變?cè)O(shè)計(jì)基于LLM的大規(guī)模系統(tǒng)和軟件的方式。然而,早期的系統(tǒng)優(yōu)化主要針對(duì)簡(jiǎn)化的查詢或定義良好的基準(zhǔn),可能無(wú)法捕捉系統(tǒng)級(jí)任務(wù)模式和數(shù)據(jù)依賴性的細(xì)微差別。在現(xiàn)實(shí)的LLM工作負(fù)載中,數(shù)據(jù)顯示出顯著的可重用性。例如,一個(gè)地理空間分析師可能會(huì)問(wèn):“顯示加州紐波特海灘周圍的衛(wèi)星圖像?!彪S后的提示是“現(xiàn)在,在這個(gè)區(qū)域檢測(cè)飛機(jī)”,這展示了一個(gè)數(shù)據(jù)元素被反復(fù)訪問(wèn)的場(chǎng)景。

在這項(xiàng)工作中,我們從類似于CPU緩存系統(tǒng)中觀察到的時(shí)間和空間可重用性模式中汲取靈感,我們引入了LLM-dCache,一種GPT驅(qū)動(dòng)的緩存策略,用于優(yōu)化LLM數(shù)據(jù)訪問(wèn)模式。我們的關(guān)鍵直覺在于一種新穎的設(shè)計(jì)選擇,其中緩存管理無(wú)縫集成為L(zhǎng)LM可用的工具之一,實(shí)現(xiàn)了與現(xiàn)有的函數(shù)調(diào)用機(jī)制和基線代理兼容的完全GPT驅(qū)動(dòng)的即插即用方法,同時(shí)施加最小的開銷。通過(guò)在大規(guī)模地理空間平臺(tái)上的評(píng)估,我們證明了我們的方法在不同的GPT和提示技術(shù)中實(shí)現(xiàn)了LLM延遲的減少。我們希望這些發(fā)現(xiàn)能激勵(lì)進(jìn)一步探索賦予LLM其他系統(tǒng)級(jí)優(yōu)化的可能性。

論文標(biāo)題:LLM-dCache: Improving Tool-Augmented LLMs with GPT-Driven Localized Data Caching

機(jī)構(gòu):Microsoft Corporation, USA; Southern Illinois University, USA; University of Pittsburgh, USA

論文鏈接:https://arxiv.org/pdf/2406.06799.pdf

LLM-dCache的概念與設(shè)計(jì)動(dòng)機(jī)

1. 從CPU緩存系統(tǒng)中獲取靈感

LLM-dCache的設(shè)計(jì)靈感來(lái)源于CPU緩存系統(tǒng),特別是其對(duì)時(shí)間和空間可重用性模式的利用。在CPU緩存中,頻繁訪問(wèn)的數(shù)據(jù)被存儲(chǔ)在快速訪問(wèn)的硬件中,以減少數(shù)據(jù)檢索時(shí)間和提高處理效率。類似地,LLM-dCache旨在通過(guò)緩存經(jīng)常被重新訪問(wèn)的數(shù)據(jù)來(lái)優(yōu)化大型語(yǔ)言模型(LLM)的數(shù)據(jù)訪問(wèn)模式,從而減少延遲并提高系統(tǒng)效率。

2. 針對(duì)大規(guī)模系統(tǒng)的緩存策略

在大規(guī)模系統(tǒng)中,如地理空間平臺(tái),數(shù)據(jù)的重用性顯著,例如在連續(xù)的查詢中多次訪問(wèn)相同的衛(wèi)星圖像數(shù)據(jù)。LLM-dCache通過(guò)將緩存操作集成為L(zhǎng)LM可調(diào)用的API工具,使得緩存管理能夠無(wú)縫地融入到LLM的操作中。這種設(shè)計(jì)不僅適應(yīng)了大規(guī)模數(shù)據(jù)處理的需求,還通過(guò)減少對(duì)主存儲(chǔ)的訪問(wèn)需求,顯著提高了任務(wù)處理速度。

微軟提出LLM-dCache:GTP驅(qū)動(dòng)本地?cái)?shù)據(jù)緩存優(yōu)化的大模型-AI.x社區(qū)

緩存操作的集成與實(shí)現(xiàn)

1. 緩存讀取操作

在LLM-dCache中,緩存讀取操作被設(shè)計(jì)為GPT的一部分決策過(guò)程。當(dāng)LLM接收到用戶查詢時(shí),它會(huì)檢查當(dāng)前的緩存內(nèi)容,并決定是否執(zhí)行緩存加載工具。例如,如果用戶請(qǐng)求的數(shù)據(jù)已經(jīng)存在于緩存中,則LLM會(huì)直接從緩存中讀取數(shù)據(jù),而不是重新從數(shù)據(jù)庫(kù)或其他存儲(chǔ)系統(tǒng)加載。

2. 緩存更新策略

LLM-dCache采用最近最少使用(LRU)策略作為主要的緩存更新策略,并通過(guò)GPT來(lái)動(dòng)態(tài)管理緩存更新。在每輪操作中,GPT根據(jù)當(dāng)前的緩存狀態(tài)和新的數(shù)據(jù)加載操作,決定如何更新緩存。這種策略不僅優(yōu)化了緩存的使用效率,還減少了因緩存不命中而重新加載數(shù)據(jù)的需要。

3. GPT工具作為緩存操作的實(shí)現(xiàn)

將緩存功能作為GPT工具的一部分,簡(jiǎn)化了緩存操作的實(shí)現(xiàn),并使其與平臺(tái)無(wú)關(guān)。這種方法不僅減少了需要進(jìn)行的更改,還允許LLM自主管理緩存操作,從而在出現(xiàn)緩存未命中時(shí),LLM可以重新評(píng)估其工具序列,以實(shí)時(shí)糾正工具選擇中的不準(zhǔn)確性。這種動(dòng)態(tài)適應(yīng)性是系統(tǒng)優(yōu)化中的關(guān)鍵。

實(shí)驗(yàn)設(shè)置與數(shù)據(jù)集

1. GeoLLM-Engine平臺(tái)介紹

GeoLLM-Engine是一個(gè)大規(guī)模的、可參數(shù)化的LLM引擎,專門用于處理地理空間任務(wù)。該平臺(tái)設(shè)計(jì)用于捕捉代理性能,配備了長(zhǎng)期多工具LLM操作,這些操作需要頻繁地檢索和過(guò)濾數(shù)據(jù)。平臺(tái)還集成了一整套開源API、交互式地圖用戶界面、RAG和數(shù)據(jù)檢索工具,擁有超過(guò)110萬(wàn)張衛(wèi)星圖像。

2. 數(shù)據(jù)集的構(gòu)建與特點(diǎn)

為了測(cè)試GeoLLM-Engine的性能,我們擴(kuò)展了GeoLLM-Engine采樣器以獲取GeoLLM-Engine-1k數(shù)據(jù)集的變體。通過(guò)調(diào)整采樣率參數(shù),并加入控制數(shù)據(jù)重用可能性的參數(shù),我們選擇性地采樣了80%概率需要已在緩存中的數(shù)據(jù)的提示,構(gòu)建了一個(gè)包含1000個(gè)多步驟提示的測(cè)試數(shù)據(jù)集(總共約50000個(gè)工具調(diào)用)。此外,我們還準(zhǔn)備了一個(gè)包含500個(gè)查詢的小型數(shù)據(jù)集用于分析。最后,我們使用模型檢查器模塊來(lái)驗(yàn)證生成任務(wù)的功能正確性。

實(shí)驗(yàn)結(jié)果與分析

1. 不同配置下的任務(wù)完成時(shí)間比較

根據(jù)實(shí)驗(yàn)結(jié)果,LLM-dCache在不同配置下(包括GPT-4和GPT-3.5,以及Chain-of-Thought和ReAct技術(shù),無(wú)論是少數(shù)樣本還是零樣本場(chǎng)景)平均能夠?qū)⑷蝿?wù)完成時(shí)間提高1.24倍(表I)。這表明緩存策略不會(huì)降低輸出質(zhì)量和代理的功能性,代理指標(biāo)仍在既定的方差范圍內(nèi)。

2. 緩存策略的有效性分析

通過(guò)對(duì)不同的緩存策略(LRU、LFU、RR和FIFO)進(jìn)行分析,我們發(fā)現(xiàn)在數(shù)據(jù)重用率高的情況下,不同策略之間的延遲差異不明顯(表II頂部)。這表明數(shù)據(jù)重用模式而非模型選擇或提示策略是影響性能的主要因素。此外,我們還進(jìn)行了多個(gè)小型驗(yàn)證子集的分析,每個(gè)子集包含500個(gè)查詢,但具有不同的重用率,結(jié)果顯示更高的重用率與更大的延遲節(jié)省相關(guān)。

微軟提出LLM-dCache:GTP驅(qū)動(dòng)本地?cái)?shù)據(jù)緩存優(yōu)化的大模型-AI.x社區(qū)

通過(guò)將緩存操作作為GPT工具進(jìn)行提示,我們的實(shí)驗(yàn)顯示,GPT驅(qū)動(dòng)的緩存操作在性能指標(biāo)和延遲方面與程序化緩存操作非常接近,這證明了GPT成功執(zhí)行系統(tǒng)優(yōu)化任務(wù)的能力(表III)。這種方法展示了LLM在傳統(tǒng)程序化解決方案之外,指導(dǎo)緩存管理的多功能性和潛力。

微軟提出LLM-dCache:GTP驅(qū)動(dòng)本地?cái)?shù)據(jù)緩存優(yōu)化的大模型-AI.x社區(qū)

討論:GPT驅(qū)動(dòng)的緩存操作與傳統(tǒng)編程實(shí)現(xiàn)的比較

1. GPT驅(qū)動(dòng)的緩存操作

GPT驅(qū)動(dòng)的緩存操作,如LLM-dCache所示,通過(guò)將緩存操作作為可調(diào)用的API工具暴露給GPT,使其能夠動(dòng)態(tài)地讀取和更新緩存數(shù)據(jù)以響應(yīng)用戶查詢。這種方法允許GPT在上下文提示的幫助下自主管理緩存操作,例如通過(guò)提示解釋LRU方案。這種集成方式使得緩存讀取和更新操作成為GPT的決策過(guò)程的一部分,從而只需很少的更改。此外,賦予LLM對(duì)緩存決策的自主權(quán)還能夠處理緩存未命中的情況:在功能調(diào)用失敗時(shí),LLM會(huì)被提示重新評(píng)估其工具序列,就像處理任何其他工具選擇失誤一樣。

2. 傳統(tǒng)編程實(shí)現(xiàn)的緩存操作

傳統(tǒng)的編程實(shí)現(xiàn)緩存操作通常涉及直接在代碼中硬編碼緩存邏輯,如使用特定的緩存更新策略(LRU、LFU等)和緩存大小限制。這種方法在效率和可靠性方面可以達(dá)到很高的標(biāo)準(zhǔn),因?yàn)樗苯涌刂屏怂械牡讓硬僮鳎狈`活性,并且通常需要針對(duì)每個(gè)應(yīng)用程序或系統(tǒng)進(jìn)行定制。

3. 性能比較

根據(jù)研究,GPT驅(qū)動(dòng)的緩存操作與傳統(tǒng)編程實(shí)現(xiàn)的緩存操作在性能指標(biāo)和延遲方面非常相似,表明GPT能夠成功執(zhí)行系統(tǒng)優(yōu)化任務(wù)。例如,GPT驅(qū)動(dòng)的變體在緩存“命中率”和延遲方面與完全編程方法相匹配,后者可以被視為效果和可靠性的上限。

限制與未來(lái)工作:擴(kuò)展到更多系統(tǒng)級(jí)優(yōu)化和其他計(jì)算環(huán)境

1. 限制

當(dāng)前的研究主要集中在云優(yōu)先環(huán)境中的代理性能和平均延遲上,這涉及到大量使用云端點(diǎn)。雖然這為系統(tǒng)性能提供了一定的基準(zhǔn),但它限制了在不依賴云基礎(chǔ)設(shè)施的環(huán)境中的應(yīng)用廣泛性。此外,目前的實(shí)現(xiàn)主要關(guān)注地理空間數(shù)據(jù),這可能限制了其在其他類型的數(shù)據(jù)密集型任務(wù)中的應(yīng)用。

2. 未來(lái)工作

為了克服這些限制并進(jìn)一步提升系統(tǒng)級(jí)優(yōu)化的能力,未來(lái)的工作將探索將GPT驅(qū)動(dòng)的緩存操作擴(kuò)展到其他計(jì)算環(huán)境,如本地執(zhí)行設(shè)備,這可能包括使用能夠在本地運(yùn)行的GPT替代品,如Llama-3和Phi-3.5。此外,計(jì)劃將評(píng)估擴(kuò)展到更廣泛的任務(wù)范圍,包括那些在最近的系統(tǒng)級(jí)LLM優(yōu)化論文中考慮的正交任務(wù)。

通過(guò)這些努力,希望能夠進(jìn)一步利用LLM進(jìn)行系統(tǒng)級(jí)優(yōu)化,以提高復(fù)雜數(shù)據(jù)密集型環(huán)境中的系統(tǒng)效率。

總結(jié):LLM-dCache的貢獻(xiàn)與系統(tǒng)級(jí)優(yōu)化的潛力

在大型語(yǔ)言模型(LLM)的發(fā)展中,LLM-dCache的引入標(biāo)志著一個(gè)重要的進(jìn)步,它通過(guò)緩存機(jī)制優(yōu)化了數(shù)據(jù)訪問(wèn)模式,顯著提升了系統(tǒng)效率。本章節(jié)將總結(jié)LLM-dCache的主要貢獻(xiàn),并探討其在系統(tǒng)級(jí)優(yōu)化中的潛力。

1. LLM-dCache的核心貢獻(xiàn)

LLM-dCache通過(guò)將緩存操作作為可調(diào)用的API工具集成到LLM中,使得大型語(yǔ)言模型能夠自主管理緩存操作。這種設(shè)計(jì)不僅減少了對(duì)傳統(tǒng)程序邏輯的依賴,還提高了緩存管理的靈活性和效率。例如,在處理地理空間數(shù)據(jù)時(shí),LLM-dCache能夠根據(jù)數(shù)據(jù)的重用模式動(dòng)態(tài)調(diào)整緩存內(nèi)容,從而減少了數(shù)據(jù)加載時(shí)間并提高了任務(wù)完成速度。

2. 系統(tǒng)級(jí)優(yōu)化的實(shí)現(xiàn)

通過(guò)將緩存操作嵌入到LLM的決策過(guò)程中,LLM-dCache有效地將系統(tǒng)優(yōu)化的決策權(quán)下放給了語(yǔ)言模型本身。這一策略不僅簡(jiǎn)化了系統(tǒng)設(shè)計(jì),還提高了操作的靈活性。在實(shí)際應(yīng)用中,這意味著LLM可以根據(jù)當(dāng)前的任務(wù)需求和數(shù)據(jù)狀態(tài),自主決定何時(shí)讀取或更新緩存,從而優(yōu)化整體的系統(tǒng)性能。

3. 提升任務(wù)處理速度和準(zhǔn)確性

在多個(gè)測(cè)試場(chǎng)景中,LLM-dCache顯示出了顯著的性能提升。例如,在地理空間平臺(tái)上的評(píng)估顯示,通過(guò)使用LLM-dCache,任務(wù)完成時(shí)間平均縮短了1.24倍。此外,緩存策略的優(yōu)化還確保了在不同的模型和提示技術(shù)中,輸出的質(zhì)量和功能性不受影響。

4. 對(duì)未來(lái)系統(tǒng)級(jí)優(yōu)化的啟示

LLM-dCache的成功實(shí)施為未來(lái)的系統(tǒng)級(jí)優(yōu)化提供了新的思路。通過(guò)進(jìn)一步探索和擴(kuò)展這種以LLM為中心的優(yōu)化策略,我們可以將其應(yīng)用于更廣泛的任務(wù)和環(huán)境中,如動(dòng)態(tài)電壓頻率調(diào)整(DVFS)、核心分配和熱管理等。此外,這種策略的推廣還可能促進(jìn)其他非GPT工具增強(qiáng)型代理在不同計(jì)算環(huán)境中的無(wú)縫集成。

總之,LLM-dCache不僅提升了大型語(yǔ)言模型在處理復(fù)雜數(shù)據(jù)任務(wù)時(shí)的效率和靈活性,還展示了利用LLM進(jìn)行系統(tǒng)級(jí)優(yōu)化的巨大潛力。隨著技術(shù)的進(jìn)一步發(fā)展,我們期待看到更多基于LLM的系統(tǒng)優(yōu)化解決方案的出現(xiàn)。

本文轉(zhuǎn)載自 ??AI論文解讀??,作者:柏企

標(biāo)簽
已于2024-10-9 09:39:06修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦