自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何通過壓縮提示降低GPT-4的成本 原創(chuàng)

發(fā)布于 2024-7-22 08:54
瀏覽
0收藏

如果使用得當(dāng),LLMLingua可以降低使用高級(jí)LLM的成本,并使更廣泛的用戶和應(yīng)用程序可以使用LLM。

像GPT-4和Claude這樣的大型語(yǔ)言模型(LLM)可以通過良好的提示工程學(xué)習(xí)新任務(wù)。然而,較長(zhǎng)的提示會(huì)增加使用這些模型的成本,并且還會(huì)減慢它們的運(yùn)行速度。

LLMLingua是微軟公司開發(fā)的一項(xiàng)新技術(shù),通過消除無(wú)關(guān)部分來(lái)壓縮提示。值得注意的是,LLMLingua可以在不影響模型響應(yīng)質(zhì)量的情況下將提示的規(guī)模壓縮高達(dá)20倍。如果使用得當(dāng),LLMLingua可以降低使用高級(jí)LLM的成本,并使更廣泛的用戶和應(yīng)用程序可以使用LLM。

提示工程的成本

提示工程是利用LLM進(jìn)行實(shí)際應(yīng)用的基石。諸如思維鏈、場(chǎng)景學(xué)習(xí)以及集成相關(guān)文檔或歷史對(duì)話等技術(shù)有助于增強(qiáng)特定任務(wù)的模型性能。然而,這些方法通常需要更長(zhǎng)的提示,有時(shí)可能達(dá)到數(shù)千個(gè)令牌。這可能會(huì)對(duì)使用高級(jí)模型的成本產(chǎn)生重大影響,尤其是像GPT-4這樣成本高昂的LLM。

雖然有不同的方法來(lái)優(yōu)化模型和降低成本,但一個(gè)研究方向是利用自然語(yǔ)言固有的冗余來(lái)壓縮提示。有些方法通過提示調(diào)優(yōu)來(lái)學(xué)習(xí)專門的令牌,以減少推理期間所需的令牌數(shù)量。

然而,這些方法通常是特定于任務(wù)的,可能需要對(duì)整個(gè)模型進(jìn)行微調(diào),從而限制了它們的使用,并使它們與基于API的模型(例如ChatGPT)不兼容。

其他技術(shù)使用LLM來(lái)總結(jié)對(duì)話,以創(chuàng)建濃縮的記憶和知識(shí)表示。但是,這些方法通常涉及對(duì)LLM的多次成本高昂的調(diào)用。

選擇性場(chǎng)景是一種令人關(guān)注的方法,使用一個(gè)規(guī)模較小的語(yǔ)言模型來(lái)評(píng)估文本片段的信息量,丟棄信息較少的內(nèi)容來(lái)壓縮提示。微軟公司的最新技術(shù)建立在這種方法的基礎(chǔ)上,并對(duì)其進(jìn)行了改進(jìn)。

LLMLingua

如何通過壓縮提示降低GPT-4的成本-AI.x社區(qū)

LLMLingua是一種創(chuàng)新技術(shù),它將提示從粗粒度壓縮到細(xì)粒度級(jí)別。這種方法由幾個(gè)部分組成。

第一個(gè)組成部分是“預(yù)算控制器”,它動(dòng)態(tài)地將不同的壓縮比分配給原始提示的元素,例如指令、演示和問題?;驹瓌t是指令和問題通常對(duì)生成的結(jié)果有更直接的影響,因?yàn)樗鼈儼薒LM生成答案所需的基本知識(shí)。與其相反,當(dāng)提示包含多個(gè)演示時(shí),信息可能是重復(fù)的。因此,預(yù)算控制器為指令和問題分配更大的預(yù)算(意味著更小的壓縮比),同時(shí)為演示分配更小的預(yù)算。

LLMLingua使用較小的語(yǔ)言模型(如GPT-2或LLaMA)來(lái)管理這一分配。該模型計(jì)算每個(gè)演示的困惑度,作為文本與模型響應(yīng)相關(guān)性的衡量標(biāo)準(zhǔn)。然后,LLMLingua優(yōu)先考慮具有最高困惑值的演示,將其納入提示中,直到滿足演示的令牌預(yù)算。剩下的預(yù)算用于完善指導(dǎo)和問題。

LLMLingua的第二個(gè)組成部分是迭代令牌級(jí)提示壓縮(ITPC)算法,它允許更細(xì)粒度的壓縮。迭代令牌級(jí)提示壓縮(ITPC)首先對(duì)提示進(jìn)行分段,然后使用小模型確定這些分段之間的困惑度分布。接著,該算法構(gòu)造一個(gè)壓縮提示,該提示保留具有高困惑度的令牌,通過考慮令牌之間的條件依賴關(guān)系來(lái)確保保留關(guān)鍵信息。

第三個(gè)組成部分涉及基于指令調(diào)優(yōu)的方法,該方法同步大型和小型語(yǔ)言模型的分布模式。這個(gè)過程從一個(gè)預(yù)先訓(xùn)練好的小型語(yǔ)言模型開始,然后使用較大的LLM生成的數(shù)據(jù)對(duì)其進(jìn)行微調(diào)。通過指令調(diào)優(yōu),小模型的行為與大模型的行為更加一致,增強(qiáng)了整體壓縮過程。

測(cè)試LLMLingua

在他們的實(shí)驗(yàn)中,研究人員使用GPT-3.5 Turbo和Claude 1.3作為主要LLM,并使用Alpaca-7B或GPT2-Alpaca完成壓縮任務(wù)。他們?cè)诟鞣N基準(zhǔn)測(cè)試中測(cè)試了LLMLingua,包括用于推理和場(chǎng)景學(xué)習(xí)的GSM8k和BBH,以及用于會(huì)話場(chǎng)景理解和摘要任務(wù)的ShareGPT和Arxiv-March23。

研究人員在發(fā)布的一份報(bào)告說(shuō):“在幾乎所有的實(shí)驗(yàn)中,我們提出的方法始終以很大的優(yōu)勢(shì)優(yōu)于先前的方法?!?/p>

在GSM8K和BBH的推理和場(chǎng)景學(xué)習(xí)基準(zhǔn)測(cè)試中,LLMLingua不僅取得了比全景(Full-shot)方法更高的結(jié)果,而且獲得了5倍和3倍的顯著壓縮比。

研究人員寫道:“這很好地證明了我們的壓縮提示有效地保留了原始提示中包含的推理信息。”

對(duì)于ShareGPT和Arxiv-March23上的場(chǎng)景理解基準(zhǔn),LLMLingua將提示壓縮了9倍和3.3倍。這表明LLMLingua在壓縮初始提示時(shí)保留了它們的語(yǔ)義完整性。此外,LLMLingua在準(zhǔn)確性和壓縮程度上都優(yōu)于其他提示壓縮方法。在某些情況下,它在原始提示符上實(shí)現(xiàn)了高達(dá)20倍的壓縮。

盡管涉及多個(gè)步驟和兩個(gè)模型的復(fù)雜性,LLMLingua設(shè)法實(shí)現(xiàn)了從1.7到5.7倍的加速,并且計(jì)算開銷最小。

研究人員總結(jié)說(shuō):“我們的方法具有重大的實(shí)際意義,因?yàn)樗粌H降低了計(jì)算成本,而且為L(zhǎng)LM中適應(yīng)更長(zhǎng)的場(chǎng)景提供了一種潛在的解決方案。”

為了使LLMLingua得到更廣泛的采用,微軟公司通過一個(gè)易于使用的開源庫(kù)提供了LLMLingua。開發(fā)人員可以使用這個(gè)庫(kù)將LLMLingua集成到他們自己的應(yīng)用程序中。

原文標(biāo)題:Reduce the costs of GPT-4 with prompt compression,作者:Ben Dickson

鏈接:https://bdtechtalks.com/2023/12/20/llmlingua-prompt-compression/

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦