自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

使用LLMLingua-2壓縮GPT-4和Claude提示

譯文
人工智能
LLMLingua-2與其他提示壓縮方法相比更快、更高效,并且需要更少的計(jì)算資源。對(duì)于涉及冗長(zhǎng)提示和壓縮的LLM應(yīng)用程序來(lái)說(shuō),它是一個(gè)很好的工具,可以節(jié)省大量成本,并獲得更好的用戶體驗(yàn)。

想了解更多AIGC的內(nèi)容,請(qǐng)?jiān)L問(wèn):

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

縮短發(fā)送給大型語(yǔ)言模型(LLM)的提示的長(zhǎng)度可以減少推理時(shí)間并降低成本。這是提示壓縮成為L(zhǎng)LM研究的一個(gè)熱門(mén)領(lǐng)域的原因。

清華大學(xué)和微軟公司的研究人員日前在發(fā)布的一篇論文中介紹了LLMLingua-2,這是一種任務(wù)不可論的新的提示壓縮技術(shù)。LLMLingua-2與其他提示壓縮方法相比更快、更高效,并且需要更少的計(jì)算資源。對(duì)于涉及冗長(zhǎng)提示和壓縮的LLM應(yīng)用程序來(lái)說(shuō),它是一個(gè)很好的工具,可以節(jié)省大量成本,并獲得更好的用戶體驗(yàn)。

任務(wù)感知和任務(wù)不可知的提示壓縮

思維鏈(CoT)推理、場(chǎng)景學(xué)習(xí)和檢索增強(qiáng)生成(RAG)等技術(shù)使LLM能夠處理訓(xùn)練數(shù)據(jù)中未包含的復(fù)雜任務(wù)和知識(shí)。

然而,冗長(zhǎng)提示的好處是以增加計(jì)算和財(cái)務(wù)需求為代價(jià)的。在一些LLM中,較長(zhǎng)的提示可能會(huì)降低模型處理場(chǎng)景信息能力的準(zhǔn)確性。

提示壓縮通過(guò)在保留重要信息的同時(shí)縮短原始文本來(lái)解決這些問(wèn)題。提示壓縮的基本假設(shè)是自然語(yǔ)言包含冗余,這可能對(duì)人類(lèi)理解有用,但對(duì)LLM來(lái)說(shuō)不是必要的。

提示壓縮可以分為“任務(wù)感知”和“任務(wù)不可知”兩種方法。任務(wù)感知壓縮根據(jù)下游任務(wù)或當(dāng)前查詢(xún)從提示符中刪除令牌。LongLLMLingua是一種流行的方法,它采用問(wèn)題感知的多步驟方法來(lái)估計(jì)令牌的信息熵并刪除冗余部分。其他方法使用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練模型,以壓縮來(lái)自下游任務(wù)的獎(jiǎng)勵(lì)信號(hào)的提示。任務(wù)感知壓縮的缺點(diǎn)是它們對(duì)其他任務(wù)的推廣能力有限。

另一方面,任務(wù)不可知的方法在不考慮特定任務(wù)的情況下壓縮提示,使其更適合于更廣泛的應(yīng)用程序和黑盒LLM。一些任務(wù)不可知論包括LLMLingua和選擇性場(chǎng)景(Selective Context)。這些方法使用諸如Llama-7B之類(lèi)的因果小語(yǔ)言模型(SLM)來(lái)評(píng)估令牌或詞匯單位的熵,并刪除那些不能添加有意義信息的令牌或詞匯單位。

LLMLingua-2是由原始LLMLingua的作者開(kāi)發(fā)的,是一種任務(wù)不可知的提示壓縮技術(shù)。

LLMLingua-2的工作原理

目前的任務(wù)不可知的壓縮方法有一些局限性,這導(dǎo)致研究人員創(chuàng)建了LLMLingua的后繼者。

微軟高級(jí)研究員、論文合著者Qianhui Wu表示:“信息熵可能是一種次優(yōu)的壓縮指標(biāo),因?yàn)樗c提示壓縮目標(biāo)不一致,并且只利用了單向場(chǎng)景,可能無(wú)法捕獲提示壓縮所需的所有基本信息?!?/p>

LLMLingua-2將提示符壓縮重新表述為一個(gè)分類(lèi)任務(wù),該任務(wù)指定每個(gè)令牌是應(yīng)該保留還是丟棄。它使用這個(gè)任務(wù)公式來(lái)創(chuàng)建一個(gè)提示壓縮訓(xùn)練數(shù)據(jù)集。然后,它使用數(shù)據(jù)集來(lái)訓(xùn)練用于壓縮任務(wù)的輕量級(jí)雙向Transformer編碼器模型。

Wu說(shuō),“通過(guò)這種方式,它可以從完全雙向場(chǎng)景中捕獲提示壓縮所需的所有基本信息,并保證壓縮之后的提示與原始提示的忠實(shí)性?!?/p>

LLMLingua-2有幾個(gè)關(guān)鍵的優(yōu)點(diǎn):首先,使用雙向編碼器確保它可以捕獲所有必要的信息,以進(jìn)行快速壓縮。其次,由于它使用更小的Transformer模型來(lái)學(xué)習(xí)壓縮目標(biāo),因此它具有更低的延遲。第三,它的設(shè)計(jì)是為了忠實(shí)于最初的提示,避免產(chǎn)生幻覺(jué)。

圖1 LLMLingua-2

訓(xùn)練壓縮模型

為了生成訓(xùn)練提示壓縮模型的數(shù)據(jù)集,研究人員使用數(shù)據(jù)蒸餾程序從強(qiáng)LLM中提取知識(shí)。他們向GPT-4提供提示,并指示它在保留基本信息和避免幻覺(jué)的同時(shí)減少令牌。

在獲得成對(duì)的原始文本及其壓縮版本之后,他們?yōu)樵嘉谋局械拿總€(gè)令牌分配一個(gè)二進(jìn)制標(biāo)簽,以確定壓縮之后應(yīng)該保留還是丟棄它。研究人員使用MeetingBank數(shù)據(jù)集創(chuàng)建了訓(xùn)練示例。

然后,他們?cè)跀?shù)據(jù)集上訓(xùn)練了一個(gè)稍微修改過(guò)的xlm-roberta-large和多語(yǔ)言BERT轉(zhuǎn)換模型,將標(biāo)記分類(lèi)為“保留”或“丟棄”?;贐ERT的模型的優(yōu)點(diǎn)是它們學(xué)習(xí)雙向特征,而不是只知道先前令牌的自回歸解碼器模型。這允許壓縮模型學(xué)習(xí)更豐富的相關(guān)性,從而實(shí)現(xiàn)更好的壓縮。

研究人員寫(xiě)道:“在推理過(guò)程中,我們根據(jù)分類(lèi)模型計(jì)算出的概率來(lái)決定是保留還是丟棄原始提示中的每個(gè)令牌?!?/p>

開(kāi)發(fā)人員可以在GitHub上找到LLMLingua-2的源代碼。

圖2 LLMLingua-2數(shù)據(jù)蒸餾提示

LLMLingua-2在行動(dòng)

研究人員在MeetingBank數(shù)據(jù)集以及LongBench、ZeroScrolls、GSM8K和Big Bench Hard等域外數(shù)據(jù)集上測(cè)試了壓縮模型。他們使用GPT-3.5-Turbo作為目標(biāo)模型。但是壓縮模型也可以與GPT-4和Claude 3等前沿模型一起使用。他們將LLMLingua-2的壓縮、速度和準(zhǔn)確性與其他方法以及原始提示符進(jìn)行了比較。

研究結(jié)果表明,盡管LLMLingua-2的體積很小,但它的壓縮性能優(yōu)于其他與任務(wù)無(wú)關(guān)的基準(zhǔn),并且從GPT-3.5-Turbo到Mistral-7B都能很好地推廣。

LLM-Lingua-2實(shí)現(xiàn)了2~5倍的壓縮比,與現(xiàn)有的提示壓縮方法相比快了3~6倍。這意味著在需要長(zhǎng)時(shí)間系統(tǒng)和場(chǎng)景提示的應(yīng)用程序中使用LLM-Lingua-2可以節(jié)省大量成本。LLMLingua-2還可以將延遲降低1.6~2.9倍,并將GPU內(nèi)存成本降低8倍。

有趣的是,當(dāng)使用Mistral-7B作為目標(biāo)LLM時(shí),研究人員發(fā)現(xiàn)LLMLingua-2的性能甚至比原始提示更好。研究人員在論文中寫(xiě)道,“我們推測(cè),Mistral-7B可能不像GPT-3.5-Turbo那樣擅長(zhǎng)處理長(zhǎng)時(shí)間環(huán)境。我們的方法是通過(guò)提供更短的提示和更高的信息密度,有效地提高了Mistral-7B的最終推理性能?!?/p>

Wu說(shuō),“LLMLingua-2是一種任務(wù)無(wú)關(guān)的提示壓縮方法,這意味著當(dāng)處理一個(gè)過(guò)于冗長(zhǎng)的場(chǎng)景時(shí),可以使用LLMLingua-2將其壓縮成一個(gè)更短的場(chǎng)景,以適應(yīng)有限的場(chǎng)景窗口,降低財(cái)務(wù)成本(因?yàn)镺penAI通過(guò)令牌向用戶收費(fèi)),并減少LLM的推理時(shí)間?!?/p>

然而,與LongLLMlingua等任務(wù)感知壓縮方法相比,LLMLingua-2在完成特定任務(wù)上存在不足。

研究人員在論文中寫(xiě)道:“我們將這種表現(xiàn)差距歸因于(任務(wù)感知方法)從問(wèn)題中獲得的額外信息。然而,我們模型的任務(wù)不可知特性使其在部署到不同場(chǎng)景時(shí)具有良好的可推廣性,并成為一種有效的選擇。”

原文標(biāo)題:Compress GPT-4 and Claude prompts with LLMLingua-2,作者:Ben Dickson。

文章鏈接:https://bdtechtalks.com/2024/04/01/llmlingua-2-prompt-compression/。

想了解更多AIGC的內(nèi)容,請(qǐng)?jiān)L問(wèn):

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責(zé)任編輯:姜華 來(lái)源: 51CTO內(nèi)容精選
相關(guān)推薦

2024-07-22 09:01:20

2024-05-13 07:14:03

GPT-4生成式AIAI模型

2024-03-27 13:32:00

AI數(shù)據(jù)

2023-07-12 16:10:48

人工智能

2024-05-20 08:20:00

OpenAI模型

2023-06-19 08:19:50

2025-04-16 09:35:03

2023-07-14 09:00:00

2023-07-25 09:23:23

Llama 2GPT-4

2024-04-03 12:13:58

2024-03-05 11:17:40

AI模型

2024-03-28 14:26:51

人工智能

2024-03-28 13:15:00

化學(xué)專(zhuān)業(yè)Claude 3GPT-4

2024-12-25 20:01:13

2023-10-24 17:53:05

2024-06-24 17:45:16

2024-02-19 00:29:15

2023-11-10 09:48:34

2023-08-17 08:00:00

2023-09-06 16:44:03

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)