自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="j85pv"><b id="j85pv"></b></pre>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

使用LLMLingua-2壓縮GPT-4和Claude提示原創(chuàng)

51CTO內(nèi)容精選

發(fā)布于 2024-5-8 07:24

瀏覽

0收藏

縮短發(fā)送給大型語言模型(LLM)的提示的長度可以減少推理時(shí)間并降低成本。這是提示壓縮成為LLM研究的一個(gè)熱門領(lǐng)域的原因。

清華大學(xué)和微軟公司的研究人員日前在發(fā)布的一篇論文中介紹了LLMLingua-2，這是一種任務(wù)不可論的新的提示壓縮技術(shù)。LLMLingua-2與其他提示壓縮方法相比更快、更高效，并且需要更少的計(jì)算資源。對于涉及冗長提示和壓縮的LLM應(yīng)用程序來說，它是一個(gè)很好的工具，可以節(jié)省大量成本，并獲得更好的用戶體驗(yàn)。

任務(wù)感知和任務(wù)不可知的提示壓縮

思維鏈(CoT)推理、場景學(xué)習(xí)和檢索增強(qiáng)生成(RAG)等技術(shù)使LLM能夠處理訓(xùn)練數(shù)據(jù)中未包含的復(fù)雜任務(wù)和知識。

然而，冗長提示的好處是以增加計(jì)算和財(cái)務(wù)需求為代價(jià)的。在一些LLM中，較長的提示可能會降低模型處理場景信息能力的準(zhǔn)確性。

提示壓縮通過在保留重要信息的同時(shí)縮短原始文本來解決這些問題。提示壓縮的基本假設(shè)是自然語言包含冗余，這可能對人類理解有用，但對LLM來說不是必要的。

提示壓縮可以分為“任務(wù)感知”和“任務(wù)不可知”兩種方法。任務(wù)感知壓縮根據(jù)下游任務(wù)或當(dāng)前查詢從提示符中刪除令牌。LongLLMLingua是一種流行的方法，它采用問題感知的多步驟方法來估計(jì)令牌的信息熵并刪除冗余部分。其他方法使用強(qiáng)化學(xué)習(xí)來訓(xùn)練模型，以壓縮來自下游任務(wù)的獎(jiǎng)勵(lì)信號的提示。任務(wù)感知壓縮的缺點(diǎn)是它們對其他任務(wù)的推廣能力有限。

另一方面，任務(wù)不可知的方法在不考慮特定任務(wù)的情況下壓縮提示，使其更適合于更廣泛的應(yīng)用程序和黑盒LLM。一些任務(wù)不可知論包括LLMLingua和選擇性場景(Selective Context)。這些方法使用諸如Llama-7B之類的因果小語言模型(SLM)來評估令牌或詞匯單位的熵，并刪除那些不能添加有意義信息的令牌或詞匯單位。

LLMLingua-2是由原始LLMLingua的作者開發(fā)的，是一種任務(wù)不可知的提示壓縮技術(shù)。

LLMLingua-2的工作原理

目前的任務(wù)不可知的壓縮方法有一些局限性，這導(dǎo)致研究人員創(chuàng)建了LLMLingua的后繼者。

微軟高級研究員、論文合著者Qianhui Wu表示：“信息熵可能是一種次優(yōu)的壓縮指標(biāo)，因?yàn)樗c提示壓縮目標(biāo)不一致，并且只利用了單向場景，可能無法捕獲提示壓縮所需的所有基本信息?！?/p>

LLMLingua-2將提示符壓縮重新表述為一個(gè)分類任務(wù)，該任務(wù)指定每個(gè)令牌是應(yīng)該保留還是丟棄。它使用這個(gè)任務(wù)公式來創(chuàng)建一個(gè)提示壓縮訓(xùn)練數(shù)據(jù)集。然后，它使用數(shù)據(jù)集來訓(xùn)練用于壓縮任務(wù)的輕量級雙向Transformer編碼器模型。

Wu說，“通過這種方式，它可以從完全雙向場景中捕獲提示壓縮所需的所有基本信息，并保證壓縮之后的提示與原始提示的忠實(shí)性?！?/p>

LLMLingua-2有幾個(gè)關(guān)鍵的優(yōu)點(diǎn)：首先，使用雙向編碼器確保它可以捕獲所有必要的信息，以進(jìn)行快速壓縮。其次，由于它使用更小的Transformer模型來學(xué)習(xí)壓縮目標(biāo)，因此它具有更低的延遲。第三，它的設(shè)計(jì)是為了忠實(shí)于最初的提示，避免產(chǎn)生幻覺。

使用LLMLingua-2壓縮GPT-4和Claude提示-AI.x社區(qū)

圖1 LLMLingua-2

訓(xùn)練壓縮模型

為了生成訓(xùn)練提示壓縮模型的數(shù)據(jù)集，研究人員使用數(shù)據(jù)蒸餾程序從強(qiáng)LLM中提取知識。他們向GPT-4提供提示，并指示它在保留基本信息和避免幻覺的同時(shí)減少令牌。

在獲得成對的原始文本及其壓縮版本之后，他們?yōu)樵嘉谋局械拿總€(gè)令牌分配一個(gè)二進(jìn)制標(biāo)簽，以確定壓縮之后應(yīng)該保留還是丟棄它。研究人員使用MeetingBank數(shù)據(jù)集創(chuàng)建了訓(xùn)練示例。

然后，他們在數(shù)據(jù)集上訓(xùn)練了一個(gè)稍微修改過的xlm-roberta-large和多語言BERT轉(zhuǎn)換模型，將標(biāo)記分類為“保留”或“丟棄”?；贐ERT的模型的優(yōu)點(diǎn)是它們學(xué)習(xí)雙向特征，而不是只知道先前令牌的自回歸解碼器模型。這允許壓縮模型學(xué)習(xí)更豐富的相關(guān)性，從而實(shí)現(xiàn)更好的壓縮。

研究人員寫道：“在推理過程中，我們根據(jù)分類模型計(jì)算出的概率來決定是保留還是丟棄原始提示中的每個(gè)令牌?！?/p>

開發(fā)人員可以在GitHub上找到LLMLingua-2的源代碼。

使用LLMLingua-2壓縮GPT-4和Claude提示-AI.x社區(qū)

圖2 LLMLingua-2數(shù)據(jù)蒸餾提示

LLMLingua-2在行動

研究人員在MeetingBank數(shù)據(jù)集以及LongBench、ZeroScrolls、GSM8K和Big Bench Hard等域外數(shù)據(jù)集上測試了壓縮模型。他們使用GPT-3.5-Turbo作為目標(biāo)模型。但是壓縮模型也可以與GPT-4和Claude 3等前沿模型一起使用。他們將LLMLingua-2的壓縮、速度和準(zhǔn)確性與其他方法以及原始提示符進(jìn)行了比較。

研究結(jié)果表明，盡管LLMLingua-2的體積很小，但它的壓縮性能優(yōu)于其他與任務(wù)無關(guān)的基準(zhǔn)，并且從GPT-3.5-Turbo到Mistral-7B都能很好地推廣。

LLM-Lingua-2實(shí)現(xiàn)了2～5倍的壓縮比，與現(xiàn)有的提示壓縮方法相比快了3～6倍。這意味著在需要長時(shí)間系統(tǒng)和場景提示的應(yīng)用程序中使用LLM-Lingua-2可以節(jié)省大量成本。LLMLingua-2還可以將延遲降低1.6～2.9倍，并將GPU內(nèi)存成本降低8倍。

有趣的是，當(dāng)使用Mistral-7B作為目標(biāo)LLM時(shí)，研究人員發(fā)現(xiàn)LLMLingua-2的性能甚至比原始提示更好。研究人員在論文中寫道，“我們推測，Mistral-7B可能不像GPT-3.5-Turbo那樣擅長處理長時(shí)間環(huán)境。我們的方法是通過提供更短的提示和更高的信息密度，有效地提高了Mistral-7B的最終推理性能?！?/p>

Wu說，“LLMLingua-2是一種任務(wù)無關(guān)的提示壓縮方法，這意味著當(dāng)處理一個(gè)過于冗長的場景時(shí)，可以使用LLMLingua-2將其壓縮成一個(gè)更短的場景，以適應(yīng)有限的場景窗口，降低財(cái)務(wù)成本(因?yàn)镺penAI通過令牌向用戶收費(fèi))，并減少LLM的推理時(shí)間?！?/p>

然而，與LongLLMlingua等任務(wù)感知壓縮方法相比，LLMLingua-2在完成特定任務(wù)上存在不足。

研究人員在論文中寫道：“我們將這種表現(xiàn)差距歸因于(任務(wù)感知方法)從問題中獲得的額外信息。然而，我們模型的任務(wù)不可知特性使其在部署到不同場景時(shí)具有良好的可推廣性，并成為一種有效的選擇?！?/p>

原文標(biāo)題：Compress GPT-4 and Claude prompts with LLMLingua-2，作者：Ben Dickson。

文章鏈接：https://bdtechtalks.com/2024/04/01/llmlingua-2-prompt-compression/。

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

大型語言模型

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

長文本之罪：Claude團(tuán)隊(duì)新越獄技術(shù)，Llama 2到GPT-4無一幸免

輕薄滴假象 ? 3152瀏覽 ? 0回復(fù)
一個(gè)命令工具讓GPT-4干掉Devin和RAG！Jim Fan：提示工程2.0沒必要了！

51CTO技術(shù)棧 ? 3024瀏覽 ? 0回復(fù)
超越GPT-4！最強(qiáng)大模型 Claude 3 完全解讀

開發(fā)者阿橙 ? 5727瀏覽 ? 0回復(fù)
GPT-4推理能力為0？開發(fā)者懸賞1萬美金被打臉，神秘提示正確率直沖100%

duhorse ? 3167瀏覽 ? 0回復(fù)
GPT-4 Turbo更新：視覺能力+無限制使用

echo_ning ? 3766瀏覽 ? 0回復(fù)
Reka Core登場：挑戰(zhàn)GPT-4、Claude 3

duhorse ? 2613瀏覽 ? 0回復(fù)
蘋果推出理解、轉(zhuǎn)化模型ReALM，性能超GPT-4

Aceryt ? 2581瀏覽 ? 0回復(fù)
生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

51CTO內(nèi)容精選 ? 3016瀏覽 ? 0回復(fù)
拯救被「掰彎」的GPT-4！西交微軟北大聯(lián)合提出IN2訓(xùn)練治療LLM「中間迷失」

duhorse ? 1981瀏覽 ? 0回復(fù)
Claude3.5突然發(fā)布！GPT-4o不香了

Crystalcxt ? 2966瀏覽 ? 0回復(fù)
Advanced RAG 09：『提示詞壓縮』技術(shù)綜述

Baihai_IDP ? 2661瀏覽 ? 0回復(fù)
如何通過壓縮提示降低GPT-4的成本

51CTO內(nèi)容精選 ? 2402瀏覽 ? 0回復(fù)
使用 Claude 3.5 和 Python 構(gòu)建 ReAct AI Agent

丟翅膀的魚 ? 2102瀏覽 ? 0回復(fù)
Qwen2-VL (2B、7B、72B)：迄今為止最好的開源視覺模型?。。〒魯?Claude 和 GPT-4o）

老蛀蟲 ? 3942瀏覽 ? 0回復(fù)
GPT-4和GPT-4V能否像人類一樣進(jìn)行抽象推理

lintoms ? 1650瀏覽 ? 0回復(fù)
GitHub Copilot免費(fèi)了，可無條件使用GPT-4o 和Claude 3.5 Sonnet等高級模型

Syrupup ? 5938瀏覽 ? 0回復(fù)
Cline 3.2 重磅更新：免費(fèi)調(diào)用 Claude Sonnet 3.5 和 GPT 4o，開發(fā)效率直接拉滿！

凝固的雨_1 ? 1.4w瀏覽 ? 0回復(fù)
不用魔法，直接訪問微軟 Copilot GPT-4

丟翅膀的魚 ? 1102瀏覽 ? 0回復(fù)
GPT-4o(多模態(tài)版)、Claude3.7、Gemini2.5最新系統(tǒng)提示詞！

云中江樹 ? 168瀏覽 ? 0回復(fù)

51CTO內(nèi)容精選

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

OpenUI：從構(gòu)思到UI僅需數(shù)秒 9h前發(fā)布
MCP安全噩夢終結(jié)者：Agent框架如何重構(gòu)AI防護(hù)新范式？? 1天前發(fā)布

熱門推薦

模型上下文協(xié)議（MCP）開發(fā)實(shí)戰(zhàn)——構(gòu)建LangChain代理客戶端 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：開發(fā)者的LlamaIndex入門指南

下一篇：探索生成式人工智能的版權(quán)清算問題

社區(qū)精華內(nèi)容

目錄