自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Meta普林斯頓提出LLM上下文終極解決方案!讓模型化身自主智能體,自行讀取上下文節(jié)點(diǎn)樹

人工智能 新聞
LeCun轉(zhuǎn)發(fā)了Meta團(tuán)隊(duì)提出的一種非常特別的處理LLM上下文的方案:通過把上下文內(nèi)容處理為摘要節(jié)點(diǎn)樹,讓模型自行讀取。這樣就能非常顯著地提升模型的上下文能力。

到底什么才是LLM長(zhǎng)上下文模型的終極解決方案?

最近由普林斯頓大學(xué)和Meta AI的研究者提出了一種解決方案,將LLM視為一個(gè)交互式智能體,讓它決定如何通過迭代提示來讀取文本。

論文地址:https://arxiv.org/abs/2310.05029

他們?cè)O(shè)計(jì)了一種名為MemWalker的系統(tǒng),可以將長(zhǎng)上下文處理成一個(gè)摘要節(jié)點(diǎn)樹。

收到查詢時(shí),模型可以檢索這個(gè)節(jié)點(diǎn)樹來尋找相關(guān)信息,并在收集到足夠信息后做出回應(yīng)。在長(zhǎng)文本問答任務(wù)中,這個(gè)方法明顯優(yōu)于使用長(zhǎng)上下文窗口、遞歸和檢索的基線方法。

LeCun也在推上轉(zhuǎn)發(fā)對(duì)他們的研究表示了支持。

MemWalker主要由兩個(gè)部分構(gòu)成:

首先需要構(gòu)建記憶樹:

對(duì)長(zhǎng)文本進(jìn)行切分,歸納為摘要節(jié)點(diǎn)。匯總節(jié)點(diǎn)進(jìn)一步匯總為更高級(jí)別的節(jié)點(diǎn),最后到達(dá)根。

第二部分是導(dǎo)航(Navigation):

在接受查詢后,LLM會(huì)在樹中導(dǎo)航以查找相關(guān)信息并進(jìn)行適當(dāng)?shù)捻憫?yīng)。LLM通過推理來完成這一過程——可能會(huì)致力于找到某個(gè)答案,選擇沿著一條路走得更遠(yuǎn),或者發(fā)現(xiàn)自己誤入歧途,就原路撤回。

這個(gè)導(dǎo)航過程可以通過零樣本提示來實(shí)現(xiàn),并且很容易適用于指定的的任何一個(gè)大語言模型。

研究團(tuán)隊(duì)表明,通過對(duì)這個(gè)模型構(gòu)建的記憶樹的交互式讀取,MemWalker 優(yōu)于其他長(zhǎng)上下文基線以及檢索和循環(huán)變體,特別對(duì)于更長(zhǎng)的例子,效果更好。

MemWalker的有效性取決于兩個(gè)關(guān)鍵部分:

1) 工作內(nèi)存大小 ——當(dāng)允許 LLM 沿著其檢索的路徑能夠獲取跟多信息時(shí),LLM 擁有更好的全局上下文能力。

2)LLM的推理能力高低——當(dāng)LLM達(dá)到推理閾值時(shí),MemWalker是有效的。當(dāng)推理能力低于閾值時(shí),導(dǎo)航過程中錯(cuò)誤率就會(huì)很高。

MEMWALKER: 一個(gè)可互動(dòng)讀取器

研究團(tuán)隊(duì)研究與長(zhǎng)上下文問答相關(guān)的任務(wù)——給定長(zhǎng)文本x和查詢q,模型的目標(biāo)是生成響應(yīng)r。

MEMWALKER遵循兩個(gè)步驟:

1) 內(nèi)存樹構(gòu)建,其中長(zhǎng)上下文被拆分成樹形數(shù)據(jù)結(jié)構(gòu)。這種構(gòu)建不依賴于查詢,因此如果事先有序列數(shù)據(jù),可以提前計(jì)算。

2) 導(dǎo)航,模型在接收到查詢時(shí)導(dǎo)航此結(jié)構(gòu),收集信息以制定合適的響應(yīng)。

MEMWALKER假定可以訪問基礎(chǔ)LLM,并且通過迭代LLM提示實(shí)現(xiàn)構(gòu)建和導(dǎo)航。

導(dǎo)航

在接收到查詢q后,語言模型從根節(jié)點(diǎn)圖片開始導(dǎo)航樹以生成響應(yīng)r。

在LLM遍歷的節(jié)點(diǎn)圖片處,它觀察到下一級(jí)節(jié)點(diǎn)圖片的摘要。

LLM決定在圖片+ 1個(gè)動(dòng)作中選擇一個(gè) - 選擇一個(gè)子節(jié)點(diǎn)以進(jìn)一步檢查,或者返回到父節(jié)點(diǎn)。

在葉節(jié)點(diǎn)圖片處,LLM可以決定兩個(gè)動(dòng)作中的一個(gè):提交葉節(jié)點(diǎn)并響應(yīng)查詢,或者如果葉節(jié)點(diǎn)中的信息

(即圖片)不足,則返回到父節(jié)點(diǎn)圖片。

為了做出導(dǎo)航?jīng)Q定,研究團(tuán)隊(duì)也可以通過提示要求LLM首先以自然語言生成一個(gè)理由來證明動(dòng)作,然后是動(dòng)作選擇本身。

具體地說,在每個(gè)節(jié)點(diǎn),模型生成響應(yīng)r ~ LLM(r | s, q),其中響應(yīng)是兩個(gè)元組中的一個(gè):1) 當(dāng)LLM位于葉節(jié)點(diǎn)時(shí),r = (reasoning, action, answer) 或 2) 當(dāng)LLM位于非葉節(jié)點(diǎn)時(shí),r = (reasoning, action)。

導(dǎo)航提示設(shè)計(jì)

研究團(tuán)隊(duì)通過零樣本提示啟用LLM導(dǎo)航。具體需要兩種類型的提示:

1) 分診提示和2) 葉提示(在下表中高亮顯示)。

分診提示包含查詢、子節(jié)點(diǎn)的摘要和LLM應(yīng)遵循的指令。分診提示用于非葉節(jié)點(diǎn)。

葉提示包含段落內(nèi)容、查詢(和選項(xiàng))以及要求LLM生成答案或返回到父節(jié)點(diǎn)的指令。

分診提示和葉提示都指定了LLM需要遵循的輸出格式。不遵守格式會(huì)導(dǎo)致無效動(dòng)作,LLM需要重新生成。如果LLM連續(xù)三次未能生成可解析的輸出,導(dǎo)航終止并返回「無答案」。

工作內(nèi)存

當(dāng)LLM檢索完樹時(shí),它可以在導(dǎo)航軌跡中保持信息,并將其添加到上下文中。

準(zhǔn)確地說,LLM生成響應(yīng)r ~ LLM(r | s, q, m),其中額外的工作內(nèi)存

要么為空,要么包含來自先前訪問過的節(jié)點(diǎn)的內(nèi)容。

研究團(tuán)隊(duì)截?cái)喙ぷ鲀?nèi)存,使其可以適應(yīng)LLM的上下文窗口。

上表也展現(xiàn)了如何通過[WORKING MEMORY]在提示中添加工作記憶的方式。

實(shí)驗(yàn)性配置

數(shù)據(jù)集和評(píng)估

研究團(tuán)隊(duì)使用了三個(gè)數(shù)據(jù)集:QuALITY、SummScreenFD和GovReport,這些來自SCROLLS基準(zhǔn)測(cè)試。研究團(tuán)隊(duì)展示了所有數(shù)據(jù)集的準(zhǔn)確性。

QuALITY

QuALITY是多項(xiàng)選擇題問答數(shù)據(jù)集。

該數(shù)據(jù)集包含了來自Project Gutenberg的長(zhǎng)篇故事和由人類注釋員注釋的問題。研究團(tuán)隊(duì)使用了187個(gè)示例的子集進(jìn)行實(shí)驗(yàn)。

SummScreenFD

SummScreenFD是一個(gè)包含電視和電影劇本的數(shù)據(jù)集,原本是為了總結(jié)而設(shè)計(jì)的。

這些劇本以演員之間的對(duì)話形式呈現(xiàn)。研究團(tuán)隊(duì)將該數(shù)據(jù)集轉(zhuǎn)換為問答任務(wù),其中原始提供的基本真實(shí)摘要文本被用來使用Stable Beluga 2生成一個(gè)「誰」的問題,然后由人類專家檢查答案。

與原始長(zhǎng)文本配對(duì)的問題成為重新定位的QA任務(wù)的306個(gè)示例。

GovReport

GovReport數(shù)據(jù)集匯集了來自國會(huì)研究服務(wù)和美國政府問責(zé)辦公室的文檔,以及由專家提供的摘要。

研究團(tuán)隊(duì)以與SummScreenFD相同的方式將該數(shù)據(jù)集轉(zhuǎn)換為包含101個(gè)示例的問答數(shù)據(jù)集。

所有三個(gè)數(shù)據(jù)集都以不同長(zhǎng)度的長(zhǎng)上下文作為示例特征 ,有些是較短的示例,有些是較長(zhǎng)的序列。

因此,研究團(tuán)隊(duì)既展示了原始數(shù)據(jù)集上的結(jié)果,也展示了每個(gè)任務(wù)中僅包含較長(zhǎng)序列的子集上的結(jié)果,以便更好地評(píng)估在更困難、更長(zhǎng)的上下文情況下的內(nèi)存訪問。

門檻值分別是QuALITY的8000個(gè)token,SummScreenFD的6000個(gè)token和GovReport的12000個(gè)token。

模型

研究團(tuán)隊(duì)在大多數(shù)實(shí)驗(yàn)中使用Stable Beluga 2作為基礎(chǔ)LLM,因?yàn)榕c其他幾種LLM變體相比,它提供了最先進(jìn)的性能,研究團(tuán)隊(duì)將展示這一點(diǎn)。

Stable Beluga 2是一個(gè)基于70B LLaMA-2的指令調(diào)整模型,其中微調(diào)與研究團(tuán)隊(duì)的評(píng)估任務(wù)不重疊。

它的最大上下文長(zhǎng)度為4,096個(gè)token。研究團(tuán)隊(duì)在沒有進(jìn)一步微調(diào)或在上下文中為研究團(tuán)隊(duì)的任務(wù)提供少量示例的情況下,以零射提示的方式使用該模型。

研究團(tuán)隊(duì)使用頂部p采樣來進(jìn)行內(nèi)存樹構(gòu)建以及生成導(dǎo)航的動(dòng)作和推理。

研究團(tuán)隊(duì)分別為QuALITY、SummScreenFD和GovReport設(shè)置節(jié)點(diǎn)的最大數(shù)量maxt Mt = 8, 5, 8和段大小|c| = 1000, 1000, 1200。

基準(zhǔn)

研究團(tuán)隊(duì)將三種基于相同底層LLM的內(nèi)存技術(shù)與Stable Beluga 2進(jìn)行比較:

1) 全上下文窗口

2) 遞歸

3) 檢索

全上下文窗口基線使用全部4,096個(gè)token來處理長(zhǎng)輸入文本和生成。由于數(shù)據(jù)集中的實(shí)例經(jīng)常超過上下文限制,研究團(tuán)隊(duì)對(duì)長(zhǎng)度進(jìn)行截?cái)?,將文本的右?cè)(最近)或左側(cè)(最不近)作為輸入,并評(píng)估這兩種方法。

對(duì)于檢索,研究團(tuán)隊(duì)使用Contriever(Izacard等人,2022)根據(jù)查詢從長(zhǎng)上下文中選擇段落。得分最高的段落被連接為L(zhǎng)LM的輸入上下文,直到它們填滿上下文。

最后,研究團(tuán)隊(duì)實(shí)現(xiàn)了一個(gè)基線,該基線通過摘要將先前段落token中的信息循環(huán)傳遞到當(dāng)前段落,其中每個(gè)段落為2,500個(gè)token,最大摘要大小為500個(gè)token。

結(jié)果與分析

主要結(jié)果

下表2展示了MEMWALKER與其他基線之間的比較。

MEMWALKER在所有任務(wù)中都大幅度超越了遞歸基線。

這顯示了遞歸的限制,即查詢的相關(guān)信息在幾步之后會(huì)丟失。

MEMWALKER也超越了檢索,其中段落來自連貫的長(zhǎng)篇故事,而不是單獨(dú)的文檔。

在這些任務(wù)中,全上下文基線可以在「原始」任務(wù)設(shè)置中表現(xiàn)良好,該設(shè)置可能包含相對(duì)較短的序列,盡管選擇左或右截?cái)嘁垣@得最佳性能似乎取決于數(shù)據(jù)集。

然而,除了QuALITY上的保持右側(cè)變量和GovReport上的保持左側(cè)變量外,MEMWALKER在原始設(shè)置中實(shí)現(xiàn)了比全上下文基線更高的性能,這可能是由于數(shù)據(jù)集中的位置偏差,其中相關(guān)段落通常出現(xiàn)在文本的開頭或末尾。

然而,在所有三個(gè)任務(wù)的長(zhǎng)版本上,MEMWALKER均超越所有基線,即在內(nèi)存訪問變得更為關(guān)鍵時(shí),它表現(xiàn)出強(qiáng)勁的性能。

MEMWALKER還超越了其他公開可用的模型,包括LongChat和MPT。

MEMWALKER提高了長(zhǎng)序列上的性能。研究團(tuán)隊(duì)在上圖2中為每個(gè)任務(wù)提供了輸入序列長(zhǎng)度的性能細(xì)分。

當(dāng)文本長(zhǎng)度較短時(shí),MEMWALKER不如全上下文(左或右截?cái)啵┗€,但在所有任務(wù)的較長(zhǎng)序列上都優(yōu)于兩種截?cái)囝愋汀?/span>

交互式讀取的好處在于文本長(zhǎng)度適當(dāng)增加后顯現(xiàn)出來,即一旦序列長(zhǎng)度明顯大于LLM上下文長(zhǎng)度的4,096,就會(huì)顯示出更好的性能。

推理能力對(duì)于內(nèi)存樹導(dǎo)航至關(guān)重要。

MEMWALKER的有效性高度依賴于底層LLM的推理能力。對(duì)于每個(gè)導(dǎo)航?jīng)Q策,研究團(tuán)隊(duì)使用一個(gè)LLM提示,要求LLM首先以自然語言生成一個(gè)理由來證明接下來的預(yù)測(cè)動(dòng)作,參見下表1。

研究團(tuán)隊(duì)在下表3中展示了通過比較Llama 2 Chat(13B和70B參數(shù)變體)和Stable Beluga 2(70B),并通過從提示中刪除「在做出決定之前首先提供推理......」這行來展示推理如何影響性能。

對(duì)于較小、能力較差的模型(13B),由于無法遵循指令,性能大幅落后于70B模型。實(shí)際上,為較弱的模型要求推理理由會(huì)降低性能,可能是因?yàn)樗鼈儫o法生成和利用這些理由。

Stable Beluga 2的表現(xiàn)優(yōu)于同一LLM大小的Llama 2 Chat,并且還顯示出增強(qiáng)的推理能力。

對(duì)于Stable Beluga 2,在所有任務(wù)中要求推理理由都會(huì)提高性能。這突顯了MEMWALKER的主要特點(diǎn):如果LLM通過了關(guān)鍵推理能力閾值,它可以在多輪中對(duì)長(zhǎng)輸入進(jìn)行推理,而不會(huì)在各輪之間迅速產(chǎn)生錯(cuò)誤。

對(duì)于不能做出良好導(dǎo)航?jīng)Q策的較弱LLM,錯(cuò)誤可能會(huì)累積,總體性能會(huì)受損。

隨著LLM在未來幾年的推理能力的不斷提高,研究團(tuán)隊(duì)期望像MEMWALKER這樣的方法會(huì)變得越來越有效。

導(dǎo)航內(nèi)存樹需要工作內(nèi)存。當(dāng)MEMWALKER做出決策以遍歷內(nèi)存樹并讀取相關(guān)段落時(shí),它可能會(huì)失去對(duì)整體上下文的了解。

因此,模型將沿導(dǎo)航路徑從節(jié)點(diǎn)中攜帶信息作為工作內(nèi)存,其中工作內(nèi)存的內(nèi)容在模型選擇下一路徑時(shí)更新。

研究團(tuán)隊(duì)評(píng)估了有無工作內(nèi)存的MEMWALKER的性能,結(jié)果顯示在下圖3中。

研究團(tuán)隊(duì)發(fā)現(xiàn)在所有任務(wù)中,工作內(nèi)存耗盡會(huì)導(dǎo)致性能顯著下降,準(zhǔn)確率下降5-13%,顯示了這一組件的重要性。

MEMWALKER可以從錯(cuò)誤的路徑中恢復(fù)。

當(dāng)MEMWALKER導(dǎo)航內(nèi)存樹時(shí),它不僅需要找到通往最相關(guān)段落的路徑,而且可能需要從全部檢索錯(cuò)誤中恢復(fù)。

研究團(tuán)隊(duì)在下表4中展示了恢復(fù)統(tǒng)計(jì)數(shù)據(jù)。MEMWALKER對(duì)大約15% - 20%的示例執(zhí)行恢復(fù)導(dǎo)航操作(因此更改路徑),但是在這些示例中可以恢復(fù)并在QuALITY中70%的時(shí)間內(nèi)正確獲得這些示例,60%適用于SummScreenFD,和~ 80%適用于GovReport。

圖片

MEMWALKER實(shí)現(xiàn)了高效讀取。由于MEMWALKER確定了需要讀取長(zhǎng)文本的哪些部分,因此需要讀取的有效內(nèi)容可能小于整個(gè)序列。

研究團(tuán)隊(duì)展示了所有示例的長(zhǎng)上下文讀取百分比的平均值,對(duì)于三個(gè)任務(wù)中的每一個(gè),見下圖4。研究團(tuán)隊(duì)發(fā)現(xiàn),平均只需要讀取63%-69%的文本就可以回答問題,包括樹節(jié)點(diǎn)的內(nèi)容。

圖片

在成功的路徑中,所需的閱讀進(jìn)一步減少到59% - 64%。

內(nèi)存樹構(gòu)建的權(quán)衡

當(dāng)研究團(tuán)隊(duì)構(gòu)建內(nèi)存樹時(shí),會(huì)出現(xiàn)一個(gè)基本的權(quán)衡——將更大的段落總結(jié)為節(jié)點(diǎn)以減少樹的深度,但可能會(huì)失去內(nèi)容的準(zhǔn)確性。

類似地,將許多較低級(jí)別的節(jié)點(diǎn)連接到上面的節(jié)點(diǎn)可以幫助展平樹,但可能會(huì)使每個(gè)節(jié)點(diǎn)上的LLM導(dǎo)航任務(wù)變得更為困難。

下圖5顯示了QuALITY上內(nèi)存樹的不同配置的性能。總結(jié)較大段落通常比總結(jié)較小段落以及將更多子節(jié)點(diǎn)連接到父節(jié)點(diǎn)更為有益。

然而,隨著節(jié)點(diǎn)最大數(shù)量的增加,性能趨于平穩(wěn),顯示了在內(nèi)存樹構(gòu)建過程中可以將多少信息打包到節(jié)點(diǎn)中的權(quán)衡。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2017-05-11 14:00:02

Flask請(qǐng)求上下文應(yīng)用上下文

2012-12-31 10:01:34

SELinuxSELinux安全

2025-03-18 08:14:05

2022-09-14 13:13:51

JavaScript上下文

2024-04-03 10:05:00

LLM性能基準(zhǔn)測(cè)試

2024-03-14 08:11:45

模型RoPELlama

2022-09-15 08:01:14

繼承基礎(chǔ)設(shè)施基礎(chǔ)服務(wù)

2025-03-18 09:10:00

MCPAI模型上下文協(xié)議

2023-07-11 10:02:23

2024-09-30 14:10:00

2017-12-17 17:01:23

限界上下文系統(tǒng)模型

2022-10-28 16:24:33

Context上下文鴻蒙

2020-07-24 10:00:00

JavaScript執(zhí)行上下文前端

2021-07-26 07:47:36

Cpu上下文進(jìn)程

2025-01-08 11:10:46

2010-02-25 17:04:54

WCF實(shí)例上下文

2019-05-06 14:36:48

CPULinux寄存器

2022-04-24 15:37:26

LinuxCPU

2025-04-07 01:02:00

GoAPI語言

2012-07-30 16:29:40

架構(gòu)架構(gòu)模式.NET
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)