自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

Meta普林斯頓提出LLM上下文終極解決方案！讓模型化身自主智能體，自行讀取上下文節(jié)點(diǎn)樹

作者：新智元 2023-10-23 13:23:03

人工智能新聞

LeCun轉(zhuǎn)發(fā)了Meta團(tuán)隊(duì)提出的一種非常特別的處理LLM上下文的方案：通過把上下文內(nèi)容處理為摘要節(jié)點(diǎn)樹，讓模型自行讀取。這樣就能非常顯著地提升模型的上下文能力。

到底什么才是LLM長(zhǎng)上下文模型的終極解決方案？

最近由普林斯頓大學(xué)和Meta AI的研究者提出了一種解決方案，將LLM視為一個(gè)交互式智能體，讓它決定如何通過迭代提示來讀取文本。

論文地址：https://arxiv.org/abs/2310.05029

他們?cè)O(shè)計(jì)了一種名為MemWalker的系統(tǒng)，可以將長(zhǎng)上下文處理成一個(gè)摘要節(jié)點(diǎn)樹。

收到查詢時(shí)，模型可以檢索這個(gè)節(jié)點(diǎn)樹來尋找相關(guān)信息，并在收集到足夠信息后做出回應(yīng)。在長(zhǎng)文本問答任務(wù)中，這個(gè)方法明顯優(yōu)于使用長(zhǎng)上下文窗口、遞歸和檢索的基線方法。

LeCun也在推上轉(zhuǎn)發(fā)對(duì)他們的研究表示了支持。

MemWalker主要由兩個(gè)部分構(gòu)成：

首先需要構(gòu)建記憶樹：

對(duì)長(zhǎng)文本進(jìn)行切分，歸納為摘要節(jié)點(diǎn)。匯總節(jié)點(diǎn)進(jìn)一步匯總為更高級(jí)別的節(jié)點(diǎn)，最后到達(dá)根。

第二部分是導(dǎo)航（Navigation）：

在接受查詢后，LLM會(huì)在樹中導(dǎo)航以查找相關(guān)信息并進(jìn)行適當(dāng)?shù)捻憫?yīng)。LLM通過推理來完成這一過程——可能會(huì)致力于找到某個(gè)答案，選擇沿著一條路走得更遠(yuǎn)，或者發(fā)現(xiàn)自己誤入歧途，就原路撤回。

這個(gè)導(dǎo)航過程可以通過零樣本提示來實(shí)現(xiàn)，并且很容易適用于指定的的任何一個(gè)大語言模型。

研究團(tuán)隊(duì)表明，通過對(duì)這個(gè)模型構(gòu)建的記憶樹的交互式讀取，MemWalker 優(yōu)于其他長(zhǎng)上下文基線以及檢索和循環(huán)變體，特別對(duì)于更長(zhǎng)的例子，效果更好。

MemWalker的有效性取決于兩個(gè)關(guān)鍵部分：

1) 工作內(nèi)存大小 ——當(dāng)允許 LLM 沿著其檢索的路徑能夠獲取跟多信息時(shí)，LLM 擁有更好的全局上下文能力。

2）LLM的推理能力高低——當(dāng)LLM達(dá)到推理閾值時(shí)，MemWalker是有效的。當(dāng)推理能力低于閾值時(shí)，導(dǎo)航過程中錯(cuò)誤率就會(huì)很高。

MEMWALKER: 一個(gè)可互動(dòng)讀取器

研究團(tuán)隊(duì)研究與長(zhǎng)上下文問答相關(guān)的任務(wù)——給定長(zhǎng)文本x和查詢q，模型的目標(biāo)是生成響應(yīng)r。

MEMWALKER遵循兩個(gè)步驟：

1) 內(nèi)存樹構(gòu)建，其中長(zhǎng)上下文被拆分成樹形數(shù)據(jù)結(jié)構(gòu)。這種構(gòu)建不依賴于查詢，因此如果事先有序列數(shù)據(jù)，可以提前計(jì)算。

2) 導(dǎo)航，模型在接收到查詢時(shí)導(dǎo)航此結(jié)構(gòu)，收集信息以制定合適的響應(yīng)。

MEMWALKER假定可以訪問基礎(chǔ)LLM，并且通過迭代LLM提示實(shí)現(xiàn)構(gòu)建和導(dǎo)航。

導(dǎo)航

在接收到查詢q后，語言模型從根節(jié)點(diǎn)開始導(dǎo)航樹以生成響應(yīng)r。

在LLM遍歷的節(jié)點(diǎn)處，它觀察到下一級(jí)節(jié)點(diǎn)的摘要。

LLM決定在+ 1個(gè)動(dòng)作中選擇一個(gè) - 選擇一個(gè)子節(jié)點(diǎn)以進(jìn)一步檢查，或者返回到父節(jié)點(diǎn)。

在葉節(jié)點(diǎn)處，LLM可以決定兩個(gè)動(dòng)作中的一個(gè)：提交葉節(jié)點(diǎn)并響應(yīng)查詢，或者如果葉節(jié)點(diǎn)中的信息

（即）不足，則返回到父節(jié)點(diǎn)。

為了做出導(dǎo)航?jīng)Q定，研究團(tuán)隊(duì)也可以通過提示要求LLM首先以自然語言生成一個(gè)理由來證明動(dòng)作，然后是動(dòng)作選擇本身。

具體地說，在每個(gè)節(jié)點(diǎn)，模型生成響應(yīng)r ～ LLM(r | s, q)，其中響應(yīng)是兩個(gè)元組中的一個(gè)：1) 當(dāng)LLM位于葉節(jié)點(diǎn)時(shí)，r = (reasoning, action, answer) 或 2) 當(dāng)LLM位于非葉節(jié)點(diǎn)時(shí)，r = (reasoning, action)。

導(dǎo)航提示設(shè)計(jì)

研究團(tuán)隊(duì)通過零樣本提示啟用LLM導(dǎo)航。具體需要兩種類型的提示：

1) 分診提示和2) 葉提示（在下表中高亮顯示）。

分診提示包含查詢、子節(jié)點(diǎn)的摘要和LLM應(yīng)遵循的指令。分診提示用于非葉節(jié)點(diǎn)。

葉提示包含段落內(nèi)容、查詢（和選項(xiàng)）以及要求LLM生成答案或返回到父節(jié)點(diǎn)的指令。

分診提示和葉提示都指定了LLM需要遵循的輸出格式。不遵守格式會(huì)導(dǎo)致無效動(dòng)作，LLM需要重新生成。如果LLM連續(xù)三次未能生成可解析的輸出，導(dǎo)航終止并返回「無答案」。

工作內(nèi)存

當(dāng)LLM檢索完樹時(shí)，它可以在導(dǎo)航軌跡中保持信息，并將其添加到上下文中。

準(zhǔn)確地說，LLM生成響應(yīng)r ～ LLM(r | s, q, m)，其中額外的工作內(nèi)存

要么為空，要么包含來自先前訪問過的節(jié)點(diǎn)的內(nèi)容。

研究團(tuán)隊(duì)截?cái)喙ぷ鲀?nèi)存，使其可以適應(yīng)LLM的上下文窗口。

上表也展現(xiàn)了如何通過[WORKING MEMORY]在提示中添加工作記憶的方式。

實(shí)驗(yàn)性配置

數(shù)據(jù)集和評(píng)估

研究團(tuán)隊(duì)使用了三個(gè)數(shù)據(jù)集：QuALITY、SummScreenFD和GovReport，這些來自SCROLLS基準(zhǔn)測(cè)試。研究團(tuán)隊(duì)展示了所有數(shù)據(jù)集的準(zhǔn)確性。

QuALITY

QuALITY是多項(xiàng)選擇題問答數(shù)據(jù)集。

該數(shù)據(jù)集包含了來自Project Gutenberg的長(zhǎng)篇故事和由人類注釋員注釋的問題。研究團(tuán)隊(duì)使用了187個(gè)示例的子集進(jìn)行實(shí)驗(yàn)。

SummScreenFD

SummScreenFD是一個(gè)包含電視和電影劇本的數(shù)據(jù)集，原本是為了總結(jié)而設(shè)計(jì)的。

這些劇本以演員之間的對(duì)話形式呈現(xiàn)。研究團(tuán)隊(duì)將該數(shù)據(jù)集轉(zhuǎn)換為問答任務(wù)，其中原始提供的基本真實(shí)摘要文本被用來使用Stable Beluga 2生成一個(gè)「誰」的問題，然后由人類專家檢查答案。

與原始長(zhǎng)文本配對(duì)的問題成為重新定位的QA任務(wù)的306個(gè)示例。

GovReport

GovReport數(shù)據(jù)集匯集了來自國會(huì)研究服務(wù)和美國政府問責(zé)辦公室的文檔，以及由專家提供的摘要。

研究團(tuán)隊(duì)以與SummScreenFD相同的方式將該數(shù)據(jù)集轉(zhuǎn)換為包含101個(gè)示例的問答數(shù)據(jù)集。

所有三個(gè)數(shù)據(jù)集都以不同長(zhǎng)度的長(zhǎng)上下文作為示例特征，有些是較短的示例，有些是較長(zhǎng)的序列。

因此，研究團(tuán)隊(duì)既展示了原始數(shù)據(jù)集上的結(jié)果，也展示了每個(gè)任務(wù)中僅包含較長(zhǎng)序列的子集上的結(jié)果，以便更好地評(píng)估在更困難、更長(zhǎng)的上下文情況下的內(nèi)存訪問。

門檻值分別是QuALITY的8000個(gè)token，SummScreenFD的6000個(gè)token和GovReport的12000個(gè)token。

模型

研究團(tuán)隊(duì)在大多數(shù)實(shí)驗(yàn)中使用Stable Beluga 2作為基礎(chǔ)LLM，因?yàn)榕c其他幾種LLM變體相比，它提供了最先進(jìn)的性能，研究團(tuán)隊(duì)將展示這一點(diǎn)。

Stable Beluga 2是一個(gè)基于70B LLaMA-2的指令調(diào)整模型，其中微調(diào)與研究團(tuán)隊(duì)的評(píng)估任務(wù)不重疊。

它的最大上下文長(zhǎng)度為4,096個(gè)token。研究團(tuán)隊(duì)在沒有進(jìn)一步微調(diào)或在上下文中為研究團(tuán)隊(duì)的任務(wù)提供少量示例的情況下，以零射提示的方式使用該模型。

研究團(tuán)隊(duì)使用頂部p采樣來進(jìn)行內(nèi)存樹構(gòu)建以及生成導(dǎo)航的動(dòng)作和推理。

研究團(tuán)隊(duì)分別為QuALITY、SummScreenFD和GovReport設(shè)置節(jié)點(diǎn)的最大數(shù)量maxt Mt = 8, 5, 8和段大小|c| = 1000, 1000, 1200。

基準(zhǔn)

研究團(tuán)隊(duì)將三種基于相同底層LLM的內(nèi)存技術(shù)與Stable Beluga 2進(jìn)行比較：

1) 全上下文窗口

2) 遞歸

3) 檢索

全上下文窗口基線使用全部4,096個(gè)token來處理長(zhǎng)輸入文本和生成。由于數(shù)據(jù)集中的實(shí)例經(jīng)常超過上下文限制，研究團(tuán)隊(duì)對(duì)長(zhǎng)度進(jìn)行截?cái)?，將文本的右?cè)（最近）或左側(cè)（最不近）作為輸入，并評(píng)估這兩種方法。

對(duì)于檢索，研究團(tuán)隊(duì)使用Contriever（Izacard等人，2022）根據(jù)查詢從長(zhǎng)上下文中選擇段落。得分最高的段落被連接為L(zhǎng)LM的輸入上下文，直到它們填滿上下文。

最后，研究團(tuán)隊(duì)實(shí)現(xiàn)了一個(gè)基線，該基線通過摘要將先前段落token中的信息循環(huán)傳遞到當(dāng)前段落，其中每個(gè)段落為2,500個(gè)token，最大摘要大小為500個(gè)token。

結(jié)果與分析

主要結(jié)果

下表2展示了MEMWALKER與其他基線之間的比較。

MEMWALKER在所有任務(wù)中都大幅度超越了遞歸基線。

這顯示了遞歸的限制，即查詢的相關(guān)信息在幾步之后會(huì)丟失。

MEMWALKER也超越了檢索，其中段落來自連貫的長(zhǎng)篇故事，而不是單獨(dú)的文檔。

在這些任務(wù)中，全上下文基線可以在「原始」任務(wù)設(shè)置中表現(xiàn)良好，該設(shè)置可能包含相對(duì)較短的序列，盡管選擇左或右截?cái)嘁垣@得最佳性能似乎取決于數(shù)據(jù)集。

然而，除了QuALITY上的保持右側(cè)變量和GovReport上的保持左側(cè)變量外，MEMWALKER在原始設(shè)置中實(shí)現(xiàn)了比全上下文基線更高的性能，這可能是由于數(shù)據(jù)集中的位置偏差，其中相關(guān)段落通常出現(xiàn)在文本的開頭或末尾。

然而，在所有三個(gè)任務(wù)的長(zhǎng)版本上，MEMWALKER均超越所有基線，即在內(nèi)存訪問變得更為關(guān)鍵時(shí)，它表現(xiàn)出強(qiáng)勁的性能。

MEMWALKER還超越了其他公開可用的模型，包括LongChat和MPT。

MEMWALKER提高了長(zhǎng)序列上的性能。研究團(tuán)隊(duì)在上圖2中為每個(gè)任務(wù)提供了輸入序列長(zhǎng)度的性能細(xì)分。

當(dāng)文本長(zhǎng)度較短時(shí)，MEMWALKER不如全上下文（左或右截?cái)啵┗€，但在所有任務(wù)的較長(zhǎng)序列上都優(yōu)于兩種截?cái)囝愋汀?/span>

交互式讀取的好處在于文本長(zhǎng)度適當(dāng)增加后顯現(xiàn)出來，即一旦序列長(zhǎng)度明顯大于LLM上下文長(zhǎng)度的4,096，就會(huì)顯示出更好的性能。

推理能力對(duì)于內(nèi)存樹導(dǎo)航至關(guān)重要。

MEMWALKER的有效性高度依賴于底層LLM的推理能力。對(duì)于每個(gè)導(dǎo)航?jīng)Q策，研究團(tuán)隊(duì)使用一個(gè)LLM提示，要求LLM首先以自然語言生成一個(gè)理由來證明接下來的預(yù)測(cè)動(dòng)作，參見下表1。

研究團(tuán)隊(duì)在下表3中展示了通過比較Llama 2 Chat（13B和70B參數(shù)變體）和Stable Beluga 2（70B），并通過從提示中刪除「在做出決定之前首先提供推理......」這行來展示推理如何影響性能。

對(duì)于較小、能力較差的模型（13B），由于無法遵循指令，性能大幅落后于70B模型。實(shí)際上，為較弱的模型要求推理理由會(huì)降低性能，可能是因?yàn)樗鼈儫o法生成和利用這些理由。

Stable Beluga 2的表現(xiàn)優(yōu)于同一LLM大小的Llama 2 Chat，并且還顯示出增強(qiáng)的推理能力。

對(duì)于Stable Beluga 2，在所有任務(wù)中要求推理理由都會(huì)提高性能。這突顯了MEMWALKER的主要特點(diǎn)：如果LLM通過了關(guān)鍵推理能力閾值，它可以在多輪中對(duì)長(zhǎng)輸入進(jìn)行推理，而不會(huì)在各輪之間迅速產(chǎn)生錯(cuò)誤。

對(duì)于不能做出良好導(dǎo)航?jīng)Q策的較弱LLM，錯(cuò)誤可能會(huì)累積，總體性能會(huì)受損。

隨著LLM在未來幾年的推理能力的不斷提高，研究團(tuán)隊(duì)期望像MEMWALKER這樣的方法會(huì)變得越來越有效。

導(dǎo)航內(nèi)存樹需要工作內(nèi)存。當(dāng)MEMWALKER做出決策以遍歷內(nèi)存樹并讀取相關(guān)段落時(shí)，它可能會(huì)失去對(duì)整體上下文的了解。

因此，模型將沿導(dǎo)航路徑從節(jié)點(diǎn)中攜帶信息作為工作內(nèi)存，其中工作內(nèi)存的內(nèi)容在模型選擇下一路徑時(shí)更新。

研究團(tuán)隊(duì)評(píng)估了有無工作內(nèi)存的MEMWALKER的性能，結(jié)果顯示在下圖3中。

研究團(tuán)隊(duì)發(fā)現(xiàn)在所有任務(wù)中，工作內(nèi)存耗盡會(huì)導(dǎo)致性能顯著下降，準(zhǔn)確率下降5-13%，顯示了這一組件的重要性。

MEMWALKER可以從錯(cuò)誤的路徑中恢復(fù)。

當(dāng)MEMWALKER導(dǎo)航內(nèi)存樹時(shí)，它不僅需要找到通往最相關(guān)段落的路徑，而且可能需要從全部檢索錯(cuò)誤中恢復(fù)。

研究團(tuán)隊(duì)在下表4中展示了恢復(fù)統(tǒng)計(jì)數(shù)據(jù)。MEMWALKER對(duì)大約15% - 20%的示例執(zhí)行恢復(fù)導(dǎo)航操作（因此更改路徑），但是在這些示例中可以恢復(fù)并在QuALITY中70%的時(shí)間內(nèi)正確獲得這些示例，60%適用于SummScreenFD，和～ 80%適用于GovReport。

MEMWALKER實(shí)現(xiàn)了高效讀取。由于MEMWALKER確定了需要讀取長(zhǎng)文本的哪些部分，因此需要讀取的有效內(nèi)容可能小于整個(gè)序列。

研究團(tuán)隊(duì)展示了所有示例的長(zhǎng)上下文讀取百分比的平均值，對(duì)于三個(gè)任務(wù)中的每一個(gè)，見下圖4。研究團(tuán)隊(duì)發(fā)現(xiàn)，平均只需要讀取63%-69%的文本就可以回答問題，包括樹節(jié)點(diǎn)的內(nèi)容。

在成功的路徑中，所需的閱讀進(jìn)一步減少到59% - 64%。

內(nèi)存樹構(gòu)建的權(quán)衡

當(dāng)研究團(tuán)隊(duì)構(gòu)建內(nèi)存樹時(shí)，會(huì)出現(xiàn)一個(gè)基本的權(quán)衡——將更大的段落總結(jié)為節(jié)點(diǎn)以減少樹的深度，但可能會(huì)失去內(nèi)容的準(zhǔn)確性。

類似地，將許多較低級(jí)別的節(jié)點(diǎn)連接到上面的節(jié)點(diǎn)可以幫助展平樹，但可能會(huì)使每個(gè)節(jié)點(diǎn)上的LLM導(dǎo)航任務(wù)變得更為困難。

下圖5顯示了QuALITY上內(nèi)存樹的不同配置的性能。總結(jié)較大段落通常比總結(jié)較小段落以及將更多子節(jié)點(diǎn)連接到父節(jié)點(diǎn)更為有益。

然而，隨著節(jié)點(diǎn)最大數(shù)量的增加，性能趨于平穩(wěn)，顯示了在內(nèi)存樹構(gòu)建過程中可以將多少信息打包到節(jié)點(diǎn)中的權(quán)衡。

責(zé)任編輯：張燕妮來源：新智元

數(shù)據(jù)訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<pre id="jwzgi"><big id="jwzgi"><strike id="jwzgi"></strike></big></pre>

<style id="jwzgi"></style>