自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="ocphf"><i id="ocphf"></i></blockquote>

<sub id="ocphf"></sub>

<sub id="ocphf"><p id="ocphf"></p></sub><style id="ocphf"></style>

<label id="ocphf"></label>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

看AI如何大海撈針，探索LLM能力邊界實(shí)戰(zhàn)?

發(fā)布于 2024-6-20 09:58

瀏覽

0收藏

關(guān)鍵鏈接

視頻介紹
相關(guān)代碼

看AI如何大海撈針，探索LLM能力邊界實(shí)戰(zhàn)?-AI.x社區(qū)

概覽

隨著人工智能模型處理能力的增強(qiáng)，能夠處理的上下文信息越來(lái)越多，達(dá)到百萬(wàn)級(jí)別的詞匯量，對(duì)于這類長(zhǎng)上下文的大型語(yǔ)言模型（LLMs）的研究興趣也隨之增長(zhǎng)。在這些模型中，一個(gè)流行的測(cè)試方法是將一個(gè)事實(shí)（稱為“針”）嵌入到大量的上下文信息（稱為“干草堆”）中，然后測(cè)試模型是否能在這個(gè)上下文中找到并回答與這個(gè)事實(shí)相關(guān)的問(wèn)題。通過(guò)這個(gè)方法我們能夠評(píng)估并理解模型在處理長(zhǎng)文本和檢索信息方面的能力邊界。

然而，這種方法并不完全適用于所有情況，尤其是對(duì)于那些需要檢索多個(gè)事實(shí)并在此基礎(chǔ)上進(jìn)行推理的應(yīng)用。為了解決這個(gè)問(wèn)題，我們提出了一個(gè)新的測(cè)試基準(zhǔn)，即多針檢索加推理測(cè)試。在這個(gè)測(cè)試中，我們發(fā)現(xiàn)了兩個(gè)主要結(jié)果：

當(dāng)要求模型檢索更多的事實(shí)時(shí)，其性能會(huì)下降。
當(dāng)模型需要對(duì)檢索到的事實(shí)進(jìn)行推理時(shí)，性能也會(huì)下降。

下圖展示了測(cè)試結(jié)果的概覽：隨著“針”的數(shù)量增加，檢索的準(zhǔn)確性降低；而且，對(duì)這些“針”進(jìn)行推理的難度比單純檢索更大。

看AI如何大海撈針，探索LLM能力邊界實(shí)戰(zhàn)?-AI.x社區(qū)

我們還發(fā)現(xiàn)，隨著提供給模型的上下文信息量的增加，性能也會(huì)下降。此外，我們還深入研究了性能下降的原因，特別是當(dāng)檢索多個(gè)“針”時(shí)。通過(guò)分析結(jié)果的熱圖，我們發(fā)現(xiàn)當(dāng)檢索多個(gè)“針”時(shí)，GPT-4模型傾向于檢索位于上下文末尾的“針”，而忽略了開(kāi)頭的“針”，這與之前的單“針”研究結(jié)果相似。

看AI如何大海撈針，探索LLM能力邊界實(shí)戰(zhàn)?-AI.x社區(qū)

接下來(lái)，我們將詳細(xì)介紹如何使用這個(gè)基準(zhǔn)測(cè)試，并討論在 GPT-4 模型上的測(cè)試結(jié)果。

如何使用

要進(jìn)行“多針檢索加推理”的評(píng)估，用戶需要準(zhǔn)備三個(gè)要素：

一個(gè)需要多個(gè)“針”來(lái)回答的“問(wèn)題”
一個(gè)基于這些“針”得出的“答案”
一個(gè)將要插入上下文的“針”的列表

我們擴(kuò)展了 Greg Kamradt 的“LLMTest_NeedleInAHaystack”項(xiàng)目，以支持多針評(píng)估，并且使用了 LangSmith 作為評(píng)估工具。通過(guò) LangSmith，我們創(chuàng)建了一個(gè)評(píng)估集，其中包含了上述的“問(wèn)題”和“答案”。

看AI如何大海撈針，探索LLM能力邊界實(shí)戰(zhàn)?-AI.x社區(qū)

以一個(gè)實(shí)際案例為例，我們創(chuàng)建了一個(gè)新的 LangSmith 評(píng)估集，名為“multi-needle-eval-pizza-3”，其中包含了關(guān)于披薩秘密配料的問(wèn)題和答案：

看AI如何大海撈針，探索LLM能力邊界實(shí)戰(zhàn)?-AI.x社區(qū)

問(wèn)題：
制作完美披薩需要哪些秘密配料？

答案：
制作完美披薩的秘密配料包括無(wú)花果、帕爾馬火腿和山羊奶酪。

在創(chuàng)建了數(shù)據(jù)集之后，我們可以通過(guò)設(shè)置一些參數(shù)來(lái)運(yùn)行評(píng)估，例如：

document_depth_percent_min - 第一個(gè)“針”插入的位置。其余的“針”將在第一個(gè)之后均勻插入
multi_needle - 執(zhí)行多針評(píng)估的標(biāo)記
needles - 要插入上下文的“針”的完整列表
evaluator - 選擇評(píng)估工具 LangSmith
eval_set - 選擇我們創(chuàng)建的評(píng)估集“multi-needle-eval-pizza-3”
context_lengths_num_intervals - 測(cè)試的上下文長(zhǎng)度數(shù)量
context_lengths_min（和最大值）- 測(cè)試的上下文長(zhǎng)度范圍

我們可以使用以下命令來(lái)執(zhí)行評(píng)估：

python main.py --evaluator langsmith --context_lengths_num_intervals 6 --document_depth_percent_min 5 --document_depth_percent_intervals 1 --provider openai --model_name "gpt-4-0125-preview" --multi_needle True --eval_set multi-needle-eval-pizza-3 --needles '[ "無(wú)花果是制作完美披薩的秘密配料之一。", "帕爾馬火腿是制作完美披薩的秘密配料之一。", "山羊奶酪是制作完美披薩的秘密配料之一。"]'  --context_lengths_min 1000 --context_lengths_max 120000

這個(gè)命令將啟動(dòng)一個(gè)工作流程，其中包括將“針”插入到上下文中，使用帶有這些“針”的上下文提示模型生成回答，并評(píng)估模型的生成是否正確地檢索了“針”。

看AI如何大海撈針，探索LLM能力邊界實(shí)戰(zhàn)?-AI.x社區(qū)

“多針檢索加推理”評(píng)估工作流程圖

GPT-4 的檢索結(jié)果

為了測(cè)試 GPT-4 的多針檢索能力，我們創(chuàng)建了三個(gè) LangSmith 評(píng)估集：

“multi-needle-eval-pizza-1” - 插入一個(gè)“針”。
“multi-needle-eval-pizza-3” - 插入三個(gè)“針”。
“multi-needle-eval-pizza-10” - 插入十個(gè)“針”。

我們?cè)u(píng)估了 GPT-4（能夠處理 128k 標(biāo)記長(zhǎng)度的上下文）在單個(gè)回合中檢索 1、3 或 10 個(gè)“針”的能力，上下文長(zhǎng)度分別為?。?000 標(biāo)記）和大（120,000 標(biāo)記）。所有運(yùn)行的命令和生成結(jié)果的鏈接都已提供。

https://github.com/gkamradt/LLMTest_NeedleInAHaystack/blob/main/viz/multi-needle-datasets/

這里是我們的結(jié)果摘要圖：

看AI如何大海撈針，探索LLM能力邊界實(shí)戰(zhàn)?-AI.x社區(qū)

我們可以看到：

當(dāng)“針”的數(shù)量從 1 增加到 10 時(shí)，模型的性能有所下降。
當(dāng)上下文長(zhǎng)度從 1000 增加到 120,000 標(biāo)記時(shí)，性能也會(huì)下降。

為了進(jìn)一步探索和驗(yàn)證這些結(jié)果，我們可以查看 LangSmith 跟蹤的一個(gè)例子，其中我們插入了 10 個(gè)“針”。GPT-4 的生成結(jié)果如下：

制作完美披薩所需的秘密配料包括浸泡在濃縮咖啡中的棗、甜藍(lán)紋奶酪、糖核桃和梨片。

在這次生成中，只有四個(gè) “秘密配料” 被正確提及。根據(jù)跟蹤結(jié)果，我們確認(rèn)所有 10 個(gè)“針”都存在于上下文中，并記錄了它們被插入的順序：

* 無(wú)花果
* 帕爾馬火腿
* 煙熏蘋(píng)果木培根
* 檸檬
* 山羊奶酪
* 松露蜂蜜
* 梨片
* 浸泡在濃縮咖啡中的棗
* 甜藍(lán)紋奶酪
* 糖核桃

我們發(fā)現(xiàn)，GPT-4 在生成中只提及了我們上下文中最后四個(gè)“針”。這揭示了檢索失敗的一個(gè)有趣現(xiàn)象：當(dāng)上下文變長(zhǎng)時(shí)，模型更容易忽略位于文檔開(kāi)頭的“針”。

因?yàn)槲覀冇涗浟嗣總€(gè)“針”的插入位置，我們還可以探究這一點(diǎn)：下面的熱圖顯示了隨著上下文長(zhǎng)度的增加，10 個(gè)“針”檢索的情況。每一列代表一個(gè)實(shí)驗(yàn)，我們要求 GPT-4 在上下文中檢索 10 個(gè)“針”。

隨著上下文長(zhǎng)度的增加，我們觀察到模型在文檔開(kāi)頭的檢索失敗。這種趨勢(shì)在多“針”情況下（大約 25k 標(biāo)記）比單“針”情況（對(duì)于 GPT-4 是從 73k 標(biāo)記開(kāi)始）更早出現(xiàn)。

看AI如何大海撈針，探索LLM能力邊界實(shí)戰(zhàn)?-AI.x社區(qū)

GPT-4 的檢索與推理

檢索增強(qiáng)生成（RAG）通常涉及從索引的文檔庫(kù)中檢索多個(gè)事實(shí)，然后在這些事實(shí)的基礎(chǔ)上進(jìn)行推理。為了測(cè)試這一點(diǎn)，我們構(gòu)建了三個(gè)數(shù)據(jù)集，通過(guò)詢問(wèn)所有秘密配料的首字母來(lái)測(cè)試模型的檢索和推理能力。

“multi-needle-eval-pizza-reasoning-1” - 只檢索一個(gè)“針”。
“multi-needle-eval-pizza-reasoning-3” - 檢索三個(gè)“針”。
“multi-needle-eval-pizza-reasoning-10” - 檢索十個(gè)“針”。

需要注意的是，這里的推理是非?；A(chǔ)的形式。在未來(lái)的基準(zhǔn)測(cè)試中，我們計(jì)劃包含不同復(fù)雜度的推理任務(wù)。

我們比較了僅檢索和檢索加推理兩種情況下的正確答案比例。所有數(shù)據(jù)和跟蹤結(jié)果都已提供。我們發(fā)現(xiàn)，無(wú)論是檢索還是推理，隨著上下文長(zhǎng)度的增加，性能都會(huì)下降，而且推理的性能似乎總是落后于單純的檢索。這表明檢索能力可能限制了模型在推理任務(wù)上的表現(xiàn)，這是符合我們預(yù)期的。

看AI如何大海撈針，探索LLM能力邊界實(shí)戰(zhàn)?-AI.x社區(qū)

總結(jié)

長(zhǎng)上下文語(yǔ)言模型的發(fā)展為我們帶來(lái)了巨大的潛力。為了有效地利用這些模型，無(wú)論是獨(dú)立使用還是作為外部檢索系統(tǒng)的替代，了解它們的能力和局限性至關(guān)重要。"多針檢索加推理"基準(zhǔn)測(cè)試為我們提供了一個(gè)評(píng)估長(zhǎng)上下文檢索性能的有用工具，特別是在與傳統(tǒng)的檢索增強(qiáng)生成（RAG）方法相比較時(shí)。

通過(guò)這些測(cè)試，我們可以得到一些初步的見(jiàn)解，但還需要進(jìn)一步的驗(yàn)證：

檢索并非萬(wàn)無(wú)一失- 并不能保證所有事實(shí)都能被檢索到，尤其是當(dāng)涉及的事實(shí)數(shù)量和上下文規(guī)模增加時(shí)。
檢索失敗的模式各異- 隨著上下文長(zhǎng)度的增加，GPT-4 在檢索位于文檔開(kāi)頭的事實(shí)時(shí)表現(xiàn)不佳。
提問(wèn)方式至關(guān)重要- 根據(jù)之前的研究發(fā)現(xiàn)，為了提高模型的檢索能力，可能需要精心設(shè)計(jì)提問(wèn)方式。
檢索與推理的關(guān)系- 當(dāng)模型需要對(duì)檢索到的信息進(jìn)行推理時(shí)，其性能會(huì)受到影響。

通過(guò)這些發(fā)現(xiàn)，我們可以更好地理解并優(yōu)化長(zhǎng)上下文模型在信息檢索和推理任務(wù)中的應(yīng)用。

本文轉(zhuǎn)載自??AI小智??，作者： AI小智 ????

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

三大關(guān)鍵技術(shù)看RAG如何提升LLM的能力

angel ? 7325瀏覽 ? 0回復(fù)
LLM超長(zhǎng)上下文查詢-性能評(píng)估實(shí)戰(zhàn)

ermulong ? 2713瀏覽 ? 0回復(fù)
LLM和RAG技術(shù)的比較探索

51CTO技術(shù)棧 ? 3632瀏覽 ? 0回復(fù)
【LLM】AgentGym：具有自我演化能力的通用LLM agent

sbf_2000 ? 4198瀏覽 ? 0回復(fù)
LLM超長(zhǎng)上下文查詢-性能評(píng)估實(shí)戰(zhàn)

ermulong ? 2532瀏覽 ? 0回復(fù)
【LLM】從軟件工程視角看大語(yǔ)言模型測(cè)試

sbf_2000 ? 3092瀏覽 ? 0回復(fù)
探索大型語(yǔ)言模型在電能行業(yè)的能力與局限

AIRoobt ? 4513瀏覽 ? 0回復(fù)
深度探索：LLaMa-3 網(wǎng)絡(luò)安全能力全解析

戀戀青鳥(niǎo) ? 2047瀏覽 ? 0回復(fù)
OpenAI o1模型推理能力大幅提升的背后：重復(fù)采樣如何提升AI推理能力

Syrupup ? 3341瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí)的量子飛躍：突破人工智能能力的邊界

51CTO內(nèi)容精選 ? 2050瀏覽 ? 0回復(fù)
基于網(wǎng)格環(huán)境的模仿學(xué)習(xí)技術(shù)實(shí)戰(zhàn)探索

51CTO內(nèi)容精選 ? 2544瀏覽 ? 0回復(fù)
Anthropic：前沿模型的破壞能力評(píng)估——保障AI安全的重要探索

AIGC最前線 ? 2038瀏覽 ? 0回復(fù)
預(yù)測(cè)未來(lái)模型能力！微調(diào)揭示LLM涌現(xiàn)能力的關(guān)鍵

AIGC最前線 ? 1737瀏覽 ? 0回復(fù)
預(yù)測(cè)未來(lái)模型能力！微調(diào)揭示LLM涌現(xiàn)能力的關(guān)鍵

AIGC最前線 ? 1874瀏覽 ? 0回復(fù)
探索 Gemini 2.0：2025 年不可錯(cuò)過(guò)的 AI 工具

Halo咯咯 ? 2467瀏覽 ? 0回復(fù)
奧特曼最新AGI斷言：人工智能的成本每 12 個(gè)月下降約 10 倍，但推動(dòng)AI能力邊界的成本不會(huì)變便宜

51CTO技術(shù)棧 ? 1243瀏覽 ? 0回復(fù)
如何正確看待 AI 的推理能力？走出人類中心主義

Baihai_IDP ? 2483瀏覽 ? 0回復(fù)
工具調(diào)用×大模型思考=超級(jí)智能體：ReAct 策略如何改變AI能力

九歌AI大模型 ? 1597瀏覽 ? 0回復(fù)
探索數(shù)據(jù)礦藏：AI大模型與數(shù)據(jù)挖掘實(shí)戰(zhàn)經(jīng)驗(yàn)分享

風(fēng)云2002_1 ? 751瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

告別“玩具” Agent！深度解析智能體框架，構(gòu)建真正可靠的 AI 應(yīng)用 13h前發(fā)布
Agent卡成PPT？6 大核彈級(jí)提速方案+一線大廠代碼級(jí)拆解 9天前發(fā)布

熱門(mén)推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： LLM超長(zhǎng)上下文查詢-性能評(píng)估實(shí)戰(zhàn)

下一篇：吳恩達(dá)揭秘：編程Agent如何革新軟件開(kāi)發(fā)行業(yè)

社區(qū)精華內(nèi)容

目錄

<thead id="xqzxf"><rt id="xqzxf"></rt></thead>