自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

打臉!GPT-4o輸出長(zhǎng)度8k都勉強(qiáng),陳丹琦團(tuán)隊(duì)新基準(zhǔn)測(cè)試:所有模型輸出都低于標(biāo)稱長(zhǎng)度

人工智能 新聞
最近,陳丹琦團(tuán)隊(duì)提出了一個(gè)全新的基準(zhǔn)測(cè)試工具LONGPROC,專門用于檢測(cè)長(zhǎng)上下文模型處理復(fù)雜信息并生成回復(fù)的能力。

很多大模型的官方參數(shù)都聲稱自己可以輸出長(zhǎng)達(dá)32K tokens的內(nèi)容,但這數(shù)字實(shí)際上是存在水分的??

最近,陳丹琦團(tuán)隊(duì)提出了一個(gè)全新的基準(zhǔn)測(cè)試工具LONGPROC,專門用于檢測(cè)長(zhǎng)上下文模型處理復(fù)雜信息并生成回復(fù)的能力。

圖片

實(shí)驗(yàn)結(jié)果有點(diǎn)令人意外,團(tuán)隊(duì)發(fā)現(xiàn),包括GPT-4o等最先進(jìn)的模型在內(nèi),盡管模型在常用長(zhǎng)上下文回憶基準(zhǔn)上表現(xiàn)出色,但在處理復(fù)雜的長(zhǎng)文生成任務(wù)時(shí)仍有很大的改進(jìn)空間。

具體來(lái)說(shuō),測(cè)試的所有模型都聲稱自己上下文窗口大小超過32K tokens,但開源模型一般在2K tokens任務(wù)中就表現(xiàn)不佳,而GPT-4o等閉源模型在8K tokens任務(wù)中性能也明顯下降。

舉例來(lái)說(shuō),讓GPT-4o模型生成一個(gè)詳細(xì)的旅行規(guī)劃時(shí),即使提供了相關(guān)的時(shí)間節(jié)點(diǎn)和直飛航班線路,在模型的生成結(jié)果中仍然出現(xiàn)了不存在的航班信息,也就是出現(xiàn)了幻覺。

圖片

這到底是怎么回事呢?

全新LONGPROC基準(zhǔn)

目前現(xiàn)有的長(zhǎng)上下文語(yǔ)言模型(long-context language models)的評(píng)估基準(zhǔn)主要集中在長(zhǎng)上下文回憶任務(wù)上,這些任務(wù)要求模型在處理大量無(wú)關(guān)信息的同時(shí)生成簡(jiǎn)短的響應(yīng),沒有充分評(píng)估模型在整合分散信息和生成長(zhǎng)輸出方面的能力。

為了進(jìn)一步精確檢測(cè)模型處理長(zhǎng)上下文并生成回復(fù)的能力,陳丹琦團(tuán)隊(duì)提出了全新的LONGPROC基準(zhǔn)測(cè)試。

從表1中各測(cè)試基準(zhǔn)的對(duì)比可以看出,只有LONGPROC基準(zhǔn)同時(shí)滿足6個(gè)要求,包括復(fù)雜的流程、要求模型輸出大于1K tokens、且提供確定性的解決方案等。

圖片

新基準(zhǔn)包含的任務(wù)

具體來(lái)說(shuō),LONGPROC包含6個(gè)不同的生成任務(wù):

1.HTML到TSV:要求模型從HTML頁(yè)面中提取指定信息并格式化為表格。需要從復(fù)雜的HTML結(jié)構(gòu)中穩(wěn)健地提取所有相關(guān)信息,并將其正確格式化。

比如從下面的網(wǎng)頁(yè)中提取出所有影片的信息:

圖片

2.偽代碼生成代碼:要求模型將偽代碼翻譯成C++代碼。需要保持源代碼和目標(biāo)代碼之間的一一對(duì)應(yīng)關(guān)系,并確保翻譯的正確性。

3.路徑遍歷:要求模型在假設(shè)的公共交通網(wǎng)絡(luò)中找到從一個(gè)城市到另一個(gè)城市的路徑。需要確保路徑的唯一性和正確性。

4.Theory-of-Mind跟蹤:要求模型跟蹤故事中對(duì)象位置的思想變化。需要進(jìn)行長(zhǎng)距離的推理,以準(zhǔn)確反映對(duì)象在不同時(shí)間點(diǎn)的位置和狀態(tài)。

比如根據(jù)下面的文字?jǐn)⑹鐾茢喑觥癆lice認(rèn)為筆記本在哪里”:

圖片

5.Countdown游戲:要求模型使用四個(gè)數(shù)字和基本算術(shù)操作找到達(dá)到目標(biāo)數(shù)字的方法。需要進(jìn)行深度優(yōu)先搜索,并確保搜索過程的完整性和正確性。

比如在下面的示例中,要求模型用四則運(yùn)算操作輸入的數(shù)字,最終得出29的結(jié)果:

圖片

6.旅行規(guī)劃:要求模型生成滿足多種約束的多城市旅行計(jì)劃。需要探索多種可能的行程安排,并確保所有約束條件得到滿足。

如下圖所示,圖中要求模型根據(jù)任務(wù)提供的歐洲行程計(jì)劃和直飛航班規(guī)劃最佳的旅行時(shí)間安排:

圖片

在輸出結(jié)果的同時(shí),LONGPROC還會(huì)要求模型在執(zhí)行詳細(xì)程序指令的同時(shí)生成結(jié)構(gòu)化的長(zhǎng)形式輸出 。

從表2中可以看出,除了對(duì)比左邊的實(shí)例數(shù)量(N)、輸入和輸出tokens的平均數(shù)量(#In/#Out),團(tuán)隊(duì)還會(huì)從表格最右3列的獲取信息的方式、是否存在演繹推理和執(zhí)行搜索這三個(gè)方面對(duì)任務(wù)進(jìn)行比較。

圖片

實(shí)驗(yàn)任務(wù)設(shè)置

實(shí)驗(yàn)中,上面的6個(gè)任務(wù)都有不同的數(shù)據(jù)集。例如,HTML到TSV任務(wù)使用了Arborist數(shù)據(jù)集中的56個(gè)網(wǎng)站;偽代碼生成代碼任務(wù)使用了SPOC數(shù)據(jù)集;路徑遍歷任務(wù)構(gòu)建了一個(gè)假設(shè)的公共交通網(wǎng)絡(luò)等等。

實(shí)驗(yàn)都會(huì)要求模型執(zhí)行一個(gè)詳細(xì)的程序來(lái)生成輸出。

此外,根據(jù)任務(wù)的輸出長(zhǎng)度,數(shù)據(jù)集會(huì)被分為500 tokens、2K tokens和8K tokens三個(gè)難度級(jí)別。比如對(duì)于HTML到TSV任務(wù)來(lái)說(shuō),每個(gè)網(wǎng)站都會(huì)被分割成非重疊子樣本,這樣就可以獲得更多數(shù)據(jù)點(diǎn)。

參與實(shí)驗(yàn)的模型包括17個(gè)模型,包括流行的閉源模型(如GPT-4o、Claude 3.5、Gemini 1.5)和開源模型(如ProLong、Llama-3、Mistral-v0.3、Phi-3、Qwen-2.5、Jamba)。

實(shí)驗(yàn)結(jié)果及分析

首先來(lái)看看實(shí)驗(yàn)中模型的整體表現(xiàn)。

結(jié)果有點(diǎn)令人意外,所有模型在長(zhǎng)程序生成任務(wù)中都表現(xiàn)出顯著的性能下降!具體的數(shù)值可以查看下面的表3。

即使是GPT-4o這種前沿模型,在8K tokens的輸出任務(wù)上也難以保持穩(wěn)健的表現(xiàn)。

圖片

我們?cè)賮?lái)詳細(xì)分析一下不同模型之間的差異。

根據(jù)下面的圖3可以看出,像GPT-4o這樣的頂尖閉源模型在0.5K任務(wù)上表現(xiàn)最佳,但在8K任務(wù)上性能顯著下降。

小規(guī)模的開源模型基本都表現(xiàn)不佳,而中等規(guī)模的開源模型(Llama-3.1-70B-Instruct)在低難度任務(wù)上表現(xiàn)與GPT-4o相差不大。

不過,在某些8K任務(wù)上,中等規(guī)模的模型表現(xiàn)很不錯(cuò),比如Gemini-1.5-pro在HTML to TSV任務(wù)中就超過了GPT-4o,Llama-3.1-70B-Instruct、Qwen2.5-72B-Instruct在8K的Countdown游戲中也與GPT-4o相差不大。

但整體來(lái)看,開源模型的性能還是不及閉源模型。

圖片

此外,模型表現(xiàn)跟任務(wù)類型也有關(guān)系。在需要更長(zhǎng)推理的任務(wù)中,模型的性能普遍出現(xiàn)了更顯著的下降。

如圖4所示,在Theory-of-Mind跟蹤、Countdown游戲和旅行規(guī)劃任務(wù)這些需要處理更復(fù)雜的信息、進(jìn)行更長(zhǎng)鏈的推理的任務(wù)中,模型性能的下降幅度都更大,GPT-4o、Qwen等模型的精確度甚至直線下降。

圖片

除了對(duì)比17個(gè)模型之間的能力,團(tuán)隊(duì)成員還將表現(xiàn)較好的模型輸出內(nèi)容與人類輸出進(jìn)行了對(duì)比。

從表6的結(jié)果中可以看出,與人類能力相比,當(dāng)前模型還存在顯著差距。

人類在Countdown游戲和旅行規(guī)劃任務(wù)中分別解決了10個(gè)和9個(gè)問題,而最好的模型GPT-4o分別只解決了7個(gè)和3個(gè)問題。

圖片

總體來(lái)說(shuō),本論文提出的LONGPROC測(cè)試基準(zhǔn)有效地評(píng)估了模型在長(zhǎng)程序生成任務(wù)方面的表現(xiàn),是對(duì)現(xiàn)有基準(zhǔn)的一個(gè)補(bǔ)充。

實(shí)驗(yàn)發(fā)現(xiàn),即使是最先進(jìn)的模型,在生成連貫的長(zhǎng)段內(nèi)容方面仍然有很大的改進(jìn)空間。

尤其是在要求輸出8k tokens的任務(wù)中,參數(shù)較大的先進(jìn)模型也表現(xiàn)不佳,這可能是未來(lái)LLM研究的一個(gè)非常有意義的方向。

一作是清華校友

這篇論文的一作是本科畢業(yè)于清華軟件學(xué)院的Xi Ye(葉曦),之后從UT Austin計(jì)算機(jī)科學(xué)系獲得了博士學(xué)位。

清華特獎(jiǎng)得主Tianyu Gao(高天宇)也有參與這篇論文:

圖片

據(jù)一作Xi Ye的個(gè)人主頁(yè)顯示,他的研究主要集中在自然語(yǔ)言處理領(lǐng)域,重點(diǎn)是提高LLM的可解釋性并增強(qiáng)其推理能力,此外他還從事語(yǔ)義解析和程序綜合的相關(guān)工作。

圖片

目前他是普林斯頓大學(xué)語(yǔ)言與智能實(shí)驗(yàn)室(PLI)的博士后研究員,還將從 2025 年 7 月開始加入阿爾伯塔大學(xué)(University of Alberta)擔(dān)任助理教授。

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-06-28 18:13:05

2024-06-27 12:45:30

2024-06-12 11:50:23

2023-10-25 09:19:00

AI訓(xùn)練

2023-07-05 09:57:11

2022-07-26 09:56:48

模型AI

2024-05-15 17:34:15

2024-05-20 08:20:00

OpenAI模型

2024-05-14 11:29:15

2025-02-18 12:30:00

2023-10-12 12:13:16

AI訓(xùn)練

2025-04-01 09:25:00

2024-05-27 08:40:00

2024-07-04 15:26:56

2024-09-06 13:00:29

2024-05-30 13:13:43

2024-07-11 11:53:56

2024-05-21 12:23:17

2024-06-05 08:29:35

2025-01-08 13:05:56

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)