打臉!GPT-4o輸出長(zhǎng)度8k都勉強(qiáng),陳丹琦團(tuán)隊(duì)新基準(zhǔn)測(cè)試:所有模型輸出都低于標(biāo)稱長(zhǎng)度
很多大模型的官方參數(shù)都聲稱自己可以輸出長(zhǎng)達(dá)32K tokens的內(nèi)容,但這數(shù)字實(shí)際上是存在水分的??
最近,陳丹琦團(tuán)隊(duì)提出了一個(gè)全新的基準(zhǔn)測(cè)試工具LONGPROC,專門用于檢測(cè)長(zhǎng)上下文模型處理復(fù)雜信息并生成回復(fù)的能力。
實(shí)驗(yàn)結(jié)果有點(diǎn)令人意外,團(tuán)隊(duì)發(fā)現(xiàn),包括GPT-4o等最先進(jìn)的模型在內(nèi),盡管模型在常用長(zhǎng)上下文回憶基準(zhǔn)上表現(xiàn)出色,但在處理復(fù)雜的長(zhǎng)文生成任務(wù)時(shí)仍有很大的改進(jìn)空間。
具體來(lái)說(shuō),測(cè)試的所有模型都聲稱自己上下文窗口大小超過32K tokens,但開源模型一般在2K tokens任務(wù)中就表現(xiàn)不佳,而GPT-4o等閉源模型在8K tokens任務(wù)中性能也明顯下降。
舉例來(lái)說(shuō),讓GPT-4o模型生成一個(gè)詳細(xì)的旅行規(guī)劃時(shí),即使提供了相關(guān)的時(shí)間節(jié)點(diǎn)和直飛航班線路,在模型的生成結(jié)果中仍然出現(xiàn)了不存在的航班信息,也就是出現(xiàn)了幻覺。
這到底是怎么回事呢?
全新LONGPROC基準(zhǔn)
目前現(xiàn)有的長(zhǎng)上下文語(yǔ)言模型(long-context language models)的評(píng)估基準(zhǔn)主要集中在長(zhǎng)上下文回憶任務(wù)上,這些任務(wù)要求模型在處理大量無(wú)關(guān)信息的同時(shí)生成簡(jiǎn)短的響應(yīng),沒有充分評(píng)估模型在整合分散信息和生成長(zhǎng)輸出方面的能力。
為了進(jìn)一步精確檢測(cè)模型處理長(zhǎng)上下文并生成回復(fù)的能力,陳丹琦團(tuán)隊(duì)提出了全新的LONGPROC基準(zhǔn)測(cè)試。
從表1中各測(cè)試基準(zhǔn)的對(duì)比可以看出,只有LONGPROC基準(zhǔn)同時(shí)滿足6個(gè)要求,包括復(fù)雜的流程、要求模型輸出大于1K tokens、且提供確定性的解決方案等。
新基準(zhǔn)包含的任務(wù)
具體來(lái)說(shuō),LONGPROC包含6個(gè)不同的生成任務(wù):
1.HTML到TSV:要求模型從HTML頁(yè)面中提取指定信息并格式化為表格。需要從復(fù)雜的HTML結(jié)構(gòu)中穩(wěn)健地提取所有相關(guān)信息,并將其正確格式化。
比如從下面的網(wǎng)頁(yè)中提取出所有影片的信息:
2.偽代碼生成代碼:要求模型將偽代碼翻譯成C++代碼。需要保持源代碼和目標(biāo)代碼之間的一一對(duì)應(yīng)關(guān)系,并確保翻譯的正確性。
3.路徑遍歷:要求模型在假設(shè)的公共交通網(wǎng)絡(luò)中找到從一個(gè)城市到另一個(gè)城市的路徑。需要確保路徑的唯一性和正確性。
4.Theory-of-Mind跟蹤:要求模型跟蹤故事中對(duì)象位置的思想變化。需要進(jìn)行長(zhǎng)距離的推理,以準(zhǔn)確反映對(duì)象在不同時(shí)間點(diǎn)的位置和狀態(tài)。
比如根據(jù)下面的文字?jǐn)⑹鐾茢喑觥癆lice認(rèn)為筆記本在哪里”:
5.Countdown游戲:要求模型使用四個(gè)數(shù)字和基本算術(shù)操作找到達(dá)到目標(biāo)數(shù)字的方法。需要進(jìn)行深度優(yōu)先搜索,并確保搜索過程的完整性和正確性。
比如在下面的示例中,要求模型用四則運(yùn)算操作輸入的數(shù)字,最終得出29的結(jié)果:
6.旅行規(guī)劃:要求模型生成滿足多種約束的多城市旅行計(jì)劃。需要探索多種可能的行程安排,并確保所有約束條件得到滿足。
如下圖所示,圖中要求模型根據(jù)任務(wù)提供的歐洲行程計(jì)劃和直飛航班規(guī)劃最佳的旅行時(shí)間安排:
在輸出結(jié)果的同時(shí),LONGPROC還會(huì)要求模型在執(zhí)行詳細(xì)程序指令的同時(shí)生成結(jié)構(gòu)化的長(zhǎng)形式輸出 。
從表2中可以看出,除了對(duì)比左邊的實(shí)例數(shù)量(N)、輸入和輸出tokens的平均數(shù)量(#In/#Out),團(tuán)隊(duì)還會(huì)從表格最右3列的獲取信息的方式、是否存在演繹推理和執(zhí)行搜索這三個(gè)方面對(duì)任務(wù)進(jìn)行比較。
實(shí)驗(yàn)任務(wù)設(shè)置
實(shí)驗(yàn)中,上面的6個(gè)任務(wù)都有不同的數(shù)據(jù)集。例如,HTML到TSV任務(wù)使用了Arborist數(shù)據(jù)集中的56個(gè)網(wǎng)站;偽代碼生成代碼任務(wù)使用了SPOC數(shù)據(jù)集;路徑遍歷任務(wù)構(gòu)建了一個(gè)假設(shè)的公共交通網(wǎng)絡(luò)等等。
實(shí)驗(yàn)都會(huì)要求模型執(zhí)行一個(gè)詳細(xì)的程序來(lái)生成輸出。
此外,根據(jù)任務(wù)的輸出長(zhǎng)度,數(shù)據(jù)集會(huì)被分為500 tokens、2K tokens和8K tokens三個(gè)難度級(jí)別。比如對(duì)于HTML到TSV任務(wù)來(lái)說(shuō),每個(gè)網(wǎng)站都會(huì)被分割成非重疊子樣本,這樣就可以獲得更多數(shù)據(jù)點(diǎn)。
參與實(shí)驗(yàn)的模型包括17個(gè)模型,包括流行的閉源模型(如GPT-4o、Claude 3.5、Gemini 1.5)和開源模型(如ProLong、Llama-3、Mistral-v0.3、Phi-3、Qwen-2.5、Jamba)。
實(shí)驗(yàn)結(jié)果及分析
首先來(lái)看看實(shí)驗(yàn)中模型的整體表現(xiàn)。
結(jié)果有點(diǎn)令人意外,所有模型在長(zhǎng)程序生成任務(wù)中都表現(xiàn)出顯著的性能下降!具體的數(shù)值可以查看下面的表3。
即使是GPT-4o這種前沿模型,在8K tokens的輸出任務(wù)上也難以保持穩(wěn)健的表現(xiàn)。
我們?cè)賮?lái)詳細(xì)分析一下不同模型之間的差異。
根據(jù)下面的圖3可以看出,像GPT-4o這樣的頂尖閉源模型在0.5K任務(wù)上表現(xiàn)最佳,但在8K任務(wù)上性能顯著下降。
小規(guī)模的開源模型基本都表現(xiàn)不佳,而中等規(guī)模的開源模型(Llama-3.1-70B-Instruct)在低難度任務(wù)上表現(xiàn)與GPT-4o相差不大。
不過,在某些8K任務(wù)上,中等規(guī)模的模型表現(xiàn)很不錯(cuò),比如Gemini-1.5-pro在HTML to TSV任務(wù)中就超過了GPT-4o,Llama-3.1-70B-Instruct、Qwen2.5-72B-Instruct在8K的Countdown游戲中也與GPT-4o相差不大。
但整體來(lái)看,開源模型的性能還是不及閉源模型。
此外,模型表現(xiàn)跟任務(wù)類型也有關(guān)系。在需要更長(zhǎng)推理的任務(wù)中,模型的性能普遍出現(xiàn)了更顯著的下降。
如圖4所示,在Theory-of-Mind跟蹤、Countdown游戲和旅行規(guī)劃任務(wù)這些需要處理更復(fù)雜的信息、進(jìn)行更長(zhǎng)鏈的推理的任務(wù)中,模型性能的下降幅度都更大,GPT-4o、Qwen等模型的精確度甚至直線下降。
除了對(duì)比17個(gè)模型之間的能力,團(tuán)隊(duì)成員還將表現(xiàn)較好的模型輸出內(nèi)容與人類輸出進(jìn)行了對(duì)比。
從表6的結(jié)果中可以看出,與人類能力相比,當(dāng)前模型還存在顯著差距。
人類在Countdown游戲和旅行規(guī)劃任務(wù)中分別解決了10個(gè)和9個(gè)問題,而最好的模型GPT-4o分別只解決了7個(gè)和3個(gè)問題。
總體來(lái)說(shuō),本論文提出的LONGPROC測(cè)試基準(zhǔn)有效地評(píng)估了模型在長(zhǎng)程序生成任務(wù)方面的表現(xiàn),是對(duì)現(xiàn)有基準(zhǔn)的一個(gè)補(bǔ)充。
實(shí)驗(yàn)發(fā)現(xiàn),即使是最先進(jìn)的模型,在生成連貫的長(zhǎng)段內(nèi)容方面仍然有很大的改進(jìn)空間。
尤其是在要求輸出8k tokens的任務(wù)中,參數(shù)較大的先進(jìn)模型也表現(xiàn)不佳,這可能是未來(lái)LLM研究的一個(gè)非常有意義的方向。
一作是清華校友
這篇論文的一作是本科畢業(yè)于清華軟件學(xué)院的Xi Ye(葉曦),之后從UT Austin計(jì)算機(jī)科學(xué)系獲得了博士學(xué)位。
清華特獎(jiǎng)得主Tianyu Gao(高天宇)也有參與這篇論文:
據(jù)一作Xi Ye的個(gè)人主頁(yè)顯示,他的研究主要集中在自然語(yǔ)言處理領(lǐng)域,重點(diǎn)是提高LLM的可解釋性并增強(qiáng)其推理能力,此外他還從事語(yǔ)義解析和程序綜合的相關(guān)工作。
目前他是普林斯頓大學(xué)語(yǔ)言與智能實(shí)驗(yàn)室(PLI)的博士后研究員,還將從 2025 年 7 月開始加入阿爾伯塔大學(xué)(University of Alberta)擔(dān)任助理教授。