長(zhǎng)文本有了專屬困惑度!北大、MIT、阿里推出LongPPL新指標(biāo)
隨著大模型在長(zhǎng)文本處理任務(wù)中的應(yīng)用日益廣泛,如何客觀且精準(zhǔn)地評(píng)估其長(zhǎng)文本能力已成為一個(gè)亟待解決的問題。
傳統(tǒng)上,困惑度(Perplexity, PPL)被視為衡量模型語言理解與生成質(zhì)量的標(biāo)準(zhǔn)指標(biāo)——困惑度越低,通常意味著模型對(duì)下一個(gè)詞的預(yù)測(cè)能力越強(qiáng)。由于長(zhǎng)文本可被視為一般文本的擴(kuò)展,許多研究自然地通過展示模型在長(zhǎng)文本上的低困惑度來證明其長(zhǎng)文本泛化能力的有效性。但你知道,這個(gè)評(píng)估方式可能完全錯(cuò)了嗎?
近期研究發(fā)現(xiàn),困惑度在長(zhǎng)文本任務(wù)中的適用性存在顯著局限性:某些在困惑度指標(biāo)上表現(xiàn)優(yōu)異的模型,在實(shí)際長(zhǎng)文本應(yīng)用中卻未能達(dá)到預(yù)期效果。如圖 1(上)所示,在 9 種主流長(zhǎng)文本大模型上,困惑度(y 軸)與模型在長(zhǎng)文本任務(wù)中的真實(shí)表現(xiàn)(x 軸)之間的相關(guān)性極低。這一反?,F(xiàn)象引出了一個(gè)關(guān)鍵問題:為何困惑度(PPL)在長(zhǎng)文本場(chǎng)景下失效?
圖 1 大模型的困惑度 (PPL) 和長(zhǎng)文本困惑度 (LongPPL) 與長(zhǎng)文本任務(wù)集 LongBench 分?jǐn)?shù)的相關(guān)性。
針對(duì)這一問題,北京大學(xué)王奕森團(tuán)隊(duì)與 MIT、阿里一道開展了深入研究,探討困惑度在長(zhǎng)文本任務(wù)中失效的原因,并提出全新指標(biāo) LongPPL,更精準(zhǔn)反映長(zhǎng)文本能力。
通過實(shí)驗(yàn),他們發(fā)現(xiàn)長(zhǎng)文本中不同 token 對(duì)長(zhǎng)距離上下文信息的依賴程度存在顯著差異。其中,對(duì)長(zhǎng)上下文信息依賴較強(qiáng)的 token 在評(píng)估模型的長(zhǎng)文本處理性能時(shí)起到關(guān)鍵作用,但這類 token 在自然文本中只占少數(shù)。這表明,困惑度失效的原因在于其對(duì)所有 token 進(jìn)行平均計(jì)算,無法充分關(guān)注這些與長(zhǎng)文本能力關(guān)系密切的關(guān)鍵 token。
為此,他們將困惑度的計(jì)算限制在長(zhǎng)文本的關(guān)鍵 token 上,從而定義出能夠反映模型長(zhǎng)文本處理能力的長(zhǎng)文本困惑度(LongPPL),該指標(biāo)表現(xiàn)出與長(zhǎng)文本任務(wù)性能極高的相關(guān)性 (如圖 1(下))。此外,他們還基于這一設(shè)計(jì)思想提出長(zhǎng)文本交叉熵?fù)p失(LongCE),顯著提升了模型通過微調(diào)增強(qiáng)長(zhǎng)文本處理能力的效果。
- 論文題目: What is Wrong with Perplexity for Long-context Language Modeling?
- 論文地址: https://arxiv.org/abs/2410.23771
- 代碼地址: https://github.com/PKU-ML/LongPPL
并非所有 token 都反映模型長(zhǎng)文本能力
為探討困惑度在長(zhǎng)文本任務(wù)中失效的原因,作者首先分析了長(zhǎng)文本與短文本在本質(zhì)上的差異。直觀來看,一段文本中不同詞語對(duì)長(zhǎng)距離上下文的依賴程度存在顯著差異。例如,在小說中,某個(gè)情節(jié)的發(fā)展可能需要與數(shù)章之前埋下的伏筆相呼應(yīng),而某些語法上的固定搭配則通常無需依賴較遠(yuǎn)的上下文。在長(zhǎng)文本場(chǎng)景下,這種依賴程度的差異較短文本更為顯著。
為了量化并驗(yàn)證這一直觀認(rèn)識(shí),本文首先考慮了一個(gè)簡(jiǎn)單的任務(wù)場(chǎng)景——LongEval 長(zhǎng)文本鍵值對(duì)檢索任務(wù)(圖 2(a))。在此任務(wù)中,模型根據(jù)問題在長(zhǎng)上下文中檢索出與給定鍵相匹配的值。本文將問題的標(biāo)準(zhǔn)回答劃分為非答案部分(藍(lán)色)和答案部分(橙色)。顯然,非答案部分的生成僅依賴短上下文,即最后的問句內(nèi)容;而答案部分則需要模型聚焦于完整的長(zhǎng)上下文信息。
圖 2 (b)(c) 表明,答案部分的困惑度與模型在此任務(wù)中的實(shí)際表現(xiàn)高度相關(guān),而非答案部分的困惑度幾乎與任務(wù)表現(xiàn)無關(guān)。由此可見,依賴長(zhǎng)上下文信息的關(guān)鍵 token 在評(píng)估模型的長(zhǎng)文本能力時(shí)更加重要。
圖 2(a)LongEval 任務(wù)示意圖 (b)(c) LongEval 的答案 / 非答案部分的困惑度與任務(wù)表現(xiàn)的相關(guān)性。
通過長(zhǎng)-短上下文對(duì)比在自然文本中定位關(guān)鍵 token
在上述結(jié)果的啟發(fā)下,一個(gè)自然而然的想法是:若將困惑度指標(biāo)限定于依賴長(zhǎng)上下文信息的關(guān)鍵 token 上,便可更有效地評(píng)估模型處理長(zhǎng)文本的能力。
然而,實(shí)際應(yīng)用中存在一個(gè)挑戰(zhàn):在自然文本中,無法像 LongEval 基準(zhǔn)中那樣明確標(biāo)注哪些 token 依賴于長(zhǎng)距離上下文,因此迫切需要一種指標(biāo)來自動(dòng)識(shí)別這些關(guān)鍵 token。
為了解決這一問題,本文提出了一種長(zhǎng)-短上下文對(duì)比的方法。具體而言,本文將每個(gè) token x_i 的長(zhǎng)上下文 l_i=(x_1,…,x_(i-1)) 截?cái)喑啥躺舷挛?s_i=(x_(i-K),…,x_(i-1)),然后計(jì)算模型 θ 在長(zhǎng) / 短上下文下生成同一 token 的(對(duì)數(shù))概率差距 (Long-short difference, LSD):
這一指標(biāo)用于量化長(zhǎng)上下文對(duì)模型預(yù)測(cè)準(zhǔn)確度的提升。圖 3 表明,在 LongEval 任務(wù)中,LSD 幾乎能夠完美區(qū)分答案部分和非答案部分。與長(zhǎng)上下文信息相關(guān)的答案部分 LSD 值普遍大于 2,而與長(zhǎng)上下文信息幾乎無關(guān)的非答案部分 LSD 值普遍在 - 0.5 到 0.5 之間。這一結(jié)果初步驗(yàn)證了該指標(biāo)在定位關(guān)鍵 token 方面的有效性。
圖 3 LongEval 標(biāo)準(zhǔn)回答中不同類型的 token 按 LSD 分類的分布。
此外,本文發(fā)現(xiàn)模型基于長(zhǎng)文本的(對(duì)數(shù))生成概率 (Long-context likelihood, LCL) 也有助于定位關(guān)鍵 token(在此不做展開):
困惑度無法反映模型長(zhǎng)文本能力的原因
進(jìn)一步,本文在 GovReport 政府報(bào)告數(shù)據(jù)集上計(jì)算了按 LSD 分類的 token 分布。如圖 4 所示,大部分 token 的 LSD 集中在 [-0.5, 0.5) 范圍內(nèi),而 LSD 大于 2 的 token 占比不到 10%。這意味著在自然文本中,只有非常少數(shù)的 token 與長(zhǎng)上下文中的信息有強(qiáng)相關(guān)性,而絕大部分的 token 只需要依賴短上下文的信息即可生成。
這一結(jié)果表明,困惑度在長(zhǎng)文本上失效的原因在于其對(duì)所有 token 進(jìn)行平均計(jì)算,未能充分關(guān)注長(zhǎng)文本中這些少數(shù)的關(guān)鍵token。
圖 4 GovReport 數(shù)據(jù)集中 token 按 LSD 分類的分布。
長(zhǎng)文本困惑度——長(zhǎng)文本能力評(píng)估指標(biāo)的改進(jìn)
基于上述分析,為了克服傳統(tǒng)困惑度指標(biāo)在長(zhǎng)文本場(chǎng)景下的局限性,本文提出了一個(gè)新的評(píng)估指標(biāo)——長(zhǎng)文本困惑度(LongPPL)。具體設(shè)計(jì)為:
其核心思想在于通過 LSD 和 LCL 指標(biāo),將困惑度的計(jì)算限制在長(zhǎng)文本的關(guān)鍵 token 上,從而聚焦于關(guān)鍵 token 的預(yù)測(cè)質(zhì)量,以更準(zhǔn)確地反映模型的長(zhǎng)文本能力。
實(shí)驗(yàn)結(jié)果表明,模型在自然文本上的 LongPPL 和長(zhǎng)文本任務(wù)的實(shí)際表現(xiàn)高度相關(guān)。如圖 1(下)所示,在 GovReport 數(shù)據(jù)集上,9 個(gè)主流長(zhǎng)文本大模型的 LongPPL 與在 LongBench 任務(wù)集上表現(xiàn)的皮爾遜相關(guān)系數(shù)達(dá)到了 - 0.96。
長(zhǎng)文本交叉熵——長(zhǎng)文本訓(xùn)練方法的優(yōu)化
除了用于評(píng)估長(zhǎng)文本能力外,本文還基于 LongPPL 的思想提出了一種改進(jìn)的訓(xùn)練損失 —— 長(zhǎng)文本交叉熵(LongCE):
在提升模型長(zhǎng)文本能力的微調(diào)過程中,LongCE 會(huì)賦予關(guān)鍵 token 更高的權(quán)重,使得模型在訓(xùn)練中更加聚焦提升這些關(guān)鍵 token 的預(yù)測(cè)準(zhǔn)確性,從而增強(qiáng)模型在長(zhǎng)文本任務(wù)中的表現(xiàn)。
為了驗(yàn)證 LongCE 的有效性,研究團(tuán)隊(duì)在 Llama-2-7b 模型的基礎(chǔ)上進(jìn)行了多組對(duì)比實(shí)驗(yàn)。
實(shí)驗(yàn)設(shè)計(jì)涵蓋了不同的訓(xùn)練數(shù)據(jù)集(包括 PG-19 書籍?dāng)?shù)據(jù)集和 Pile-arxiv 論文數(shù)據(jù)集)以及不同的訓(xùn)練方法(包括熵感知基調(diào)整 EABF 和位置插值 PI,其中 EABF 與 Deepseek-v3 采用的 YaRN 插值方法相似)。實(shí)驗(yàn)評(píng)估采用了 LongBench、LongEval 和 RULER 這三個(gè)廣泛使用的長(zhǎng)文本測(cè)試任務(wù)集。
實(shí)驗(yàn)結(jié)果表明,在各種實(shí)驗(yàn)設(shè)定下,采用 LongCE 進(jìn)行微調(diào)的大模型在長(zhǎng)文本處理能力上均顯著優(yōu)于使用傳統(tǒng)交叉熵?fù)p失函數(shù)進(jìn)行微調(diào)的模型。這表明,不僅是評(píng)估,長(zhǎng)文本的訓(xùn)練也應(yīng)根據(jù)其特點(diǎn)來設(shè)計(jì)損失函數(shù),而非簡(jiǎn)單地沿用短文本場(chǎng)景的損失函數(shù)!
值得注意的是,由于當(dāng)前主流的長(zhǎng)文本泛化方法主要集中于模型架構(gòu)和參數(shù)的優(yōu)化,而未涉及訓(xùn)練損失函數(shù)的改進(jìn),因此 LongCE 可以與這些方法實(shí)現(xiàn)無縫結(jié)合,展現(xiàn)出廣闊的應(yīng)用前景和強(qiáng)大的性能提升潛力。
表 2 使用不同的損失函數(shù)在長(zhǎng)文本數(shù)據(jù)上微調(diào)的大模型的長(zhǎng)文本性能。
更多文章細(xì)節(jié),請(qǐng)參考原文。