「字少信息量大」,Salesforce、MIT 研究者教 GPT-4「改稿」,數(shù)據(jù)集已開源
近年來,自動(dòng)摘要技術(shù)取得了長(zhǎng)足的進(jìn)步,這主要?dú)w功于范式的轉(zhuǎn)變 —— 從在標(biāo)注數(shù)據(jù)集上進(jìn)行有監(jiān)督微調(diào)轉(zhuǎn)變?yōu)槭褂么笳Z(yǔ)言模型(LLM)進(jìn)行零樣本 prompt,例如 GPT-4。不需要額外的訓(xùn)練,細(xì)致的 prompt 就能實(shí)現(xiàn)對(duì)摘要長(zhǎng)度、主題、風(fēng)格等方面特征的精細(xì)控制。
但一個(gè)方面常常被忽視:摘要的信息密度。從理論上講,作為對(duì)另一個(gè)文本的壓縮,摘要應(yīng)該比源文件更密集,也就是包含更多的信息。考慮到 LLM 解碼的高延遲,用更少的字?jǐn)?shù)涵蓋更多的信息非常重要,尤其是對(duì)于實(shí)時(shí)應(yīng)用而言。
然而,信息量密度是一個(gè)開放式的問題:如果摘要包含的細(xì)節(jié)不足,那么相當(dāng)于沒有信息量;如果包含的信息過多,又不增加總長(zhǎng)度,就會(huì)變得難以理解。要在固定的 token 預(yù)算內(nèi)傳遞更多信息,就需要將抽象、壓縮、融合三者結(jié)合起來。
在最近的一項(xiàng)研究中,來自 Salesforce、MIT 等機(jī)構(gòu)的研究者試圖通過征求人類對(duì) GPT-4 生成的一組密度越來越高的摘要的偏好來確定這一限制。對(duì)于提升 GPT-4 等大語(yǔ)言模型的「表達(dá)能力」,這一方法提供了很多啟發(fā)。
論文鏈接:https://arxiv.org/pdf/2309.04269.pdf
數(shù)據(jù)集地址:https://huggingface.co/datasets/griffin/chain_of_density
具體來說,他們將每個(gè) token 的平均實(shí)體數(shù)量作為密度的代表,生成了一個(gè)初始的、實(shí)體稀少的摘要,然后在不增加總長(zhǎng)度(總長(zhǎng)度為 5 倍)的情況下,反復(fù)識(shí)別并融合前一個(gè)摘要中缺失的 1-3 個(gè)實(shí)體,每個(gè)摘要的實(shí)體與 token 比例都高于前一個(gè)摘要。根據(jù)人類的偏好數(shù)據(jù),作者最終確定,人類更喜歡幾乎與人類編寫的摘要一樣密集的摘要,而且比普通 GPT-4 prompt 生成的摘要更密集。
總體來說,該研究的貢獻(xiàn)包括:
- 開發(fā)一種基于 prompt 的迭代方法 (CoD),使得摘要的實(shí)體密度越來越高;
- 對(duì) CNN/《每日郵報(bào)》文章中越來越密集的摘要進(jìn)行人工和自動(dòng)評(píng)估,以更好地了解信息量(傾向于更多實(shí)體)和清晰度(傾向于更少的實(shí)體)之間的權(quán)衡;
- 開源了 GPT-4 摘要、注釋和一組 5000 篇未注釋的 CoD 摘要,用于評(píng)估或提煉。
什么是 CoD
作者制定了一個(gè)單一的密度鏈(CoD)Prompt,即生成一個(gè)初始摘要,并使其實(shí)體密度不斷增加。具體來說,在一個(gè)固定的交互次數(shù)中,源文本中一組獨(dú)特的突出實(shí)體被識(shí)別出來,并在不增加長(zhǎng)度的情況下融合到之前的摘要中。
圖 2 顯示了 Prompt 和輸出示例。作者沒有規(guī)定實(shí)體的類型,而是將缺失實(shí)體定義為:
- 相關(guān):與主要故事相關(guān);
- 具體:描述性的但簡(jiǎn)潔(5 個(gè)字或更少);
- 新穎:未出現(xiàn)在之前的摘要中;
- 忠實(shí):存在于文章中;
- 任何地方:位于文章的任何地方。
作者從 CNN/DailyMail 摘要測(cè)試集中隨機(jī)抽取了 100 篇文章,為其生成 CoD 摘要。為便于參考,他們將 CoD 摘要統(tǒng)計(jì)數(shù)據(jù)與人類撰寫的要點(diǎn)式參考摘要以及 GPT-4 在普通 Prompt 下生成的摘要進(jìn)行比較:「寫一篇非常簡(jiǎn)短的文章摘要。請(qǐng)勿超過 70 個(gè)字?!?/span>
統(tǒng)計(jì)情況
在研究中,作者從直接統(tǒng)計(jì)數(shù)據(jù)和間接統(tǒng)計(jì)數(shù)據(jù)兩方面進(jìn)行了總結(jié)。直接統(tǒng)計(jì)數(shù)據(jù)(token、實(shí)體、實(shí)體密度)由 CoD 直接控制,而間接統(tǒng)計(jì)數(shù)據(jù)則是密集化的預(yù)期副產(chǎn)品。
直接統(tǒng)計(jì)數(shù)據(jù)。如表 1 所示,由于從最初冗長(zhǎng)的摘要中刪除了不必要的詞語(yǔ),第二步平均減少了 5 個(gè) token(從 72 到 67)的長(zhǎng)度。實(shí)體密度從 0.089 開始,最初低于人類和 Vanilla GPT-4(0.151 和 0.122),經(jīng)過 5 步密集化后,最終上升到 0.167。
間接統(tǒng)計(jì)。抽象度應(yīng)該會(huì)隨著每一步 CoD 的進(jìn)行而增加,因?yàn)槊吭黾右粋€(gè)實(shí)體,摘要就會(huì)被反復(fù)改寫以騰出空間。作者用提取密度來衡量抽象性:提取片段的平均平方長(zhǎng)度 (Grusky et al., 2018)。同樣,隨著實(shí)體被添加到固定長(zhǎng)度的摘要中,概念融合度也應(yīng)隨之單調(diào)增加。作者用與每個(gè)摘要句子對(duì)齊的源句子的平均數(shù)量來表示融合度。在對(duì)齊上,作者使用相對(duì) ROUGE 增益法 (Zhou et al., 2018),,該方法將源句與目標(biāo)句對(duì)齊,直到額外句子的相對(duì) ROUGE 增益不再為正。他們還預(yù)計(jì)內(nèi)容分布(Content Distribution),也就是摘要內(nèi)容所來源的文章中位置,會(huì)發(fā)生變化。
具體來說,作者預(yù)計(jì) CoD 摘要最初會(huì)表現(xiàn)出強(qiáng)烈的「引導(dǎo)偏向」(Lead Bias),但隨后會(huì)逐漸開始從文章的中間和末尾引入實(shí)體。為了測(cè)量這一點(diǎn),他們使用了融合中的對(duì)齊結(jié)果,并測(cè)量了所有對(duì)齊源句的平均句子等級(jí)。
圖 3 證實(shí)了這些假設(shè):抽象性隨著重寫步驟的增加而增加(左側(cè)提取密度較低),融合率上升(中圖),摘要開始納入文章中間和末尾的內(nèi)容(右圖)。有趣的是,與人類撰寫的摘要和基線摘要相比,所有 CoD 摘要都更具抽象性。
結(jié)果
為了更好地理解 CoD 摘要的 tradeoff,作者開展了一項(xiàng)基于偏好的人類研究,并使用 GPT-4 進(jìn)行了基于評(píng)級(jí)的評(píng)估。
人類偏好。具體來說,對(duì)于同樣的 100 篇文章(5 個(gè) step *100 = 總共 500 篇摘要),作者向論文的前四位作者隨機(jī)展示了經(jīng)過「重新創(chuàng)作」的 CoD 摘要以及文章。根據(jù) Stiennon et al. (2020) 對(duì)「好摘要」的定義,每位注釋者都給出了自己最喜歡的摘要。表 2 報(bào)告了各注釋者在 CoD 階段的第一名得票情況,以及各注釋者的匯總情況??偟膩碚f,61% 的第一名摘要(23.0+22.5+15.5)涉及≥3 個(gè)致密化步驟。首選 CoD 步數(shù)的中位數(shù)位于中間(3),預(yù)期步數(shù)為 3.06。
根據(jù) Step 3 摘要的平均密度,可以大致推斷出所有 CoD 候選者的首選實(shí)體密度為 ~ 0.15。從表 1 中可以看出,這一密度與人類編寫的摘要(0.151)相一致,但明顯高于用普通 GPT-4 Prompt 編寫的摘要(0.122)。
自動(dòng)度量。作為人工評(píng)估的補(bǔ)充(如下),作者用 GPT-4 從 5 個(gè)維度對(duì) CoD 摘要進(jìn)行評(píng)分(1-5 分):信息量、質(zhì)量、連貫性、可歸屬性和整體性。如表 3 所示,密集度與信息量相關(guān),但有一個(gè)限度,在步驟 4(4.74)時(shí)得分達(dá)到頂峰。
從各維度的平均得分來看,CoD 的第一個(gè)和最后一個(gè)步驟得分最低,而中間三個(gè)步驟得分接近(分別為 4.78、4.77 和 4.76)。
定性分析。摘要的連貫性 / 可讀性與信息量之間存在著明顯的 trade-off。圖 4 中展示了兩個(gè) CoD 步驟:一個(gè)步驟的摘要因更多細(xì)節(jié)而得到改善,另一個(gè)步驟的摘要?jiǎng)t受到損害。平均而言,中間 CoD 摘要最能實(shí)現(xiàn)這種平衡,但這種 tradeoff 仍需在今后的工作中去精確定義和量化。
更多論文細(xì)節(jié),可參考原論文。