自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

別用GPT-4直出文本摘要!MIT、哥大等發(fā)布全新「密度鏈」提示:實體密度是摘要質(zhì)量的關(guān)鍵

人工智能 新聞
用密度鏈提示逐步改善GPT-4摘要中的實體密度,只需三步即可獲得「人類級摘要」!

ChatGPT發(fā)布后,文本生成技術(shù)得到飛速發(fā)展,大量NLP任務都面臨被完全攻克的窘境,尤其是對于缺乏標準答案的「文本摘要」任務來說更是如此。

但如何在摘要中包含「合理的信息量」仍然十分困難:一個好的摘要應該是詳細的,以實體為中心的,而非實體密集且難以理解。

為了更好地理解信息量和可理解性之間的權(quán)衡,麻省理工學院、哥倫比亞大學等機構(gòu)的研究人員提出了一個全新的「密度鏈」(Chain of Dense)提示,可以在不增加摘要文本長度的前提下,對GPT-4生成的實體稀疏(entity-sparse)摘要進行迭代優(yōu)化,逐步添加缺失的重要實體。

論文鏈接:https://arxiv.org/pdf/2309.04269.pdf

開源數(shù)據(jù):https://huggingface.co/datasets/griffin/chain_of_density

從實驗結(jié)果來看,用CoD生成的摘要比由普通提示生成的GPT-4摘要更抽象(abstractive),表現(xiàn)出更多的融合性(fusion)以及更少的lead bias

在對100篇CNN DailyMail文章進行人類偏好研究后可以發(fā)現(xiàn),人類也更傾向于選擇實體更密集的摘要結(jié)果,與人工編寫摘要的實體密度相近。

研究人員開源了500篇帶標注的CoD摘要,以及5000篇無標注的摘要數(shù)據(jù)。

迭代改進文本摘要

提示(Prompt)

任務目標是使用GPT-4生成一組具有「不同信息密度水平」的摘要,同時還要控制文本的長度。

研究人員提出密度鏈(CoD,Chain of Density)提示來生成一個初始摘要,并逐漸使實體密度越來越大。

具體來說,在固定的迭代輪數(shù)下,識別出源文本中一組獨特的、顯著的實體,并融合到先前的摘要中而不增加文本長度。

首次生成的摘要是實體稀疏的,只關(guān)注1-3個初始實體;為了保持相同的文本長度,同時增加涵蓋的實體數(shù)量,需要明確鼓勵抽象(abstraction)、融合(fusion)和壓縮(compression),而不是從之前的摘要中刪除有意義的內(nèi)容。

研究人員沒有規(guī)定實體的類型,而是簡單地將缺失實體(Missing Entity)定義為:

相關(guān)(Relevant):與主體故事相關(guān);

具體(Specific):描述性但簡明扼要(5個字或以下);

新穎(Novel):沒有出現(xiàn)在之前的摘要中;

忠實(Faithful):存在于原文中;

任何地方(Anywhere):可以出現(xiàn)在文章中的任意位置。

在數(shù)據(jù)選擇上,研究人員從CNN/DailyMail摘要測試集中隨機抽取100篇文章來生成CoD摘要。

然后將CoD摘要統(tǒng)計數(shù)據(jù)與人工編寫的條目(bullet-point)風格的參考摘要以及GPT-4在常規(guī)提示下生成的摘要進行對比,其中提示詞為「寫一篇非常簡短的文章摘要,不超過70個詞」(Write a VERY short summary of the Article. Do not exceed 70 words)。

預期token長度設置為與CoD摘要的token長度相匹配。

統(tǒng)計結(jié)果

直接統(tǒng)計指標

使用NLTK計算token數(shù)量,使用Spacy2測量獨特的實體數(shù)量,并計算實體密度比率。

CoD提示很大程度上限制了生成摘要的預期token數(shù)量,可以看到,從第二步開始從冗長的初始摘要中逐漸刪除不必要的單詞,使得文本長度平均減少5個token(72到67)。

實體密度也隨之上升,最開始是0.089,低于人類和GPT-4的結(jié)果(分別為0.151和0.122),而在5步操作后密度上升到0.167。

間接統(tǒng)計指標

使用抽取密度(extractive density,即抽取片段的平均長度的平方)來衡量文本的抽象性(abstractiveness),預期文本應該隨CoD的迭代進展而增加。

使用「摘要句子與源文本對齊數(shù)量」作為概念融合(fusion)指標,其中對齊算法使用「相對ROUGE增益」,將源句子與目標句子對齊,直到額外添加的句子不會繼續(xù)提升相對ROUGE增益為止,預期融合應該逐漸增加。

使用「摘要內(nèi)容在源文本中的位置」作為內(nèi)容分布(Content Distribution)指標,具體測量方法為所有對齊源句子的平均排序,預期CoD摘要最初表現(xiàn)出明顯的Lead Bias,后續(xù)逐漸開始從文章的中間和結(jié)尾部分引入實體。

統(tǒng)計結(jié)果也驗證了預期結(jié)果的正確性:抽象性隨著重寫過程而逐漸增加、融合率上升、摘要開始納入文章中間和結(jié)尾的內(nèi)容。

并且,所有CoD摘要都比手工編寫和基線模型生成的摘要更加抽象。

實驗結(jié)果

為了更好地理解CoD摘要的權(quán)衡,我們用GPT-4進行了一項基于偏好的人體研究和一項基于評級的評估。

人類偏好評估

研究人員主要以評估致密化(densification)對人類整體質(zhì)量評估的影響。

具體來說,輸入100篇文章,可以得到「5個步驟*100=總計500個摘要」,向四位標注人員隨機展示摘要結(jié)果,并根據(jù)原文忠實度(Essence)、清晰性(Clarity)、準確性(Accuracy)、目的性(Purpose)、簡潔性(Concise)和風格(Style)對摘要進行評估。

從票選結(jié)果來看,第二個CoD步驟獲得了最高評價,再結(jié)合之前平均密度的實驗結(jié)果,可以大體推斷出人類更傾向于選擇實體密度約為15%的文本摘要,顯著高于GPT-4生成的摘要(實體密度0.122)。

圖片

自動評估指標

最近一些工作已經(jīng)證明了GPT-4的評估與人類評估結(jié)果之間的相關(guān)性非常高,甚至有可能在部分標注任務上比眾包工作者的表現(xiàn)還要好。

作為人工評估的補充,研究人員提出使用GPT-4從5個方面對CoD摘要(1-5)進行評級:信息量(Informative)、質(zhì)量(Quality)、連貫性(Coherence)、歸因(Attributable)和整體性(Overall)。

使用的指令模版為:

Article: {{Article}}

Summary: {{Summary}}

Please rate the summary (1=worst to 5=best) with respect to {{Dimension}}.

{{Definition}}

其中各個指標的定義為:

信息量:信息量豐富的摘要可以抓住文章中的重要信息,并準確簡潔地呈現(xiàn)出來。(An informative summary captures the important information in the article and presents it accurately and concisely.)

質(zhì)量:高質(zhì)量的摘要是可理解的。(A high quality summary is comprehensible and understandable.)

連貫性:連貫一致的摘要結(jié)構(gòu)嚴謹,組織有序。(A coherent summary is well-structured and well-organized.)

歸因:摘要中的所有信息是否完全歸因文章?(Is all the information in the

summary fully attributable to the Article?)

總體偏好:一個好的摘要應該以簡潔、邏輯和連貫的方式傳達文章的主要觀點。(A good summary should convey the main ideas in the Article in a concise, logical, and coherent fashion.)

實驗結(jié)果表明,致密化與信息量相關(guān),但得分在第4步時達到峰值(4.74);質(zhì)量和連貫性的下降更快;所有摘要均被視為歸因自源文章;總體得分傾向于更密集和更翔實的總結(jié),第4步得分最高。平均而言,第一個和最后一個CoD步驟最不受青睞,而中間三個步驟很接近(分別為4.78、4.77和4.76)。

定性分析

摘要的連貫性/可讀性和信息量之間在迭代的過程中需要權(quán)衡。

上面例子中展示了兩個CoD步驟,分別包含更細節(jié)的內(nèi)容和更粗略的內(nèi)容。

平均而言,中間步驟的CoD摘要可以更好地實現(xiàn)平衡,但如何精確定義和量化這種平衡目前還沒有工作。

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-09-20 15:21:48

2023-06-09 07:29:03

模型文本document

2023-07-12 16:10:48

人工智能

2020-09-07 14:15:16

AI 數(shù)據(jù)人工智能

2024-07-22 09:01:20

2023-06-21 13:37:41

模型研究

2023-06-05 12:32:48

模型論文

2024-07-15 09:00:00

2011-07-06 18:18:01

關(guān)鍵詞密度

2023-06-19 08:19:50

2019-02-18 09:00:00

TextRank算法自然語言處理Python

2017-08-03 16:20:42

深度學習文本摘要遞歸神經(jīng)網(wǎng)絡

2023-05-22 08:30:35

GPT-4智能編程助手

2025-04-16 09:35:03

2023-04-04 09:09:10

GPT-4編程程序員

2022-05-20 10:43:30

AI模型

2023-07-14 09:00:00

2023-06-08 08:09:43

2024-05-08 07:28:06

LLMLinguaLLM大型語言模型

2011-06-15 19:17:15

關(guān)鍵詞
點贊
收藏

51CTO技術(shù)棧公眾號