自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

大模型總結(jié)摘要靠譜嗎？比人類寫的流暢，用GPT-4幻覺還少

作者：機(jī)器之心 2023-09-20 15:21:48

人工智能新聞

在對(duì) LLM 生成的摘要、人工撰寫的摘要和微調(diào)模型生成的摘要進(jìn)行定量和定性的比較后發(fā)現(xiàn)，由 LLM 生成的摘要明顯受到人類評(píng)估者的青睞。

文本摘要，作為自然語言生成（NLG）中的一項(xiàng)任務(wù)，主要用來將一大段長(zhǎng)文本壓縮為簡(jiǎn)短的摘要，例如新聞文章、源代碼和跨語言文本等多種內(nèi)容都能用到。

隨著大模型（LLM）的出現(xiàn)，傳統(tǒng)的在特定數(shù)據(jù)集上進(jìn)行微調(diào)的方法已經(jīng)不在適用。

我們不禁會(huì)問，LLM 在生成摘要方面效果到底如何？

為了回答這一問題，來自北京大學(xué)的研究者在論文《 Summarization is (Almost) Dead 》中進(jìn)行了深入的探討。他們使用人類生成的評(píng)估數(shù)據(jù)集評(píng)估了 LLM 在各種摘要任務(wù)（單條新聞、多條新聞、對(duì)話、源代碼和跨語言摘要）上的表現(xiàn)。

在對(duì) LLM 生成的摘要、人工撰寫的摘要和微調(diào)模型生成的摘要進(jìn)行定量和定性的比較后發(fā)現(xiàn)，由 LLM 生成的摘要明顯受到人類評(píng)估者的青睞。

接著該研究在對(duì)過去 3 年發(fā)表在 ACL、EMNLP、NAACL 和 COLING 上的 100 篇與摘要方法相關(guān)的論文進(jìn)行抽樣和檢查后，他們發(fā)現(xiàn)大約 70% 的論文的主要貢獻(xiàn)是提出了一種總結(jié)摘要方法并在標(biāo)準(zhǔn)數(shù)據(jù)集上驗(yàn)證了其有效性。因此，本文表示「摘要（幾乎）已死（ Summarization is (Almost) Dead ）」。

盡管如此，研究者表示該領(lǐng)域仍然存在挑戰(zhàn)，例如需要更高質(zhì)量的參考數(shù)據(jù)集、改進(jìn)評(píng)估方法等還需要解決。

論文地址：https://arxiv.org/pdf/2309.09558.pdf

方法及結(jié)果

該研究使用最新的數(shù)據(jù)來構(gòu)建數(shù)據(jù)集，每個(gè)數(shù)據(jù)集由 50 個(gè)樣本組成。

例如在執(zhí)行單條新聞、多條新聞和對(duì)話摘要任務(wù)時(shí)，本文采用的方法模擬了 CNN/DailyMail 、Multi-News 使用的數(shù)據(jù)集構(gòu)建方法。對(duì)于跨語言摘要任務(wù)，其策略與 Zhu 等人提出的方法一致。關(guān)于代碼摘要任務(wù)，本文采用 Bahrami 等人提出的方法。

數(shù)據(jù)集構(gòu)建完成之后，接下來就是方法了。具體來說，針對(duì)單條新聞任務(wù)本文采用 BART 和 T5 ；多條新聞任務(wù)采用 Pegasus 和 BART；T5 和 BART 用于對(duì)話任務(wù)；跨語言任務(wù)使用 MT5 和 MBART ；源代碼任務(wù)使用 Codet5 。

實(shí)驗(yàn)中，該研究聘請(qǐng)人類評(píng)估員來比較不同摘要的整體質(zhì)量。結(jié)果如圖 1 所示，LLM 生成的摘要在所有任務(wù)中始終優(yōu)于人工生成的摘要和微調(diào)模型生成的摘要。

這就提出了一個(gè)問題：為什么 LLM 能夠勝過人類撰寫的摘要，而傳統(tǒng)上人們認(rèn)為這些摘要是完美無缺的。此外，經(jīng)過初步的觀察表明，LLM 生成的摘要表現(xiàn)出高度的流暢性和連貫性。

本文進(jìn)一步招募注釋者來識(shí)別人類和 LLM 生成摘要句子中的幻覺問題，結(jié)果如表 1 所示，與 GPT-4 生成的摘要相比，人工書寫的摘要表現(xiàn)出相同或更高數(shù)量的幻覺。在多條新聞和代碼摘要等特定任務(wù)中，人工編寫的摘要表現(xiàn)出明顯較差的事實(shí)一致性。

人工撰寫的摘要和 GPT-4 生成摘要中出現(xiàn)幻覺的比例，如表 2 所示：

本文還發(fā)現(xiàn)人工編寫的參考摘要存在這樣一個(gè)問題，即缺乏流暢性。如圖 2 (a) 所示，人工編寫的參考摘要有時(shí)存在信息不完整的缺陷。并且在圖 2 (b) 中，一些由人工編寫的參考摘要會(huì)出現(xiàn)幻覺。

本文還發(fā)現(xiàn)微調(diào)模型生成的摘要往往具有固定且嚴(yán)格的長(zhǎng)度，而 LLM 能夠根據(jù)輸入信息調(diào)整輸出長(zhǎng)度。此外，當(dāng)輸入包含多個(gè)主題時(shí)，微調(diào)模型生成的摘要對(duì)主題的覆蓋率較低，如圖 3 所示，而 LLM 在生成摘要時(shí)能夠捕獲所有主題：

由圖 4 可得，人類對(duì)大模型的偏好分?jǐn)?shù)超過 50%，表明人們對(duì)其摘要有強(qiáng)烈的偏好，并凸顯了 LLM 在文本摘要方面的能力：

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<rt id="cw1xv"></rt>