自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

優(yōu)于人類參考摘要,OpenAI用人類反饋提升了摘要生成質(zhì)量

新聞 人工智能
近日,來自 OpenAI 的研究者利用人類反饋優(yōu)化了文本摘要生成模型,該模型生成的摘要質(zhì)量顯著提升,并且可以遷移至 CNN/DM 的文章生成新聞?wù)?/div>

  隨著語言模型越來越強(qiáng)大,用于特定任務(wù)的數(shù)據(jù)和度量標(biāo)準(zhǔn)越來越成為訓(xùn)練和評估的瓶頸。例如,摘要模型通常被訓(xùn)練用來預(yù)測人類參考摘要,并使用 ROUGE 進(jìn)行評估,但是這些度量指標(biāo)都沒有觸及真正的關(guān)注點(diǎn)——摘要質(zhì)量。

近日,OpenAI 的一項(xiàng)研究表明,人們可以通過訓(xùn)練模型來優(yōu)化人類偏好,進(jìn)而顯著提升摘要質(zhì)量。具體而言,研究者收集了一個人類摘要比較的大型、高質(zhì)量數(shù)據(jù)集,訓(xùn)練了一種模型來預(yù)測人類偏好的摘要,并使用該模型作為獎勵函數(shù)通過強(qiáng)化學(xué)習(xí)來微調(diào)摘要策略。

優(yōu)于人類參考摘要,OpenAI用人類反饋提升了摘要生成質(zhì)量

論文鏈接:https://arxiv.org/pdf/2009.01325.pdf

項(xiàng)目地址:https://github.com/openai/summarize-from-feedback

研究者將該方法應(yīng)用于 Reddit 帖子的摘要生成,結(jié)果顯示該研究的模型顯著優(yōu)于人類參考摘要,以及僅通過監(jiān)督學(xué)習(xí)進(jìn)行微調(diào)的更大規(guī)模的模型。

研究中的模型還可以遷移至 CNN/DM 新聞文章,在不進(jìn)行任何特定新聞微調(diào)的情況下生成幾乎和人類參考摘要一樣好的結(jié)果。

最后,研究者進(jìn)行了擴(kuò)展分析,以理解人類反饋數(shù)據(jù)集和微調(diào)模型。該研究確保獎勵模型能夠泛化到新數(shù)據(jù)集上,并且優(yōu)化獎勵模型的結(jié)果要比根據(jù)人類要求優(yōu)化的 ROUGE 更佳。

該研究的主要貢獻(xiàn)有:

研究表明,在英文摘要生成上,基于人類反饋的訓(xùn)練顯著優(yōu)于強(qiáng)大的基準(zhǔn)訓(xùn)練;

人類反饋模型相較于監(jiān)督模型能夠更好地泛化到新的領(lǐng)域;

對其策略和獎勵模型進(jìn)行了擴(kuò)展實(shí)驗(yàn)分析。

接下來詳細(xì)解讀 OpenAI 采用的研究方法以及相應(yīng)的實(shí)驗(yàn)細(xì)節(jié)和結(jié)果。

方法與實(shí)驗(yàn)細(xì)節(jié)

高階方法

研究者采用的方法適用于批處理設(shè)置。從一個初始策略開始,該策略通過對所需數(shù)據(jù)集(以 Reddit TL;DR 摘要數(shù)據(jù)集為示例)的監(jiān)督學(xué)習(xí)進(jìn)行微調(diào)。整個過程(如下圖 2 所示)由可以迭代重復(fù)的三個步驟組成:

基于現(xiàn)有策略中收集樣本,并將比較結(jié)果發(fā)送給人類;

從人類比較中學(xué)習(xí)獎勵模型;

針對獎勵模型優(yōu)化策略。

優(yōu)于人類參考摘要,OpenAI用人類反饋提升了摘要生成質(zhì)量

人類反饋、獎勵模型訓(xùn)練和策略訓(xùn)練整體流程圖。

數(shù)據(jù)集和任務(wù)

研究者使用 TL;DR 摘要數(shù)據(jù)集,它包含來自 reddit.com 上涉及各種主題(subreddit)約 300 萬個帖子,以及原始發(fā)帖人(TL; DR)撰寫的帖子摘要。

此外,研究者還對該數(shù)據(jù)集進(jìn)行了過濾(請參閱附錄 A)以確保數(shù)據(jù)集質(zhì)量,包括使用一般人群可以理解的 subreddit 白名單。

研究者將 ground-truth 任務(wù)定義為生成一個模型,其中該模型生成長度少于 48 個 token 且盡可能好的摘要。此外,判斷摘要質(zhì)量的標(biāo)準(zhǔn)是:摘要如何忠實(shí)地將原文傳達(dá)給一個只能閱讀摘要而不閱讀文章的讀者

收集人類反饋

先前根據(jù)人類反饋對語言模型進(jìn)行微調(diào)的研究表明[66]:我們希望自身模型學(xué)習(xí)的質(zhì)量與人類標(biāo)簽者實(shí)際評估的質(zhì)量之間存在不匹配。這導(dǎo)致了模型生成摘要在標(biāo)簽者看來質(zhì)量是好的,但在研究人員看來,質(zhì)量卻很低。

與 [66] 相比,研究者實(shí)現(xiàn)了兩個改進(jìn)來提高人類數(shù)據(jù)質(zhì)量。首先,完全過渡到離線設(shè)置,在這里交替發(fā)送大量的比較數(shù)據(jù)給人工標(biāo)簽者,然后根據(jù)累積收集的數(shù)據(jù)重新訓(xùn)練模型;其次,與標(biāo)簽者保持親密關(guān)系:給他們詳細(xì)的指導(dǎo),在共享的聊天室中回答他們的問題,并定期對他們的表現(xiàn)提供反饋。

模型

研究者使用的所有模型都是 GPT-3 風(fēng)格的 Transformer 解碼器,并對具有 13 億(1.3B)和 67 億(6.7B)參數(shù)的模型進(jìn)行人類反饋實(shí)驗(yàn)。與 [12,44] 類似,研究者從預(yù)訓(xùn)練模型開始,以自動回歸預(yù)測大型文本語料庫中的下一個 token。

接著,通過監(jiān)督學(xué)習(xí)對這些模型進(jìn)行微調(diào),根據(jù)過濾后的 TL; DR 數(shù)據(jù)集預(yù)測摘要(詳細(xì)信息參見附錄 B)。使用這些監(jiān)督模型對初始摘要進(jìn)行抽樣,以收集比較結(jié)果,初始化策略和獎勵模型,并作為評估基準(zhǔn)。

最后,為了訓(xùn)練獎勵模型,研究者從一個監(jiān)督基準(zhǔn)開始,然后添加一個隨機(jī)初始化線性頭(linear head)輸出一個標(biāo)量值。

研究者想要利用訓(xùn)練得到的獎勵模型,來訓(xùn)練一個能夠生成基于人類判斷的高質(zhì)量輸出的策略。

實(shí)驗(yàn)

根據(jù)人類反饋生成 Reddit 帖子的摘要

與規(guī)模更大的監(jiān)督策略相比,基于人工反饋訓(xùn)練的策略更可取。在 TL;DR 數(shù)據(jù)集上評估人工反饋策略的主要結(jié)果如下圖 1 所示:

優(yōu)于人類參考摘要,OpenAI用人類反饋提升了摘要生成質(zhì)量

研究者衡量策略質(zhì)量采用的指標(biāo)是該數(shù)據(jù)集中由該策略生成的人們偏好的參考摘要所占的百分比。從圖中可以看到,基于人工反饋訓(xùn)練的策略顯著優(yōu)于監(jiān)督基準(zhǔn)策略,并且 1.3B 的人工反饋模型也顯著優(yōu)于其 10 倍規(guī)模的監(jiān)督模型(兩者相對于參考摘要的原始偏好得分為 61% vs 43%)。

控制摘要長度

在判斷摘要質(zhì)量時,摘要長度是一個混淆因子(confounding factor)。摘要的目標(biāo)長度是摘要生成任務(wù)的隱式部分,并且根據(jù)簡潔性與涵蓋性之間的預(yù)期權(quán)衡來判斷生成長摘要還是短摘要。

該研究中的模型學(xué)會了生成更長的摘要,因此長度在質(zhì)量改進(jìn)中起到了很大的作用。

策略如何在基準(zhǔn)上實(shí)現(xiàn)提升?

為了更好地了解該模型生成摘要與參考摘要和監(jiān)督基準(zhǔn)摘要三者之間的質(zhì)量比較,研究者進(jìn)行了一項(xiàng)補(bǔ)充分析,其中人類標(biāo)簽員使用 7-point 李克特量表(Likert scale)從四個指標(biāo)(整體表現(xiàn)、涵蓋性、連貫性和準(zhǔn)確性)對摘要質(zhì)量進(jìn)行了評估。評估結(jié)果如下圖 3 所示,表明從所有指標(biāo),特別是涵蓋性來看,人類反饋模型優(yōu)于監(jiān)督基準(zhǔn)模型。

優(yōu)于人類參考摘要,OpenAI用人類反饋提升了摘要生成質(zhì)量

具備生成新聞文章摘要的遷移性

如下圖 4 所示,人類反饋模型還可以在沒有任何進(jìn)一步訓(xùn)練的情況下,生成優(yōu)秀的 CNN/DM 新聞文章摘要。

具體來講,人類反饋模型在 TL;DR 數(shù)據(jù)集上顯著優(yōu)于通過監(jiān)督學(xué)習(xí)訓(xùn)練的模型,以及僅在預(yù)訓(xùn)練語料庫上訓(xùn)練的模型。盡管生成的摘要更短,6.7B 人類反饋模型的效果幾乎相當(dāng)于在 CNN/DM 參考摘要上進(jìn)行微調(diào)的 6.7B 模型。

優(yōu)于人類參考摘要,OpenAI用人類反饋提升了摘要生成質(zhì)量

理解獎勵模型

優(yōu)化獎勵模型

根據(jù)該研究的獎勵模型進(jìn)行優(yōu)化應(yīng)該使該研究的策略和人的偏好保持一致。但是獎勵模型并不能完美地代表標(biāo)簽偏好。雖然該研究希望獎勵模型能夠泛化到訓(xùn)練期間不可見的摘要,但尚不清楚在獎勵模型開始進(jìn)行無用的評估之前,獎勵模型能夠優(yōu)化多少。

為了回答這個問題,研究者創(chuàng)建了一系列針對獎勵模型的早期版本進(jìn)行優(yōu)化的策略,這些策略都具有不同程度的優(yōu)化強(qiáng)度,并要求標(biāo)簽者對將其樣本與參考摘要進(jìn)行比較。

優(yōu)于人類參考摘要,OpenAI用人類反饋提升了摘要生成質(zhì)量

獎勵模型如何隨著模型和數(shù)據(jù)量的增加進(jìn)行擴(kuò)展?

研究者進(jìn)行了控制變量實(shí)驗(yàn)以確定數(shù)據(jù)量和模型大小如何影響?yīng)剟钅P偷男阅堋Q芯空哂?xùn)練了 7 個獎勵模型,從 160M 到 13B 參數(shù),從 8k 到 64k 的人類比較數(shù)據(jù)。

該研究發(fā)現(xiàn),訓(xùn)練數(shù)據(jù)量增加一倍會導(dǎo)致獎勵模型驗(yàn)證集準(zhǔn)確率增加大約 1.1%,而模型大小增加一倍則會導(dǎo)致增加大約 1.8%。具體如下圖 6 所示:

優(yōu)于人類參考摘要,OpenAI用人類反饋提升了摘要生成質(zhì)量

獎勵模型學(xué)到了什么?

研究者在幾個驗(yàn)證集中評估了該獎勵模型,在下表 17 中給出了完整結(jié)果:

優(yōu)于人類參考摘要,OpenAI用人類反饋提升了摘要生成質(zhì)量

研究者發(fā)現(xiàn)該獎勵模型泛化到評估 CNN/DM 摘要,具體如下表 18 所示:

優(yōu)于人類參考摘要,OpenAI用人類反饋提升了摘要生成質(zhì)量

分析用于摘要的自動度量指標(biāo)

研究者研究了各種自動度量指標(biāo)如何很好地預(yù)測人類的偏好,并將其與 RM 進(jìn)行比較。具體來講,研究者在基線監(jiān)督模型下檢查了 ROUGE、摘要長度、從帖子中復(fù)制的數(shù)量以及對數(shù)概率。

如下圖 7 所示,使用簡單的優(yōu)化方案優(yōu)化 ROGUE 并不能持續(xù)提高質(zhì)量,與針對獎勵模型的優(yōu)化相比,針對 ROGUE 的優(yōu)化不僅可以更快達(dá)到峰值,而且質(zhì)量比率也大大降低。

優(yōu)于人類參考摘要,OpenAI用人類反饋提升了摘要生成質(zhì)量

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2020-06-15 10:42:42

谷歌Android開發(fā)者

2023-02-27 14:55:54

技術(shù)研究

2024-04-10 08:40:18

2023-09-20 15:21:48

2023-05-25 09:00:00

人工智能ChatGPTOpenAI

2024-12-05 10:57:24

2023-08-22 13:21:07

AI算法

2009-11-19 15:44:22

Oracle Chec

2023-01-01 13:42:11

AI學(xué)項(xiàng)目預(yù)測

2024-11-14 09:59:23

2020-08-26 13:18:19

AI 數(shù)據(jù)人工智能

2023-07-28 08:13:30

2025-03-17 13:51:06

2025-01-06 10:23:00

AI模型訓(xùn)練

2022-03-25 14:24:18

谷歌自然語言算法

2024-04-07 08:50:00

谷歌框架

2012-11-20 10:29:26

數(shù)據(jù)中心供電微軟

2022-07-04 23:29:56

人工智能語言模型數(shù)據(jù)

2023-10-04 10:30:40

GPT-4摘要

2024-04-11 08:53:57

大型語言模型BERT人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號