利用大模型打造文本摘要訓(xùn)練新范式
1、文本任務(wù)
這篇文章主要討論的是生成式文本摘要的方法,如何利用對(duì)比學(xué)習(xí)和大模型實(shí)現(xiàn)最新的生成式文本摘要訓(xùn)練范式。主要涉及兩篇文章,一篇是BRIO: Bringing Order to Abstractive Summarization(2022),利用對(duì)比學(xué)習(xí)在生成模型中引入ranking任務(wù);另一篇是On Learning to Summarize with Large Language Models as References(2023),在BRIO基礎(chǔ)上進(jìn)一步引入大模型生成高質(zhì)量訓(xùn)練數(shù)據(jù)。
2、生成式文本摘要訓(xùn)練方法和問(wèn)題
生成式文本摘要的訓(xùn)練一般采用極大似估計(jì)的方式。首先用一個(gè)Encoder對(duì)document進(jìn)行編碼,然后用一個(gè)Decoder遞歸的預(yù)測(cè)摘要中的每個(gè)文本,擬合的目標(biāo)是一個(gè)人工構(gòu)造的摘要標(biāo)準(zhǔn)答案。整個(gè)優(yōu)化函數(shù)可以表示為如下形式,讓每個(gè)位置生成文本的概率和標(biāo)準(zhǔn)答案最接近:
這種方式的問(wèn)題在于,訓(xùn)練和下游實(shí)際任務(wù)并不一致。對(duì)于一個(gè)document,可以產(chǎn)生很多摘要,這些摘要的質(zhì)量有好有壞。而MLE要求擬合的目標(biāo)必須是唯一一個(gè)標(biāo)準(zhǔn)答案。這種gap也導(dǎo)致文本摘要模型無(wú)法比較好的評(píng)估兩個(gè)質(zhì)量不同摘要的好壞程度。例如在BRIO這篇論文中做了一個(gè)實(shí)驗(yàn),一般的文本摘要模型在判斷質(zhì)量不同的兩個(gè)摘要的相對(duì)順序時(shí),效果非常差。
3、生成模型引入排序?qū)Ρ葘W(xué)習(xí)
為了解決傳統(tǒng)生成式文本摘要模型存在的問(wèn)題,BRIO: Bringing Order to Abstractive Summarization(2022)提出在生成模型中進(jìn)一步引入對(duì)比學(xué)習(xí)任務(wù),提升模型對(duì)不同質(zhì)量摘要的排序能力。
BRIO采用多任務(wù)的形式進(jìn)行訓(xùn)練。第一個(gè)任務(wù)和傳統(tǒng)生成式模型相同,也是MLE的方式擬合標(biāo)準(zhǔn)答案。第二個(gè)任務(wù)是一個(gè)對(duì)比學(xué)習(xí)任務(wù),讓一個(gè)預(yù)訓(xùn)練的文本摘要模型使用beam search生成不同的兩個(gè)結(jié)果,使用ROUGE評(píng)估這兩個(gè)生成結(jié)果和標(biāo)準(zhǔn)答案之間哪個(gè)更好,以確定這兩個(gè)摘要的排序。這兩個(gè)摘要結(jié)果輸入到Decoder中,得到兩個(gè)摘要的概率,通過(guò)對(duì)比學(xué)習(xí)loss讓模型給高質(zhì)量摘要更高的打分。這部分對(duì)比學(xué)習(xí)loss的計(jì)算方式如下:
4、大模型優(yōu)化文本摘要
隨著GPT等大模型的興起,人們發(fā)現(xiàn)用大模型生成的摘要甚至比人工生成的質(zhì)量還要好。這種情況下,使用人工生成的標(biāo)準(zhǔn)答案就限制了模型效果的天花板。因此On Learning to Summarize with Large Language Models as References(2023)提出使用GPT這種大模型生成訓(xùn)練數(shù)據(jù),指導(dǎo)摘要模型學(xué)習(xí)。
這篇文章提出了3種利用大模型生成訓(xùn)練樣本的方式。
第一種是直接使用大模型生成的摘要,替代人工生成的摘要,相當(dāng)于直接用下游模型擬合大模型的摘要生成能力,訓(xùn)練方式仍然是MLE。
第二種方式為GPTScore,主要是利用預(yù)訓(xùn)練大模型對(duì)生成的摘要進(jìn)行打分,以這個(gè)打分作為評(píng)估摘要質(zhì)量的依據(jù),然后使用類似BRIO中的方式進(jìn)行對(duì)比學(xué)習(xí)訓(xùn)練。GPTScore是Gptscore: Evaluate as you desire(2023)中提出的一種基于大模型評(píng)估生成文本質(zhì)量的方法。
第三種方式為GPTRank,這種方法讓大模型對(duì)各個(gè)摘要進(jìn)行排序而非直接打分,并讓大模型對(duì)排序邏輯做出解釋,以此獲取更合理的排序結(jié)果。
5、總結(jié)
大模型在摘要生成上的能力得到越來(lái)越廣泛的認(rèn)可,因此利用大模型作為摘要模型擬合目標(biāo)的生成器,取代人工標(biāo)注結(jié)果,將成為未來(lái)的發(fā)展趨勢(shì)。同時(shí),利用排序?qū)Ρ葘W(xué)習(xí)進(jìn)行摘要生成的訓(xùn)練,讓摘要模型感知摘要質(zhì)量,超越原本的點(diǎn)擬合,對(duì)于提升摘要模型效果也至關(guān)重要。