ScholarCopilot:借助精準(zhǔn)引用訓(xùn)練大語言模型助力學(xué)術(shù)寫作
在學(xué)術(shù)寫作中,精準(zhǔn)引用與優(yōu)質(zhì)文本生成至關(guān)重要,現(xiàn)有檢索 - 增強(qiáng)生成系統(tǒng)卻難以滿足需求。今天為大家?guī)硪黄芯砍晒榻B,文中提出的ScholarCopilot框架,能訓(xùn)練大語言模型助力學(xué)術(shù)寫作。它表現(xiàn)如何?又有哪些創(chuàng)新?快來一探究竟。
參考文獻(xiàn)
@article{wang2024scholarcopilot,
title={ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations},
author = {Wang, Yubo and Ma, Xueguang and Nie, Ping and Zeng, Huaye and Lyu, Zhiheng and Zhang, Yuxuan and Schneider, Benjamin and Lu, Yi and Yue, Xiang and Chen, Wenhu},
journal={arXiv preprint arXiv:2504.00824},
year={2025}
}
摘要
學(xué)術(shù)寫作既需要連貫的文本生成,也需要對(duì)相關(guān)文獻(xiàn)進(jìn)行精確引用。盡管近期的檢索增強(qiáng)生成(RAG)系統(tǒng)在通用文本生成中大幅提升了事實(shí)準(zhǔn)確性,但其支持專業(yè)學(xué)術(shù)寫作的能力仍較為有限。在本研究中,本研究推出了ScholarCopilot,這是一個(gè)統(tǒng)一框架,旨在強(qiáng)化現(xiàn)有的大語言模型,使其能夠生成帶有精準(zhǔn)且貼合上下文引用的專業(yè)學(xué)術(shù)文章。ScholarCopilot通過生成檢索令牌[RET]動(dòng)態(tài)判斷何時(shí)檢索學(xué)術(shù)參考文獻(xiàn),隨后利用該令牌查詢引文數(shù)據(jù)庫(kù)。檢索到的參考文獻(xiàn)會(huì)被輸入模型,以優(yōu)化生成過程。本研究在單一框架內(nèi)對(duì)文本生成和引文檢索任務(wù)進(jìn)行聯(lián)合優(yōu)化,以此提高效率。本研究的模型基于Qwen-2.5-7B構(gòu)建,并在arXiv上的50萬篇論文上進(jìn)行訓(xùn)練。在本研究的評(píng)估數(shù)據(jù)集上,其 top-1檢索準(zhǔn)確率達(dá)到40.1% ,超越了諸如E5-Mistral-7B-Instruct(15.0%)和BM25(9.8%)等基線模型。在包含1000個(gè)學(xué)術(shù)寫作樣本的數(shù)據(jù)集上,ScholarCopilot在生成質(zhì)量(從相關(guān)性、連貫性、學(xué)術(shù)嚴(yán)謹(jǐn)性、完整性和創(chuàng)新性等方面衡量)的評(píng)分達(dá)到16.2/25,顯著優(yōu)于所有現(xiàn)有模型,包括檢索增強(qiáng)型的Qwen2.5-72B-Instruct等規(guī)模更大的模型。用戶研究進(jìn)一步表明,盡管ScholarCopilot是一個(gè)70億參數(shù)規(guī)模的模型,但在引用質(zhì)量上的受青睞程度遠(yuǎn)超ChatGPT,獲得了100%的偏好度;在整體實(shí)用性方面,其偏好度也超過70%。
圖1:傳統(tǒng)檢索增強(qiáng)生成(RAG)系統(tǒng)與本研究提出的ScholarCopilot的對(duì)比. 傳統(tǒng)RAG系統(tǒng)(左圖)將檢索和生成過程分開執(zhí)行,這會(huì)導(dǎo)致表示不一致。相比之下,ScholarCopilot(右圖)在文本生成過程中動(dòng)態(tài)生成檢索令牌[RET],用于一體化且具備上下文感知能力的參考文獻(xiàn)檢索。
傳統(tǒng)RAG與ScholarCopilot的對(duì)比
本研究介紹的ScholarCopilot是一個(gè)用于學(xué)術(shù)寫作的智能RAG框架,它能夠動(dòng)態(tài)整合文本生成和引文檢索功能。與傳統(tǒng)的分階段檢索和生成方法不同,本研究的系統(tǒng)會(huì)依據(jù)上下文的變化生成特殊的檢索令牌[RET],暫停文本生成以檢索相關(guān)參考文獻(xiàn),并將其內(nèi)容融入后續(xù)步驟中。檢索令牌的表示通過對(duì)比學(xué)習(xí)進(jìn)行優(yōu)化,以便實(shí)現(xiàn)高效的相似性搜索。ScholarCopilot還支持在迭代過程中由用戶進(jìn)行可選的優(yōu)化,在不增加額外成本的情況下,提升引用準(zhǔn)確性和內(nèi)容連貫性。
數(shù)據(jù)集管理
本研究構(gòu)建了一個(gè)大規(guī)模數(shù)據(jù)集,包含50萬篇arXiv上的計(jì)算機(jī)科學(xué)論文,其中1000萬條引用來自arXiv,680萬條來自語義學(xué)者(論文可能會(huì)被多次引用)。數(shù)據(jù)集的創(chuàng)建涵蓋五個(gè)階段:1)論文收集;2)結(jié)構(gòu)解析;3)引文提??;4)參考文獻(xiàn)匹配;5)數(shù)據(jù)集整合。每篇論文平均有38次引用,其中87%能夠成功匹配到學(xué)術(shù)數(shù)據(jù)庫(kù)。
訓(xùn)練方法
ScholarCopilot通過兩個(gè)目標(biāo)對(duì)文本生成和引文檢索進(jìn)行聯(lián)合優(yōu)化:一是用于文本生成的下一個(gè)令牌預(yù)測(cè),二是用于引文檢索的對(duì)比學(xué)習(xí)。在文本生成方面,它采用標(biāo)準(zhǔn)的自回歸語言建模方法,基于前文的令牌和檢索到的內(nèi)容最大化當(dāng)前令牌出現(xiàn)的概率。在引文檢索方面,它運(yùn)用對(duì)比學(xué)習(xí)優(yōu)化檢索令牌的表示,增大這些令牌與相關(guān)引文之間的相似性,同時(shí)降低與無關(guān)引文的相似性。正例引用來自真實(shí)論文,而負(fù)例則通過批量采樣獲取。系統(tǒng)通過最小化一個(gè)組合損失函數(shù)()來進(jìn)行訓(xùn)練。
生成質(zhì)量評(píng)估
本研究對(duì)不同基線模型的生成質(zhì)量進(jìn)行了比較。主要發(fā)現(xiàn)如下:(1)ScholarCopilot的評(píng)分為16.21/25 ,超越了參數(shù)規(guī)模為其10倍的模型;(2)在相關(guān)性(3.63)和連貫性(3.66)方面表現(xiàn)尤為突出,可與720億參數(shù)規(guī)模的模型相媲美;(3)通過本研究統(tǒng)一的生成和引用方法,顯著提升了學(xué)術(shù)嚴(yán)謹(jǐn)性(2.87對(duì)比2.26 )。
引文準(zhǔn)確性評(píng)估
在此,本研究對(duì)不同方法的引文檢索性能進(jìn)行了比較。ScholarCopilot顯著優(yōu)于E5-Mistral-7B-Instruct和BM25等基線模型,其top-1召回率達(dá)到40.1%,recall@10達(dá)到64.8% 。
用戶研究
為評(píng)估ScholarCopilot的實(shí)際應(yīng)用價(jià)值,本研究開展了一項(xiàng)用戶研究,邀請(qǐng)了10位學(xué)術(shù)人員參與(5名博士、4名碩士、1名本科生),他們的平均寫作經(jīng)驗(yàn)為4.2年。參與者使用本研究的系統(tǒng)撰寫學(xué)術(shù)內(nèi)容,并從多個(gè)維度進(jìn)行評(píng)分。ScholarCopilot在引用準(zhǔn)確性(4.6/5)、界面清晰度(4.5/5)和寫作風(fēng)格(4.5/5)方面獲得了最高分,引用質(zhì)量指標(biāo)的平均分為4.3/5。用戶體驗(yàn)的平均分為3.9/5,由于采用單GPU部署,響應(yīng)時(shí)間得分最低(3.3/5)。內(nèi)容質(zhì)量指標(biāo)方面,寫作風(fēng)格(4.5/5)和事實(shí)準(zhǔn)確性(4.3/5)表現(xiàn)出色,而創(chuàng)新性得分最低(2.5/5),這表明該系統(tǒng)擅長(zhǎng)生成學(xué)術(shù)規(guī)范的內(nèi)容,但在提出新穎觀點(diǎn)方面稍顯不足。
本文轉(zhuǎn)載自??柏企閱文???,作者:柏企
