ResearchAgent: 利用agent自動生成論文idea,再也不用擔(dān)心做科研沒有思路了
大家好,我是HxShine
今天分享微軟的一篇文章:ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models。傳統(tǒng)的科學(xué)研究過程包括新研究想法的提出和通過精心設(shè)計的實驗來驗證這些想法,這一過程緩慢且依賴專業(yè)專家,這限制了科研的生產(chǎn)力。這篇論文試圖利用agent思想來自動生成新的論文idea,解決科學(xué)研究生產(chǎn)力低下的問題,論文提出了一個名為ResearchAgent的工具,這是一個由大型語言模型驅(qū)動的研究思路撰寫助手,能夠自動化地生成問題、方法和實驗設(shè)計,并能利用ReviewAgent對它們進行迭代式的優(yōu)化。
Title: ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models
URL: https://arxiv.org/abs/2404.07738
Authors: Jinheon Baek, Sujay Kumar Jauhar, Silviu Cucerzan, Sung Ju Hwang
Institutions: KAIST, Microsoft Research, DeepAuto.ai
1 Motivation
? 科研工作在推動創(chuàng)新和解決問題上發(fā)揮著關(guān)鍵作用,但目前的科研過程復(fù)雜、緩慢,且需要專業(yè)的專家參與,這些都限制了科研的生產(chǎn)力。
? 為提高效率,本研究提出了利用大型語言模型的研究生成助手:ResearchAgent,它可以在閱讀科學(xué)文獻的基礎(chǔ)上,自動生成研究領(lǐng)域內(nèi)的問題、方法及實驗設(shè)計,并能迭代地進行改善。
2 Methods
科研最重要的三個步驟是identifying problems(挖掘問題), developing methods(方法開發(fā)), and designing experiments(實驗設(shè)計)。本文提出的“ResearchAgent”系統(tǒng)是一個基于大型語言模型(LLMs)的自動化科研想法生成框架,它通過三個主要步驟來模擬人類的科研過程:問題識別、方法開發(fā)和實驗設(shè)計。系統(tǒng)利用科學(xué)文獻中的引用關(guān)系和實體信息來增強LLMs的知識背景,并通過迭代評審和反饋機制,由多個與人類偏好對齊的LLM代理(ReviewingAgents)來提升想法的質(zhì)量。實驗設(shè)置包括從學(xué)術(shù)圖譜API獲取數(shù)據(jù)、構(gòu)建實體中心的知識庫,并使用GPT-4模型進行實驗。通過人類和模型評估相結(jié)合的方法,驗證了ResearchAgent在生成具有創(chuàng)新性、清晰度和相關(guān)性的科研想法方面的有效性。
本文提出的“ResearchAgent”系統(tǒng)是一個基于大型語言模型(LLMs)的科研想法生成代理,旨在通過自動化的方式提出新的科研想法。這個方法的核心在于模仿人類研究者在科研過程中的思考和迭代改進方式。以下是“ResearchAgent”方法的主要組成部分:
步驟一:LLM-Powered Research Idea Generation(利用core paper信息生成待研究的問題、以及方法和實驗設(shè)計)
?問題識別(Problem Identification):利用LLM指出當(dāng)前知識中的空白或矛盾,從而確定科研需要解決的問題。
?方法開發(fā)(Method Development):利用LLM設(shè)計用于解決問題的方法論和工具。
?實驗設(shè)計(Experiment Design):利用LLM制定實驗方案來驗證提出的假設(shè)。
說明:我們的目標是基于現(xiàn)有學(xué)術(shù)文章(literature),挖掘新的idea,目標O由(problem,method,experiment)組成,可以表示為o = f(L),這里相當(dāng)于分三個步驟來實現(xiàn)這個目標,首先基于提供的知識L生成問題,即p = f(L),然后根據(jù)問題p以及知識L生成method方法,即m = f(p, L),接著根據(jù)問題p,方法m和相關(guān)知識L完成實驗設(shè)計,即d = f(p, m, L)。這里每一步都是通過LLM來實現(xiàn),問題識別的prompt示例如下:
步驟二:Knowledge-Augmented LLMs for Research Idea Generation(通過外部知識增強的方法,提高LLMs在科研想法生成中的效果)
- ?核心論文和相關(guān)引用(內(nèi)部知識):選擇一個核心論文作為起點,并基于引用關(guān)系選擇相關(guān)的論文集,可以輸入更相關(guān)、更連貫的一些知識。
- ?實體中心的知識增強(外部知識):構(gòu)建一個知識庫,用于存儲和檢索科學(xué)文獻中的實體,這些實體作為知識的原子單元,可以跨不同學(xué)科積累更多知識,提供更多見解(通過兩個領(lǐng)域的重疊實體和外部知識建立聯(lián)系),這里使用entity linker EL[1]這個工具來挖掘L中的實體。
說明:知識增強的內(nèi)容會放到prompt的context中作為輸入,注意core paper選擇3個月超過100個引用次數(shù)的文章,而relevant paper利用abstracts的相似度來過濾挑選更相關(guān)的文章,確保focus在相關(guān)的領(lǐng)域。其輸入格式如下:
步驟三:Iterative Research Idea Refinements with Human Preference-Aligned LLM Agents(為了模擬人類研究過程中通過peer討論來迭代優(yōu)化,這里使用多個LLM代理(ReviewingAgents)根據(jù)特定標準提供評審和反饋來迭代優(yōu)化。)
?評審和反饋:生成的科研想法(問題、方法和實驗設(shè)計)根據(jù)特定標準進行評估。
?迭代改進:基于ReviewingAgents的評審和反饋,ResearchAgent進一步更新和改進已經(jīng)生成的科研想法。
說明:Review Agent其實也是以LLM來實現(xiàn),但是引入了人類的一些專家經(jīng)驗,要求如下:
此外,為了使機器生成的評估與人類判斷保持一致,本文還提出了一種自動生成與人類偏好一致的評估標準的方法。這些標準是通過少量人類注釋生成的,然后用于指導(dǎo)ReviewingAgents的評估。
說明:問題識別,方法開發(fā),實驗設(shè)計都有相應(yīng)的評分標準,其中問題識別的評分標準如下:
3 Conclusion
ResearchAgent使用一種名為“迭代研究想法精煉”的方法,該方法結(jié)合了利用大型語言模型評估和來自人類判斷的反饋。實驗結(jié)果表明,ResearchAgent在多個領(lǐng)域生成研究想法方面優(yōu)于現(xiàn)有基線,顯示了其在鼓勵創(chuàng)造性、清晰性和有效性方面的潛力。
4 Limitation
研究提出的 ResearchAgent 雖然在提升科研效率方面顯示了潛力,但仍存在若干限制,需要未來的工作進行改進:
? 目前使用的實體中心知識庫構(gòu)建基于文獻的標題和摘要,可能無法充分捕獲更廣泛和細節(jié)的科學(xué)術(shù)語,未來工作可能需要擴展文獻的范圍,提高實體識別器的準確性。
? 研究的后續(xù)階段——實驗驗證還需大量人力,研究的自動化程度有待提升。
二、詳細內(nèi)容
1 實驗設(shè)置
數(shù)據(jù)選擇:實驗使用的數(shù)據(jù)來源于Semantic Scholar Academic Graph API[1],這是一個學(xué)術(shù)文獻數(shù)據(jù)庫,選擇的數(shù)據(jù)集包括2024年5月1日之后發(fā)表的、具有高引用次數(shù)(超過20次)的論文,這些論文被視為核心論文。
核心論文抽樣:從高引用次數(shù)的論文中隨機抽取300篇作為實驗的核心論文。這些核心論文將用于生成和評估300個研究想法。
模型和基線比較:由于研究想法生成是一個新任務(wù),沒有現(xiàn)有的基線模型可以直接比較,因此,作者比較了完整的ResearchAgent模型與以下變體:
? Naive ResearchAgent:僅使用核心論文生成想法。
? ResearchAgent w/o Entity Retrieval:使用核心論文及其相關(guān)引用,但不使用實體檢索。
? ResearchAgent:完整模型,結(jié)合了相關(guān)引用和實體。
評估方法:由于沒有標準答案,評估包括基于模型的自動評估和人類評估。
人類評估:選擇至少發(fā)表過三篇論文的專家進行評估,評估包括為每個標準打分和對不同模型生成的想法進行成對比較。
實現(xiàn)細節(jié):使用GPT-4作為所有模型的基礎(chǔ),使用BLINK實體鏈接器[2]提取實體并構(gòu)建以實體為中心的知識庫。
2 整體效果評估
模型和基線比較:由于研究想法生成是一個新任務(wù),沒有現(xiàn)有的基線模型可以直接比較,因此,作者比較了完整的ResearchAgent模型與以下變體的差異:
? Naive ResearchAgent:僅使用核心論文生成想法。
? ResearchAgent w/o Entity Retrieval:使用核心論文及其相關(guān)引用,但不使用實體檢索。
? ResearchAgent:完整模型,結(jié)合了相關(guān)引用和實體。
說明:
1.評估方法:研究想法的生成通過兩種評估方式進行驗證,人類評估(左側(cè))和基于模型(GPT4自動評估)的評估(右側(cè))。
2.多個標準:每個研究想法根據(jù)五個不同的標準進行評分,包括原創(chuàng)性、清晰度、相關(guān)性、可行性和重要性等。
3.綜合評分:除了每個單獨的標準評分外,還有一個平均分數(shù),它提供了對每個想法整體質(zhì)量的綜合視圖。
結(jié)論:ResearchAgent,完整模型,結(jié)合了相關(guān)引用和實體這種方法效果最好。說明了本文提到的每個方法都能給整體agent帶來不錯的收益。
2 消融實驗
3.1 各模塊勝率對比
結(jié)論:ResearchAgent,完整模型,結(jié)合了相關(guān)引用和實體這種方法勝率最高。同樣說明了本文提到的每個方法都能給整體agent帶來不錯的收益。
3.2 引用和實體對各模塊的影響
說明:每種消融變體在生成問題(Problem)、方法(Method)和實驗設(shè)計(Experiment)方面的性能評分。
? 不使用實體檢索(w/o Entities)的情況。
? 使用隨機實體(Random Entities)替代實際實體的情況。
? 不使用參考文獻(w/o References)的情況。
? 使用隨機參考文獻(Random References)替代實際參考文獻的情況。
? 同時不使用實體和參考文獻(w/o Entities & References)的情況。
結(jié)論:參考文獻和實體的重要性。實體檢索以及參考文獻對于生成高質(zhì)量的研究想法至關(guān)重要。
3 review次數(shù)越多效果越好
說明: 這里的“迭代改進步驟”指的是ResearchAgent系統(tǒng)使用ReviewingAgents進行的多輪評審和反饋過程,目的是提升研究想法的質(zhì)量。
結(jié)論: 大部分評分點,隨著review次數(shù)越多,效果越好,不過在3輪以后有一些下降,可能是飽和了。
4 人類引導(dǎo)的評分標準對齊在自動評估任務(wù)中的重要性
說明:該結(jié)果說明了模型評估結(jié)果的分布,比較了三種不同評估方法的得分分布情況。
1.人類評估結(jié)果(左側(cè)):這部分展示了人類評估者給出的評分分布。由于人類評估者對研究想法的質(zhì)量有直觀的理解,他們的評分分布可以作為評估標準的參考。
2.模型評估結(jié)果(中間):這部分展示了模型在沒有進行人類評分標準校準的情況下給出的評分分布。由于模型可能沒有完全理解人類評估的細微差別,因此其評分分布可能與人類評估結(jié)果有所不同。
3.人類對齊模型評估結(jié)果(右側(cè)):在這部分,模型評估使用了基于人類評估結(jié)果導(dǎo)出的評分標準。這意味著模型評估試圖與人類的評估偏好對齊,以提高評估的相關(guān)性和準確性。
結(jié)論:從圖中可以看出,未經(jīng)過人類評分標準校準的模型評估結(jié)果(中間)的分布可能與人類評估結(jié)果(左側(cè))有顯著差異,這表明模型在沒有人類指導(dǎo)的情況下可能無法準確捕捉到研究想法的質(zhì)量。然而,當(dāng)模型評估與人類評分標準對齊后(右側(cè)),其評分分布與人類評估結(jié)果更加接近,顯示了校準過程的有效性。這表明通過將模型評估與人類評估標準對齊,可以提高模型評估的質(zhì)量和可信度。
5 論文的引用次數(shù)與生成的研究想法質(zhì)量之間存在正相關(guān)
說明:低、中、高引用次數(shù)的組別,以此來代表論文的影響力或“影響力”。然后,對于每個組別內(nèi)的論文,使用模型評估(可能是GPT-4或其他類似的語言模型)來確定由這些論文生成的研究想法的平均質(zhì)量得分。
- 1.分組依據(jù):論文根據(jù)被引用次數(shù)被分為三個不同的組別,這可能意味著“低”引用組別的論文相對較少被引用,而“高”引用組別的論文則被廣泛引用。
- 2.得分分布:每個組別的論文生成的研究想法會根據(jù)預(yù)設(shè)的評估標準(如清晰度、相關(guān)性、原創(chuàng)性、可行性和重要性等)被賦予一個得分。
- 3.平均得分:圖表可能會顯示每個組別的平均得分,這表明了不同影響力水平的論文在生成研究想法時的平均質(zhì)量。
結(jié)論:可以觀察到論文的引用次數(shù)與生成的研究想法質(zhì)量之間是否存在相關(guān)性,高引用次數(shù)的論文可能傾向于生成質(zhì)量更高的研究想法。
6 模型基座的影響
結(jié)論:GPT4.0比GPT3.5高了一大截,說明基座模型能力的重要性。同時本文的ResearchAgent也比Naive ResearchAgent高3個點左右,說明本文方法的有效性。
三、總結(jié)
結(jié)論1:模型在沒有人類指導(dǎo)的情況下可能無法準確捕捉到研究想法的質(zhì)量。引入人類反饋還是必要的,通過機器直接來review可能提供的反饋信息還不夠。通過將模型評估與人類評估標準對齊,可以提高模型評估的質(zhì)量和可信度。
結(jié)論2:內(nèi)部引用知識以及外部圖譜知識能提高idea的生成質(zhì)量。 研究通過知識庫和相關(guān)文獻的結(jié)合使用,提升了大型語言模型在科學(xué)研究領(lǐng)域內(nèi)創(chuàng)意生成的質(zhì)量。
結(jié)論3:ReviewAgent迭代優(yōu)化能顯著提升研究創(chuàng)意。 研究設(shè)計的多個評審代理加強了生成的研究創(chuàng)意的迭代改進過程,使其更加新穎、有效和清晰。
結(jié)論4:原始core paper的質(zhì)量也非常重要,高引的paper生成的idea質(zhì)量更好。
引用鏈接
[1]? Semantic Scholar Academic Graph API: https://www.semanticscholar.org/product/api[2] BLINK實體鏈接器: https://aclanthology.org/2020.emnlp-main.519.pdf
本文轉(zhuǎn)載自??????NLP PaperWeekly??,作者: NLP PaperWeekly ????
