自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ACL2024 | 利用GPT4構(gòu)建的多Agent系統(tǒng)自動發(fā)現(xiàn)科學假設

發(fā)布于 2025-1-3 12:34
瀏覽
0收藏

今天分享一篇來自南陽理工的一篇文章《Large Language Models for Automated Open-domain Scientific Hypotheses Discovery》。本研究的目標是探索如何使用大型語言模型,尤其是GPT-4,來自動發(fā)現(xiàn)科學假設。目前假設性歸納研究的局限性在于使用的數(shù)據(jù)不是原始網(wǎng)絡語料庫,而是手動選擇后的句子,導致了來源較為封閉;同時,現(xiàn)有的假設標注大多是常識性知識,任務挑戰(zhàn)性不足。本文提出了首個針對社會科學學術假設發(fā)現(xiàn)的自然語言處理(NLP)數(shù)據(jù)集,該數(shù)據(jù)集包含了50篇最新發(fā)布于頂級社會科學期刊的論文,以及發(fā)展這些論文中假設所必需的原始網(wǎng)絡語料庫。同時提出了一個MooSE框架,驗證了利用GPT4構(gòu)建的多Agent系統(tǒng)直接從web raw corpus自動發(fā)現(xiàn)科學假設的可行性。

ACL2024 | 利用GPT4構(gòu)建的多Agent系統(tǒng)自動發(fā)現(xiàn)科學假設-AI.x社區(qū)圖片

? Title: Large Language Models for Automated Open-domain Scientific Hypotheses Discovery

? URL:?? https://arxiv.org/abs/2309.02726??

? Code:?? https://github.com/zongliny/moose??

1 Motivation

? 假設歸納被認為是科學家對世界進行觀察并嘗試提出假設來解釋這些觀察結(jié)果時的主要推理類型。現(xiàn)有的假設歸納研究有兩個局限

a.受限于人工選定的句子,而非原始網(wǎng)絡語料,導致其來源較為封閉;

b.現(xiàn)有研究中的ground truth假設多為常識性知識,使得任務挑戰(zhàn)性降低。

? 如何基于最原始網(wǎng)絡語料,自動觀察并提出對人類而言都是全新的科學假設非常有意義。

2 Methods

這篇論文首次提出了一個用于社會科學學術假設發(fā)現(xiàn)的自然語言處理(NLP)數(shù)據(jù)集,并嘗試實現(xiàn)一個MOOSE框架去解決該問題。

數(shù)據(jù)集特點:

? 該數(shù)據(jù)集由50篇最近發(fā)表在頂級社會科學期刊上的論文組成。

? 收集了提出這些論文中假設所需的原始網(wǎng)絡語料庫。

最終目標:是創(chuàng)建一個系統(tǒng),只給予一堆原始網(wǎng)絡語料庫,便能自動生成有效、新穎且對人類研究者有幫助的假設。

2.1 數(shù)據(jù)集步驟

1. 選擇論文:從頂級社會科學期刊選擇50篇在2023年1月之后發(fā)表的論文。涵蓋社會科學如心理學、人力資源管理、信息系統(tǒng)等領域。

2. 專家標注:對于每一篇選定的論文,社會科學研究領域的專家會收集其主要假設,并識別其背景和靈感來源(background + inspirations -> hypothesis) => reasoning process。然后,專家們會在網(wǎng)絡語料庫中找到與這些背景和靈感相似的內(nèi)容,并收集每個匹配內(nèi)容的完整段落,這些段落作為原始網(wǎng)絡語料庫的一部分。

3. 避免數(shù)據(jù)污染:沒有直接復制論文的背景和靈感,嘗試在raw web courpus中找到語義上相似的文本內(nèi)容作為替代。以實現(xiàn)本文提到的從raw web corpus提出research hypotheses的目標。

4. 收集相關材料:還收集了所有50篇論文的鏈接,以及相關的14篇survey文章(這些survey論文可能有助于檢查假設的新穎性)。

5. 數(shù)據(jù)集構(gòu)建:最終,這個數(shù)據(jù)集完全由一位社會科學研究領域的博士生構(gòu)建完成。文檔中提到,由于數(shù)據(jù)集涉及許多手動選擇過程,因此這些手動選擇的內(nèi)容更多地被用作基準人類性能的比較。

2.2 MOOSE框架介紹

MOOSE(MultimOdule framewOrk with paSt present future feEdback)的多模塊框架,用于自動化開放領域科學假設的發(fā)現(xiàn)(TOMATO任務)。其特點是結(jié)合了大型語言模型的生成能力和復雜的反饋機制,以自動化地從大量文本數(shù)據(jù)中發(fā)現(xiàn)和提煉出可能對科學研究有價值的新假設。

ACL2024 | 利用GPT4構(gòu)建的多Agent系統(tǒng)自動發(fā)現(xiàn)科學假設-AI.x社區(qū)

整體框架:

1. 基礎框架(MOOSE-base):MOOSE框架的核心是一個基礎多模塊框架,它模擬了社會科學研究者提出初始研究假設的過程。這個過程包括以下幾個步驟:

? 背景發(fā)現(xiàn)器(Background Finder):模塊通過閱讀原始網(wǎng)絡語料庫來尋找合適的研究背景。

? 靈感標題發(fā)現(xiàn)器(Inspiration Title Finder):在找到背景后,模塊搜索與背景相關的標題,以幫助找到可能的靈感來源。

? 靈感發(fā)現(xiàn)器(Inspiration Finder):根據(jù)選定的標題,模塊在相關文檔中找到能夠啟發(fā)假設形成的句子或段落。

? 假設提議器(Hypothesis Proposer):利用背景和靈感來提出研究假設。

2. 反饋機制:為了提高生成假設的質(zhì)量,MOOSE框架引入了三種反饋機制:

? 即時反饋(Present-Feedback):當某個模塊的輸出可以被直接評估時,通過其他大型語言模型(LLMs)提供反饋,模塊可以根據(jù)反饋和之前的生成結(jié)果進行再生成,以改進輸出。

? 過去反饋(Past-Feedback):在無法直接評估某個模塊的輸出時,框架繼續(xù)運行直到生成可以評估的輸出,然后利用這些信息為之前的模塊提供反饋(例如生成Inspiration Title時,可能沒法直接評價好壞,可以等依賴Inspiration Title生成具體Hypothesis后,通過評估Hypothesis質(zhì)量反推當時生成Title的效果)。

a.說明:在文中提出的MOOSE框架中,Past-feedback被應用于Inspiration Title Finder模塊。Inspiration Title Finder的任務是從大量文本標題中找出可能對形成科學假設有啟發(fā)性的標題。然而,直接評估這些標題的質(zhì)量和相關性可能比較困難,因為它們是否能夠激發(fā)出有意義的假設還未知。因此,系統(tǒng)會先繼續(xù)運行,直到生成一個假設(hypothesis),這個假設受到之前選擇的標題的影響,并且可以被直接評估。然后,系統(tǒng)會使用這個假設和它的評估結(jié)果作為反饋,來改進之前選擇的標題。如果一個假設經(jīng)過評估被認為是新穎且合理的,那么可以推斷出啟發(fā)這個假設的標題是合適的,反之亦然。通過這種方式,系統(tǒng)可以在未來的迭代中選擇更好的標題,以提高最終假設的質(zhì)量。Past-feedback的關鍵在于,它允許系統(tǒng)從未來的評估中學習,并利用這些知識來改進過去的決策,這在某些復雜的生成任務中是非常有用的。

   b.未來反饋(Future-Feedback):為后續(xù)模塊提供額外信息,幫助它們生成更高質(zhì)量的輸出。包括提供輸出的理由(FF1)和在關鍵模塊前插入一個輔助模塊來分擔推理負擔(FF2)。

1. Future-feedback-1 (FF1): 這種類型的反饋機制涉及到為后續(xù)模塊提供當前輸出的解釋或理由。不僅僅是提供生成的假設本身(oi),還提供生成這些假設的理由或解釋,這樣后續(xù)模塊(Mj,j>i)就可以更好地利用這些信息。例如,在MOOSE框架中,Background Finder和Inspiration Title Finder模塊被修改為不僅生成背景或標題,還提供選擇它們的理由。這樣做的目的是幫助后續(xù)模塊更全面地理解所提供的信息,并在此基礎上生成更深入、更有針對性的假設。

2. Future-feedback-2 (FF2): 這種類型的反饋機制涉及到在關鍵模塊之前插入一個額外的模塊,以分擔一些推理負擔。例如,在MOOSE框架中,Hypothesis Proposer模塊負責提出假設,這是一個復雜且重要的任務。為了提高這個模塊的輸出質(zhì)量,框架在Hypothesis Proposer之前引入了一個Hypothesis Suggestor模塊(作為Mj?0.5),它的任務是提供初步的建議,如何利用背景和靈感來構(gòu)建假設。然后,Hypothesis Proposer模塊可以根據(jù)這些建議進一步發(fā)展出更新穎、更復雜的假設。(看著有點像COT的思考過程)

  • ? Future-feedback是文中提出的另一種反饋機制,旨在為未來的模塊生成提供額外有用的信息,以提高生成質(zhì)量。具體來說,F(xiàn)uture-feedback關注于如何幫助后續(xù)模塊更有效地利用當前模塊的輸出來生成更高質(zhì)量的結(jié)果。在MOOSE框架中,F(xiàn)uture-feedback分為兩種類型:Future-feedback-1 (FF1) 和 Future-feedback-2 (FF2)。總結(jié):Future-feedback的目的是增強模塊間的協(xié)作,通過提供額外的解釋、理由或初步建議,幫助后續(xù)模塊更有效地利用前一個模塊的輸出,從而提高整個系統(tǒng)生成假設的質(zhì)量和新穎性。

特點:

? 模塊化設計:MOOSE框架采用模塊化設計,每個模塊負責一個特定的任務,并且可以獨立優(yōu)化和改進。

? 迭代反饋:通過引入反饋機制,MOOSE框架能夠不斷迭代和改進生成的假設,提高了假設的質(zhì)量和新穎性。

? 自動化和開放領域:MOOSE框架旨在自動化地從開放領域的原始網(wǎng)絡語料庫中生成科學假設,無需人工干預。

? 多方面評估:MOOSE框架不僅關注假設的新穎性,還包括有效性、一致性和清晰度等多個評估方面,以確保生成的假設對科學研究具有實際幫助。

3 Conclusion

? 構(gòu)建了一個領先的NLP數(shù)據(jù)集,適用于開放域的科學假設發(fā)現(xiàn)。

? 提出了多模塊框架MOOS以及三種反饋機制,有助于提高假設生成的效果,驗證了從網(wǎng)絡raw corpus生成科學假設的有效性。

二、詳細內(nèi)容

1.FeedBack模塊對最終生成結(jié)果的影響

GPT4評估結(jié)果

ACL2024 | 利用GPT4構(gòu)建的多Agent系統(tǒng)自動發(fā)現(xiàn)科學假設-AI.x社區(qū)


人類專家評估結(jié)果:

ACL2024 | 利用GPT4構(gòu)建的多Agent系統(tǒng)自動發(fā)現(xiàn)科學假設-AI.x社區(qū)


結(jié)論1:MOOSE-base 在新穎性和有幫助性方面表現(xiàn)優(yōu)于基線模型,但在有效性方面略低。

結(jié)論2:加入未來反饋的MOOSE能提升整體表現(xiàn)。 所有指標都有所提升。

結(jié)論3::同時加入未來反饋和過去反饋的MOOSE在新穎性方面有顯著提升??赡芤馕吨^去反饋更側(cè)重于提升假設的新穎性,但可能以犧牲一定程度的有效性和有幫助性為代價。

2.Present-feedback迭代次數(shù)對性能的影響(GPT4)

GPT4評估結(jié)果

ACL2024 | 利用GPT4構(gòu)建的多Agent系統(tǒng)自動發(fā)現(xiàn)科學假設-AI.x社區(qū)


人類專家評估結(jié)果:

ACL2024 | 利用GPT4構(gòu)建的多Agent系統(tǒng)自動發(fā)現(xiàn)科學假設-AI.x社區(qū)


結(jié)論1:present-feedback對于提高假設生成系統(tǒng)的性能是有效的,可以顯著提高生成假設的有效性、新穎性和對研究人員的幫助程度。

結(jié)論2:隨著反饋迭代次數(shù)的增加,性能提升效果持續(xù),但可能存在一個最佳的迭代次數(shù),超過這個次數(shù)后性能提升的邊際效益可能減少。

3 background選擇方法和Inspirations選擇方法對實驗結(jié)果的影響

ACL2024 | 利用GPT4構(gòu)建的多Agent系統(tǒng)自動發(fā)現(xiàn)科學假設-AI.x社區(qū)


實驗設置:

1. 目的:分析不同的背景(background)和靈感(inspirations)檢索方法對于最終生成的科學假設的質(zhì)量有何影響。

2. 檢索方法:

? 隨機選擇背景和隨機選擇靈感(Random background and rand inspirations)。

? 隨機選擇背景和使用 BM25 算法選擇靈感(Rand background and BM25 inspirations)。

? 使用 GPT-3.5 選擇背景和靈感(GPT-3.5 picked background and inspirations)。

實驗結(jié)論:

結(jié)論1: 選擇背景和靈感的方法對生成假設的有效性、新穎性和有幫助性有顯著影響,隨機選擇背景和靈感能夠產(chǎn)生相對新穎的假設,但有效性和有幫助性較低。

結(jié)論2: BM25 在新穎性方面表現(xiàn)較好,而真實背景和靈感在有效性和有幫助性方面表現(xiàn)最佳。

結(jié)論3: GPT-3.5挑選的背景和靈感在有幫助性方面表現(xiàn)最佳,且在新穎性方面也表現(xiàn)不錯。

結(jié)論4: 利用Groundtruth background and inspirations生成的Hypotheses與真實的Hypotheses相比,新穎性方面得分并不高但是Validness比較高,可能是因為它們基于已有的研究成果。說明可能需要在Novelty和Validness之間找到平衡。

4.其他消融實驗

ACL2024 | 利用GPT4構(gòu)建的多Agent系統(tǒng)自動發(fā)現(xiàn)科學假設-AI.x社區(qū)


結(jié)論1: Future Feedback(特別是 FF2),對假設生成的質(zhì)量有顯著影響,能夠提高新穎性和有效性。

結(jié)論2: 引入related survey對新穎性評估有重要影響,切斷與相關調(diào)查的訪問會提高新穎性。 因為BM25檢索到的相關調(diào)查內(nèi)容較少,導致新穎性檢測器傾向于認為假設是新穎的。

結(jié)論3: 語料庫的選擇和使用方式也會影響生成假設的新穎性和有效性。使用randomized corpus策略選擇數(shù)據(jù),有效性得分略有提高,而新穎性得分下降。這可能是因為在這種設置下,MOOSE 傾向于選擇與背景相同靈感語料庫的靈感,導致結(jié)果不夠新穎。

? 先前的實驗:background passages -> backgrounds and inspirations passages -> inspirations

? w/ randomized corpus : inspiration corpus -> background, inspiration and background corpus -> inspiration extraction

三、總結(jié)

這篇論文提出了首個用于社會科學學術假設發(fā)現(xiàn)的NLP數(shù)據(jù)集,并開發(fā)了一個多模塊框架MOOSE以及三種不同的反饋機制,用以自動地生成科學假設。該方法不僅提高了生成假設的質(zhì)量和新穎性,也驗證了大型語言模型在科學研究中自動化發(fā)現(xiàn)新假設的潛力。

結(jié)論1: 該研究首次發(fā)布了開放域科學假設發(fā)現(xiàn)的NLP數(shù)據(jù)集,填補了現(xiàn)有領域中的空白。

結(jié)論2: 論文提出的多模塊框架和三種反饋機制(Present、Future、Past)顯著提升了假設生成的性能,在多項評估中表現(xiàn)優(yōu)異。

結(jié)論3:在生成科學假設時通常會遇到的一個權衡問題,即有效性(validness)與新穎性(novelty)之間的權衡。通常如果一個方法或系統(tǒng)在生成假設時達到了高新穎性,那么它很難同時達到高有效性。

本文轉(zhuǎn)載自 ??NLP PaperWeekly??,作者: NLP PaperWeekly

收藏
回復
舉報
回復
相關推薦