自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

「學術(shù)版ChatGPT」登場!Ai2打造科研效率神器OpenScholar,讓LLM幫你搞定文獻綜述

人工智能
Ai2和華盛頓大學聯(lián)合Meta、CMU、斯坦福等機構(gòu)發(fā)布了最新的OpenScholar系統(tǒng),使用檢索增強的方法幫助科學家進行文獻搜索和文獻綜述工作,而且做到了數(shù)據(jù)、代碼、模型權(quán)重的全方位開源。

LLM集成到搜索引擎中,可以說是當下AI產(chǎn)品的一個熱門落地方向。

前有Perplexity橫空出世,后有谷歌Gemini和OpenAI的SearchGPT紛紛加入。

就在11月23日,有人發(fā)現(xiàn)搜索引擎大佬Darin Fisher正式加入OpenAI,這讓人更加確信:SearchGPT只是一個開始,OpenAI也許會正式打造以LLM為基礎(chǔ)的搜索引擎和瀏覽器,和谷歌展開一場正面battle。

圖片圖片

圖片圖片

雖然當下的LLM可以應付大多數(shù)場景下的常識問答,但在學術(shù)打工人眼中,用AI進行文獻搜索依舊缺陷重重,還是傳統(tǒng)的谷歌搜索和谷歌學術(shù)更好用。

為了填補這方面的空白,華盛頓大學NLP實驗室和Ai2、Meta等機構(gòu)合作,開發(fā)了專門服務科研人的學術(shù)搜索工具OpenScholar。

圖片圖片

本質(zhì)上,OpenScholar是一個進行過檢索增強的語言模型,外接一個包含4500萬篇論文的數(shù)據(jù)庫,性能可以優(yōu)于專有系統(tǒng),甚至媲美人類專家。

為了方便自動化評估,團隊還一道推出了全新的大規(guī)?;鶞蔛cholarQABench,覆蓋了CS、生物、物理等多個學科,用于評價模型在引用準確性、涵蓋度和質(zhì)量的等方面的表現(xiàn)。

由UWNLP和Ai2兩大頂流機構(gòu)聯(lián)手,OpenScholar在開源方面幾乎做到了無懈可擊。不僅放出了訓練數(shù)據(jù)、代碼和模型檢查點,還有ScholarQABench的全部數(shù)據(jù),以及用于專家評估的自動化腳本。

圖片圖片

倉庫地址:https://huggingface.co/collections/OpenScholar/openscholar-v1-67376a89f6a80f448da411a6

圖片圖片

倉庫地址:https://github.com/AkariAsai/OpenScholar

論文開頭就給出了全部網(wǎng)址,此外團隊還構(gòu)建了一個公開可用的搜索demo,基于一個參數(shù)量為8B的語言模型,綜合了超過100萬篇CS領(lǐng)域的專業(yè)文獻。

圖片圖片

圖片圖片

demo傳送門:https://openscholar.allen.ai/

OpenScholar介紹

圖片圖片

論文地址:https://arxiv.org/abs/2411.14199

閱讀文獻是科研工作的重要部分,不僅能知道同行們的最前沿進展,也是構(gòu)建自己創(chuàng)新idea的重要來源。科學的進步,依賴于研究者們綜合不斷增長的文獻的能力。

然而,隨著發(fā)表的文獻數(shù)量越來越多,全部通讀已經(jīng)是不可能完成的任務,因此就需要依賴實時更新的搜索工具,并能給出信息的準確來源。

雖然LLM在成為科研助手方面非常有前景,但也面臨著重大挑戰(zhàn),包括幻覺、過于依賴過時的預訓練數(shù)據(jù),并且缺乏透明的信息出處,條條對科研領(lǐng)域都是重大弊病。

就拿幻覺來說,實驗中讓GPT-4引用最新文獻時,它在CS、生物醫(yī)學等領(lǐng)域偽造引用的情況達到了78%~90%。

檢索增強(retrieval-augmented)的語言模型可以在推理時檢索并集成外部知識源,從而緩解上述問題。然而,許多此類系統(tǒng)依賴于黑盒API或通用的LLM ,既沒有針對文獻綜合的任務進行優(yōu)化,也沒有搭配適合科研的開放式、領(lǐng)域特定的檢索數(shù)據(jù)庫。

此外,LLM在科研文獻綜合任務上的評估也存在限制,現(xiàn)有的基準大多規(guī)模較小或只針對單個學科,或者使用了過于簡化的任務(如選擇題問答)。

OpenScholar的提出就是旨在解決上述問題。模型在推理時會檢索相關(guān)段落,并使用迭代式自反饋的生成方法來優(yōu)化輸出;搭配的專門基準ScholarQABench旨在對開放式科學問答進行現(xiàn)實且可重復的評估。

圖片圖片

OpenScholar概述、ScholarQABench概述和自動化&人類專家評估結(jié)果

模型概述

對于OpenScholar而言,問題定義如下:

給出一個科學查詢x ,任務是識別相關(guān)論文,綜合他們的發(fā)現(xiàn),并生成響應y,其中應附有一組引文, ??=c1, c2 ,…, cK。

為了遵循科學寫作的標準實踐 ,每個引用ci對應于現(xiàn)有科學文獻中的特定段落,并應作為內(nèi)嵌引用提供,鏈接到相關(guān)文本范圍y。這些引文使研究人員能夠?qū)⑤敵鲎匪莸皆嘉墨I,確保透明度和可驗證性。

為了確保能檢索到相關(guān)論文并生成高質(zhì)量的輸出,OpenScholar由三個關(guān)鍵組件組成:數(shù)據(jù)庫?? 、檢索器? ,和負責生成的語言模型?? 。

推理過程從檢索器?開始 ,它從包含大量已發(fā)表文獻的數(shù)據(jù)庫??中,根據(jù)與輸入查詢的語意相關(guān)性 x檢索到一組段落 ??={p1,p2,…,pN},作為下一步的上下文。

然后,負責生成的語言模型??根據(jù)段落??和輸入查詢x產(chǎn)生輸出y以及相應的引文??, 這個過程可以形式化表示為:

圖片

其中,??中但每個ci對應檢索到的特定段落?? ,負責生成的LM可以被靈活替換為各種縣城的模型,比如GPT-4o。

看起來,OpenScholar的檢索和推理流程基本復刻了經(jīng)典RAG的流水線,但團隊做出了以下兩方面的貢獻:

- 新訓練出了小而高效的生成模型OpenScholar-LM

- 開發(fā)了自反饋檢索增強推理(elf-feedback retrieval-augmented inference),以提高可靠性和引用準確性

檢索與推理

檢索流程如下圖左半部分所示,由數(shù)據(jù)存儲??、bi-encoder檢索器θb_i,以及cross-encoder重排序器 θcross組成。最終,從數(shù)據(jù)庫??的4500萬篇論文中篩選出N個最相關(guān)的段落。

圖片圖片

在標準的檢索增強生成(RAG)中,生成器LM接收原始輸入x和檢索到的N個最相關(guān)段落??并生成輸出 y0 。雖然對于問答等任務有效,但這種「一步登天」的生成方式可能會產(chǎn)生不符合要求的答案,或由于信息缺失而導致輸出不完整 。

為了應對這些挑戰(zhàn),OpenScholar引入了一種帶有自我反饋的迭代生成方法,包括三個步驟:(1)初始響應和反饋生成以輸出初始草稿y0以及一組反饋;(2)使用額外的搜索,根據(jù)上一步的反饋迭代改進y0,以及(3)引文驗證。

模型訓練

由于缺乏針對該問題的訓練數(shù)據(jù),構(gòu)建能夠有效綜合科學文獻的強大LM非常具有挑戰(zhàn)性,之前的大多數(shù)工作并沒有設置開放式檢索,而且是單論文任務,而且依賴于沒有開源的專有模型,這對復現(xiàn)性和推理成本提出了挑戰(zhàn)。

研究團隊想到了采用上述的推理pipeline,通過自反饋合成高質(zhì)量的訓練數(shù)據(jù),訓練出「小而美」的OpenScholar LM模型,具體訓練流程如下圖所示。

圖片圖片

訓練數(shù)據(jù)的生成主要包括三個步驟:

- 從數(shù)據(jù)庫??中篩選出最高引用量的論文

- 根據(jù)文章摘要生成一些有信息檢索目的的查詢

- 使用OpenScholar推理pipeline生成高質(zhì)量響應

盡管合成數(shù)據(jù)是有效且可擴展的,但也可能包含幻覺、語句重復、指令遵循有限等問題,因此在上述步驟之后,團隊還引入數(shù)據(jù)過濾步驟,包括「成對過濾」(pairwise-filtering)和標題過濾。判斷并篩選出較高質(zhì)量的輸出。

從上述的合成管道中,可以得到三種類型的訓練數(shù)據(jù):答案生成(x→y),反饋生成(y0→??),以及反饋合并 (yt?1,ft→yt) 。論文指出,在訓練期間結(jié)合中間結(jié)果和最終輸出有助于較小的語言模型學習生成更有效的反饋。

最后,研究人員將上述的合成數(shù)據(jù)與現(xiàn)有的通用領(lǐng)域+科學領(lǐng)域的指令調(diào)優(yōu)數(shù)據(jù)混合,并確保50%的訓練數(shù)據(jù)來自科學領(lǐng)域。在這些數(shù)據(jù)上,團隊將Llama 3.1 8B Instruct訓練成了OpenScholar LM。

全新基準ScholarQABench

ScholarQABench基準旨在評估模型理解和綜合現(xiàn)有研究的能力。之前的基準一般會預先劃定范圍,假設可以在某一篇論文中找到答案,但許多現(xiàn)實場景都需要識別多篇相關(guān)論文,并生成帶有準確引用的長文本輸出。

為了應對這些挑戰(zhàn),研究人員整理了一個包含2967個文獻綜合問題的數(shù)據(jù)集,以及由專家撰寫的208個長篇回答,涵蓋計算機科學、物理、生物醫(yī)學和神經(jīng)科學等4個學科。

此外,基準中引入了多方面的評估方案,結(jié)合了自動指標和人工評估,以衡量引文準確性、事實正確性、內(nèi)容覆蓋率、連貫性和整體質(zhì)量,確保評估的穩(wěn)健和可重復性。

SchlarQA-CS的數(shù)據(jù)樣例和評估概述SchlarQA-CS的數(shù)據(jù)樣例和評估概述

評估結(jié)果

評估中使用了開放權(quán)重模型Llama 3.1(8B、70B)以及專有模型GPT-4o(gpt-4o-2024-05-13)。

首先,在單論文任務中,每個LM在不連接外部檢索的情況下獨立生成答案,并提供所有參考論文的標題。如果參考論文確實存在,則檢索相應摘要以用作引文。

對于多論文任務,團隊還進一步評估其他專有系統(tǒng),包括Perplexity Pro和PaperQA2,后者是一個并發(fā)文獻綜述智能體系統(tǒng),使用 GPT-4o進行重排、總結(jié)和答案生成。

具體的評估結(jié)果如下表所示,其中+OSDS表示外接了數(shù)據(jù)庫OpenScholar-DataStore并檢索到top N段落拼接到原始輸入中;OS-8B模型經(jīng)過重新訓練,OS-70B和OS-GPT-4o僅僅使用了團隊自定義的推理pipeline。

圖片圖片

總體而言, OpenScholar實現(xiàn)了SOTA性能,大大優(yōu)于GPT-4o和相應的標準RAG版本,以及PaperQA2等專用的文獻綜述系統(tǒng)。

在單篇論文任務中, OpenScholar始終優(yōu)于其他模型。無論是否有檢索增強,OS-8B和OS-70B均優(yōu)于原來的Llama 3.1模型,OS-70B在PubMedQA和QASA上甚至可以對打GPT-4o。

此外,OS-8B、OS-70B和OS-GPT4o在多論文任務中也表現(xiàn)出強大的性能,OS-GPT4o在Scholar-CS中比單獨的GPT-4o提高12.7%,比標準RAG版本提高了5.3 %。結(jié)合了重新訓練過的OS-8B, OpenScholar 的性能顯著優(yōu)于使用現(xiàn)成的Llama 3.1 8B,說明了特定領(lǐng)域訓練的優(yōu)勢。

甚至,在多論文任務的很多指標上,OpenScholar-8B的性能遠遠優(yōu)于GPT-4o、Perplexity Pro和PaperQA2。值得注意的是,通過利用輕量的bi-encodeer、cross-encoder構(gòu)建高效的檢索pipeline, OpenScholar-8B 和OpenScholar-GPT4o顯著降低了成本,在保持高性能的同時比PaperQA2便宜了幾個數(shù)量級。

無論是單論文還是多論文任務,沒有檢索增強的模型幾乎都表現(xiàn)的相當糟糕,難以生成正確的引用,甚至會產(chǎn)生嚴重的幻覺,而增加了檢索之后都能大幅提升性能。

如表3所示,在沒有檢索增強的情況下,雖然GPT-4o和Llama等模型可以生成看起來靠譜的參考文獻列表,但其中78-98%的引文都是捏造的,而且這個問題在生物醫(yī)學領(lǐng)域更加嚴重。即使指向了真實論文,大多也沒有相應摘要的證實,導致引文準確性接近于零。

圖片圖片

除了在ScholarQABench上進行自動評估外,團隊還與來自計算機科學、物理學和生物醫(yī)學等領(lǐng)域的16名科學家合作,進行了詳細的專家評估。

他們根據(jù)ScholarQABench中專家編寫108個對文獻綜述問題的答案,對OpenScholar的輸出進行了成對和細粒度的評估。結(jié)果發(fā)現(xiàn),無論是使用GPT-4o還是經(jīng)過訓練的8B模型,OpenScholar的表現(xiàn)始終優(yōu)于專家編寫的答案,勝率分別為70%和51%。

相比之下,沒有檢索的單獨GPT-4o模型被認為不如人類專家有幫助,勝率僅為 31%。這表明OpenScholar生成的輸出更加全面、有條理,并且對于文獻綜述非常有用,不僅可以與專家撰寫的答案相媲美,而且在某些情況下甚至超過了專家。

消融實驗

為了研究OpenScholar各個組件的有效性,作者進行了詳細的消融實驗,涉及推理期的重排、反饋、查找文獻出處等步驟,并嘗試不進行任何訓練,直接使用原始的Llama3-8B模型。

如下圖所示,刪除這些組件會顯著影響模型輸出的整體正確性和引用準確性。值得注意的是,刪除重排會導致模型性能大幅下降;相比8B模型,GPT-4o對刪除反饋循環(huán)更加敏感,這表明更強大的模型可以從自反饋循環(huán)中受益更多。

圖片圖片

此外,取消論文出處的查找(attribution)會對引文準確性和最終輸出正確性產(chǎn)生負面影響;經(jīng)過訓練的OS-8B 與原始模型之間也存在顯著性能差距,這表明,對高質(zhì)量、特定領(lǐng)域數(shù)據(jù)的進一步訓練是構(gòu)建高效的、針對專門任務的語言模型的關(guān)鍵。

結(jié)論與局限性

盡管OpenScholar在ScholarQABench在評估中表現(xiàn)出了強大的性能,能夠成為支持科研人的效率工具,但負責標注和評估的專家依舊發(fā)現(xiàn)了一些局限性。

圖片圖片

首先,OpenScholar不能始終如一地檢索到最具代表性或相關(guān)性的論文,而且輸出總可能包含不準確的事實信息,特別是在基于8B模型的版本中,科學知識和指令遵循能力有限。

未來的工作可以進一步探索如何改進OpenScholar-8B的訓練。盡管OpenScholar-GPT4o具有競爭力,但依賴于OpenAI的專有黑盒API,無法保證之后仍能精確復現(xiàn)當下的結(jié)果。

此外,數(shù)據(jù)方面也存在諸多繁瑣且棘手的問題。

第一,ScholarQABench聘請了領(lǐng)域?qū)<疫M行數(shù)據(jù)標注,他們都獲得了博士學位或正在從事相關(guān)研究。這種人工撰寫答案的方式成本很高,因此評估數(shù)據(jù)集相對較小,比如,CS-LFQA包括110條數(shù)據(jù),專家編寫的答案有108個。

這種數(shù)據(jù)集由于規(guī)模較小,更容易被注釋者的專業(yè)知識所影響,從而引入統(tǒng)計方差和潛在偏差。未來的研究需要探索,如何擴大ScholarQABench的規(guī)模和范圍,實現(xiàn)更加自動化的數(shù)據(jù)收集和標注pipeline。

第二,最后, ScholarQABench主要關(guān)注計算機科學、生物醫(yī)學和物理學等領(lǐng)域,沒有社會科學和其他STEM學科的實例數(shù)據(jù)。因此,目前的研究結(jié)果可能無法完全推廣到其他領(lǐng)域,特別是在一些領(lǐng)域中,對論文數(shù)據(jù)的訪問會受到更多限制。

最后,雖然OpenScholar在推理期沒有使用版權(quán)保護的論文,但如何確保檢索增強型的語言模型在訓練和推理時做到對版權(quán)數(shù)據(jù)的公平使用,這方面的討論仍在進行,也只能留待學界和業(yè)界在之后的工作中解決。

參考資料:

https://allenai.org/blog/openscholar

https://x.com/AkariAsai/status/1858875730068738051

責任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2024-11-26 14:30:00

模型數(shù)據(jù)

2023-02-21 09:12:57

ChatGPT技術(shù)

2024-09-30 09:04:20

2025-01-10 14:14:44

2022-07-13 16:14:09

AI論文實踐

2012-05-21 09:31:56

HTML5

2023-06-15 14:06:13

2023-12-10 21:56:29

Pyt hon截圖PyQt

2025-02-24 13:46:40

2025-01-13 13:00:00

AI模型訓練

2025-01-24 15:40:00

2022-06-13 13:45:56

Linuxmtr命令

2012-07-02 14:58:16

HTML5

2023-09-28 21:07:48

ChatGPT聯(lián)網(wǎng)模式

2009-10-26 15:36:56

Windows Emb

2023-06-25 13:37:09

GPT-4AI

2010-09-29 17:59:55

酷睿i3迷你PC

2011-11-21 14:21:56

HTML 5

2023-03-08 17:33:36

KubernetesJava
點贊
收藏

51CTO技術(shù)棧公眾號