自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

超越GPT-4o!開源科研神器登場,4500萬篇論文檢索增強(qiáng)生成靠譜回答

人工智能 新聞
這是由華盛頓大學(xué)和艾倫人工智能研究所(Ai2)打造的最新模型OpenScholar。

只需幾秒鐘,開源模型檢索4500篇論文,比GPT-4o還靠譜!

這就是由華盛頓大學(xué)和艾倫人工智能研究所(Ai2)打造的最新模型OpenScholar

它還是首個(gè)從論文到數(shù)據(jù)集、模型檢查點(diǎn)都完全開源的科研助手模型。

圖片

在由20位專家進(jìn)行的500次對比實(shí)驗(yàn)中,72%的情況下他們都覺得OpenScholar的輸出結(jié)果超越了人類。

圖片

而且OpenScholar還會附上參考文獻(xiàn)列表,非常貼心:

圖片

圖片

它的功能也非常豐富。

你可以詢問OpenScholar某個(gè)研究課題的現(xiàn)狀:“有沒有人嘗試過將檢索增強(qiáng)型LM的檢索庫擴(kuò)大到萬億級tokens?”

圖片

尋找最新的數(shù)據(jù)集

圖片

針對某篇論文詢問技術(shù)細(xì)節(jié)

圖片

或者詢問算法的細(xì)節(jié),比如機(jī)器人算法/ReLU算法等等:

圖片
圖片

有多位網(wǎng)友使用過后表示:做復(fù)雜課題也能快速搜集有用的資料,真是科研神器!

圖片
圖片

僅調(diào)用8B模型

一句話總結(jié):它存儲了4500萬篇論文的大規(guī)模數(shù)據(jù),并使用自定義訓(xùn)練的檢索器、重排器和8B參數(shù)語言模型進(jìn)行檢索,并根據(jù)最新的科學(xué)文獻(xiàn)內(nèi)容回答問題。

圖片

具體來說,OpenScholar-8B(OS-8B)系統(tǒng)包括以下組件:

1.開放學(xué)者數(shù)據(jù)存儲:包含超過4500萬篇論文、以及對應(yīng)的約2.5億段落嵌入。底層論文數(shù)據(jù)截止到2024年10月。

2.專業(yè)檢索器和重排序器:這些工具專門用于從科學(xué)文獻(xiàn)數(shù)據(jù)存儲庫中識別相關(guān)段落。

3.專業(yè)8B語言模型:這是一個(gè)針對科學(xué)文獻(xiàn)綜合任務(wù)優(yōu)化的8B參數(shù)語言模型,在性能與計(jì)算效率之間取得了很好平衡。團(tuán)隊(duì)基于來自迭代自我反饋生成管道生成的合成數(shù)據(jù)訓(xùn)練并微調(diào)了Llama 3.1 8B。

4.迭代自我反饋生成:在推理過程中,團(tuán)隊(duì)使用迭代自我反饋來通過自然語言反饋精煉模型輸出。每次迭代都額外檢索更多論文,使模型能夠提高回答質(zhì)量并縮小引用差距。

為了評估 OpenScholar,團(tuán)隊(duì)還開發(fā)了ScholarQABench——一個(gè)專門用于評估從多篇論文中綜合信息以解決開放式科學(xué)問題的基準(zhǔn)。

ScholarQABench包含七個(gè)數(shù)據(jù)集:三個(gè)專注于單篇論文評估的現(xiàn)有數(shù)據(jù)集,以及四個(gè)需要跨多篇論文綜合的新收集數(shù)據(jù)集。

圖片

最終在實(shí)驗(yàn)自動評估以及人工評估中,OpenScholar模型的表現(xiàn)優(yōu)于很多主流模型,包括GPT-4o和Llama 3.1 70B。

圖片

搜索的可靠性方面,OpenScholar更是遠(yuǎn)超GPT-4o。

GPT-4o在90%以上的情況下都引用了不存在的論文,而OpenScholar的結(jié)果都是來自確定來源。

以及在信息覆蓋率、實(shí)用性、相關(guān)性等多個(gè)維度方面,OpenScholar撰寫的結(jié)果都優(yōu)于GPT-4o。

圖片

運(yùn)營成本便宜100倍

對比基于OpenAI的GPT-4o和Anthropic的Claude的科研模型可以發(fā)現(xiàn),它們雖然性能很強(qiáng),但價(jià)格昂貴、而且工作原理也不透明。

而OpenScholar正是為了挑戰(zhàn)這些現(xiàn)有的大模型玩家入局的!

據(jù)開發(fā)人員稱,OpenScholar是首個(gè)完全開源的科學(xué)助手語言模型——從數(shù)據(jù)到訓(xùn)練食譜再到模型檢查點(diǎn),全部公開!

研究人員可以非常清除地看到模型的訓(xùn)練過程和數(shù)據(jù)集的內(nèi)容等,也可以根據(jù)自己的工作進(jìn)行調(diào)整。

這樣一來,規(guī)模較小、架構(gòu)簡單的OpenScholar-8B的運(yùn)營成本比基于GPT-4o構(gòu)建的同期系統(tǒng)PaperQA2便宜100倍。

對于小型機(jī)構(gòu)、資金不足的實(shí)驗(yàn)室以及發(fā)展中國家的研究人員來說,這樣的運(yùn)營成本非常有吸引力。

不過,目前OpenScholar也有很多局限,比如:

1.OpenScholar可能會引用不那么具有代表性的論文。

例如,在描述特定方法時(shí),它可能未能引用提出該方法的原始論文,而是引用了提及該方法的另一篇論文。

2.OpenScholar有時(shí)可能會生成沒有參考文獻(xiàn)支持的響應(yīng),或者檢索到該領(lǐng)域不是最相關(guān)或最新的論文。

例如:當(dāng)被問及機(jī)器人學(xué)中的大型基礎(chǔ)模型時(shí),此響應(yīng)引用了一篇具有3.07億參數(shù)模型的論文,而截至2024年11月,機(jī)器人學(xué)中當(dāng)前最大的基礎(chǔ)模型(RT-2)具有550億參數(shù)。

3.OpenScholar可能仍然可能生成帶有幻覺的結(jié)果,而不是依賴于它檢索到的真實(shí)論文。

4.許多科學(xué)論文都設(shè)置了付費(fèi)墻。

目前出于對版權(quán)的尊重,OpenScholar數(shù)據(jù)存儲庫僅包含公開的論文。這可能會降低模型在較封閉領(lǐng)域回答問題的能力。

團(tuán)隊(duì)表示,未來他們會納入更多論文、升級檢索增強(qiáng)算法,也會對各個(gè)領(lǐng)域的經(jīng)典研究問題和論文進(jìn)行深入整合,增強(qiáng)OpenScholar的專業(yè)程度。

不過,從實(shí)驗(yàn)結(jié)果來看,OpenScholar已經(jīng)是目前表現(xiàn)最好的AI學(xué)術(shù)研究助理之一啦,感興趣的小伙伴可以直接戳下面的公開資料進(jìn)行嘗試!

Demo: https://openscholar.allen.ai/
論文: https://openscholar.allen.ai/paper
OpenScholar代碼: https://github.com/AkariAsai/OpenScholar
ScholarQABench數(shù)據(jù)集代碼: https://github.com/AkariAsai/ScholarQABench
更多測試code: https://github.com/AkariAsai/OpenScholar_ExpertEval

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-01-03 10:55:22

2025-02-11 08:00:00

大語言模型檢索增強(qiáng)生成CAG

2023-09-11 09:00:00

檢索增強(qiáng)生成大數(shù)據(jù)模型自然語言處理

2023-10-14 17:46:17

RAG提示工程GPT-3

2024-05-20 08:31:33

檢索增強(qiáng)生成LLM大型語言模型

2025-04-15 08:01:12

2025-04-08 02:26:00

2024-09-06 13:00:29

2024-08-14 14:30:00

AI訓(xùn)練

2024-09-05 08:24:09

2025-04-29 08:20:51

2024-05-21 12:23:17

2025-04-01 09:25:09

2025-01-23 16:23:30

2024-11-11 09:47:00

AI開源

2024-06-05 08:29:35

2024-06-11 07:26:28

2025-03-31 08:50:00

AI生成模型

2024-06-18 15:36:50

2024-08-30 14:35:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號