檢索總結(jié)能力超博士后,首個大模型科研智能體PaperQA2開源了
最近一段時間,有關(guān) AI 科學(xué)家的研究越來越多。大語言模型(LLM)有望幫助科學(xué)家檢索、綜合和總結(jié)文獻(xiàn),提升人們的工作效率,但在研究工作中使用仍然有很多限制。
對于科研來說,事實性至關(guān)重要,而大模型會產(chǎn)生幻覺,有時會自信地陳述沒有任何現(xiàn)有來源或證據(jù)的信息。另外,科學(xué)需要極其注重細(xì)節(jié),而大模型在面對具有挑戰(zhàn)性的推理問題時可能會忽略或誤用細(xì)節(jié)。
最后,目前科學(xué)文獻(xiàn)的檢索和推理基準(zhǔn)尚不完善。AI 無法參考整篇文獻(xiàn),而是局限于摘要、在固定語料庫上檢索,或者只是直接提供相關(guān)論文。這些基準(zhǔn)不適合作為實際科學(xué)研究任務(wù)的性能代理,更重要的是,它們通常缺乏與人類表現(xiàn)的直接比較。因此,語言模型和智能體是否適合用于科學(xué)研究仍不清楚。
近日,來自 FutureHouse、羅切斯特大學(xué)等機(jī)構(gòu)的研究者們嘗試構(gòu)建一個更為強(qiáng)大的科研智能體,并對 AI 系統(tǒng)和人類在三個現(xiàn)實任務(wù)上的表現(xiàn)進(jìn)行嚴(yán)格比較。這三個任務(wù)有關(guān)搜索整個文獻(xiàn)以回答問題;生成一篇有引用的、維基百科風(fēng)格的科學(xué)主題文章;從論文中提取所有主張,并檢查它們與所有文獻(xiàn)之間的矛盾。
這可能是第一個在多個現(xiàn)實文獻(xiàn)搜索任務(wù)上評估單個 AI 系統(tǒng)的強(qiáng)大程序。利用新開發(fā)的評估方法,研究者探索了多種設(shè)計,最終形成了 PaperQA2 系統(tǒng),它在檢索和總結(jié)任務(wù)上的表現(xiàn)超過了博士生和博士后。
將 PaperQA2 應(yīng)用于矛盾檢測任務(wù)讓我們能夠大規(guī)模識別生物學(xué)論文中的矛盾。例如,ZNF804A rs1344706 等位基因?qū)穹至寻Y患者的大腦結(jié)構(gòu)有積極影響的說法與后來發(fā)表的研究相矛盾,該研究發(fā)現(xiàn) rs1344706 對大腦皮質(zhì)厚度、表面積和皮質(zhì)體積的影響會加劇患精神分裂癥的風(fēng)險。
- 論文地址:https://storage.googleapis.com/fh-public/paperqa/Language_Agents_Science.pdf
- GitHub 鏈接:https://github.com/Future-House/paper-qa
網(wǎng)友紛紛表示這項工作太棒了,并且是開源的。
回答科學(xué)問題
為了評估 AI 系統(tǒng)對科學(xué)文獻(xiàn)的檢索能力,研究者首先生成了 LitQA2,這是一組共 248 個多項選擇題,其答案需要從科學(xué)文獻(xiàn)中檢索。LitQA2 問題的設(shè)計目的是讓答案出現(xiàn)在論文正文中,但不出現(xiàn)在摘要中,理想的情況下,在所有科學(xué)文獻(xiàn)中只出現(xiàn)一次。這些約束使我們能夠通過將系統(tǒng)引用的來源 DOI 與問題創(chuàng)建者最初分配的 DOI 進(jìn)行匹配來評估回答的準(zhǔn)確性(下圖 A)。
為了執(zhí)行這些標(biāo)準(zhǔn),研究者生成了大量關(guān)于最近論文中模糊的中間發(fā)現(xiàn)的問題,然后排除了任何現(xiàn)有 AI 系統(tǒng)或人類注釋者可以使用替代來源進(jìn)行回答的問題。它們都是由專家生成的。
在回答 LitQA2 問題時,模型可以通過選擇「信息不足,無法回答此問題」來拒絕回答。與先前的研究和實際的科學(xué)問題類似,有些問題本來就是無法回答的。研究者評估了兩個指標(biāo):精確度(即在提供答案時正確回答的問題的比例)和準(zhǔn)確度(即所有問題中正確答案的比例)。此外還考慮了召回率,即系統(tǒng)將其答案歸因于 LitQA2 中表示的正確源 DOI 的問題的總百分比。
在開發(fā)了 LitQA2 之后,研究者利用它來設(shè)計一個科學(xué)文獻(xiàn)的 AI 系統(tǒng)。在 PaperQA 的啟發(fā)下,PaperQA2 是一個 RAG 智能體,它將檢索和響應(yīng)生成視為一個多步驟智能體任務(wù),而不是一個直接過程。PaperQA2 將 RAG 分解為工具,使其能夠修改其搜索參數(shù),并在生成最終答案之前生成和檢查候選答案(下圖 A)。
PaperQA2 可以訪問「論文搜索」工具,其中智能體模型將用戶請求轉(zhuǎn)換為用于識別候選論文的關(guān)鍵字搜索。候選論文被解析為機(jī)器可讀的文本,并分塊以供智能體稍后使用。PaperQA2 使用最先進(jìn)的文檔解析算法(Grobid19),能可靠地解析論文中的章節(jié)、表格和引文。找到候選論文后,PaperQA2 可以使用「收集證據(jù)」工具,該工具首先使用 top-k 密集向量檢索步驟對論文塊進(jìn)行排序,然后進(jìn)行大模型重新排序和上下文摘要(RCS)步驟。
在回答 LitQA2 問題時,PaperQA2 平均每道題解析并使用 14.5 ± 0.6(平均值 ± SD,n = 3)篇論文。在 LitQA2 上運行 PaperQA2 可獲得 85.2% ± 1.1%(平均值 ± SD,n = 3)的精確度和 66.0% ± 1.2%(平均值 ± SD,n = 3)的準(zhǔn)確度。另外,系統(tǒng)在 21.9% ± 0.9%(平均值 ± SD,n = 3)的答案中選擇報告「信息不足」(下圖 B)。
研究者發(fā)現(xiàn) PaperQA2 在 LitQA2 基準(zhǔn)測試中的精確度和準(zhǔn)確度均優(yōu)于其他 RAG 系統(tǒng)。我們還可以發(fā)現(xiàn),除 Elicit 外所有測試的 RAG 系統(tǒng)在精確度和準(zhǔn)確度方面均優(yōu)于非 RAG 前沿模型。
為了確保 PaperQA2 不會過擬合,從而無法在 LitQA2 上取得優(yōu)異成績,研究者在對 PaperQA2 進(jìn)行大量工程改動后,生成了一組新的 101 個 LitQA2 問題。
PaperQA2 在原始 147 個問題上的準(zhǔn)確率與后一組 101 個問題的準(zhǔn)確率沒有顯著差異,這表明在第一階段的優(yōu)化已經(jīng)很好地推廣到了新的 LitQA2 問題(下表 2)。
PaperQA2 性能分析
研究者嘗試改變 PaperQA2 的參數(shù),以了解哪些參數(shù)決定其準(zhǔn)確性(下圖 C)。他們創(chuàng)建了一個非智能體版本,其中包含一個硬編碼操作序列(論文搜索、收集證據(jù),然后生成答案)。非智能體系統(tǒng)的準(zhǔn)確率明顯較低(t (3.7)= 3.41,p= 0.015),驗證了使用智能體的選擇。
研究者將性能差異歸因于智能體更好的記憶能力,因為它可以在觀察到找到的相關(guān)論文數(shù)量后返回并更改關(guān)鍵字搜索(論文搜索工具調(diào)用)。
結(jié)果顯示,LitQA2 運行準(zhǔn)確度最高時為每個問題進(jìn)行了 1.26 ± 0.07(平均值 ± SD)次搜索,每個問題進(jìn)行了 0.46 ± 0.02(平均值 ±SD)次引用遍歷,這表明智能體有時會返回進(jìn)行額外搜索或遍歷引用圖以收集更多論文。
為了改進(jìn)相關(guān)塊檢索,研究者假設(shè),找到的論文對于現(xiàn)有相關(guān)塊的引用者或被引用者而言將是一種有效的分層索引形式。通過去除「引用遍歷」工具驗證了這一點,該工具顯示準(zhǔn)確率有所提高(t (2.55) = 2.14,p= 0.069),DOI 召回率顯著提高(t (3) = 3.4,p = 0.022),并在 PaperQA2 流程的所有階段都是如此。該工具的流程反映了科學(xué)家與文獻(xiàn)互動的方式。
研究者曾假設(shè)解析質(zhì)量會影響準(zhǔn)確度,但 Grobid 解析和更大的塊并沒有顯著提高 LitQA2 的精度、準(zhǔn)確度或召回率(下圖 6)。
總結(jié)科學(xué)主題
為了評估 PaperQA2 的摘要功能,研究者設(shè)計了一個名為 WikiCrow 的系統(tǒng)。該系統(tǒng)通過結(jié)合多個 PaperQA2 調(diào)用來生成有關(guān)人類蛋白質(zhì)編碼基因的維基百科風(fēng)格文章,而這些調(diào)用涉及基因的結(jié)構(gòu)、功能、相互作用和臨床意義等主題。
研究者使用 WikiCrow 生成了 240 篇有關(guān)基因的文章,這些文章已經(jīng)有非存根維基百科文章進(jìn)行匹配比較。WikiCrow 文章平均為 1219.0 ± 275.0 個字(平均值 ± SD,N = 240),比相應(yīng)的維基百科文章(889.6 ± 715.3 個字)長。平均文章生成時間為 491.5 ± 324.0 秒,平均每篇文章成本為 4.48 ± 1.02 美元(包括搜索和 LLM API 的費用)。
同時,「引用但不受支持」評估類別包括不準(zhǔn)確的陳述(例如真實幻覺或推理錯誤)和準(zhǔn)確但引用不當(dāng)?shù)穆暶鳌?/span>
為了進(jìn)一步調(diào)查維基百科和 WikiCrow 中的錯誤性質(zhì),研究者手動檢查了所有報告的錯誤,并嘗試將問題分類為以下幾類:
- 推理問題,即書面信息自相矛盾、過度推斷或不受任何引用支持;
- 歸因問題,即信息可能得到另一個包含的來源支持,但該聲明在本地沒有包含正確的引用或來源太寬泛(例如數(shù)據(jù)庫門戶鏈接);
- 瑣碎的聲明,這些聲明雖是真實的段落,但過于迂腐或沒有必要。
檢測文獻(xiàn)中的矛盾
由于 PaperQA2 可以比人類科學(xué)家探索吞吐量高得多的科學(xué)文獻(xiàn),因此研究者推測可以部署它來系統(tǒng)地、大規(guī)模地識別文獻(xiàn)中矛盾和不一致的地方。矛盾檢測是一個「一對多」問題,原則上涉及將一篇論文中的觀點或聲明與文獻(xiàn)中所有其他觀點或聲明進(jìn)行比較。在規(guī)模上,矛盾檢測變成了「多對多」問題,對人類來說失去了可行性。
因此,研究者利用 PaperQA2 構(gòu)建了一個名為 ContraCrow 的系統(tǒng),可以自動檢測文獻(xiàn)中的矛盾(下圖 A)。
ContraCrow 首先使用一系列 LLM completion 調(diào)用從提供的論文中提取聲明,然后將這些聲明輸入到 PaperQA2 中,并附帶矛盾檢測提示。該提示指示系統(tǒng)評估文獻(xiàn)中是否存在與提供的聲明相矛盾的內(nèi)容,并提供答案和 11-point 李克特量表的選擇。使用李克特量表可讓系統(tǒng)在提供排名時給出更可靠、更易于解釋的分?jǐn)?shù)。
接下來,研究者評估了 ContraCrow 檢測 ContraDetect 中矛盾的能力。通過將李克特量表輸出轉(zhuǎn)換為整數(shù),他們能夠調(diào)整檢測閾值并獲得 AUC 為 0.842 的 ROC 曲線。將閾值設(shè)置為 8(矛盾),ContraCrow 實現(xiàn)了 73% 的準(zhǔn)確率、88% 的精度和僅為 7% 的假陽性率(下圖 C)。
研究者將 ContraCrow 應(yīng)用于從數(shù)據(jù)庫中隨機(jī)選擇的 93 篇生物學(xué)相關(guān)論文,平均每篇論文識別出 35.16 ± 21.72(平均值 ± SD,N = 93)個聲明。在對 93 篇論文分析出的 3180 個聲明中,ContraCrow 認(rèn)為 6.85% 與文獻(xiàn)相矛盾,其中分別有 2.89%、3.77% 和 0.19% 的聲明被打了 8 分、9 分和 10 分(下圖 D)。
此外,當(dāng)將李克特量表閾值設(shè)定為 8,研究者發(fā)現(xiàn)平均每篇論文有 2.34 ± 1.99 個矛盾(平均值 ± SD)(下圖 E)。
更多任務(wù)細(xì)節(jié)和測試結(jié)果請參閱原論文。