特定領(lǐng)域的模型微調(diào)是否有意義?BioRAG,一個大型 RAG 實際應(yīng)用案例告訴您 精華
1. 生物學(xué)大型知識推理系統(tǒng)的現(xiàn)狀和問題
生物學(xué)領(lǐng)域的大型知識推理系統(tǒng)可分為兩個主流(如上圖(a-b)所示)。
圖片
? 微調(diào)語言模型:例如 bioBERT、sciBERT 以及針對特定領(lǐng)域定制的大型語言模型,如 PMC-Llama 和 Llava-med 等。這些模型基于特定領(lǐng)域的語料庫進行訓(xùn)練,從而在模型中嵌入了深厚的領(lǐng)域知識。不過,嵌入的知識可能不完整,而且更新時計算成本較高。
? 檢索增強生成方法:遵循信息索引和檢索、信息增強及答案生成的模式。比如,PGRA 采用檢索器進行搜索和重新排序上下文,然后生成答案。后續(xù)研究致力于通過利用先前答案優(yōu)化檢索過程、通過迭代反饋循環(huán)增強模型功能,或者借助搜索引擎擴展知識庫以納入最新信息等方式來改進這些系統(tǒng)。盡管基于 RAG 的方法解決了信息更新的問題,但往往忽略了生物學(xué)領(lǐng)域知識中固有的復(fù)雜細節(jié)。
基于上述討論,總結(jié)了構(gòu)建高效生物學(xué)問題推理系統(tǒng)的三個挑戰(zhàn):
? 高質(zhì)量的特定領(lǐng)域語料庫稀缺。盡管生物研究方面的出版物豐富,但在構(gòu)建強大的信息索引模型時,廣泛且高質(zhì)量的數(shù)據(jù)集仍嚴重匱乏。
? 生物知識系統(tǒng)固有的復(fù)雜性。這種復(fù)雜性因現(xiàn)代生物學(xué)研究的跨學(xué)科特性而更加突出。因此,自動化的問題推理系統(tǒng)必須能夠理解和處理多方面且往往模糊不清的生物查詢。
? 知識的持續(xù)更新。生物學(xué)是一個動態(tài)的領(lǐng)域,新發(fā)現(xiàn)層出不窮,現(xiàn)有的理論也時常被修訂或取代。這種動態(tài)變化要求問題推理系統(tǒng)能夠嫻熟地從數(shù)據(jù)庫或當(dāng)下的搜索引擎中選取知識源,以反映出正確的科學(xué)認知。
為應(yīng)對上述挑戰(zhàn),作者提出了 BioRAG:一個與大型語言模型相集成的新型檢索增強生成框架,用于生物問題推理。
2. 什么是 BioRAG
圖片
首先對生物領(lǐng)域的大量研究文章進行解析、索引和分割,并構(gòu)建高質(zhì)量的訓(xùn)練語料庫。
接著通過將預(yù)先構(gòu)建的研究層級結(jié)構(gòu)與嵌入模型相結(jié)合,以實現(xiàn)準(zhǔn)確的上下文檢索。
為應(yīng)對新興的生物學(xué)知識,BioRAG 能夠從搜索引擎、現(xiàn)有的特定領(lǐng)域工具或已索引的研究文章中自適應(yīng)地選擇知識源。
一旦框架判定已收集到足夠的信息,它將依據(jù)推理材料生成答案。
2.1 內(nèi)部生物信息源
在生物問答系統(tǒng)中,高質(zhì)量的特定領(lǐng)域語料庫對于豐富信息源和增強嵌入模型至關(guān)重要。
為達成此目標(biāo),從國家生物技術(shù)信息中心(NCBI)維護的全球生物醫(yī)學(xué)文章數(shù)據(jù)庫中提取研究論文。匯集了自 20 世紀 50 年代至今超過 3700 萬篇科學(xué)引文和摘要,涵蓋了臨床醫(yī)學(xué)、分子生物學(xué)等廣泛的生物醫(yī)學(xué)領(lǐng)域。
? 本地數(shù)據(jù)準(zhǔn)備:下載了超 3700 萬篇原始論文,隨后從中篩選出 1400 萬篇質(zhì)量欠佳的條目。使用 Unstructured 工具(https://github.com/Unstructured-IO )對這些文本進行預(yù)處理,該工具專為有效攝取和處理非結(jié)構(gòu)化文本數(shù)據(jù)而設(shè)計。過濾流程包括運用正則表達式技術(shù)去除亂碼,以及排除超鏈接、圖表、表格和其他嵌入標(biāo)簽等非語義內(nèi)容。這一精細的過程生成了一個包含 22,371,343 篇高質(zhì)量、已處理的 PubMed 摘要的語料庫。
? 信息索引:為進一步優(yōu)化針對特定生物問題摘要的檢索性能,在 BioRAG 框架內(nèi)開發(fā)了一個專門的生物嵌入模型。該模型以 PubMedBERT 作為基礎(chǔ)模型。使用 CLIP(對比語言 - 圖像預(yù)訓(xùn)練)技術(shù)對其進行增強,從而能夠微調(diào)模型。
基于此,構(gòu)建了一個本地化的高品質(zhì)生物載體數(shù)據(jù)庫,以支持高效、有效的查詢處理與檢索操作。此數(shù)據(jù)庫作為關(guān)鍵資源,有助于快速且精準(zhǔn)地獲取相關(guān)生物醫(yī)學(xué)信息,顯著增強了 BioRAG 框架處理復(fù)雜生物問題的能力。
2.2 外部信息源
由于生物研究發(fā)展迅速,不斷融合新發(fā)現(xiàn),所以外部生物學(xué)知識對于生物推理而言至關(guān)重要。為了解決這個問題,引入了兩個外部信息源。
2.2.1 生物數(shù)據(jù)中心
BioRAG 整合了以下數(shù)據(jù)庫,每個數(shù)據(jù)庫在更廣泛的生物分析情境中都具有獨特用途:
? (1) 基因數(shù)據(jù)庫 https://www.ncbi.nlm.nih.gov/gene/:該資源提供特定基因的功能、結(jié)構(gòu)和表達的全面信息。對于解決與基因機制、基因作用和基因表達相關(guān)的查詢,促進對基因相關(guān)現(xiàn)象的更深入理解極具價值。
? (2) dbSNP 數(shù)據(jù)庫 https://www.ncbi.nlm.nih.gov/snp/:此數(shù)據(jù)庫存有大量的單核苷酸多態(tài)性(SNPs),為研究遺傳變異及其與各類疾病的潛在關(guān)聯(lián)提供了關(guān)鍵見解。對于探索疾病和性狀遺傳的遺傳基礎(chǔ)的研究甚為有用。
? (3) 基因組數(shù)據(jù)庫 https://www.ncbi.nlm.nih.gov/genome/:提供完整的基因組序列,該數(shù)據(jù)庫對于研究不同生物體的基因組的結(jié)構(gòu)、功能和進化至關(guān)重要。它支持全面的基因組分析和比較研究,增進了我們對基因組架構(gòu)及其功能影響的理解。
? (4) 蛋白質(zhì)數(shù)據(jù)庫 https://www.ncbi.nlm.nih.gov/protein/:該資源提供蛋白質(zhì)的序列、結(jié)構(gòu)和功能的詳細信息。對于探索與蛋白質(zhì)相關(guān)的生物過程、理解分子功能和研究蛋白質(zhì)組內(nèi)的復(fù)雜相互作用意義重大。
2.2.2 搜索引擎
為確保獲取最新的討論和進展,BioRAG 整合了多種搜索引擎,包括谷歌、必應(yīng)、arXiv、維基媒體和 Crossref。每個平臺都對信息的聚合有獨特貢獻:
? (1) 谷歌和必應(yīng):這些搜索引擎在網(wǎng)絡(luò)上廣泛搜索各類內(nèi)容,包括新聞文章、博客和論壇,提供有關(guān)與科學(xué)主題相關(guān)的公眾討論和關(guān)注的見解。這種信息的廣度對于理解科學(xué)問題的社會影響和一般性論述極為關(guān)鍵。
? (2) arXiv:作為預(yù)印本論文的庫,arXiv 在經(jīng)過同行評審之前提供了跨多個科學(xué)學(xué)科的最新研究報告和學(xué)術(shù)文章的訪問渠道。此來源對于緊跟最新的科學(xué)理論和實驗極有價值。
? (3) 維基媒體:以其用戶友好的內(nèi)容著稱,維基媒體為復(fù)雜的科學(xué)概念和原理提供了易于理解的闡釋。該資源有助于為更廣泛的公眾理解和教育目的簡化高級主題。
? (4) Crossref:這項服務(wù)作為學(xué)術(shù)引文數(shù)據(jù)的綜合聚合器,提供了同行評審的學(xué)術(shù)出版物及其引文網(wǎng)絡(luò)的鏈接。Crossref 對于獲取高質(zhì)量的研究成果并理解其對學(xué)術(shù)界的影響至關(guān)重要。
2.3 自評估信息檢索器
BioRAG 整合了一種自我評估機制,用以持續(xù)評估其所收集信息的充分性與相關(guān)性。
?內(nèi)部信息檢索:為有效應(yīng)對生物知識系統(tǒng)固有的復(fù)雜性,BioRAG 借助一種集成手段,將明確界定的層次結(jié)構(gòu)與索引信息相結(jié)合,開展全面的內(nèi)部信息檢索。首先訓(xùn)練一個 M_textMeSH 模型來預(yù)測輸入問題的 MeSH。接著,我們使用下圖中的模板對 Llama3-8B 模型進行微調(diào),以對給定問題進行分類。構(gòu)建 MeSH 過濾 SQL 來生成條件檢索。若候選結(jié)果與給定問題存在一個一致的 MeSH,則認為該候選結(jié)果與給定問題相關(guān)。然后,采用向量檢索過程,依據(jù)輸入問題和過濾結(jié)果之間句子嵌入的余弦相似度對相關(guān)結(jié)果進行排序。
?自我評估策略:為確保檢索信息的準(zhǔn)確性和時效性,BioRAG 引入了一種自我評估策略,評估從內(nèi)部知識庫收集的數(shù)據(jù)的充分性。由后端大型語言模型驅(qū)動,旨在確定內(nèi)部檢索的信息是否足以切實解決所提出的問題。若內(nèi)部內(nèi)容不足,模型將回溯至相關(guān)的外部知識源。另外,當(dāng)初始評估表明科學(xué)問題需要更廣泛的搜索或特定實體數(shù)據(jù)的檢索時,模型傾向于運用外部工具。這種方法支持該框架提供精準(zhǔn)、最新、全面答案的目標(biāo),助力更明智的決策,推動生命科學(xué)中的研究和應(yīng)用。
2.4 提示詞
為最大限度發(fā)揮檢索到的語料庫和知識的效用,在 BioRAG 中專門設(shè)計了一系列提示詞。提示詳細定義如下:
? 提示詞 # 1:To provide the most helpful and accurate response to the following Question: {Question}. You have been given descriptions of several RETRIEVAL METHODS: {Retrieval}. Please select the RETRIEVAL METHODS you consider the most appropriate for addressing this question.
? 提示詞 # 2: Based on the RETRIEVAL METHODS you selected, and considering the Question and the Input Requirements of the retrieval method, please REWRITE the search query accordingly.
? 提示詞 # 3: Now, using the rewritten QUERY and the retrieval FILTER methods, perform a logical combination to execute the search effectively.
? 提示詞 # 4: Based on the RETRIEVAL RESULTS from the above steps, please evaluate whether the RESULTS support answering the original Question. If they do not support it, output "NO". If they do support it, output "YES".
? 提示詞 # 5: Based on the RETRIEVAL RESULTS, perform a comprehensive reasoning and provide an answer to the Question.
此外,為專業(yè)生物學(xué)工具和數(shù)據(jù)庫編制了一系列操作手冊,目的是最大限度地發(fā)揮它們的能力。具體操作說明如下:
? 手冊 # 基因: 基因數(shù)據(jù)庫搜索引擎是獲取基因全面信息的寶貴資源,涵蓋基因結(jié)構(gòu)、功能及相關(guān)遺傳事件。它特別適合解答關(guān)于基因研究和發(fā)現(xiàn)的詳細問題。要有效使用此搜索引擎,請輸入特定的基因名稱。
? 手冊 # dbSNP: dbSNP 數(shù)據(jù)庫搜索引擎是獲取單核苷酸多態(tài)性(SNP)和其他遺傳變異詳細信息的關(guān)鍵工具。它特別適合解答關(guān)于遺傳多樣性、等位基因頻率和相關(guān)遺傳研究的問題。要有效使用此搜索引擎,請輸入特定的 SNP 標(biāo)識符或遺傳變異名稱。
? 手冊 # 基因組: 基因組數(shù)據(jù)庫搜索引擎是訪問整個基因組全面信息的必備工具,包括序列、注釋和功能元件。它特別適合解答關(guān)于基因組結(jié)構(gòu)、變異和比較基因組學(xué)的復(fù)雜問題。要有效使用此搜索引擎,請輸入特定的基因組名稱或標(biāo)識符。
? 手冊 # 蛋白質(zhì): 蛋白質(zhì)數(shù)據(jù)庫搜索引擎是獲取蛋白質(zhì)詳細信息的關(guān)鍵資源,包括序列、結(jié)構(gòu)、功能和相互作用。它特別適合解答關(guān)于蛋白質(zhì)生物學(xué)、生化特性和分子功能的問題。要有效使用此搜索引擎,請輸入特定的蛋白質(zhì)名稱或標(biāo)識符。
? 手冊 # 網(wǎng)絡(luò)搜索: 網(wǎng)絡(luò)搜索引擎是一個強大的工具,設(shè)計用來快速有效地幫助您找到關(guān)于當(dāng)前事件的信息。它特別適合獲取各種主題的最新新聞、更新和發(fā)展。要有效使用此搜索引擎,只需輸入相關(guān)的搜索查詢。
? 手冊 #PubMed:PubMed 本地向量數(shù)據(jù)庫搜索引擎是一款采用基于向量的搜索技術(shù)來檢索生物醫(yī)學(xué)文獻和研究文章的先進工具。它在解答有關(guān)醫(yī)學(xué)研究、臨床研究和科學(xué)發(fā)現(xiàn)的詳細問題方面特別有用。若要有效地使用此搜索引擎,輸入應(yīng)為特定的查詢或感興趣的主題。
3 效果對比分析
3.1 生物學(xué)相關(guān)任務(wù)的成果
圖片
為驗證所提模型的有效性,首先開展生物學(xué)問答任務(wù)。成果展示于上表:
? (1) 基于 BioLLMs 和 GPT-3.5 的結(jié)果,針對特定領(lǐng)域數(shù)據(jù)的微調(diào)對領(lǐng)域特定任務(wù)大有裨益。鑒于 BioLLMs 的規(guī)模遠小于 GPT-3.5,它們的表現(xiàn)卻能與 GPT-3.5 相媲美。
? (2) BioRAG 的表現(xiàn)超越了 BioLLMs 和 GPT-3.5,表明本地數(shù)據(jù)集和外部數(shù)據(jù)集的作用。
? (3) 盡管 BioRAG 的規(guī)模遠不及 SciRAG(NewBing),其性能卻更勝一籌。這一優(yōu)勢源自兩個方面:一是定制化的提示;二是本地和外部信息源的利用。NewBing 無法接入專業(yè)數(shù)據(jù)庫,缺乏進行推理所需的技術(shù)性生物學(xué)描述。
? (4) GeneGPT 在此項任務(wù)中準(zhǔn)確率掛零,因為它是專為 GeneTuring 數(shù)據(jù)集定制的模型,導(dǎo)致其泛化能力不足。
3.2 專業(yè)生物學(xué)推理成果
圖片
GeneTuring 數(shù)據(jù)集囊括了更多專業(yè)生物學(xué)問題,相應(yīng)的推理過程極度依賴于技術(shù)性生物學(xué)文獻和描述。成果如上表。
由于該數(shù)據(jù)集未包含訓(xùn)練數(shù)據(jù),BioLLMs 未經(jīng)微調(diào)直接運行,所以它們的表現(xiàn)不佳,反映出泛化能力的不足。
在此數(shù)據(jù)集中,作者專注于分析 GeneGPT、NewBing 和 BioRAG:
? (1) 在命名法任務(wù)中,BioRAG 和 GeneGPT 的表現(xiàn)分別位居第一和第二,因為兩者都能訪問 Gene 數(shù)據(jù)庫。BioRAG 整合了搜索引擎的結(jié)果,而 GeneGPT 則沒有,這造成了兩者之間的差距。
? (2) 基因組位置任務(wù)的推理依賴于專業(yè)的 Gene 和 dbSNP 數(shù)據(jù)庫。BioRAG 和 GeneGPT 在基因 SNP 關(guān)聯(lián)子任務(wù)中均達到了 100%的準(zhǔn)確率,因為它們都能訪問 dbSNP 數(shù)據(jù)庫。然而,NewBing 由于無法訪問 dbSNP 數(shù)據(jù)庫,在此項任務(wù)中準(zhǔn)確率歸零。對于基因位置子任務(wù),挑戰(zhàn)在于基因名稱的多樣性。GeneGPT 的界面不支持高級搜索,導(dǎo)致檢索到的名稱不夠全面。相比之下,通用搜索引擎如 NewBing 在查詢實體存在變體或歧義時,能提供更全面的檢索結(jié)果。因此,在這項任務(wù)中,NewBing 的表現(xiàn)優(yōu)于 GeneGPT。BioRAG 支持上述兩種界面,并在此項任務(wù)中取得了最佳成果。
? (3) 功能分析任務(wù)依賴于基因數(shù)據(jù)庫及相關(guān)的 PubMed 論文。PubMed 語料庫提供了詳盡的基因 - 疾病關(guān)系。盡管 NewBing 能檢索元數(shù)據(jù),但 BioRAG 把本地 PubMed 數(shù)據(jù)庫與其他專業(yè)數(shù)據(jù)庫加以整合,以獲取最佳成果。
3.3 消融分析
為評估 BioRAG 各個組件的貢獻,借助 GeneTuring 數(shù)據(jù)集展開了廣泛的消融研究,有系統(tǒng)地移除各個組件,以衡量其在各類任務(wù)中的性能影響。
-(1)數(shù)據(jù)庫的影響:結(jié)果顯示,基因數(shù)據(jù)庫在性能方面發(fā)揮著關(guān)鍵作用。比如,當(dāng)移除此組件時,像基因位置這類任務(wù)的準(zhǔn)確性顯著降低。通用搜索引擎和本地 PubMed 數(shù)據(jù)庫也有積極作用,但與基因數(shù)據(jù)庫相比,其影響沒那么顯著。
-(2)組件貢獻:在組件當(dāng)中,自我評估機制對于在大多數(shù)任務(wù)中維持高精度至關(guān)重要。MeSH 過濾器和查詢重寫也能提升性能,但其缺失不像自我評估的移除那樣嚴重降低結(jié)果。
-(3)基礎(chǔ)語言模型的影響:對比兩個基礎(chǔ)模型,Llama-3-70B 在所有任務(wù)中通常優(yōu)于 Llama-3-8B,表明更大的模型規(guī)模有助于更好地處理復(fù)雜的生物查詢。這些發(fā)現(xiàn)凸顯了在 BioRAG 框架內(nèi)融合各種數(shù)據(jù)源和高級組件對于在生物問題推理任務(wù)中達成最優(yōu)性能的重要性。通過了解每個組件的貢獻,能夠針對不同的任務(wù)和數(shù)據(jù)集更好地優(yōu)化 BioRAG。
3.4 案例研究
為了更直觀地對比 BioRAG 與基線之間的推理差異,選取了三個典型的案例研究。
圖片
首先提供一個案例研究來展示 BioRAG 的工作流程(如上圖)。選自大學(xué)生物學(xué)數(shù)據(jù)集。BioRAG 進行了兩次自我評估:首次它從網(wǎng)絡(luò)搜索一般性信息起步,但結(jié)果不足以支撐回答問題。于是,BioRAG 進行了第二次自我評估,并調(diào)用了更專業(yè)的 PubMed 數(shù)據(jù)庫。此次的結(jié)果準(zhǔn)確且足以支撐回答問題,因此 BioRAG 依據(jù)結(jié)果給出最終答案。
圖片
第二個案例研究在 GeneTuring 數(shù)據(jù)集中的基因別名任務(wù)上開展(如上圖)。此任務(wù)的挑戰(zhàn)在于基因名稱的變體。NewBing 從維基媒體獲取響應(yīng)。然而,維基媒體不夠?qū)I(yè),無法為輸入基因提供別名,致使答案有誤。
GeneGPT 的提示過于繁復(fù),且與當(dāng)前任務(wù)無關(guān)。更甚者,其 NCBI API 僅返回基因的 ID 而非名稱,導(dǎo)致大型語言模型(LLM)無法識別,最終得出了錯誤結(jié)論。
相比之下,BioRAG 采用模糊查詢技術(shù),能夠容忍更高的誤差,同時獲取更多相關(guān)反饋。每個反饋結(jié)果都詳盡地包含了基因的別名等相關(guān)信息,使得 BioRAG 能夠準(zhǔn)確回答。
圖片
在 GeneTuring 數(shù)據(jù)集中的基因-疾病關(guān)聯(lián)任務(wù)上,進行了第三次案例研究,如上圖所示。這項任務(wù)的邏輯推理需要依賴基因數(shù)據(jù)庫和相關(guān)的 PubMed 文獻。PubMed 的摘要提供了詳盡的基因與疾病之間的聯(lián)系。
NewBing 從 Geekymedics 網(wǎng)站獲取了回應(yīng),但該網(wǎng)站雖提供廣泛的醫(yī)學(xué)信息,卻未能提供基因-疾病關(guān)聯(lián)所需的精確細節(jié)。因此,NewBing 由于依賴非專業(yè)資源,其回答并不準(zhǔn)確。
GeneGPT 錯誤地選擇了 NCBI 的 API,該 API 返回的是復(fù)雜且冗長的 HTML 頁面,充斥著大量無關(guān)信息。在這些含糊不清的信息背景下,GeneGPT 給出了錯誤的答案。
在 BioRAG 的推理過程中,它綜合運用了基因數(shù)據(jù)庫、本地 PubMed 數(shù)據(jù)庫和網(wǎng)絡(luò)搜索等多種工具,以收集并相互驗證與 B 細胞免疫缺陷相關(guān)的基因信息。這一過程涵蓋了查詢預(yù)處理、執(zhí)行搜索以及在每個步驟中進行自我評估,確保了結(jié)果的全面性和準(zhǔn)確性。BioRAG 的推理過程是深入細致的,它整合了各種數(shù)據(jù)源,以確認特定基因與 B 細胞免疫缺陷之間的聯(lián)系。
本文轉(zhuǎn)載自??大語言模型論文跟蹤??,作者:HuggingAGI ????
