自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一種將RAG、KG、VS、TF結(jié)合增強領(lǐng)域LLM性能的框架

發(fā)布于 2024-10-8 14:59
瀏覽
0收藏

SMART-SLIC框架:旨在將RAG結(jié)合向量存儲(Vector Stores)、知識圖譜(Knowledge Graphs)和張量分解(Tensor Factorization)來增強特定領(lǐng)域的大型語言模型(LLMs)的性能。

SMART-SLIC系統(tǒng)框架

一種將RAG、KG、VS、TF結(jié)合增強領(lǐng)域LLM性能的框架-AI.x社區(qū)

SMART-SLIC框架的關(guān)鍵組成部分和操作流程:包括構(gòu)建特定領(lǐng)域的數(shù)據(jù)集、知識圖譜本體論、向量存儲以及檢索增強生成(RAG)過程:

A. 特定領(lǐng)域的數(shù)據(jù)集:

  • 項目從由主題專家(SMEs)選定的核心文檔開始,這些文檔代表了想要構(gòu)建數(shù)據(jù)集的特定領(lǐng)域。
  • 利用SCOPUS、Semantic Scholar和OSTI等授權(quán)API,通過引用和參考文獻網(wǎng)絡(luò)擴展數(shù)據(jù)集。
  • 為了保持核心數(shù)據(jù)集的中心質(zhì)量和主題一致性,采用了幾種修剪策略來刪除與核心文檔無關(guān)的文檔。

B. 降維:

  • 通過非負張量分解從數(shù)據(jù)集中提取潛在結(jié)構(gòu),使用T-ELF工具進行文檔聚類,并自動確定最佳聚類數(shù)量。

C. 知識圖譜本體論:

  • 將T-ELF提取的特征和文檔元數(shù)據(jù)映射成一系列頭、實體和尾關(guān)系,形成方向三元組,然后注入Neo4j知識圖譜。
  • 知識圖譜包含了文檔元數(shù)據(jù)以及從文檔中提取的潛在特征。

D. 向量存儲組裝:

  • 將文檔向量化后存入Milvus向量數(shù)據(jù)庫,以支持RAG過程。
  • 文檔的全文被分割成較小的段落,并且每個段落都被賦予一個整數(shù)ID,以指示其在原始文檔中的位置。

E. 檢索增強生成RAG:

  • SMART-SLIC RAG實現(xiàn):

SMART-SLIC框架中的RAG實現(xiàn)依賴于知識圖譜(KG)和向量存儲(VS)來提供結(jié)構(gòu)化和非結(jié)構(gòu)化的領(lǐng)域特定信息。

當(dāng)用戶提出問題時,LLM首先將查詢轉(zhuǎn)化為向量嵌入,然后與現(xiàn)有文本進行比較以找到最相似的文本。

檢索到的信息被添加到原始查詢中,LLM利用這些上下文信息生成相關(guān)答案。

最后,LLM以自然語言構(gòu)建最終答案,向用戶解釋答案。

RAG流程圖

一種將RAG、KG、VS、TF結(jié)合增強領(lǐng)域LLM性能的框架-AI.x社區(qū)

  • 問題路由流程:?

SMART-SLIC采用問題路由流程來確定用戶查詢的類型,并根據(jù)查詢類型選擇相應(yīng)的處理工具和流程。

問題分為“通用查詢”和“特定文檔查詢”。通用查詢調(diào)用ReAct Agent處理流程。

特定文檔查詢則調(diào)用檢索查詢或合成查詢。

理解用戶的問題對于將信息路由到適當(dāng)?shù)墓ぞ呒秃罄m(xù)流程至關(guān)重要。

用戶查詢路由概覽

一種將RAG、KG、VS、TF結(jié)合增強領(lǐng)域LLM性能的框架-AI.x社區(qū)

  • ReAct Agent處理流程:?

ReAct Agent處理流程包括ReAct Agent、工具執(zhí)行器和結(jié)束節(jié)點。

ReAct Agent負責(zé)收集輸入、做出可操作的決策并解釋結(jié)果。

工具執(zhí)行器接收來自代理的工具名稱和輸入?yún)?shù),調(diào)用相應(yīng)的功能并返回輸出。

結(jié)束節(jié)點標志著Reason-Act循環(huán)的完成,將最終輸出返回給用戶。

ReAct Agent的節(jié)點和工具

一種將RAG、KG、VS、TF結(jié)合增強領(lǐng)域LLM性能的框架-AI.x社區(qū)


SMART-SLIC框架在實際應(yīng)用中的表現(xiàn),并提供了評估結(jié)果:

A. 數(shù)據(jù)集:

  • 初始選擇了30篇由主題專家(SME)挑選的、專注于大規(guī)模惡意軟件分析和異常檢測領(lǐng)域的文檔作為核心文檔。
  • 通過引用和參考文獻網(wǎng)絡(luò)對數(shù)據(jù)集進行了兩次擴展,最終得到8790篇科學(xué)出版物構(gòu)成的數(shù)據(jù)集。

B. 潛在特征提取:

  • 使用T-ELF對數(shù)據(jù)集進行張量分解,確定了25個主題聚類作為所有評估k值中的最佳劃分。
  • 分解過程使用了高性能計算資源,整個過程大約耗時2小時。

一種將RAG、KG、VS、TF結(jié)合增強領(lǐng)域LLM性能的框架-AI.x社區(qū)

C. 向量存儲:

  • 將8790篇文檔向量化后存入Milvus向量數(shù)據(jù)庫。
  • 其中22%的文檔有全文文本,這些也被向量化并存入Milvus。

D. 知識圖譜:

  • 從T-ELF輸出的25個聚類中,格式化數(shù)據(jù)為1,457,534個三元組,并注入知識圖譜。
  • 知識圖譜中包含了321,122個節(jié)點和1,136,412條邊關(guān)系。

知識圖譜Schema

一種將RAG、KG、VS、TF結(jié)合增強領(lǐng)域LLM性能的框架-AI.x社區(qū)

關(guān)鍵詞“網(wǎng)絡(luò)犯罪”的圖形搜索。返回單個關(guān)鍵詞(綠色)以及相關(guān)聯(lián)的文檔(淺藍色)。文檔還鏈接了附屬機構(gòu)(黃色)和機構(gòu)所在的國家(紅色)。

一種將RAG、KG、VS、TF結(jié)合增強領(lǐng)域LLM性能的框架-AI.x社區(qū)

E. 問答驗證:

  • 使用文檔特定問題和主題特定問題對系統(tǒng)進行了零樣本條件下的問答測試。
  • 比較了使用GPT-4-instruct模型在有無RAG框架的情況下的回答性能。
  • 結(jié)果顯示,使用RAG時,GPT-4-instruct模型回答問題的準確率達到97%,而沒有使用RAG時,模型有40%的問題未回答,回答的問題準確率僅為20%。

F. 復(fù)雜問題解答:

  • 還測試了更復(fù)雜的問題,這些問題需要通過各種檢索方法進行徹底搜索。
  • SME提出了幾個問題,使用SMART-SLIC RAG流程得到的回答與SME選擇的DOI一致,證明了代理在檢索相關(guān)來源方面的準確性。
  • 沒有使用RAG時,LLM的回答不準確,存在編造答案的情況,且未提供DOI引用,降低了信息的可信度。?

兩種問題類型,文檔和主題,展示了使用SMART-SLIC RAG和不使用RAG時,LLM的嘗試百分比和正確百分比。

一種將RAG、KG、VS、TF結(jié)合增強領(lǐng)域LLM性能的框架-AI.x社區(qū)

https://arxiv.org/pdf/2410.02721
Domain-Specific Retrieval-Augmented Generation
Using Vector Stores, Knowledge Graphs, and Tensor Factorization

本文轉(zhuǎn)載自??PaperAgent??

標簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦