自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Agentic RAG Golden-Retriever:顯著提升企業(yè)知識庫問答準確性、檢索效率!

發(fā)布于 2024-8-7 15:38
瀏覽
0收藏

企業(yè)落地RAG系統(tǒng)痛點:

  • 技術公司維護著大量的專有文檔,如培訓材料、設計文檔和研究成果。
  • 工程師,尤其是新員工,需要快速查詢這些文檔或吸收其中的新知識。
  • 這些領域特定的文檔通常包含許多技術社區(qū)特有的縮寫和術語,使得導航變得復雜。

Golden-Retriever系統(tǒng):在文檔檢索前增加了一個基于反思的問題增強步驟,用于識別術語、根據(jù)上下文澄清其含義,并相應地增強問題。

一個比較Golden-Retriever與相關工作的示意圖。兩種類型的方法:離線和在線。在左上角,現(xiàn)有的離線方法使用大型語言模型(LLMs)生成訓練數(shù)據(jù)集。右上角展示了Golden-Retriever離線方法,利用LLMs增強文檔數(shù)據(jù)庫,為在線階段做準備。在線方法在圖的下半部分描繪。從左下到右下:Corrective RAG和Self-RAG在文檔檢索步驟后修改RAG的響應。如果用戶的問題含糊不清或缺乏上下文,RAG無法檢索到最相關的文檔,限制了這些方法的有效性。另一種方法將問題解構為抽象語法樹(AST),并相應地合成SQL查詢,提高了查詢的保真度,但僅適用于SQL查詢。Golden-Retriever的方法反思問題,識別其上下文,并在文檔檢索之前通過查詢術語字典來增強問題。增強后的問題允許RAG忠實地檢索最相關的文檔,即使存在含糊的術語或缺乏明確的上下文。

Agentic RAG Golden-Retriever:顯著提升企業(yè)知識庫問答準確性、檢索效率!-AI.x社區(qū)圖片


Golden-Retriever的組成:包含離線(offline)和在線(online)兩個部分。

  • 離線部分是數(shù)據(jù)預處理步驟,發(fā)生在知識庫聊天機器人部署之前。
  • 在線部分是每次用戶提問時發(fā)生的交互過程。

離線文檔增強(LLM-Driven Document Augmentation)

  • 目的:增強文檔數(shù)據(jù)庫,提高檢索文檔的相關性。
  • 過程:收集公司原始文檔,使用OCR技術提取文本,并將其分割成較小的塊,以便處理。
  • 增強:使用大型語言模型(LLM)為每個文本塊生成摘要,從而利用LLM的語義理解和上下文學習能力。

文檔預處理和LLM驅動的文檔增強過程的示例提示實施的插圖

Agentic RAG Golden-Retriever:顯著提升企業(yè)知識庫問答準確性、檢索效率!-AI.x社區(qū)

在線過程(online):每次用戶提問時,系統(tǒng)通過LLM識別問題中的術語和上下文,查詢術語字典,然后增強原始問題,以便RAG框架檢索最相關和準確的文檔。

  1. 在線過程:

1.1 識別術語(Identify Jargons):識別用戶問題中的術語和縮寫,為確保準確解釋,使用LLM提取并列出所有潛在的術語和縮寫。

1.2 確定上下文(Identify Context):確定問題中術語的上下文,使用LLM通過提示模板來識別問題上下文。

1.3 查詢術語(Query Jargons):使用已識別的術語查詢術語字典,獲取擴展定義、描述和注釋。

1.4 增強問題(Augment Question):結合原始問題、上下文信息和詳細的術語定義,形成增強后的問題,以提供清晰的上下文并解決任何歧義。

1.5 查詢未命中響應(Query Miss Response):如果系統(tǒng)在字典中找不到某些術語的相關信息,Golden-Retriever有一個備選機制,合成一個響應,指示由于缺少信息而無法回答問題。

左側是Golden-Retriever在線推理部分的工作流程圖。右側是系統(tǒng)與LLM在工作流程中間步驟的示例交互。系統(tǒng)提示LLM生成中間響應,這些響應被保存、訪問,并用于工作流程中后續(xù)的步驟。

Agentic RAG Golden-Retriever:顯著提升企業(yè)知識庫問答準確性、檢索效率!-AI.x社區(qū)

通過在特定領域的問答數(shù)據(jù)集上的評估,Golden-Retriever在多個開源LLM上表現(xiàn)出色,與傳統(tǒng)的RAG方法相比,顯著提高了答案的準確性。與Vanilla LLM和RAG相比,Golden-Retriever分別將Meta-Llama-3-70B的總分提高了79.2%和40.7%。在測試的所有三種大型語言模型中,平均將得分提高了57.3%。

與傳統(tǒng)的LLM微調(diào)方法相比,Golden-Retriever避免了計算成本高、泛化能力差和容量限制等問題。

問答實驗結果。使用針對工程師新員工培訓文檔中的六個不同領域的測驗作為測試問題。所有問題都是多項選擇題。顯示的是五次試驗的平均得分。最佳得分用粗體顯示。

Agentic RAG Golden-Retriever:顯著提升企業(yè)知識庫問答準確性、檢索效率!-AI.x社區(qū)

縮寫識別實驗的結果表明,Golden-Retriever系統(tǒng)中使用的LLM能夠有效地識別問題中的縮寫,這對于提高問題解答的準確性至關重要。

Agentic RAG Golden-Retriever:顯著提升企業(yè)知識庫問答準確性、檢索效率!-AI.x社區(qū)


附錄

QA對示例

展示了一些用于問題回答實驗的評估數(shù)據(jù)的非保密實例,如下所示:

Agentic RAG Golden-Retriever:顯著提升企業(yè)知識庫問答準確性、檢索效率!-AI.x社區(qū)

合成數(shù)據(jù)集生成模板 

以下是用于生成縮寫識別實驗中隨機縮寫的問題模板和隨機縮寫列表。

Agentic RAG Golden-Retriever:顯著提升企業(yè)知識庫問答準確性、檢索效率!-AI.x社區(qū)

樣本實驗結果 

在這里,展示了縮寫識別實驗的樣本實驗結果。強調(diào)展示失敗模式,這些模式在不同的大型語言模型(LLMs)中是不同的。

Agentic RAG Golden-Retriever:顯著提升企業(yè)知識庫問答準確性、檢索效率!-AI.x社區(qū)

Agentic RAG Golden-Retriever:顯著提升企業(yè)知識庫問答準確性、檢索效率!-AI.x社區(qū)

Agentic RAG Golden-Retriever:顯著提升企業(yè)知識庫問答準確性、檢索效率!-AI.x社區(qū)

https://arxiv.org/pdf/2408.00798
Golden-Retriever: High-Fidelity Agentic Retrieval Augmented Generation for Industrial Knowledge Base

本文轉載自??PaperAgent??,作者:PaperAgent

收藏
回復
舉報
回復
相關推薦