ERAGent:集成5個(gè)先進(jìn)組件與技術(shù)的增強(qiáng)型RAG Agent,顯著提升3類(lèi)問(wèn)答任務(wù)效果
大型語(yǔ)言模型(LLMs)在多種任務(wù)中表現(xiàn)出色,但存在諸如幻覺(jué)(hallucinations)、時(shí)間錯(cuò)位(temporal misalignments)、上下文處理問(wèn)題和微調(diào)效率低下等挑戰(zhàn)。為了解決這些問(wèn)題,研究人員通過(guò)檢索增強(qiáng)型生成(RAG)方法,將外部知識(shí)源與LLMs結(jié)合,顯著提高了復(fù)雜問(wèn)題的準(zhǔn)確回答能力。傳統(tǒng)的RAG架構(gòu)包括檢索模塊和閱讀模塊,但存在檢索質(zhì)量低下和生成不可靠答案的問(wèn)題。
ERAGent(Enhanced RAG Agent)框架提出了幾個(gè)關(guān)鍵改進(jìn):
ERAGent整體框架
- 增強(qiáng)型問(wèn)題改寫(xiě)器(Enhanced Question Rewriter):對(duì)原始問(wèn)題進(jìn)行語(yǔ)義增強(qiáng),改寫(xiě)為更清晰的問(wèn)題,并生成基于問(wèn)題的查詢(xún)。這可能涉及到使用專(zhuān)業(yè)術(shù)語(yǔ)詞典來(lái)轉(zhuǎn)換非正式或充滿術(shù)語(yǔ)的表達(dá)。
在臨床醫(yī)學(xué)領(lǐng)域應(yīng)用增強(qiáng)型問(wèn)題重寫(xiě)模塊的案例研究 - 檢索觸發(fā)器(Retrieval Trigger):使用“流行度”作為指標(biāo)來(lái)估計(jì)AI助手對(duì)特定知識(shí)掌握的程度。它通過(guò)設(shè)置相似度閾值來(lái)評(píng)估查詢(xún)是否超出了當(dāng)前知識(shí)范圍。
- 知識(shí)檢索器(Knowledge Retriever):利用API搜索引擎檢索技術(shù),如Bing Search API,來(lái)利用當(dāng)前在線資源。它通過(guò)BM25算法提取高相關(guān)性的文本片段。
- 知識(shí)過(guò)濾器(Knowledge Filter):使用自然語(yǔ)言推理(NLI)任務(wù)來(lái)過(guò)濾檢索到的知識(shí),確保只有支持問(wèn)題答案的上下文被保留。
- 個(gè)性化LLM閱讀器(Personalized LLM Reader):生成準(zhǔn)確的回答。它不僅整合了過(guò)濾后的知識(shí)與改寫(xiě)后的問(wèn)題來(lái)形成提示,還結(jié)合了用戶畫(huà)像,使LLM的回答特別針對(duì)用戶的偏好。
- 經(jīng)驗(yàn)學(xué)習(xí)器(Experiential Learner):通過(guò)分析用戶和AI助手之間的歷史對(duì)話來(lái)擴(kuò)展知識(shí)邊界,并學(xué)習(xí)用戶的主題興趣、偏好和問(wèn)題需求。
RAGent通過(guò)這些模塊的協(xié)同操作,提供了一個(gè)先進(jìn)的原型,以確保在實(shí)際場(chǎng)景中應(yīng)用的便捷性和有效性。
通過(guò)在六個(gè)數(shù)據(jù)集和三類(lèi)問(wèn)答任務(wù)(單輪、單輪多跳、多會(huì)話多輪問(wèn)答)上的嚴(yán)格評(píng)估,ERAGent在準(zhǔn)確性、效率和個(gè)性化方面表現(xiàn)出色,強(qiáng)調(diào)了其推進(jìn)RAG領(lǐng)域和實(shí)際系統(tǒng)應(yīng)用的潛力。
單輪開(kāi)放領(lǐng)域問(wèn)答任務(wù)中回答準(zhǔn)確性的評(píng)估指標(biāo)
單輪多跳問(wèn)答任務(wù)中回答準(zhǔn)確性的評(píng)估指標(biāo)
兩個(gè)人工智能助手:沒(méi)有用戶畫(huà)像的ERAGent(助手A)和有用戶畫(huà)像的ERAGent(助手B)對(duì)一個(gè)用戶提出的問(wèn)題“給我一個(gè)增肌的飲食建議”的回答。用戶畫(huà)像是從歷史對(duì)話會(huì)話中總結(jié)出來(lái)的。GPT-4評(píng)價(jià):助手B的回答更貼近用戶的畫(huà)像,通過(guò)特別解決用戶的環(huán)保問(wèn)題、飲食限制(避免牛肉和牛奶),以及個(gè)人偏好(對(duì)機(jī)器學(xué)習(xí)和環(huán)保的興趣,以及是夜貓子)。
在多會(huì)話多輪問(wèn)答(MSMTQA:Multi-Session Multi-Round QA)數(shù)據(jù)集上,助手B和助手A的回答在所有類(lèi)別中的成對(duì)比較結(jié)果
響應(yīng)效率和質(zhì)量指標(biāo)與相似性閾值 τ 的關(guān)系
- 效率與質(zhì)量的平衡:ERAGent框架通過(guò)調(diào)整相似度閾值τ,展示了在回答效率和質(zhì)量之間取得平衡的能力。通過(guò)實(shí)驗(yàn),發(fā)現(xiàn)τ=0.6時(shí),響應(yīng)時(shí)間最短,同時(shí)保持了較高的回答質(zhì)量。
- 時(shí)間成本(Time Cost):當(dāng)τ設(shè)置為0.6時(shí),ERAGent框架的平均響應(yīng)時(shí)間最低,這意味著在此閾值下,AI能夠更快地生成回答。
- 外部知識(shí)(External Knowledge):在τ=0.6的設(shè)置下,ERAGent幾乎不依賴(lài)外部知識(shí),而是利用已有的經(jīng)驗(yàn)知識(shí)來(lái)生成回答,這有助于提高效率。
- 不相關(guān)信息(Irrelevant Knowledge):在相同的τ設(shè)置下,ERAGent還能夠有效地過(guò)濾掉不相關(guān)信息,確保了回答的相關(guān)性和質(zhì)量。
- 回答質(zhì)量:即使在完全依賴(lài)外部知識(shí)的τ=1.0設(shè)置下,ERAGent生成的回答也有80%達(dá)到了或超過(guò)了首次回答的質(zhì)量。而當(dāng)τ調(diào)整為0.8時(shí),回答質(zhì)量甚至超過(guò)了τ=1.0時(shí)的結(jié)果,這表明利用高相關(guān)性的歷史經(jīng)驗(yàn)可以生成更高質(zhì)量的回答。
https://arxiv.org/pdf/2405.06683
ERAGent: Enhancing Retrieval-Augmented Language Models with Improved Accuracy, Efficiency, a
本文轉(zhuǎn)載自 ??PaperAgent??,作者: PaperAgent
