簡單有效的企業(yè)多模態(tài)RAG問答框架-MuRAR 原創(chuàng)
企業(yè)知識庫中的模態(tài)數(shù)據(jù)不止文本一個模態(tài),傳統(tǒng)的RAG無法解決多模態(tài)場景下的問答,問題提出:如何檢索到與用戶問題相關(guān)且有用的多模態(tài)數(shù)據(jù)?以及如何將這些數(shù)據(jù)整合成一個連貫的多模態(tài)答案?來看一個簡單有效的多模態(tài)RAG框架-MuRAR。
MuRAR框架
在MuRAR框架的設(shè)計中,目標是生成一個高質(zhì)量的多模態(tài)答案(multimodal answer),該答案通過整合與用戶問題相關(guān)的多模態(tài)數(shù)據(jù)來提供連貫且信息豐富的內(nèi)容。
用戶界面設(shè)計:用戶輸入問題;顯示檢索到的相關(guān)文本片段;顯示每個文本片段及其可能的來源;顯示檢索到的多模態(tài)數(shù)據(jù)(如圖像和視頻);最終的多模態(tài)答案,包含文本和多模態(tài)元素的整合。
1、 設(shè)計目標
形式化:給定用戶問題和一組多模態(tài)數(shù)據(jù),其中:
- 表示文本文檔片段的集合。
- 表示圖像的集合。
- 表示表格的集合。
- 表示視頻的集合。
目標是生成一個多模態(tài)答案,其中是一個函數(shù),用于將檢索到的多模態(tài)數(shù)據(jù)組織成一個連貫且有用的答案。
2、 文本答案生成
文本答案生成組件采用檢索增強生成(RAG)的方法。具體步驟如下:
- 文本片段檢索:首先,根據(jù)用戶查詢檢索相關(guān)的文本文檔片段。這一步使用了一個預(yù)訓(xùn)練的文本嵌入模型,該模型在內(nèi)部標注的數(shù)據(jù)集上進行了微調(diào),以識別哪些文本片段與用戶查詢相關(guān)。
- 創(chuàng)建向量索引:使用FAISS庫對文本文檔片段進行向量化,創(chuàng)建向量索引。這些向量索引用于計算用戶查詢與每個文本文檔片段之間的余弦相似度。
- 選擇相關(guān)片段:對于每個用戶查詢,選擇與查詢最相關(guān)的五個文本片段。
- 生成初始文本答案:使用一個大型語言模型(LLM)結(jié)合用戶查詢和檢索到的五個文本片段來生成初始文本答案。
生成初始文本答案提示詞
3、 基于源的多模態(tài)檢索
基于源的多模態(tài)檢索組件分為兩個步驟:源歸屬和節(jié)級多模態(tài)數(shù)據(jù)檢索。
- 源歸屬: 將初始文本答案分割成多個句子,每個句子代表一個連續(xù)的文本答案片段。計算每個文本答案片段與其在中的每個文本文檔片段的余弦相似度。將文本文檔片段識別為的來源,如果相似度得分低于0.6,則不分配來源。
- 節(jié)級多模態(tài)數(shù)據(jù)檢索:對于每個文本答案片段及其對應(yīng)的來源,定位包含的原始網(wǎng)頁文檔。確定所在的節(jié)段,并收集該節(jié)段內(nèi)的所有多模態(tài)數(shù)據(jù)(如圖像、表格和視頻)。使用上下文文本特征和LLM生成的特征來表示多模態(tài)數(shù)據(jù)。例如,使用GPT-4生成的圖像標題和HTML中的"alt"屬性來表示圖像。
檢索時,使用相同的微調(diào)嵌入模型計算多模態(tài)數(shù)據(jù)的文本嵌入?;谖谋敬鸢钙闻c多模態(tài)數(shù)據(jù)的文本嵌入之間的余弦相似度來檢索多模態(tài)數(shù)據(jù)。只選擇得分最高的多模態(tài)數(shù)據(jù)。為了避免重復(fù),只保留從檢索結(jié)果中得分最高的多模態(tài)數(shù)據(jù)。
4、 多模態(tài)答案優(yōu)化
在檢索到多模態(tài)數(shù)據(jù)后,使用LLM提示來優(yōu)化初始文本答案,生成最終的多模態(tài)答案。提示包括:
- 用戶問題。
- 初始文本答案。
- 檢索到的多模態(tài)數(shù)據(jù)及其上下文文本特征。
多模態(tài)答案細化的提示詞
為了指導(dǎo)LLM生成多模態(tài)答案,提示中插入了占位符,用于替換為檢索到的多模態(tài)數(shù)據(jù)的描述。占位符包括多模態(tài)數(shù)據(jù)的URL和上下文文本特征,以確保LLM在生成答案時能夠整合相關(guān)信息。
參考文獻
MuRAR: A Simple and Effective Multimodal Retrieval and Answer Refinement Framework for Multimodal Question Answering,https://arxiv.org/pdf/2408.08521v2
本文轉(zhuǎn)載自公眾號大模型自然語言處理 作者:余俊暉
原文鏈接:??https://mp.weixin.qq.com/s/eq9lSMoOUjvDXY7D1RTMzw??
