自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="34iji"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

簡單有效的企業(yè)多模態(tài)RAG問答框架-MuRAR 原創(chuàng)

大模型自然語言處理

發(fā)布于 2025-2-11 11:07

瀏覽

0收藏

企業(yè)知識庫中的模態(tài)數(shù)據(jù)不止文本一個模態(tài)，傳統(tǒng)的RAG無法解決多模態(tài)場景下的問答，問題提出：如何檢索到與用戶問題相關(guān)且有用的多模態(tài)數(shù)據(jù)？以及如何將這些數(shù)據(jù)整合成一個連貫的多模態(tài)答案？來看一個簡單有效的多模態(tài)RAG框架-MuRAR。

MuRAR框架

在MuRAR框架的設(shè)計中，目標是生成一個高質(zhì)量的多模態(tài)答案（multimodal answer），該答案通過整合與用戶問題相關(guān)的多模態(tài)數(shù)據(jù)來提供連貫且信息豐富的內(nèi)容。

簡單有效的企業(yè)多模態(tài)RAG問答框架-MuRAR-AI.x社區(qū)

簡單有效的企業(yè)多模態(tài)RAG問答框架-MuRAR-AI.x社區(qū)

用戶界面設(shè)計：用戶輸入問題；顯示檢索到的相關(guān)文本片段；顯示每個文本片段及其可能的來源；顯示檢索到的多模態(tài)數(shù)據(jù)（如圖像和視頻）；最終的多模態(tài)答案，包含文本和多模態(tài)元素的整合。

1、設(shè)計目標

形式化：給定用戶問題和一組多模態(tài)數(shù)據(jù)，其中：

表示文本文檔片段的集合。
表示圖像的集合。
表示表格的集合。
表示視頻的集合。

目標是生成一個多模態(tài)答案，其中是一個函數(shù)，用于將檢索到的多模態(tài)數(shù)據(jù)組織成一個連貫且有用的答案。

2、文本答案生成

文本答案生成組件采用檢索增強生成（RAG）的方法。具體步驟如下：

文本片段檢索：首先，根據(jù)用戶查詢檢索相關(guān)的文本文檔片段。這一步使用了一個預(yù)訓(xùn)練的文本嵌入模型，該模型在內(nèi)部標注的數(shù)據(jù)集上進行了微調(diào)，以識別哪些文本片段與用戶查詢相關(guān)。
創(chuàng)建向量索引：使用FAISS庫對文本文檔片段進行向量化，創(chuàng)建向量索引。這些向量索引用于計算用戶查詢與每個文本文檔片段之間的余弦相似度。
選擇相關(guān)片段：對于每個用戶查詢，選擇與查詢最相關(guān)的五個文本片段。
生成初始文本答案：使用一個大型語言模型（LLM）結(jié)合用戶查詢和檢索到的五個文本片段來生成初始文本答案。

簡單有效的企業(yè)多模態(tài)RAG問答框架-MuRAR-AI.x社區(qū)

生成初始文本答案提示詞

3、基于源的多模態(tài)檢索

基于源的多模態(tài)檢索組件分為兩個步驟：源歸屬和節(jié)級多模態(tài)數(shù)據(jù)檢索。

源歸屬：將初始文本答案分割成多個句子，每個句子代表一個連續(xù)的文本答案片段。計算每個文本答案片段與其在中的每個文本文檔片段的余弦相似度。將文本文檔片段識別為的來源，如果相似度得分低于0.6，則不分配來源。
節(jié)級多模態(tài)數(shù)據(jù)檢索：對于每個文本答案片段及其對應(yīng)的來源，定位包含的原始網(wǎng)頁文檔。確定所在的節(jié)段，并收集該節(jié)段內(nèi)的所有多模態(tài)數(shù)據(jù)（如圖像、表格和視頻）。使用上下文文本特征和LLM生成的特征來表示多模態(tài)數(shù)據(jù)。例如，使用GPT-4生成的圖像標題和HTML中的"alt"屬性來表示圖像。

檢索時，使用相同的微調(diào)嵌入模型計算多模態(tài)數(shù)據(jù)的文本嵌入?；谖谋敬鸢钙闻c多模態(tài)數(shù)據(jù)的文本嵌入之間的余弦相似度來檢索多模態(tài)數(shù)據(jù)。只選擇得分最高的多模態(tài)數(shù)據(jù)。為了避免重復(fù)，只保留從檢索結(jié)果中得分最高的多模態(tài)數(shù)據(jù)。

4、多模態(tài)答案優(yōu)化

在檢索到多模態(tài)數(shù)據(jù)后，使用LLM提示來優(yōu)化初始文本答案，生成最終的多模態(tài)答案。提示包括：

用戶問題。
初始文本答案。
檢索到的多模態(tài)數(shù)據(jù)及其上下文文本特征。

簡單有效的企業(yè)多模態(tài)RAG問答框架-MuRAR-AI.x社區(qū)

多模態(tài)答案細化的提示詞

為了指導(dǎo)LLM生成多模態(tài)答案，提示中插入了占位符，用于替換為檢索到的多模態(tài)數(shù)據(jù)的描述。占位符包括多模態(tài)數(shù)據(jù)的URL和上下文文本特征，以確保LLM在生成答案時能夠整合相關(guān)信息。

參考文獻

MuRAR: A Simple and Effective Multimodal Retrieval and Answer Refinement Framework for Multimodal Question Answering，https://arxiv.org/pdf/2408.08521v2

本文轉(zhuǎn)載自公眾號大模型自然語言處理作者：余俊暉

原文鏈接：??https://mp.weixin.qq.com/s/eq9lSMoOUjvDXY7D1RTMzw??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標簽

多模態(tài)

自然語言處理

已于2025-2-11 15:54:52修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

簡單卻有效的Agent推理框架：通過預(yù)測未來大幅提升智能體的規(guī)劃能力

zhangyannni ? 3891瀏覽 ? 0回復(fù)
「有效上下文」提升20倍！DeepMind發(fā)布ReadAgent框架

duhorse ? 2789瀏覽 ? 0回復(fù)
RAG 企業(yè)級應(yīng)用落地框架細節(jié)差異對比

玄姐聊AGI ? 5151瀏覽 ? 0回復(fù)
Agentic RAG Golden-Retriever：顯著提升企業(yè)知識庫問答準確性、檢索效率！

PaperAgent ? 2679瀏覽 ? 0回復(fù)
多模態(tài)RAG應(yīng)用開發(fā)實戰(zhàn)演練

51CTO內(nèi)容精選 ? 1860瀏覽 ? 0回復(fù)
傳統(tǒng)RAG涼涼？多模態(tài)RAG帶來工業(yè)級革命

NLP前沿1 ? 2196瀏覽 ? 0回復(fù)
一文讀懂：從RAG到多模態(tài)RAG

kede96 ? 3714瀏覽 ? 0回復(fù)
多模態(tài)RAG-ColPali：使用視覺語言模型實現(xiàn)高效的文檔檢索

大模型自然語言處理 ? 2369瀏覽 ? 0回復(fù)
多模態(tài)RAG-VisRAG：基于視覺的檢索增強生成在多模態(tài)文檔上的應(yīng)用

大模型自然語言處理 ? 2415瀏覽 ? 0回復(fù)
先進的多文檔問答（MDQA）框架HiQA：大幅降低區(qū)分度低的復(fù)雜多文檔RAG的幻覺問題

AI博物院 ? 2287瀏覽 ? 0回復(fù)
【多模態(tài)&RAG】多模態(tài)RAG ColPali實踐

大模型自然語言處理 ? 2000瀏覽 ? 0回復(fù)
再看多模態(tài)RAG進行文檔問答的方案

大模型自然語言處理 ? 2068瀏覽 ? 0回復(fù)
基于Agent的金融問答系統(tǒng)：Agent框架的構(gòu)建

一起AI技術(shù) ? 1912瀏覽 ? 0回復(fù)
HiQA：一種用于多文檔問答的層次化上下文增強RAG

大模型自然語言處理 ? 1880瀏覽 ? 0回復(fù)
M3DocRAG：文檔問答用哪個多模態(tài)大模型效果最好？

大語言模型論文跟蹤 ? 2463瀏覽 ? 0回復(fù)
RAG在智能問答系統(tǒng)中的應(yīng)用

數(shù)字化助推器 ? 1985瀏覽 ? 0回復(fù)
MACT：如何用多Agent框架思路實現(xiàn)表格問答

大語言模型論文跟蹤 ? 1628瀏覽 ? 0回復(fù)
“RAG界的DeepSeek”開源-企業(yè)復(fù)雜私域知識理解與推理框架PIKE-RAG

大模型自然語言處理 ? 2245瀏覽 ? 0回復(fù)
Agno框架介紹：用于構(gòu)建多模態(tài)智能體的輕量庫

51CTO內(nèi)容精選 ? 652瀏覽 ? 0回復(fù)

大模型自然語言處理

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析 2025-04-16 07:08:19發(fā)布
十大PDF解析工具在不同文檔類別中的比較研究 2025-04-07 06:31:37發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： DeepSeek中的多頭潛在注意力（MLA）淺嘗

下一篇： HtmlRAG：RAG系統(tǒng)中，HTML比純文本效果更好

社區(qū)精華內(nèi)容

目錄

^{<sub id="bgyep"></sub>}