自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

再看多模態(tài)RAG進行文檔問答的方案

發(fā)布于 2024-11-20 15:20
瀏覽
0收藏

先說結(jié)論:這篇文章的方法和前面介紹的兩個多模態(tài)RAG的工作非常相似,可以看看往期介紹:

M3DOCRAG同樣也指出,現(xiàn)有的方法要么專注于單頁文檔的多模態(tài)語言模型,要么依賴于基于文本的RAG方法,這些方法使用OCR等文本提取工具。然而,這些方法在實際應(yīng)用中存在困難,例如問題通常需要跨不同頁面或文檔的信息,而MLMs無法處理長文檔;并且,文檔中重要的視覺元素(如圖、表等)往往被文本提取工具忽略。

再看多模態(tài)RAG進行文檔問答的方案-AI.x社區(qū)

M3DoCRAG和以往方法對比

:文章代碼和數(shù)據(jù)集暫未開源,但都是使用ColPali和qwen2-vl實現(xiàn),筆者在前面文檔也恰好實踐了一個簡單的RAG-ColPali,供參考:

??【多模態(tài)&RAG】多模態(tài)RAG ColPali實踐??

方法

  • 文檔嵌入:和RAG-ColPali很相似,文檔嵌入使用ColPali將所有文檔頁面轉(zhuǎn)換為RGB圖像,并從頁面圖像中提取視覺嵌入。(ColPali是一種基于后期交互機制的多模態(tài)檢索模型,它將文本和圖像輸入編碼為統(tǒng)一的向量表示,并檢索最相關(guān)的圖像。其原理可以看看往期對ColPali的介紹《??ColPali??》)


再看多模態(tài)RAG進行文檔問答的方案-AI.x社區(qū)


M3DOCRAG流程

  • 頁面檢索:也和RAG-ColPali使用的方法相似,也是使用MaxSim分數(shù)計算查詢與頁面之間的相關(guān)性,并檢索與文本查詢top-K個頁面。
  • 答案生成:使用多模態(tài)語言模型(MLM)對檢索到的頁面圖像進行視覺問答,以獲得最終答案。該方法使用的是qwen2-vl-7b

數(shù)據(jù)集

M3DocVQA包含3,368個PDF文檔,總計41,005頁,涵蓋開放域和封閉域的DocVQA任務(wù)。

再看多模態(tài)RAG進行文檔問答的方案-AI.x社區(qū)

M3DocVQA與現(xiàn)有DocVQA數(shù)據(jù)集對比

再看多模態(tài)RAG進行文檔問答的方案-AI.x社區(qū)

M3DocVQA中PDF集合的示意圖

實驗結(jié)果

再看多模態(tài)RAG進行文檔問答的方案-AI.x社區(qū)

再看多模態(tài)RAG進行文檔問答的方案-AI.x社區(qū)

參考文獻

??https://arxiv.org/pdf/2411.04952v1??


本文轉(zhuǎn)載自公眾號大模型自然語言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/Fpbw_IuuTlW6g0HyAgdJJw??

已于2024-11-28 18:52:01修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦