自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="wpudj"></sub>

<em id="wpudj"><rt id="wpudj"></rt></em>

<style id="wpudj"><blockquote id="wpudj"><tbody id="wpudj"></tbody></blockquote></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

再看多模態(tài)RAG進行文檔問答的方案

大模型自然語言處理

發(fā)布于 2024-11-20 15:20

瀏覽

0收藏

先說結(jié)論：這篇文章的方法和前面介紹的兩個多模態(tài)RAG的工作非常相似，可以看看往期介紹：

M3DOCRAG同樣也指出，現(xiàn)有的方法要么專注于單頁文檔的多模態(tài)語言模型，要么依賴于基于文本的RAG方法，這些方法使用OCR等文本提取工具。然而，這些方法在實際應(yīng)用中存在困難，例如問題通常需要跨不同頁面或文檔的信息，而MLMs無法處理長文檔；并且，文檔中重要的視覺元素（如圖、表等）往往被文本提取工具忽略。

再看多模態(tài)RAG進行文檔問答的方案-AI.x社區(qū)

M3DoCRAG和以往方法對比

注：文章代碼和數(shù)據(jù)集暫未開源，但都是使用ColPali和qwen2-vl實現(xiàn)，筆者在前面文檔也恰好實踐了一個簡單的RAG-ColPali，供參考：

??【多模態(tài)&RAG】多模態(tài)RAG ColPali實踐??

方法

文檔嵌入：和RAG-ColPali很相似，文檔嵌入使用ColPali將所有文檔頁面轉(zhuǎn)換為RGB圖像，并從頁面圖像中提取視覺嵌入。（ColPali是一種基于后期交互機制的多模態(tài)檢索模型，它將文本和圖像輸入編碼為統(tǒng)一的向量表示，并檢索最相關(guān)的圖像。其原理可以看看往期對ColPali的介紹《??ColPali??》）

再看多模態(tài)RAG進行文檔問答的方案-AI.x社區(qū)

M3DOCRAG流程

頁面檢索：也和RAG-ColPali使用的方法相似，也是使用MaxSim分數(shù)計算查詢與頁面之間的相關(guān)性，并檢索與文本查詢top-K個頁面。
答案生成：使用多模態(tài)語言模型（MLM）對檢索到的頁面圖像進行視覺問答，以獲得最終答案。該方法使用的是qwen2-vl-7b

數(shù)據(jù)集

M3DocVQA包含3,368個PDF文檔，總計41,005頁，涵蓋開放域和封閉域的DocVQA任務(wù)。

再看多模態(tài)RAG進行文檔問答的方案-AI.x社區(qū)

M3DocVQA與現(xiàn)有DocVQA數(shù)據(jù)集對比

再看多模態(tài)RAG進行文檔問答的方案-AI.x社區(qū)

M3DocVQA中PDF集合的示意圖

實驗結(jié)果

再看多模態(tài)RAG進行文檔問答的方案-AI.x社區(qū)

再看多模態(tài)RAG進行文檔問答的方案-AI.x社區(qū)

參考文獻

??https://arxiv.org/pdf/2411.04952v1??

本文轉(zhuǎn)載自公眾號大模型自然語言處理作者：余俊暉

原文鏈接：??https://mp.weixin.qq.com/s/Fpbw_IuuTlW6g0HyAgdJJw??

標簽

多模態(tài)

已于2024-11-28 18:52:01修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

RAG技術(shù)性能提升之文檔分塊策略方案

AIGC觀察者 ? 4750瀏覽 ? 0回復(fù)
QOQA：利用TopK文檔進行查詢改寫，平均提升RAG 1.6% 準確率

大語言模型論文跟蹤 ? 2641瀏覽 ? 0回復(fù)
RAG 的未來 - 自動文檔檢索

探索AGI ? 2149瀏覽 ? 0回復(fù)
多模態(tài)RAG-ColPali：使用視覺語言模型實現(xiàn)高效的文檔檢索

大模型自然語言處理 ? 2369瀏覽 ? 0回復(fù)
多模態(tài)RAG-VisRAG：基于視覺的檢索增強生成在多模態(tài)文檔上的應(yīng)用

大模型自然語言處理 ? 2415瀏覽 ? 0回復(fù)
先進的多文檔問答（MDQA）框架HiQA：大幅降低區(qū)分度低的復(fù)雜多文檔RAG的幻覺問題

AI博物院 ? 2287瀏覽 ? 0回復(fù)
【多模態(tài)&RAG】多模態(tài)RAG ColPali實踐

大模型自然語言處理 ? 2000瀏覽 ? 0回復(fù)
HiQA：一種用于多文檔問答的層次化上下文增強RAG

大模型自然語言處理 ? 1882瀏覽 ? 0回復(fù)
M3DocRAG：文檔問答用哪個多模態(tài)大模型效果最好？

大語言模型論文跟蹤 ? 2463瀏覽 ? 0回復(fù)
文檔截圖嵌入統(tǒng)一多模態(tài)檢索方法原理

大模型自然語言處理 ? 1855瀏覽 ? 0回復(fù)
基于谷歌Gemini多模態(tài)模型實現(xiàn)PDF文檔自動化處理

51CTO內(nèi)容精選 ? 2280瀏覽 ? 0回復(fù)
RAG在智能問答系統(tǒng)中的應(yīng)用

數(shù)字化助推器 ? 1985瀏覽 ? 0回復(fù)
簡單有效的企業(yè)多模態(tài)RAG問答框架-MuRAR

大模型自然語言處理 ? 1751瀏覽 ? 0回復(fù)
allenai開源多模態(tài)的文檔智能解析大模型（OLMOCR）方法、效果淺析

大模型自然語言處理 ? 2434瀏覽 ? 0回復(fù)
RAG項目必備！文檔解析神器MinerU：2.5萬星標！支持GPU加速，輕松應(yīng)對復(fù)雜文檔

AI博物院 ? 4287瀏覽 ? 0回復(fù)
萬字解析非結(jié)構(gòu)化文檔中的隱藏價值：多模態(tài)檢索增強生成（RAG）的前景

柏企閱文 ? 916瀏覽 ? 0回復(fù)
Adobe首發(fā)多Agent、跨模態(tài)框架MDocAgent：復(fù)雜文檔理解性能爆炸12%，錯誤率直降21%

CourseAI ? 740瀏覽 ? 0回復(fù)
Hybrid-RRF：動態(tài)權(quán)重混合檢索RAG方案

大語言模型論文跟蹤 ? 1841瀏覽 ? 0回復(fù)
大模型數(shù)據(jù)預(yù)處理——關(guān)于復(fù)雜文檔在大模型應(yīng)用中的解決方案

AI探索時代 ? 512瀏覽 ? 0回復(fù)

大模型自然語言處理

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析 2025-04-16 07:08:19發(fā)布
十大PDF解析工具在不同文檔類別中的比較研究 2025-04-07 06:31:37發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：【多模態(tài)&RAG】多模態(tài)RAG ColPali實踐

下一篇：輕量級級表格識別算法模型-SLANet

社區(qū)精華內(nèi)容

目錄

<i id="ta598"><samp id="ta598"></samp></i><ol id="ta598"></ol>

<em id="ta598"><rt id="ta598"></rt></em>