自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

告別OCR，開源VisRAG幫你實(shí)現(xiàn)圖片RAG

作者：哎呀AIYA 2024-10-25 11:56:33

TextRAG與VisRAG在最終生成準(zhǔn)確性上的對(duì)比。在TextRAG中，解析后的文本作為檢索和生成過程的基礎(chǔ)。相比之下，VisRAG直接利用原始文檔圖像，通過使用基于VLM的檢索器和生成器來實(shí)現(xiàn)。

當(dāng)前的RAG系統(tǒng)僅基于文本，這使得無(wú)法利用在現(xiàn)實(shí)世界多模態(tài)文檔中扮演關(guān)鍵角色的視覺信息，如布局和圖像。

TextRAG與VisRAG在最終生成準(zhǔn)確性上的對(duì)比。在TextRAG中，解析后的文本作為檢索和生成過程的基礎(chǔ)。相比之下，VisRAG直接利用原始文檔圖像，通過使用基于VLM的檢索器和生成器來實(shí)現(xiàn)。

VisRAG：一個(gè)基于VLM的RAG框架，它通過直接將文檔圖像嵌入到VLM中來檢索和生成信息，從而繞過了傳統(tǒng)的文本解析階段。VisRAG包括兩個(gè)主要組件：VisRAG-Ret（檢索器）和VisRAG-Gen（生成器）。

基于文本的RAG（左）與基于視覺的RAG（右）。傳統(tǒng)的基于文本的RAG（TextRAG）依賴于解析后的文本進(jìn)行檢索和生成，這會(huì)丟失多模態(tài)文檔中的視覺信息。我們的基于視覺的RAG（VisRAG）使用基于VLM的檢索器和生成器直接處理文檔頁(yè)面的圖像，從而保留原始頁(yè)面中的所有信息。

傳統(tǒng)RAG流程：典型的RAG流程，包括一個(gè)檢索器（基于大型語(yǔ)言模型，LLMs）和一個(gè)生成器。檢索器從知識(shí)庫(kù)中檢索相關(guān)信息，生成器結(jié)合檢索到的信息和用戶查詢生成答案。
VisRAG框架：它使用視覺-語(yǔ)言模型（VLM）代替?zhèn)鹘y(tǒng)的基于文本的模型。VisRAG框架包括兩個(gè)主要組件：

VisRAG-Ret（檢索器）：使用VLM直接對(duì)查詢和文檔圖像進(jìn)行編碼，而不是依賴提取的文本內(nèi)容。通過加權(quán)平均池化（weighted mean pooling）在輸入文本或視覺標(biāo)記的最終隱藏狀態(tài)上獲得嵌入向量，然后通過余弦相似度計(jì)算相似性得分進(jìn)行檢索。

VisRAG-Gen（生成器）：提出了處理多個(gè)檢索頁(yè)面的機(jī)制，包括頁(yè)面連接（將所有頁(yè)面連接成單個(gè)圖像）、加權(quán)選擇（根據(jù)置信度選擇最終答案）以及支持多圖像輸入的VLM。

實(shí)驗(yàn)表明，VisRAG在檢索和生成階段都優(yōu)于傳統(tǒng)RAG，比傳統(tǒng)的基于文本的RAG流程實(shí)現(xiàn)了25-39%的端到端性能提升。進(jìn)一步分析表明，VisRAG在利用訓(xùn)練數(shù)據(jù)方面是有效的，并展示了強(qiáng)大的泛化能力，使其成為多模態(tài)文檔RAG的一個(gè)有前景的解決方案。

圖片

圖片

來自DocVQA的案例研究。在這個(gè)案例中，VisRAG成功檢索到了真實(shí)文檔，而TextRAG失敗了，導(dǎo)致VisRAG能夠正確生成答案，而TextRAG生成了錯(cuò)誤的答案。

圖片

圖片

來自InfographicsVQA的案例研究。在這個(gè)案例中，VisRAG和TextRAG都成功檢索到了正確的文檔；然而，只有VisRAG有效地利用了布局信息，從而能夠準(zhǔn)確生成答案。相比之下，TextRAG因?yàn)椴季中畔⒌膩G失，導(dǎo)致了錯(cuò)誤的回答

圖片

如果對(duì)內(nèi)容有什么疑問和建議可以私信和留言，也可以添加我加入大模型交流群，一起討論大模型在創(chuàng)作、RAG和agent中的應(yīng)用。

責(zé)任編輯：武曉燕來源：哎呀AIYA

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="fx0o8"></sub>