告別OCR,開源VisRAG幫你實(shí)現(xiàn)圖片RAG
當(dāng)前的RAG系統(tǒng)僅基于文本,這使得無(wú)法利用在現(xiàn)實(shí)世界多模態(tài)文檔中扮演關(guān)鍵角色的視覺信息,如布局和圖像。
TextRAG與VisRAG在最終生成準(zhǔn)確性上的對(duì)比。在TextRAG中,解析后的文本作為檢索和生成過程的基礎(chǔ)。相比之下,VisRAG直接利用原始文檔圖像,通過使用基于VLM的檢索器和生成器來實(shí)現(xiàn)。
VisRAG:一個(gè)基于VLM的RAG框架,它通過直接將文檔圖像嵌入到VLM中來檢索和生成信息,從而繞過了傳統(tǒng)的文本解析階段。VisRAG包括兩個(gè)主要組件:VisRAG-Ret(檢索器)和VisRAG-Gen(生成器)。
基于文本的RAG(左)與基于視覺的RAG(右)。傳統(tǒng)的基于文本的RAG(TextRAG)依賴于解析后的文本進(jìn)行檢索和生成,這會(huì)丟失多模態(tài)文檔中的視覺信息。我們的基于視覺的RAG(VisRAG)使用基于VLM的檢索器和生成器直接處理文檔頁(yè)面的圖像,從而保留原始頁(yè)面中的所有信息。
- 傳統(tǒng)RAG流程:典型的RAG流程,包括一個(gè)檢索器(基于大型語(yǔ)言模型,LLMs)和一個(gè)生成器。檢索器從知識(shí)庫(kù)中檢索相關(guān)信息,生成器結(jié)合檢索到的信息和用戶查詢生成答案。
- VisRAG框架:它使用視覺-語(yǔ)言模型(VLM)代替?zhèn)鹘y(tǒng)的基于文本的模型。VisRAG框架包括兩個(gè)主要組件:
VisRAG-Ret(檢索器):使用VLM直接對(duì)查詢和文檔圖像進(jìn)行編碼,而不是依賴提取的文本內(nèi)容。通過加權(quán)平均池化(weighted mean pooling)在輸入文本或視覺標(biāo)記的最終隱藏狀態(tài)上獲得嵌入向量,然后通過余弦相似度計(jì)算相似性得分進(jìn)行檢索。
VisRAG-Gen(生成器):提出了處理多個(gè)檢索頁(yè)面的機(jī)制,包括頁(yè)面連接(將所有頁(yè)面連接成單個(gè)圖像)、加權(quán)選擇(根據(jù)置信度選擇最終答案)以及支持多圖像輸入的VLM。
實(shí)驗(yàn)表明,VisRAG在檢索和生成階段都優(yōu)于傳統(tǒng)RAG,比傳統(tǒng)的基于文本的RAG流程實(shí)現(xiàn)了25-39%的端到端性能提升。進(jìn)一步分析表明,VisRAG在利用訓(xùn)練數(shù)據(jù)方面是有效的,并展示了強(qiáng)大的泛化能力,使其成為多模態(tài)文檔RAG的一個(gè)有前景的解決方案。
圖片
圖片
來自DocVQA的案例研究。在這個(gè)案例中,VisRAG成功檢索到了真實(shí)文檔,而TextRAG失敗了,導(dǎo)致VisRAG能夠正確生成答案,而TextRAG生成了錯(cuò)誤的答案。
圖片
圖片
來自InfographicsVQA的案例研究。在這個(gè)案例中,VisRAG和TextRAG都成功檢索到了正確的文檔;然而,只有VisRAG有效地利用了布局信息,從而能夠準(zhǔn)確生成答案。相比之下,TextRAG因?yàn)椴季中畔⒌膩G失,導(dǎo)致了錯(cuò)誤的回答
圖片
如果對(duì)內(nèi)容有什么疑問和建議可以私信和留言,也可以添加我加入大模型交流群,一起討論大模型在創(chuàng)作、RAG和agent中的應(yīng)用。