自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

告別OCR,開源VisRAG幫你實(shí)現(xiàn)圖片RAG

人工智能
TextRAG與VisRAG在最終生成準(zhǔn)確性上的對(duì)比。在TextRAG中,解析后的文本作為檢索和生成過程的基礎(chǔ)。相比之下,VisRAG直接利用原始文檔圖像,通過使用基于VLM的檢索器和生成器來實(shí)現(xiàn)。

當(dāng)前的RAG系統(tǒng)僅基于文本,這使得無(wú)法利用在現(xiàn)實(shí)世界多模態(tài)文檔中扮演關(guān)鍵角色的視覺信息,如布局和圖像。

TextRAG與VisRAG在最終生成準(zhǔn)確性上的對(duì)比。在TextRAG中,解析后的文本作為檢索和生成過程的基礎(chǔ)。相比之下,VisRAG直接利用原始文檔圖像,通過使用基于VLM的檢索器和生成器來實(shí)現(xiàn)。

圖片

VisRAG:一個(gè)基于VLM的RAG框架,它通過直接將文檔圖像嵌入到VLM中來檢索和生成信息,從而繞過了傳統(tǒng)的文本解析階段。VisRAG包括兩個(gè)主要組件:VisRAG-Ret(檢索器)和VisRAG-Gen(生成器)。

基于文本的RAG(左)與基于視覺的RAG(右)。傳統(tǒng)的基于文本的RAG(TextRAG)依賴于解析后的文本進(jìn)行檢索和生成,這會(huì)丟失多模態(tài)文檔中的視覺信息。我們的基于視覺的RAG(VisRAG)使用基于VLM的檢索器和生成器直接處理文檔頁(yè)面的圖像,從而保留原始頁(yè)面中的所有信息。

圖片

  1. 傳統(tǒng)RAG流程:典型的RAG流程,包括一個(gè)檢索器(基于大型語(yǔ)言模型,LLMs)和一個(gè)生成器。檢索器從知識(shí)庫(kù)中檢索相關(guān)信息,生成器結(jié)合檢索到的信息和用戶查詢生成答案。
  2. VisRAG框架:它使用視覺-語(yǔ)言模型(VLM)代替?zhèn)鹘y(tǒng)的基于文本的模型。VisRAG框架包括兩個(gè)主要組件:

VisRAG-Ret(檢索器):使用VLM直接對(duì)查詢和文檔圖像進(jìn)行編碼,而不是依賴提取的文本內(nèi)容。通過加權(quán)平均池化(weighted mean pooling)在輸入文本或視覺標(biāo)記的最終隱藏狀態(tài)上獲得嵌入向量,然后通過余弦相似度計(jì)算相似性得分進(jìn)行檢索。

VisRAG-Gen(生成器):提出了處理多個(gè)檢索頁(yè)面的機(jī)制,包括頁(yè)面連接(將所有頁(yè)面連接成單個(gè)圖像)、加權(quán)選擇(根據(jù)置信度選擇最終答案)以及支持多圖像輸入的VLM。

實(shí)驗(yàn)表明,VisRAG在檢索和生成階段都優(yōu)于傳統(tǒng)RAG,比傳統(tǒng)的基于文本的RAG流程實(shí)現(xiàn)了25-39%的端到端性能提升。進(jìn)一步分析表明,VisRAG在利用訓(xùn)練數(shù)據(jù)方面是有效的,并展示了強(qiáng)大的泛化能力,使其成為多模態(tài)文檔RAG的一個(gè)有前景的解決方案。

圖片圖片

圖片圖片

來自DocVQA的案例研究。在這個(gè)案例中,VisRAG成功檢索到了真實(shí)文檔,而TextRAG失敗了,導(dǎo)致VisRAG能夠正確生成答案,而TextRAG生成了錯(cuò)誤的答案。

圖片圖片

圖片圖片

來自InfographicsVQA的案例研究。在這個(gè)案例中,VisRAG和TextRAG都成功檢索到了正確的文檔;然而,只有VisRAG有效地利用了布局信息,從而能夠準(zhǔn)確生成答案。相比之下,TextRAG因?yàn)椴季中畔⒌膩G失,導(dǎo)致了錯(cuò)誤的回答

圖片圖片

如果對(duì)內(nèi)容有什么疑問和建議可以私信和留言,也可以添加我加入大模型交流群,一起討論大模型在創(chuàng)作、RAG和agent中的應(yīng)用。

責(zé)任編輯:武曉燕 來源: 哎呀AIYA
相關(guān)推薦

2021-06-02 10:21:45

深度學(xué)習(xí)編程人工智能

2021-01-24 11:59:48

開源技術(shù) 工具

2020-11-23 16:18:21

Python開發(fā)工具

2023-11-01 07:24:55

2025-02-06 11:20:00

開發(fā)工具AI

2023-08-21 12:13:53

2010-05-14 17:29:09

火狐瀏覽器開源

2023-10-11 12:25:35

2024-11-11 14:23:11

2018-12-17 09:57:11

服務(wù)器LinuxBoot開源

2023-08-08 13:25:10

軟件開發(fā)開源

2025-02-17 03:00:00

RAG開源DeepSeek

2025-02-06 13:50:06

2024-01-08 13:50:00

數(shù)據(jù)訓(xùn)練

2024-08-29 08:23:22

EasyOCRSpring文字識(shí)別

2024-12-06 09:58:09

2023-10-10 08:22:12

Tesseract庫(kù)開源

2023-05-17 15:22:45

識(shí)別開源工具

2023-03-16 17:19:50

開源OCR識(shí)別項(xiàng)目
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)