自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

傳統(tǒng)RAG涼涼?多模態(tài)RAG帶來工業(yè)級革命

發(fā)布于 2024-10-30 15:23
瀏覽
0收藏

論文筆記分享,標(biāo)題Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications

多模態(tài)VL模型很早的就進(jìn)入了這個圈子,早的有LLava,近一點(diǎn)的gpt4o。這個內(nèi)容的主要想論證一個事情,在工業(yè)界,同時(shí)包含文本和圖像的RAG系統(tǒng),相比于單文本的 RAG 系統(tǒng)會提高整體性能?

當(dāng)然這個問題的結(jié)論是,會提高,所以還額外做了一些,優(yōu)化多模態(tài)流程探索的工作。

首先,多模態(tài)的結(jié)合,2種模式,一種是圖片保持不變,建立起圖片向量庫;另一種是圖片會提取出摘要描述用于召回。 分別對應(yīng)了下圖

傳統(tǒng)RAG涼涼?多模態(tài)RAG帶來工業(yè)級革命-AI.x社區(qū)

比較特別的是,這個論文用到的數(shù)據(jù)是私有的,測試數(shù)據(jù)是自己標(biāo)的。 語料庫有8540 個片段,8377 張圖片。 測試數(shù)據(jù)由專業(yè)人士標(biāo)注100個問答對。

考慮到,這里多模態(tài),現(xiàn)有的評測框架不夠用了,所以他們開發(fā)并開源了一個評測框架,具體的維度還是老幾樣,正確性,相關(guān)性,事實(shí)性等等。地址在:https://github.com/riedlerm/multimodal_rag_for_industry

評測結(jié)論如下圖,就看下圖左一,關(guān)注框框的對比把

  • 僅僅使用圖片的RAG,不管是不是摘要,效果基本都不如baseline  no rag
  • 使用text only的RAG系統(tǒng)已經(jīng)是個非常強(qiáng)的baseline了

多模態(tài)的RAG有潛力,但是很難打敗基于純文本的,但是如果圖片檢索厲害的話,還是能起飛的(黃框)

傳統(tǒng)RAG涼涼?多模態(tài)RAG帶來工業(yè)級革命-AI.x社區(qū)

最后,在多模態(tài)RAG中,基于圖片摘要向量的比圖像直接做向量的,大部分指標(biāo)都表現(xiàn)的好,受限于多模態(tài)向量的潛能,文本向量模型目前表現(xiàn)更好,也限制了這方面的發(fā)揮??偟膩碚f,未來可期。

傳統(tǒng)RAG涼涼?多模態(tài)RAG帶來工業(yè)級革命-AI.x社區(qū)

本文轉(zhuǎn)載自 ??NLP前沿??,作者: 熱愛AI的

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦