自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多模態(tài)大模型幻覺降低30%!中科大等提出首個幻覺修正架構(gòu)「Woodpecker」啄木鳥

人工智能 新聞
最近,來自中科大等機(jī)構(gòu)的研究人員提出了首個多模態(tài)修正架構(gòu)「啄木鳥」,可有效解決MLLM輸出幻覺的問題。

視覺幻覺是常見于多模態(tài)大語言模型(Multimodal Large Language Models, MLLMs)的一個典型問題。

簡單來說就是:模型輸出的描述與圖片內(nèi)容不相符。

下圖中體現(xiàn)了兩種幻覺,紅色部分錯誤地描述了狗的顏色(屬性幻覺),藍(lán)色部分描述了圖中實際不存在的事物(目標(biāo)幻覺)。

幻覺對模型的可靠性產(chǎn)生了顯著的負(fù)面影響,因此引起了許多研究者的重視。

以往的方法主要集中在MLLM本身,通過在訓(xùn)練數(shù)據(jù)以及架構(gòu)上進(jìn)行改進(jìn),以重新微調(diào)的方式訓(xùn)練一個新的MLLM。

然而,這種方式會造成較大的數(shù)據(jù)構(gòu)建和訓(xùn)練開銷,且較難推廣到各種已有的MLLMs。

近日,來自中科大等機(jī)構(gòu)的研究者們提出了一種免訓(xùn)練的即插即用的通用架構(gòu)「啄木鳥(Woodpecker)」,通過修正的方式解決MLLM輸出幻覺的問題。

論文地址: https://arxiv.org/pdf/2310.16045.pdf

項目地址: https://github.com/BradyFU/Woodpecker

效果展示

具體來說,Woodpecker可以修正各種場景下模型輸出的幻覺,并輸出檢測框作為引證,表明相應(yīng)的目標(biāo)確實存在。

例如,面對描述任務(wù),Woodpecker可以修正其中帶有幻覺的部分:

圖片

對于MLLM難以檢測到的小對象,Woodpecker也可以精準(zhǔn)修正:

面對MLLM難以解決的復(fù)雜的計數(shù)場景,Woodpecker同樣可以進(jìn)行解決:

對于目標(biāo)屬性類的幻覺問題,Woopecker處理地也很好:

此外,Woodpecker還提供了Demo供讀者測試使用。

如下圖所示,上傳圖片并輸入請求,就可以得到修正前以及修正后的模型答復(fù),以及供參考驗證的新圖片。

方法

Woodpecker的架構(gòu)如下,它包括五個主要步驟: 關(guān)鍵概念提取、問題構(gòu)造、視覺知識檢驗、視覺斷言生成以及幻覺修正。

- 關(guān)鍵概念提取

關(guān)鍵概念指的是MLLM的輸出中最可能存在幻覺的存在性目標(biāo),例如上圖描述中的「自行車;垃圾桶;人」。

我們可以Prompt大語言模型來提取出這些關(guān)鍵概念,這些關(guān)鍵概念是后續(xù)步驟進(jìn)行的基礎(chǔ)。

- 問題構(gòu)造

圍繞著前一步提取出的關(guān)鍵概念,Prompt大語言模型來提出一些有助于檢驗圖片描述真?zhèn)蔚膯栴},如「圖中有幾輛自行車?」、「垃圾桶邊上的是什么?」等等。

- 視覺知識檢驗

使用視覺基礎(chǔ)模型對提出的問題進(jìn)行檢驗,獲得與圖片以及描述文本相關(guān)的信息。

例如,我們可以利用GroundingDINO來進(jìn)行目標(biāo)檢測,確定關(guān)鍵目標(biāo)是否存在以及關(guān)鍵目標(biāo)的數(shù)量。因為像GroundingDINO這類視覺基礎(chǔ)模型對圖片的感知能力比MLLM本身的感知能力更強(qiáng)。

對于目標(biāo)顏色等這類屬性問題,則可以利用BLIP-2來進(jìn)行回答。BLIP-2這類傳統(tǒng)VQA模型輸出答案的長度有限,幻覺問題也更少。

- 視覺斷言生成

基于前兩步中獲得的問題以及對應(yīng)的視覺信息,合成結(jié)構(gòu)化的「視覺斷言」。這些視覺斷言可以看做與原有MLLM的回答以及輸入圖片相關(guān)的視覺知識庫。

- 幻覺修正

基于前面得到的,使用大語言模型對MLLM的文本輸出進(jìn)行逐一修正,并提供目標(biāo)對應(yīng)的檢測框信息作為視覺檢驗的參照。

實驗結(jié)果

實驗選取了幾個典型的MLLM作為基線,包括: LLaVA,mPLUG-Owl,Otter,MiniGPT-4。

論文中首先測試了Woodpecker在面對目標(biāo)幻覺時的修正能力,在POPE驗證集的實驗結(jié)果如下表所示:

結(jié)果表明在不同的MLLM上應(yīng)用Woodpecker修正后,均有不同程度的提升。

在隨機(jī)設(shè)定下,Woodpecker給MiniGPT-4和mPLUG-Owl在準(zhǔn)確率指標(biāo)上分別帶來了30.66%和24.33%的提升。

此外,研究者還應(yīng)用更全面的驗證集MME,進(jìn)一步測試Woodpecker在面對屬性幻覺時的修正能力,結(jié)果如下表所示:

從表中可見Woodpecker不僅在應(yīng)對目標(biāo)幻覺時有效,在修正顏色等屬性幻覺時也具有出色的表現(xiàn)。LLaVA的顏色得分從78.33分大幅提升到155分!

經(jīng)過Woodpecker修正后,四個基線模型在四個測試子集上的總分均超過500分,在總體感知能力上獲得了顯著提升。

為了更直接地衡量修正表現(xiàn),更直接的方式是使用開放評測。

不同于以往將圖片轉(zhuǎn)譯后送入純文本GPT-4的做法,文章利用OpenAI最近開放的視覺接口,提出使用GPT-4(Vision)對修正前后的圖片描述直接對下列兩個維度進(jìn)行打分:

- 準(zhǔn)確度:模型的答復(fù)相對于圖片內(nèi)容是否準(zhǔn)確

- 詳細(xì)程度:模型答復(fù)的細(xì)節(jié)豐富度

在該實驗條件下,實驗結(jié)果如下表所示:

結(jié)果表明經(jīng)過Woodpecker修正后圖片描述的準(zhǔn)確性有一定的提升,這說明該框架可以有效修正描述中幻視的部分。

另一方面,Woodpecker修正后引入的定位信息豐富了文本描述,提供了進(jìn)一步的位置信息,從而提升了細(xì)節(jié)豐富度。

GPT-4V輔助的評測樣例如下圖所示:

感興趣的讀者,可以讀論文進(jìn)一步了解更多內(nèi)容。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-10-29 13:30:16

多模態(tài)LLM架構(gòu)

2023-12-04 13:23:00

數(shù)據(jù)訓(xùn)練

2024-11-04 13:30:00

模型AI

2023-11-06 12:47:00

數(shù)據(jù)訓(xùn)練

2025-04-15 09:22:00

AI訓(xùn)練模型

2021-12-06 09:53:09

自然語言神經(jīng)網(wǎng)絡(luò)人工智能

2023-09-25 10:04:37

模型AI

2024-06-17 07:10:00

2024-04-07 09:00:00

數(shù)據(jù)模型

2022-06-13 11:57:04

谷歌模型計算

2024-07-29 08:47:00

2023-03-17 07:59:57

AI數(shù)字化

2024-01-02 13:19:00

AI模型

2024-09-12 12:46:36

2024-06-17 14:07:41

2023-11-07 18:08:03

GPT-4模型

2023-09-06 09:50:29

人工智能模型

2024-01-04 16:41:29

大型語言模型自然語言處理

2023-11-18 09:30:42

模型AI

2022-07-17 13:07:26

模型開源
點贊
收藏

51CTO技術(shù)棧公眾號