揭秘AI幻覺(jué):GPT-4V存在視覺(jué)編碼漏洞,清華聯(lián)合NUS提出LLaVA-UHD
GPT-4V 的推出引爆了多模態(tài)大模型的研究。GPT-4V 在包括多模態(tài)問(wèn)答、推理、交互在內(nèi)的多個(gè)領(lǐng)域都展現(xiàn)了出色的能力,成為如今最領(lǐng)先的多模態(tài)大模型。
然而,近期很多工作發(fā)現(xiàn) GPT-4V 在很多基本能力上卻意外的出現(xiàn)短板。例如,在微軟一篇長(zhǎng)達(dá) 166 頁(yè)的技術(shù)報(bào)告《The Dawn of LMMs:Preliminary Explorations with GPT-4V (ision)》中,作者發(fā)現(xiàn),對(duì)于一個(gè)不太復(fù)雜的圖像中的蘋(píng)果數(shù)量,GPT-4V 竟然怎么數(shù)也數(shù)不對(duì)。
然而,學(xué)術(shù)界和工業(yè)界尚不清楚導(dǎo)致這些問(wèn)題的底層原因。
這個(gè)問(wèn)題在清華大學(xué)、新加坡國(guó)立大學(xué)和中國(guó)科學(xué)院大學(xué)的一篇題為《LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images》的論文中得到了解釋。
- 論文鏈接:https://arxiv.org/pdf/2403.11703.pdf
- 項(xiàng)目鏈接:github.com/thunlp/LLaVA-UHD
其原因在于 GPT-4V 很可能存在:視覺(jué)編碼漏洞。
該工作對(duì)當(dāng)前最強(qiáng)的商業(yè)大模型 GPT-4V 和最受歡迎的開(kāi)源模型 LLaVA-1.5 進(jìn)行了實(shí)驗(yàn),揭示了目前多模態(tài)大模型中的視覺(jué)編碼漏洞。
漏洞 1:GPT-4V 將圖像進(jìn)行有重疊的切片后再編碼
作者首先設(shè)計(jì)了一個(gè)實(shí)驗(yàn)來(lái)觀察:圖像中的位置如何影響 GPT-4V 的計(jì)數(shù)回答。
具體來(lái)說(shuō),作者合成了如圖 1 (a) 所示的圖像,并向 GPT-4V 提問(wèn)題:“圖像中有多少個(gè)圓圈?” 同時(shí),通過(guò)改變圓圈的位置而保持提問(wèn)不變,進(jìn)一步生成了一系列圖像變體。
圖 1 (b) 中以熱圖的形式顯示了 GPT-4V 對(duì)圖像中每個(gè)位置平均回答的數(shù)量,作者發(fā)現(xiàn)了一個(gè)與圖像中目標(biāo)位置高度相關(guān)的有趣模式如圖 1(b)所示,具體表現(xiàn)為被 256×256 的正方形網(wǎng)格分割的三種不同模式:
(1) 中央正方形區(qū)域展示了最高的響應(yīng)數(shù)量,
(2) 中間邊緣區(qū)域的響應(yīng)數(shù)量較低,
(3) 角落區(qū)域的響應(yīng)數(shù)量最接近于真實(shí)值。
在對(duì) GPT-4V 的響應(yīng)進(jìn)行數(shù)值區(qū)分后,作者發(fā)現(xiàn)除了正確答案和接近正確答案的情況,還有兩種異常答案(8 個(gè)圓和 16 個(gè)圓),這些異常答案呈現(xiàn)了答案數(shù)量翻倍或四倍的錯(cuò)誤模式。結(jié)合 OpenAI 公開(kāi)的信息,這一現(xiàn)象的最可能原因是,當(dāng)圖像分辨率無(wú)法被 512 整除時(shí),GPT-4V 處理圖像的切片之間會(huì)出現(xiàn)重疊。如圖 1 (e) 所示,兩個(gè)切片之間的重疊區(qū)域?qū)е聰?shù)量翻倍,而四個(gè)切片的交叉重疊區(qū)域會(huì)使得識(shí)別出的數(shù)量增加至四倍。
作者設(shè)計(jì)了另一個(gè)實(shí)驗(yàn)來(lái)觀察:圖像分辨率如何影響 GPT-4V 的計(jì)數(shù)回答。
具體來(lái)說(shuō),作者將圖 2 (a) 中的圖像按比例縮放至連續(xù)遞增的分辨率,并詢問(wèn) GPT-4V 其中圓圈的個(gè)數(shù)。
圖 2 (b) 中展示了 GPT-4V 的回答結(jié)果。隨著圖像分辨率的變化,GPT-4V 的回答顯示出顯著的相位變化:(1)在第 1 階段,由于沒(méi)有圖像切片,大多數(shù)答案是正確的;(2)在第 2 階段,答案 12 在響應(yīng)中占主導(dǎo)地位,可能是由于每個(gè)切片中的圓不完整;(3)第 3 階段顯示了 9、12 和 16 的混合答案。請(qǐng)注意,16 可以很好地解釋圖 1 (e) 中的錯(cuò)誤模式。
以上兩個(gè)實(shí)驗(yàn)結(jié)果揭示了 GPT-4V 在處理高分辨率圖像時(shí)存在重疊切片,導(dǎo)致錯(cuò)誤響應(yīng),啟發(fā)作者需要進(jìn)一步研究更合理的圖像預(yù)處理和編碼方式。
漏洞 2:LLaVA-1.5 進(jìn)行大范圍的圖像填充(Padding)
LLaVA-1.5 作為出色的開(kāi)源多模態(tài)大模型被學(xué)術(shù)界廣泛關(guān)注。
為了處理具有不同長(zhǎng)寬比的圖像,LLaVA-1.5 在將圖像輸入視覺(jué)編碼器之前將其填充為正方形。這種編碼方法導(dǎo)致非正方形圖像的計(jì)算浪費(fèi)。例如,將 1:4 圖像填充為正方形后,有效計(jì)算量?jī)H為 25%。
更重要的是,LLaVA-1.5 實(shí)際上無(wú)法確定填充像素是來(lái)自圖像預(yù)處理還是原始輸入圖像的實(shí)際部分。
為了演示這個(gè)問(wèn)題,作者合成了一系列輸入圖像,如圖 3(右)所示,其中不同長(zhǎng)寬比的綠色矩形被灰色(即填充對(duì)應(yīng)的 RGB 值)所包圍。給定輸入圖像,作者提示:“最左 / 最右 / 最上 / 最下區(qū)域的顏色是什么?” 從圖 3(左)的結(jié)果中,作者觀察到 LLaVA-1.5 忽略了灰色輸入?yún)^(qū)域(將其視為填充),并置信地回答了中心矩形的顏色。
綜合以上 2 個(gè)明顯的視覺(jué)編碼漏洞可以知道,多模態(tài)模型中的視覺(jué)策略必須謹(jǐn)慎設(shè)計(jì)。常見(jiàn)做法,如填充、形狀扭曲調(diào)整和重復(fù)切片,可能導(dǎo)致計(jì)算資源的浪費(fèi)、模型能力的喪失,甚至容易受到對(duì)抗性攻擊。
于是,作者提出 LLaVA-UHD,該模型可以對(duì) 180 萬(wàn)像素任意長(zhǎng)寬比圖像進(jìn)行編碼,相比于 LLaVA-1.5 在 9 個(gè)主流評(píng)測(cè)基準(zhǔn)實(shí)現(xiàn)提升,訓(xùn)練和推理計(jì)算開(kāi)銷(xiāo)相比于 LLaVA-1.5 均有顯著下降。
LaVA-UHD 包括三個(gè)關(guān)鍵部分:一種圖像模塊化策略,將原始分辨率的圖像分成更小的可變大小的切片,以便進(jìn)行高效和可擴(kuò)展的編碼;一個(gè)壓縮模塊,進(jìn)一步壓縮來(lái)自視覺(jué)編碼器的圖像 tokens,一個(gè)空間裝飾模式,用于為 LLMs 組織片段 tokens。
圖像模塊化策略中主要包含兩個(gè)部分:
1. 高分辨率圖像劃分策略(如圖 4 左側(cè))。目標(biāo)是確定高分辨率圖像的劃分方式,使每個(gè)切片的分辨率變化最小。給定圖像分辨率和和在固定分辨率上預(yù)訓(xùn)練的 ViT,首先確定處理圖像所需的切片數(shù)。然后將切片數(shù)因式分解為和幾種劃分方式。為了選擇最合適的劃分,作者定義一個(gè)評(píng)分函數(shù)來(lái)衡量與 ViT 標(biāo)準(zhǔn)預(yù)訓(xùn)練設(shè)置的偏差,進(jìn)而選擇最佳的劃分方法。
2. 任意寬高比切片編碼(如圖 4 右側(cè))。目的是等比例調(diào)整圖像以適應(yīng)預(yù)訓(xùn)練模型的位置嵌入數(shù)量。首先將 ViT 的 1D 位置嵌入轉(zhuǎn)換為 2D 格式,并進(jìn)行插值以匹配動(dòng)態(tài)切片分辨率,從而獲得自適應(yīng)圖像尺寸的視覺(jué)編碼。實(shí)驗(yàn)表明,此方法在保持 ViT 和位置嵌入?yún)?shù)不變的情況下,通過(guò)后期微調(diào)即可提升性能。此外,還編碼一張低分辨率概覽圖像,有助于提供全局語(yǔ)義信息,增強(qiáng)模型對(duì)圖像的整體理解。
LLaVA-UHD 利用壓縮模塊(Resampler)壓縮每張切片的 tokens,實(shí)現(xiàn)比 LLaVA-1.5 在 336×336 分辨率圖像中更低的計(jì)算成本來(lái)編碼 672×1008 分辨率的圖像。由于圖像切片在不同圖像之間是動(dòng)態(tài)的,因此有必要通過(guò)位置修飾符來(lái)告知 LLM 圖像切片的相對(duì)位置。
表 1 報(bào)告了主要的實(shí)驗(yàn)結(jié)果。在性能表現(xiàn)上,LLaVA-UHD 相對(duì)于 LLaVA-1.5 取得了顯著的改進(jìn)。通過(guò)簡(jiǎn)單地感知原生高分辨率圖像,LLaVA-UHD 在 TextVQA 上實(shí)現(xiàn)了 6.4 的準(zhǔn)確率提升,在 POPE 上實(shí)現(xiàn)了 3.2 的準(zhǔn)確率提升。原因在于低分辨率圖像中的模糊內(nèi)容可能會(huì)阻止 LMMs 準(zhǔn)確識(shí)別具有挑戰(zhàn)性的細(xì)粒度目標(biāo)和 OCR 字符。在計(jì)算效率和可拓展性上,LLaVA-UHD 僅使用 94% 的推理計(jì)算即支持任意寬高比的 672×1088 分辨率圖像,能夠適應(yīng)更大分辨率的拓展。
為了更直觀地展示 LMM 在處理高分辨率圖像方面的能力,在圖 5 中提供了 LLaVA-UHD 和 LLaVA-1.5 的定性結(jié)果??梢钥吹?,LLaVA-UHD 可以正確識(shí)別課表上的密集內(nèi)容,小海報(bào)上的文字以及手機(jī)上的圖標(biāo)和文字,實(shí)現(xiàn)了細(xì)粒度的識(shí)別和推理。
未來(lái)展望
LLaVA-UHD 將圖像分辨率限制在最大 672×1008。但是在未來(lái),考慮到其具有潛力的效率和可擴(kuò)展性,將探索更高分辨率的圖像以及更具挑戰(zhàn)性的任務(wù),如小目標(biāo)檢測(cè)和分割。此外,目前圖像片段是獨(dú)立編碼的,只在 LLMs 中進(jìn)行交互。計(jì)劃通過(guò)改進(jìn)的視覺(jué)編碼策略,在圖像片段之間建立高效的連接,實(shí)現(xiàn)細(xì)粒度全局信息交互。
本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心
