我的眼睛就是尺!80億參數(shù)OtterHD帶你「清明上河圖」數(shù)駱駝!南洋理工華人團隊打造
想知道《清明上河圖》里面有多少頭駱駝嗎?來看看這個支持超高清輸入的多模態(tài)模型吧。
最近,來自南洋理工的華人團隊基于Fuyu-8B打造出了80億參數(shù)的多模態(tài)大模型OtterHD。
論文地址:https://arxiv.org/abs/2311.04219
與受限于固定尺寸視覺編碼器的傳統(tǒng)模型不同,OtterHD-8B具有處理靈活輸入尺寸的能力,確保了其在各種推理需求下的通用性。
同時,團隊還提出了一個全新的基準測試MagnifierBench,可以細致地評測LLM辨別大尺寸圖像中物體的微小細節(jié)和空間關系的能力。
結(jié)果顯示,OtterHD-8B的表現(xiàn),尤其是在直接處理高分辨率輸入時,遠遠優(yōu)于同類模型。
效果演示
如下圖中,詢問清明上河圖(局部)中有多少只駱駝,圖片輸入達到了2446x1766像素,模型也能成功對答。
面對曾讓GPT4-V發(fā)愁的數(shù)蘋果問題,模型也成功的數(shù)出了其中包含11個蘋果。
除了論文中展示的高清輸入的例子,我們也進行了一些測試,下圖我們讓模型假設用戶是一個劍橋大學的PhD,解釋這個圖是什么意思。
其中模型的回答中準確的識別出圖片中的Black Hole和White Hole等信息,并且識別出其是一個tunnel-like structure,然后給出了詳細的解釋。
下圖中,讓模型解釋圖中關于能源占比的情況,模型準確識別了圖中的幾類能源以及其占比隨時間變化的情況。
下圖關于換燈泡的流程圖,模型準確理解了流程圖的含義并且給出了一步一步的詳細指導。
80億參數(shù)指令微調(diào)OtterHD-8B
值得注意的是,基于Fuyu-8B的OtterHD-8B是第一個在最大1024×1024輸入上進行訓練的開源指令微調(diào)大語言模型。
此外,在推理過程中,它還能進一步擴展到更大的分辨率(如1440×1440)。
訓練細節(jié)
在初步實驗中團隊發(fā)現(xiàn),F(xiàn)uyu在響應某些基準測試中的特定指令時表現(xiàn)不佳,這導致模型在MME和MMBench上的性能非常弱。
為了解決這些問題,團隊基于370K條混合數(shù)據(jù)對Fuyu模型進行指令微調(diào),并參考 LLaVA-1.5使用了相似的指令模板來規(guī)范模型回答的格式。
在訓練階段,所有數(shù)據(jù)集都被組織成指令/應答對,匯總到統(tǒng)一的 dataloader中,并進行統(tǒng)一采樣,以確保代表性的完整性。
為了增強建模代碼,團隊使用了FlashAttention-2和FlashAttention資源庫中的算子融合技術。
得益于Fuyu簡化的架構(gòu),如圖2所示,這些修改大大提高了GPU的利用率和吞吐量。
具體來說,團隊提出的方法可以在8×A100 GPU上以3小時/epoch的速度完成全參數(shù)訓練,而LoRA微調(diào)后每epoch只需1小時。
在使用AdamW優(yōu)化器訓練模型時,批大小為64,學習率設置為1×10^-5,權重衰減為0.1。
超精細評測基準MagnifierBench
人類視覺系統(tǒng)可以自然地感知視野內(nèi)物體的細節(jié),但目前用于測試LMM的基準并沒有特別側(cè)重于評估這方面的能力。
隨著Fuyu和OtterHD模型的出現(xiàn),我們第一次將輸入圖像的分辨率擴展到了更大的范圍。
為此,團隊基于Panoptic Scene Graph Generation(PVSG)數(shù)據(jù)集,制作了一個涵蓋166幅圖像共283組問題的全新測試基準MagnifierBench。
PVSG數(shù)據(jù)集由視頻數(shù)據(jù)組成,其中包含大量雜亂無章的復雜場景,尤其是第一人稱的家務視頻。
在標注階段,團隊仔細檢查了數(shù)據(jù)集中的每個問題-答案對,剔除了那些涉及大型物體,或者很容易用常識性知識回答的問題。例如,遙控器大多都是黑的,很容易猜到,而紅黃等顏色則不在此列。
如圖3所示,MagnifierBench設計的問題類型包括識別、數(shù)字、顏色相關問題等。該數(shù)據(jù)集的一個重要標準是,問題必須足夠復雜,就連標注者都必須在全屏模式下,甚至放大圖像才能準確回答。
與簡短的回答相比,LMM更擅長在對話環(huán)境中生成擴展的回答。
- 多選題
這里模型面對的是一個問題和多個答案選項。為了引導模型以單個字母(如 A、B、C)作答,團隊在指令「答案」前直接加上給定選項中的字母作為問題前的提示。在這種情況下,只有完全符合正確選項的答案才被視為準確答案。
- 開放題
多個選項會簡化任務,因為隨機猜測有25%的正確率。此外,這并不能反映聊天助手所面臨的真實場景,因為用戶通常不會向模型提供預定義的選項。為了消除這種潛在的偏差,團隊還以直截了當、不設任何提示選項的開放式方式向模型提出問題。
實驗分析
研究結(jié)果表明,雖然很多模型在MME和POPE等既定基準上取得了高分,但它們在MagnifierBench上的表現(xiàn)卻往往不盡如人意。另一方面,OtterHD-8B在MagnifierBench上表現(xiàn)出色。
為了進一步探索提高分辨率的效果以及OtterHD對不同、可能更大分辨率的泛化能力,團隊使用固定或動態(tài)分辨率對Otter8B進行了訓練。
x軸表明,隨著分辨率的提高,會有更多的圖像token被發(fā)送到語言解碼器,從而提供了更多的圖像細節(jié)。
結(jié)果表明,分辨率越高,MagnifierBench的性能越好。
由于平均文本token數(shù)保持不變,因此隨著分辨率的增加,圖像與文本token數(shù)的比例也逐漸增大。
這一變化突出了LMM分辨率的重要性,尤其是對于需要復雜視覺關聯(lián)的任務。
此外,固定訓練方法和動態(tài)訓練方法之間的性能差異凸顯了動態(tài)調(diào)整大小的優(yōu)勢,尤其是防止特定分辨率的過擬合。
而且,動態(tài)策略還可以讓模型泛化到訓練期間未見的更大分辨率(1440)。
一些對比
結(jié)論
基于Fuyu-8B的創(chuàng)新架構(gòu),研究團隊提出的OtterHD-8B模型能有效處理各種分辨率的圖像,擺脫了大多數(shù)LMM中固定分辨率輸入的限制。
與此同時,OtterHD-8B在處理高分辨率圖像方面的表現(xiàn)格外出色。
這一點在新的MagnifierBench基準測試中尤為明顯,該基準的目的是評估LMM在復雜場景中辨別細節(jié)的能力,突出了對不同分辨率更加靈活的支持的重要性。