自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

我的眼睛就是尺!80億參數(shù)OtterHD帶你「清明上河圖」數(shù)駱駝!南洋理工華人團隊打造

人工智能 新聞
基于Fuyu-8B的創(chuàng)新架構(gòu),研究團隊提出的OtterHD-8B模型能有效處理各種分辨率的圖像,擺脫了大多數(shù)LMM中固定分辨率輸入的限制。

想知道《清明上河圖》里面有多少頭駱駝嗎?來看看這個支持超高清輸入的多模態(tài)模型吧。

最近,來自南洋理工的華人團隊基于Fuyu-8B打造出了80億參數(shù)的多模態(tài)大模型OtterHD。

圖片

論文地址:https://arxiv.org/abs/2311.04219

與受限于固定尺寸視覺編碼器的傳統(tǒng)模型不同,OtterHD-8B具有處理靈活輸入尺寸的能力,確保了其在各種推理需求下的通用性。

同時,團隊還提出了一個全新的基準測試MagnifierBench,可以細致地評測LLM辨別大尺寸圖像中物體的微小細節(jié)和空間關系的能力。

結(jié)果顯示,OtterHD-8B的表現(xiàn),尤其是在直接處理高分辨率輸入時,遠遠優(yōu)于同類模型。

圖片

效果演示

如下圖中,詢問清明上河圖(局部)中有多少只駱駝,圖片輸入達到了2446x1766像素,模型也能成功對答。

圖片

面對曾讓GPT4-V發(fā)愁的數(shù)蘋果問題,模型也成功的數(shù)出了其中包含11個蘋果。

圖片


除了論文中展示的高清輸入的例子,我們也進行了一些測試,下圖我們讓模型假設用戶是一個劍橋大學的PhD,解釋這個圖是什么意思。

其中模型的回答中準確的識別出圖片中的Black Hole和White Hole等信息,并且識別出其是一個tunnel-like structure,然后給出了詳細的解釋。

圖片

下圖中,讓模型解釋圖中關于能源占比的情況,模型準確識別了圖中的幾類能源以及其占比隨時間變化的情況。

圖片

下圖關于換燈泡的流程圖,模型準確理解了流程圖的含義并且給出了一步一步的詳細指導。

圖片

80億參數(shù)指令微調(diào)OtterHD-8B

值得注意的是,基于Fuyu-8B的OtterHD-8B是第一個在最大1024×1024輸入上進行訓練的開源指令微調(diào)大語言模型。

此外,在推理過程中,它還能進一步擴展到更大的分辨率(如1440×1440)。

訓練細節(jié)

在初步實驗中團隊發(fā)現(xiàn),F(xiàn)uyu在響應某些基準測試中的特定指令時表現(xiàn)不佳,這導致模型在MME和MMBench上的性能非常弱。

為了解決這些問題,團隊基于370K條混合數(shù)據(jù)對Fuyu模型進行指令微調(diào),并參考 LLaVA-1.5使用了相似的指令模板來規(guī)范模型回答的格式。

在訓練階段,所有數(shù)據(jù)集都被組織成指令/應答對,匯總到統(tǒng)一的 dataloader中,并進行統(tǒng)一采樣,以確保代表性的完整性。

為了增強建模代碼,團隊使用了FlashAttention-2和FlashAttention資源庫中的算子融合技術。

得益于Fuyu簡化的架構(gòu),如圖2所示,這些修改大大提高了GPU的利用率和吞吐量。

圖片

具體來說,團隊提出的方法可以在8×A100 GPU上以3小時/epoch的速度完成全參數(shù)訓練,而LoRA微調(diào)后每epoch只需1小時。

在使用AdamW優(yōu)化器訓練模型時,批大小為64,學習率設置為1×10^-5,權重衰減為0.1。

超精細評測基準MagnifierBench

人類視覺系統(tǒng)可以自然地感知視野內(nèi)物體的細節(jié),但目前用于測試LMM的基準并沒有特別側(cè)重于評估這方面的能力。

隨著Fuyu和OtterHD模型的出現(xiàn),我們第一次將輸入圖像的分辨率擴展到了更大的范圍。

為此,團隊基于Panoptic Scene Graph Generation(PVSG)數(shù)據(jù)集,制作了一個涵蓋166幅圖像共283組問題的全新測試基準MagnifierBench。

PVSG數(shù)據(jù)集由視頻數(shù)據(jù)組成,其中包含大量雜亂無章的復雜場景,尤其是第一人稱的家務視頻。

在標注階段,團隊仔細檢查了數(shù)據(jù)集中的每個問題-答案對,剔除了那些涉及大型物體,或者很容易用常識性知識回答的問題。例如,遙控器大多都是黑的,很容易猜到,而紅黃等顏色則不在此列。

如圖3所示,MagnifierBench設計的問題類型包括識別、數(shù)字、顏色相關問題等。該數(shù)據(jù)集的一個重要標準是,問題必須足夠復雜,就連標注者都必須在全屏模式下,甚至放大圖像才能準確回答。

圖片

與簡短的回答相比,LMM更擅長在對話環(huán)境中生成擴展的回答。

- 多選題

這里模型面對的是一個問題和多個答案選項。為了引導模型以單個字母(如 A、B、C)作答,團隊在指令「答案」前直接加上給定選項中的字母作為問題前的提示。在這種情況下,只有完全符合正確選項的答案才被視為準確答案。

- 開放題

多個選項會簡化任務,因為隨機猜測有25%的正確率。此外,這并不能反映聊天助手所面臨的真實場景,因為用戶通常不會向模型提供預定義的選項。為了消除這種潛在的偏差,團隊還以直截了當、不設任何提示選項的開放式方式向模型提出問題。

實驗分析

研究結(jié)果表明,雖然很多模型在MME和POPE等既定基準上取得了高分,但它們在MagnifierBench上的表現(xiàn)卻往往不盡如人意。另一方面,OtterHD-8B在MagnifierBench上表現(xiàn)出色。

為了進一步探索提高分辨率的效果以及OtterHD對不同、可能更大分辨率的泛化能力,團隊使用固定或動態(tài)分辨率對Otter8B進行了訓練。

x軸表明,隨著分辨率的提高,會有更多的圖像token被發(fā)送到語言解碼器,從而提供了更多的圖像細節(jié)。

圖片

結(jié)果表明,分辨率越高,MagnifierBench的性能越好。

由于平均文本token數(shù)保持不變,因此隨著分辨率的增加,圖像與文本token數(shù)的比例也逐漸增大。

這一變化突出了LMM分辨率的重要性,尤其是對于需要復雜視覺關聯(lián)的任務。

圖片

此外,固定訓練方法和動態(tài)訓練方法之間的性能差異凸顯了動態(tài)調(diào)整大小的優(yōu)勢,尤其是防止特定分辨率的過擬合。

而且,動態(tài)策略還可以讓模型泛化到訓練期間未見的更大分辨率(1440)。

一些對比

圖片

圖片

圖片

圖片

結(jié)論

基于Fuyu-8B的創(chuàng)新架構(gòu),研究團隊提出的OtterHD-8B模型能有效處理各種分辨率的圖像,擺脫了大多數(shù)LMM中固定分辨率輸入的限制。

與此同時,OtterHD-8B在處理高分辨率圖像方面的表現(xiàn)格外出色。

這一點在新的MagnifierBench基準測試中尤為明顯,該基準的目的是評估LMM在復雜場景中辨別細節(jié)的能力,突出了對不同分辨率更加靈活的支持的重要性。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-09-06 12:57:11

AI訓練

2018-09-20 15:21:41

螞蟻金服支付寶

2023-07-09 15:28:52

圖片AI

2023-04-27 09:27:44

視頻AI

2020-01-07 14:44:09

GitHub代碼開發(fā)者

2014-04-21 16:40:39

創(chuàng)業(yè)創(chuàng)業(yè)文化

2024-10-23 08:24:13

2012-07-12 15:08:59

WebGL

2016-08-08 10:06:50

天融信收購南洋股份

2024-06-24 13:35:58

2019-01-16 23:58:06

曠視科技機器人

2023-10-07 13:43:00

AI訓練

2021-09-14 17:16:21

Java 同步工具類

2023-03-10 13:56:42

ChatGPT

2014-01-02 14:04:42

2023-05-10 15:30:34

自動駕駛

2016-07-28 16:25:00

點贊
收藏

51CTO技術棧公眾號