自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="mg133"><button id="mg133"><em id="mg133"></em></button></ruby><cite id="mg133"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

我的眼睛就是尺！80億參數(shù)OtterHD帶你「清明上河圖」數(shù)駱駝！南洋理工華人團隊打造

作者：新智元 2023-11-27 13:59:00

人工智能新聞

基于Fuyu-8B的創(chuàng)新架構(gòu)，研究團隊提出的OtterHD-8B模型能有效處理各種分辨率的圖像，擺脫了大多數(shù)LMM中固定分辨率輸入的限制。

想知道《清明上河圖》里面有多少頭駱駝嗎？來看看這個支持超高清輸入的多模態(tài)模型吧。

最近，來自南洋理工的華人團隊基于Fuyu-8B打造出了80億參數(shù)的多模態(tài)大模型OtterHD。

論文地址：https://arxiv.org/abs/2311.04219

與受限于固定尺寸視覺編碼器的傳統(tǒng)模型不同，OtterHD-8B具有處理靈活輸入尺寸的能力，確保了其在各種推理需求下的通用性。

同時，團隊還提出了一個全新的基準測試MagnifierBench，可以細致地評測LLM辨別大尺寸圖像中物體的微小細節(jié)和空間關系的能力。

結(jié)果顯示，OtterHD-8B的表現(xiàn)，尤其是在直接處理高分辨率輸入時，遠遠優(yōu)于同類模型。

效果演示

如下圖中，詢問清明上河圖（局部）中有多少只駱駝，圖片輸入達到了2446x1766像素，模型也能成功對答。

面對曾讓GPT4-V發(fā)愁的數(shù)蘋果問題，模型也成功的數(shù)出了其中包含11個蘋果。

除了論文中展示的高清輸入的例子，我們也進行了一些測試，下圖我們讓模型假設用戶是一個劍橋大學的PhD，解釋這個圖是什么意思。

其中模型的回答中準確的識別出圖片中的Black Hole和White Hole等信息，并且識別出其是一個tunnel-like structure，然后給出了詳細的解釋。

下圖中，讓模型解釋圖中關于能源占比的情況，模型準確識別了圖中的幾類能源以及其占比隨時間變化的情況。

下圖關于換燈泡的流程圖，模型準確理解了流程圖的含義并且給出了一步一步的詳細指導。

80億參數(shù)指令微調(diào)OtterHD-8B

值得注意的是，基于Fuyu-8B的OtterHD-8B是第一個在最大1024×1024輸入上進行訓練的開源指令微調(diào)大語言模型。

此外，在推理過程中，它還能進一步擴展到更大的分辨率（如1440×1440）。

訓練細節(jié)

在初步實驗中團隊發(fā)現(xiàn)，F(xiàn)uyu在響應某些基準測試中的特定指令時表現(xiàn)不佳，這導致模型在MME和MMBench上的性能非常弱。

為了解決這些問題，團隊基于370K條混合數(shù)據(jù)對Fuyu模型進行指令微調(diào)，并參考 LLaVA-1.5使用了相似的指令模板來規(guī)范模型回答的格式。

在訓練階段，所有數(shù)據(jù)集都被組織成指令/應答對，匯總到統(tǒng)一的 dataloader中，并進行統(tǒng)一采樣，以確保代表性的完整性。

為了增強建模代碼，團隊使用了FlashAttention-2和FlashAttention資源庫中的算子融合技術。

得益于Fuyu簡化的架構(gòu)，如圖2所示，這些修改大大提高了GPU的利用率和吞吐量。

具體來說，團隊提出的方法可以在8×A100 GPU上以3小時/epoch的速度完成全參數(shù)訓練，而LoRA微調(diào)后每epoch只需1小時。

在使用AdamW優(yōu)化器訓練模型時，批大小為64，學習率設置為1×10^-5，權重衰減為0.1。

超精細評測基準MagnifierBench

人類視覺系統(tǒng)可以自然地感知視野內(nèi)物體的細節(jié)，但目前用于測試LMM的基準并沒有特別側(cè)重于評估這方面的能力。

隨著Fuyu和OtterHD模型的出現(xiàn)，我們第一次將輸入圖像的分辨率擴展到了更大的范圍。

為此，團隊基于Panoptic Scene Graph Generation（PVSG）數(shù)據(jù)集，制作了一個涵蓋166幅圖像共283組問題的全新測試基準MagnifierBench。

PVSG數(shù)據(jù)集由視頻數(shù)據(jù)組成，其中包含大量雜亂無章的復雜場景，尤其是第一人稱的家務視頻。

在標注階段，團隊仔細檢查了數(shù)據(jù)集中的每個問題-答案對，剔除了那些涉及大型物體，或者很容易用常識性知識回答的問題。例如，遙控器大多都是黑的，很容易猜到，而紅黃等顏色則不在此列。

如圖3所示，MagnifierBench設計的問題類型包括識別、數(shù)字、顏色相關問題等。該數(shù)據(jù)集的一個重要標準是，問題必須足夠復雜，就連標注者都必須在全屏模式下，甚至放大圖像才能準確回答。

與簡短的回答相比，LMM更擅長在對話環(huán)境中生成擴展的回答。

- 多選題

這里模型面對的是一個問題和多個答案選項。為了引導模型以單個字母（如 A、B、C）作答，團隊在指令「答案」前直接加上給定選項中的字母作為問題前的提示。在這種情況下，只有完全符合正確選項的答案才被視為準確答案。

- 開放題

多個選項會簡化任務，因為隨機猜測有25%的正確率。此外，這并不能反映聊天助手所面臨的真實場景，因為用戶通常不會向模型提供預定義的選項。為了消除這種潛在的偏差，團隊還以直截了當、不設任何提示選項的開放式方式向模型提出問題。

實驗分析

研究結(jié)果表明，雖然很多模型在MME和POPE等既定基準上取得了高分，但它們在MagnifierBench上的表現(xiàn)卻往往不盡如人意。另一方面，OtterHD-8B在MagnifierBench上表現(xiàn)出色。

為了進一步探索提高分辨率的效果以及OtterHD對不同、可能更大分辨率的泛化能力，團隊使用固定或動態(tài)分辨率對Otter8B進行了訓練。

x軸表明，隨著分辨率的提高，會有更多的圖像token被發(fā)送到語言解碼器，從而提供了更多的圖像細節(jié)。

結(jié)果表明，分辨率越高，MagnifierBench的性能越好。

由于平均文本token數(shù)保持不變，因此隨著分辨率的增加，圖像與文本token數(shù)的比例也逐漸增大。

這一變化突出了LMM分辨率的重要性，尤其是對于需要復雜視覺關聯(lián)的任務。

此外，固定訓練方法和動態(tài)訓練方法之間的性能差異凸顯了動態(tài)調(diào)整大小的優(yōu)勢，尤其是防止特定分辨率的過擬合。

而且，動態(tài)策略還可以讓模型泛化到訓練期間未見的更大分辨率（1440）。

一些對比

結(jié)論

基于Fuyu-8B的創(chuàng)新架構(gòu)，研究團隊提出的OtterHD-8B模型能有效處理各種分辨率的圖像，擺脫了大多數(shù)LMM中固定分辨率輸入的限制。

與此同時，OtterHD-8B在處理高分辨率圖像方面的表現(xiàn)格外出色。

這一點在新的MagnifierBench基準測試中尤為明顯，該基準的目的是評估LMM在復雜場景中辨別細節(jié)的能力，突出了對不同分辨率更加靈活的支持的重要性。

責任編輯：張燕妮來源：新智元

數(shù)據(jù)訓練

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<big id="su9ag"><rt id="su9ag"></rt></big>

<abbr id="su9ag"></abbr>