自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

4K分辨率視覺預(yù)訓(xùn)練首次實現(xiàn)!伯克利&英偉達(dá)多模態(tài)新SOTA,更準(zhǔn)且3倍加速處理

人工智能 新聞
近日,伯克利聯(lián)合英偉達(dá)提出一項突破性成果:PS3 視覺編碼器,首次實現(xiàn)了在?4K超高分辨率下的高效視覺預(yù)訓(xùn)練并且沒有額外開銷,并在此基礎(chǔ)上提出多模態(tài)大模型?VILA-HD。

當(dāng)前,所有主流的視覺基礎(chǔ)模型(如 SigLIP、DINOv2 等)都仍然在低分辨率(如 384 * 384 分辨率)下進行預(yù)訓(xùn)練。對比人類視覺系統(tǒng)可以輕松達(dá)到 10K 等效分辨率,這種低分辨率預(yù)訓(xùn)練極大地限制了視覺模型對于高清細(xì)節(jié)的理解能力。

然而,當(dāng)前視覺模型預(yù)訓(xùn)練很難提升到更高的分辨率,核心原因在于計算代價過于高昂。比如 SigLIP,在預(yù)訓(xùn)練過程中需要編碼整張圖像,計算復(fù)雜度至少與圖像分辨率二次增長,導(dǎo)致訓(xùn)練成本暴漲,幾乎無法承受。

近日,伯克利聯(lián)合英偉達(dá)提出一項突破性成果:PS3 視覺編碼器,首次實現(xiàn)了在 4K超高分辨率下的高效視覺預(yù)訓(xùn)練并且沒有額外開銷,并在此基礎(chǔ)上提出多模態(tài)大模型 VILA-HD。相比于目前最先進的多模態(tài)大模型(如 Qwen2-VL),VILA-HD 提升了高清場景下的表現(xiàn)和效率。

更關(guān)鍵的是,研究團隊還發(fā)布了一個強挑戰(zhàn)性的高分辨率視覺基準(zhǔn)測試集:4KPro。在這個數(shù)據(jù)集上,VILA-HD 相比于 Qwen2-VL 提升了 3.2% 的準(zhǔn)確率并且實現(xiàn)了三倍的加速。

研究團隊也開放了全部內(nèi)容,該研究已被 CVPR 2025評為 Highlight 論文。

圖片

論文標(biāo)題:Scaling Vision Pre-Training to 4K Resolution

論文地址:https://arxiv.org/abs/2503.19903

項目主頁:https://nvlabs.github.io/PS3/

代碼庫(即將開源):https://github.com/NVLabs/PS3

模型權(quán)重:即將發(fā)布

一、PS3

4K 超高清視覺預(yù)訓(xùn)練

高清預(yù)訓(xùn)練所遇到的困難

當(dāng)前主流視覺模型之所以不能在 4K 下預(yù)訓(xùn)練,是因為在高分辨率下需要整圖編碼,計算復(fù)雜度至少與圖像分辨率二次增長。這使得目前模型很難在 1K 或以上的分辨率進行預(yù)訓(xùn)練。

但伯克利 & 英偉達(dá)團隊發(fā)現(xiàn),識別局部細(xì)節(jié)無需整圖理解。于是他們提出局部對比學(xué)習(xí)的訓(xùn)練范式,使得 PS3 能夠在沒有額外開銷的情況下將預(yù)訓(xùn)練分辨率提高到 4K。

局部對比學(xué)習(xí):「免費」的高清預(yù)訓(xùn)練

傳統(tǒng)方法,例如 SigLIP,會對全局視覺表征和全局文字描述表征做對比學(xué)習(xí)。與之相比,PS3 采用局部對比學(xué)習(xí)策略:僅對圖像中的局部區(qū)域與局部區(qū)域的細(xì)節(jié)描述進行編碼和對比。這種方式不僅保留了高分辨率的細(xì)節(jié)理解能力,由于模型不需要處理整張高清圖像而只需要處理局部區(qū)域,也極大降低了計算成本。

實驗顯示,該方法訓(xùn)練時間可以比直接在 4K 分辨率上預(yù)訓(xùn)練節(jié)省 79 倍,與低分辨率預(yù)訓(xùn)練 SigLIP 相近,卻能處理高達(dá) 4K 分辨率圖像,實現(xiàn)前所未有的精細(xì)表示能力。

圖片

PS3 關(guān)鍵設(shè)計:選擇性處理高清圖片

PS3 并非盲目處理所有像素,而是動態(tài)選擇性地采樣圖像區(qū)域:既可以使用圖像顯著性,也可以用任何自然語言來控制處理的區(qū)域。

此外,PS3 設(shè)計支持靈活的計算資源控制 —— 用戶可以根據(jù)場景需要,調(diào)整高分辨率 patch 的數(shù)量,平衡速度與性能。

圖片

二、VILA-HD

基于 PS3 的高分辨率 MLLM

圖片

基于 PS3,團隊構(gòu)建了多模態(tài)大模型 VILA-HD,其核心優(yōu)勢在于:

  • 細(xì)節(jié)感知能力超過現(xiàn)有 MLLMs(如 Qwen2-VL)。這得益于 PS3 的高清視覺預(yù)訓(xùn)練提升了細(xì)節(jié)理解能力。
  • 響應(yīng)速度也比現(xiàn)有 MLLM 更快:VILA-HD 可根據(jù)提示只處理圖像中相關(guān)區(qū)域,而不是一口吃下整張圖。這使得 VILA-HD 比當(dāng)前基于 AnyRes/S2 等處理整張高清圖的 MLLM 速度更快。
  • 根據(jù)用戶需求靈活調(diào)整響應(yīng)速度:VILA-HD 可以靈活調(diào)整處理的高清區(qū)域大小,從而可以適應(yīng)不同的推理開銷要求。

更有趣的是,團隊發(fā)現(xiàn)在 VILA-HD 上,PS3 展現(xiàn)了不同的有趣的擴展能力。在提升下游任務(wù)分辨率時,PS3 的性能比沒有高清預(yù)訓(xùn)練的模型性能提升的要更快。PS3 還可以在提升分辨率的同時選擇固定大小的高清區(qū)域,從而在訓(xùn)練與推理開銷保持不變的情況下提升性能。除此之外,PS3 還可以通過擴展訓(xùn)練或測試時的計算量來進一步提高性能。

圖片

三、僅有高分辨率還不夠

我們還需要高分辨率的 Benchmark

研究者們發(fā)現(xiàn),當(dāng)前絕大多數(shù)視覺問答評測集,即使圖像是 4K 分辨率,實際任務(wù)卻不需要這么高的分辨率來解題。他們引入了一個新概念:MRR(Minimum Recognizable Resolution):完成某個任務(wù)所需的最小有效圖像分辨率。

分析顯示,大量數(shù)據(jù)集的 MRR 實際低于 1K,因此難以衡量高分辨率模型的真實優(yōu)勢。

圖片

為此,研究團隊推出了 4KPro —— 這是一個真正需要 4K 級圖像感知能力才能完成的高分辨率基準(zhǔn)測試。4KPro 在自動駕駛,家務(wù)家居,游戲 agent,UI 理解四個專業(yè)領(lǐng)域收集了 4K 分辨率的圖片以及需要 4K 分辨率才能回答的問題。

在 4KPro 上,VILA-HD 顯著優(yōu)于現(xiàn)有 SOTA 多模態(tài)模型,比如相對 Qwen2-VL 提升了 3.2% 的準(zhǔn)確率,同時在處理速度上可以實現(xiàn)最高 3 倍加速。

圖片

PS3 + VILA-HD 打破了長久以來視覺預(yù)訓(xùn)練只能處理小圖像的桎梏,為真實世界應(yīng)用(如自動駕駛、自動代理、家用機器人、工業(yè)檢測、醫(yī)學(xué)圖像等)打開了新的可能。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-01-07 09:40:00

2013-03-11 13:48:24

投影

2013-05-28 09:32:38

Windows 8.1分辨率

2023-08-14 08:04:13

2023-08-15 14:18:19

智能研究

2023-06-21 13:20:14

系統(tǒng)模型

2018-10-18 14:28:33

2025-04-18 08:47:22

2024-10-17 13:50:00

英偉達(dá)AI

2022-03-28 13:25:42

AI扶貧機器之心

2018-10-09 14:00:41

SQL深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2025-01-22 15:21:00

2025-04-27 08:30:00

2024-12-05 13:50:00

AI大模型

2023-04-10 07:32:59

FSRDLSSAMD

2022-02-15 15:48:03

GitHub工具圖像

2017-11-15 10:12:55

PC4KWindows

2024-11-26 13:40:00

2012-04-03 12:50:33

iPad

2023-08-05 13:45:46

模型AI
點贊
收藏

51CTO技術(shù)棧公眾號