自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

太全了!蘋果上新視覺模型4M-21,搞定21種模態(tài)

人工智能 新聞
來自洛桑聯邦理工學院(EPFL)和蘋果的研究者聯合開發(fā)了一個任意到任意模態(tài)單一模型,該模型在數十種高度多樣化的模態(tài)上進行訓練,并對大規(guī)模多模態(tài)數據集和文本語料庫進行協同訓練。

當前的多模態(tài)和多任務基礎模型,如 4M 或 UnifiedIO,顯示出有希望的結果。然而,它們接受不同輸入和執(zhí)行不同任務的開箱即用能力,受到它們接受訓練的模態(tài)和任務的數量(通常很少)的限制。

基于此,來自洛桑聯邦理工學院(EPFL)和蘋果的研究者聯合開發(fā)了一個任意到任意模態(tài)單一模型,該模型在數十種高度多樣化的模態(tài)上進行訓練,并對大規(guī)模多模態(tài)數據集和文本語料庫進行協同訓練。

訓練過程中一個關鍵步驟是對各種模態(tài)執(zhí)行離散 tokenization,無論它們是類似圖像的神經網絡特征圖、向量、實例分割或人體姿態(tài)等結構化數據,還是可以表征為文本的數據。

圖片

  • 論文地址:https://arxiv.org/pdf/2406.09406
  • 論文主頁 https://4m.epfl.ch/
  • 論文標題:4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities

該研究展示了訓練單一模型,也能完成現有模型至少 3 倍多的任務 / 模態(tài),并且不會損失性能。此外,該研究還實現了更細粒度和更可控的多模態(tài)生成能力。

該研究建立在多模態(tài)掩碼預訓練方案的基礎上,并通過在數十種高度多樣化的模態(tài)上進行訓練來提高模型能力。通過使用特定于模態(tài)的離散分詞器對其進行編碼,該研究實現了在不同模態(tài)上訓練單個統一模型。

簡單來說,該研究在幾個關鍵維度上擴展了現有模型的功能:

  • 模態(tài):從現有最佳任意到任意模型的 7 種模態(tài)增加到 21 種不同模態(tài),從而實現跨模態(tài)檢索、可控生成和強大的開箱即用性能。這是第一次單個視覺模型可以以任意到任意的方式解決數十個不同的任務,而不會損害性能,并且沒有任何傳統的多任務學習。
  • 多樣性:添加對更多結構化數據的支持,例如人體姿態(tài)、SAM 實例、元數據等等。 
  • tokenization:使用特定于模態(tài)的方法研究不同模態(tài)的離散 tokenization,例如全局圖像嵌入、人體姿態(tài)和語義實例。
  • 擴展:將模型大小擴展至 3B 參數,將數據集擴展至 0.5B 樣本。 
  • 協同訓練:同時在視覺和語言上協同訓練。

方法介紹

該研究采用 4M 預訓練方案(該研究同樣來自 EPFL 和蘋果,在去年發(fā)布),其被證明是一種通用方法,可以有效擴展到多模態(tài)。

具體而言,本文保持架構和多模態(tài)掩碼訓練目標不變,通過擴大模型和數據集的規(guī)模、增加訓練模型所涉及的模態(tài)類型和數量,并且在多個數據集上進行聯合訓練,可以提升模型的性能和適應性。

模態(tài)分為以下幾大類別:RGB、幾何、語義、邊緣、特征圖、元數據和文本,如下圖所示。

圖片

Tokenization

Tokenization 主要包括將不同模態(tài)和任務轉換為序列或離散 token,從而統一它們的表示空間。研究者使用不同的 tokenization 方法來離散具有不同特征的模態(tài),如圖 3 所示??偠灾疚牟捎昧巳N tokenizer,包括 ViT tokenizer、MLP tokenizer 以及文本 tokenizer。

在架構選擇上,本文采用基于 Transformer 的 4M 編碼器 - 解碼器架構,并添加額外的模態(tài)嵌入以適應新模態(tài)。

實驗結果

接下來,論文展示了 4M-21 多模態(tài)能力。

多模態(tài)生成

基于迭代解碼 token ,4M-21 可以用來預測任意訓練模態(tài)。如圖 2 所示,本文可以從給定的輸入模態(tài)以一致的方式生成所有模態(tài)。

此外,由于該研究可以有條件和無條件地從其他模態(tài)的任何子集生成任何訓練模態(tài),因此它支持幾種方法來執(zhí)行細粒度和多模態(tài)生成,如圖 4 所示,例如執(zhí)行多模態(tài)編輯。此外,4M-21 表現出改進的文本理解能力,無論是在 T5-XXL 嵌入上還是在常規(guī)字幕上,都可以實現幾何和語義上合理的生成(圖 4,右上)。

圖片

多模態(tài)檢索

如圖 5 所示,4M-21 解鎖了原始 DINOv2 和 ImageBind 模型無法實現的檢索功能,例如通過使用其他模態(tài)作為查詢來檢索 RGB 圖像或其他模態(tài)。此外,4M-21 還可以組合多種模態(tài)來預測全局嵌入,從而更好地控制檢索,如右圖所示。

圖片

開箱即用

4M-21 能夠開箱即用地執(zhí)行一系列常見的視覺任務,如圖 6 所示。

圖片

表 1 評估了 DIODE 表面法線和深度估計、COCO 語義和實例分割、3DPW  3D 人體姿態(tài)估計等。

圖片

遷移實驗

此外,本文還訓練了三種不同尺寸的模型:B、L 和 XL。然后,將其編碼器遷移到下游任務,并在單模態(tài) (RGB) 和多模態(tài) (RGB + 深度) 設置上進行評估。所有遷移實驗均丟棄解碼器,而是訓練特定任務的頭部。結果如表 2 所示:

圖片

最后,本文在 NYUv2、Hypersim 語義分割和 ARKitScenes 上的 3D 對象檢測上執(zhí)行多模態(tài)傳輸。如表 3 所示,4M-21 充分利用了可選的深度輸入,并顯著改進了基線。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-04-08 00:12:19

2014-03-19 11:05:06

Fedora 21

2023-10-23 19:51:11

Java線程

2012-09-12 09:57:44

蘋果新iPhone

2025-04-08 08:01:31

2021-04-20 09:00:00

數據分析數據挖掘工具

2012-04-29 10:52:31

APP

2016-12-12 14:55:01

AndroidAndroid Vie

2013-07-05 13:23:43

蘋果

2023-10-26 01:33:17

2011-04-20 13:14:33

BlackBerry黑莓RIM

2025-02-27 09:51:04

2021-08-19 14:18:50

Windows 10 微軟預覽版

2024-11-13 09:39:13

2020-12-22 09:42:47

生物識別網絡安全

2011-11-23 16:12:00

華為E5 21M

2023-10-12 13:05:00

谷歌AI

2021-11-12 21:13:21

蘋果蘋果 M1Linux虛擬機

2012-05-01 13:23:26

蘋果

2022-03-04 19:07:03

模型視覺人工智能
點贊
收藏

51CTO技術棧公眾號