自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Apple 發(fā)布 AIMv2:最先進的開放集視覺編碼器系列 原創(chuàng)

發(fā)布于 2024-12-9 10:43
瀏覽
0收藏

01、概述

在計算機視覺領域,我們見證了視覺模型的飛速發(fā)展。每一次技術的革新都在解決前一代模型的局限性。然而,如何在復雜性、泛化能力和可擴展性之間找到平衡點,一直是研究者們面臨的挑戰(zhàn)。當前的許多模型在處理多樣化的視覺任務或適應新數(shù)據(jù)集時仍顯吃力。傳統(tǒng)的大規(guī)模預訓練視覺編碼器雖然取得了成功,但在擴展性和參數(shù)效率方面存在挑戰(zhàn)。市場急需一種強大而多功能的模型,能夠在不犧牲性能的情況下處理多種模態(tài),如圖像和文本,同時不需要大量的數(shù)據(jù)篩選。

02、AIMv2:蘋果的新解決方案

蘋果公司通過發(fā)布AIMv2,迎接了這一挑戰(zhàn)。AIMv2是一系列開放式視覺編碼器,旨在提升現(xiàn)有模型在多模態(tài)理解和目標識別任務上的表現(xiàn)。受CLIP等模型的啟發(fā),AIMv2增加了自回歸解碼器,使其能夠生成圖像塊和文本標記。AIMv2家族包含19個不同參數(shù)大小的模型——從300M到2.7B,支持224、336和448像素的分辨率。這種模型大小和分辨率的范圍使得AIMv2適用于不同的應用場景,從小型應用到需要大型模型的任務。

03、技術概覽

AIMv2采用了多模態(tài)自回歸預訓練框架,這一框架在傳統(tǒng)對比學習方法的基礎上進行了構(gòu)建。AIMv2的關鍵特性是將視覺變換器(ViT)編碼器與因果多模態(tài)解碼器相結(jié)合。在預訓練期間,編碼器處理圖像塊,隨后與相應的文本嵌入配對。因果解碼器然后自回歸地生成圖像塊和文本標記,重建原始的多模態(tài)輸入。這種設置簡化了訓練過程,并促進了模型的擴展,而無需特殊的批次間通信或極大的批次大小。此外,多模態(tài)目標使AIMv2能夠?qū)崿F(xiàn)比其他方法更密集的監(jiān)督,增強了其從圖像和文本輸入中學習的能力。

04、性能與可擴展性

AIMv2在大多數(shù)多模態(tài)理解基準測試中超越了OAI CLIP和SigLIP等主要現(xiàn)有模型。具體來說,AIMv2-3B在凍結(jié)樹干的情況下,在ImageNet數(shù)據(jù)集上達到了89.5%的top-1準確率,顯示出凍結(jié)編碼器模型的顯著魯棒性。與DINOv2相比,AIMv2在開放詞匯目標檢測和指代表達理解方面也表現(xiàn)良好。此外,AIMv2的可擴展性顯而易見,其性能隨著數(shù)據(jù)和模型大小的增加而持續(xù)提高。模型的靈活性和與現(xiàn)代工具(如Hugging Face Transformers庫)的集成,使其在各種應用中的實施變得實用且直接。

Apple 發(fā)布 AIMv2:最先進的開放集視覺編碼器系列-AI.x社區(qū)

Apple 發(fā)布 AIMv2:最先進的開放集視覺編碼器系列-AI.x社區(qū)

05、結(jié)論

AIMv2代表了視覺編碼器發(fā)展的一個重要進步,強調(diào)了訓練的簡單性、有效的擴展性和多模態(tài)任務的多功能性。蘋果發(fā)布AIMv2在多個基準測試上提供了比以往模型更好的改進,包括開放詞匯識別和多模態(tài)任務。自回歸技術的使用使AIMv2能夠?qū)崿F(xiàn)密集監(jiān)督,從而獲得強大而靈活的模型能力。AIMv2在Hugging Face等平臺上的可用性,使得開發(fā)者和研究人員能夠更容易地嘗試先進的視覺模型。AIMv2為開放式視覺編碼器樹立了新的標準,能夠應對現(xiàn)實世界多模態(tài)理解日益增加的復雜性。

參考:

  1. ??https://arxiv.org/abs/2411.14402??
  2. ??https://huggingface.co/collections/apple/aimv2-6720fe1558d94c7805f7688c??


本文轉(zhuǎn)載自公眾號Halo咯咯 作者:基咯咯

原文鏈接:??https://mp.weixin.qq.com/s/V4A2kM4FLQq9Ka7U3lVlWw??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦