自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟發(fā)布Florence-2:用于處理各種視覺任務的小模型 原創(chuàng)

發(fā)布于 2024-6-21 14:31
瀏覽
0收藏

微軟發(fā)布Florence-2:用于處理各種視覺任務的小模型 -AI.x社區(qū)

近日,微軟的Azure AI團隊在Hugging Face上發(fā)布了一個名為Florence-2的新視覺基礎模型。

該模型以寬松的MIT許可證可用,可以處理各種視覺和視覺語言任務,使用統(tǒng)一的基于提示的表示形式。它有兩個尺寸——232M和771M個參數(shù),并且在字幕生成、目標檢測、視覺定位和分割等任務上已經(jīng)表現(xiàn)出色,與許多大型視覺模型相媲美甚至更好。

盡管該模型的實際性能尚待測試,但這項工作預計將為企業(yè)提供一種處理不同類型視覺應用的統(tǒng)一方法。這將節(jié)省投資于無法超越其主要功能的單獨任務特定視覺模型,并避免了大量的精細調(diào)整過程。

Florence-2的獨特之處在于什么?

目前,大語言模型(LLM)是企業(yè)運營的核心。一個模型可以提供摘要、撰寫營銷文案,甚至在許多情況下處理客戶服務。在不同領域和任務之間的適應能力令人驚嘆。但是,這一成功也讓研究人員思考:在很大程度上針對特定任務的視覺模型是否能夠做到同樣的事情?

微軟發(fā)布Florence-2:用于處理各種視覺任務的小模型 -AI.x社區(qū)

圖:Florence-2由圖像編碼器和標準的多模態(tài)編碼器-解碼器組成。研究人員在FLD-5B數(shù)據(jù)上以統(tǒng)一的多任務學習范式對Florence-2進行訓練,得到了一個通用的視覺基礎模型,可以執(zhí)行各種視覺任務。

從本質(zhì)上講,與基于文本的自然語言處理(NLP)相比,視覺任務更加復雜。它們需要全面的感知能力?;旧?,為了實現(xiàn)對多樣化視覺任務的通用表示,模型必須能夠理解不同尺度上的空間數(shù)據(jù),從廣泛的圖像級概念(如對象位置)到細粒度的像素細節(jié),以及高級標題到詳細描述等語義細節(jié)。

當微軟嘗試解決這個問題時,發(fā)現(xiàn)了兩個關鍵障礙:全面注釋的視覺數(shù)據(jù)集的稀缺性,以及缺乏一個統(tǒng)一的預訓練框架,具有集成理解空間層次結(jié)構(gòu)和語義細粒度能力的單一網(wǎng)絡架構(gòu)。

為了解決這個問題,研究人員首先使用專門的模型生成了一個名為FLD-5B的視覺數(shù)據(jù)集。該數(shù)據(jù)集包括了1.26億張圖像的54億個注釋,涵蓋了從高級描述到特定區(qū)域和對象的詳細信息。然后,使用這些數(shù)據(jù),訓練了Florence-2。它使用了序列到序列的架構(gòu)(一種設計用于處理順序數(shù)據(jù)的神經(jīng)網(wǎng)絡類型),集成了圖像編碼器和多模態(tài)編碼器-解碼器。這使得模型能夠處理各種視覺任務,而無需進行任務特定的架構(gòu)修改。

研究人員在詳細說明該模型的論文中寫道:“數(shù)據(jù)集FLD-5B中的所有注釋都統(tǒng)一標準化為文本輸出,便于使用統(tǒng)一的多任務學習方法,并與相同的損失函數(shù)進行一致的優(yōu)化,作為目標。結(jié)果是一個多功能的視覺基礎模型,能夠執(zhí)行各種任務...并且在一個由統(tǒng)一參數(shù)集管理的單一模型內(nèi)完成。任務的激活通過文本提示實現(xiàn),反映了大型語言模型使用的方法?!?/p>

性能優(yōu)于更大的模型

在以圖像和文本輸入為提示時,F(xiàn)lorence-2可以處理各種任務,包括目標檢測、字幕生成、視覺定位和視覺問答。更重要的是,它以與許多更大的模型相媲美甚至更好的質(zhì)量進行處理。

例如,在COCO數(shù)據(jù)集上進行零樣本字幕生成測試時,F(xiàn)lorence-2的232M和771M版本的得分分別為133和135.6,優(yōu)于Deepmind的擁有800億參數(shù)的Flamingo視覺語言模型。它們甚至比微軟自己專門用于視覺定位的Kosmos-2模型表現(xiàn)更好。

當使用公共人工注釋數(shù)據(jù)進行精調(diào)時,盡管尺寸較小,F(xiàn)lorence-2能夠在視覺問答等任務上與幾個更大的專用模型競爭。

研究人員指出:“預訓練的Florence-2骨干模型提高了下游任務的性能,如COCO目標檢測和實例分割,以及ADE20K語義分割,超過了監(jiān)督和自監(jiān)督模型。與在ImageNet上進行預訓練的模型相比,我們的模型訓練效率提高了4倍,并在COCO和ADE20K數(shù)據(jù)集上分別取得了6.9、5.5和5.9個點的顯著改進。”

目前,F(xiàn)lorence-2的預訓練和精調(diào)版本,包括232M和771M的模型,在Hugging Face上以寬松的MIT許可證下提供,允許無限制地進行商業(yè)使用或私人使用的分發(fā)和修改。

有趣的是看到開發(fā)人員如何使用它,并減少為不同任務使用單獨的視覺模型的需求。小而任務無關的模型不僅可以節(jié)省開發(fā)人員使用不同模型的需要,還可以大幅減少計算成本。

譯自(有刪改):https://venturebeat.com/ai/microsoft-drops-florence-2-a-unified-model-to-handle-a-variety-of-vision-tasks/


本文轉(zhuǎn)載自公眾號AIGC最前線   

原文鏈接:??https://mp.weixin.qq.com/s/b4pNiasFGyvqz813wYzCcw??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦