自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

在視覺提示中加入「標記」,微軟等讓GPT-4V看的更準、分的更細

人工智能 新聞
全新視覺提示方法 SoM(Set-of-Mark),讓 OpenAI 多模態(tài)大模型 GPT-4V 在視覺內(nèi)容理解方面有了質(zhì)的提升。

最近一段時間,我們見證了大型語言模型(LLM)的顯著進步。特別是,生成式預(yù)訓(xùn)練 Transformer 或 GPT 的發(fā)布引領(lǐng)了業(yè)界和學(xué)術(shù)界的多項突破。自 GPT-4 發(fā)布以來,大型多模態(tài)模型 (LMM) 引起了研究界越來越多的興趣,許多工作致力于構(gòu)建多模態(tài) GPT-4。 

近日,GPT-4V (ision) 由于出色的多模態(tài)感知和推理能力得到了大家格外的關(guān)注。然而,盡管 GPT-4V 具有前所未有的視覺語言理解能力,但其細粒度 visual grounding(輸入是圖片和對應(yīng)的物體描述,輸出是描述物體的 box)能力相對較弱,或者尚未發(fā)揮出來。

舉例來說,當(dāng)用戶詢問下圖中「放置在右邊筆記本電腦的左邊是什么物體?」GPT-4V 給出了馬克杯這個錯誤的答案。當(dāng)用戶接著詢問,「想找一個靠窗的座位,我可以坐在哪里?」GPT-4V 同樣回答不正確。

圖片

在意識到上述問題后,來自微軟、香港科技大學(xué)等機構(gòu)的研究者提出了一種新的視覺 prompt 方法 Set-of-Mark(SoM),來解決 GPT-4V 在細粒度視覺任務(wù)上的問題。

圖片


  • 論文地址:https://arxiv.org/pdf/2310.11441.pdf
  • 論文主頁:https://som-gpt4v.github.io/

如圖 1(右)所示,SoM 采用交互式分割模型(例如 SAM)將圖像劃分為不同粒度級別的區(qū)域,并在這些區(qū)域上添加一組標記(mark),例如字母數(shù)字、掩碼(mask)、框(box)。使用添加標記的圖像作為輸入,以解決上述問題。

我們先來看下效果,左為 GPT-4V,右為 GPT-4V+SoM,很明顯后者分類更細致、準確。

圖片

下圖示例依然如此,GPT-4V+SoM 效果更明顯。

圖片

此外,對于這項研究,有人問道:「SoM 是手動(人工輸入)還是自動的?」

圖片

論文一作 Jianwei Yang 表示,SoM 是自動或半自動的。他們編譯了很多自己構(gòu)建自己的分割工具,比如 SEEM、Semantic-SAM 和 SAM,用來幫助用戶自動為圖像分割區(qū)域。同時用戶也可以自己選擇區(qū)域。

圖片

用于視覺的 SoM prompt

使用 SoM prompt GPT-4V 的獨特優(yōu)點是它可以產(chǎn)生文本之外的輸出。由于每個標記都與掩碼表征的圖像區(qū)域特定關(guān)聯(lián),因此可以追溯文本輸出中任何提到的標記的掩碼。

圖片

生成成對文本和掩碼的能力使 SoM 能夠 prompt GPT-4V 來生成視覺關(guān)聯(lián)的文本,更重要的是支持各種細粒度視覺任務(wù),這對普通的 GPT-4V 模型來說是一個挑戰(zhàn)。

通過簡單的 prompt 工程,SoM 可以讓 GPT-4V 廣泛地用于多種視覺任務(wù),例如:

  • 開放詞匯圖像分割:該研究要求 GPT-4V 詳盡地給出所有標記區(qū)域的類別以及從預(yù)定池中選擇的類別。
  • 參考分割:給定一個參考表達式,GPT-4V 的任務(wù)是從圖像分區(qū)工具箱生成的候選區(qū)域中選擇最匹配的區(qū)域。
  • 短語關(guān)聯(lián)(Phrase Grounding):與參考分割略有不同,短語關(guān)聯(lián)使用由多個名詞短語組成的完整句子。該研究要求 GPT-4V 為所有標記的短語分配相應(yīng)的區(qū)域。
  • 視頻對象分割:以兩個圖像作為輸入。第一個圖像是查詢圖像,其中包含第二個圖像中需要識別的一些對象。鑒于 GPT-4V 支持多個圖像作為輸入,因此 SoM 也可以應(yīng)用于視頻中跨幀的關(guān)聯(lián)視覺對象。

實驗及結(jié)果

研究者使用「分而治之」(divide-and-conquer)的策略來運行實驗和評估。對于每個實例,他們使用新的聊天窗口,這樣一來,評估期間就不會出現(xiàn)上下文泄露了。

具體來講,研究者從每個數(shù)據(jù)集中選擇了小規(guī)模的驗證數(shù)據(jù)子集。對于數(shù)據(jù)集中的每個圖像,他們在使用圖像分割工具箱提取的區(qū)域上覆蓋了一組標記。同時基于具體的任務(wù),研究者利用不同的分割工具來提出區(qū)域。

下表 1 列出了每個任務(wù)的設(shè)置細節(jié)。

圖片

研究者將其方法與以下模型進行比較:

  • 預(yù)測坐標的 GPT-4V 基線模型
  • SOTA 專用模型
  • 開源 LMM

定量結(jié)果

詳細的實驗結(jié)果如下表 2 所示。

圖片

首先是圖像分割任務(wù)。研究者將 GPT-4V + SoM 與 COCO Panoptic 分割數(shù)據(jù)集上的強大分割模型 MaskDINO、ADE20K Panoptic 分割數(shù)據(jù)集上的模型 OpenSeeD 進行了比較。

結(jié)果顯示,GPT-4V + SoM 的零樣本性能接近微調(diào)后的 MaskDINO,并大幅優(yōu)于 OpenSeeD。GPT-4V 在 COCO 和 ADE20K 上的相似性能表現(xiàn)出其對廣泛視覺和語義域任務(wù)的強大泛化能力。

然后是參考(referrring)任務(wù),研究者評估了 RefCOCOg 數(shù)據(jù)集上的模型 RES 和 REC。他們使用 MaskDINO 來提出掩碼,并在圖像上覆蓋上掩碼和數(shù)字。同時使用 mIoU 作為評估指標,并與 SOTA 專用模型 PolyFormer 和 SEEM 進行比較。

結(jié)果顯示,GPT-4V+SoM 擊敗了 Grounding DINO、Polyformer 等專用模型以及 Shikra、LLaVA-1.5、MiniGPT-v2 和 Ferret 等最近的開源 LMM。

接著是 Flickr30K 上的短語關(guān)聯(lián)任務(wù),研究者使用 Grounding DINO 為每個圖像生成框建議。GPT-4V+SoM 實現(xiàn)了比 GLIPv2 和 Grounding DINO 更強的零樣本性能。

最后研究者在 DAVIS2017 數(shù)據(jù)集上評估了視頻分割任務(wù)。GPT-4V+SoM 實現(xiàn)了優(yōu)于其他專用視覺模型的最佳追蹤性能(78.8 J&F)。

消融研究

研究者探討了標記類型如何影響 Flickr30k 數(shù)據(jù)集上短語關(guān)聯(lián)任務(wù)的最終性能,并比較了兩種類型的標記。第一種是數(shù)字和掩碼,第二種是數(shù)字、掩碼和框。

結(jié)果如下表 3 所示,添加額外的框可以顯著提升性能。

圖片

此外研究者探究了當(dāng)生成帶有真值注釋的標記時,GPT-4V 如何表現(xiàn)。他們選擇在 RefCOCOg 驗證集中用真值掩碼替換預(yù)測到的分割掩碼。這意味著 GPT-4V 只需要從注釋短語區(qū)域選擇一個即可。如預(yù)期一樣,參考分割的性能可以得到進一步提升,尤其是當(dāng)分割模型有一些缺失的區(qū)域。

結(jié)果如下表 4 所示,在 SoM 中使用真值掩碼可以將 RefCOCOg 上的性能提升 14.5%(mIoU)。

圖片

更多技術(shù)細節(jié)和實驗結(jié)果參閱原論文。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-03-11 12:20:40

AI模型

2023-10-19 09:32:45

自動駕駛技術(shù)

2024-01-03 12:56:39

2024-02-06 09:00:00

GPT-4VLLaVA大型語言

2025-02-03 10:04:47

擴散模型數(shù)據(jù)分布

2023-12-29 09:55:03

視覺模型

2024-01-22 06:40:00

模型視覺

2015-05-29 11:46:29

4G

2023-11-13 07:48:08

AI檢測

2023-10-12 13:05:00

谷歌AI

2014-10-21 10:46:22

ICT華為

2024-07-23 09:48:59

2013-12-24 07:22:22

2019-01-15 17:40:03

華為

2023-11-13 18:19:35

AI訓(xùn)練

2023-10-04 18:42:30

2023-11-20 13:53:00

數(shù)據(jù)訓(xùn)練

2023-10-17 12:34:04

2011-08-05 10:19:03

活動目錄

2024-04-07 13:39:55

點贊
收藏

51CTO技術(shù)棧公眾號