自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

幻覺不一定有害,新框架用AI的「幻覺」優(yōu)化圖像分割技術(shù)

人工智能 新聞
這項研究由來自倫敦大學(xué)瑪麗女王學(xué)院和上海交通大學(xué)的研究團隊進行的,他們開發(fā)了名為 ProMaC 的框架,該框架創(chuàng)新性地利用了大模型在預(yù)訓(xùn)練過程中產(chǎn)生的幻覺。

作者胡健,是倫敦大學(xué)瑪麗女王學(xué)院的博士生,導(dǎo)師是龔少剛教授,這篇文章是在龔少剛教授和嚴駿馳教授的指導(dǎo)下完成的。

在人工智能領(lǐng)域,大型預(yù)訓(xùn)練模型(如 GPT 和 LLaVA)的 “幻覺” 現(xiàn)象常被視為一個難以克服的挑戰(zhàn),尤其是在執(zhí)行精確任務(wù)如圖像分割時。然而,最新發(fā)表于 NeurIPS 2024 的研究《Leveraging Hallucinations to Reduce Manual Prompt Dependency in Promptable Segmentation》提出了一個有趣的觀點:這些幻覺實際上可以被轉(zhuǎn)化為有用的信息源,從而減少對手動提示的依賴。

圖片

  • 文章鏈接:https://arxiv.org/abs/2408.15205
  • 代碼鏈接:https://github.com/lwpyh/ProMaC_code
  • 項目網(wǎng)址:https://lwpyh.github.io/ProMaC/

這項研究由來自倫敦大學(xué)瑪麗女王學(xué)院和上海交通大學(xué)的研究團隊進行的,他們開發(fā)了名為 ProMaC 的框架,該框架創(chuàng)新性地利用了大模型在預(yù)訓(xùn)練過程中產(chǎn)生的幻覺。不僅能夠準(zhǔn)確識別圖像中的目標(biāo)對象,還能判斷這些對象的具體位置和形狀,這在偽裝動物檢測或醫(yī)學(xué)圖像分割等復(fù)雜任務(wù)中表現(xiàn)尤為出色。

研究動機

該研究專注于一種具有挑戰(zhàn)性的任務(wù):通用提示分割任務(wù)(task-generic promptable segmentation setting)。在這個框架下,該研究只提供一個任務(wù)內(nèi)的通用提示來描述整個任務(wù),而不會具體指明每張圖片中需要分割的具體物體。例如,在偽裝動物分割任務(wù)中,該研究僅提供 “camouflaged animal” 這樣的任務(wù)描述,而不會告知不同圖片中具體的動物名稱。模型需要完成兩項主要任務(wù):首先,根據(jù)圖片內(nèi)容有效推理出具體需要分割的目標(biāo)物體;其次,準(zhǔn)確確定目標(biāo)物體的具體位置和分割的形狀。

盡管如 SAM 這類大型分割模型的存在,能夠在提供較為精確的位置描述時有效地進行物體分割,但在偽裝樣本分割或醫(yī)學(xué)圖像分割等復(fù)雜任務(wù)中,獲取這種精確描述并不容易。以往的研究,如 GenSAM [1],提出利用 LLaVA/BLIP2 這類多模態(tài)大模型(MLLMs)來推理出特定樣本的分割提示,以指導(dǎo)分割過程。然而,這種方法在處理像偽裝樣本分割這樣的場景時,往往因為目標(biāo)共現(xiàn)偏差(object co-occasion bias)存在而導(dǎo)致問題。例如,在一個只有草原的圖像中,如果訓(xùn)練數(shù)據(jù)中獅子通常與草原共現(xiàn),LLaVA 可能會偏向于預(yù)測草原中存在偽裝的獅子,即使圖中實際上沒有獅子。這種假設(shè)的偏好在偽裝動物分割任務(wù)中尤其問題嚴重,因為它可能導(dǎo)致模型錯誤地識別出不存在的偽裝動物。

圖片

圖 1. co-occurrence prior 導(dǎo)致的 hallucination

但是這樣的現(xiàn)象就一定是壞事嗎?其實并不盡然??紤]到獵豹確實常出沒于此類草原,盡管在特定圖片中它們可能并未出現(xiàn)。這種所謂的 “幻覺”,其實是模型根據(jù)大規(guī)模數(shù)據(jù)訓(xùn)練得出的經(jīng)驗性常識。雖然這種推斷與當(dāng)前的例子不符,但它確實反映了現(xiàn)實世界中的常態(tài)。更進一步地說,這種由幻覺帶來的常識可能有助于更深入地分析圖片內(nèi)容,發(fā)現(xiàn)與圖片相關(guān)但不顯而易見的信息。如果這些信息得到驗證,它們可能有助于更有效地執(zhí)行下游任務(wù)。

圖片

圖 2. ProMaC 整體架構(gòu)

實現(xiàn)方法

如圖 2 所示,該研究提出了一個循環(huán)優(yōu)化的 ProMaC 框架,它包括兩部分:利用幻覺來從任務(wù)通用提示中推理出樣本特有提示的 multi-scale chain of thought prompting 模塊和將生成的掩碼與任務(wù)語義相對齊的 mask semantic alignment 模塊。前者推斷出較為準(zhǔn)確的樣本特有提示來引導(dǎo) SAM 進行分割,后者則將生成的掩碼與任務(wù)語義進行對齊,對齊后的掩碼又可以作為提示反向作用于第一個模塊來驗證利用幻覺得到的信息。通過循環(huán)優(yōu)化來逐漸獲得準(zhǔn)確的掩碼。

具體地,ProMaC 框架如圖 3 所示:

圖片

圖 3. ProMaC 流程圖

多尺度思維鏈提示

它主要完成兩個任務(wù):收集盡可能多的任務(wù)相關(guān)候選知識,并生成準(zhǔn)確的樣本特有提示。為此,該研究將輸入圖像切割成不同尺度的圖像塊,每個圖像塊中任務(wù)相關(guān)對象的不同可見性水平激發(fā)了 MLLM 的幻覺。這促使模型在各個圖像塊中通過先驗知識探索圖像數(shù)據(jù)與相關(guān)任務(wù)之間的聯(lián)系,進而預(yù)測潛在的邊界框和目標(biāo)物體圖片和背景圖片名稱:

圖片

但其中只有正確的信息才值得保留。為此,該研究引入了視覺對比推理(Visual Contrastive Reasoning)模塊。該模塊首先使用圖像編輯技術(shù)創(chuàng)建對比圖像,這些對比圖像通過去除上一次迭代中識別到的掩碼部分,生成只包含與任務(wù)無關(guān)背景的圖片。接著,通過將原圖的輸出預(yù)測值與背景圖片的輸出預(yù)測值相減,可以消除由物體共存偏差帶來的負面影響,從而確認真正有效的樣本特有提示。具體表達式如下:

圖片

掩碼語義對齊

獲得的樣本特有提示將被送入掩碼生成器來產(chǎn)生準(zhǔn)確的掩碼。首先,樣本特有提示被輸入到分割模塊(SAM)以生成一個掩碼。然而,SAM 缺乏語義理解能力,它主要依據(jù)給定的提示及其周圍的紋理來識別可能要分割的物體。因此,該研究采用了 CLIP 來評估相同提示在不同圖像塊上生成的各個掩碼與目標(biāo)物體之間的語義相似性。這種方法有助于確保分割結(jié)果的準(zhǔn)確性和相關(guān)性:

圖片

圖片

歸一化后的相似度用作權(quán)重,以加權(quán)合成最終的掩碼。這個掩碼在下一次迭代中有助于生成更優(yōu)質(zhì)的背景圖片,進而引導(dǎo)更有效的提示生成。這能充分利用幻覺來提取圖片中與任務(wù)相關(guān)的信息,驗證后生成更準(zhǔn)確的提示。這樣,更好的提示又能改善掩碼的質(zhì)量,形成一個互相促進的提升過程。

該研究在具有挑戰(zhàn)性的任務(wù) (e.g., 偽裝動物檢測,醫(yī)學(xué)圖像檢測) 上進行了實驗:

圖片

圖 4. 偽裝樣本檢測實驗結(jié)果

圖片

圖 5. 醫(yī)學(xué)圖像實驗結(jié)果

圖片

圖 6. 可視化案例

PromaC 提供了一個新視角,即幻覺不一定就是有害的,如果能加以利用,也是能為下游任務(wù)提供幫助。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-05-24 15:15:55

2020-08-30 14:31:40

Python編程語言開發(fā)

2021-02-26 09:04:22

數(shù)組ArrayListHashMap

2025-04-16 08:35:00

2023-05-09 22:57:26

AI網(wǎng)絡(luò)

2013-05-14 10:41:16

Palo AltoNGFWUTM

2010-11-17 11:11:44

跳槽

2021-01-29 09:17:00

深度學(xué)習(xí)AI人工智能

2024-08-20 07:47:12

AI零代碼網(wǎng)關(guān)

2025-03-05 11:09:20

2021-05-07 20:08:52

人工智能AI游戲

2021-05-08 16:33:14

人工智能游戲機器學(xué)習(xí)

2024-07-11 10:50:39

2024-08-05 09:14:14

2018-01-18 05:20:59

2024-06-18 15:36:50

2023-10-27 10:23:35

大語言模型人工智能

2016-11-28 11:19:48

術(shù)語神秘

2022-12-26 09:16:45

Guava架構(gòu)模型

2019-08-19 07:54:20

點贊
收藏

51CTO技術(shù)棧公眾號