自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="mi652"><i id="mi652"><tr id="mi652"></tr></i></blockquote><cite id="mi652"></cite>

<pre id="mi652"></pre>

<s id="mi652"></s>

<sub id="mi652"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

讓大模型看圖比打字管用！NeurIPS 2023新研究提出多模態(tài)查詢方法，準(zhǔn)確率提升7.8%

作者：沁園夏 2023-10-23 10:02:00

人工智能新聞

MQ-Det在多模態(tài)查詢上邁出了第一步嘗試，其顯著的性能提升也昭示著多模態(tài)查詢目標(biāo)檢測(cè)的巨大潛力。

大模型“識(shí)圖”能力都這么強(qiáng)了，為啥還老找錯(cuò)東西？

例如，把長(zhǎng)得不太像的蝙蝠和拍子搞混，又或是認(rèn)不出一些數(shù)據(jù)集中的稀有魚類……

這是因?yàn)?，我們讓大模型“找東西”時(shí)，往往輸入的是文本。

如果描述有歧義或太偏門，像是“bat”（蝙蝠還是拍子？）或“魔鳉”（Cyprinodon diabolis），AI就會(huì)大為困惑。

這就導(dǎo)致用大模型做目標(biāo)檢測(cè)、尤其是開(kāi)放世界（未知場(chǎng)景）目標(biāo)檢測(cè)任務(wù)時(shí)，效果往往沒(méi)有想象中那么好。

現(xiàn)在，一篇被NeurIPS 2023收錄的論文，終于解決了這個(gè)問(wèn)題。

論文提出了一種基于多模態(tài)查詢的目標(biāo)檢測(cè)方法MQ-Det，只需要給輸入加上一個(gè)圖片示例，就能讓大模型找東西的準(zhǔn)確率大幅提升。

在基準(zhǔn)檢測(cè)數(shù)據(jù)集LVIS上，無(wú)需下游任務(wù)模型微調(diào)，MQ-Det平均提升主流檢測(cè)大模型GLIP精度約7.8%，在13個(gè)基準(zhǔn)小樣本下游任務(wù)上，平均提高了6.3%精度。

這究竟是怎么做到的？一起來(lái)看看。

以下內(nèi)容轉(zhuǎn)載自論文作者、知乎博主@沁園夏：

目錄

MQ-Det：多模態(tài)查詢的開(kāi)放世界目標(biāo)檢測(cè)大模型
1.1 從文本查詢到多模態(tài)查詢
1.2 MQ-Det 即插即用的多模態(tài)查詢模型架構(gòu)
1.3 MQ-Det高效訓(xùn)練策略
1.4 實(shí)驗(yàn)結(jié)果：Finetuning-free評(píng)估
1.5 實(shí)驗(yàn)結(jié)果：Few-shot評(píng)估
1.6 多模態(tài)查詢目標(biāo)檢測(cè)的前景

MQ-Det：多模態(tài)查詢的開(kāi)放世界目標(biāo)檢測(cè)大模型

論文名稱：Multi-modal Queried Object Detection in the Wild

論文鏈接：https://arxiv.org/abs/2305.18980

代碼地址：https://github.com/YifanXu74/MQ-Det

1.1 從文本查詢到多模態(tài)查詢

一圖勝千言：隨著圖文預(yù)訓(xùn)練的興起，借助文本的開(kāi)放語(yǔ)義，目標(biāo)檢測(cè)逐漸步入了開(kāi)放世界感知的階段。為此，許多檢測(cè)大模型都遵循了文本查詢的模式，即利用類別文本描述在目標(biāo)圖像中查詢潛在目標(biāo)。然而，這種方式往往會(huì)面臨“廣而不精”的問(wèn)題。

例如，（1）圖1中的細(xì)粒度物體（魚種）檢測(cè)，往往很難用有限的文本來(lái)描述各種細(xì)粒度的魚種，（2）類別歧義（“bat”既可指蝙蝠又可指拍子）。

然而，以上的問(wèn)題均可通過(guò)圖像示例來(lái)解決，相比文本，圖像能夠提供目標(biāo)物體更豐富的特征線索，但同時(shí)文本又具備強(qiáng)大的泛化性。

由此，如何能夠有機(jī)地結(jié)合兩種查詢方式，成為了一個(gè)很自然的想法。

獲取多模態(tài)查詢能力的難點(diǎn)：如何得到這樣一個(gè)具備多模態(tài)查詢的模型，存在三個(gè)挑戰(zhàn)：（1）直接用有限的圖像示例進(jìn)行微調(diào)很容易造成災(zāi)難性遺忘；（2）從頭訓(xùn)練一個(gè)檢測(cè)大模型會(huì)具備較好的泛化性但是消耗巨大，例如，單卡訓(xùn)練GLIP 需要利用3000萬(wàn)數(shù)據(jù)量訓(xùn)練480 天。

多模態(tài)查詢目標(biāo)檢測(cè)：基于以上考慮，作者提出了一種簡(jiǎn)單有效的模型設(shè)計(jì)和訓(xùn)練策略——MQ-Det。

MQ-Det在已有凍結(jié)的文本查詢檢測(cè)大模型基礎(chǔ)上插入少量門控感知模塊（GCP）來(lái)接收視覺(jué)示例的輸入，同時(shí)設(shè)計(jì)了視覺(jué)條件掩碼語(yǔ)言預(yù)測(cè)訓(xùn)練策略高效地得到高性能多模態(tài)查詢的檢測(cè)器。

1.2 MQ-Det即插即用的多模態(tài)查詢模型架構(gòu)

△圖1 MQ-Det方法架構(gòu)圖

門控感知模塊

如圖1所示，作者在已有凍結(jié)的文本查詢檢測(cè)大模型的文本編碼器端逐層插入了門控感知模塊（GCP），GCP的工作模式可以用下面公式簡(jiǎn)潔地表示：

對(duì)于第i個(gè)類別，輸入視覺(jué)示例Vi，其首先和目標(biāo)圖像I進(jìn)行交叉注意力（X-MHA）得到以增廣其表示能力，而后每個(gè)類別文本ti會(huì)和對(duì)應(yīng)類別的視覺(jué)示例進(jìn)行交叉注意力得到，之后通過(guò)一個(gè)門控模塊gate將原始文本ti和視覺(jué)增廣后文本融合，得到當(dāng)前層的輸出。這樣的簡(jiǎn)單設(shè)計(jì)遵循了三點(diǎn)原則：（1）類別可擴(kuò)展性；（2）語(yǔ)義補(bǔ)全性；（3）抗遺忘性，具體討論可見(jiàn)原文。

1.3 MQ-Det高效訓(xùn)練策略

基于凍結(jié)語(yǔ)言查詢檢測(cè)器的調(diào)制訓(xùn)練

由于目前文本查詢的預(yù)訓(xùn)練檢測(cè)大模型本身就具備較好的泛化性，論文作者認(rèn)為，只需要在原先文本特征基礎(chǔ)上用視覺(jué)細(xì)節(jié)進(jìn)行輕微地調(diào)整即可。

在文章中也有具體的實(shí)驗(yàn)論證發(fā)現(xiàn)，打開(kāi)原始預(yù)訓(xùn)練模型參數(shù)后進(jìn)行微調(diào)很容易帶來(lái)災(zāi)難性遺忘的問(wèn)題，反而失去了開(kāi)放世界檢測(cè)的能力。

由此，MQ-Det在凍結(jié)文本查詢的預(yù)訓(xùn)練檢測(cè)器基礎(chǔ)上，僅調(diào)制訓(xùn)練插入的GCP模塊，就可以高效地將視覺(jué)信息插入到現(xiàn)有文本查詢的檢測(cè)器中。

在論文中，作者分別將MQ-Det的結(jié)構(gòu)設(shè)計(jì)和訓(xùn)練技術(shù)應(yīng)用于目前的SOTA模型GLIP和GroundingDINO ，來(lái)驗(yàn)證方法的通用性。

以視覺(jué)為條件的掩碼語(yǔ)言預(yù)測(cè)訓(xùn)練策略

作者還提出了一種視覺(jué)為條件的掩碼語(yǔ)言預(yù)測(cè)訓(xùn)練策略，來(lái)解決凍結(jié)預(yù)訓(xùn)練模型帶來(lái)的學(xué)習(xí)惰性的問(wèn)題。

所謂學(xué)習(xí)惰性，即指檢測(cè)器在訓(xùn)練過(guò)程中傾向于保持原始文本查詢的特征，從而忽視新加入的視覺(jué)查詢特征。

為此，MQ-Det在訓(xùn)練時(shí)隨機(jī)地用[MASK] token來(lái)替代文本token，迫使模型向視覺(jué)查詢特征側(cè)學(xué)習(xí)，即：

這個(gè)策略雖然簡(jiǎn)單，但是卻十分有效，從實(shí)驗(yàn)結(jié)果來(lái)看這個(gè)策略帶來(lái)了顯著的性能提升。

1.4 實(shí)驗(yàn)結(jié)果：Finetuning-free評(píng)估

Finetuning-free：相比傳統(tǒng)零樣本（zero-shot）評(píng)估僅利用類別文本進(jìn)行測(cè)試，MQ-Det提出了一種更貼近實(shí)際的評(píng)估策略：finetuning-free。其定義為：在不進(jìn)行任何下游微調(diào)的條件下，用戶可以利用類別文本、圖像示例、或者兩者結(jié)合來(lái)進(jìn)行目標(biāo)檢測(cè)。

在finetuning-free的設(shè)定下，MQ-Det對(duì)每個(gè)類別選用了5個(gè)視覺(jué)示例，同時(shí)結(jié)合類別文本進(jìn)行目標(biāo)檢測(cè)，而現(xiàn)有的其他模型不支持視覺(jué)查詢，只能用純文本描述進(jìn)行目標(biāo)檢測(cè)。下表展示了在LVIS MiniVal和LVIS v1.0上的檢測(cè)結(jié)果?？梢园l(fā)現(xiàn)，多模態(tài)查詢的引入大幅度提升了開(kāi)放世界目標(biāo)檢測(cè)能力。

△表1 各個(gè)檢測(cè)模型在LVIS基準(zhǔn)數(shù)據(jù)集下的finetuning-free表現(xiàn)

從表1可以看到，MQ-GLIP-L在GLIP-L基礎(chǔ)上提升了超過(guò)7%AP，效果十分顯著！

1.5 實(shí)驗(yàn)結(jié)果：Few-shot評(píng)估

△表2 各個(gè)模型在35個(gè)檢測(cè)任務(wù)ODinW-35以及其13個(gè)子集ODinW-13中的表現(xiàn)

作者還進(jìn)一步在下游35個(gè)檢測(cè)任務(wù)ODinW-35中進(jìn)行了全面的實(shí)驗(yàn)。由表2可以看到，MQ-Det除了強(qiáng)大的finetuning-free表現(xiàn)，還具備良好的小樣本檢測(cè)能力，進(jìn)一步印證了多模態(tài)查詢的潛力。圖2也展示了MQ-Det對(duì)于GLIP的顯著提升。

△圖2 數(shù)據(jù)利用效率對(duì)比；橫軸：訓(xùn)練樣本數(shù)量，縱軸：OdinW-13上的平均AP

1.6 多模態(tài)查詢目標(biāo)檢測(cè)的前景

目標(biāo)檢測(cè)作為一個(gè)以實(shí)際應(yīng)用為基礎(chǔ)的研究領(lǐng)域，非常注重算法的落地。

盡管以往的純文本查詢目標(biāo)檢測(cè)模型展現(xiàn)出了良好的泛化性，但是在實(shí)際的開(kāi)放世界檢測(cè)中文本很難涵蓋細(xì)粒度的信息，而圖像中豐富的信息粒度完美地補(bǔ)全了這一環(huán)。

至此我們能夠發(fā)現(xiàn)，文本泛而不精，圖像精而不泛，如果能夠有效地結(jié)合兩者，即多模態(tài)查詢，將會(huì)推動(dòng)開(kāi)放世界目標(biāo)檢測(cè)進(jìn)一步向前邁進(jìn)。

MQ-Det在多模態(tài)查詢上邁出了第一步嘗試，其顯著的性能提升也昭示著多模態(tài)查詢目標(biāo)檢測(cè)的巨大潛力。

同時(shí)，文本描述和視覺(jué)示例的引入為用戶提供了更多的選擇，使得目標(biāo)檢測(cè)更加靈活和用戶友好。

責(zé)任編輯：張燕妮來(lái)源：量子位

模型技術(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)