自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

目標(biāo)檢測新SOTA,端側(cè)實時識別,沈向洋罕見轉(zhuǎn)發(fā)點贊

人工智能 新聞
Grounding DINO 1.5 Pro版本實現(xiàn)了當(dāng)前開集目標(biāo)檢測SOTA水平,在圖像和文本的語義理解上表現(xiàn)出色,能夠快速、準確地根據(jù)語言提示檢測和識別圖像中的目標(biāo)對象。

目標(biāo)檢測領(lǐng)域,迎來了新進展——

Grounding DINO 1.5,IDEA研究院團隊出品,在端側(cè)就可實現(xiàn)實時識別。

圖片

這一進展獲得AI大佬沈向洋轉(zhuǎn)發(fā),他一般都是一年一轉(zhuǎn)的節(jié)奏。

此次發(fā)布主要有兩個版本:Pro和Edge。Pro版更強,Edge版更快。

它仍然保留了上一個版本Grounding DINO雙編碼器-單解碼器結(jié)構(gòu),在此基礎(chǔ)上通過結(jié)合更大的視覺 backbone 擴大模型尺寸,并使用超過2000萬的Grounding 數(shù)據(jù)獲得了豐富的語料,大幅提升了檢測精度和速度,且通過Pro和Edge版本分別針對不同應(yīng)用場景進行了優(yōu)化。

圖片

Pro版本在大規(guī)模數(shù)據(jù)集構(gòu)建和高精度需求場景中表現(xiàn)卓越,而Edge版本則在端側(cè)部署中展示了其獨特的優(yōu)勢。

這就來分別看一看。

Pro版目標(biāo)檢測新SOTA

Grounding DINO 1.5 Pro版本實現(xiàn)了當(dāng)前開集目標(biāo)檢測SOTA水平,在圖像和文本的語義理解上表現(xiàn)出色,能夠快速、準確地根據(jù)語言提示檢測和識別圖像中的目標(biāo)對象。

圖片

△在COCO、LVIS、ODinW35和ODinW13基準測試中的零樣本遷移性能對比

物體級別理解是機器和物理世界交互的感知基礎(chǔ),也是解決多模態(tài)大模型(VLM)幻覺問題繞不過去的基礎(chǔ)問題。

作為當(dāng)前性能最好的開集檢測模型,Grounding DINO 1.5 Pro 可以幫助構(gòu)建海量的具有物體級別語義信息的多模態(tài)數(shù)據(jù),從而有效地助力多模態(tài)大模型的訓(xùn)練。

它可以將長文本描述中的短語與圖像中的具體對象或場景精確匹配,以增強AI對視覺內(nèi)容和文本之間關(guān)系的理解

圖片

另外,在其他需要處理大量復(fù)雜數(shù)據(jù)的領(lǐng)域,如電商、社交媒體和自動駕駛等,Grounding DINO 1.5 Pro 也具有強大應(yīng)用價值。

例如,在電商領(lǐng)域,該模型可以幫助快速標(biāo)注商品圖像,優(yōu)化搜索和推薦系統(tǒng)。在社交媒體中,該模型能自動標(biāo)注用戶上傳的圖片,提升內(nèi)容審核和分類的效率。

支持行業(yè)數(shù)據(jù)微調(diào)

除此之外,Pro版還支持通過行業(yè)數(shù)據(jù)進行微調(diào)(fine tuning),以滿足各行業(yè)的特定需求,從而達到更加精準的識別效果。

為了驗證微調(diào)帶來的提升,CVR團隊在視覺領(lǐng)域通用的LVIS等公開數(shù)據(jù)集上進行了對比實驗。

圖片

從最后兩行可看出,Grounding DINO 1.5 Pro經(jīng)過微調(diào),在多個數(shù)據(jù)集上都展現(xiàn)出大幅的性能提升。

而在多個實際場景,也十分適配。

圖片

像在醫(yī)療領(lǐng)域,通過微調(diào)后的Grounding DINO 1.5 Pro可以更準確地識別醫(yī)療影像中的病灶,輔助醫(yī)生進行診斷,提高診療效率。

在零售行業(yè),微調(diào)后的模型能更精準地識別和分類商品,有助于庫存管理和銷售分析。

Edge版端側(cè)可部署

在端側(cè)部署方面,Grounding DINO 1.5 Edge版本通過模型結(jié)構(gòu)優(yōu)化,成功部署在NVIDIA Orin NX卡上,并實現(xiàn)了10FPS的推理速度。

圖片

再者,它可以讓機器人和開放環(huán)境進行交互。

圖片

在自動駕駛領(lǐng)域,Grounding DINO 1.5 Edge未來可以在車輛上實時運行,實現(xiàn)高效的目標(biāo)檢測和環(huán)境感知,提高駕駛安全性。在智能安防中,該模型能快速處理視頻監(jiān)控數(shù)據(jù),實時檢測異常行為,提升安全監(jiān)控的響應(yīng)速度。

未來,Grounding DINO 1.5 Edge的運行速度有望提升至20到30FPS,進一步擴大其在邊緣計算領(lǐng)域的應(yīng)用范圍。

論文鏈接:
https://arxiv.org/abs/2405.10300
項目試玩鏈接:
https://deepdataspace.com/playground/grounding_dino

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2018-11-09 11:10:11

微軟沈向洋人工智能

2018-10-11 20:57:40

工程師微軟搜索引擎

2015-07-28 11:42:14

微軟沈向洋

2015-07-28 11:25:59

微軟沈向洋

2019-01-21 09:41:37

GitHub數(shù)據(jù)計算

2013-11-14 09:36:20

微軟

2024-05-27 09:27:02

2019-03-07 14:06:55

微軟職業(yè)機器人

2024-02-23 11:10:00

AI訓(xùn)練

2015-07-28 10:08:29

微軟沈向洋

2024-07-05 10:38:15

SOTA目標(biāo)檢測

2018-11-06 15:46:29

AI技術(shù)科技

2023-11-26 18:04:00

IDEA視覺

2023-02-07 14:10:19

目標(biāo)檢測

2023-07-25 12:28:53

模型智能

2020-11-18 10:16:23

人工智能機器學(xué)習(xí)技術(shù)

2024-07-03 09:39:52

2020-12-30 15:11:15

人工智能機器學(xué)習(xí)技術(shù)

2020-07-02 16:40:40

MySQLRedis數(shù)據(jù)庫

2025-02-10 08:30:00

點贊
收藏

51CTO技術(shù)棧公眾號