自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

李飛飛「空間智能」系列新進(jìn)展,吳佳俊團(tuán)隊新「BVS」套件評估計算機(jī)視覺模型

人工智能 新聞
吳佳俊帶領(lǐng)團(tuán)隊發(fā)表了后續(xù)研究——「BEHAVIOR Vision Suite(BVS)」。論文也獲得 CVPR 2024 Highlight。

在不久之前的 2024 TED 演講中,李飛飛詳細(xì)解讀了 空間智能(Spatial Intelligence)概念。她對計算機(jī)視覺領(lǐng)域在數(shù)年間的快速發(fā)展感到欣喜并抱有極大熱忱,并為此正在創(chuàng)建初創(chuàng)公司

在此演講中,曾提到斯坦福團(tuán)隊的一個研究成果 BEHAVIOR,這是他們「創(chuàng)建」的一個用來訓(xùn)練計算機(jī)和機(jī)器人如何在三維世界中行動的行為和動作數(shù)據(jù)集。

如今,吳佳俊帶領(lǐng)團(tuán)隊發(fā)表了后續(xù)研究——「BEHAVIOR Vision Suite(BVS)」。論文也獲得 CVPR 2024 Highlight。

在計算機(jī)視覺領(lǐng)域,系統(tǒng)評估和理解模型在不同條件下的表現(xiàn)需要?量數(shù)據(jù)和全?、定制的標(biāo)簽。然?,現(xiàn)實世界中的視覺數(shù)據(jù)集往往難以滿?這些需求。盡管?前的合成數(shù)據(jù)?成器為具? AI 任務(wù)提供了有前景的替代?案,但在資產(chǎn)和渲染質(zhì)量、數(shù)據(jù)多樣性及物理屬性的真實性??,仍存在諸多不?。

為了解決這些問題,研究團(tuán)隊推出了 「BEHAVIOR Vision Suite(BVS)」。

BVS 是?套專為系統(tǒng)評估計算機(jī)視覺模型?設(shè)計的?具和資源集?;谛麻_發(fā)的具? AI 基準(zhǔn)BEHAVIOR-1K,BVS ?持?量可調(diào)參數(shù),涵蓋場景級別(如光照、物體擺放)、物體級別(如關(guān)節(jié)配置、屬性)和相機(jī)級別(如視野、焦距)。研究?員可以在數(shù)據(jù)?成過程中?由調(diào)整這些參數(shù),以進(jìn)?精確的控制實驗。

此?作還展?了 BVS 在不同模型評估和訓(xùn)練應(yīng)?中的優(yōu)勢,包括參數(shù)可控地評估視覺模型在環(huán)境參數(shù)連續(xù)變化時的魯棒性,系統(tǒng)評估場景理解模型(豐富的視覺標(biāo)注),以及對新視覺任務(wù)的模型訓(xùn)練。


  • 項目鏈接:https://behavior-vision-suite.github.io/
  • 論文鏈接:https://arxiv.org/pdf/2405.09546
  • 代碼鏈接:https://github.com/behavior-vision-suite/behavior-vision-suite.github.io

BEHAVIOR Vision Suite

BVS 包括兩?部分:數(shù)據(jù)部分和基于此的可定制數(shù)據(jù)?成器。

數(shù)據(jù)部分

BVS 的數(shù)據(jù)部分基于 BEHAVIOR-1K 的資產(chǎn)拓展?成,共包括 8841個 3D 物體模型和由 51 位藝術(shù)家設(shè)計的室內(nèi)場景,擴(kuò)充為 1000 個場景實例。這些模型和場景均具備逼真的外觀,并涵蓋了豐富的語義類別。研究團(tuán)隊同時提供了一個腳本,讓用戶可以自動生成更多的增強(qiáng)場景實例。

BEHAVIOR-1K的資產(chǎn)拓展

可定制數(shù)據(jù)?成器

可定制數(shù)據(jù)?成器可以讓?戶?便地利? BVS 的數(shù)據(jù)部分來?成滿?他們需求的圖?數(shù)據(jù)集,例如暗光下的室內(nèi)場景。

BVS 可以讓?成的數(shù)據(jù)集在滿?需求的同時,具備較?的語義多樣性,同時確保其逼真性和物理合理性。具體來說,?戶可以控制以下五個??:相機(jī)位置、光照、物體屬性(如??)、物體狀態(tài)(如開、關(guān))和物體之間的空間關(guān)系。

應(yīng)?場景

研究者展?了在三個應(yīng)?場景下 BVS 所?成數(shù)據(jù)的作?,包括:

  •  參數(shù)可控地評估視覺模型在環(huán)境參數(shù)連續(xù)變化時的魯棒性:探究模型在不同環(huán)境參數(shù)(遮擋程度,環(huán)境亮度,拍攝角度,物體關(guān)節(jié)移動,視野)連續(xù)變化情況下的表現(xiàn),例如評估物體檢測模型在冰箱門從完全關(guān)閉到完全打開過程中,模型能正確檢測出存在冰箱的準(zhǔn)確率,確保模型在實際應(yīng)?中能夠應(yīng)對各種環(huán)境變化。還可以探究模型在不同極限參數(shù)條件的能力邊界。
  • 評估場景理解模型:使?擁有全?標(biāo)注的圖像,系統(tǒng)評估各種場景理解模型的性能。
  • 訓(xùn)練新視覺任務(wù)模型:在合成數(shù)據(jù)上訓(xùn)練對象狀態(tài)和關(guān)系預(yù)測的新視覺任務(wù)模型,并評估其從模擬到真實應(yīng)?的轉(zhuǎn)移能?,確保模型在真實環(huán)境中的有效性。

參數(shù)可控地評估視覺模型在環(huán)境參數(shù)連續(xù)變化時的魯棒性

通過?成在某?維度上連續(xù)變化的數(shù)據(jù),研究?員系統(tǒng)評估視覺模型在此變化下的魯棒性。例如,?成同?場景中物體遮擋程度逐漸增加的數(shù)據(jù),以評估視覺模型在部分遮擋物件下的表現(xiàn)。

通過評估不同 SOTA 模型,研究者發(fā)現(xiàn),現(xiàn)有模型在常見分布之外的數(shù)據(jù)上的表現(xiàn)仍有不?。由于這些數(shù)據(jù)在現(xiàn)實世界中難以獲得或標(biāo)注,這些結(jié)論很難直接從真實圖?數(shù)據(jù)集中得出。因此,BVS 可以幫助研究者評估模型在他們感興趣的條件下的魯棒性,從?更好地開發(fā)和提升模型。

現(xiàn)有SOTA模型在條件變化下(例如相機(jī)仰?)仍有魯棒性上的提升空間

不同檢測模型在五種環(huán)境參數(shù)連續(xù)變化時的表現(xiàn)

評估場景理解模型

BVS 所?成的數(shù)據(jù)集的另??特征是其包含多模態(tài)的真實標(biāo)簽,如深度、語義分割、?標(biāo)邊界框等。這使得研究者可以利? BVS ?成的數(shù)據(jù)在同?圖像上評估不同任務(wù)的預(yù)測模型。

研究團(tuán)隊評估了開放詞匯檢測和分割、深度估計和點云重建四個任務(wù)的 SOTA 模型,并發(fā)現(xiàn)模型在 BVS 數(shù)據(jù)集上的表現(xiàn)順序與在對應(yīng)任務(wù)真實數(shù)據(jù)基準(zhǔn)上的表現(xiàn)?致。這表明 BVS 生成的高質(zhì)量數(shù)據(jù)真實地反映和代表了現(xiàn)實數(shù)據(jù),研究者希望這樣的數(shù)據(jù)集可以促進(jìn)多任務(wù)預(yù)測模型的發(fā)展。

在開源的代碼中,研究團(tuán)隊也提供了一個腳本,方便用戶在場景中采樣軌跡。

研究者收集了許多場景瀏覽視頻?于評估場景理解模型

整體場景理解數(shù)據(jù)集。研究者在具有代表性的場景中生成了大量遍歷視頻,每個場景包含10多個攝像機(jī)軌跡。對于每個圖像,BVS生成了各種標(biāo)簽(例如,場景圖、分割掩碼、深度圖)

圖片

SOTA模型在BVS數(shù)據(jù)上的相對表現(xiàn)順序與真實任務(wù)基準(zhǔn)相符

訓(xùn)練新視覺任務(wù)模型

BVS 的數(shù)據(jù)?成不僅限于模型評估,對于難以在現(xiàn)實場景中收集或標(biāo)注數(shù)據(jù)的任務(wù), BVS 數(shù)據(jù)也可?于模型訓(xùn)練。

作者利? BVS ?成了 12.5k 張圖?,僅?其訓(xùn)練了?個物體空間關(guān)系和狀態(tài)預(yù)測模型。該模型在未使?真實數(shù)據(jù)訓(xùn)練的情況下,仍在真實場景下達(dá)到了 0.839 的 F1 得分,體現(xiàn)了優(yōu)秀的仿真到現(xiàn)實的轉(zhuǎn)移能?(sim-to-real transfer)。

仿真?成訓(xùn)練數(shù)據(jù)集與真實測試數(shù)據(jù)集例圖

使用BVS生成的數(shù)據(jù)訓(xùn)練的物體空間關(guān)系和狀態(tài)預(yù)測模型

總結(jié)

BVS 提供了?套強(qiáng)?的?具和資源集,為計算機(jī)視覺研究者?成定制的合成數(shù)據(jù)集提供了新的?法。

通過系統(tǒng)地控制和調(diào)整數(shù)據(jù)?成過程中的各項參數(shù),研究?員可以更全?地評估和改進(jìn)計算機(jī)視覺模型的性能,為未來的研究和應(yīng)?奠定堅實基礎(chǔ)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-11-11 08:30:00

2024-11-15 09:36:07

2025-03-20 14:24:21

2025-04-10 09:10:00

模型AI評測

2023-11-10 12:58:00

模型數(shù)據(jù)

2024-01-04 12:49:00

模型訓(xùn)練

2023-07-17 10:21:25

TC39JavaScript

2019-11-15 10:11:03

人工智能埃博拉技術(shù)

2024-09-09 12:24:42

2024-12-13 14:20:00

AI模型訓(xùn)練

2011-11-23 09:25:15

KinectWindows

2021-08-24 10:15:35

模型人工智能計算

2024-08-07 13:00:00

2009-09-25 09:27:33

Ubuntu 2010最新進(jìn)展Lucid Lynx

2023-04-17 19:12:19

2012-11-19 10:37:57

思杰OpenStack

2012-11-19 10:50:39

思杰CloudStack開源

2015-11-12 09:27:13

C++最新進(jìn)展

2024-01-22 12:31:18

模型訓(xùn)練

2024-09-23 15:20:00

點贊
收藏

51CTO技術(shù)棧公眾號