自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

字節(jié)提出新一代數(shù)據(jù)集COCONut,比COCO粒度分割更密集

發(fā)布于 2024-4-22 09:45
瀏覽
0收藏

隨著人工智能的發(fā)展,語言模型和生成模型獲得了大量的成功并且在設(shè)計模型的過程中,模型的參數(shù)量也越來越大。對于細粒度理解任務(wù),模型參數(shù)量也同樣在增加。然而目前現(xiàn)有的數(shù)據(jù)集存在規(guī)模和精度的矛盾,例如 SA-1B 數(shù)據(jù)集中 99.1% 的 mask 都是機器生成的,但沒有賦予語義的標簽,而其他一些公開數(shù)據(jù)集也同樣存在精度問題并且這些數(shù)據(jù)集的規(guī)模一般都比較小。


近期,字節(jié)跳動提出了新一代細粒度理解的數(shù)據(jù)集,針對當(dāng)代深度學(xué)習(xí)模型的設(shè)計需求,給總量為 383K 的圖片進行了全景分割的人工標注,最后達到了 5.18M 張 mask,是至今最大規(guī)模的帶人工標簽的全景分割理解數(shù)據(jù)集,命名為 COCONut。該成果已入選 CVPR2024。


字節(jié)提出新一代數(shù)據(jù)集COCONut,比COCO粒度分割更密集-AI.x社區(qū)


  • 論文鏈接:https://arxiv.org/abs/2404.08639
  • 代碼和數(shù)據(jù)集鏈接: https://xdeng7.github.io/coconut.github.io/ ?


視頻展示了 COCONut 的單張圖片的 mask 密度以及語義類別的統(tǒng)計,可以看出,數(shù)據(jù)集的語義豐富以及 mask 分割粒度精細。該數(shù)據(jù)集還支持多種理解任務(wù),例如全景分割,實例分割,語義分割,目標檢測,語義控制生成和開放詞匯分割,在多項任務(wù)上,僅通過替換數(shù)據(jù)集就達到了明顯的性能提升。


字節(jié)提出新一代數(shù)據(jù)集COCONut,比COCO粒度分割更密集-AI.x社區(qū)

標注方法


通常只采用人工標注是非常昂貴的,這也是目前現(xiàn)存的大多數(shù)公開數(shù)據(jù)集規(guī)模上不去的一個重要原因。還有一些數(shù)據(jù)集直接使用模型生成的標簽,但往往這種生成的標簽對模型的訓(xùn)練不會有太大的提高,本文也驗證了這一點。所以本文提出了一種新穎的標注方式,結(jié)合人工的半自動標簽生成。既能保證數(shù)據(jù)標注的精度又能實現(xiàn)人工勞動力的節(jié)省成本,同時還能加速標注過程。


字節(jié)提出新一代數(shù)據(jù)集COCONut,比COCO粒度分割更密集-AI.x社區(qū)


標注精度對比


研究者把 COCONut 和 COCO 在同一張圖上的標注進行對比。從下圖的對比可以看到本文提出的標注方法達到了和純?nèi)斯び?Photoshop 標注幾乎一致的精度,但是在標注速度上提高了 10 倍以上。


字節(jié)提出新一代數(shù)據(jù)集COCONut,比COCO粒度分割更密集-AI.x社區(qū)


字節(jié)提出新一代數(shù)據(jù)集COCONut,比COCO粒度分割更密集-AI.x社區(qū)


COCONut 數(shù)據(jù)集詳情


和已有的 COCO 數(shù)據(jù)集相比,數(shù)據(jù)集各個類別的分布比較相近,但是在每張圖的 mask 總量上是超過 COCO 數(shù)據(jù)集的,尤其是有大量單張圖片有超過 100 張 mask 的情況,由此說明了 COCONut 的標注更為精細,粒度分割更密集。


字節(jié)提出新一代數(shù)據(jù)集COCONut,比COCO粒度分割更密集-AI.x社區(qū)


實驗驗證


除了提出一個更好的訓(xùn)練集,研究者還發(fā)現(xiàn)現(xiàn)有的驗證集不能很好的體現(xiàn)模型性能的提升,因此本文還提出了一個更加富有挑戰(zhàn)性的、可以反映模型的提升的測試集,命名為 COCONut-val. 從下表可以看到,僅替換數(shù)據(jù)集,更高精度的訓(xùn)練集可以帶來模型很大的提升,例如在全景分割上達到超過 4 個點的 PQ。然而當(dāng)訓(xùn)練集的規(guī)模增加了之后,可以發(fā)現(xiàn),用現(xiàn)有的測試集做測試并不能反映出模型的提升,而 COCONut-val 則能反映出模型在增加了訓(xùn)練集數(shù)據(jù)量之后仍然有明顯的提升。

字節(jié)提出新一代數(shù)據(jù)集COCONut,比COCO粒度分割更密集-AI.x社區(qū)


下圖為驗證集語義類別和 mask 密度的對比,可以看出新提出的驗證集更具有挑戰(zhàn)性,更能反映模型的提升。


字節(jié)提出新一代數(shù)據(jù)集COCONut,比COCO粒度分割更密集-AI.x社區(qū)


了解更多實驗結(jié)果可參考原論文,團隊后續(xù)將在 GitHub 主頁提供數(shù)據(jù)集和相應(yīng)的模型公開下載。


字節(jié)跳動智能創(chuàng)作團隊


智能創(chuàng)作團隊是字節(jié)跳動 AI & 多媒體技術(shù)團隊,覆蓋了計算機視覺、音視頻編輯、特效處理等技術(shù)領(lǐng)域,借助公司豐富的業(yè)務(wù)場景、基礎(chǔ)設(shè)施資源和技術(shù)協(xié)作氛圍,實現(xiàn)了前沿算法 - 工程系統(tǒng) - 產(chǎn)品全鏈路的閉環(huán),旨在以多種形式為公司內(nèi)部各業(yè)務(wù)提供業(yè)界前沿的內(nèi)容理解、內(nèi)容創(chuàng)作、互動體驗與消費的能力和行業(yè)解決方案。


目前,智能創(chuàng)作團隊已通過字節(jié)跳動旗下的云服務(wù)平臺火山引擎向企業(yè)開放技術(shù)能力和服務(wù)。更多大模型算法相關(guān)崗位開放中。


本文轉(zhuǎn)自機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/_yqdnpKl03EYMgdKKwoABg??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦