自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CVPR 2024 | 合成視頻數(shù)據(jù)集里只有單人數(shù)據(jù)?M3Act破解人群行為標注難題 精華

發(fā)布于 2024-6-3 10:00
瀏覽
0收藏

CVPR 2024 | 合成視頻數(shù)據(jù)集里只有單人數(shù)據(jù)?M3Act破解人群行為標注難題-AI.x社區(qū)


  • 論文鏈接:https://arxiv.org/abs/2306.16772
  • 項目鏈接:https://cjerry1243.github.io/M3Act/
  • 論文標題:M3Act: Learning from Synthetic Human Group Activities

引言


通過視覺信息識別、理解人群的行為是視頻監(jiān)測、交互機器人、自動駕駛等領(lǐng)域的關(guān)鍵技術(shù)之一,但獲取大規(guī)模的人群行為標注數(shù)據(jù)成為了相關(guān)研究的發(fā)展瓶頸。如今,合成數(shù)據(jù)集正成為一種新興的,用于替代現(xiàn)實世界數(shù)據(jù)的方法,但已有研究中的合成數(shù)據(jù)集主要聚焦于人體姿態(tài)與形狀的估計。它們往往只提供單個人物的合成動畫視頻,而這并不適用于人群的視頻識別任務。


CVPR 2024 | 合成視頻數(shù)據(jù)集里只有單人數(shù)據(jù)?M3Act破解人群行為標注難題-AI.x社區(qū)


在這篇文章中,作者提出了一個適用于多群組人群行為的合成數(shù)據(jù)生成框架 M3Act。實驗顯示,該合成數(shù)據(jù)集可以大大提高下游模型在多人跟蹤和群體活動識別上的性能,并可以在 DanceTrack 任務上替代超過 62.5% 的真實數(shù)據(jù),從而在現(xiàn)實應用場景中降低數(shù)據(jù)標注成本。此外,該合成數(shù)據(jù)框架還提出一類新的任務:可控 3D 群體活動生成。該任務旨在利用多種輸入(活動類別、群體大小、軌跡、密度、速度和文本輸入)直接控制群體活動生成結(jié)果。作者嚴格定義了任務和指標,并提供了有競爭力的基線和結(jié)果。


數(shù)據(jù)生成


基于 Unity 引擎開發(fā),M3Act 涵蓋了多種行為類型的人群數(shù)據(jù),提供了高度多樣化和逼真的視頻圖像,以及全面的數(shù)據(jù)標記。與其他合成數(shù)據(jù)集相比,M3Act 提供了更為全面的標記數(shù)據(jù),包括 2D 和 3D 標記以及細粒度的個人級別和群組級別標簽,因此使其成為支持多人和多組研究任務的理想合成數(shù)據(jù)集生成器。 


CVPR 2024 | 合成視頻數(shù)據(jù)集里只有單人數(shù)據(jù)?M3Act破解人群行為標注難題-AI.x社區(qū)


數(shù)據(jù)生成器包括 25 個 3D 場景、104 個高動態(tài)范圍全景圖像、5 種光線設(shè)置、2200 個人物模型、384 個動畫(14 個動作類別)和 6 個群體活動類型。數(shù)據(jù)生成過程如下所示,首先通過隨機化過程確定一個模擬情景內(nèi)的所有參數(shù),然后根據(jù)參數(shù)生成帶有背景對象、燈光和攝像機的 3D 場景,以及帶有動畫的人物模型群組。最后從多個視角渲染 RGB 圖像并導出標記結(jié)果。 


CVPR 2024 | 合成視頻數(shù)據(jù)集里只有單人數(shù)據(jù)?M3Act破解人群行為標注難題-AI.x社區(qū)


為確保模擬數(shù)據(jù)具有高度多樣性,M3Act 為數(shù)據(jù)生成過程的幾乎所有方面提供隨機化。這包括場景中的群體數(shù)量、每個群體中的人數(shù)、群體的位置、群體中人的排列、個體的位置、實例化角色的紋理,以及場景、照明條件、相機位置、角色、群體活動、原子動作和動畫片段的選擇。每個群體活動也被構(gòu)建為一個參數(shù)化模塊。這些參數(shù)包括群體中的個體數(shù)量和群體活動內(nèi)允許的特定原子動作。


最終生成的數(shù)據(jù)集分為兩個部分。第一部分 「M3ActRGB」 包含了 6000 次單一但多類型群體活動的模擬和 9000 次多群體多類型模擬,總計 600 萬張 RGB 圖像和 4800 萬個邊界框(bounding box)。第二部分 「M3Act3D」 僅包含 3D 數(shù)據(jù)。它由超過 65000 次 150 幀單一多類型群體活動的模擬組成,總時長達 87.6 小時。據(jù)作者所知,M3Act3D 的群體大小和互動復雜度顯著高于以前的多人運動數(shù)據(jù)集,是第一個針對大型群體活動的大規(guī)模 3D 數(shù)據(jù)集。


實驗結(jié)果


M3Act 的實際效果通過三個核心實驗展示:多人跟蹤、群體活動識別和可控群體活動生成。


實驗一:多人跟蹤


研究發(fā)現(xiàn),在既有模型 MOTRv2 [1] 的訓練中添加合成數(shù)據(jù)后,模型在所有 5 個指標上都有顯著提高,特別是在 HOTA 指標上的排名中從第 10 位躍至第 2 位。同時,當訓練集中 62.5% 的真實數(shù)據(jù)被合成數(shù)據(jù)替換之后,模型依然可以取得相似的性能。另外,與其他合成數(shù)據(jù)源相比,如 BEDLAM 和 GTA-Humans,M3Act 為模型訓練提供了更大的性能進步,表明其更適合多人群體活動任務。最后,下表展示了不同模型在 M3Act 下的訓練結(jié)果。結(jié)果表明,M3Act 在各種模型中都是有效的。


CVPR 2024 | 合成視頻數(shù)據(jù)集里只有單人數(shù)據(jù)?M3Act破解人群行為標注難題-AI.x社區(qū)


實驗二:群體活動識別


類似地,M3Act 也提高了兩個既有群體活動識別模型的性能,如下表所示:隨著用于預訓練的合成數(shù)據(jù)量的增加,識別準確性不斷提高。使用 100% 的合成數(shù)據(jù)時,群體活動識別模型 Composer [2] 的準確率在群體級別平均提高了 4.87%,個人級別提高了 7.43%,而另一群體活動識別模型 Actor Transformer [3] 在群體級別上看到了 5.59% 準確率的增加,在個人級別上增加了 5.43%。


CVPR 2024 | 合成視頻數(shù)據(jù)集里只有單人數(shù)據(jù)?M3Act破解人群行為標注難題-AI.x社區(qū)

 

下表展示了使用不同輸入模態(tài)在 CAD2 和 Volleyball(VD)上的群體識別準確率。實驗中的性能增益表明,M3Act 的合成數(shù)據(jù)可以有效地利于下游任務,并橫跨不同模型、輸入模態(tài)和數(shù)據(jù)集。


CVPR 2024 | 合成視頻數(shù)據(jù)集里只有單人數(shù)據(jù)?M3Act破解人群行為標注難題-AI.x社區(qū)


實驗三:可控 3D 群體活動生成


CVPR 2024 | 合成視頻數(shù)據(jù)集里只有單人數(shù)據(jù)?M3Act破解人群行為標注難題-AI.x社區(qū)


作者提出了一個新型任務:可控 3D 群體活動生成。該任務旨在基于給定的活動類別標簽和任意群體大小,從高斯噪聲中合成一組 3D 人類動作。既有研究盡管可以生成多人動作,但它們限于雙人場景或具有固定人數(shù)的群體。因此,作者提出了兩個基線方法。在第一個基線方法中,群體活動通過重復調(diào)用單人運動擴散模型 MDM [4] 來實現(xiàn),因此每個個體的生成過程都是獨立的。第二個方法則基于 MDM 增加了一個互動變換器(IFormer)。由于其對人類互動的建模,MDM+IFormer 能夠在一次前向傳播中產(chǎn)生協(xié)調(diào)的群體活動。


作者從在群體和個體兩個層面考慮以下評估指標:識別準確率、弗雷歇特初始距離(FID)、多樣性和多模性。此外,作者基于社會力模型,在群體層面增補了四個基于位置的指標:碰撞頻率、排斥互動力、接觸排斥力和總排斥力。結(jié)果顯示:


  • MDM+IFormer 能夠生成具有良好對齊的角色位置的群體活動。請參見下面的定性圖。
  • 兩個基線方法都能生成與輸入條件匹配的多樣化活動,但 MDM+IFormer 獲得了更好的 FID 分數(shù)。
  • MDM+IFormer 中的互動變換器大大降低了生成的群體活動內(nèi)的碰撞頻率。


CVPR 2024 | 合成視頻數(shù)據(jù)集里只有單人數(shù)據(jù)?M3Act破解人群行為標注難題-AI.x社區(qū)


CVPR 2024 | 合成視頻數(shù)據(jù)集里只有單人數(shù)據(jù)?M3Act破解人群行為標注難題-AI.x社區(qū)


結(jié)論


論文作者通過多模態(tài)和增強性能的三個核心實驗以及引入一種新的生成任務,展示了 M3Act 的優(yōu)點。在多人跟蹤和群體活動識別實驗中,他們觀察到了隨著更多合成數(shù)據(jù)的加入,模型對未見測試案例的泛化能力得到了改善。


此外,M3Act 中的合成數(shù)據(jù)可以替代部分目標領(lǐng)域的真實數(shù)據(jù)而不影響性能,從而有望減少訓練過程中對大量真實數(shù)據(jù)的需求,進而降低了數(shù)據(jù)收集和標注的成本。這一發(fā)現(xiàn)證明了小樣本甚至零樣本從模擬數(shù)據(jù)遷移到現(xiàn)實數(shù)據(jù)的潛力。


在可控 3D 群體活動生成中,盡管 MDM+IFormer 只是這一任務的基線模型,它仍然學習到了人物運動的交互規(guī)則,并在控制下生成對齊良好的群體活動。值得注意的是,盡管生成方法目前表現(xiàn)不及程序化方法,但它展示了直接從各種信號(活動類別、群組大小、軌跡、密度、速度和文本輸入)控制群體動作的潛力。隨著未來數(shù)據(jù)可用性增加和生成模型能力的提升,論文作者預計生成方法最終將占據(jù)優(yōu)勢,在社會互動和人類集體活動方面得到更廣泛應用。


盡管 M3Act 數(shù)據(jù)集中群體行為的復雜性可能受到數(shù)據(jù)生成過程中啟發(fā)式規(guī)則的限制,M3Act 在整合新的群體活動方面提供了顯著的靈活性,從而適應任何特定的下游任務。這些新群體可以來源于專家指導的啟發(fā)式規(guī)則、大型語言模型生成的規(guī)則或可控 3D 群體活動生成模型的輸出。此外,論文作者認識到合成數(shù)據(jù)與現(xiàn)實世界數(shù)據(jù)之間存在的領(lǐng)域差異。隨著未來版本中數(shù)據(jù)生成器中資產(chǎn)的增加,可以提高模型的泛化能力并緩解這些差異。

收藏
回復
舉報
回復
相關(guān)推薦