自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

50條數(shù)據(jù)解鎖空間智能,RL視覺語言模型3D空間推理框架MetaSpatial |西北大學

人工智能 新聞
西北大學計算機系與基礎(chǔ)模型與生成式AI中心的研究人員潘震宇 (Zhenyu Pan) 以及其導師劉晗 (Han Liu) 提出了核心問題:是否可以通過規(guī)則驅(qū)動的強化學習策略,為視覺語言模型注入空間推理能力?

在三維空間理解任務中,讓視覺語言模型(VLM)生成結(jié)構(gòu)合理、物理一致的場景布局仍是一項挑戰(zhàn)。以“請將這些家具合理擺放在房間中”為例,現(xiàn)有模型盡管能夠識別圖像中的物體,甚至給出語義連貫的布局描述,但通常缺乏對三維空間結(jié)構(gòu)的真實建模,難以滿足基本的物理約束與功能合理性。

為了解決這一問題,已有研究嘗試采用多智能體交互(multi-agent interaction)方法,通過多個語言模型或代理之間的迭代協(xié)商與驗證優(yōu)化布局結(jié)果。然而,這類方法不僅計算成本高,而且在迭代過程中容易陷入死鎖,導致無法收斂至有效解。

另一類方法則通過構(gòu)建大規(guī)模真實房間布局的描述語料,結(jié)合監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)對模型進行訓練。這種方式可以在一定程度上提升模型基礎(chǔ)能力,但受到空間任務本身的限制:空間布局任務不存在唯一的標準答案。對于同一個輸入,合理的三維布局可以有多種形式,因此以單一ground truth為監(jiān)督信號的SFT方法無法全面覆蓋可能的合理解空間,限制了模型的泛化能力與生成多樣性。

針對這一挑戰(zhàn),西北大學計算機系與基礎(chǔ)模型與生成式AI中心的研究人員潘震宇 (Zhenyu Pan) 以及其導師劉晗 (Han Liu) 提出了核心問題:是否可以通過規(guī)則驅(qū)動的強化學習策略,為視覺語言模型注入空間推理能力?

三維布局任務具備強化學習適用的若干關(guān)鍵特性:

  • 不存在標準解,目標是生成符合約束的多樣性解;
  • 缺乏精確標注,導致監(jiān)督信號稀缺;
  • 存在可程序化檢測的目標函數(shù),如物體重疊、越界、功能邏輯合理性等。

強化學習(Reinforcement Learning)通過獎勵函數(shù)(reward function)而非依賴人工標注,引導模型在與環(huán)境交互中不斷優(yōu)化策略。這使其天然適用于空間布局這類缺乏唯一標準答案、解空間復雜多樣的任務。近年來,結(jié)合規(guī)則獎勵機制的強化微調(diào)范式(Reinforcement Fine-Tuning, RFT)已在結(jié)構(gòu)化任務中取得顯著成果,如文本生成、數(shù)學推理、代碼理解等,典型代表包括DeepSeek-R1和OpenAI o1。

然而,在三維空間推理這一融合視覺、語言與結(jié)構(gòu)理解的多模態(tài)任務中,這一策略仍未被充分探索。

為此,他們提出了MetaSpatial框架。該方法首次將基于規(guī)則獎勵的RFT策略成功遷移至視覺語言模型(VLMs)的空間布局場景中,在僅使用約50條無ground truth數(shù)據(jù)的條件下,即可顯著提升模型的空間推理能力與布局生成質(zhì)量。

具體而言,MetaSpatial構(gòu)建了一套可程序化評估的獎勵函數(shù),衡量布局結(jié)構(gòu)是否合理、是否滿足物理約束,以及是否符合用戶偏好。同時引入多輪布局 refinement 機制,引導模型在訓練過程中逐步優(yōu)化空間決策。借助這一策略,模型無需依賴大規(guī)模標注數(shù)據(jù),即可學習到具備泛化能力與結(jié)構(gòu)適應性的空間推理策略

實驗結(jié)果顯示,MetaSpatial在多個空間生成指標上顯著優(yōu)于傳統(tǒng)SFT方法,充分驗證了基于規(guī)則獎勵的強化學習在三維空間智能建模中的有效性與通用性。

MetaSpatial:引入R1突破3D空間推理壁壘

MetaSpatial 將訓練3D空間推理過程建模為一個多輪決策過程,其基本形式是:給定一組多模態(tài)輸入,模型通過一系列推理步驟生成結(jié)構(gòu)化布局輸出,并基于可程序化評估的獎勵信號進行策略優(yōu)化。

圖片

輸入與輸出形式

在每一輪交互中,MetaSpatial的輸入包括:

  • 場景圖像或房間結(jié)構(gòu)圖;
  • 房間的幾何尺寸信息(長、寬、高);
  • 用戶提供的偏好描述(如功能用途、風格要求等);
  • 需要布局的目標物體列表(包含物體類型、狀態(tài)等)。

圖片

模型輸出為兩個部分:

  1. 語言化的推理過程:記錄模型在布局時的決策理由;
  2. 結(jié)構(gòu)化布局 JSON:每個物體的三維坐標位置(x, y, z)和名稱等,作為布局結(jié)果。
<think>
The goal is to arrange the objects in a dinning room setting that includes a ,..., and respect the spatial constraints and user preferences. Here's how we can approach this:


1. **Kitchen Island**: Place it centrally ...
2. **Hanging Pot Rack**: Hang it above ...
...
Let's compute the positions:
- **Kitchen Island**: (3, 2.5, 0.45)
- **Hanging Pot Rack**: (3, 2.5, 0.65)
...
Now, let's generate the JSON output.
</think>


<answer>
[{"new_object_id": "kitchen_island_1", "x": 3.0, "y": 2.5, "z": 0.45}, ......]
</answer>

該布局JSON文件既作為最終輸出,也作為強化學習中的環(huán)境狀態(tài),用于評估和反饋。

獎勵函數(shù)與懲罰機制設(shè)計

為了衡量布局結(jié)果的好壞,MetaSpatial構(gòu)建了三級獎勵信號,分別從結(jié)構(gòu)合法性、物理合理性和主觀偏好三個維度評價模型輸出:

1. 格式獎勵(Format Reward)

  • 檢查輸出的 JSON 是否完整;
  • 所有目標物體是否都被覆蓋;
  • 每個物體是否都包含完整的空間參數(shù)(x/y/z 坐標、尺寸、方向等)。

2. 物理獎勵(Physics Reward)

  • 利用輸出中的幾何信息重建場景;
  • 計算是否存在物體之間的重疊(collision);
  • 檢查物體是否越界、浮空或違反場景邊界;
  • 對不滿足物理約束的比例部分施加懲罰。

圖片

3. 物理獎勵(Physics Reward)

  • 將輸出布局通過腳本用Blender渲染為三維場景圖;
  • 輸入至 GPT-4o 進行審美評分;
  • 綜合評分其物理一致性、美學質(zhì)量與用戶偏好匹配度。
{'realism_and_3d_geometric_consistency': {'mean': 5.0, 'std': 0.0}, 
 'functionality_and_activity_based_alignment': {'mean': 6.0, 'std': 0.0}, 
 'layout_and_furniture': {'mean': 5.0, 'std': 0.0},
 'color_scheme_and_material_choices': {'mean': 4.0, 'std': 0.0}, 
 'overall_aesthetic_and_atmosphere': {'mean': 4.0, 'std': 0.0}}

最終獎勵為三者的加權(quán)組合,提供連續(xù)型反饋信號,以供強化學習優(yōu)化使用。

Trajectory 生成與多輪布局優(yōu)化

與傳統(tǒng)一次性生成不同,MetaSpatial 在訓練階段采用multi-turn rollout策略,允許模型對布局結(jié)果進行多輪 refinement:

  • 初始布局生成后,模型可查看自己生成的坐標結(jié)構(gòu)與得分;
  • 根據(jù)獎勵反饋進行布局更新并重復多輪;
  • 每一輪的輸入、輸出、獎勵構(gòu)成一條布局軌跡(trajectory);
  • 多輪優(yōu)化后選取最終布局作為當前 episode 的最終結(jié)果。

這種機制不僅提高了模型的布局能力,也為策略訓練提供了更多的高質(zhì)量決策路徑。

策略優(yōu)化:基于 GRPO 的強化學習訓練

為實現(xiàn)穩(wěn)定、高效的策略更新,MetaSpatial引入了Group Relative Policy Optimization(GRPO)。與常規(guī)的策略梯度方法不同,GRPO 不依賴于單條軌跡進行更新,而是利用同一輸入樣本生成的多條trajectory作為一個group進行比較性學習。

具體過程如下:

  • 對于每組輸入,執(zhí)行多次layout generation,得到若干個軌跡;
  • 比較這些候選軌跡的獎勵得分,計算相對優(yōu)勢;
  • 根據(jù)組內(nèi)得分排序結(jié)果,優(yōu)化策略網(wǎng)絡,使高獎勵軌跡的概率增加,低獎勵軌跡的概率下降;
  • 避免了對某一“絕對最優(yōu)”解的依賴,提升了學習過程的穩(wěn)定性與策略的泛化能力。

借助GRPO,MetaSpatial能夠在樣本極少(如僅50條無標注數(shù)據(jù))的情況下,穩(wěn)定學得適應性強的空間決策能力。

MetaSpatial實驗結(jié)果

1. Qwen2.5 的 7B 和 3B 兩個視覺語言模型(VLM)都從 MetaSpatial 框架中受益,但其中 7B 模型的性能提升更加顯著。相比之下,3B 模型仍然在輸出格式的生成方面存在困難,比如無法始終保持與輸入一致的物體數(shù)量和名稱,或是未能為所有物體持續(xù)穩(wěn)定地提供完整的三維坐標(x, y, z)。

圖片

2. 實驗結(jié)果表明,MetaSpatial 能夠有效提升Qwen2.5-VL的3B和7B 模型的空間布局能力,但其中7B模型的提升更加明顯。具體表現(xiàn)為:隨著訓練的進行,7B模型能夠生成更長、更穩(wěn)定、結(jié)構(gòu)更清晰的響應,而3B模型的輸出則表現(xiàn)出較大的不一致性,其響應長度波動較大,最小值和最大值之間頻繁跳變,顯示出在保持輸出格式一致性方面的困難(例如:物體數(shù)量正確、結(jié)構(gòu)化空間坐標完整等)。相比之下,7B模型的響應更加穩(wěn)定,這也進一步印證了一個趨勢:規(guī)模更大的模型在強化學習驅(qū)動的空間推理任務中更具適應能力。

圖片


3. 在“RL-Before vs RL-After”的對比實驗中,MetaSpatial 框架在提升模型三維空間推理能力方面的效果得到了清晰體現(xiàn)。強化學習訓練前,模型生成的物體布局普遍混亂、錯位,且常出現(xiàn)物體漂浮、重疊或放置在不符合物理規(guī)律的位置等問題。訓練后,生成的布局則變得更加結(jié)構(gòu)化、逼真,并且在語義上更加連貫,表現(xiàn)出更強的空間感知能力、物體對齊能力以及功能合理性。


圖片這些結(jié)果進一步強化了一個核心結(jié)論:強化學習能夠有效優(yōu)化視覺語言模型的空間推理策略,使其具備更自然、更實用的三維場景生成能力,可廣泛應用于如元宇宙、AR/VR 以及游戲開發(fā)等多種現(xiàn)實場景中。

總結(jié)

總的來說,MetaSpatial的貢獻主要有下面四部分:

  1. 提出 MetaSpatial 框架:提出了 MetaSpatial,第一個基于強化學習(RL)的三維空間推理框架,使視覺語言模型(VLMs)能夠在無需復雜后處理的情況下直接生成結(jié)構(gòu)合理的三維場景。
  2. 引入多輪布局優(yōu)化機制與 GRPO 策略:設(shè)計了一種多輪布局 refinement 機制,結(jié)合 Group Relative Policy Optimization(GRPO)方法,使模型能通過多次調(diào)整與推理路徑,學習更具泛化性與適應性的空間推理能力。
  3. 構(gòu)建三重獎勵體系:設(shè)計了一套結(jié)構(gòu)化評估體系,涵蓋格式檢測、物理合理性檢測與基于渲染的視覺評價,為強化學習提供自適應、可擴展的獎勵信號。
  4. 驗證方法有效性:在多種模型和空間場景上進行的實驗證明,MetaSpatial 能顯著提升模型在三維場景生成中的布局連貫性、物理一致性和整體質(zhì)量。

目前,項目已全面開源,包含訓練代碼、評測流程、數(shù)據(jù)集生成腳本以及完整的數(shù)據(jù)集。

項目地址: https://github.com/PzySeere/MetaSpatial

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-02-19 07:10:00

視覺模型

2024-08-07 13:00:00

2023-10-30 15:12:29

人工智能AI

2024-12-10 09:40:00

AI3D模型

2022-05-23 10:26:10

人工智能機器學習機器視覺

2025-03-03 08:50:00

AI目標檢測模型

2024-11-21 13:45:00

神經(jīng)網(wǎng)絡AI

2024-04-11 11:35:03

大語言模型LLMs

2024-04-12 15:10:12

框架模型

2020-08-26 10:37:21

阿里3D

2025-01-02 12:22:09

2011-04-29 14:39:47

麗訊投影機

2024-11-06 09:47:00

2025-04-25 09:15:00

模型數(shù)據(jù)AI

2025-03-28 10:42:17

2025-01-03 11:37:13

2018-03-28 09:18:35

CITE智能制造3D打印館

2012-04-20 10:46:03

明基投影機

2025-03-14 10:26:58

點贊
收藏

51CTO技術(shù)棧公眾號