人機(jī)交互與場景合成:人機(jī)交互統(tǒng)一技能模型
TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization
2025-03-25|Shanghai AI Lab, HKU, Independent Researcher, SEU, Feeling AI|CVPR 2025|??14
???http://arxiv.org/abs/2503.19901v1????
????https://huggingface.co/papers/2503.19901????
????https://liangpan99.github.io/TokenHSI???
研究背景與意義
TokenHSI旨在解決當(dāng)前物理角色控制方法中普遍存在的局限性,即無法有效整合多種復(fù)雜的人體場景交互(HSI)技能。現(xiàn)有方法通常專注于單一任務(wù)控制器的開發(fā),導(dǎo)致在面對需要多技能協(xié)同的任務(wù)時(shí)表現(xiàn)不佳。TokenHSI通過引入基于Transformer架構(gòu)的統(tǒng)一策略網(wǎng)絡(luò),成功地將多個(gè)基礎(chǔ)HSI技能整合到一個(gè)模型中,并能夠靈活適應(yīng)新任務(wù)和環(huán)境。
- 研究背景:HSI合成對于計(jì)算機(jī)動(dòng)畫和具身AI至關(guān)重要,但目前的方法大多局限于特定任務(wù),難以處理多樣化的挑戰(zhàn)性任務(wù)。
- 研究意義:TokenHSI不僅實(shí)現(xiàn)了多技能的統(tǒng)一學(xué)習(xí),還顯著提升了模型對新任務(wù)和環(huán)境的適應(yīng)能力,為更復(fù)雜的HSI任務(wù)提供了可能。
研究方法與創(chuàng)新
TokenHSI的核心創(chuàng)新在于其獨(dú)特的架構(gòu)設(shè)計(jì)和高效的技能遷移機(jī)制。具體而言:
- 架構(gòu)設(shè)計(jì):
TokenHSI通過分離的人形本體感知(proprioception)令牌和任務(wù)令牌結(jié)合的方式,構(gòu)建了一個(gè)獨(dú)立的觀察空間。
使用掩碼機(jī)制在Transformer編碼器中結(jié)合本體感知令牌和任務(wù)令牌,使得模型能夠在多任務(wù)訓(xùn)練中實(shí)現(xiàn)有效的知識共享。
- 技能遷移:
模型支持可變長度輸入,允許靈活適應(yīng)新場景中的技能需求。
引入了專有的本體感知令牌化器(Tprop),有效促進(jìn)了多任務(wù)訓(xùn)練和策略適應(yīng)。
在推理階段,通過組合本體感知令牌和對應(yīng)的任務(wù)令牌,指導(dǎo)角色執(zhí)行特定任務(wù)。
- 優(yōu)勢對比:
相較于傳統(tǒng)方法,TokenHSI無需對預(yù)訓(xùn)練策略進(jìn)行全參數(shù)微調(diào),從而大幅提高了適應(yīng)效率。
通過零初始化適配層(adapter layers)和新增任務(wù)令牌化器(Tnew),模型能夠快速適應(yīng)新任務(wù)。
實(shí)驗(yàn)結(jié)果表明,TokenHSI在樣本效率和性能上顯著優(yōu)于近期的策略適應(yīng)方法。
實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
TokenHSI在多種HSI任務(wù)上的表現(xiàn)進(jìn)行了廣泛測試,包括技能組合、物體形狀變化、地形形狀變化和長期任務(wù)完成等。
- 實(shí)驗(yàn)設(shè)計(jì):
基礎(chǔ)技能學(xué)習(xí)階段:在多任務(wù)環(huán)境中訓(xùn)練Transformer策略,涵蓋跟隨、坐下、攀爬和攜帶四種代表性技能。
策略適應(yīng)階段:通過引入輕量級模塊(如Tnew、Tc和ξA),使學(xué)到的技能能夠靈活適應(yīng)更具挑戰(zhàn)性的HSI任務(wù)。
- 結(jié)果分析:
技能組合任務(wù)中,TokenHSI在保持高成功率的同時(shí),展現(xiàn)出更強(qiáng)的穩(wěn)定性。
物體形狀變化任務(wù)中,TokenHSI通過微調(diào)任務(wù)令牌化器(Tc),成功適應(yīng)了從盒子到不規(guī)則物體(如椅子和桌子)的變化。
地形形狀變化任務(wù)中,模型通過引入高度圖令牌化器,增強(qiáng)了對復(fù)雜地形的適應(yīng)能力。
長期任務(wù)完成任務(wù)中,TokenHSI展示了流暢的技能過渡和碰撞避免能力。
結(jié)論與展望
TokenHSI通過統(tǒng)一的Transformer策略網(wǎng)絡(luò),成功實(shí)現(xiàn)了多技能整合和高效的新任務(wù)適應(yīng)能力。
- 總結(jié)貢獻(xiàn):
提出了TokenHSI,一種基于Transformer的物理角色控制器,能夠整合多樣化的HSI技能。
展示了靈活且高效的策略適應(yīng)能力,避免了對預(yù)訓(xùn)練策略的全參數(shù)微調(diào)。
引入了專有的本體感知令牌化器,有效促進(jìn)了多任務(wù)訓(xùn)練和策略適應(yīng)。
- 分析局限:
當(dāng)前方法仍需依賴獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì),涉及繁瑣的試錯(cuò)過程。
長期任務(wù)完成目前仍為非自主模式,未來需探索更高效的解決方案。
- 方法展望:
探索利用人類數(shù)據(jù)或互聯(lián)網(wǎng)知識減少獎(jiǎng)勵(lì)工程的成本。
進(jìn)一步研究如何實(shí)現(xiàn)完全自主的長期任務(wù)完成能力。
本文轉(zhuǎn)載自???AI研究前瞻???,作者:胡耀淇
