自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sup id="pw2kk"><tfoot id="pw2kk"></tfoot></sup>

<em id="pw2kk"><span id="pw2kk"></span></em>

<s id="pw2kk"></s>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

ZeroHSI-一種零樣本的四維人類(lèi)-場(chǎng)景交互合成方法原創(chuàng)

發(fā)布于 2025-3-24 13:12

瀏覽

0收藏

本文介紹一種人類(lèi) - 場(chǎng)景交互合成方法

人類(lèi) - 場(chǎng)景交互（HSI）生成對(duì)于具身人工智能、虛擬現(xiàn)實(shí)和機(jī)器人技術(shù)等領(lǐng)域的應(yīng)用至關(guān)重要。雖然現(xiàn)有的方法能夠在三維場(chǎng)景中合成逼真的人類(lèi)動(dòng)作，并生成看似合理的人與物體之間的交互，但這些方法嚴(yán)重依賴于包含配對(duì)的三維場(chǎng)景和動(dòng)作捕捉數(shù)據(jù)的數(shù)據(jù)集。而在各種不同的環(huán)境和交互情況下收集這些數(shù)據(jù)既昂貴又耗時(shí)。本文介紹一種 ZeroHSI，通過(guò)整合視頻生成技術(shù)和神經(jīng)人體技術(shù)，實(shí)現(xiàn)了零樣本的四維人類(lèi) - 場(chǎng)景交互合成。

模型介紹

ZeroHSI-一種零樣本的四維人類(lèi)-場(chǎng)景交互合成方法-AI.x社區(qū)

本文提出的 ZeroHSI 方法主要通過(guò)整合視頻生成和神經(jīng)人體渲染技術(shù)，實(shí)現(xiàn)零樣本 4D 人類(lèi) - 場(chǎng)景交互合成，具體步驟如下：

HSI 視頻生成：基于渲染的初始狀態(tài)和文本提示生成人類(lèi) - 場(chǎng)景交互（HSI）視頻。利用先進(jìn)的視頻生成模型，從學(xué)習(xí)到的豐富運(yùn)動(dòng)先驗(yàn)中提取人類(lèi) - 場(chǎng)景交互動(dòng)作，無(wú)需 3D 人類(lèi)動(dòng)作或交互數(shù)據(jù)。這一步驟利用了視頻生成模型在大量數(shù)據(jù)上學(xué)習(xí)到的通用運(yùn)動(dòng)知識(shí)，為后續(xù)的交互合成提供基礎(chǔ)。
通過(guò)可微神經(jīng)渲染進(jìn)行優(yōu)化：運(yùn)用可微神經(jīng)渲染技術(shù)，通過(guò)最小化渲染視頻與生成的參考視頻之間的差異，來(lái)優(yōu)化每幀的相機(jī)姿態(tài)、人體姿態(tài)參數(shù)以及物體的六維姿態(tài)。具體來(lái)說(shuō)，使用 3D 高斯表示場(chǎng)景、對(duì)象和人體，在此基礎(chǔ)上計(jì)算渲染損失，進(jìn)而調(diào)整相關(guān)參數(shù)。這一過(guò)程使得生成的交互動(dòng)作在視覺(jué)上更加逼真，與參考視頻的一致性更高。
在潛在空間中優(yōu)化結(jié)果：在 VPoser 的潛在空間中對(duì)上述優(yōu)化結(jié)果進(jìn)一步處理，以提升生成動(dòng)作的物理合理性。通過(guò)在潛在空間中的調(diào)整，使得生成的人類(lèi)動(dòng)作更加符合現(xiàn)實(shí)世界中的物理規(guī)律，避免出現(xiàn)不合理的動(dòng)作姿態(tài)或交互效果。
數(shù)據(jù)處理與表示：在整個(gè)過(guò)程中，采用合適的數(shù)據(jù)處理和表示方法。如對(duì)場(chǎng)景、對(duì)象和人體使用 3D 高斯表示，這種表示方式有助于在渲染和優(yōu)化過(guò)程中更準(zhǔn)確地模擬和調(diào)整它們的形態(tài)和位置，從而提高交互合成的質(zhì)量和效率。

實(shí)驗(yàn)結(jié)果

ZeroHSI-一種零樣本的四維人類(lèi)-場(chǎng)景交互合成方法-AI.x社區(qū)

動(dòng)多樣性豐富：與 TRUMANS、LINGO 和 CHOIS 等基線方法相比，ZeroHSI 可以生成更加多樣的人類(lèi) - 場(chǎng)景交互動(dòng)作。它能夠捕捉到不同風(fēng)格、不同方式的交互行為，使得合成的交互場(chǎng)景更加生動(dòng)和真實(shí)。這對(duì)于模擬現(xiàn)實(shí)世界中復(fù)雜多樣的人類(lèi)行為非常重要，能夠滿足不同應(yīng)用場(chǎng)景對(duì)于豐富交互動(dòng)作的需求。
物理合理性較高：通過(guò)在 VPoser 的潛在空間中對(duì)結(jié)果進(jìn)行優(yōu)化，ZeroHSI 生成的動(dòng)作在物理層面上更加合理。動(dòng)作的姿態(tài)、力度和運(yùn)動(dòng)軌跡等方面都更符合現(xiàn)實(shí)世界的物理規(guī)律，避免了出現(xiàn)不自然或違背物理常識(shí)的動(dòng)作。比如在與物體進(jìn)行接觸和操作時(shí)，動(dòng)作的力度和方式能夠合理地反映出物體的質(zhì)量、形狀等屬性。
零樣本合成優(yōu)勢(shì)：ZeroHSI 方法最大的優(yōu)勢(shì)在于實(shí)現(xiàn)了零樣本的 4D 人類(lèi) - 場(chǎng)景交互合成，無(wú)需依賴包含配對(duì) 3D 場(chǎng)景和動(dòng)作捕捉數(shù)據(jù)的數(shù)據(jù)集。這大大降低了數(shù)據(jù)收集的成本和時(shí)間，同時(shí)也使得該方法能夠在更廣泛的場(chǎng)景和對(duì)象上進(jìn)行應(yīng)用，具有更強(qiáng)的泛化能力。

文轉(zhuǎn)載自公眾號(hào)瓦力算法學(xué)研所，作者：喜歡瓦力的卷卷

原文鏈接：??https://mp.weixin.qq.com/s/y1VtUO1hVvb7oFdobqPl8w??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

計(jì)算機(jī)視覺(jué)

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

基于知識(shí)圖譜的少樣本和零樣本學(xué)習(xí)綜述

mb5f8eba9bdb0af ? 2966瀏覽 ? 0回復(fù)
OpenAI 推出語(yǔ)音引擎，只需15秒樣本，即能重建任何人的聲音

pangguiyu ? 2458瀏覽 ? 0回復(fù)
僅聽(tīng)3秒，AI零樣本克隆人聲達(dá)到人類(lèi)水平，情緒語(yǔ)調(diào)隨意改

Crystalcxt ? 2309瀏覽 ? 0回復(fù)
ICLR 2024 | 跨領(lǐng)域準(zhǔn)確進(jìn)行零樣本異常檢測(cè)，浙大等提出AnomalyCLIP

輕薄滴假象 ? 2741瀏覽 ? 0回復(fù)
未來(lái)人類(lèi)只有母語(yǔ)一種語(yǔ)言

duhorse ? 2842瀏覽 ? 0回復(fù)
華科等提出VIMTS：零樣本視頻端到端識(shí)別新SOTA

duhorse ? 2699瀏覽 ? 0回復(fù)
清華推出首個(gè)通用城市時(shí)空預(yù)測(cè)模型UniST，零樣本場(chǎng)景開(kāi)箱即用｜KDD2024

Crystalcxt ? 2711瀏覽 ? 0回復(fù)
少或零樣本異常檢測(cè)最新研究跟蹤

angel ? 3948瀏覽 ? 0回復(fù)
大模型提示詞進(jìn)階，零樣本提示, 一次樣本提示和少樣本提示以及思維鏈(Chain of Thought, Cot)

AI探索時(shí)代 ? 3843瀏覽 ? 0回復(fù)
StyleTokenizer：零樣本精確控制圖像生成

angel ? 2594瀏覽 ? 0回復(fù)
Binary Block Masking：加快稀疏 Attention 的一種新方法

amei2000go ? 3725瀏覽 ? 0回復(fù)
生產(chǎn)環(huán)境測(cè)試模型的四種方法

魚(yú)蟲(chóng)子 ? 1912瀏覽 ? 0回復(fù)
GPT - SoVITS 如何憑借零樣本、少樣本及多語(yǔ)言功能解鎖語(yǔ)音合成新高度？

穿越時(shí)空111 ? 3771瀏覽 ? 0回復(fù)
3D任意部位分割：FIND 3D模型實(shí)現(xiàn)零樣本開(kāi)放世界文本查詢分割

AIGC最前線 ? 1874瀏覽 ? 0回復(fù)
大模型在零樣本面部情緒標(biāo)注中的突破與應(yīng)用

xuxiangda ? 2153瀏覽 ? 0回復(fù)
VideoGrain零樣本實(shí)現(xiàn)多粒度控制，精準(zhǔn)到像素級(jí)

angel ? 2032瀏覽 ? 0回復(fù)
一張圖生成舞蹈視頻！字節(jié)等發(fā)布黑科技X-Dancer：零樣本音樂(lè)驅(qū)動(dòng)，真實(shí)感碾壓3D方案

angel ? 1680瀏覽 ? 0回復(fù)
UB-Mesh：一種分層局部化的n維全互連數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)

chengganfei ? 4372瀏覽 ? 0回復(fù)
人機(jī)交互與場(chǎng)景合成：人機(jī)交互統(tǒng)一技能模型

AI研究前瞻 ? 881瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

大模型面經(jīng)：RAG與Long context“相愛(ài)相殺”背景下，如何設(shè)計(jì)最優(yōu)解決方案？ 2025-04-09 12:17:30發(fā)布
大模型調(diào)參技巧—如何實(shí)現(xiàn)超參的跨模型尺度遷移 2025-03-17 13:07:44發(fā)布

熱門(mén)推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣(mài)點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專(zhuān)屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：大模型調(diào)參技巧—如何實(shí)現(xiàn)超參的跨模型尺度遷移

下一篇：大模型面經(jīng)：RAG與Long context“相愛(ài)相殺”背景下，如何設(shè)計(jì)最優(yōu)解決方案？

社區(qū)精華內(nèi)容

目錄