自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ICLR 2025 | 西湖大學(xué)提出閉環(huán)擴散控制策略,高效與閉環(huán)兼得

人工智能 新聞
西湖大學(xué)研究團隊最新提出的 CL-DiffPhyCon 框架,通過異步并行去噪技術(shù),在閉環(huán)控制要求下,顯著提升了控制效率和效果。論文最近被人工智能領(lǐng)域頂級會議 ICLR 2025 接收。

本文來自西湖大學(xué)人工智能系的吳泰霖團隊。本文有兩位共同第一作者:魏龍是西湖大學(xué)人工智能系博士后,馮浩東是西湖大學(xué)博士生。通訊作者吳泰霖是西湖大學(xué)人工智能系特聘研究員,其領(lǐng)導(dǎo)的人工智能與科學(xué)仿真發(fā)現(xiàn)實驗室主要研究方向為開發(fā)生成模型方法并用于科學(xué)和工程領(lǐng)域的仿真、設(shè)計和控制。

高效閉環(huán)控制是復(fù)雜系統(tǒng)控制的核心要求。傳統(tǒng)控制方法受限于效率與適用性挑戰(zhàn);而新興的擴散模型雖然表現(xiàn)出色,卻難以滿足高效閉環(huán)控制的要求。西湖大學(xué)研究團隊最新提出的 CL-DiffPhyCon 框架,通過異步并行去噪技術(shù),在閉環(huán)控制要求下,顯著提升了控制效率和效果。論文最近被人工智能領(lǐng)域頂級會議 ICLR 2025 接收。

  • 論文標題:CL-DiffPhyCon: Closed-loop Diffusion Control of Complex Physical Systems
  • 論文鏈接:https://openreview.net/pdf?id=PiHGrTTnvb
  • 代碼地址:https://github.com/AI4Science-WestlakeU/CL_DiffPhyCon

一、研究背景

在科學(xué)研究、工程實踐以及具身智能等諸多領(lǐng)域,系統(tǒng)控制問題都有著廣泛的應(yīng)用。在這些場景中,高效閉環(huán)控制是核心性能要求。例如,當機器人在復(fù)雜環(huán)境中執(zhí)行任務(wù),必須對周圍環(huán)境變化做出即時反應(yīng)。這就需要控制系統(tǒng)能夠根據(jù)環(huán)境實時反饋,迅速調(diào)整控制信號,保證每一個動作指令都基于最新的環(huán)境狀態(tài)生成。另外,工業(yè)制造、航空航天、能源生產(chǎn)等科學(xué)和工程領(lǐng)域的系統(tǒng)控制任務(wù),同樣面臨著如何實現(xiàn)高效閉環(huán)控制的難題。

在過往的研究當中,涌現(xiàn)出了傳統(tǒng)控制方法,以及近年來的深度學(xué)習(xí)、強化學(xué)習(xí)、模仿學(xué)習(xí)等眾多控制方法。近期的 DiffPhyCon [1] 等研究表明,基于擴散模型 [2] 的方法在復(fù)雜物理系統(tǒng)控制中表現(xiàn)出色,尤其是對高維、長時間跨度的控制問題具有顯著的優(yōu)勢,這主要源自于擴散模型擅長學(xué)習(xí)高維分布的特性。這類方法從離線收集的軌跡數(shù)據(jù)中學(xué)習(xí)一個去噪模型,從噪聲開始,利用去噪模型逐步去噪,產(chǎn)生控制信號。此外,基于擴散模型的策略在機器人操作任務(wù)中也具有優(yōu)異的表現(xiàn) [3]。

然而,現(xiàn)有的擴散控制方法在應(yīng)用到閉環(huán)控制時,會遇到控制效果和效率難以平衡的缺陷。它們的模型窗口內(nèi)所有物理時間步,都要經(jīng)歷從純噪聲開始的完整去噪采樣過程。若每個物理時間窗口都照此采樣并將其中的最早控制信號用于控制,雖然能實現(xiàn)閉環(huán)控制,卻會帶來非常高昂的采樣成本。而且,這種方式還可能會破壞控制信號的時序一致性,影響整體控制性能。反之,如果為了提高采樣效率,每隔若干個物理時間步才進行一次完整采樣,又脫離了閉環(huán)控制的要求。

雖然近期有研究工作提出在線重新規(guī)劃策略(RDM)[4],自適應(yīng)地確定何時重新規(guī)劃控制序列,但這種策略也不是真正意義上的閉環(huán)框架。它們往往需要額外的似然估計計算開銷,還依賴額外的超參數(shù)。面對不同任務(wù)場景,需要多次實驗來調(diào)試這些超參數(shù),增加了應(yīng)用難度和不確定性。

二、本文主要貢獻

針對現(xiàn)有擴散控制方法在閉環(huán)控制中遇到的上述問題,本論文提出了一種基于擴散模型的閉環(huán)控制方法 CL-DiffPhyCon,它能夠根據(jù)環(huán)境的實時反饋生成控制信號,實現(xiàn)了高效的閉環(huán)控制。該方法的核心思想是將擴散模型中的物理時間步和去噪過程解耦,允許不同的物理時間步呈現(xiàn)不同的噪聲水平,從而實現(xiàn)了控制序列的高效閉環(huán)生成。論文在 1D Burgers’方程控制和 2D 不可壓縮流體控制兩個任務(wù)上,驗證了 CL-DiffPhyCon 的顯著結(jié)果。

如下圖 1 中所示,該方法具有如下優(yōu)勢:

  1. 高效采樣:CL-DiffPhyCon 通過異步去噪框架,能夠顯著減少采樣過程中的計算成本,提高采樣效率。與已有的擴散控制方法相比,CL-DiffPhyCon 能夠在更短的時間內(nèi)生成高質(zhì)量的控制信號。
  2. 閉環(huán)控制:CL-DiffPhyCon 實現(xiàn)了閉環(huán)控制,能夠根據(jù)環(huán)境的實時反饋不斷調(diào)整控制策略。相比已有的開環(huán)擴散控制方法,提高了控制效果。
  3. 加速采樣:此外,CL-DiffPhyCon 還能與 DDIM [5] 等擴散模型的加速采樣技術(shù)結(jié)合,在維持控制效果基本不變的前提下,進一步提升控制效率。

圖 1:本文的 CL-DiffPhyCon(右圖)相較于以往擴散控制方法(左圖和中圖)的優(yōu)勢。通過采用異步去噪框架,該方法能夠?qū)崿F(xiàn)閉環(huán)控制,并顯著加快采樣過程。其中,H表示擴散模型包含的物理時間窗口長度,DiffPhyCon - h表示每隔h個物理時間步進行一次包含T個去噪步驟的完整采樣過程,然后將采樣的控制信號序列中的前h個依次用于開環(huán)控制。這里沒有展示與 DDIM [5] 的結(jié)合。

三、問題設(shè)置和預(yù)備知識

1. 問題設(shè)置:

給定初始狀態(tài)、系統(tǒng)動力學(xué)G以及特定的控制目標,本文考慮如下復(fù)雜系統(tǒng)的控制問題:

這里,分別是物理時間步時的系統(tǒng)狀態(tài)和外部控制信號,軌跡的長度為N。系統(tǒng)動力學(xué)G代表系統(tǒng)在外部控制信號下隨時間的狀態(tài)轉(zhuǎn)移規(guī)則。G可以是隨機性的,存在非零隨機噪聲;也可以是確定性的,即。為了讓問題設(shè)置更具一般性,狀態(tài)的演變只能通過實際測量來觀測,即假設(shè)G的表達形式不一定可以獲得。本文中關(guān)注閉環(huán)控制,意味著每個時間步的控制信號是從以當前狀態(tài)為條件的一個概率分布中采樣得到的。這區(qū)別于開環(huán)控制或者規(guī)劃(planning)方法,即每次規(guī)劃未來多個時間步的控制信號后,將其依次應(yīng)用到環(huán)境中,并且在此期間不利用環(huán)境反饋進行重新規(guī)劃。

2. 預(yù)備知識:DiffPhyCon 簡介

DiffPhyCon [1] 是近期發(fā)表的一種基于擴散模型的規(guī)劃(planning)方法。它提前規(guī)劃一個物理時間窗口(horizon)內(nèi)所有的控制信號,并依次將其用于系統(tǒng)的控制過程。為了記號方便,引入變量表示第物理時間步系統(tǒng)狀態(tài)和控制信號的拼接。該方法包含以下過程:

  1. 首先離線收集大量的軌跡數(shù)據(jù),每條軌跡包括初始狀態(tài)、控制序列和相應(yīng)的狀態(tài)序列。
  2. 然后,用這些離線軌跡訓(xùn)練一個去噪步數(shù)為T,物理時間窗口為N的擴散模型,并將所有物理時刻的系統(tǒng)狀態(tài)和控制信號的聯(lián)合隱變量作為擴散變量。這里在記號中,用下角標表示物理時間或其所處的區(qū)間,用括號里的t表示擴散步驟。在擴散過程中,隨著t增大,中的噪聲程度逐漸增加:不含噪聲,為高斯噪聲。
  3. 在去噪過程(實際控制過程)中,以系統(tǒng)的初始狀態(tài)為條件,利用訓(xùn)練的擴散模型,在控制目標的梯度引導(dǎo)下,讓t從T 降到 0,將高斯噪聲逐步去噪為不含噪聲的,其中包含控制序列和對應(yīng)產(chǎn)生的狀態(tài)序列。
  4. 最后,將控制序列逐步輸入到環(huán)境中,實現(xiàn)對系統(tǒng)的控制。

上述過程中隱藏了一個假設(shè):軌跡長度N 較小,這時H 取值為N。而實際問題中更為常見的情形是N 很大,這導(dǎo)致物理時間窗口為N的擴散模型難以在 GPU 中運行或者物理時間跨度太大導(dǎo)致偏離閉環(huán)要求過遠。這就需要訓(xùn)練一個時間窗口相對較?。℉<N)的擴散模型,然后每隔h個物理時間步進行一次完全的去噪過程,或者以自適應(yīng)的方式確定何時重新規(guī)劃控制序列 [4],如圖 1 左邊和中間子圖所示。

四、CL-DiffPhyCon 方法介紹

該方法考慮的也是H<N的情形。關(guān)鍵想法是:將擴散模型的模型時間窗口內(nèi)的物理時間和擴散(去噪)過程解耦,越早的物理時間賦予越快的去噪進度,也就是越低的噪聲程度。如此一來,既實現(xiàn)了不同物理時間步的并行采樣,提高了采樣效率;又能讓更早采樣到的控制信號所產(chǎn)生的環(huán)境反饋用于后續(xù)物理時間的控制信號采樣,實現(xiàn)了閉環(huán)控制。

為了方便,本文首先引入了如下兩個記號:

  • 同步聯(lián)合隱變量:表示在物理時間區(qū)間內(nèi),對每個分量加入相同程度噪聲。這里t的取值范圍是 0 到T。
  • 異步聯(lián)合隱變量:表示在物理時間區(qū)間內(nèi),為越晚的物理時間賦予越高的噪聲程度,即實現(xiàn)了物理時間和去噪進度的解耦。這里t的取值范圍是 0 到。

針對這兩種變量,本文訓(xùn)練了兩個擴散模型:同步擴散模型和異步擴散模型。

1. 同步擴散模型

這個模型預(yù)測同步聯(lián)合隱變量當中每個分量包含的噪聲。它只用于的物理時刻。訓(xùn)練損失如下:

訓(xùn)練這個模型的目的,是為了采樣異步聯(lián)合隱變量,這是物理時間上最早的異步聯(lián)合隱變量。采樣方法如下:對于給定的初始條件,類似于 DiffPhyCon 的去噪過程,從高斯噪聲開始,讓t從T逐步減少到,在每步迭代中,從當中減去預(yù)測的噪聲,同時減去控制目標的梯度。這樣就采樣得到了一系列同步聯(lián)合隱變量。再從其中取 “對角線”,就能得到初始的異步聯(lián)合隱變量(圖 2 的 (2) 子圖中的虛線紅框)。

2. 異步擴散模型

這個模型預(yù)測隱變量中每個分量包含的噪聲。它用于的所有物理時刻。它的訓(xùn)練損失如下:

訓(xùn)練這個模型的目的,是為了在給定第個物理時刻的系統(tǒng)狀態(tài)和異步聯(lián)合隱變量的條件下,采樣,即實現(xiàn)解耦的異步去噪。采樣方法如下:從開始,讓t從逐步減少到 0,在每一步中,從當中逐分量減去預(yù)測的噪聲,同時減去控制目標的梯度,最終得到。

3. 閉環(huán)控制過程

基于以上兩個訓(xùn)練好的擴散模型,閉環(huán)控制的循環(huán)過程如下(分別對應(yīng)圖 2 中從左向右 4 個子圖):

  • 第(1)步:在第個物理時間步,獲得物理時間窗口內(nèi)的初始狀態(tài)和系統(tǒng)狀態(tài)。特別地,當時,通過上文的同步擴散模型采樣得到。
  • 第(2)步:以為采樣條件,利用異步擴散模型,從開始連續(xù)采樣步,得到。
  • 第(3)步:將的第 1 個分量中包含的控制信號輸入到環(huán)境中,得到下一個狀態(tài)。
  • 第(4)步:采樣一個高斯噪聲,拼接到第(2)步采樣得到的的最后個分量的結(jié)尾,得到物理時間窗口內(nèi)的初始狀態(tài),同時將作為條件,進入下一個物理時間步。

圖 2:CL-DiffPhyCon 用于閉環(huán)控制的流程:(1) 獲取當前物理時刻系統(tǒng)狀態(tài)和 “對角線形” 異步聯(lián)合隱變量;(2) 利用異步擴散模型去噪;(3) 將采樣到的控制信號應(yīng)用到系統(tǒng);(4) 獲取系統(tǒng)反饋的最新狀態(tài)和更新后的 “對角線形” 異步聯(lián)合隱變量,進入到下一個物理時刻。

4. 與擴散模型加速采樣技術(shù)的結(jié)合

值得一提的是,CL-DiffPhyCon 還可與擴散模型領(lǐng)域的快速采樣技術(shù)相結(jié)合,進一步提升采樣效率。例如,DDIM [5] 通過特定的采樣策略減少了采樣步數(shù),在不損失太多采樣質(zhì)量的前提下加快了采樣速度。在 CL-DiffPhyCon 的同步和異步模型的采樣過程中引入 DDIM,能夠使得 CL-DiffPhyCon 在保持控制性能基本不變的前提下,以更快的速度完成采樣和控制信號生成,從而在實際應(yīng)用中更具優(yōu)勢。論文通過實驗結(jié)果驗證了這一點,這說明 CL–DiffPhyCon 具有和已有的擴散模型領(lǐng)域加速采樣方法相獨立的加速效果。

四、CL-DiffPhyCon 理論分析

論文還從理論上分析了為何需要學(xué)習(xí)以上兩個擴散模型。論文的目標是對聯(lián)合分布進行建模,并在控制目標的引導(dǎo)下采樣。本文將如下的增廣 (augmented) 聯(lián)合分布作為分析的出發(fā)點:

如果我們能夠采樣這個增廣聯(lián)合分布中的所有隨機變量,那么自然也就得到了(包含于)。而之所以要研究這個增廣聯(lián)合分布,是因為它指引著我們讓變得 “可被采樣”。論文研究發(fā)現(xiàn),這個看似復(fù)雜的增廣聯(lián)合分布其實具有一個有趣的規(guī)律:假設(shè)聯(lián)合分布滿足 Markov 性質(zhì)(這是強化學(xué)習(xí)等決策類問題中常見的假設(shè)),那么從增廣聯(lián)合分布中采樣的問題,就可以轉(zhuǎn)化為只從兩類分布中采樣的問題:即先從一個初始分布中采樣得到,再從一個轉(zhuǎn)移分布中依次采樣,得到一系列)。具體地,該采樣過程可以用如下定理描述:

所以,這里采用了 “先繁再簡” 的分析策略,為復(fù)雜的分布加入了采樣的可行性。這個定理還傳遞出另一個重要的性質(zhì):在每個物理時刻采樣控制變量時,所依賴的系統(tǒng)狀態(tài)可以從環(huán)境反饋中得到。這是因為我們已經(jīng)采樣得到了上一個時刻的控制變量,因此可以立即將其輸入到環(huán)境中,得到環(huán)境反饋的。也就是說,這個采樣過程能夠滿足閉環(huán)控制的要求。

仔細觀察就會發(fā)現(xiàn),上一節(jié)中學(xué)習(xí)的兩個擴散模型恰好對應(yīng)兩個分布:即同步擴散模型的作用是從中采樣,而異步擴散模型的作用是從中采樣。所以,我們只需要這兩個擴散模型就能夠?qū)崿F(xiàn)從軌跡數(shù)據(jù)分布中采樣,再通過在采樣過程中加入控制目標的梯度引導(dǎo),就可以優(yōu)化控制目標。

五、實驗結(jié)果

1. 實驗設(shè)置

借鑒 DiffPhyCon [1] 論文中的實驗設(shè)置,這篇論文在兩個具有挑戰(zhàn)性的控制任務(wù)上進行了實驗:

(1)一維 Burgers 方程控制:通過控制外力項,使系統(tǒng)的最終狀態(tài)與目標狀態(tài)一致。

(2)二維煙霧間接控制:通過間接控制外部力場,最小化從非目標出口逸出的污染物比例。

在一維 Burgers 方程控制實驗中,考慮了 6 種實際場景,如無噪聲控制、物理約束下的控制、存在系統(tǒng)和測量噪聲時的控制,以及部分區(qū)域可控制(包括全部區(qū)域可觀測和部分區(qū)域可觀測兩種細分場景)等。在二維煙霧間接控制任務(wù)中,設(shè)置了大范圍區(qū)域控制和邊界控制 2 種場景,每種又細分為固定障礙物地圖和隨機障礙物地圖兩種環(huán)境模式,以檢驗方法的泛化能力。

對比方法包括一系列經(jīng)典控制方法、模仿學(xué)習(xí)、強化學(xué)習(xí)和擴散控制方法,如 PID、行為克?。˙C)、BPPO、自適應(yīng)重規(guī)劃擴散控制(RDM)以及 DiffPhyCon 等,并對這些基線方法進行了適當調(diào)整,以保證公平比較。由于兩個實驗中的軌跡較長,研究人員將 DiffPhyCon 擴展為三個版本:DiffPhyCon-h(h∈{1,5,H - 1})。這里的 DiffPhyCon - h表示每隔h個物理時間步進行一次 DiffPhyCon 的完整采樣過程,然后將采樣的控制信號序列中的前h個用于開環(huán)控制(見上文圖 1)。

2. 實驗結(jié)果

在一維 Burgers’方程控制任務(wù)中,CL–DiffPhyCon 在 6 種場景下控制效果均優(yōu)于所有對比方法。與控制效果最佳的對比方法 DiffPhyCon-1 相比,CL-DiffPhyCon 在無噪聲和帶有物理約束的設(shè)置中,使控制目標分別降低了 54.3% 和 48.6%;在兩種噪聲的情況下,控制目標分別降低了 48.6% 和 57.2%;在部分區(qū)域可控制場景中,控制目標分別降低了 11.8% 和 11.1%。在采樣效率上,CL-DiffPhyCon 相比每個 DiffPhyCon-h 快了約 H/h 倍(h∈{1,5,15}),也比自適應(yīng)重規(guī)劃擴散控制(RDM [4])快兩倍。結(jié)合 DDIM 采樣后,加速效果更明顯,進一步實現(xiàn)了 5 倍的加速,且控制效果保持相當。

表 1. 一維 Burgers’方程控制任務(wù)上的實驗結(jié)果對比。

在二維煙霧間接控制中,CL-DiffPhyCon 同樣表現(xiàn)優(yōu)異,在 4 種場景設(shè)置中,效果均優(yōu)于對比方法。在采樣效率方面,CL-DiffPhyCon 比 DiffPhyCon-h 實現(xiàn)了約 H/h h∈{1,5,14} 倍的加速,并且比 RDM 更高效。結(jié)合 DDIM 后,推理速度進一步加快,比 RDM 快 5 倍以上。

表 2. 二維煙霧間接控制任務(wù)上的實驗結(jié)果對比。

圖 3. 在固定地圖(上圖)和隨機地圖(下圖)兩種環(huán)境下,CL-DiffPhyCon 與表現(xiàn)最好的對比方法在二維煙霧間接控制上的可視化對比。橫向表示不同物理時刻??刂颇繕?J 越低,表示控制效果越好。

六、總結(jié)與展望

CL-DiffPhyCon 為高效閉環(huán)控制提供了一種創(chuàng)新解決方案。通過實驗驗證,證明了其具有兼得優(yōu)良的控制效果和高效的采樣效率的顯著優(yōu)勢。不過,研究人員也指出,該方法仍有提升空間。目前 CL-DiffPhyCon 是基于離線數(shù)據(jù)訓(xùn)練的,未來可以考慮在訓(xùn)練過程中融入環(huán)境實時反饋,探索多樣的控制策略。此外,雖然兩個擴散模型是基于對目標分布的理論分析推出,但在引導(dǎo)采樣下得到的樣本與最優(yōu)解的誤差界仍是一個開放問題,值得進一步深入研究。

從應(yīng)用前景來看,CL-DiffPhyCon 不僅適用于這篇論文的復(fù)雜物理系統(tǒng)控制任務(wù),在機器人控制、無人機控制等領(lǐng)域也具有廣闊的應(yīng)用潛力。隨著研究的不斷深入和技術(shù)的持續(xù)進步,CL-DiffPhyCon 將不斷完善,為更廣泛領(lǐng)域的控制問題提供有益的解決方案。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-12-06 09:47:13

2025-03-07 08:50:00

AI生成技術(shù)

2024-06-05 09:22:43

2017-01-15 18:32:39

Openresty架構(gòu)性能

2023-04-28 09:24:50

自動駕駛數(shù)據(jù)

2023-12-18 10:15:30

自動駕駛自然語言

2024-05-23 09:28:23

模型蛋白質(zhì)

2024-04-29 09:36:14

仿真器傳感器

2016-11-28 09:09:43

部署閉環(huán)Java應(yīng)用

2025-03-18 09:33:13

2024-11-26 09:43:37

2023-04-26 08:20:54

2011-08-02 16:47:45

惠普墨盒回收

2016-11-28 09:58:53

京東服務(wù)閉環(huán)實踐

2024-07-26 08:30:03

數(shù)據(jù)分析數(shù)據(jù)業(yè)務(wù)

2025-04-28 09:00:00

2022-02-22 10:58:45

閉環(huán)自動化網(wǎng)絡(luò)

2022-11-28 11:43:24

數(shù)據(jù)分析不及格數(shù)據(jù)驗證

2024-01-04 09:27:00

模型自動駕駛

2025-02-06 09:20:00

點贊
收藏

51CTO技術(shù)棧公眾號