ICLR 2025 | 西湖大學提出閉環擴散控制策略,高效與閉環兼得

本文來自西湖大學人工智能系的吳泰霖團隊。本文有兩位共同第一作者:魏龍是西湖大學人工智能系博士後,馮浩東是西湖大學博士生。通訊作者吳泰霖是西湖大學人工智能系特聘研究員,其領導的人工智能與科學仿真發現實驗室主要研究方向爲開發生成模型方法並用於科學和工程領域的仿真、設計和控制。

高效閉環控制是複雜系統控制的核心要求。傳統控制方法受限於效率與適用性挑戰;而新興的擴散模型雖然表現出色,卻難以滿足高效閉環控制的要求。西湖大學研究團隊最新提出的 CL-DiffPhyCon 框架,通過異步並行去噪技術,在閉環控制要求下,顯著提升了控制效率和效果。論文最近被人工智能領域頂級會議ICLR 2025 接收。

一、研究背景

在科學研究、工程實踐以及具身智能等諸多領域,系統控制問題都有着廣泛的應用。在這些場景中,高效閉環控制是核心性能要求。例如,當機器人在複雜環境中執行任務,必須對周圍環境變化做出即時反應。這就需要控制系統能夠根據環境實時反饋,迅速調整控制信號,保證每一個動作指令都基於最新的環境狀態生成。另外,工業製造、航空航天、能源生產等科學和工程領域的系統控制任務,同樣面臨着如何實現高效閉環控制的難題。

在過往的研究當中,涌現出了傳統控制方法,以及近年來的深度學習、強化學習、模仿學習等衆多控制方法。近期的 DiffPhyCon [1] 等研究表明,基於擴散模型 [2] 的方法在複雜物理系統控制中表現出色,尤其是對高維、長時間跨度的控制問題具有顯著的優勢,這主要源自於擴散模型擅長學習高維分佈的特性。這類方法從離線收集的軌跡數據中學習一個去噪模型,從噪聲開始,利用去噪模型逐步去噪,產生控制信號。此外,基於擴散模型的策略在機器人操作任務中也具有優異的表現 [3]。

然而,現有的擴散控制方法在應用到閉環控制時,會遇到控制效果和效率難以平衡的缺陷。它們的模型窗口內所有物理時間步,都要經歷從純噪聲開始的完整去噪採樣過程。若每個物理時間窗口都照此採樣並將其中的最早控制信號用於控制,雖然能實現閉環控制,卻會帶來非常高昂的採樣成本。而且,這種方式還可能會破壞控制信號的時序一致性,影響整體控制性能。反之,如果爲了提高採樣效率,每隔若干個物理時間步才進行一次完整採樣,又脫離了閉環控制的要求。

雖然近期有研究工作提出在線重新規劃策略(RDM)[4],自適應地確定何時重新規劃控制序列,但這種策略也不是真正意義上的閉環框架。它們往往需要額外的似然估計計算開銷,還依賴額外的超參數。面對不同任務場景,需要多次實驗來調試這些超參數,增加了應用難度和不確定性。

二、本文主要貢獻

針對現有擴散控制方法在閉環控制中遇到的上述問題,本論文提出了一種基於擴散模型的閉環控制方法 CL-DiffPhyCon,它能夠根據環境的實時反饋生成控制信號,實現了高效的閉環控制。該方法的核心思想是將擴散模型中的物理時間步和去噪過程解耦,允許不同的物理時間步呈現不同的噪聲水平,從而實現了控制序列的高效閉環生成。論文在 1D Burgers’方程控制和 2D 不可壓縮流體控制兩個任務上,驗證了 CL-DiffPhyCon 的顯著結果。

如下圖 1 中所示,該方法具有如下優勢:

圖 1:本文的 CL-DiffPhyCon(右圖)相較於以往擴散控制方法(左圖和中圖)的優勢。通過採用異步去噪框架,該方法能夠實現閉環控制,並顯著加快採樣過程。其中,H表示擴散模型包含的物理時間窗口長度,DiffPhyCon - h表示每隔h個物理時間步進行一次包含T個去噪步驟的完整採樣過程,然後將採樣的控制信號序列中的前h個依次用於開環控制。這裡沒有展示與 DDIM [5] 的結合。

三、問題設置和預備知識

1. 問題設置:

上述過程中隱藏了一個假設:軌跡長度N 較小,這時H 取值爲N。而實際問題中更爲常見的情形是N 很大,這導致物理時間窗口爲N的擴散模型難以在 GPU 中運行或者物理時間跨度太大導致偏離閉環要求過遠。這就需要訓練一個時間窗口相對較小(H

四、CL-DiffPhyCon 方法介紹

該方法考慮的也是H

爲了方便,本文首先引入瞭如下兩個記號:

3. 閉環控制過程

基於以上兩個訓練好的擴散模型,閉環控制的循環過程如下(分別對應圖 2 中從左向右 4 個子圖):

4. 與擴散模型加速採樣技術的結合

值得一提的是,CL-DiffPhyCon 還可與擴散模型領域的快速採樣技術相結合,進一步提升採樣效率。例如,DDIM [5] 通過特定的採樣策略減少了採樣步數,在不損失太多采樣質量的前提下加快了採樣速度。在 CL-DiffPhyCon 的同步和異步模型的採樣過程中引入 DDIM,能夠使得 CL-DiffPhyCon 在保持控制性能基本不變的前提下,以更快的速度完成採樣和控制信號生成,從而在實際應用中更具優勢。論文通過實驗結果驗證了這一點,這說明 CL–DiffPhyCon 具有和已有的擴散模型領域加速採樣方法相獨立的加速效果。

四、CL-DiffPhyCon 理論分析

五、實驗結果

1. 實驗設置

借鑑 DiffPhyCon [1] 論文中的實驗設置,這篇論文在兩個具有挑戰性的控制任務上進行了實驗:

(1)一維 Burgers 方程控制:通過控制外力項,使系統的最終狀態與目標狀態一致。

(2)二維煙霧間接控制:通過間接控制外部力場,最小化從非目標出口逸出的污染物比例。

在一維 Burgers 方程控制實驗中,考慮了 6 種實際場景,如無噪聲控制、物理約束下的控制、存在系統和測量噪聲時的控制,以及部分區域可控制(包括全部區域可觀測和部分區域可觀測兩種細分場景)等。在二維煙霧間接控制任務中,設置了大範圍區域控制和邊界控制 2 種場景,每種又細分爲固定障礙物地圖和隨機障礙物地圖兩種環境模式,以檢驗方法的泛化能力。

對比方法包括一系列經典控制方法、模仿學習、強化學習和擴散控制方法,如 PID、行爲克隆(BC)、BPPO、自適應重規劃擴散控制(RDM)以及 DiffPhyCon 等,並對這些基線方法進行了適當調整,以保證公平比較。由於兩個實驗中的軌跡較長,研究人員將 DiffPhyCon 擴展爲三個版本:DiffPhyCon-h(h∈{1,5,H - 1})。這裡的 DiffPhyCon - h表示每隔h個物理時間步進行一次 DiffPhyCon 的完整採樣過程,然後將採樣的控制信號序列中的前h個用於開環控制(見上文圖 1)。

2. 實驗結果

在一維 Burgers’方程控制任務中,CL–DiffPhyCon 在 6 種場景下控制效果均優於所有對比方法。與控制效果最佳的對比方法 DiffPhyCon-1 相比,CL-DiffPhyCon 在無噪聲和帶有物理約束的設置中,使控制目標分別降低了 54.3% 和 48.6%;在兩種噪聲的情況下,控制目標分別降低了 48.6% 和 57.2%;在部分區域可控制場景中,控制目標分別降低了 11.8% 和 11.1%。在採樣效率上,CL-DiffPhyCon 相比每個 DiffPhyCon-h 快了約 H/h 倍(h∈{1,5,15}),也比自適應重規劃擴散控制(RDM [4])快兩倍。結合 DDIM 採樣後,加速效果更明顯,進一步實現了 5 倍的加速,且控制效果保持相當。

表 1. 一維 Burgers’方程控制任務上的實驗結果對比。

在二維煙霧間接控制中,CL-DiffPhyCon 同樣表現優異,在 4 種場景設置中,效果均優於對比方法。在採樣效率方面,CL-DiffPhyCon 比 DiffPhyCon-h 實現了約 H/h h∈{1,5,14} 倍的加速,並且比 RDM 更高效。結合 DDIM 後,推理速度進一步加快,比 RDM 快 5 倍以上。

表 2. 二維煙霧間接控制任務上的實驗結果對比。

圖 3. 在固定地圖(上圖)和隨機地圖(下圖)兩種環境下,CL-DiffPhyCon 與表現最好的對比方法在二維煙霧間接控制上的可視化對比。橫向表示不同物理時刻。控制目標 J 越低,表示控制效果越好。

六、總結與展望

CL-DiffPhyCon 爲高效閉環控制提供了一種創新解決方案。通過實驗驗證,證明了其具有兼得優良的控制效果和高效的採樣效率的顯著優勢。不過,研究人員也指出,該方法仍有提升空間。目前 CL-DiffPhyCon 是基於離線數據訓練的,未來可以考慮在訓練過程中融入環境實時反饋,探索多樣的控制策略。此外,雖然兩個擴散模型是基於對目標分佈的理論分析推出,但在引導採樣下得到的樣本與最優解的誤差界仍是一個開放問題,值得進一步深入研究。

從應用前景來看,CL-DiffPhyCon 不僅適用於這篇論文的複雜物理系統控制任務,在機器人控制、無人機控制等領域也具有廣闊的應用潛力。隨着研究的不斷深入和技術的持續進步,CL-DiffPhyCon 將不斷完善,爲更廣泛領域的控制問題提供有益的解決方案。

參考文獻

[1] Long Wei et al. DiffPhyCon: A Generative Approach to Control Complex Physical Systems. NeurIPS 2024.

[2] Jonatha Ho et al. Denoising diffusion probabilistic models. NeurIPS 2020.

[3] Cheng Chi et al. Diffusion policy: Visuomotor policy learning via action diffusion. RSS 2023.

[4] Siyuan Zhou et al. Adaptive online replanning with diffusion models. NeurIPS 2024.

[5] Jiaming Song et al. Denoising Diffusion Implicit Models, ICLR 2021.