自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從目標(biāo)分配到路徑規(guī)劃,哈工大團隊提出智能倉庫的多智能體深度學(xué)習(xí)解決方案

發(fā)布于 2024-8-28 14:49
瀏覽
0收藏

隨著物流行業(yè)的快速發(fā)展,智能倉庫技術(shù)應(yīng)運而生,旨在提高倉儲效率和靈活性。傳統(tǒng)倉庫依賴傳送帶等固定設(shè)備,雖然能夠完成基本的物料搬運任務(wù),但其靈活性差,難以適應(yīng)不斷變化的需求。智能倉庫通過引入多智能體系統(tǒng),利用自主移動的機器人來完成貨物的搬運和分揀,大大提升了倉儲操作的效率和靈活性。然而智能倉庫面臨的一個關(guān)鍵挑戰(zhàn)是如何有效地進(jìn)行目標(biāo)分配和路徑規(guī)劃(TAPF),以確保多個機器人能夠高效協(xié)同工作,避免路徑?jīng)_突和資源浪費。

在智能倉庫中,TAPF問題涉及為每個機器人分配任務(wù)(如搬運貨物)并規(guī)劃其行進(jìn)路徑,以確保任務(wù)能夠高效完成且路徑不發(fā)生沖突。TAPF問題的復(fù)雜性在于其通常是一個NP難問題,具有巨大的搜索空間。傳統(tǒng)方法通常將目標(biāo)分配和路徑規(guī)劃分開處理,但這種方法忽略了兩者之間的相互影響,可能導(dǎo)致次優(yōu)的解決方案。合理的目標(biāo)分配不僅可以有效減少機器人的路徑長度,提高操作效率,還能幫助避免不同機器人之間的路徑?jīng)_突。因此,解決TAPF問題對于智能倉庫的高效運行至關(guān)重要。

8 月 27 日發(fā)表的論文《Multi-Agent Target Assignment and Path Finding for Intelligent Warehouse: A Cooperative Multi-Agent Deep Reinforcement Learning Perspective》提出了一種基于合作多智能體深度強化學(xué)習(xí)(RL)的方法,首次將TAPF問題建模為合作多智能體深度RL問題,并同時解決目標(biāo)分配和路徑規(guī)劃。具體創(chuàng)新點包括:

  1. 首次建模:論文首次將TAPF問題建模為合作多智能體深度RL問題,填補了現(xiàn)有研究的空白。
  2. 物理動態(tài)特性:在路徑規(guī)劃階段,論文考慮了機器人的物理動態(tài)特性(如速度和加速度),這在以往研究中較為少見。
  3. 實驗驗證:通過實驗驗證,論文方法在各種任務(wù)設(shè)置中表現(xiàn)良好,目標(biāo)分配合理,路徑接近最短,且比基線方法更高效。

這些創(chuàng)新點不僅為智能倉庫中的TAPF問題提供了新的解決思路,也展示了合作多智能體深度RL在實際應(yīng)用中的潛力。

論文的研究團隊來自哈爾濱工業(yè)大學(xué)(深圳)控制科學(xué)與工程系,成員包括Qi Liu, Jianqi Gao, Dongjie Zhu, Xizheng Pang, Pengbin Chen, Jingxiang Guo, Yanjie Li。團隊在多智能體系統(tǒng)、深度強化學(xué)習(xí)和智能倉庫技術(shù)方面具有豐富的研究經(jīng)驗和技術(shù)積累。通過本研究,團隊展示了其在智能倉庫領(lǐng)域的創(chuàng)新能力和技術(shù)實力,為未來的研究和應(yīng)用奠定了堅實基礎(chǔ)。

背景與動機

傳統(tǒng)倉庫技術(shù)主要依賴于傳送帶、叉車和固定的貨架系統(tǒng)來完成物料搬運和存儲。這些系統(tǒng)雖然在一定程度上提高了倉儲效率,但其局限性也十分明顯。首先,傳統(tǒng)倉庫系統(tǒng)缺乏靈活性,難以適應(yīng)不斷變化的訂單需求和倉儲布局調(diào)整。其次,傳送帶和固定貨架系統(tǒng)的擴展性差,增加新的存儲空間或搬運路徑往往需要大規(guī)模的硬件改造。此外,傳統(tǒng)倉庫系統(tǒng)的自動化程度有限,依賴大量人工操作,導(dǎo)致人力成本高且容易出現(xiàn)人為錯誤。

智能倉庫系統(tǒng)的優(yōu)勢

智能倉庫系統(tǒng)通過引入多智能體系統(tǒng)(如自主移動機器人),克服了傳統(tǒng)倉庫技術(shù)的諸多局限性。智能倉庫的主要優(yōu)勢包括:

  • 高靈活性:智能倉庫中的自主移動機器人可以根據(jù)實時需求動態(tài)調(diào)整搬運路徑和任務(wù)分配,適應(yīng)性強。
  • 高擴展性:智能倉庫系統(tǒng)可以通過增加或減少機器人數(shù)量來靈活調(diào)整倉儲能力,無需大規(guī)模硬件改造。
  • 高效率:多智能體系統(tǒng)能夠并行處理多個任務(wù),顯著提高了倉儲操作效率。
  • 低人力成本:智能倉庫系統(tǒng)的高度自動化減少了對人工操作的依賴,降低了人力成本和人為錯誤的風(fēng)險。

現(xiàn)有TAPF問題解決方法的不足

在智能倉庫中,目標(biāo)分配與路徑規(guī)劃(TAPF)問題是確保多個機器人高效協(xié)同工作的關(guān)鍵。然而現(xiàn)有的TAPF問題解決方法存在一些不足之處。

分離處理:傳統(tǒng)方法通常將目標(biāo)分配和路徑規(guī)劃分開處理,忽略了兩者之間的相互影響。這種方法可能導(dǎo)致次優(yōu)的解決方案,無法充分優(yōu)化整體效率。

物理動態(tài)特性忽略:許多現(xiàn)有方法在路徑規(guī)劃中忽略了機器人的物理動態(tài)特性(如速度和加速度),導(dǎo)致規(guī)劃路徑不夠精確,影響實際執(zhí)行效果。

時間效率低:傳統(tǒng)方法在處理復(fù)雜任務(wù)場景時,計算時間迅速增加,難以滿足實際應(yīng)用中的實時性要求。

論文提出的基于合作多智能體深度強化學(xué)習(xí)的方法,旨在同時解決目標(biāo)分配和路徑規(guī)劃問題,并考慮機器人的物理動態(tài)特性,從而克服現(xiàn)有方法的不足,提高智能倉庫系統(tǒng)的整體效率和實用性。

TAPF問題的建模

目標(biāo)分配與路徑規(guī)劃(TAPF)問題是智能倉庫系統(tǒng)中的核心問題之一。TAPF問題包括兩個主要部分:多智能體任務(wù)分配(MATA)和多智能體路徑尋找(MAPF)。在MATA中,系統(tǒng)需要根據(jù)訂單需求為每個智能體分配特定任務(wù),而在MAPF中,系統(tǒng)需要規(guī)劃每個智能體的路徑,確保其在執(zhí)行任務(wù)時不會與其他智能體發(fā)生沖突。TAPF問題通常是NP難問題,具有巨大的搜索空間,直接求解非常困難。傳統(tǒng)方法通常將這兩個問題分開處理,但這種方法忽略了任務(wù)分配和路徑規(guī)劃之間的相互影響,可能導(dǎo)致次優(yōu)的解決方案。

從目標(biāo)分配到路徑規(guī)劃,哈工大團隊提出智能倉庫的多智能體深度學(xué)習(xí)解決方案-AI.x社區(qū)

圖1:將TAPF建模為MARL問題

多智能體強化學(xué)習(xí)(MARL)是一種處理多個智能體在共同環(huán)境中交互的學(xué)習(xí)方法。MARL的目標(biāo)是學(xué)習(xí)一個策略,使所有智能體能夠協(xié)同工作,完成共同目標(biāo)。MARL可以通過以下幾個關(guān)鍵元素來建模。

  1. 狀態(tài)空間(S):表示系統(tǒng)的所有可能狀態(tài)。
  2. 動作空間(A):表示智能體可以執(zhí)行的所有可能動作。
  3. 狀態(tài)轉(zhuǎn)移函數(shù)(P):描述系統(tǒng)從一個狀態(tài)轉(zhuǎn)移到另一個狀態(tài)的概率。
  4. 獎勵函數(shù)(r):定義智能體在執(zhí)行某個動作后獲得的獎勵。
  5. 折扣因子(γ):用于平衡即時獎勵和未來獎勵的權(quán)重。
  6. 時間范圍(T):表示決策過程的時間跨度。

在MARL中,每個智能體根據(jù)其觀測到的環(huán)境狀態(tài)選擇動作,并通過與環(huán)境和其他智能體的交互來學(xué)習(xí)最優(yōu)策略。合作多智能體深度強化學(xué)習(xí)(Cooperative MARL)特別適用于需要多個智能體協(xié)同工作的場景,如智能倉庫中的TAPF問題。

在智能倉庫的TAPF問題中,考慮智能體的物理動態(tài)特性(如速度和加速度)對于提高路徑規(guī)劃的精確性和實際執(zhí)行效果至關(guān)重要。傳統(tǒng)方法通常只關(guān)注智能體的下一個位置,而忽略了其物理動態(tài)特性,這可能導(dǎo)致規(guī)劃路徑不夠精確,影響實際執(zhí)行效果。

論文提出的方法首次在TAPF問題中考慮了智能體的物理動態(tài)特性。具體來說,智能體的動作空間是連續(xù)的,表示智能體在四個基本方向上的移動速度。通過計算智能體的速度和加速度,可以更準(zhǔn)確地規(guī)劃其路徑,確保路徑規(guī)劃的實際可行性和高效性。

從目標(biāo)分配到路徑規(guī)劃,哈工大團隊提出智能倉庫的多智能體深度學(xué)習(xí)解決方案-AI.x社區(qū)

圖2:智能體的物理動力學(xué)

通過將TAPF問題建模為合作多智能體深度強化學(xué)習(xí)問題,并考慮智能體的物理動態(tài)特性,論文提出的方法能夠更有效地解決智能倉庫中的目標(biāo)分配與路徑規(guī)劃問題,提高系統(tǒng)的整體效率和實用性。

具體方法

1. TAPF問題的MARL建模

狀態(tài)空間、動作空間與獎勵函數(shù)的定義

在論文中,目標(biāo)分配與路徑規(guī)劃(TAPF)問題被建模為一個合作多智能體強化學(xué)習(xí)(MARL)問題。具體來說,系統(tǒng)的狀態(tài)空間(S)、動作空間(A)和獎勵函數(shù)(r)被定義如下:

狀態(tài)空間(S):每個智能體的觀測包含其自身的位置和速度、所有任務(wù)的相對位置、其他智能體的相對位置以及鄰近障礙物的相對位置。通過這些觀測,智能體能夠感知其周圍環(huán)境并做出決策。

動作空間(A):智能體的動作空間是連續(xù)的,表示智能體在四個基本方向上的移動速度(左、右、下、上)。最終動作是四個方向速度的向量和。

獎勵函數(shù)(r):獎勵函數(shù)被定義為多個部分的組合,包括任務(wù)成功獎勵、任務(wù)到智能體的距離獎勵、智能體與障礙物碰撞的懲罰以及智能體之間碰撞的懲罰。具體公式如下:

成功獎勵:

從目標(biāo)分配到路徑規(guī)劃,哈工大團隊提出智能倉庫的多智能體深度學(xué)習(xí)解決方案-AI.x社區(qū)

       其中n表示滿足條件的元素數(shù)量。

距離獎勵:

從目標(biāo)分配到路徑規(guī)劃,哈工大團隊提出智能倉庫的多智能體深度學(xué)習(xí)解決方案-AI.x社區(qū)

碰撞懲罰(障礙物):

從目標(biāo)分配到路徑規(guī)劃,哈工大團隊提出智能倉庫的多智能體深度學(xué)習(xí)解決方案-AI.x社區(qū)

       其中n表示滿足條件的元素數(shù)量。

碰撞懲罰(智能體):

從目標(biāo)分配到路徑規(guī)劃,哈工大團隊提出智能倉庫的多智能體深度學(xué)習(xí)解決方案-AI.x社區(qū)

       其中n表示滿足條件的元素數(shù)量。

智能體的物理動態(tài)特性

論文首次在TAPF問題中考慮了智能體的物理動態(tài)特性。具體來說,智能體的動作不僅僅是位置的變化,還包括速度和加速度的計算。通過計算智能體在四個基本方向上的力(F?x, F??x, F?y, F??y),根據(jù)牛頓第二定律可以得到加速度,然后通過加速度計算速度,最終得到智能體的動作。這種方法使得路徑規(guī)劃更加精確,能夠更好地反映實際執(zhí)行中的物理特性。

從目標(biāo)分配到路徑規(guī)劃,哈工大團隊提出智能倉庫的多智能體深度學(xué)習(xí)解決方案-AI.x社區(qū)

圖3:智能體的動作空間

2. 使用MADDPG算法解決TAPF問題

策略網(wǎng)絡(luò)與評論者網(wǎng)絡(luò)的更新

在論文中,使用多智能體深度確定性策略梯度(MADDPG)算法來解決TAPF問題。由于智能體是同質(zhì)的,它們可以共享相同的策略網(wǎng)絡(luò),從而提高學(xué)習(xí)效率。具體來說,策略參數(shù)通過集中評論者Q進(jìn)行迭代更新,評論者參數(shù)通過最小化損失函數(shù)進(jìn)行優(yōu)化:

  • 策略參數(shù)的更新公式為:

從目標(biāo)分配到路徑規(guī)劃,哈工大團隊提出智能倉庫的多智能體深度學(xué)習(xí)解決方案-AI.x社區(qū)

其中,xt和at分別表示所有智能體在時間步t的觀測和動作的拼接,D表示包含樣本的重放緩沖區(qū)。

  • 評論者參數(shù)的優(yōu)化公式為:

從目標(biāo)分配到路徑規(guī)劃,哈工大團隊提出智能倉庫的多智能體深度學(xué)習(xí)解決方案-AI.x社區(qū)

其中,yt為目標(biāo)評論者網(wǎng)絡(luò)的值,定義為:

從目標(biāo)分配到路徑規(guī)劃,哈工大團隊提出智能倉庫的多智能體深度學(xué)習(xí)解決方案-AI.x社區(qū)

獎勵共享與執(zhí)行階段的策略

在訓(xùn)練過程中,智能體通過共享獎勵來學(xué)習(xí)合作策略。在執(zhí)行階段,僅使用策略網(wǎng)絡(luò)π,其輸入為各智能體的觀測,輸出為施加在智能體上的力。根據(jù)智能體的物理動態(tài)特性,可以計算出智能體的動作。具體來說在執(zhí)行階段,每個智能體僅依賴其局部觀測進(jìn)行決策,從而實現(xiàn)分散執(zhí)行。

從目標(biāo)分配到路徑規(guī)劃,哈工大團隊提出智能倉庫的多智能體深度學(xué)習(xí)解決方案-AI.x社區(qū)

圖4:任務(wù)和智能體的距離矩陣。

通過這種方法,論文提出的解決方案能夠同時解決目標(biāo)分配和路徑規(guī)劃問題,提高智能倉庫系統(tǒng)的整體效率和實用性。

實驗結(jié)果

1. 目標(biāo)分配與路徑規(guī)劃性能驗證

為了驗證論文方法在目標(biāo)分配與路徑規(guī)劃(TAPF)問題上的性能,研究團隊在不同難度的智能倉庫場景中進(jìn)行了實驗。實驗設(shè)置了五個不同難度的場景:兩個智能體-兩個任務(wù)、兩個智能體-四個任務(wù)、五個智能體-五個任務(wù)、五個智能體-十個任務(wù)和五個智能體-二十個任務(wù)。

實驗結(jié)果顯示,在所有不同難度的場景中,論文方法的平均回報值均呈現(xiàn)出單調(diào)增加的趨勢,驗證了方法的穩(wěn)定性。具體表現(xiàn)如下:

簡單任務(wù)(如兩個智能體-兩個任務(wù)):目標(biāo)分配和路徑規(guī)劃均表現(xiàn)良好,任務(wù)分配合理,路徑接近最短。

復(fù)雜任務(wù)(如五個智能體-二十個任務(wù)):盡管任務(wù)難度逐漸增加,論文方法依然能夠合理分配任務(wù),并規(guī)劃出接近最短的路徑。

這些結(jié)果表明,論文方法在各種任務(wù)設(shè)置中均能有效解決TAPF問題,具有較高的適應(yīng)性和穩(wěn)定性。

2. 合作能力驗證

為了驗證智能體在沖突場景下的合作能力,研究團隊設(shè)計了一個特定的沖突場景。在該場景中,兩個智能體的任務(wù)路徑必然會發(fā)生沖突。實驗結(jié)果顯示,智能體能夠在沖突點互相避讓,然后繼續(xù)導(dǎo)航到各自的任務(wù)點,成功完成任務(wù)。

具體表現(xiàn)為:

智能體1和智能體2:在沖突點互相避讓,分別沿著紅色和青色軌跡完成導(dǎo)航任務(wù)。

這一結(jié)果驗證了論文方法在合作多智能體深度強化學(xué)習(xí)中的有效性,智能體能夠在復(fù)雜環(huán)境中學(xué)會合作,避免沖突,提高任務(wù)完成效率。

3. 時間效率驗證

時間效率是實際應(yīng)用中一個重要的考量因素。研究團隊將論文方法與傳統(tǒng)方法在時間消耗上的表現(xiàn)進(jìn)行了對比。傳統(tǒng)方法先解決目標(biāo)分配問題(TA),然后進(jìn)行路徑規(guī)劃(PF),而論文方法同時解決這兩個問題。

實驗結(jié)果顯示:

簡單任務(wù)(如兩個智能體-兩個任務(wù)):傳統(tǒng)方法的時間消耗可以接受。

復(fù)雜任務(wù)(如五個智能體-二十個任務(wù)):傳統(tǒng)方法的時間消耗迅速增加,難以滿足實時性要求。相比之下,論文方法在所有不同難度的任務(wù)中均能高效地提供策略,驗證了其時間效率。

這些結(jié)果表明,論文方法在時間效率上具有顯著優(yōu)勢,能夠更好地滿足實際應(yīng)用中的需求。

實驗結(jié)果展示了論文方法在智能倉庫中的潛在應(yīng)用價值。通過同時解決目標(biāo)分配和路徑規(guī)劃問題,并考慮智能體的物理動態(tài)特性,論文方法不僅提高了系統(tǒng)的整體效率和穩(wěn)定性,還展示了其在實際應(yīng)用中的高效性和實用性。這為智能倉庫系統(tǒng)的進(jìn)一步發(fā)展和優(yōu)化提供了新的思路和技術(shù)支持。

討論與未來工作

論文方法首次將目標(biāo)分配與路徑規(guī)劃(TAPF)問題建模為合作多智能體深度強化學(xué)習(xí)(MARL)問題,能夠同時解決這兩個關(guān)鍵問題,避免了傳統(tǒng)方法中分離處理帶來的次優(yōu)解。在路徑規(guī)劃中考慮了智能體的物理動態(tài)特性(如速度和加速度),使得規(guī)劃路徑更加精確,能夠更好地反映實際執(zhí)行中的物理特性。實驗結(jié)果表明,論文方法在各種任務(wù)設(shè)置中均表現(xiàn)出較高的時間效率,能夠滿足實際應(yīng)用中的實時性要求。智能體在沖突場景中能夠?qū)W會合作,避免路徑?jīng)_突,提高任務(wù)完成效率。

盡管論文方法在時間效率上表現(xiàn)優(yōu)異,但在處理大規(guī)模智能體和任務(wù)時,計算復(fù)雜度仍然較高,可能需要進(jìn)一步優(yōu)化算法以提高可擴展性。論文方法在特定的智能倉庫環(huán)境中表現(xiàn)良好,但在不同類型的倉庫環(huán)境中,可能需要對算法進(jìn)行調(diào)整和優(yōu)化,以適應(yīng)不同的應(yīng)用場景。深度強化學(xué)習(xí)方法通常需要大量的訓(xùn)練時間和計算資源,論文方法在實際應(yīng)用中可能需要較長的訓(xùn)練周期。

進(jìn)一步優(yōu)化算法以降低計算復(fù)雜度,提高可擴展性,使其能夠處理更大規(guī)模的智能體和任務(wù)。研究如何使算法在不同類型的智能倉庫環(huán)境中具有更好的適應(yīng)性,提升其通用性。探索實時學(xué)習(xí)和在線更新的方法,使智能體能夠在實際操作中不斷學(xué)習(xí)和優(yōu)化策略,提升系統(tǒng)的動態(tài)響應(yīng)能力。結(jié)合視覺、語音等多模態(tài)信息,提升智能體的感知能力和決策精度。

論文方法在智能倉庫中的成功應(yīng)用展示了其在智能物流領(lǐng)域的巨大潛力,未來可以推廣到更廣泛的物流場景中,如智能配送中心和無人倉庫。在智能制造領(lǐng)域,論文方法可以用于優(yōu)化生產(chǎn)線上的物料搬運和任務(wù)分配,提高生產(chǎn)效率和靈活性。在服務(wù)機器人領(lǐng)域,論文方法可以用于多機器人協(xié)作任務(wù),如清潔機器人和配送機器人,提升其協(xié)作能力和任務(wù)完成效率。

結(jié)論

論文提出了一種基于合作多智能體深度強化學(xué)習(xí)的方法,首次將智能倉庫中的目標(biāo)分配與路徑規(guī)劃(TAPF)問題建模為合作多智能體深度強化學(xué)習(xí)問題,并同時解決這兩個關(guān)鍵問題。通過實驗驗證,論文方法在各種任務(wù)設(shè)置中均表現(xiàn)良好,目標(biāo)分配合理,路徑接近最短,且比基線方法更高效。論文方法在時間效率和合作能力上表現(xiàn)出顯著優(yōu)勢,展示了其在智能倉庫中的潛在應(yīng)用價值。

論文方法通過同時解決目標(biāo)分配和路徑規(guī)劃問題,并考慮智能體的物理動態(tài)特性,不僅提高了智能倉庫系統(tǒng)的整體效率和穩(wěn)定性,還展示了其在實際應(yīng)用中的高效性和實用性。未來,論文方法有望在智能物流、智能制造和服務(wù)機器人等領(lǐng)域得到廣泛應(yīng)用,為這些領(lǐng)域的進(jìn)一步發(fā)展和優(yōu)化提供新的技術(shù)支持和解決方案。(END)

參考資料:https://arxiv.org/pdf/2408.13750

本文轉(zhuǎn)載自??大噬元獸??,作者: FlerkenS ????

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦