1. <dd id="ekrqy"><nav id="ekrqy"></nav></dd>

       登錄系統    賬號注冊      
          
        


      News Message

      Multi-agent pathfinding 傳統方法和強化學習結合的多智能體行程規劃



      Multi-agent pathfinding 傳統方法和強化學習結合的多智能體行程規劃



      Multi-agent navigation based on deep reinforcement learning and traditional pathfinding algorithm

      A*+RL

      基本可以用下面這一張圖來概括

      traditional pathfinding algorithm +RL

      就是用強化學習來決定執行 傳統pathfinding algorithm(例如A*)的動作 還是 其他動作。

      文章中的其他動作雖然簡要提到機器人的線速度和角速度,但是總結一些還是前進一格子,后退一格,左拐,右拐,停(跟之前的上下左右停其實差不多。。。。。。)

      動作規定

      上圖中 method M表示的就是傳統pathfinding algorithm(例如A*), a0 就是A*的動作。所以他們的強化學習學的東西就是 學 a0?a5 這六個離散動作。與之前的方法的唯一區別就是加入a0 的動作。


      state:

      作者自己在unity3D上的簡要環境,一個機器人帶有45方向個傳感器,45個方向感知的東西, 傳感器的感知范圍為d長度。

      如果某個方向上存在障礙,感知到的東西就是(0, di ), 如果是其他智能體,感知到的東西就是(1, di ),如果沒有東西,文章也沒細說,估計是(0, 0)吧。。

      這狀態也太簡單了吧。。至少也得加入下A*的軌跡信息之類???


      reward:

      獎勵定義的有點意思:

      第一項,如果采用傳統pathfinding algorithm(例如A*),也就是a0 ,就加一個正獎勵。

      第二項:如果采用的動作撞到了障礙物或者墻壁或者其他智能體,就扣一個比較大的分數,到了終點就+一個正分。

      第三項:每一步 step time 懲罰一點,


      各個獎勵的具體設置如下:

      T是他們設置的每一個episode的最大長度,小車如果在這T時間內到不了終點就重置小車的起點位置終點之類,為了達到終點的path軌跡總體獎勵大于0,他們設置了如上參數。其中T=10000

      使用的強化學習算法是PPO,參數如下

      實驗結果

      Pure RL Method 估計就是不加 a0 動作的強化學習算法,成功率還是有點提升的。

      在下面幾個隨機新環境下測試泛化能力

      結果,比起Pure RL Method還是高很多的,畢竟了A*算法保底吧。

      比較納悶幾點

      1. 感覺應該給state加點A*軌跡信息吧。。
      2. 每時每刻都需要給所有的agents都重新規劃一條路徑,這樣計算量太大了吧.(因為如果小車采用除a0外的動作,小車可能就走到新的位置上,那么原來位置規劃的A*軌跡就不能用了吧)(文章最后也提到了句計算量大, 不知是不是這樣原因)

      3.在泛化性實驗結果上,訓練的時候環境有沒有這幾個環境呢?還有小車之所以在這幾個新環境下成功率比Pure RL Method 高很多,估計小車學出來的基本都是從用a0的動作吧。應該再跟傳統pathfinding algorithm(例如A*)比較下,如果是靠都采用a0的動作成功率才高很多的話,那就沒必要了。

      總的來時,使用A*來保底還是有點意思的,獎勵設置也挺好的。


      補充另外一篇類似文章

      MAPPER: Multi-Agent Path Planning with Evolutionary Reinforcement Learning in Mixed Dynamic Environments,

      可以用下面一張圖來概括:

      state:

      三個channels

      1. channel1:current observed static obstacles,障礙物和其他車的位置
      2. channel1:其他車的軌跡序列,同一輛車的軌跡序列的值,不同時間刻不同。encode the trajectory with different grayscales in time
      3. A* 規劃的路徑,估計也不是每時每刻都規劃,那樣太費時。文章中提到The reference path update frequency could be much lower than our reinforcement learning-based local planner.

      actions:

      9個動作。south, north, west, east, southwest, northwest, southeast and northeast,stop,沒什么意思。

      Reward Design

      每一步懲罰一下,沖突了懲罰很大,回到上一步的地點懲罰,偏離A*軌跡懲罰,到達終點+30.

      RL 算法

      Multi-Agent Evolutionary Reinforcement Learning, A2C + Evolutionary + curriculum learning。

      結果

      成功率比傳統的LRA*高一點吧。




      Share Http URL:  http://www.tiara-e.com/get_news_message.do?new_id=1051














      請輸入評論





























      青草免费视频,97 碰,山东老熟妇乱子视频,亚洲精品美女视频_河北新闻网