Multi-agent navigation based on deep reinforcement learning and traditional pathfinding algorithm
基本可以用下面這一張圖來概括
就是用強化學習來決定執行 傳統pathfinding algorithm(例如A*)的動作 還是 其他動作。
文章中的其他動作雖然簡要提到機器人的線速度和角速度,但是總結一些還是前進一格子,后退一格,左拐,右拐,停(跟之前的上下左右停其實差不多。。。。。。)
上圖中 method M表示的就是傳統pathfinding algorithm(例如A*), 就是A*的動作。所以他們的強化學習學的東西就是 學 這六個離散動作。與之前的方法的唯一區別就是加入 的動作。
state:
作者自己在unity3D上的簡要環境,一個機器人帶有45方向個傳感器,45個方向感知的東西, 傳感器的感知范圍為d長度。
如果某個方向上存在障礙,感知到的東西就是(0, ), 如果是其他智能體,感知到的東西就是(1, ),如果沒有東西,文章也沒細說,估計是(0, 0)吧。。
這狀態也太簡單了吧。。至少也得加入下A*的軌跡信息之類???
reward:
獎勵定義的有點意思:
第一項,如果采用傳統pathfinding algorithm(例如A*),也就是 ,就加一個正獎勵。
第二項:如果采用的動作撞到了障礙物或者墻壁或者其他智能體,就扣一個比較大的分數,到了終點就+一個正分。
第三項:每一步 step time 懲罰一點,
各個獎勵的具體設置如下:
T是他們設置的每一個episode的最大長度,小車如果在這T時間內到不了終點就重置小車的起點位置終點之類,為了達到終點的path軌跡總體獎勵大于0,他們設置了如上參數。其中T=10000
使用的強化學習算法是PPO,參數如下
Pure RL Method 估計就是不加 動作的強化學習算法,成功率還是有點提升的。
在下面幾個隨機新環境下測試泛化能力
結果,比起Pure RL Method還是高很多的,畢竟了A*算法保底吧。
3.在泛化性實驗結果上,訓練的時候環境有沒有這幾個環境呢?還有小車之所以在這幾個新環境下成功率比Pure RL Method 高很多,估計小車學出來的基本都是從用a0的動作吧。應該再跟傳統pathfinding algorithm(例如A*)比較下,如果是靠都采用a0的動作成功率才高很多的話,那就沒必要了。
總的來時,使用A*來保底還是有點意思的,獎勵設置也挺好的。
MAPPER: Multi-Agent Path Planning with Evolutionary Reinforcement Learning in Mixed Dynamic Environments,
可以用下面一張圖來概括:
三個channels
9個動作。south, north, west, east, southwest, northwest, southeast and northeast,stop,沒什么意思。
每一步懲罰一下,沖突了懲罰很大,回到上一步的地點懲罰,偏離A*軌跡懲罰,到達終點+30.
Multi-Agent Evolutionary Reinforcement Learning, A2C + Evolutionary + curriculum learning。
成功率比傳統的LRA*高一點吧。