1. <dd id="ekrqy"><nav id="ekrqy"></nav></dd>

       登錄系統    賬號注冊      
          
        


      News Message

      強化學習 AutoRL



      強化學習 AutoRL



      強化學習 (RL) 與深度學習的結合帶來了一系列令人印象深刻的成果,許多人認為(深度)強化學習提供了通向通用智能體的途徑。然而,RL 智能體的成功通常對訓練過程中的設計選擇高度敏感,可能需要繁瑣且容易出錯的手動調整。這使得將 RL 用于新問題具有挑戰性,同時也限制了 RL 的全部潛力。

      在機器學習的許多其他領域,AutoML 已經表明可以自動化此類設計選擇,并且在應用于 RL 時也產生了有希望的初步結果。然而,自動強化學習 (AutoRL) 不僅涉及 AutoML 的標準應用,還包括 RL 獨有的額外挑戰,這使得研究者自然而然地產生了一些不同的方法。

      AutoRL 已成為 RL 研究的一個重要領域,為從 RNA 設計到圍棋等游戲的各種應用提供了希望。由于 RL 中考慮的方法和環境具有多樣性,因此許多研究都是在不同的子領域進行的。來自牛津大學、弗萊堡大學、谷歌研究院等機構的十余位研究者撰文試圖統一 AutoRL 領域,并提供了通用分類法,該研究詳細討論了每個領域并提出未來研究人員可能感興趣的問題。

      論文地址:

      https://arxiv.org/pdf/2201.03916.pdf

      AutoRL 方法

      強化學習理論上可以用于任何任務,包括世界模型未知的環境。然而,這種通用性也是有代價的,其最大的缺點就是智能體往往不能獲得環境的真實模型。如果智能體想在一個場景下使用模型,那它必須完全從經驗中學習,這會帶來很多挑戰。智能體探索出來的模型和真實模型之間存在誤差,而這種誤差會導致智能體在學習到的模型中表現很好,但在真實的環境中表現得不好(甚至很差)。

      該研究調查的目的是介紹 AutoRL 領域,AutoRL 可以應對各種挑戰:一方面,RL 算法的脆弱性阻礙了其在新領域的應用,尤其是那些從業者缺乏大量資源來搜索最佳配置的領域。在許多情況下,對于完全不可見的問題,手動找到一組中等強度的超參數可能會非常昂貴。AutoRL 已被證明可以在這種情況下幫助解決重要問題,例如設計 RNA。另一方面,對于那些受益于更多計算的人來說,顯然增加算法的靈活性可以提高性能。著名的 AlphaGo 智能體已經展示了這一點,該智能體通過使用貝葉斯優化得到了顯著改進。

      早在 1980 年代,AutoRL 算法就被證明是有效的。然而,最近 AutoML 的流行導致了更先進技術的新生應用。與此同時,最近元學習的流行導致了一系列旨在自動化 RL 過程的工作。

      該論文試圖提供這些方法的分類,他們希望通過思想的交叉融合來開辟一系列未來的工作,同時也向 RL 研究人員介紹一套技術來提高他們的算法性能。該研究相信 AutoRL 在提高強化學習潛在影響方面發揮著重要作用,無論是在開放式研究和還是在現實應用中。

      此外,該研究希望將對 AutoML 感興趣的研究人員吸引到 AutoRL 社區,特別地,RL 具有非平穩性(non-stationarity),因為智能體正在訓練的數據是當前策略的函數。此外,該研究還介紹了 AutoRL 針對特定 RL 問題的環境和算法設計。

      該研究調查了 AutoRL 社區以及技術等內容。一般來說,AutoRL 方法大多數都可以通過組合內部循環和外部循環組織起來。每個循環都可以通過黑箱或基于梯度的方法進行優化,然而外部循環的梯度和內部循環的黑箱不能組合在一起,因為內部循環黑箱設置將使梯度不可用,如表 2 和圖 2 所示:

      如下表 3 所示,該研究按照大類總結了 AutoRL 方法的分類,方法分類將體現在第四章的每一小節

      隨機 / 網格搜索驅動方法

      該研究首先討論了最簡單的方法:隨機搜索和網格搜索。隨機搜索從搜索空間中隨機采樣超參數配置,而網格搜索將搜索空間劃分為固定的網格點,并對其進行評估。由于其簡單性,隨機搜索和網格搜索可用于選擇超參數列表,評估超參數并選擇最佳配置。事實上,網格搜索仍然是 RL 中最常用的方法,網格搜索在絕大多數情況下都會調整超參數,但不應將其視為最有效的方法。但是這些經典方法沒有考慮優化問題的潛在非平穩性,下圖 3 描述了這個問題:

      提高隨機搜索性能的一種常見方法是使用 Hyperband,這是一種用于超參數優化的配置評估。它專注于通過自適應資源分配和早停(early-stopping)來加速隨機搜索。特別的,Hyperband 使用「Successive Halving」將預算分配給一組超參數配置。Zhang 等人使用隨機搜索和 Hyperband 來調整其 MBRL 算法的超參數。

      貝葉斯優化

      貝葉斯優化(Bayesian Optimization ,BO)是迄今為止最流行的方法之一,主要用于工業應用和各種科學實驗。對于 RL 應用程序,BO 最突出的用途之一是調整 AlphaGo 超參數,其中包括蒙特卡洛樹搜索 (MCTS) 超參數和時間控制設置。這導致 AlphaGo 在自我對弈中的勝率從 50% 提高到 66.5%。圖 4 展示了 RL 案例中貝葉斯優化的一般概念:

      演化算法

      演化算法被廣泛應用于各種優化任務,其機制如圖 5 所示:

      演化算法經常被用于搜索 RL 算法的超參數。Eriksson 等人使用實數遺傳算法 (GA),通過種群中每個個體的基因編碼 RL 算法的超參數,以調整 SARSA 超參數,研究者將該方法應用于控制移動機器人。Cardenoso Fernandez 和 Caarls 使用 GA 在簡單設置中調整 RL 算法的超參數,并通過結合自動重啟策略以擺脫局部最小值,取得了良好的性能。Ashraf 等人使用 Whale 優化算法(WOA),其靈感來自座頭鯨的狩獵策略,在各種 RL 任務中優化 DDPG 超參數以提高性能。

      用于在線調優的元梯度

      元梯度提供了一種替代方法來處理 RL 超參數的非平穩性。元梯度公式的靈感來自元學習方法,例如 MAML,它使用梯度優化了內部和外部循環。特別是,元梯度方法將其(可微分)超參數的子集指定為元參數 η。在內部循環中,智能體使用固定的 η 進行優化,采用梯度 step 來最小化(通常是固定的)損失函數。在外部循環中,通過采取梯度 step 來優化 η,以最小化外部損失函數。內部和外部損失函數的每個特定選擇都定義了一個新的元梯度算法。

      黑盒在線調優

      PBT 和元梯度的優勢在于動態調整超參數的能力,然而,這并不是唯一的方法。事實上,研究者已經考慮了各種其他方法,從黑盒方法到在線學習啟發方法。本節重點介紹在超參數不是可微的設置中動態適應的單智能體方法。

      自適應選擇超參數的方法自 20 世紀 90 年代以來一直很重要。Sutton 和 Singh (1994) 提出了 TD 算法中自適應加權方案的三種替代方法,Kearns 和 Singh (2000) 推導出時序差分算法誤差上限,并使用這些邊界推導出 λ 的時間表。Downey 和 Sanner (2010) 使用貝葉斯模型平均來為 TD 方法選擇 λ bootstrapping 超參數。最近, White (2016) 提出了 λ-greedy 來適應 λ 作為狀態的函數,并實現近似最優的偏差 - 方差權衡,Paul 等人 (2019) 提出了 HOOF,它使用帶有非策略數據的隨機搜索來周期性地為策略梯度算法選擇新的超參數。

      環境設計

      環境設計是強化學習智能體自動學習的重要組成部分。從課程學習到合成環境學習和生成,到將課程學習與環境生成相結合,這里的目標是加快機器學習智能體通過環境設計的學習速度。如圖 7 所示:

      混合方法

      不可避免的是,一些方法不屬于單一類別。事實上,許多方法都試圖利用不同方法的優勢,可稱之為混合方法。在該研究中,這些混合方法被定義為使用表 3 中不止一類技術的方法,例如 BOHB、DEHB 等。



      Share Http URL:  http://www.tiara-e.com/get_news_message.do?new_id=1046














      請輸入評論





























      青草免费视频,97 碰,山东老熟妇乱子视频,亚洲精品美女视频_河北新闻网

      Best Last Month