Uploaded by chan rachel

A3C - 維基百科,自由的百科全書

advertisement
A3C - 維基百科,自由的百科全書
4/13/23, 3:40 PM
A3C
維基百科,自由的百科全書
A3C ( Asynchronous Advantage Actor-Critic ) 是 由 Google DeepMind 團 隊 於 2016 年 提 出 的 一 種 基 於 異 步 梯 度 的 深 度 強 化 學 習 框 架
(Asynchronous Methods for Deep Reinforcement Learning),利用了多線程同時並行運行的特點,讓多個Actor(演員)並行訓練而定期與全
局參數同步。該方法在Atari遊戲和3D迷宮等方面都有不錯的效果。
目次
符號
優勢函數
算法流程
改進
論文
代碼實現
參考資料
符號
符號
含義
狀態。
動作。
回報。
一個軌跡中第個時間步對應的狀態、動作以及回報。偶爾使用
代替。
折扣因子;用於懲罰未來回報中的不確定性。
累積回報;或者說累積折扣回報。
在當前狀態下採取動作後轉移到下一個狀態並得到回報的概率。
隨機策略(智能體行為邏輯);
代表由參數化的策略。
確定性策略;雖然也可以把確定性策略記為
者 都是強化學習算法要學習的目標。
狀態-值函數衡量狀態的期望累積回報;
,但是採用一個不同的字母可以讓我們更容易分辨一個策略到底是確定性的還是隨機的。 或
代表由ω參數化的狀態-值函數。
當智能體遵循策略時狀態的期望累積回報;。
動作-值函數,與狀態-值函數類似,但是它衡量在狀態下採取動作後的期望累積回報;代表由參數化的動作-值函數。
與
類似,當智能體遵循策略 時,在狀態 下採取動作 後的期望累積回報;
。
優勢函數,;
的方差。
可以認為優勢函數是加強版本的動作-值函數,但是由於它採用狀態-值函數作為基準使得它具有更小
[1]
優勢函數
由
當選取k步TD後,在A3C中由於有參數
https://zh.wikipedia.org/zh-hk/A3C
。
,優勢函數可改寫為:
1/3
A3C - 維基百科,自由的百科全書
4/13/23, 3:40 PM
[2]
算法流程
異步優勢Actor-Critic - 每個Actor-Learner線程的偽代碼如下:
1. 定義全局參數向量 和
以及全局計數器
2. 定義線程自身參數向量 和
3. 當
,初始化線程步數計數器
:
1. 重置梯度:
和
2. 將線程自身的參數向量與全局參數向量同步:
3. 令線程計數器
4. 當(
,
並隨機採樣一個初始狀態
終止狀態)且
:
1. 根據當前線程的策略選擇當前執行的動作
2. 更新t以及
執行動作後接受回報 並轉移到下一個狀態
。
並且
5. 初始化保存累積回報估計值的變量:
6. 對於
,執行:
1.
2. 累積關於參數 的梯度:
3. 累積關於參數
7. 分別使用
和
的梯度:
異步更新 和
[3]
改進
在Asynchronous Methods for Deep Reinforcement Learning (https://arxiv.org/pdf/1602.01783.pdf) (頁面存檔備份 (https://web.archive.org/web/2
)加到目標函數中以避免收斂到次
0220622083641/https://arxiv.org/pdf/1602.01783.pdf),存於互聯網檔案館)中作者還將熵(
優確定性解,這是由於在最大化熵的過程中會避免分佈過於集中,包含熵在內的完整目標函數梯度如下[4]
其中H為熵函數, 是用於控制熵正則化項的超參數。
論文
[1] (https://arxiv.org/abs/1602.01783) (頁面存檔備份 (https://web.archive.org/web/20220108120027/https://arxiv.org/abs/1602.01783),存於互
聯網檔案館)
代碼實現
[2] (https://github.com/uvipen/Super-mario-bros-A3C-pytorch) (頁面存檔備份 (https://web.archive.org/web/20220515023622/https://github.com/u
vipen/Super-mario-bros-A3C-pytorch),存於互聯網檔案館)
參考資料
1. 策略梯度方法. Abracadabra. [2022-05-14] (英語).
2. Asynchronous Methods for Deep Reinforcement Learning (PDF). [2022-05-15]. (原始內容存檔 (PDF)於2022-06-22).
3. 策略梯度方法. Abracadabra. [2022-05-15] (英語).
4. A3C - 搜索结果 - 知乎. www.zhihu.com. [2022-05-15]. (原始內容存檔於2022-05-15).
取自 "https://zh.wikipedia.org/w/index.php?title=A3C&oldid=73094178"
本頁面最後修訂於2022年8月6日 (星期六) 16:32。
https://zh.wikipedia.org/zh-hk/A3C
2/3
4/13/23, 3:40 PM
A3C - 維基百科,自由的百科全書
本站的全部文字在共享創意 姓名標示-相同方式分享 3.0協議之條款下提供,附加條款亦可能應用。(請參閱使用條款)
Wikipedia®和維基百科標誌是維基媒體基金會的註冊商標;維基™是維基媒體基金會的商標。
維基媒體基金會是按美國國內稅收法501(c)(3)登記的非營利慈善機構。
https://zh.wikipedia.org/zh-hk/A3C
3/3
Download