どうもこんにちは。エンジニアの竹内です。
強化学習、とりわけ方策や価値関数をニューラルネットによって近似する深層強化学習と呼ばれるものにはDQNを始めとして実に様々な手法が存在します。
今回はその中でもDQNと並んで割とポピュラーなProximal Policy Optimization(PPO)について解説しつつ、Tensorflow2を使って実際に実装していこうかと思います。
若干古いアルゴリズムですが、扱いやすく性能も良いので「これから強化学習を始めようと思うけど、手法が多すぎてなにから手をつければ良いかわからない」「そこそこ性能が良くて実装が簡単な手法を知りたい」といった方の参考になれば幸いです。
- PPOとは
- ニューラルネットと目的関数
- ①方策
- ②状態価値
- ③エントロピー項
- GAE
- ニューラルネットと目的関数
- PPOの実績
- Unity Obstacle Tower
- OpenAI Retro Contest
- Animal AI Olympics
- OpenAI Five
- Unity ML-Agents
- 実装
- メイン部分
- メモリー
- GAEの計算
- 損失の計算
- 各種パラメータ
- 結果
- 参考にした資料・サイト