Morikatron Engineer Blog

モリカトロン開発者ブログ

【Tensorflow2】強化学習アルゴリズムPPOを実装してみる【CartPole】

どうもこんにちは。エンジニアの竹内です。 強化学習、とりわけ方策や価値関数をニューラルネットによって近似する深層強化学習と呼ばれるものにはDQNを始めとして実に様々な手法が存在します。 今回はその中でもDQNと並んで割とポピュラーなProximal Policy…

【DQfD】人間のプレイを参考にして学習する強化学習アルゴリズムを実装してみる【後半】

はじめに Montezuma's Revengeについて 実装 学習の大枠 10ステップ分の状態遷移を保存 リプレイバッファの改造 Atariラッパーの追加 デモの作成 損失関数の導入 実験 結果 まとめ References はじめに こんにちは。モリカトロンでエンジニアをやっている竹…

【DQfD】人間のプレイを参考にして学習する強化学習アルゴリズムを実装してみる【前半】

はじめに 前提とする知識 DQfDとは 解説 デモンストレーションからのサンプル 損失関数の追加 事前学習 その他 まとめ 参考文献 はじめに こんにちは。モリカトロンでエンジニアをやっている竹内です。 ゲーム×AIと聞いてまず最初に思い浮かぶのは、やはり囲…