Morikatron Engineer Blog

モリカトロン開発者ブログ

DQfD

【CEDEC2020】模倣学習でAIに3Dアクションゲームを攻略させてみる(前編)【ML-Agents】

こんにちは。エンジニアの竹内です。 まずはじめに、この記事はCEDEC2020というゲーム開発者向けのカンファレンスで発表した内容(CEDEC2020: 攻略、接待、変更に強いAIプレイヤー開発のためのアプローチ)の模倣学習部分について、発表で網羅しきれなかった検…

【DQfD】人間のプレイを参考にして学習する強化学習アルゴリズムを実装してみる【後半】

はじめに Montezuma's Revengeについて 実装 学習の大枠 10ステップ分の状態遷移を保存 リプレイバッファの改造 Atariラッパーの追加 デモの作成 損失関数の導入 実験 結果 まとめ References はじめに こんにちは。モリカトロンでエンジニアをやっている竹…

【DQfD】人間のプレイを参考にして学習する強化学習アルゴリズムを実装してみる【前半】

はじめに 前提とする知識 DQfDとは 解説 デモンストレーションからのサンプル 損失関数の追加 事前学習 その他 まとめ 参考文献 はじめに こんにちは。モリカトロンでエンジニアをやっている竹内です。 ゲーム×AIと聞いてまず最初に思い浮かぶのは、やはり囲…