CEDEC2020の補足ー格闘ゲーム編その3ー

CEDEC2020 強化学習

どうも、モリカトロンのプログラマおじさん、岡島です。 CEDEC からだいぶたってしまいましたが、前回からの続きで接待プレイについての補足などをしていこうと思います。「接待」についてそもそもなんで接待プレイをAIにさせたかったのか接待プレイの…

CEDEC2020 質疑応答

CEDEC2020 強化学習機械学習

こんにちは、モリカトロンでプログラマをやっています。馬淵です。先日発表させていただいたCEDEC2020ですが、講演時でのコメントやアンケートが届いたため、今回はそれらに寄せられた質疑応答を私が代表してここに書かせていただきます。発表時のスライド…

機械学習強化学習 GAIL Python

こんにちは、エンジニアの竹内です。以前の記事でDQNに模倣学習の仕組みを取り入れたDeep Q-Learning from Demonstrationsというアルゴリズムを紹介しましたが、模倣学習には他にもいろいろなアプローチが存在します。特にエキスパートの行動軌跡から環境の…

CEDEC2020 機械学習強化学習

どうも、モリカトロンのプログラミングおじさん、岡島です。馬淵の記事で予告された通り、今回は僕から用意した環境ではUE4の描画を切ることが出来ず(その辺りの話は岡島さんが書いてくれると思います) の部分について補足説明をします。 UE4とPythonを通…

CEDEC2020 NEAT Python 強化学習機械学習

お久しぶりです。モリカトロンでエンジニアをやっております、馬淵です。前回私がブログを書いたのがNEATに関して書いたとき*1(2020年2月24日)で、これを書き始めているのが2020年9月8日なので、私がブログを書くのは実に6ヶ月強ぶりになります。何故これ…

ML-Agents Unity 強化学習 CEDEC2020 DQfD

こんにちは、エンジニアの竹内です。この記事は【CEDEC2020】模倣学習でAIに3Dアクションゲームを攻略させてみる(前編)【ML-Agents】 - Morikatron Engineer Blogの続きとなります。前編ではUnity側で行った学習の準備を中心的に扱いましたが、後編ではPyt…

CEDEC2020 ML-Agents Unity 強化学習 DQfD

こんにちは。エンジニアの竹内です。まずはじめに、この記事はCEDEC2020というゲーム開発者向けのカンファレンスで発表した内容(CEDEC2020: 攻略、接待、変更に強いAIプレイヤー開発のためのアプローチ)の模倣学習部分について、発表で網羅しきれなかった検…

Python 強化学習機械学習

どうもこんにちは。エンジニアの竹内です。強化学習、とりわけ方策や価値関数をニューラルネットによって近似する深層強化学習と呼ばれるものにはDQNを始めとして実に様々な手法が存在します。今回はその中でもDQNと並んで割とポピュラーなProximal Policy…

DQfD 機械学習強化学習 OSS

はじめに Montezuma's Revengeについて実装学習の大枠 10ステップ分の状態遷移を保存リプレイバッファの改造 Atariラッパーの追加デモの作成損失関数の導入実験結果まとめ References はじめにこんにちは。モリカトロンでエンジニアをやっている竹…

機械学習強化学習 DQfD

はじめに前提とする知識 DQfDとは解説デモンストレーションからのサンプル損失関数の追加事前学習その他まとめ参考文献はじめにこんにちは。モリカトロンでエンジニアをやっている竹内です。ゲーム×AIと聞いてまず最初に思い浮かぶのは、やはり囲…