Morikatron Engineer Blog

モリカトロン開発者ブログ

機械学習

CEDEC2020 質疑応答

こんにちは、モリカトロンでプログラマをやっています。馬淵です。 先日発表させていただいたCEDEC2020ですが、講演時でのコメントやアンケートが届いたため、今回はそれらに寄せられた質疑応答を私が代表してここに書かせていただきます。 発表時のスライド…

【GAIL】逆強化学習とGANを組み合わせた模倣学習アルゴリズムを実装してみる【CartPole】

こんにちは、エンジニアの竹内です。以前の記事でDQNに模倣学習の仕組みを取り入れたDeep Q-Learning from Demonstrationsというアルゴリズムを紹介しましたが、模倣学習には他にもいろいろなアプローチが存在します。 特にエキスパートの行動軌跡から環境の…

CEDEC2020の補足 ー格闘ゲーム編その2ー

どうも、モリカトロンのプログラミングおじさん、岡島です。 馬淵の記事で予告された通り、今回は僕から 用意した環境ではUE4の描画を切ることが出来ず(その辺りの話は岡島さんが書いてくれると思います) の部分について補足説明をします。 UE4とPythonを通…

CEDEC2020の補足 ー格闘ゲーム編その1ー

お久しぶりです。モリカトロンでエンジニアをやっております、馬淵です。 前回私がブログを書いたのがNEATに関して書いたとき*1(2020年2月24日)で、これを書き始めているのが2020年9月8日なので、私がブログを書くのは実に6ヶ月強ぶりになります。 何故これ…

【Tensorflow2】強化学習アルゴリズムPPOを実装してみる【CartPole】

どうもこんにちは。エンジニアの竹内です。 強化学習、とりわけ方策や価値関数をニューラルネットによって近似する深層強化学習と呼ばれるものにはDQNを始めとして実に様々な手法が存在します。 今回はその中でもDQNと並んで割とポピュラーなProximal Policy…

【DQfD】人間のプレイを参考にして学習する強化学習アルゴリズムを実装してみる【後半】

はじめに Montezuma's Revengeについて 実装 学習の大枠 10ステップ分の状態遷移を保存 リプレイバッファの改造 Atariラッパーの追加 デモの作成 損失関数の導入 実験 結果 まとめ References はじめに こんにちは。モリカトロンでエンジニアをやっている竹…

【DQfD】人間のプレイを参考にして学習する強化学習アルゴリズムを実装してみる【前半】

はじめに 前提とする知識 DQfDとは 解説 デモンストレーションからのサンプル 損失関数の追加 事前学習 その他 まとめ 参考文献 はじめに こんにちは。モリカトロンでエンジニアをやっている竹内です。 ゲーム×AIと聞いてまず最初に思い浮かぶのは、やはり囲…

NEATでCartPole問題を解く

はじめまして。モリカトロン株式会社でAIの研究をしている馬淵です。 最近ですが、ニューラルネットと遺伝的アルゴリズム(以下GA)を組み合わせた Neuro Evolution of Augmenting Topologies(以下NEAT)という手法で OpenAI gymのCartPole問題を解いていたので…