自動微分+XLA付き機械学習フレームワークJAXを使用してMNISTを学習させてみる

機械学習 Python JAX

こんにちは、エンジニアの竹内です。深層学習を行う際によく利用されるフレームワークといえばGoogleが開発しているTensorflowとFacebookが開発しているPytorchの２大巨頭に加えて、Kerasなどが挙げられるかと思いますが、今回はそのような選択肢の一つとし…

2020-11-09

可搾取量(exploitability)で不完全情報ゲームの戦略を評価する

不完全情報ゲーム CFR

こんにちは、エンジニアの竹内です。以前のブログ記事【CFR】不完全情報ゲームを学習するAIを実装してみる【KuhnPoker】 - Morikatron Engineer Blogにて二人不完全情報ゲームのナッシュ均衡を計算的に求めるCounterfactual Regret Minimizationというアル…

2020-10-12

【GAIL】逆強化学習とGANを組み合わせた模倣学習アルゴリズムを実装してみる【CartPole】

機械学習強化学習 GAIL Python

こんにちは、エンジニアの竹内です。以前の記事でDQNに模倣学習の仕組みを取り入れたDeep Q-Learning from Demonstrationsというアルゴリズムを紹介しましたが、模倣学習には他にもいろいろなアプローチが存在します。特にエキスパートの行動軌跡から環境の…

2020-09-16

【CEDEC2020】模倣学習でAIに3Dアクションゲームを攻略させてみる(後編)【ML-Agents】

ML-Agents Unity 強化学習 CEDEC2020 DQfD

こんにちは、エンジニアの竹内です。この記事は【CEDEC2020】模倣学習でAIに3Dアクションゲームを攻略させてみる(前編)【ML-Agents】 - Morikatron Engineer Blogの続きとなります。前編ではUnity側で行った学習の準備を中心的に扱いましたが、後編ではPyt…

2020-09-10

【CEDEC2020】模倣学習でAIに3Dアクションゲームを攻略させてみる(前編)【ML-Agents】

CEDEC2020 ML-Agents Unity 強化学習 DQfD

こんにちは。エンジニアの竹内です。まずはじめに、この記事はCEDEC2020というゲーム開発者向けのカンファレンスで発表した内容(CEDEC2020: 攻略、接待、変更に強いAIプレイヤー開発のためのアプローチ)の模倣学習部分について、発表で網羅しきれなかった検…

2020-08-31

【CFR】不完全情報ゲームを学習するAIを実装してみる【KuhnPoker】

Python 不完全情報ゲーム CFR

こんにちは、エンジニアの竹内です。これまでの記事ではDQfD、PPOといった深層強化学習のアルゴリズムを紹介してきましたが、今回は少し趣向を変えて、ニューラルネットを使わずに不完全情報ゲームの戦略を求めるアルゴリズムを扱いたいと思います。不完全…

2020-06-29

【Tensorflow2】強化学習アルゴリズムPPOを実装してみる【CartPole】

Python 強化学習機械学習

どうもこんにちは。エンジニアの竹内です。強化学習、とりわけ方策や価値関数をニューラルネットによって近似する深層強化学習と呼ばれるものにはDQNを始めとして実に様々な手法が存在します。今回はその中でもDQNと並んで割とポピュラーなProximal Policy…

2020-04-15

【DQfD】人間のプレイを参考にして学習する強化学習アルゴリズムを実装してみる【後半】

DQfD 機械学習強化学習 OSS

はじめに Montezuma's Revengeについて実装学習の大枠 10ステップ分の状態遷移を保存リプレイバッファの改造 Atariラッパーの追加デモの作成損失関数の導入実験結果まとめ References はじめにこんにちは。モリカトロンでエンジニアをやっている竹…

2020-03-11

【DQfD】人間のプレイを参考にして学習する強化学習アルゴリズムを実装してみる【前半】

機械学習強化学習 DQfD

はじめに前提とする知識 DQfDとは解説デモンストレーションからのサンプル損失関数の追加事前学習その他まとめ参考文献はじめにこんにちは。モリカトロンでエンジニアをやっている竹内です。ゲーム×AIと聞いてまず最初に思い浮かぶのは、やはり囲…