2020-04-15から1日間の記事一覧

【DQfD】人間のプレイを参考にして学習する強化学習アルゴリズムを実装してみる【後半】

DQfD 機械学習強化学習 OSS

はじめに Montezuma's Revengeについて実装学習の大枠 10ステップ分の状態遷移を保存リプレイバッファの改造 Atariラッパーの追加デモの作成損失関数の導入実験結果まとめ References はじめにこんにちは。モリカトロンでエンジニアをやっている竹…