sykwer’s blog

力こそパワー

2018-03-01から1ヶ月間の記事一覧

深層強化学習アルゴリズムDDPGをしっかり理解する(2)

この記事は、 sykwer.hatenablog.jp これ↑の続きにあたるものです. Deterministic policy gradient theoremの導出だけ知りたい! という人以外は、最初の記事から読むことをおすすめします. 2) DPGアルゴリズム 2.1) DPGアルゴリズムを使っていくモチベーショ…

深層強化学習アルゴリズムDDPGをしっかり理解する(1)

強化学習において、方策を最適化するアルゴリズムを大きく2つに分類すると、「価値反復に基づくアルゴリズム」と「方策勾配に基づくアルゴリズム」に分けられます. 前者は、状態価値関数V(s)や行動価値関数Q(s, a)にもとづいて方策を記述し、V(s)やQ(s, a)の…