r_nsdのブログ
ベルマン方程式の記事で価値関数を再帰的な形で定義しました. 状態価値関数 行動価値関数 おさらいすると強化学習は,この価値関数が最大となるような方策を求めることを目的としていました. 良い方策を求めるためには,価値関数を推定しなければなりませ…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。