r_nsdのブログ

r_nsdのブログ

勉強したこと・調べたこと・思ったことを残しておくためのブログ

MENU

2019-09-07から1日間の記事一覧

【強化学習】モデルベースとモデルフリー

ベルマン方程式の記事で価値関数を再帰的な形で定義しました. 状態価値関数 行動価値関数 おさらいすると強化学習は,この価値関数が最大となるような方策を求めることを目的としていました. 良い方策を求めるためには,価値関数を推定しなければなりませ…