2019-09-07から1日間の記事一覧

【強化学習】モデルベースとモデルフリー

強化学習

ベルマン方程式の記事で価値関数を再帰的な形で定義しました．状態価値関数行動価値関数おさらいすると強化学習は，この価値関数が最大となるような方策を求めることを目的としていました．良い方策を求めるためには，価値関数を推定しなければなりませ…