2020-05-09から1日間の記事一覧

【強化学習】モデルベース（価値反復法，方策反復法）

強化学習

強化学習の目的は「長期的な報酬を最大化する方策を求めること」であり，長期的な報酬は価値関数で表現されます．ある状態で方策に従って行動したときの価値関数を状態価値関数と呼び，次の式で定義します．価値反復法価値反復法 (Vlaue Iteration) とは…