r_nsdのブログ
強化学習の目的は「長期的な報酬を最大化する方策を求めること」であり,長期的な報酬は価値関数で表現されます. ある状態で方策に従って行動したときの価値関数を状態価値関数と呼び,次の式で定義します. 価値反復法 価値反復法 (Vlaue Iteration) とは…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。