2020-05-01から1ヶ月間の記事一覧
Qiitaの記事 qiita.com
強化学習について軽くおさらいします. 強化学習は,長期的な報酬が最大化するような方策を学習することが目的でした. 学習対象である良い方策を求めるためには,長期的な報酬(価値)を求める必要がありました. 環境(モデル:遷移関数,報酬関数)がわか…
方策勾配法 強化学習の目的は「長期的な報酬を最大化する方策を求めること」でした. 方策勾配法は,方策をパラメータを持った関数として定義し,方策の価値が最大となるパラメータを勾配法で求める方法です. パラメータを持つ方策の価値をとします.方策の…
強化学習の目的は「長期的な報酬を最大化する方策を求めること」であり,長期的な報酬は価値関数で表現されます. ある状態で方策に従って行動したときの価値関数を状態価値関数と呼び,次の式で定義します. 価値反復法 価値反復法 (Vlaue Iteration) とは…