r_nsdのブログ

r_nsdのブログ

勉強したこと・調べたこと・思ったことを残しておくためのブログ

MENU

2020-05-21から1日間の記事一覧

【強化学習】方策勾配法,方策勾配定理

方策勾配法 強化学習の目的は「長期的な報酬を最大化する方策を求めること」でした. 方策勾配法は,方策をパラメータを持った関数として定義し,方策の価値が最大となるパラメータを勾配法で求める方法です. パラメータを持つ方策の価値をとします.方策の…