【強化学習】方策勾配法,方策勾配定理
方策勾配法
強化学習の目的は「長期的な報酬を最大化する方策を求めること」でした.
方策勾配法は,方策をパラメータを持った関数として定義し,方策の価値が最大となるパラメータを勾配法で求める方法です.
パラメータを持つ方策の価値をとします.方策の価値の勾配を,学習率をとすると,パラメータの更新式は次式のようになります.
次にの求め方について説明します.結果から示すと,はこうなります.
]
これを方策勾配定理と呼びます.([Sutton+, 1999] Policy Gradient Methods for Reinforcement Learning with Function Approximation)
方策勾配定理の導出
方策の価値を状態価値関数とします.
状態価値関数をで偏微分すると,
ここで,
より
を代入して
とすると,
となり,が再帰的な形になります.もう1ステップ進めると,
ここで,をステップでからに遷移する確率とすると,
これで,価値の勾配を示せることができました.もう少し正確には,方策の価値は「初期状態で方策に従って行動したときの価値」なのでとなります.
また,を初期状態から状態へと遷移する確率に書き換えると,となり,これをとします.
これより,方策の価値の勾配は次式で表されます.
]
これで,方策勾配定理が導出できました.