【強化学習】モデルフリー（モンテカルロ法，Q学習，SARSA，Actor-Critic）

強化学習

強化学習について軽くおさらいします．強化学習は，長期的な報酬が最大化するような方策を学習することが目的でした．学習対象である良い方策を求めるためには，長期的な報酬（価値）を求める必要がありました．環境（モデル：遷移関数，報酬関数）がわか…

【強化学習】方策勾配法，方策勾配定理

強化学習

方策勾配法強化学習の目的は「長期的な報酬を最大化する方策を求めること」でした．方策勾配法は，方策をパラメータを持った関数として定義し，方策の価値が最大となるパラメータを勾配法で求める方法です．パラメータを持つ方策の価値をとします．方策の…

強化学習

強化学習の目的は「長期的な報酬を最大化する方策を求めること」であり，長期的な報酬は価値関数で表現されます．ある状態で方策に従って行動したときの価値関数を状態価値関数と呼び，次の式で定義します．価値反復法価値反復法 (Vlaue Iteration) とは…

強化学習逆強化学習

強化学習は，長期的な報酬を最大化するような方策を求めることを目的としていました．囲碁の場合は勝つ（相手より陣地をとる）と報酬がもらえ，迷路の場合はゴールにたどり着けば報酬がもらえます．このように囲碁や迷路では報酬の設計が簡単です．しかし…

強化学習

ベルマン方程式の記事で価値関数を再帰的な形で定義しました．状態価値関数行動価値関数おさらいすると強化学習は，この価値関数が最大となるような方策を求めることを目的としていました．良い方策を求めるためには，価値関数を推定しなければなりませ…

強化学習

強化学習とはの記事で，強化学習の概要とマルコフ決定過程 (MDP) について触れました．強化学習の目的は，長期的な報酬（割引報酬和）を最大化する方策を求めることでした．この割引報酬和は即時報酬と割引率を用いて次の式で表されるのでした．強化学習…

強化学習

強化学習 AI囲碁のAlphaGoに使われていることで有名ですが，囲碁を例とすると，試合に勝つことを目的として，どのように碁石を打っていくかを学習する手法を強化学習といいます．機械学習の教師あり学習では正解を与えますが，正解を与えることが困難なもの…

強化学習

強化学習強化学習とマルコフ決定過程ベルマン方程式と価値関数モデルベースとモデルフリーモデルベース（価値反復法，方策反復法）モデルフリー（モンテカルロ法，Q学習，SARSA，Actor-Critic）方策勾配法，方策勾配定理 REINFORCE DPG（決定論的方策…