【強化学習】ベルマン方程式と価値関数

強化学習

強化学習とはの記事で，強化学習の概要とマルコフ決定過程 (MDP) について触れました．強化学習の目的は，長期的な報酬（割引報酬和）を最大化する方策を求めることでした．この割引報酬和は即時報酬と割引率を用いて次の式で表されるのでした．強化学習…

【強化学習】強化学習とマルコフ決定過程

強化学習

強化学習 AI囲碁のAlphaGoに使われていることで有名ですが，囲碁を例とすると，試合に勝つことを目的として，どのように碁石を打っていくかを学習する手法を強化学習といいます．機械学習の教師あり学習では正解を与えますが，正解を与えることが困難なもの…

強化学習

強化学習強化学習とマルコフ決定過程ベルマン方程式と価値関数モデルベースとモデルフリーモデルベース（価値反復法，方策反復法）モデルフリー（モンテカルロ法，Q学習，SARSA，Actor-Critic）方策勾配法，方策勾配定理 REINFORCE DPG（決定論的方策…