2019-09-05 【強化学習】目次 強化学習 強化学習 強化学習とマルコフ決定過程 ベルマン方程式と価値関数 モデルベースとモデルフリー モデルベース(価値反復法,方策反復法) モデルフリー(モンテカルロ法,Q学習,SARSA,Actor-Critic) 方策勾配法,方策勾配定理 REINFORCE DPG(決定論的方策勾配法) TRPO, PPO 深層強化学習 深層強化学習とは DQN DDPG A3C 逆強化学習,模倣学習 逆強化学習とは 模倣学習と逆強化学習 最大エントロピー逆強化学習 階層型強化学習 Option-Critic マルチエージェント強化学習 MADDPG