r_nsdのブログ

勉強したこと・調べたこと・思ったことを残しておくためのブログ

【強化学習】目次

強化学習

強化学習

強化学習とマルコフ決定過程
ベルマン方程式と価値関数
モデルベースとモデルフリー
モデルベース（価値反復法，方策反復法）
モデルフリー（モンテカルロ法，Q学習，SARSA，Actor-Critic）
方策勾配法，方策勾配定理
- REINFORCE
- DPG（決定論的方策勾配法）
- TRPO, PPO

深層強化学習

深層強化学習とは
DQN
DDPG
A3C

逆強化学習，模倣学習

階層型強化学習

Option-Critic

マルチエージェント強化学習

MADDPG