2020-05-22から1日間の記事一覧

【強化学習】モデルフリー（モンテカルロ法，Q学習，SARSA，Actor-Critic）

強化学習

強化学習について軽くおさらいします．強化学習は，長期的な報酬が最大化するような方策を学習することが目的でした．学習対象である良い方策を求めるためには，長期的な報酬（価値）を求める必要がありました．環境（モデル：遷移関数，報酬関数）がわか…