r_nsdのブログ
強化学習は,長期的な報酬を最大化するような方策を求めることを目的としていました. 囲碁の場合は勝つ(相手より陣地をとる)と報酬がもらえ,迷路の場合はゴールにたどり着けば報酬がもらえます.このように囲碁や迷路では報酬の設計が簡単です. しかし…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。