r_nsdのブログ

r_nsdのブログ

勉強したこと・調べたこと・思ったことを残しておくためのブログ

MENU

逆強化学習とは

強化学習は,長期的な報酬を最大化するような方策を求めることを目的としていました.

囲碁の場合は勝つ(相手より陣地をとる)と報酬がもらえ,迷路の場合はゴールにたどり着けば報酬がもらえます.このように囲碁や迷路では報酬の設計が簡単です.

しかし現実問題では報酬の設計が困難な場合があります.例えば,車の運転では,何をもって良い運転なのかを設計するのは難しいです.安全であれば良いのか,目的地に早く着けば良いのか,どういう状態になったら良いのか,を判断するのが困難であり,人によっても変わってきます.

このように報酬を設計するのが困難な場合に,エージェントが最適な方策に従って行動していると仮定し,方策(の結果生成された行動データ)から報酬を求める手法を強化学習といいます.

報酬から方策を求める強化学習と逆のことをしているので,逆強化学習と呼ばれます.

f:id:ryonsd:20190908161300p:plain

強化学習の適用例

エキスパートからの学習
エキスパート・熟練者の最適な行動から報酬を学習する

  • タクシーの運転
    • 熟練のタクシー運転手が何を報酬として運転しているかを学習する
  • TVのCMの配信 (NEC)

動物や人の行動解析
動物や人が最適or準最適な行動をしていると仮定し,行動履歴から報酬を学習する

  • 交通手段の選択
  • 歩行者の移動
    • 歩行者が移動するときの報酬を学習し,それを用いて経路予測を行う [Kitani, et al., 2012]
  • 線虫の行動
  • 海鳥の飛行
    • 海鳥が長距離移動をするときの報酬を学習し,経路予測やデータが欠損している部分の補完を行う [Hirakawa, et al., 2018]

強化学習の手法

大きく分けて次の3つがあります.