逆強化学習とは
強化学習は,長期的な報酬を最大化するような方策を求めることを目的としていました.
囲碁の場合は勝つ(相手より陣地をとる)と報酬がもらえ,迷路の場合はゴールにたどり着けば報酬がもらえます.このように囲碁や迷路では報酬の設計が簡単です.
しかし現実問題では報酬の設計が困難な場合があります.例えば,車の運転では,何をもって良い運転なのかを設計するのは難しいです.安全であれば良いのか,目的地に早く着けば良いのか,どういう状態になったら良いのか,を判断するのが困難であり,人によっても変わってきます.
このように報酬を設計するのが困難な場合に,エージェントが最適な方策に従って行動していると仮定し,方策(の結果生成された行動データ)から報酬を求める手法を逆強化学習といいます.
報酬から方策を求める強化学習と逆のことをしているので,逆強化学習と呼ばれます.
逆強化学習の適用例
エキスパートからの学習
エキスパート・熟練者の最適な行動から報酬を学習する
- タクシーの運転
- 熟練のタクシー運転手が何を報酬として運転しているかを学習する
- TVのCMの配信 (NEC)
- 熟練者が行っていたTVのCMの割り当てにおいて,どのように意思決定を行っているかを学習する ニュースリリース, [Suzuki, et al., 2019]
動物や人の行動解析
動物や人が最適or準最適な行動をしていると仮定し,行動履歴から報酬を学習する
- 交通手段の選択
- 人々が交通手段を選択するときの,料金や移動時間などに対する嗜好を学習する [Wu, et al., 2017], [Wu, et al., 2018]
- 歩行者の移動
- 歩行者が移動するときの報酬を学習し,それを用いて経路予測を行う [Kitani, et al., 2012]
- 線虫の行動
- 線虫がどのような温度,温度変化を好むのかを学習する [Yamaguchi, et al., 2018]
- 海鳥の飛行
- 海鳥が長距離移動をするときの報酬を学習し,経路予測やデータが欠損している部分の補完を行う [Hirakawa, et al., 2018]
逆強化学習の手法
大きく分けて次の3つがあります.
- 最大マージン法
- Apprenticeship Learning
- 最大エントロピー法
- Maximum Entropy Inverse Reinforcement Learning
- ベイズ
- Bayesian Inverse Reinforcement Learning