第34回強化学習アーキテクチャ勉強会

お知らせ connpassではさらなる価値のあるデータを提供するため、2024年5月23日(木)を以ちましてイベントサーチAPIの無料での提供の廃止を決定いたしました。
2024年5月23日(木)以降より開始予定の「connpass 有料API」の料金プランにつきましてはこちらをご覧ください。
なお有料の対象となるのはAPIのみであり、connpassのサービスにつきましては今後も無料でご利用いただけます。

3月

12
第34回強化学習アーキテクチャ勉強会

主催 : 山川宏

募集内容	参加者無料先着順 60/50人
申込者	申込者一覧を見る
開催日時	2019/03/12(火) 18:45 ～ 20:30 Googleカレンダー icsファイル
募集期間	2019/03/05(火) 16:16 〜 2019/03/12(火) 20:30まで
会場	φcafe 東京都文京区本郷5丁目24-5　角川本郷ビル6F マップで見る会場のサイトを見る

イベントの説明

はじめに

強化学習は環境に柔軟に適応する知能エージェントにおける基本機能と考えられます。近年は深層学習などのアーキテクチャとして、認識技術と組み合わされて自動運転などの実践的な場でつかわれれはじめており、さらにロボットなどにおいても今後は適用されてゆくシーンが増えてゆくでしょう、こうした背景から、実践的な強化学習や，実世界で動かす強化学習（ロボット・自動運転），強化学習を部品として組み合わせる（アーキテクチャ），といったトピックについて重視し情報共有する場として強化学習アーキテクチャ勉強会を開始しました。

本勉強会において積極的に議論に加わっていただき、今後、論文紹介などの形で貢献いただけるかたの参加をお待ちしております。

当勉強会の運営方針などについては、https://rlarch.connpass.com/ を御覧ください。

Google Group: https://goo.gl/xznKlY （注：KlYのIは「L」の小文字です）
Slack: https://join.slack.com/t/rlarch/shared_invite/MjM2Mzc3MDE1MzYyLTE1MDQ2MjIzNDItNjFmNmU2NWJlYg
Twitter: #rlarch 勉強会のハッシュタグを作りました．コメントや質問等にご活用ください．

スケジュール

18:50〜18:55 オープニング
18:55〜19:45 報酬が稀にしか得られない場合の階層的探索の可能性と比較

※ 19:00にビル入り口が施錠されるため、19時以前にお越しください（万が一19時を過ぎてしまった場合はインターホンにてご連絡ください）

講演概要：

発表者：中井眞人（産業技術大学院大学）

タイトル：報酬が稀にしか得られない場合の階層的探索の可能性と比較
アブストラクト
強化学習では摩擦や制御誤差がなく報酬が逐次得られる環境では、単独エージェントの場合深層学習を使ったActor-Critic方式が優れていることはほぼ明確である。しかし複数エージェントの相互協業や報酬が稀にしか得られない場合には未だ大きな課題が残っている。後者の場合は報酬に関わらず有効な探索をする必要があり、内的動機や状態表現による方式がある。内的動機は知りたい事を動機する探索であり、状態表現は観察から実態を推定して探索する方法である。その中で状態を階層的に認識する方式も有効であり、その可能性や比較検討してみる。
参考文献
[1]Bacon, P. L., Harb, J., & Precup, D. (2017, February). The option-critic architecture. In Thirty-First AAAI Conference on Artificial Intelligence.
[2]Ecoffet, A., Huizinga, J., Lehman, J., Stanley, K. O., & Clune, J. (2019). Go-Explore: a New Approach for Hard-Exploration Problems. arXiv preprint arXiv:1901.10995.
[3]Burda, Y., Edwards, H., Storkey, A., & Klimov, O. (2018). Exploration by random network distillation. arXiv preprint arXiv:1810.12894.
[4]Mishra, N., Rohaninejad, M., Chen, X., & Abbeel, P. (2017). A simple neural attentive meta-learner. arXiv preprint arXiv:1707.03141.
[5]Vezhnevets, A. S., Osindero, S., Schaul, T., Heess, N., Jaderberg, M., Silver, D., & Kavukcuoglu, K. (2017, August). Feudal networks for hierarchical reinforcement learning. In Proceedings of the 34th International Conference on Machine Learning-Volume 70 (pp. 3540-3549). JMLR. org.
[6]Duan, Y., Schulman, J., Chen, X., Bartlett, P. L., Sutskever, I., & Abbeel, P. (2016). RL $^ 2$: Fast Reinforcement Learning via Slow Reinforcement Learning. arXiv preprint arXiv:1611.02779.
[7]Wang, J. X., Kurth-Nelson, Z., Tirumala, D., Soyer, H., Leibo, J. Z., Munos, R., ... & Botvinick, M. (2016). Learning to reinforcement learn. arXiv preprint arXiv:1611.05763.
[8]Gregor, K., & Besse, F. (2018). Temporal difference variational auto-encoder. arXiv preprint arXiv:1806.03107.
[9]Neural scene representation and rendering | DeepMind