SlideShare una empresa de Scribd logo
1 de 18
論文紹介: VALUE PREDICTION NETWORK
2018/1/13 NIPS2017 読み会 KATSUKI OHTO
概要 (VALUE PREDICTION NETWORK)
 複雑な強化学習タスクを効率的に解く
 ニューラルネットワークアーキテクチャと学習、実行法の提案
 未知環境にて環境のモデルを学習しながら状態の価値を学習
 効率な経路を選択する課題やAtariゲームにて
既存研究(DQN)を上回る成果をあげた
以降、特に注釈がない場合には
図はValue Prediction Network (Oh et al, 2017)
からの引用
強化学習 REINFORCEMENT LEARNING
 強化学習課題
 (ここでは)エージェントが未知の環境で試行錯誤しながら
段々上手くなっていくような問題設定
 目的 : 将来的に得る報酬(ゲームの得点など)の総計を最大化すること
DQNが
ブロック崩しを
上達する様子
Mnih et al.
(2015)
モデルベース強化学習 ORモデルフリー強化学習
 未知の環境で上手く動けるようになるには?
 ①環境のモデル(ルール)を覚えて考える
⇨ モデルベース強化学習
 ②環境のモデルを明示的に扱わずに直接行動を選ぶ
⇨ モデルフリー強化学習 (DQN など)
モデルフリー強化学習の例
 Deep Q-Network で扱われるニューラルネットワークのモデルの例 (Mnih et al., 2015)
 左側で現在状態の画像入力を受け取り、
Convolutional Neural Network を通じて
行動の価値(以後の報酬合計の期待値)
を予測(右側)
 学習後には予測された行動価値が大きい
行動を選ぶ
 特徴:
- 入力から直接計算して答えを出す
-「直感」的行動のみ学習される
モデルベース強化学習 VPN導入
 モデルベース強化学習 :
- 環境のモデル(状態遷移、報酬ら)を一緒に学習
- 深く思慮できる(探索)
 困難な点: 少ない観測サンプルから環境のモデルを作ることは、
ゲームのような小さな課題でも難しい
 先行研究やVPNのアプローチ: 観測した状態を
「抽象的な状態(abstract state)」にエンコーディングし、
「抽象的な状態」の上で遷移モデルを学習
 「抽象的な状態」一体何ぞや?
抽象的状態表現 (ABSTRACT STATE REPRESENTATION)
 Word2Vecのイメージに近い
- 単語の意味を数値ベクトルで表現
- 数値として演算できる
 単語→数値ベクトルへの変換を、
環境からの観測→数値ベクトル(or行列)に置き換えてみる
- 目的のタスクの特徴を掴む状態表現が得られれば、効率よく学習できると期待
(背景など、課題に不要な情報が抜ける)
- ただし、抽象的な状態空間上で遷移や報酬を考えた結果、現実と乖離する可能性も
- 実用的なのか?→先行研究(Predictron)が有効性を示唆
(Mikolov et al., 2013)
先行研究: PREDICTRON
 The Predictron: End-To-End Learning and Planning (Silver et al., 2017)
 マルコフ報酬過程(時系列で観測と報酬を得るが、
自分で行動を選べない過程)にて
良い価値推定を得るのに抽象状態表現による先読みを使う
 遷移モデルの表現としてCNNを利用
 右図がアーキテクチャの概要
(図は1層分、事前に抽象状態へのエンコーディング済)
下から、kステップ後の抽象状態 𝑠 𝑘
を受けとり、
途中で抽象状態の価値 𝑣 𝑘
即時報酬 𝑟 𝑘+1
割引率 𝛾 𝑘+1
収益の重み 𝜆 𝑘
(TD(𝜆) の𝜆)
最後に 次の抽象状態 𝑠 𝑘+1 を出力
 先読みして価値を推定することで単純な純伝搬ネットより高精度
Predictronの
1層分の構造
VALUE PREDICTION NETWORK (VPN)
 Predictronは行動決定のない系での価値推定
 行動決定を行う場合にも同種の手法が使える、というのがVPNの提案
 VPNでできるようになったこと…行動空間が有限、(それほど候補が多くない)時に候補を絞って
数手分探索し行動を決められる
 抽象状態空間上での先読みを
行動候補で枝分かれさせて、
数手先まで探索
+ロールアウト(分岐させずに先読み)
によって行動を決定
 探索によって得る価値推定の式: (モンテカルロ的に平均)
𝑑 探索の残り深さ
VALUE PREDICTION NETWORK (VPN) アーキテクチャ
 VPNのアーキテクチャ
 VPNを構成するモジュール
- ① Encoding (環境の観測 𝑥 から 抽象状態 𝑠 へ変換),
- ② Value (抽象状態 𝑠 から 価値 𝑉 を出力)
- ③ Outcome (抽象状態 𝑠 から 報酬 𝑟 割引率 𝛾 を出力) ※ 𝜆 はVPNではなし
- ④ Transition (抽象状態 𝑠 から 次の抽象状態 𝑠′
を出力)
 行動(オプション)𝑜 の入力が追加
VALUE PREDICTION NETWORK (VPN) アーキテクチャ
 VPNのアーキテクチャ
 抽象状態の遷移関数の詳細
(Appendix E)
 全体を Residual Net として
抽象状態の変化分だけを学習
(変化は全体に対して小さめという仮定)
VALUE PREDICTION NETWORK (VPN) 学習
 学習法
 右図横軸が実時間、縦軸が先読み
 学習の誤差関数
 𝑅 は探索ありの先読みをして推定した価値
𝑣 は探索なしの推定価値
マルチステップQ学習(価値=最善の手の価値)
 即時報酬 𝑟 は実際の観測値に近づける
 割引率 𝛾 は掛け算スケールなので log を取ってMSEに入れる
 学習時の行動系列生成(実際の行動)は 𝜖 −グリーディで生成
実験① CORRECT TASK
 制限時間の中でエージェント(緑)が複数のゴール(青)のうち何個到達できるか
 各マスの状態を 10 x 10 x 3 の行列として観測が与えられる
 一定確率でゴールが動いたり、強制的に移動させたれたりなどの不確定バージョンでも検証
実験① CORRECT TASK 結果
 DQN, OPN (抽象状態ではなく観測の直接モデル化にトライしたもの)と比較
Greedy (近くのゴールに行く), Shortest (deterministicの場合の最適解)
 確定性課題 (a) 不確定性課題 (b) の双方で他のモデル(解析解以外)を上回った
 OPNは確定性なら性能が高いが、不確定性だと大幅に悪くなる。
現実の観測の平均化された状態(あり得ない)を生成して探索するからではないか?
実験② ATARI GAMES
 Atari の
9種類のゲーム
 DQNと比較し、
Alien, Ms. Pacman
以外で上回った
実験② ATARI GAMES VPNの出力例
 行動系列とVPNの評価
 相手を避ける動きをした (b) に高い評価がついている
 逆に相手にぶつかって死ぬ (e) は低評価
実験③ 学習時と実行時の探索深さ
 学習時の探索深さ(凡例のかっこ内)より
実行時の探索深さ(グラフの横軸)
が深い場合
 Collect Task (Deterministic) で検証
 学習時 深さ 3以上でやれば
実行時の悪化は少なかった
 特に、学習時にロールアウトだけ深くした
VPN(5)* は実行時深くても安定

逆に深さ 1 で学習した VPN(1) は性能低下
感想
 初夏にPredictron論文(行動決定がない想定)を読んだ時に、
行動決定ありのバージョンが冬には出るんではと話していたがその通りだった
(Predictron は DeepMind,、VPN は ミシガン大学 & Google Brain)
ただ思うのと実際にやるのは大違い
 全探索でなく行動を数個選んで進めるだけで性能が上がるのは
モンテカルロ木探索(AlphaGo等)の性能の高さと関連していて興味深い
 行動候補が多い場合や連続の場合にサンプリングで頑張れそう?
 環境のモデルが既知な課題においても、
不確定性ありの場合などで抽象状態表現が有効か気になる

Más contenido relacionado

La actualidad más candente

[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...Deep Learning JP
 
【2017年】ディープラーニングのフレームワーク比較
【2017年】ディープラーニングのフレームワーク比較【2017年】ディープラーニングのフレームワーク比較
【2017年】ディープラーニングのフレームワーク比較Ryota Suzuki
 
TensorFlowとCNTK
TensorFlowとCNTKTensorFlowとCNTK
TensorFlowとCNTKmaruyama097
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A SurveyDeep Learning JP
 
20210531 ora jam_stackgan
20210531 ora jam_stackgan20210531 ora jam_stackgan
20210531 ora jam_stackganKenichi Sonoda
 
PythonによるDeep Learningの実装
PythonによるDeep Learningの実装PythonによるDeep Learningの実装
PythonによるDeep Learningの実装Shinya Akiba
 
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic SegmentationDeep Learning JP
 
Densely Connected Convolutional Networks
Densely Connected Convolutional NetworksDensely Connected Convolutional Networks
Densely Connected Convolutional Networksharmonylab
 
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)Shintaro Yoshida
 
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだOvercoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだYusuke Uchida
 
輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions
輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions
輪読資料 Xception: Deep Learning with Depthwise Separable ConvolutionsKotaro Asami
 
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)Yusuke Iwasawa
 
はじめての人のためのDeep Learning
はじめての人のためのDeep Learningはじめての人のためのDeep Learning
はじめての人のためのDeep LearningTadaichiro Nakano
 
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...Deep Learning JP
 
論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural NetworksSeiya Tokui
 
Pythonで体験する深層学習 5章
Pythonで体験する深層学習 5章Pythonで体験する深層学習 5章
Pythonで体験する深層学習 5章孝好 飯塚
 

La actualidad más candente (20)

[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
DeepLearningTutorial
DeepLearningTutorialDeepLearningTutorial
DeepLearningTutorial
 
【2017年】ディープラーニングのフレームワーク比較
【2017年】ディープラーニングのフレームワーク比較【2017年】ディープラーニングのフレームワーク比較
【2017年】ディープラーニングのフレームワーク比較
 
MIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearningMIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearning
 
TensorFlowとCNTK
TensorFlowとCNTKTensorFlowとCNTK
TensorFlowとCNTK
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
 
20210531 ora jam_stackgan
20210531 ora jam_stackgan20210531 ora jam_stackgan
20210531 ora jam_stackgan
 
20160329.dnn講演
20160329.dnn講演20160329.dnn講演
20160329.dnn講演
 
PythonによるDeep Learningの実装
PythonによるDeep Learningの実装PythonによるDeep Learningの実装
PythonによるDeep Learningの実装
 
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
 
Densely Connected Convolutional Networks
Densely Connected Convolutional NetworksDensely Connected Convolutional Networks
Densely Connected Convolutional Networks
 
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
 
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだOvercoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだ
 
輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions
輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions
輪読資料 Xception: Deep Learning with Depthwise Separable Convolutions
 
Maxout networks
Maxout networksMaxout networks
Maxout networks
 
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
[DL輪読会] GAN系の研究まとめ (NIPS2016とICLR2016が中心)
 
はじめての人のためのDeep Learning
はじめての人のためのDeep Learningはじめての人のためのDeep Learning
はじめての人のためのDeep Learning
 
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
 
論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks
 
Pythonで体験する深層学習 5章
Pythonで体験する深層学習 5章Pythonで体験する深層学習 5章
Pythonで体験する深層学習 5章
 

Similar a 論文紹介: Value Prediction Network

[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係についてDeep Learning JP
 
1017 論文紹介第四回
1017 論文紹介第四回1017 論文紹介第四回
1017 論文紹介第四回Kohei Wakamatsu
 
農業AIハッカソンマイクロソフト様発表資料
農業AIハッカソンマイクロソフト様発表資料農業AIハッカソンマイクロソフト様発表資料
農業AIハッカソンマイクロソフト様発表資料Kohei Mochida
 
CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介Narihira Takuya
 
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化RCCSRENKEI
 
[CV勉強会]Active Object Localization with Deep Reinfocement Learning
[CV勉強会]Active Object Localization with Deep Reinfocement Learning[CV勉強会]Active Object Localization with Deep Reinfocement Learning
[CV勉強会]Active Object Localization with Deep Reinfocement LearningTakuya Minagawa
 
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定Keiichi Namikoshi
 
時系列予測モデルを導入した価値関数に基づく強化学習
時系列予測モデルを導入した価値関数に基づく強化学習時系列予測モデルを導入した価値関数に基づく強化学習
時系列予測モデルを導入した価値関数に基づく強化学習MILab
 
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...Akisato Kimura
 
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Toru Fujino
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺n_hidekey
 
論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video SegmentationToru Tamaki
 
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...Akisato Kimura
 
Entity Framework 5.0 deep dive
Entity Framework 5.0 deep diveEntity Framework 5.0 deep dive
Entity Framework 5.0 deep diveAtsushi Fukui
 
文献紹介:Multi-dataset Training of Transformers for Robust Action Recognition
文献紹介:Multi-dataset Training of Transformers for Robust Action Recognition文献紹介:Multi-dataset Training of Transformers for Robust Action Recognition
文献紹介:Multi-dataset Training of Transformers for Robust Action RecognitionToru Tamaki
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTURE Project
 

Similar a 論文紹介: Value Prediction Network (20)

[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
1017 論文紹介第四回
1017 論文紹介第四回1017 論文紹介第四回
1017 論文紹介第四回
 
MIRU_Preview_JSAI2019
MIRU_Preview_JSAI2019MIRU_Preview_JSAI2019
MIRU_Preview_JSAI2019
 
農業AIハッカソンマイクロソフト様発表資料
農業AIハッカソンマイクロソフト様発表資料農業AIハッカソンマイクロソフト様発表資料
農業AIハッカソンマイクロソフト様発表資料
 
CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介
 
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
 
[CV勉強会]Active Object Localization with Deep Reinfocement Learning
[CV勉強会]Active Object Localization with Deep Reinfocement Learning[CV勉強会]Active Object Localization with Deep Reinfocement Learning
[CV勉強会]Active Object Localization with Deep Reinfocement Learning
 
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
 
時系列予測モデルを導入した価値関数に基づく強化学習
時系列予測モデルを導入した価値関数に基づく強化学習時系列予測モデルを導入した価値関数に基づく強化学習
時系列予測モデルを導入した価値関数に基づく強化学習
 
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
 
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation
 
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
Paper reading - Dropout as a Bayesian Approximation: Representing Model Uncer...
 
マーブル図で怖くないRxJS
マーブル図で怖くないRxJSマーブル図で怖くないRxJS
マーブル図で怖くないRxJS
 
Entity Framework 5.0 deep dive
Entity Framework 5.0 deep diveEntity Framework 5.0 deep dive
Entity Framework 5.0 deep dive
 
文献紹介:Multi-dataset Training of Transformers for Robust Action Recognition
文献紹介:Multi-dataset Training of Transformers for Robust Action Recognition文献紹介:Multi-dataset Training of Transformers for Robust Action Recognition
文献紹介:Multi-dataset Training of Transformers for Robust Action Recognition
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
20190804_icml_kyoto
20190804_icml_kyoto20190804_icml_kyoto
20190804_icml_kyoto
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 

Más de Katsuki Ohto

論文紹介 Anomaly Detection using One-Class Neural Networks (修正版
論文紹介 Anomaly Detection using One-Class Neural Networks (修正版論文紹介 Anomaly Detection using One-Class Neural Networks (修正版
論文紹介 Anomaly Detection using One-Class Neural Networks (修正版Katsuki Ohto
 
ゲームAIを学んで1000年生きた話
ゲームAIを学んで1000年生きた話ゲームAIを学んで1000年生きた話
ゲームAIを学んで1000年生きた話Katsuki Ohto
 
Tensorflowユーザから見た Alpha(Go)Zero, Ponanza (TFUG #7)
Tensorflowユーザから見た Alpha(Go)Zero, Ponanza (TFUG #7)Tensorflowユーザから見た Alpha(Go)Zero, Ponanza (TFUG #7)
Tensorflowユーザから見た Alpha(Go)Zero, Ponanza (TFUG #7)Katsuki Ohto
 
将棋ニューラルネットとこれからのゲームAI
将棋ニューラルネットとこれからのゲームAI将棋ニューラルネットとこれからのゲームAI
将棋ニューラルネットとこれからのゲームAIKatsuki Ohto
 
Introduction of "TrailBlazer" algorithm
Introduction of "TrailBlazer" algorithmIntroduction of "TrailBlazer" algorithm
Introduction of "TrailBlazer" algorithmKatsuki Ohto
 
大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + α大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + αKatsuki Ohto
 
論文紹介 : Unifying count based exploration and intrinsic motivation
論文紹介 : Unifying count based exploration and intrinsic motivation論文紹介 : Unifying count based exploration and intrinsic motivation
論文紹介 : Unifying count based exploration and intrinsic motivationKatsuki Ohto
 
カーリングの局面評価関数を学習 WITH “TENSOR FLOW”
カーリングの局面評価関数を学習 WITH “TENSOR FLOW”カーリングの局面評価関数を学習 WITH “TENSOR FLOW”
カーリングの局面評価関数を学習 WITH “TENSOR FLOW”Katsuki Ohto
 

Más de Katsuki Ohto (8)

論文紹介 Anomaly Detection using One-Class Neural Networks (修正版
論文紹介 Anomaly Detection using One-Class Neural Networks (修正版論文紹介 Anomaly Detection using One-Class Neural Networks (修正版
論文紹介 Anomaly Detection using One-Class Neural Networks (修正版
 
ゲームAIを学んで1000年生きた話
ゲームAIを学んで1000年生きた話ゲームAIを学んで1000年生きた話
ゲームAIを学んで1000年生きた話
 
Tensorflowユーザから見た Alpha(Go)Zero, Ponanza (TFUG #7)
Tensorflowユーザから見た Alpha(Go)Zero, Ponanza (TFUG #7)Tensorflowユーザから見た Alpha(Go)Zero, Ponanza (TFUG #7)
Tensorflowユーザから見た Alpha(Go)Zero, Ponanza (TFUG #7)
 
将棋ニューラルネットとこれからのゲームAI
将棋ニューラルネットとこれからのゲームAI将棋ニューラルネットとこれからのゲームAI
将棋ニューラルネットとこれからのゲームAI
 
Introduction of "TrailBlazer" algorithm
Introduction of "TrailBlazer" algorithmIntroduction of "TrailBlazer" algorithm
Introduction of "TrailBlazer" algorithm
 
大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + α大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + α
 
論文紹介 : Unifying count based exploration and intrinsic motivation
論文紹介 : Unifying count based exploration and intrinsic motivation論文紹介 : Unifying count based exploration and intrinsic motivation
論文紹介 : Unifying count based exploration and intrinsic motivation
 
カーリングの局面評価関数を学習 WITH “TENSOR FLOW”
カーリングの局面評価関数を学習 WITH “TENSOR FLOW”カーリングの局面評価関数を学習 WITH “TENSOR FLOW”
カーリングの局面評価関数を学習 WITH “TENSOR FLOW”
 

論文紹介: Value Prediction Network

  • 1. 論文紹介: VALUE PREDICTION NETWORK 2018/1/13 NIPS2017 読み会 KATSUKI OHTO
  • 2. 概要 (VALUE PREDICTION NETWORK)  複雑な強化学習タスクを効率的に解く  ニューラルネットワークアーキテクチャと学習、実行法の提案  未知環境にて環境のモデルを学習しながら状態の価値を学習  効率な経路を選択する課題やAtariゲームにて 既存研究(DQN)を上回る成果をあげた 以降、特に注釈がない場合には 図はValue Prediction Network (Oh et al, 2017) からの引用
  • 3. 強化学習 REINFORCEMENT LEARNING  強化学習課題  (ここでは)エージェントが未知の環境で試行錯誤しながら 段々上手くなっていくような問題設定  目的 : 将来的に得る報酬(ゲームの得点など)の総計を最大化すること DQNが ブロック崩しを 上達する様子 Mnih et al. (2015)
  • 4. モデルベース強化学習 ORモデルフリー強化学習  未知の環境で上手く動けるようになるには?  ①環境のモデル(ルール)を覚えて考える ⇨ モデルベース強化学習  ②環境のモデルを明示的に扱わずに直接行動を選ぶ ⇨ モデルフリー強化学習 (DQN など)
  • 5. モデルフリー強化学習の例  Deep Q-Network で扱われるニューラルネットワークのモデルの例 (Mnih et al., 2015)  左側で現在状態の画像入力を受け取り、 Convolutional Neural Network を通じて 行動の価値(以後の報酬合計の期待値) を予測(右側)  学習後には予測された行動価値が大きい 行動を選ぶ  特徴: - 入力から直接計算して答えを出す -「直感」的行動のみ学習される
  • 6. モデルベース強化学習 VPN導入  モデルベース強化学習 : - 環境のモデル(状態遷移、報酬ら)を一緒に学習 - 深く思慮できる(探索)  困難な点: 少ない観測サンプルから環境のモデルを作ることは、 ゲームのような小さな課題でも難しい  先行研究やVPNのアプローチ: 観測した状態を 「抽象的な状態(abstract state)」にエンコーディングし、 「抽象的な状態」の上で遷移モデルを学習  「抽象的な状態」一体何ぞや?
  • 7. 抽象的状態表現 (ABSTRACT STATE REPRESENTATION)  Word2Vecのイメージに近い - 単語の意味を数値ベクトルで表現 - 数値として演算できる  単語→数値ベクトルへの変換を、 環境からの観測→数値ベクトル(or行列)に置き換えてみる - 目的のタスクの特徴を掴む状態表現が得られれば、効率よく学習できると期待 (背景など、課題に不要な情報が抜ける) - ただし、抽象的な状態空間上で遷移や報酬を考えた結果、現実と乖離する可能性も - 実用的なのか?→先行研究(Predictron)が有効性を示唆 (Mikolov et al., 2013)
  • 8. 先行研究: PREDICTRON  The Predictron: End-To-End Learning and Planning (Silver et al., 2017)  マルコフ報酬過程(時系列で観測と報酬を得るが、 自分で行動を選べない過程)にて 良い価値推定を得るのに抽象状態表現による先読みを使う  遷移モデルの表現としてCNNを利用  右図がアーキテクチャの概要 (図は1層分、事前に抽象状態へのエンコーディング済) 下から、kステップ後の抽象状態 𝑠 𝑘 を受けとり、 途中で抽象状態の価値 𝑣 𝑘 即時報酬 𝑟 𝑘+1 割引率 𝛾 𝑘+1 収益の重み 𝜆 𝑘 (TD(𝜆) の𝜆) 最後に 次の抽象状態 𝑠 𝑘+1 を出力  先読みして価値を推定することで単純な純伝搬ネットより高精度 Predictronの 1層分の構造
  • 9. VALUE PREDICTION NETWORK (VPN)  Predictronは行動決定のない系での価値推定  行動決定を行う場合にも同種の手法が使える、というのがVPNの提案  VPNでできるようになったこと…行動空間が有限、(それほど候補が多くない)時に候補を絞って 数手分探索し行動を決められる  抽象状態空間上での先読みを 行動候補で枝分かれさせて、 数手先まで探索 +ロールアウト(分岐させずに先読み) によって行動を決定  探索によって得る価値推定の式: (モンテカルロ的に平均) 𝑑 探索の残り深さ
  • 10. VALUE PREDICTION NETWORK (VPN) アーキテクチャ  VPNのアーキテクチャ  VPNを構成するモジュール - ① Encoding (環境の観測 𝑥 から 抽象状態 𝑠 へ変換), - ② Value (抽象状態 𝑠 から 価値 𝑉 を出力) - ③ Outcome (抽象状態 𝑠 から 報酬 𝑟 割引率 𝛾 を出力) ※ 𝜆 はVPNではなし - ④ Transition (抽象状態 𝑠 から 次の抽象状態 𝑠′ を出力)  行動(オプション)𝑜 の入力が追加
  • 11. VALUE PREDICTION NETWORK (VPN) アーキテクチャ  VPNのアーキテクチャ  抽象状態の遷移関数の詳細 (Appendix E)  全体を Residual Net として 抽象状態の変化分だけを学習 (変化は全体に対して小さめという仮定)
  • 12. VALUE PREDICTION NETWORK (VPN) 学習  学習法  右図横軸が実時間、縦軸が先読み  学習の誤差関数  𝑅 は探索ありの先読みをして推定した価値 𝑣 は探索なしの推定価値 マルチステップQ学習(価値=最善の手の価値)  即時報酬 𝑟 は実際の観測値に近づける  割引率 𝛾 は掛け算スケールなので log を取ってMSEに入れる  学習時の行動系列生成(実際の行動)は 𝜖 −グリーディで生成
  • 13. 実験① CORRECT TASK  制限時間の中でエージェント(緑)が複数のゴール(青)のうち何個到達できるか  各マスの状態を 10 x 10 x 3 の行列として観測が与えられる  一定確率でゴールが動いたり、強制的に移動させたれたりなどの不確定バージョンでも検証
  • 14. 実験① CORRECT TASK 結果  DQN, OPN (抽象状態ではなく観測の直接モデル化にトライしたもの)と比較 Greedy (近くのゴールに行く), Shortest (deterministicの場合の最適解)  確定性課題 (a) 不確定性課題 (b) の双方で他のモデル(解析解以外)を上回った  OPNは確定性なら性能が高いが、不確定性だと大幅に悪くなる。 現実の観測の平均化された状態(あり得ない)を生成して探索するからではないか?
  • 15. 実験② ATARI GAMES  Atari の 9種類のゲーム  DQNと比較し、 Alien, Ms. Pacman 以外で上回った
  • 16. 実験② ATARI GAMES VPNの出力例  行動系列とVPNの評価  相手を避ける動きをした (b) に高い評価がついている  逆に相手にぶつかって死ぬ (e) は低評価
  • 17. 実験③ 学習時と実行時の探索深さ  学習時の探索深さ(凡例のかっこ内)より 実行時の探索深さ(グラフの横軸) が深い場合  Collect Task (Deterministic) で検証  学習時 深さ 3以上でやれば 実行時の悪化は少なかった  特に、学習時にロールアウトだけ深くした VPN(5)* は実行時深くても安定  逆に深さ 1 で学習した VPN(1) は性能低下
  • 18. 感想  初夏にPredictron論文(行動決定がない想定)を読んだ時に、 行動決定ありのバージョンが冬には出るんではと話していたがその通りだった (Predictron は DeepMind,、VPN は ミシガン大学 & Google Brain) ただ思うのと実際にやるのは大違い  全探索でなく行動を数個選んで進めるだけで性能が上がるのは モンテカルロ木探索(AlphaGo等)の性能の高さと関連していて興味深い  行動候補が多い場合や連続の場合にサンプリングで頑張れそう?  環境のモデルが既知な課題においても、 不確定性ありの場合などで抽象状態表現が有効か気になる

Notas del editor

  1. 例えば自動運転
  2. やりたいことはモデルベース学習
  3. 例えば自動運転
  4. 例えば自動運転
  5. 例えば自動運転
  6. 例えば自動運転
  7. 自分がここにいるかもしれないしいないかもしれない OK だが 自分の体が真っ二つで半分だけ