SlideShare una empresa de Scribd logo
1 de 29
Descargar para leer sin conexión
3D物体検出の
理論と取り組み
第33回 Machine Learning 15minutes!
自己紹介
● Tier4 技術本部
○ 関谷 英爾
● 経歴
○ DeNA 2014/04 ~ 2018/03
■ 分析基盤 (Hadoop, Vertica)
■ 機械学習 (レコメンド, 強化学習, 組合せ最適化)
○ Tier IV 2018/03~
■ データ基盤・機械学習基盤
@eratostennis
今日のお話
● 3D物体検出の理論について丁寧な説明はしません
● 動向と自動運転での付き合い方について説明します
概要
● 自動運転のコンポーネント
● 3Dの物体検出手法の紹介
● ラベリングツール
● 今後の開発
自動運転OSS Autoware
Retrieved from https://github.com/CPFL/Autoware
自動運転OSS Autoware
Retrieved from https://github.com/CPFL/Autoware
自動運転に組み込まれているDeep Learning
● 検出タスク (2D Bounding Box)
○ Yolov3
● 検出タスク (3D Bounding Box)
○ VoxelNet
● 分類タスク (信号色認識)
○ DenseNet
● etc.
自動運転に組み込まれているDeep Learning
● 検出タスク (2D Bounding Box)
○ Yolov3, etc.
● 検出タスク (3D Bounding Box)
○ VoxelNet, etc.
● 分類タスク (信号色認識)
○ DenseNet
● etc.
3Dの物体検出の特徴
● 点群データの特徴
○ 3D, Sparse
3Dの物体検出
● サンプリング
● 地面除去
● Clipping
● Clustering
○ Euclidean Cluster
クラスタリング手法
● とりあえず前処理はほぼか
けずにDeep Learningに食わ
せる
○ MV3D
○ VoxelNet
○ PointPillars
Deep Learningによる手法
3Dの物体検出
● サンプリング
● 地面除去
● Clipping
● Clustering
○ Euclidean Cluster
クラスタリング手法
● とりあえず前処理はほぼか
けずにDeep Learningに食わ
せる
○ MV3D
○ VoxelNet
○ PointPillars
Deep Learningによる手法
Euclidean Cluster
単純に距離の近いものを同一クラスタとみなす
EuclideanClusterで障害物検出と十分な計算量削減が可能
ただし、Semantic情報があれば、さらにトラッキング精度なども上がってくる
ちゃんと物体単位で検出したい
3Dの物体検出
● サンプリング
● 地面除去
● Clipping
● Clustering
○ Euclidean Cluster
クラスタリング手法
● とりあえず前処理はほぼか
けずにDeep Learningに食わ
せる
○ MV3D
○ VoxelNet
○ PointPillars
Deep Learningによる手法
3D物体検出の精度評価
Bird’s Eye View (BEV)
3D Bounding Box
The KITTI Vision Benchmark Suite. Retrieved from http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchmark=bev
The KITTI Vision Benchmark Suite. Retrieved from http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchmark=3d
MV3D
● 特徴
○ 画像とPCDをFusion
○ PCDは2D Convで扱えるようBirdViewとFrontViewに変換
Xiaozhi Chen, Huimin Ma, Ji Wan, Bo Li, Tian Xia. 2017.
Multi-View 3D Object Detection Network for Autonomous Driving
arXiv:1611.07759.
Retrieved from https://arxiv.org/abs/1611.07759
MV3D
● 精度
○ 当時のSOTAを達成
● 課題
○ 処理が重く律速となる
30 Hz
10 Hz
VoxelNet
● 特徴
○ 3D 物体検出初のEnd-to-end学習
○ Convolution Middle Layersは3D CNNで遅い (4.4Hz)
Yin Zhou, Oncel Tuzel. 2017.
VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection.
arXiv:1711.06396.
Retrieved from https://arxiv.org/abs/1711.06396
PointPillars
● 特徴
○ 3D CNNを使わずに高速化 (62Hz)
○ Single Shot Detectorによる位置の回帰とクラス分類
Alex H. Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, Oscar Beijbom. 2018.
PointPillars: Fast Encoders for Object Detection from Point Clouds
arXiv:1812.05784.
Retrieved from https://arxiv.org/abs/1812.05784
Performance
Alex H. Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, Oscar Beijbom. 2018.
PointPillars: Fast Encoders for Object Detection from Point Clouds
arXiv:1812.05784.
Retrieved from https://arxiv.org/abs/1812.05784
Performance
Alex H. Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, Oscar Beijbom. 2018.
PointPillars: Fast Encoders for Object Detection from Point Clouds
arXiv:1812.05784.
Retrieved from https://arxiv.org/abs/1812.05784
PointPillars
Alex H. Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, Oscar Beijbom. 2018.
PointPillars: Fast Encoders for Object Detection from Point Clouds
arXiv:1812.05784.
Retrieved from https://arxiv.org/abs/1812.05784
Failure Case
歩行者とサイクリストの誤分類
街路樹を歩行者と分類
Alex H. Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, Oscar Beijbom. 2018.
PointPillars: Fast Encoders for Object Detection from Point Clouds
arXiv:1812.05784.
Retrieved from https://arxiv.org/abs/1812.05784
3D物体検出との付き合い方
● 精度が上がって来たが、まだまだ3D物体検出単体で使うには
いまいち
● 使い方
○ 画像とFusionする
■ Deep Learningで行う必要はない
○ 地図のレーン情報など他に持っているデータも利用する
● Trackingの精度向上
○ 単純な2Dだけで推測するより距離などは正確
○ 物体の運動モデルがだいたい分かっていれば役に立つ
● 2D & 3Dの物体検出教師データ作成ツール
Annotation Tool開発 Automan
● 2D & 3Dの物体検出教師データ作成ツール
Automan
Automan Architecture
Automan Architecture API Server
● User/Group登録
● Raw Data登録
● Annotation登録
Job Container
● Calibration
● Sampling
● AutoLabeling
OSSに向け準備中...
● 現在
○ Input
■ ROSBAG
○ Output
■ 2D & 3D Bounding Box
● 計画
○ Input
■ どんなサポートが欲しい?MP4?
○ Output
■ Polygon Labeling (Semantic Segmentation)
■ Landmark Labeling (Semantic Segmentation)
課題と今後の展望
● データ節約
○ 通信量 & ラベリング工数 & ストレージ
○ 学習できていないデータに絞った収集
● シミュレーションによるデータ生成
○ 精度の高い教師データの作成 (特に3D)
○ リアルとの違いの分析 (ノイズなどの影響や再現)
● 学習評価システム
○ 環境ごとのあるべき状態の定義・テストデータ整備
○ モデル説明性・解釈性 (Interpretability) の検討

Más contenido relacionado

La actualidad más candente

SLAM勉強会(3) LSD-SLAM
SLAM勉強会(3) LSD-SLAMSLAM勉強会(3) LSD-SLAM
SLAM勉強会(3) LSD-SLAMIwami Kazuya
 
確率モデルを用いた3D点群レジストレーション
確率モデルを用いた3D点群レジストレーション確率モデルを用いた3D点群レジストレーション
確率モデルを用いた3D点群レジストレーションKenta Tanaka
 
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用SSII
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisKento Doi
 
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチMIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチHironobu Fujiyoshi
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII
 
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"Deep Learning JP
 
Structured Light 技術俯瞰
Structured Light 技術俯瞰Structured Light 技術俯瞰
Structured Light 技術俯瞰Teppei Kurita
 
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...Deep Learning JP
 
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量takaya imai
 
30th コンピュータビジョン勉強会@関東 DynamicFusion
30th コンピュータビジョン勉強会@関東 DynamicFusion30th コンピュータビジョン勉強会@関東 DynamicFusion
30th コンピュータビジョン勉強会@関東 DynamicFusionHiroki Mizuno
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてRyutaro Yamauchi
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報Deep Learning JP
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...Deep Learning JP
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 

La actualidad más candente (20)

Visual slam
Visual slamVisual slam
Visual slam
 
SLAM勉強会(3) LSD-SLAM
SLAM勉強会(3) LSD-SLAMSLAM勉強会(3) LSD-SLAM
SLAM勉強会(3) LSD-SLAM
 
確率モデルを用いた3D点群レジストレーション
確率モデルを用いた3D点群レジストレーション確率モデルを用いた3D点群レジストレーション
確率モデルを用いた3D点群レジストレーション
 
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用
 
Structure from Motion
Structure from MotionStructure from Motion
Structure from Motion
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチMIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
 
Structured Light 技術俯瞰
Structured Light 技術俯瞰Structured Light 技術俯瞰
Structured Light 技術俯瞰
 
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
 
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
 
30th コンピュータビジョン勉強会@関東 DynamicFusion
30th コンピュータビジョン勉強会@関東 DynamicFusion30th コンピュータビジョン勉強会@関東 DynamicFusion
30th コンピュータビジョン勉強会@関東 DynamicFusion
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
Lucas kanade法について
Lucas kanade法についてLucas kanade法について
Lucas kanade法について
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
 
Depth Estimation論文紹介
Depth Estimation論文紹介Depth Estimation論文紹介
Depth Estimation論文紹介
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 

Trend of 3D object detections