728x90
반응형
논문 : Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving
URL : arxiv.org/abs/1812.07179
저자 : Yan Wang, Wei-Lun Chao, Divyansh Garg, Bharath Hariharan, Mark Campbell, and Kilian Q. Weinberger
Publish : 2019,CVPR
[Intro Summary]
- 해결하고자하는 문제
- 3D Object detection 에서 Lidar 랑 camera based method의 성능 gap이 매우 크다.
- 지금까지 시도해왔던 방법들
- gap이 생기는 부분이 depth estimation 의 오류라고 생각한다. 그래서 sensor fusion과 같은 방법들로 해결해보자 노력함.(또는 depth estimation의 loss를 더 효율적으로 설계하고자함)
- 기존 방법들의 한계
- 그럼에도 불구하고 stero의 depth estimation 은 error가 지수적으로 증가함
- 이번 논문에서 시도할 방법
- error을 새로 정의하는 것보다 새로운 표현(represation)이 필요하다고 생각
- 기존 depth estimation 방법을 이용하여 3D point cloud를 생성하고 이를 lidar data처럼 사용
- 논문이 가지게 되는 Contributions
- Camera와 lidar의 gap을 많이 줄임
- 새로운 represantation을 고안하여 성능 향상 및 다양한 활용(stero camera를 통해 lidar based detector을 사용하는 것 , etc.)이 가능하게 함
- 성능이 SOTA
[Summary] Main Points of this paper
- Approch
- remove the differences between the two data modalities.
- estimating the dense pixel depth → back-projecting pixels into a 3D point cloud. → this represantation as pseudo-LiDAR signal
[Strengths] Clearly explain why these aspects of the paper are valuable.
- 기존의 stereo 와 monocular의 depth estimation 방법과 Lidar based 3D Object detection algorithm을 combination 했기 때문에 사용할 수 있는 데이터와 알고리즘의 폭이 넓다.
- 라이다 센서와 이미지 정보가 서로 좋은 영향을 끼칠 수 있다.
- Lidar data 로 학습 → img based classifier 로 fine tuning
- Lidar sensor 오작동 → 이미지 기반 알고리즘으로 보완 가능
[Weaknesses] Clearly explain why these aspects of the paper are weak.
- 기존 depth estimation 의 방법을 가져다 썻으므로 기존 문제점을 그대로 가지고 있다
- 거리가 먼 경우 error 가 커짐
- image에서의 작은 차이가 3D로 옮겨질 경우 그 오차가 매우 커짐
- real-time image processing 불가능
- 랜덤 카메라에 대해서 적용 불가능 (수식적으로 보았을때 focal length를 알아야하니까?)
[Why accepted?] What is the contribution of the paper? Or novelty
- 새로운 represantation 을 고안해냈다. 또한 이러한 접근이 더 높은 성능을 끌어냈다.
반응형