[CVPR] PointCLIP: Point cloud understanding by CLIP
-
728x90
2D image를 학습한 CLIP-based model을 3D domain으로 전이시켜, unseen 3D object를 zero-shot으로 추론시킬 수 있을까?라는 질문에서 시작된, "PointCLIP"에 대한 논문입니다.
[논문의 기여]
CLIP을 확장하여 3D 포인트 클라우드 데이터를 처리할 수 있는 PointCLIP을 제안 - 2D pre-trained knowledge를 3D로 전이하여 multimodal zero-shot 탐지 방법 제시
multi-view 간의 feature interaction을 활용하는 Inter-view adapter 제안 - few-shot fine tuning 성능 개선
기존의 fully-trained 3D model의 성능을 높이기 위한 ensemble module 제시
1. Introduction & Background
3D sensing technology 분야는 계속해서 발전하고 있고, 기술 개발을 위해 필요한 3D point cloud data의 수요도 증가하고 있다. 그러나 2D image data와는 다르게 space sparsity, irregular distribution 등의 특성을 가지고 있기 때문에 2D domain 으로부터 직접적인 전이는 어렵다. 게다가 새로 수집되는 point cloud data에 "unseen" object 가 포함되어 있지만, 성능이 좋은 classifier조차 실패하는 경우도 있고 이를 매번 재학습을 시킬 수도 없는 상황이다.
이 논문에서는 2D pre-trained knowledge를 전이하여 3D point cloud understanding에 활용할 수 있는 PointCLIP를 제시한다. 첫 번째 문제는 정렬되지 않은 점군 데이터와 격자 기반의 이미지 간의 modal gap을 최소화하는 것이다. PointCLIP은 point cloud의 multi-view projection을 활용해 시간&컴퓨팅 자원을 최소한으로 사용하였다. 또한 inter-view adapter, 3D network 간의 앙상블을 통해 few-shot learning의 성능이 높아짐을 보여준다.
2. Method
📌 Zero-shot classification
3D point cloud로부터 M 개의 방향으로 projection 하여 2D depth map을 구함
M 개의 2D depth map을 visual encoder에 통과시켜 visual feature 추출