Study/Paper_review

[CVPR] PointCLIP: Point cloud understanding by CLIP

2D image를 학습한 CLIP-based model을 3D domain으로 전이시켜, unseen 3D object를 zero-shot으로 추론시킬 수 있을까?라는 질문에서 시작된, "PointCLIP"에 대한 논문입니다.

[논문의 기여]

CLIP을 확장하여 3D 포인트 클라우드 데이터를 처리할 수 있는 PointCLIP을 제안 - 2D pre-trained knowledge를 3D로 전이하여 multimodal zero-shot 탐지 방법 제시
multi-view 간의 feature interaction을 활용하는 Inter-view adapter 제안 - few-shot fine tuning 성능 개선
기존의 fully-trained 3D model의 성능을 높이기 위한 ensemble module 제시

1. Introduction & Background

3D sensing technology 분야는 계속해서 발전하고 있고, 기술 개발을 위해 필요한 3D point cloud data의 수요도 증가하고 있다. 그러나 2D image data와는 다르게 space sparsity, irregular distribution 등의 특성을 가지고 있기 때문에 2D domain 으로부터 직접적인 전이는 어렵다. 게다가 새로 수집되는 point cloud data에 "unseen" object 가 포함되어 있지만, 성능이 좋은 classifier조차 실패하는 경우도 있고 이를 매번 재학습을 시킬 수도 없는 상황이다.

이 논문에서는 2D pre-trained knowledge를 전이하여 3D point cloud understanding에 활용할 수 있는 PointCLIP를 제시한다. 첫 번째 문제는 정렬되지 않은 점군 데이터와 격자 기반의 이미지 간의 modal gap을 최소화하는 것이다. PointCLIP은 point cloud의 multi-view projection을 활용해 시간&컴퓨팅 자원을 최소한으로 사용하였다. 또한 inter-view adapter, 3D network 간의 앙상블을 통해 few-shot learning의 성능이 높아짐을 보여준다.

2. Method

📌 Zero-shot classification

3D point cloud로부터 M 개의 방향으로 projection 하여 2D depth map을 구함
M 개의 2D depth map을 visual encoder에 통과시켜 visual feature 추출
textual encoder에 "Point cloud depth map of a [CLASS]"라는 템플릿을 적용시켜 textual feature 추출 ( $ W_{T} \in \mathbb R^{K \times C} $)
각 뷰로부터 계산된 classification logits를 가중치를 포함하여 합산

이렇게 aggregation 함으로써 다른 방향에서 보는 정보를 활용해 물체에 대한 전반적 이해를 높임

📌 Inter-view Adapter

zero-sho 성능이 3D network에 비해 좋지 않기 때문에 few-shot을 위한 레이어 추가
CLIP 모델 전체를 다시 학습시키기에는 효율적이지 않으므로 2 개의 linear layer와 residual connection을 포함한 inter-view adapter를 제안
inter-view adapter를 적용해 추출한 adapted feature에 textual classifier $ W_{T} $ 를 적용해 zero-shot classification의 경우와 마찬가지로 final prediction 출력

📌 Multi-knowledge Ensemble

3D point cloud data로 fully train 된 모델과의 앙상블 시 성능이 높아짐을 확인함

3. Experiments

[Zero-shot classification]

CAD 모델링 된 물체로 이루어진 데이터셋 ModelNet10, ModelNet40, 실제 point cloud data인 ScanObjectNN 사용
zero-shot에 대해서는 성능이 뛰어나지는 않음
projection view (물체를 보는 방향)의 수 및 방향 별 가중치에 따라 성능이 얼마나 높아지는지에 대한 실험을 진행함

[Prompt design/Encoder]

textual encoder의 프롬프트 별 성능은 "point cloud depth map of a [CLASS]"가 zero-shot에서 가장 성능이 좋았음
visual encoder는 ResNet-101 이 ResNet-50*16에 비해 파라미터 수는 적은 반면 더 좋은 성능을 보임

[Ensemble with 3D model]

3D - 3D model 사이의 앙상블보다 3D - PointCLIP 간의 앙상블이 성능 개선에 더 효과적

4. Conclusion

PointCLIP은 point cloud data를 학습 없이 cross-modality zero-sho recognition이 가능한 방법을 제안하였음
multi-view projection, inter-view adapter를 통해 CLIP의 2D 지식을 전이시키고, few-shot learning으로 성능을 개선하였음
기존의 3D fully-trained model에 네트워크에 플러그 앤 플레이 방식으로 결합시켜 성능을 향상이 가능함

발표 이후에 생각보다 많은 질문을 받게 되어서 한 번 더 보게 된 논문이었습니다. point cloud data에 CLIP을 적용할 수 있는지에 대한 후속 논문을 두어 개 읽어보려고 합니다.

저작자표시 비영리 변경금지 (새창열림)

'Study > Paper_review' 카테고리의 다른 글

[ICCV] Pointclip v2: Prompting clip and gpt for powerful 3d open-world learning (0)	2025.01.31
[IJCNN] ObjectAug: Object-level Data Augmentation for Semantic Image Segmentation 논문 리뷰 (0)	2023.04.02
WSI image segmentation과 분석을 위한 general DL framework (0)	2022.12.30
DeepGazeII 논문 리뷰 (0)	2022.11.07
Deep saliency model 논문 리뷰 (0)	2022.10.07

Contents

새소식

인기 검색어