새소식

Study/Paper_review

[ICCV] Pointclip v2: Prompting clip and gpt for powerful 3d open-world learning

  • -
728x90

기존 PointCLIP 모델의 성능 개선뿐만 아니라, task를 확장하여 3D point cloud data의 다양한 활용을 가능하게 하는 통합 프레임워크를 제안한 논문 PointCLIPv2입니다.

[논문의 기여]

  1. CLIP과 GPT를 통합하여 3D point cloud data에 대한 zero-shot 학습 능력을 향상
  2. 3D classification, part segmentation, object detection 등 다양한 태스크에 적용 가능한 통합 프레임워크 제안

1. Introduction & Background

 CLIP과 LLM을 적절히 활용하여 통합된 3D 데이터를 활용해 open-world understanding을 달성할 수 있을까?

[기존 PointCLIP의 문제점]

  • Sparse projection

 단순히 depth map으로만 투영시켰기 때문에 실제 pretrained 이미지와 특성이 달라 CLIP의 visual encoder가 헷갈리는 원인이 됨

  • Naive text

 2D에 대한 text input (e.g a photo of a CLASS)를 가지는 CLIP이 target object를 제대로 인식하지 못함

2. Method

📌 Realistic projection

  • Quantize, Densify, Smooth, Squeeze 총 4단계를 통해 3D data로부터 현실 이미지와 비슷한 depth map $ V $ 를 얻음

Quantize: 3D point cloud data를 $ H \times W \times D $ 크기의 3D grid로 변환하여 voxel grid $ G $ 에 각 포인트들을 다음 식과 같이 할당함. 이때 한 개의 그리드에 여러 개의 포인트가 해당할 경우 최소 깊이 값이 할당됨

$ G([sHx], [sWy], [Dz])=z $ 

Densify: visual continuity 를 위해 local mini value pooling을 수행하여 객체에 대한 그리드는 채워지고, 배경에 해당하는 그리드는 빈 채로 유지함

Smooth: Non-parametric Gaussian kernel을 사용해 형태를 부드럽게 만들고 노이즈를 제거해줌

Squeeze: 그리드들로부터 depth dimension을 압축하여 2D depth map을 형성한 뒤, CLIP의 입력 형태로 만들기 위해 세 개 (RGB)채널로 복사함

  • 다른 projection 방법과의 비교

 기존의 PointCLIP에서 사용했던 단순한 투영 방식에 비해 latency는 증가했으나 전통적인 방법에 비해 여전히 빠르고, 성능이 굉장히 향상되었음을 확인할 수 있다.

📌 Prompting with GPT-3

  • GPT를 활용하여 CLIP의 textual encoder에 입력할 input 생성
  • Caption generation / Question answering / Paraphrase generation / Words to sentence

📌 Unified Open-world learning

기존 PointCLIP 모델이 3D zero-shot 및 few-shot classification task만 제안하였으나, PointCLIPv2에서는 향상된 성능을 기반으로 다양한 task에 적용이 가능함을 보여줌

  • zero-shot classification 
  • few-shot classification: smoothing 모듈에서 학습 가능하도록 변경
  • zero-shot part segmentation: 마지막 Pooling 연산을 하기 전의 dense feature ($ F_{i} $)를 활용하여 각 픽셀마다 text feature를 대응시킴 → pixel-wise classification logit을 구해 3D space 에 역투영함
  • object detection: 3DETR-m pretrained 모델을 사용해 3D bounding box 후보를 생성하고, 해당 박스를 PointCLIPv2에 입력해 zero-shot classification 수행 

3. Experiments

  • 3D zero-shot 

  • 3D few-shot

  • part segmentation & object detection

object detection은 pretrained model의 성능에 너무 의존적이지 않을지?하는 생각이 들었다.

4. Conclusion

  • 기존의 PointCLIP 모델을 능가하는 3D open-world 학습 모델 PointCLIPv2 를 제안함
  • 더 현실적인 depth map을 생성하기 위한 모듈과 3D 에 더 적합한 텍스트를 생성하기 위해 GPT를 활용했음
  • 분류 외의 태스크에 대한 성능을 확인하였음
  • 향후 더 넓은 응용 분야(e.g outdoor 3D detection, visual grounding) 에 적용할 수 있는 방법에 대한 연구 예정
728x90
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.