새소식

Study/프로젝트

[AI factory, LG 해커톤] SOLO model

  • -
728x90

7월 7일부터 진행되고 있는 LG 입자 형태 분석 모델 개발 해커톤 에 참여중입니다. 이어드림스쿨에서 7월 20일까지 computer vision 베이직 강의를 듣고 프로젝트기간 중 참여할 대회로 이 해커톤을 선택하게 되었습니다. 

 베이스라인 코드가 MMdetection을 기반으로 제공이 굉장히 잘 되어있기 때문에 성능을 올리는 것도 중요하지만 이 신경망이 어떻게 동작하는지 공부하는 것에 초점을 맞추려고 노력했습니다. 주어진 시간이 한정적이었기 때문에 성능을 한꺼번에 많이 올리는데 집중하여 프로젝트를 진행했지만, 성능이 개선되었다면 어떤 hyper parameter의 영향인지, 그 이유는 무엇인지 조금 더 탐구할 여유가 있었으면 좋겠다는 생각이 들었습니다. 

출처: arXiv:1912.04488v3

1. 왜 SOLO model 을 쓰게 되었는가?

 기존의 Mask-RCNN model은 bounding box에 의존적이기 때문에 b-box 자체가 잘못 설정되어있다면 segmentation 결과 또한 좋지 않을 수 있다는 단점이 있었습니다. 하지만 SOLO 모델에서는 이미지를 grid로 나누고 각 grid내에 있는 object를 탐지하기 때문에 b-box에 의존하지 않아, target이 겹쳐있거나 초점이 다소 흐린 경우에 대해서 유리할 것이라고 생각했습니다.
 논문에서는 이미지를 $ S \times S $ 의 cell 로 나누어 $ S^{2} $ 개의 중심을 가진 location 이라는 개념을 설명하고 있습니다. 각각의 object instance가 한 개의 grid cell에 할당됩니다. 각 output channel들은 grid cells에 해당된 center location categories를 맡게 되고, 그 location에 속한 객체들의 mask를 예측하게 됩니다. 따라서 이미지의 가로 세로 길이에 따른 부분적인 위치 정보들이 보존될 수 있습니다. 

2. Hyperparameter tuning

  • number of epoches: overfitting 되지 않도록 하는 적당한 수의 epoch를 찾을 필요가 있음
    한 모델에서 여러 번의 epoch로 학습시킨 후 checkpoint interval을 지정해 test를 각 checkpoint로 수행함으로써 epoch별 성능을 확인함
  • optimizer: MM detection의 기본 optimizer는 SGD
  • learning rate policy: Cosine annealing, poly 등 learning rate가 줄어드는 policy에 대해 설정 가능
  • loss function: default는 focal loss, Dice Loss로 바꿔봄 (출처:https://arxiv.org/pdf/2106.15947.pdf)
  • grid 크기: 논문에서 실험한 데이터셋인 COCO dataset의 resultion은 640*480이고 현재 사용하고 있는 이미지의 사이즈는 1024*1280이기 때문에 더 큰 크기의 grid가 적합할 수도 있음

3. 실험별 결과 (To be updated)

References
SOLO: Segmenting Objects by Locations (arXiv:1912.04488v3)

SOLO: A Simple Framework for Instance Segmentation(arXiv:2106.15947v1)

728x90
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.