새소식

Study/Paper_review

DeepGazeII 논문 리뷰

  • -
728x90

기업연계 프로젝트 주제 중 Image 의 Mid-level feature 모델 구상 및 구현을 위해 사용했던 reference 인 deepgaze IIE 모델에 대한 논문 읽어보고 한 박자 늦게나마 포스팅해 보겠습니다. 이미지에 관해 백그라운드가 생각보다 많이 필요한 프로젝트였고, 모델을 그대로 가져다 쓴다고 해도 한번에 구현하기 쉽지 않았지만 구현된 모델을 어떻게 특정 상황에 맞게 수정하고, 옵션을 바꿔가며 시도하며 효과적인 이미지 전처리 방법에 대해 고민하는 등 배운게 많은 프로젝트였습니다! 


DeepGaze IIE: Calibrated prediction in and out-of-domain for state-of-the-art saliency modeling (원문 링크)

논문 주제 : 확률 예측을 통한 spatial saliency model 의 성능 향상

실험 방법 

모델 구조: backbone CNN ( $ 1 \times 1 $ convolution) -> blurred single output channel of the readout network -> centerbias와 결합 -> softmax -> 2D fixation distribution 
DeepGaze II 와의 차이점은, 더 깊은 readout network를 가지고 있다는 점입니다. 

출처 : https://arxiv.org/abs/2105.12441, Figure 3

readout network에서 학습이 진행된 부분은 blur size와 centerbias weight이며, 이 과정에서 이미지의 feature extractor는 고정되어 있습니다. 
사전학습된 model은 SALICON dataset으로 학습되었고, MIT1003 dataset으로 finetuning되었습니다.

Metric

baseline model(image-invariant center bias)과 비교한 Information gain 으로 평가합니다.  

실험의 analytical tool은 confidence calibration 이라고 합니다. 

confidence calibration이란? 참고 포스트, 본 논문에서는 높은 entropy를 가지는 데이터셋을 사용해 confidence calibration 을 테스트합니다. 각 모델은 미지원 도메인(out-of-domain)에 대해 overconfident 한 경향이 있지만, confident calibration은 앙상블된 모델이 더 높기 때문입니다. 

실험&결과

실험은 layer search stage와 instance search stage 두 단계로 이루어졌습니다. 

layer search stage는 기존 모델로부터 어떤 layer가 가장 좋은 퍼포먼스를 낼 수 있는지 탐색하는 단계로, 3 - 4개의 layer가 highly suboptimal performance를 보였다고 합니다. 

instance search 단계에서는 동일한  configuration의 초기화를 반복하여, 같은 파이프라인에서의 fluctuation과 information gain을 얻음으로써 모델의 성능이 재현가능한지 보았습니다. 

Discussion

모델의 backbone이 이미지로부터 다른 특징을 잡아내는지 여부는 saliency와 상관관계가 강하지는 않아보입니다. 
 성능 향상에 도움을 준 4가지 요소들은 아래와 같습니다. 
1. linear readout보다는 덜하지만 $ 1 \times 1 $ kernel을 쓰는 전통적인 CNN보다는 더 contrained한 readout network를 선택함 
2. 각 모델에 multiple instances 사용
3. 아키텍처의 inter-complementarity, instance의 intra- complementarity를 활용하기 위해 여러 모델을leverage함
4. information gain을 통해 모델을 평가하고 다른 평가 metric과 dataset에 대한 상대적인 성능을 비교함 


프로젝트 진행하면서 모델의 성능이 가장 눈에 띄게 좋아졌던 것은 이미지의 color space를  RGB로부터 L*a*b로 바꿔주는 항목이었습니다. 인간이 왜곡하여 받아들이는 휘도에 대한 부분이 가장 큰 영향을 주었을 것으로 생각합니다. 
프로젝트 개요와 결과물은 이 링크에서 확인하실 수 있습니다😎

728x90
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.