새소식

Study/Paper_review

Deep saliency model 논문 리뷰

  • -
728x90

 최근 Image의 mid-level 과 관련한 프로젝트를 진행 중에 있습니다. 이미지의 low-, mid-, high-level feature들이란 무엇인가부터 시작해 사용성이 높은 mid-level feature를 찾아보던 중 saliency 라는 개념과 deepgaze 라는 모델을 발견하게 되었습니다! Deep saliency model에 대한 article 리뷰와 함께 pytorch 위주의 DeepGaze 모델에 대해서 알아보겠습니다. (Tensorflow와 Pytorch 두 가지 모두 구현되어있지만, TF의 경우 1.0 버전이기 때문에..)

1. Deep saliency models learn low-, mid-, and high-level features to predict scene attention (원문 링크)

 논문의 목적: Deep saliency model 세 가지의 작동 방식 및 Low-level feature와의 연관성 찾기

 논문의 주제는 Deep saliency model들이 사람이 보는 것을 예측하기 위해 어떻게 각 장면의 특징들을 탐지하는지 알아보는 것입니다. MSI-Net, DeepGazeII, SAM-ResNet 세 가지의 모델은 모두 deep saliency model이지만 각각의 모델들끼리도 가중치를 두는 특징 혹은 패턴이 다르다고 합니다.
 이 article에서 말하는 mid-level vision은 higher-level에서의 인지를 돕기 위해 low-level feature들을 정렬하는 것으로, local symmetry 와 contour junction을 예로 들고 있습니다. 구체적인 예시와 나머지 low와 high level 은 Method에서 정의해보겠습니다. 

 먼저 deep saliency와 image saliency를 구별하기 위해 두 개념에 대해 알아봅시다.

1) Deep saliency model ex) MSI-Net, DeepGaze II, SAM-ResNet

  • input: images, output: predicted saliency maps
  • VGG-16, VGG-19와 같은 딥러닝 신경망과 결합하여, 학습한 object recognition 와 human fixaition data 를 기반으로 동작함
  • low/mid/high level feature를 모두 사용

2) Image saliency model 

  • saliency prediction이란, 사람의 시선이 이미지 상에서 움직이는 것을 예측하는 것
  • 풍경 이미지 자체로부터 계산된 색상, 휘도(luminance)
  • low level feature 만 사용

실험 및 결론 

 이 논문의 실험에서는 각 사진에서 human fixation (사람의 시선이 고정되는 지점)이 deep saliency model 및 GLME model에 의해 설명될 수 있는지 확인하였습니다. 
 각 deep saliency model은 center proximity 와 연관성이 있었고, deep saliency model는 secen attention 을 예측하는 데에도 성능이 좋았으나 이런 결과가 모델이 '어떻게' 작동하는지 설명해주지는 않습니다.
 따라서 이 논문에서는 작동에 영향을 주는 변수를 찾기 위해 Linear mixed effects model에 fixated mean deep saliency model value들을 종속 변수로, 각 low/mid/high-level 과 center proximity map value들을 fixed effects로 설정하였습니다. 또한 center proximity 와 feature type (low/mid/high) 간의 interaction term을 추가하여 이미 알려진 low&high level scene feature 간의 상호작용 또한 설명하고자 합니다. 

결과

Fig 1 in paper

 - MSI-Net, DeepGaze II 에서는 High-level meaning과 loe-leve saliency가 가장 강력했고, SAM-ResNet에서는 high-level meaning과 low-level saliency 가 비슷했습니다.
 - 세 모델 모두에서 mid-level junction은 DSM value와 관련성이 높지 않았습니다. 

MSI-Net, SAM-ResNet에서의 fixated region's meaning value는 low-level saliency 가 클수록 커졌지만, DeepGaze II 모델에서는 다른 두 모델과는 달리 low-level saliency 로부터 영향을 받지 않는 것으로 확인되었습니다. 

center proximity 는 모든 DSM과 interaction term 에서 중요한 역할을 했습니다. 
고찰 1. 하지만 이 특성은 데이터셋의 구도와 관련이 있어 보입니다. 우리가 사진을 찍을 때에는 보통 목적하는 피사체를 가운데에 두고 찍기 때문에 이러한 연관성이 있겠지만, 사진 내에서 물체가 고르게 퍼져있는 경우 성능에 대해서는 다시 실험해볼 필요가 있지 않을까요?

흥미로운 점은 low-level saliency와 center proximity 간의 상호작용 패턴은 세 개의 모델 모두에서 달랐다는 것입니다. MSI-Net에서는 saliency가 높아지면 center proximity 의 영향이 줄어들었지만, SAM-ResNet에서는 증가했고, DeepGazeII 모델에서는 interaction을 보이지 않습니다. 

각각의 모델들은 개별적인 architectures, 훈련 방법, center bias priors, loss function 등을 가지고 있지만, 궁극적으로는 scene meaning 과 관련된 이미지의 feature들을 학습하고 있습니다. 

한계

특정 target object를 포함하지 않는 activate viewing task를 사용한 점
의미가 비슷한 이미지가 아니라 전형적인 실내/실외 풍경 데이터만 사용한 점 - task에 따라 성능이 달라질 수 있음
두 가지의 mid-level feature만 관찰한 점

 

*Methods 중 정의에 관한 내용들 

Deep saliency models

DeepGaze II : VGG-19 network의 사전 학습 가중치로 이루어져있음, ImageNet database의 1000개 카테고리 구별 가능, SALICON과 MIT1003 데이터셋으로 훈련되어 human saliency 예측 

Feature maps 

  1. low-level features : image saliency map
    Itti and Koch model을 기반으로 추출된 색, 강도, 각 이미지의 edge가 가지는 방향 등의 특징을 추출
    예측된 fixation density가 반영됨  
  2. Mid-level features : symmetry and junction map, 이미지의 선 정보로부터 추출된 특징
    Ribbon symmetry는 중앙 축을 따라 분리된 영역 사이의 정도를 의미하며, Junction map은 적어도 두 개의 윤곽이 교차하는 지점의 밀도를 표시한다
  3. High-elevel features : meaning map 
  4. Center proximity map : 각 지점이 이미지의 중심으로부터 얼마나 떨어져있는지 표시 (by Euclidean distance)

다음 포스팅에서는 1번 논문에서 언급되었던 세 개의 모델 중 DeepGaze에 대해서 더 깊이 알아보겠습니다.  

728x90
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.