시선 이동 영감을 받은 비전 트랜스포머 기반 이미지 분류
초록
본 논문은 인간의 급속한 시선 이동(사카드) 메커니즘을 모방하여, 사전 학습된 DINO Vision Transformer의 어텐션 맵을 활용해 이미지의 핵심 영역만 순차적으로 선택·처리하는 방법을 제안한다. ImageNet‑1K 검증 셋을 대상으로 전체 이미지와 비교했을 때, 몇 차례의 사카드만으로도 거의 동일한 분류 정확도를 유지하거나 경우에 따라 향상시킨다. 또한 인간 시선 예측을 위한 기존 saliency 모델들과 비교했을 때 DINO 어텐션이 더 신뢰할 만한 고정점(fixation) 안내를 제공함을 실험적으로 입증한다.
상세 분석
이 연구는 인간 시각 시스템이 고해상도 중심부(핵심 시야)를 빠른 사카드로 이동시켜 정보를 효율적으로 처리한다는 생물학적 원리를, 최신 Vision Transformer(ViT) 구조에 적용하려는 시도이다. 핵심 아이디어는 DINO라는 자체 지도학습(self‑distillation) 기반 ViT가 생성하는 어텐션 맵이 인간의 시선 분포와 높은 상관관계를 보인다는 점이다. 논문은 먼저 ImageNet‑1K 검증 이미지들을 224×224 크기로 전처리하고, 16×16 패치 단위로 토큰화한다. DINO 모델의 마지막 레이어(보통 12번째 레이어)에서 각 헤드별 어텐션을 추출한 뒤, 공간 위치별 최대값을 취해 단일 14×14 어텐션 맵을 만든다. 이 맵에서 가장 높은 점수를 가진 위치를 “핵심 시야”로 정의하고, 3×3 혹은 5×5 패치(각각 48×48, 80×80 픽셀)를 원본 이미지에서 추출한다. 추출 후 해당 영역을 어텐션 맵에서 음수 상수로 마스킹해 억제‑재귀(inhibition‑of‑return) 효과를 구현한다. 이렇게 억제된 어텐션 맵을 다시 스캔해 다음 최고점 위치를 찾는 과정을 여러 번 반복함으로써 인간의 사카드 순서를 모방한다.
각 사카드 단계에서 추출된 부분 이미지들은 사전 학습된 선형 분류기(또는 간단한 MLP)에 입력되어 클래스 점수를 계산한다. 실험 결과, 첫 번째 사카드만으로도 전체 이미지 대비 약 85 % 이상의 Top‑1 정확도를 달성했으며, 3~4번의 사카드 후에는 전체 이미지와 거의 동일한 성능을 보였다. 흥미롭게도 일부 이미지에서는 제한된 영역만으로도 전체 이미지보다 높은 점수를 얻어, 불필요한 배경 정보가 오히려 혼란을 야기할 수 있음을 시사한다.
또한, 인간 시선 데이터를 기반으로 학습된 DeepGaze II, SALICON 등 기존 saliency 모델과 DINO 어텐션을 직접 비교하였다. 정량적 지표(예: AUC, NSS)에서 DINO 어텐션이 일관되게 우수했으며, 특히 의미론적 의미가 강한 객체(얼굴, 동물 등) 주변에 집중하는 경향이 뚜렷했다. 이는 DINO가 순수히 이미지 자체의 통계적 특성뿐 아니라, 고차원 의미 정보를 내재화하고 있음을 의미한다.
연산 효율성 측면에서, 전체 이미지를 한 번에 처리하는 전통적인 ViT와 달리, 본 방법은 초기 어텐션 맵 한 번의 계산만으로 이후 여러 사카드 단계에서 추가적인 토큰 연산을 크게 줄인다. 토큰 수가 196(14×14)에서 9~25 정도로 감소하므로 메모리 사용량과 FLOPs가 크게 절감된다. 다만, 어텐션 맵 자체를 얻기 위한 초기 전방패스는 여전히 필요하므로, 완전한 “hard‑attention” 방식에 비해 약간의 오버헤드가 존재한다.
전체적으로 이 논문은 (1) DINO 어텐션이 인간 시선과 높은 정합성을 보이며, (2) 어텐션 기반 사카드 선택이 제한된 시야만으로도 높은 분류 성능을 유지한다는 점, (3) 기존 saliency 모델 대비 효율적이고 의미론적으로 타당한 고정점을 제공한다는 점을 입증한다. 향후 연구에서는 어텐션 맵을 동적으로 업데이트하거나, 멀티‑스케일 토큰 구조와 결합해 더욱 정교한 “시각‑주변부-중심부” 계층을 구현하는 방향이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기