시선과 시각을 동시에 학습하는 효율적 비전 트랜스포머

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

LookWhere는 저해상도 입력으로 “어디를 볼지”를 예측하고, 선택된 고해상도 패치를 통해 “무엇을 볼지”를 추출한다. 자기지도 학습 교사(DINOv2)로부터 주의 지도와 토큰 표현을 증류(distillation)함으로써 선택자와 추출기를 공동 사전학습하고, 이후 다양한 다운스트림 작업에 최소한의 파인튜닝만으로 높은 정확도와 34배까지 감소된 FLOPs를 달성한다.

상세 분석

본 논문은 비전 트랜스포머(ViT)의 토큰 수가 이미지 해상도에 따라 제곱적으로 증가하는 문제를 ‘어디를 볼지(Where)’와 ‘무엇을 볼지(What)’를 별도로 학습하는 적응형 연산 프레임워크로 해결한다. 저해상도 입력을 이용해 경량 선택자(selector)를 구성하고, 선택자는 교사의 최종 주의(attention) 맵을 KL‑다이버전스로 학습한다. 이렇게 얻어진 selector map은 고해상도 입력에서 가장 중요한 k 개의 패치를 선택한다. 선택된 패치는 고해상도 추출기(extractor)에게 전달되며, 추출기는 DINOv2 교사의 클래스 토큰과 패치 토큰을 MSE 손실로 복제한다. 핵심은 두 모델이 동시에 학습된다는 점이다. selector는 “어디에 연산을 집중할지”를, extractor는 “선택된 영역에서 어떤 표현을 얻을지”를 학습함으로써, 전체 고해상도 이미지를 전부 처리할 필요 없이 교사의 깊은 표현을 근사한다.

구조적으로 selector와 extractor 모두 ViT‑B 아키텍처를 기반으로 하지만, selector는 입력 해상도와 레이어 수를 제한해 연산량을 크게 줄인다(R_low, L_low). extractor는 선택된 k 패치와 selector가 제공한 전역 토큰(class, register)을 이용해 전체 토큰 시퀀스를 재구성하고, 공간 보간을 통해 고해상도 그리드에 매핑한다. 이렇게 하면 토큰 수가 N²_high → k 로 감소하고, self‑attention의 𝑂(N²) 비용이 크게 절감된다.

학습 단계에서는 교사 모델(DINOv2, 518 px, patch 14)만 고해상도로 전처리하고, selector와 extractor는 각각 저해상도와 선택된 고해상도 패치만 사용한다. 손실은 세 부분(클래스 토큰, 패치 토큰, 주의 지도)으로 구성되며, λ_map을 0으로 두어 현재 구현에서는 주의 지도 손실을 사용하지 않는다(실험적으로 필요 없다고 판단). 파라미터 초기화는 교사의 가중치를 그대로 복제해 전이 학습 효율을 극대화한다.

실험 결과는 세 가지 축에서 검증된다. 1) ImageNet‑1K 분류에서는 기존 토큰 감소·선택 기법보다 높은 Top‑1 정확도(80.3 % vs 79.4 % 이하)와 FLOPs 감소(34×)를 달성한다. 2) ADE20K 세그멘테이션에서는 k를 늘릴수록 mIoU가 44.6 %까지 상승하면서도 FLOPs는 14.6 G 이하로 유지한다. 3) 고해상도 교통표지판 데이터(>1000 px)에서는 6배 빠른 추론 속도와 34배 FLOPs 절감에도 정확도 손실이 거의 없으며, 이는 “희소 인식(sparse recognition)”에 특히 유리함을 보여준다.

또한, selector는 파인튜닝 단계에서 고정되며, 다양한 다운스트림 작업에 동일한 선택 전략을 재사용한다. 이는 “어디를 볼지”에 대한 일반화 능력이 뛰어남을 의미한다. 전체 파이프라인은 사전학습 1회만 수행하면 되므로, 다중 작업에 대한 학습 비용이 크게 감소한다.

본 연구는 (1) 교사의 주의 정보를 활용한 효율적 위치 예측, (2) 선택된 고해상도 패치만으로 교사의 전체 표현을 복원하는 새로운 증류 방식, (3) 저해상도‑고해상도 두 단계 연산을 자연스럽게 결합한 아키텍처를 제시함으로써, 고해상도 비전 트랜스포머의 실용성을 크게 향상시켰다. 앞으로는 selector의 다중 스케일 확장, 동적 k 조정, 그리고 비지도 주의 지도 손실(λ_map>0) 등을 통해 더욱 정교한 적응형 연산이 가능할 것으로 기대된다.

시선과 시각을 동시에 학습하는 효율적 비전 트랜스포머

초록

상세 분석

댓글 및 학술 토론

의견 남기기