ViT 그라디언트 분해로 구현한 고해상도 설명 기법 DAVE
초록
DAVE는 Vision Transformer(ViT)의 구조적 특성을 활용해 입력‑그라디언트를 효과 변환과 연산자 변동 두 부분으로 분해한다. 연산자 변동을 제거하고, 작은 공간 변환에 대해 불변성을 강제하는 Reynolds‑필터링을 적용해 고해상도, 안정적인 픽셀‑단위 attribution map을 생성한다. 실험 결과, 기존 Gradient‑기반·Attention‑기반 방법보다 시각적 정밀도와 변동성 억제 측면에서 우수함을 보인다.
상세 분석
본 논문은 Vision Transformer(ViT)의 고유 구조—패치 임베딩, 토큰 믹싱, 다중 헤드 어텐션—가 기존 그라디언트 기반 XAI 기법에 구조적 잡음을 유발한다는 점을 출발점으로 삼는다. 저자들은 ViT 레이어를 “입력‑조건부 선형 연산자 L(X)와 상수 바이어스 B” 형태로 수학적으로 모델링하고, 레이어 미분을
∂F/∂X = L(X) + (∂L/∂X)·X
와 같이 두 항으로 분해한다. 첫 번째 항 L(X)는 입력에 조건부로 적용되는 실제 변환(Effective Transformation)이며, 두 번째 항은 연산자 자체가 입력에 따라 변하는 정도를 나타내는 연산자 변동(Operator Variation)이다. 연산자 변동은 고주파 잡음과 작은 입력 교란에 과도하게 민감해, 픽셀‑레벨 attribution을 불안정하게 만든다.
DAVE는 이 변동 항을 완전히 배제하고 L(X)만을 사용해 “입력 × 효과 변환”이라는 기본 attribution을 만든다. 여기서 “입력 ×”는 입력 이미지와 L(X)의 행렬 곱을 의미한다. 그러나 L(X) 자체에도 패치 경계나 어텐션 라우팅에 의해 발생하는 격자형 아티팩트가 존재한다. 이를 해결하기 위해 저자들은 Reynolds 연산자를 도입한다. 구체적으로, 공간 변환 군 G(예: 작은 회전, 평행 이동)와 그 근방을 나타내는 확률 측도 ν를 정의하고,
W_eqL(X) = ∫_G τ⁻¹ ∘ L ∘ τ dν(τ)
를 계산한다. 이 연산은 L(X)를 다양한 작은 변환에 대해 역변환하고 평균함으로써, 변환에 대해 불변(equivariant)한 성분만을 남긴다. 결과적으로 패치 경계에 고정된 인위적 패턴은 소멸하고, 실제 의미론적 특징에 집중된 attribution이 도출된다.
추가적으로 DAVE는 두 단계의 저역통과(Low‑Pass) 안정화 과정을 적용한다. 첫 번째는 입력에 가우시안 잡음을 추가해 여러 샘플을 평균함으로써 고주파 변동을 억제하고, 두 번째는 최종 attribution 맵에 공간적 스무딩을 적용해 시각적 연속성을 확보한다.
실험에서는 DeiT‑III‑B‑16/224, DINO‑ViT 등 다양한 사전학습 ViT 모델에 DAVE를 적용했으며, 기존 AttnLRP, LeGrad, Integrated Gradients 등과 비교했다. 정량적 지표(예: attribution stability under augmentation, insertion‑deletion metric)와 정성적 시각 비교 모두에서 DAVE가 더 높은 일관성과 세밀함을 보였다. 특히 작은 회전·이동 변환에 대해 동일한 시각적 특징을 지속적으로 강조함을 Figure 2와 5에서 확인할 수 있다.
이 논문의 핵심 기여는 (1) ViT 레이어의 그라디언트를 효과 변환과 연산자 변동으로 명확히 분리한 이론적 프레임워크, (2) 연산자 변동을 배제하고 Reynolds 필터링을 통해 로컬 불변성을 강제함으로써 구조적 아티팩트를 제거한 실용적 알고리즘, (3) 다양한 ViT 기반 모델과 B‑cos와 같은 내재적 해석 가능 모델에도 적용 가능한 범용성이다. 이러한 접근은 고해상도, 클래스‑일관적인 설명을 요구하는 의료 영상·자율 주행 등 고위험 분야에 특히 유용할 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기