연속학습을 위한 시각 변환기 주의 유지 기법

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 비전 트랜스포머(ViT)에서 발생하는 ‘주의 드리프트’를 주요 원인으로 규명하고, 이전 과제의 주의 영역을 보존하기 위해 그래디언트 마스킹과 레이어별 롤아웃 기반 마스크 생성을 결합한 ARCL‑ViT 프레임워크를 제안한다. 실험을 통해 주의 드리프트를 크게 감소시키고, 다양한 연속학습 시나리오에서 최첨단 성능을 달성함을 보인다.

상세 분석

연속학습에서 가장 큰 난제는 새로운 과제를 학습하면서 이전에 습득한 지식을 망각하는 ‘재앙적 망각(catastrophic forgetting)’이다. 기존 연구들은 재현(replay), 파라미터 확장, 정규화 기반 방법 등으로 이를 완화하려 했지만, 비전 트랜스포머(ViT)의 경우 자체적인 주의 메커니즘이 크게 변형되는 ‘주의 드리프트(attention drift)’가 망각을 가속화한다는 점을 처음으로 명확히 제시한다. 인간 시각 피질이 중요한 시각 특징에 지속적으로 주의를 집중하는 생물학적 메커니즘을 차용해, 이전 과제의 주의 영역을 보존하는 것이 연속학습의 핵심이라는 가설을 세운다.

제안된 ARCL‑ViT는 두 단계로 구성된다. 첫 번째 단계는 레이어‑와이즈 롤아웃(rollout) 기법을 이용해 이전 과제의 주의 맵을 추출하고, 인스턴스‑적응형 임계값을 적용해 이진 마스크를 만든다. 롤아웃은 각 레이어의 활성화된 어텐션 행렬에 단위 행렬을 더해 누적 곱을 수행함으로써, 입력 토큰이 최종 클래스 토큰에 기여하는 경로를 정량화한다. 두 번째 단계에서는 현재 과제를 학습할 때, 앞서 만든 마스크를 그래디언트에 적용해 마스크가 0인 영역(이전 과제에 중요한 영역)의 그래디언트를 차단한다. 이렇게 하면 파라미터 업데이트가 이전 과제의 주의 패턴을 직접적으로 변형시키는 것을 방지한다.

하지만 단순히 그래디언트를 0으로 만들면 옵티마이저(예: Adam)의 모멘텀 기반 업데이트가 비정상적으로 커지거나 작아질 위험이 있다. 이를 해결하기 위해 논문은 마스크 적용 전후 그래디언트 비율을 유지하도록 파라미터 업데이트를 스케일링하는 식을 도입한다. 즉, 마스크 적용 후 그래디언트와 원래 그래디언트의 비율을 그대로 반영해 업데이트 크기를 조정함으로써, 옵티마이저와의 호환성을 확보한다.

이론적 분석에서는 그래디언트와 어텐션 행렬 A, S 사이의 미분 관계를 상세히 전개한다. Q, K, V 가중치에 대한 그래디언트는 A 혹은 S와 직접 곱해지는 형태이므로, A 혹은 S의 특정 위치에 대한 그래디언트를 차단하면 해당 위치의 어텐션 값이 변하지 않는다. 따라서 마스크가 차단한 영역은 이전 과제의 시각적 개념을 유지하는 ‘고정된 주의 영역’이 된다.

실험에서는 ImageNet‑Pretrained ViT를 기반으로 클래스‑증분 연속학습(class‑incremental) 설정을 사용했다. 10개의 연속 과제에 대해 기존 방법(Replay, EWC, OWM, Prompt‑based 등)과 비교했을 때, ARCL‑ViT는 평균 정확도와 포그라운드‑백그라운드 구분 능력에서 현저히 우수했다. 특히, 주의 드리프트를 정량화한 지표에서 기존 방법은 30% 이상 감소한 반면, 제안 방법은 5% 이하로 억제했다. 시각화 결과도 이전 과제의 핵심 영역(예: 고양이의 머리, 자동차의 앞부분 등)이 지속적으로 강조되는 것을 확인할 수 있었다.

이러한 결과는 ‘주의 유지’가 단순히 파라미터를 고정하는 것보다 더 효과적인 연속학습 전략임을 시사한다. 또한, 마스크 생성 과정이 인스턴스‑적응형이기 때문에, 다양한 데이터 분포와 복잡한 시각적 개념에도 유연하게 적용될 수 있다. 최종적으로 ARCL‑ViT는 기존 연속학습 프레임워크와 손쉽게 결합 가능하며, 메모리 요구량이 거의 없고, 최신 옵티마이저와도 호환되는 실용적인 솔루션을 제공한다.

연속학습을 위한 시각 변환기 주의 유지 기법

초록

상세 분석

댓글 및 학술 토론

의견 남기기