버퍼 레이어로 구현하는 테스트 타임 적응
초록
본 논문은 기존 테스트‑타임 적응(TTA)에서 배치 정규화(BN) 의존성을 탈피하고, 사전 학습된 백본을 그대로 보존하면서 도메인 변화를 완화하는 경량형 “버퍼 레이어”를 제안한다. 버퍼 레이어는 1×1·3×3 컨볼루션으로 구성된 보조 모듈이며, 테스트 시에만 학습 가능한 파라미터를 업데이트한다. 실험 결과, CIFAR‑10‑C, CIFAR‑100‑C, ImageNet‑C 등 다양한 벤치마크와 소규모 배치(2, 4) 환경에서 기존 BN 기반 TTA보다 오류율을 크게 낮추고, 기존 방법과 결합했을 때도 일관된 성능 향상을 보인다. 또한 백본 파라미터를 고정함으로써 재학습 시 발생할 수 있는 catastrophic forgetting을 효과적으로 방지한다.
상세 분석
테스트‑타임 적응은 모델이 배포된 후 목표 도메인의 데이터에 대해 라벨 없이 빠르게 적응하도록 설계된 기술이다. 기존 연구는 주로 BN 레이어의 평균·분산과 affine 파라미터(γ, β)를 업데이트하는 방식에 의존했으며, 이는 작은 배치 크기에서 통계가 불안정해 성능 저하를 초래한다는 근본적인 한계를 가지고 있다. 또한 BN은 학습 시 수집된 통계에 기반하므로, 급격한 도메인 이동이나 클래스‑조건부 변동을 충분히 포착하지 못한다. 이러한 문제점을 해결하기 위해 저자들은 “버퍼 레이어”라는 독립적인 적응 모듈을 설계하였다.
버퍼 레이어는 사전 학습된 백본과 병렬로 삽입되며, 초기에는 1×1 컨볼루션으로 차원 축소·확장을 수행하고, 이어서 3×3 컨볼루션으로 지역적 특징을 재구성한다. 각 레이어의 출력은 학습 가능한 스칼라 계수로 스케일링된 뒤, 잔차 연결을 통해 원본 피처에 더해진다. 이 구조는 두 가지 중요한 장점을 제공한다. 첫째, 적응 파라미터가 백본 외부에 존재하기 때문에 백본의 고정된 표현을 그대로 유지한다. 따라서 기존 모델이 학습한 복잡한 특성 맵이 손상되지 않아, 장기적인 성능 저하(즉, catastrophic forgetting)를 방지한다. 둘째, 버퍼 레이어는 작은 배치에서도 안정적으로 학습될 수 있다. 왜냐하면 레이어 자체가 직접적인 통계 추정에 의존하지 않고, 엔트로피 최소화, 일관성 정규화 등 기존 TTA 목표 함수를 그대로 적용할 수 있기 때문이다.
실험 설계에서는 다양한 최신 TTA 방법(TENT, EA‑TTA, SAR, DeYO, CMF, ROID 등)을 그대로 유지하면서, 업데이트 대상만 BN에서 버퍼 레이어로 교체하였다(@Buffer). 이렇게 함으로써 “what to update”가 바뀐 것이 성능 향상의 원인임을 명확히 검증하였다. 결과는 일관되게 나타났다. 예를 들어, WRN‑28 기반 TENT이 BN을 업데이트했을 때 배치 2에서 오류율이 82.56%였으나, 버퍼 레이어만 업데이트했을 때 37.05%로 급감하였다. 특히 배치 2·4와 같은 극소량 상황에서 개선 폭이 가장 크게 나타났으며, 이는 BN 기반 방법이 통계 불안정성에 취약함을 재확인시킨다. 또한, 버퍼 레이어를 기존 BN 업데이트와 병합(@BN+Buffer)했을 때도 추가적인 이득이 관찰되어, 버퍼 레이어가 기존 TTA 파이프라인에 보완적인 역할을 할 수 있음을 보여준다.
연산 측면에서도 버퍼 레이어는 경량 설계 덕분에 전체 파라미터 증가가 미미하고, 역전파는 버퍼 레이어에만 국한되므로 메모리·시간 비용이 크게 늘어나지 않는다. 이는 실시간 혹은 리소스 제한 환경에서 TTA를 적용하고자 하는 실제 시스템에 매우 유리한 특성이다.
요약하면, 본 논문은 “what to update”라는 관점을 재정의함으로써, 기존 BN 중심의 TTA가 갖는 구조적 한계를 근본적으로 해소한다. 버퍼 레이어는 모듈식·경량형 설계, 백본 보존, 작은 배치에서도 안정적인 학습이라는 세 가지 핵심 장점을 제공하며, 다양한 TTA 프레임워크와 호환 가능하다는 점에서 실용적 가치가 높다.
댓글 및 학술 토론
Loading comments...
의견 남기기