단계적 의미 정렬을 활용한 테스트‑시점 적응: 의사소스 브릿지
초록
테스트‑시점 적응에서 소스 데이터를 사용할 수 없을 때, 기존의 의사소스 도메인을 직접 정렬하면 원본 소스와의 차이로 성능이 저하된다. 본 논문은 의사소스를 “의미적 다리”로 보고, 사전 학습된 보편 의미를 이용해 의사소스의 특징을 교정한 뒤, 교정된 의미를 통해 남은 타깃 데이터를 단계적으로 정렬한다. 계층적 특징 집합(HFA)과 신뢰도 기반 보완 학습(CACL)을 도입해 정렬 품질을 높였으며, GTA→Cityscapes와 SYNTHIA→Cityscapes에서 기존 최첨단 대비 5 % 이상 향상된 결과를 보였다.
상세 분석
본 연구는 테스트‑시점 적응(Test‑Time Adaptation, TTA)이라는 가장 까다로운 설정을 다룬다. 여기서는 소스 데이터 자체가 완전히 차단되고, 타깃 데이터만 비라벨 형태로 제공된다. 기존 접근법은 타깃 데이터를 이용해 “의사소스(pseudo‑source)”를 생성하고, 이를 원본 소스의 대체물로 삼아 정렬을 수행한다. 그러나 의사소스는 생성·번역 과정에서 원본 소스와 의미적·통계적 차이를 크게 띠며, 이러한 차이를 무시하고 직접 정렬하면 모델이 오히려 발산할 위험이 있다.
논문은 이 문제를 “의미적 다리”라는 관점으로 전환한다. 즉, 의사소스를 최종 정렬 목표가 아니라, 원본 소스와 타깃 사이를 연결하는 중간 단계로 활용한다. 이를 위해 먼저 타깃 샘플을 엔트로피 기반 EMA(Exponential Moving Average)로 불확실성을 추정하고, 낮은 엔트로피(고신뢰) 샘플을 의사소스로, 나머지를 남은 타깃(RT)으로 구분한다.
핵심 기법인 단계적 의미 정렬(SSA)은 두 단계로 이루어진다. 1) 의사소스 의미 교정에서는 사전 학습된 일반 시각 백본(pre‑trained model)의 특징을 “보편 의미”로 활용한다. 현재 모델의 특징 f(x)와 고정된 백본 특징 f_pre(x) 사이에 코사인 유사도 기반 정렬 손실 L_dis를 적용해, 의사소스가 원본 소스의 의미 구조에 더 가깝게 조정된다. 이 과정은 공간적 위치 Ω를 클래스 혹은 작업별로 선택해 효율적으로 수행된다.
- 남은 타깃 정렬에서는 교정된 의사소스와 RT 사이에 클래스‑인식 마스크 M을 이용한 특징 혼합을 수행한다. M·x_ps + (1‑M)·x_rt 형태의 혼합 입력과 동일한 방식의 혼합 라벨을 생성하고, 이를 CACL(Confidence‑Aware Complementary Learning) 기반 교차 엔트로피 손실 L_mix에 넣어 학습한다. CACL은 높은 신뢰도 양성 클래스와 확실히 부정인 클래스(negative) 모두를 활용해 보완적인 감독 신호를 제공함으로써, 라벨 노이즈에 대한 강인성을 높인다.
또한, 계층적 특징 집합(HFA) 모듈을 도입해 전역적인 coarse‑grained 예측과 지역적인 fine‑grained 패치 예측을 동시에 처리한다. 전역 예측은 전체 이미지에 대한 다운샘플링 후 얻으며, 지역 예측은 겹치는 패치마다 독립적으로 수행한다. 두 예측은 픽셀별 커버 횟수를 정규화한 뒤, 의미‑레벨 어텐션 A를 통해 가중합(P_fused = A·P_local + (1‑A)·Align(P_global))한다. 이 구조는 전역 컨텍스트와 지역 디테일을 균형 있게 결합해, 복잡한 도메인 변이에도 강인한 특징 표현을 만든다.
실험에서는 CNN 기반과 Vision‑Transformer 기반 모델 모두에 SSA를 적용했으며, GTA→Cityscapes와 SYNTHIA→Cityscapes 같은 대규모 세그멘테이션 벤치마크에서 기존 SOTA 대비 각각 5.2 %·5.0 %의 mIoU 향상을 기록했다. 또한, 이미지 분류 실험에서도 일관된 성능 상승을 보였으며, 소스 데이터를 전혀 사용하지 않음에도 불구하고 소스‑존재 기반 방법에 근접한 결과를 달성했다.
요약하면, 본 논문은 (1) 의사소스를 “의미적 다리”로 재정의하고, (2) 사전 학습된 보편 의미를 이용해 교정함으로써 의사소스‑타깃 간 정렬의 품질을 근본적으로 개선했으며, (3) HFA와 CACL이라는 두 보조 모듈을 통해 정렬 과정에서 발생할 수 있는 정보 손실과 라벨 노이즈를 효과적으로 보완했다. 이러한 설계는 테스트‑시점 적응이라는 제한된 정보 환경에서도 강인하고 실용적인 도메인 적응을 가능하게 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기