실시간 도메인 적응을 위한 동적 모호성 기반 적응 프레임워크 DAWA

실시간 도메인 적응을 위한 동적 모호성 기반 적응 프레임워크 DAWA
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DAWA는 테스트 시점 도메인 적응(TTDA) 환경에서 연속적인 환경 변화와 시각적 유사성으로 인한 클래스 모호성을 실시간으로 완화한다. 고주파 에너지 분석을 이용해 혼란스러운 패치를 동적으로 마스킹하는 DAP Mask와, 비전‑언어 모델을 활용해 의미적으로 유사한 클래스들을 메타‑모호성 버퍼에 그룹화하고 혼합하는 DAC Mix를 도입한다. 실험 결과, 기존 최첨단 방법들을 능가하면서 40 FPS 수준의 실시간 속도를 유지한다.

상세 분석

DAWA는 TTDA(테스트‑타임 도메인 적응)에서 두 가지 핵심 문제, 즉 연속적인 도메인 변동에 따른 연산 비용시각적으로 유사한 클래스 간 지속적인 모호성을 동시에 해결한다. 첫 번째 문제는 기존 방법들이 프레임마다 역전파를 수행하거나 고정된 도메인 전환 트리거에 의존해 실시간 요구를 충족시키지 못한다는 점이다. 두 번째 문제는 악천후 등 급격한 환경 변화 시 도로와 벽, 보행자와 차선 등 유사한 텍스처를 가진 클래스가 서로 혼동되어 오류가 누적되는 현상이다.

DAWA는 이를 위해 동적 하이퍼파라미터 컨트롤러(DH Controller) 를 도입해 현재 프레임의 고주파 에너지 분포를 실시간으로 측정하고, 그 결과에 따라 마스크 비율(α_mask)과 클래스 믹스 비율(α_mix)을 자동 조정한다. 고주파 에너지 분석은 Fast Fourier Transform(FFT)을 각 N×N 패치에 적용해 고주파 성분 비율 Rᵢⱼ를 계산하고, 상위 α_mask 비율의 패치를 마스크(M)로 전환한다. 이렇게 생성된 DAP Mask는 잡음이 많은 영역을 학습에서 제외시켜 모델이 더 안정적인 저주파 영역에 집중하도록 만든다.

두 번째 모듈인 DAC Mix는 Vision‑Language Model(VLM, 예: CLIP, GPT‑4o) 을 활용해 소스 도메인에서 의미적으로 혼동되는 클래스 그룹 A_g = {C₁,…,C_N} 를 자동 추출한다. 추출된 그룹을 기반으로 메타‑모호성 클래스 버퍼를 구성하고, 타깃 프레임에 존재하는 해당 클래스들의 마스크를 이용해 클래스‑단위 혼합을 수행한다. 이 과정은 기존 ClassMix가 고정된 믹스 비율과 수동적인 클래스 선택에 의존하던 한계를 넘어, 동적으로 변화하는 도메인에서도 의미적 일관성을 유지한다.

학습 단계에서는 교사‑학생 구조(teacher ϕ_tch, student ϕ_stu)를 사용해 마스크된 이미지에 대해 masked loss L_maskmixed loss L_mix 를 동시에 최적화한다. L_mask는 마스크된 영역에 대한 예측 일관성을 강화하고, L_mix는 메타‑버퍼를 통한 클래스 혼합으로 얻은 다양한 시나리오에 대한 일반화 능력을 향상시킨다.

실험에서는 Cityscapes→Rainy, Foggy, Snowy 등 연속적인 악천후 시나리오와 Increasing Storm 데이터셋을 사용해 mIoU와 FPS를 평가하였다. DAWA는 기존 OnDA, HAMLET 등과 비교해 평균 mIoU 3~5%p 상승을 보였으며, 40 FPS 이상의 실시간 속도를 유지했다. Ablation study에서는 DAP Mask와 DAC Mix 각각이 독립적으로 성능 향상에 기여함을 확인했으며, DH Controller가 동적 비율 조정 없이 고정 비율을 사용할 경우 성능 저하가 발생한다는 점을 보여준다.

전체적으로 DAWA는 고주파 기반 공간 잡음 억제비전‑언어 기반 의미적 클래스 그룹화라는 두 축을 결합해, 연속적인 도메인 변동 상황에서도 효율적이고 안정적인 적응을 가능하게 만든다.


댓글 및 학술 토론

Loading comments...

의견 남기기