도메인 민감 파라미터 정규화로 강인한 도메인 일반화 구현
초록
DSP‑Reg는 파라미터 수준에서 도메인 민감도를 정량화하고, 민감한 파라미터에 부드러운 정규화를 가함으로써 도메인 불변 파라미터를 강조한다. 공분산 기반 민감도 지표와 소프트 정규화 기법을 결합해 PACS·VLCS·OfficeHome·DomainNet 등에서 평균 66.7%의 정확도로 기존 최첨단 방법들을 앞선다.
상세 분석
본 논문은 기존 도메인 일반화 연구가 주로 피처 레벨에서 도메인 불변성을 추구하는 데 반해, 파라미터 레벨에서 도메인 민감성을 명시적으로 구분하지 못한다는 한계를 지적한다. 이를 해결하기 위해 저자들은 먼저 파라미터 그래디언트의 공분산을 이용해 각 파라미터가 도메인 변동에 얼마나 민감한지를 정량화하는 “민감도 지수(s_k)”를 정의한다. 구체적으로, 네트워크를 선형 근사화한 뒤 입력·파라미터 변동이 출력에 미치는 영향을 2차 모멘트 전파 법칙을 통해 분석한다. 파라미터 공분산을 대각 행렬로 가정하고, 각 파라미터의 기울기 제곱 ‖∂θ_k f(x)‖²와 파라미터 자체의 분산 Var(θ_k)을 곱한 값을 데이터 분포에 평균함으로써 s_k를 얻는다. 이 지표는 Fisher Information의 대각 원소와 수학적으로 연결되며, 파라미터가 모델 출력에 미치는 정보량을 의미한다.
다음 단계에서는 도메인 간 s_k 차이를 측정한다. 여러 소스 도메인에서 각각의 s_k를 계산하고, 그 분산(또는 평균 차이)을 “도메인 민감도 차이(d_k)”로 정의한다. d_k가 큰 파라미터는 특정 도메인에 과도하게 적응했을 가능성이 높으므로, 학습 과정에서 추가적인 패널티를 부여한다. 저자들은 이를 “소프트 정규화” 형태로 구현했는데, 손실 함수에 Σ_k λ·d_k·‖θ_k‖² 형태의 항을 추가한다. 여기서 λ는 전체 정규화 강도를 조절하는 하이퍼파라미터이며, d_k가 클수록 해당 파라미터에 더 큰 억제가 가해진다. 이 방식은 기존의 L2 정규화와 달리 파라미터별로 가중치를 동적으로 할당함으로써, 도메인 불변 파라미터는 자유롭게 학습되고, 도메인 특이 파라미터는 억제되어 모델이 보다 일반화된 표현을 학습하도록 유도한다.
이론적으로는, 정규화 항이 파라미터의 Fisher Information을 감소시키는 방향으로 작용함을 보이며, 이는 모델의 변동성을 줄이고 테스트 도메인에서의 기대 손실을 최소화한다는 일반화 경계와 일치한다. 실험에서는 ResNet‑50 기반 백본에 DSP‑Reg를 적용했으며, 각 도메인에서 5‑fold 교차 검증을 수행해 평균 정확도를 보고한다. PACS에서는 3.2%p, VLCS에서는 2.7%p, OfficeHome에서는 2.9%p, DomainNet에서는 3.1%p 상승을 기록했으며, 전체 평균 66.7%로 기존 SOTA인 Fishr·IRM·Meta‑Learning 기반 방법들을 모두 앞섰다. Ablation 실험을 통해 민감도 지수 계산 방식, 정규화 강도 λ, 그리고 공분산 추정 방법(전체 배치 vs. 미니배치) 각각이 성능에 미치는 영향을 정량화하였다. 특히, 파라미터 분산을 직접 추정하기보다 그래디언트 제곱 평균을 이용한 근사(Generalized Gauss‑Newton) 방법이 계산 효율성과 성능 모두에서 최적임을 확인했다.
결과적으로 DSP‑Reg는 파라미터 수준에서 도메인 차이를 정밀하게 측정하고, 이를 기반으로 학습을 조절함으로써 기존 피처‑레벨 접근법이 놓치던 미세한 도메인 특이성을 억제한다. 이는 향후 도메인 일반화뿐 아니라 연속 학습, 도메인 적응, 그리고 파라미터 효율성을 요구하는 경량 모델 설계에도 확장 가능성을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기