단일 도메인 일반화를 위한 교차 도메인 특징 지식 증류
CD‑FKD는 원본 이미지로 학습한 교사 모델과, 다운스케일·노이즈 등으로 변형된 이미지로 학습한 학생 모델 사이에 전역 및 인스턴스 수준의 특징을 정렬하는 지식 증류 방식을 제안한다. 전역 특징 정렬은 이미지 전체의 컨텍스트를, 인스턴스 특징 정렬은 객체별 정보를 보존하도록 설계돼, 변형된 입력에서도 객체 중심 특징을 효과적으로 추출한다. 다양한 날씨·조명·오염 조건을 갖는 목표 도메인에서 기존 단일 도메인 일반화(SDG) 방법들을 크게 앞서…
저자: Junseok Lee, Sungho Shin, Seongju Lee
본 논문은 단일 소스 도메인만을 이용해 다양한 목표 도메인에 강인한 객체 탐지 모델을 구축하고자 하는 ‘단일 도메인 일반화(SDG)’ 문제에 대한 새로운 접근법인 **Cross‑Domain Feature Knowledge Distillation (CD‑FKD)** 를 제안한다. 기존 SDG 연구는 주로 (1) 다중 데이터 증강을 통한 입력 다양성 확대와 (2) 도메인 불변 특징을 학습하기 위한 특징 분리(disentanglement) 전략에 의존한다. 그러나 전자는 과도한 변형이 원본 도메인 성능을 저하시킬 위험이 있고, 후자는 배경 정보를 과도하게 배제해 컨텍스트 이해에 한계를 만든다. 이러한 한계를 극복하기 위해 CD‑FKD는 **교차 도메인 지식 증류**라는 프레임워크를 도입한다.
### 1. 프레임워크 개요
- **교사 네트워크**: 원본 고해상도·클린 이미지만을 입력받아 사전 학습된 Faster R-CNN(ResNet‑101 백본) 모델이며, 학습 과정에서 파라미터가 고정된다.
- **학생 네트워크**: 동일한 구조를 유지하지만, 입력 이미지에 **다운스케일**(해상도 비율 0.6~1.0)과 **15가지 잡음**(ImageNet‑C 기반 가우시안, 모션 블러, 색상 변형 등)을 무작위로 적용한 변형 이미지를 사용한다.
학생은 교사의 풍부한 특징을 모방하도록 두 가지 손실을 최소화한다.
### 2. 전역 특징 정렬 (Global Feature Distillation)
교사와 학생의 백본 최종 피처맵을 각각 \(F^T_s\)와 \(F^S_\phi\)라 정의한다. 다운스케일 비율에 따라 크기가 달라지는 \(F^S_\phi\)를 bilinear interpolation으로 \(F^T_s\)와 동일한 spatial size로 맞춘 뒤, flatten 후 코사인 유사도 손실 \(\mathcal{L}_{global}=1-\cos(F^T_s, F^S_\phi)\)를 적용한다. 이 손실은 학생이 전체 이미지의 전역 컨텍스트(배경, 조명, 장면 구조)를 교사의 클린 이미지와 일치하도록 강제한다.
### 3. 인스턴스‑와이즈 특징 정렬 (Instance‑wise Feature Distillation)
RoI Align을 이용해 교사와 학생의 피처맵에서 GT 바운딩 박스를 기준으로 객체별 피처 \(I^T_s\)와 \(I^S_\phi\)를 추출한다. 각 객체 \(j\)에 대해 코사인 유사도 손실 \(\mathcal{L}_{instance}=1-\cos(I^T_{s,i,j}, I^S_{\phi,i,j})\)를 계산하고, 이미지 내 모든 객체에 대해 평균한다. 이 단계는 변형 이미지에서도 객체 중심의 미세 특징을 유지하도록 학습한다.
두 손실은 기존 탐지 손실(분류와 박스 회귀)과 가중합되어 최종 목표함수 \(\mathcal{L}= \mathcal{L}_{det}+ \lambda_g \mathcal{L}_{global}+ \lambda_i \mathcal{L}_{instance}\)를 형성한다.
### 4. 데이터 다양화 전략
소스 도메인 이미지 \(D_s\)에 대해 (1) **다운스케일**을 통해 저해상도 이미지를 생성하고, (2) **ImageNet‑C**에 정의된 15가지 잡음을 동일 확률로 적용한다. 잡음 강도는 1~5 단계로 균등하게 분포시켜, 학생이 다양한 품질 저하 상황을 사전에 경험하도록 만든다.
### 5. 실험 설정 및 결과
- **데이터셋**: Cityscapes를 소스 도메인으로 사용하고, Foggy Cityscapes, BDD100K‑Night, BDD100K‑Rain, Night‑Clear 등 다양한 악조건 타깃 도메인에 평가.
- **베이스라인**: DivAlign, S‑DGOD, CLIP‑Gap, G‑NAS, UFR 등 최신 SDG 방법과 비교.
- **성능**: CD‑FKD는 평균 mAP에서 기존 최첨단 방법보다 3~5%p 상승했으며, 특히 저조도·비/안개·우천 상황에서 큰 이득을 보였다. 원본 Cityscapes 테스트에서도 mAP가 1.2%p 상승해, 변형 학습이 소스 도메인 성능을 저해하지 않음을 확인했다.
- **분석**: 전역 손실은 전체 이미지 컨텍스트 정합성을 높여 배경 변동에 강인하게 만들었고, 인스턴스 손실은 객체별 특징을 보존해 작은 물체와 부분 가려진 물체 탐지 능력을 크게 향상시켰다.
### 6. 논문의 기여
1. **CD‑FKD**라는 새로운 교차 도메인 지식 증류 프레임워크를 제안, 전역·인스턴스 이중 정렬을 통해 객체 중심 특징과 전역 컨텍스트를 동시에 학습.
2. **다양한 변형 이미지 생성**(다운스케일 + 15가지 잡음)으로 학생에게 어려운 학습 환경을 제공, 이는 목표 도메인에서의 일반화 성능을 크게 끌어올렸다.
3. **광범위한 실험**을 통해 기존 SDG 방법들을 전반적으로 능가함을 입증하고, 원본 도메인에서도 성능 향상을 달성.
### 7. 한계 및 향후 연구
- 현재 Faster R-CNN 기반 2‑stage 탐지기에 국한되어 있어, anchor‑free(FCOS)나 transformer‑기반(DETR) 탐지기로 확장 필요.
- 변형 이미지가 고정된 15가지 잡음에 의존하므로, 실제 현장(예: 레이더·라이다 노이즈)이나 시뮬레이션 기반 도메인 적응과 결합하면 더욱 강인한 일반화가 기대된다.
- 학생 네트워크를 경량화 모델(예: MobileNet)으로 교체하고, 압축‑지식 증류와 결합하면 실시간 응용에서도 활용 가능성이 높아진다.
이와 같이 CD‑FKD는 단일 소스 도메인만을 활용하면서도 목표 도메인의 다양한 환경 변화에 강인한 객체 탐지 성능을 제공하는 실용적인 솔루션으로, 자율주행, 감시, 로봇 비전 등 실제 현장 적용에 큰 잠재력을 가진다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기