스타일 전이와 합성 데이터가 결합된 새로운 데이터 증강 기법으로 이미지 부식 강인성 극대화
초록
본 논문은 합성 이미지와 신경 스타일 전이(NST)를 결합한 데이터 증강 파이프라인을 제안한다. 스타일 전이가 합성 이미지의 FID 점수를 낮추어 품질이 떨어지지만, 학습에는 오히려 유리함을 보였다. 다양한 하이퍼파라미터와 규칙 기반 증강 기법과의 조합 실험을 통해 스타일링과 합성 데이터가 상호 보완적임을 확인했으며, CIFAR‑10‑C, CIFAR‑100‑C, TinyImageNet‑C에서 각각 93.54 %, 74.9 %, 50.86 %의 최고 부식 강인도 정확도를 달성하였다.
상세 분석
이 연구는 이미지 분류 모델의 부식(노이즈·왜곡) 강인성을 향상시키기 위해 두 가지 모델‑기반 데이터 증강 방식을 결합한다는 점에서 의미가 크다. 첫 번째는 최신 확산 모델(EDM)로부터 생성된 1백만 장의 합성 이미지이며, 두 번째는 AdaIN 기반 신경 스타일 전이(NST)를 이용해 원본 및 합성 이미지에 다양한 화풍을 입히는 과정이다.
핵심적인 발견은 스타일 전이가 합성 이미지의 FID를 악화시켜 “시각적 품질”은 떨어지지만, 학습 단계에서는 오히려 텍스처를 제거하고 객체 형태에 집중하도록 유도해 부식 강인성을 크게 높인다는 점이다. 이는 기존 연구(Geirhos et al., 2019)에서 스타일링이 텍스처 편향을 감소시켜 일반화에 도움이 된다는 주장과 일맥상통하지만, 여기서는 합성 이미지와 결합했을 때의 시너지 효과를 실증적으로 보여준다.
하이퍼파라미터 λ(합성 이미지 비율), λ_o(원본 이미지 스타일링 확률), λ_s(합성 이미지 스타일링 확률), α_o·α_s(스타일 강도) 등을 체계적으로 탐색하였다. 실험 결과, λ≈0.5, λ_s≈0.7, λ_o≈0.3, α_s≈0.8, α_o≈0.4 정도가 최적점으로 나타났으며, 이는 합성 이미지에 높은 스타일링 비중을 두고 원본 이미지에는 낮은 비중을 두는 것이 가장 효과적임을 시사한다.
규칙 기반 증강 기법과의 조합에서도 흥미로운 차이가 발견되었다. TrivialAugment(TA)와는 호환되어 성능이 상승했지만, AutoAugment, AugMix 등 복합적인 변환 파이프라인과는 충돌하여 오히려 성능이 저하되는 현상이 나타났다. 이는 스타일 전이가 이미지의 전반적인 색·조도 분포를 크게 바꾸어, 다른 변환이 기대하는 통계적 특성과 맞지 않기 때문으로 해석된다.
다양한 모델 아키텍처(WideResNet‑28‑4, DenseNet‑201‑12, ResNeXt‑29‑32x4d, ViT‑B‑16)와 데이터셋(CIFAR‑10, CIFAR‑100, TinyImageNet)에서 일관된 성능 향상이 보고되었으며, 특히 CIFAR‑10‑C에서 93.54 %라는 기록은 기존 최고 기록(≈92 %)을 크게 앞선다. 또한, 부식 강인성뿐 아니라 기본 정확도도 크게 손실되지 않아, 정확도‑강인성 트레이드오프를 최소화했다는 점이 실용적이다.
한계점으로는 스타일 전이 과정이 계산 비용이 높고, 대규모 고해상도 데이터에 적용할 경우 메모리 요구량이 급증한다는 점이다. 또한, FID가 낮아도 실제 학습에 유리한 스타일링이 가능하다는 역설적 현상이 존재해, 기존 이미지 품질 평가 지표만으로는 증강 효과를 판단하기 어렵다. 향후 연구에서는 경량화된 스타일 전이 모델이나, 스타일링 강도를 자동 조정하는 메타‑학습 기법을 도입해 효율성을 높이는 방안을 모색할 필요가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기