합성 데이터와 CycleGAN을 활용한 가시광선‑IR 이미지 변환 성능 향상

본 연구는 Unity 기반 3D 게임 엔진을 이용해 생성한 합성 가시광선·적외선 이미지와 제한된 실제 데이터를 결합해 CycleGAN을 학습시킴으로써 가시광선 영상을 적외선 영상으로 변환하는 성능을 향상시키는 방법을 제시한다. 실험 결과, 실제 데이터 20장만 사용할 때보다 실제 10장+합성 100장을 사용했을 때 거의 동일한 변환 정확도를 얻었으며, 합성 데이터는 실제 데이터의 10배 이상 필요함을 확인하였다.

저자: Kyongsik Yun, Kevin Yu, Joseph Osborne

합성 데이터와 CycleGAN을 활용한 가시광선‑IR 이미지 변환 성능 향상
본 논문은 적외선(IR) 영상이 어두운 환경이나 위장 물체 탐지에 필수적이라는 배경에서, 딥러닝 기반 이미지 변환에 필요한 대량의 라벨링된 IR 데이터 확보가 어려운 문제를 해결하고자 한다. 이를 위해 연구팀은 Unity 기반 3D 게임 엔진인 ARMA 3를 활용해 가시광선 이미지와 대응되는 IR 이미지를 자동으로 생성하였다. ARMA 3는 Real Virtuality 4 엔진과 NVIDIA PhysX 물리 엔진을 사용해 현실적인 조명·재질·열 방사 특성을 시뮬레이션한다. 스크립트를 통해 인물·차량·배경을 무작위 위치와 경로에 배치하고, 다양한 시간·날씨·시점에서 촬영함으로써 수백 장의 고품질 합성 이미지 쌍을 몇 초 안에 생산할 수 있었다. 생성된 합성 이미지에는 가우시안 블러(반경 5 픽셀, 최대 Δ값 50)를 적용해 실제 센서 노이즈와 유사한 특성을 부여하였다. 변환 모델로는 CycleGAN을 선택하였다. CycleGAN은 이미지‑이미지 변환에서 정확히 짝지어진 페어가 없어도 학습이 가능한 구조로, 두 개의 생성기(GV→I, GI→V)와 두 개의 판별기(DI, DV)를 사용해 가시광선→IR, IR→가시광선 양방향 변환을 동시에 학습한다. 생성기에는 U‑Net 기반 인코더‑디코더에 스킵 연결을 적용해 저해상도 특징을 고해상도 복원 단계에 직접 전달하도록 설계했으며, 판별기는 ResNet‑style 구조를 채택해 이미지 전반의 사실성을 평가한다. 손실 함수는 adversarial loss, 사이클 일관성 손실(Lcyc), 그리고 L1 재구성 손실(L1)을 결합해 변환 결과가 원본 구조를 유지하도록 유도한다. 실험은 네 가지 데이터 조합을 비교하였다. (1) 실제 데이터 20장(N=20)만 사용, (2) 실제 10장+합성 10장(N=10+10), (3) 실제 10장+합성 100장(N=10+100), (4) 실제 149장+합성 198장(전체 데이터). 변환 품질 평가는 L1 손실과 시각적 결과를 통해 이루어졌다. 결과는 다음과 같다. 실제 20장만 사용했을 때 L1 손실이 가장 낮아 가장 정확했으며, 실제 10장+합성 10장은 성능이 크게 저하되었다. 반면 실제 10장+합성 100장은 거의 동일한 L1 손실을 기록해, 합성 데이터가 충분히 많을 경우 실제 데이터 부족을 보완할 수 있음을 입증했다. 동일한 시간·위치 조건에서는 합성 데이터를 추가하면 과적합을 방지해 성능이 향상됐지만, 전혀 다른 환경(다른 날·다른 장소)에서는 합성 데이터가 다양성을 제공해 일반화 성능을 크게 끌어올렸다. 논문은 또한 합성 데이터와 실제 데이터의 비율에 대한 실용적인 가이드라인을 제시한다. 실험 결과에 따르면, 합성 데이터는 실제 데이터보다 최소 10배 이상(예: 실제 10 : 합성 100) 확보해야 동일한 변환 정확도를 달성할 수 있다. 그러나 합성 데이터가 실제 데이터와 전혀 다른 도메인(예: 다른 시간·날씨)일 경우, 오히려 L1 손실이 증가해 성능이 저하될 수 있다. 이는 합성 데이터가 훈련 목적에 맞는 다양성을 제공해야 함을 의미한다. 한계점으로는 (1) 합성 이미지가 실제 센서의 열 방사·온도 특성을 완벽히 재현하지 못한다는 점, (2) 실제 데이터가 극히 소량이라 통계적 신뢰도가 낮다는 점, (3) CycleGAN이 고해상도 세부 묘사에서 흐릿해지는 경향이 있어 의료·군사 등 고정밀 응용에 추가적인 후처리나 고해상도 GAN 구조가 필요하다는 점을 들었다. 향후 연구 방향으로는 (①) 물리 기반 렌더링 정확도를 높여 실제 IR 센서 특성을 더 정밀히 모사, (②) 스타일 변환 GAN이나 도메인 적응 기법을 결합해 합성‑실제 도메인 격차를 최소화, (③) 대규모 합성 데이터(수백만 장)와 실제 데이터(수천 장)를 동시에 활용해 전이 학습 및 데이터 증강을 최적화하는 방안을 제시한다. 최종적으로, 본 연구는 3D 게임 엔진을 활용한 합성 데이터 생성이 비용·시간 효율적인 데이터 증강 수단이며, 적절한 비율의 합성 데이터를 결합하면 제한된 실제 데이터만으로도 강건한 가시광선→IR 변환 모델을 학습시킬 수 있음을 입증한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기