실시간 게임 포토리얼리즘 향상을 위한 듀얼 스테이지 생성 네트워크 REGEN
초록
REGEN은 강건한 비쌍대 이미지‑투‑이미지 변환 모델로부터 생성된 포토리얼리즘 프레임을 이용해, 짝이 있는 데이터셋을 만든 뒤 경량화된 Pix2PixHD 모델을 학습시켜 실시간(30 FPS 이상)으로 고품질 게임 화면을 제공한다. 기존 방법 대비 12배 빠른 속도와 동등하거나 약간 향상된 시각 품질을 달성한다.
상세 분석
본 논문은 게임 엔진에서 출력되는 합성 프레임을 실시간으로 포토리얼하게 변환하는 두 단계 파이프라인을 제안한다. 첫 단계에서는 최신 비쌍대 이미지‑투‑이미지 번역 기법인 EPE(Enhancing Photorealism Enhancement) 모델을 활용한다. EPE는 게임 엔진이 제공하는 G‑Buffer(깊이, 노멀, 메탈릭, 베이스 컬러 등)와 사전 학습된 대규모 의미분할 네트워크(MSEG)를 조건으로 삼아, 소스(게임)와 타깃(실제 세계) 도메인 간의 패치 매칭을 수행한다. 이 과정에서 VGG‑16 기반 특징 추출과 FAISS를 이용한 유사 패치 검색을 통해 의미적 일관성을 유지하면서도 시각적 디테일을 보강한다. 그러나 EPE는 복잡한 멀티스트림 인코더와 대용량 디스크리미네이터를 포함해 연산량이 크고, 실시간 10 FPS 이하의 속도에 머무른다.
두 번째 단계는 첫 단계에서 얻어진 “포토리얼리즘 강화” 이미지와 원본 게임 프레임을 짝으로 삼아, 짝대 이미지‑투‑이미지 번역 모델인 Pix2PixHD를 학습시키는 것이다. Pix2PixHD는 coarse‑to‑fine 생성기와 다중 스케일 디스크리미네이터, 그리고 특징 매칭 손실을 결합해 고해상도(2048×1024)에서도 20‑30 ms의 추론 지연을 보인다. 짝대 학습을 통해 픽셀‑레벨 L1, 퍼셉추얼, 적대적 손실을 직접 적용할 수 있어, 비쌍대 방식에서 흔히 발생하는 색상 왜곡이나 구조적 오류를 크게 감소시킨다.
핵심 인사이트는 “강건하지만 느린 비쌍대 모델 → 빠르고 경량화된 짝대 모델”이라는 변환이다. 비쌍대 모델이 제공하는 의미적 일관성과 고품질 변환 결과를 데이터 생성 단계에 활용함으로써, 짝대 모델이 학습할 때 충분히 풍부한 정답을 제공한다. 이로써 모델 크기와 연산량을 크게 줄이면서도 원본 EPE와 동등하거나 약간 높은 CMMD(Conditional Maximum Mean Discrepancy) 점수를 얻는다.
또한, G‑Buffer 의존성을 제거하고 최종 렌더링 프레임만을 입력으로 사용함으로써, UE5와 Unity의 ONNX Runtime 기반 배포가 용이해졌다. ONNX와 TensorRT를 활용한 혼합 정밀도 추론 덕분에 최신 GPU에서 60 FPS에 근접하는 실시간 성능을 달성한다.
시계열 일관성 평가에서는 프레임 간 차이 영상을 분석해, 기존 EPE와 비교해 유사한 수준의 템포럴 안정성을 유지함을 확인했다. 의미 보존 측면에서는 MSEG 기반 의미분할 일치율이 95 % 이상으로, 비쌍대 방식에서 발생하던 객체 변형 오류가 현저히 감소했다.
종합하면, REGEN은 복잡한 엔진 내부 정보를 요구하지 않으면서도, 고품질 포토리얼리즘 변환을 실시간에 제공할 수 있는 실용적인 프레임워크이며, 게임 개발 파이프라인에 직접 통합 가능한 수준의 효율성을 보여준다.
댓글 및 학술 토론
Loading comments...
의견 남기기