3D 객체 생성 및 보완을 위한 혼합 전문가 CGAN
초록
본 논문은 3차원 볼륨 데이터를 대상으로, 다수의 전문 생성기와 동적 용량 제약(DCC) 메커니즘을 결합한 Mixture‑of‑Experts 기반 3D CGAN(MoE‑CGAN)을 제안한다. 입력이 부분적으로 손상된 경우에도 컨텍스트‑aware 게이팅 네트워크가 적절한 전문가를 선택해 고해상도 voxel 혹은 트리플레인 형태의 3D 모델을 복원·생성한다. 실험 결과, 기존 단일‑Generator GAN 대비 모드 붕괴 감소, 학습 안정성 향상, 그리고 정량·정성 지표 모두에서 우수한 성능을 보였다.
상세 분석
본 연구는 3D 객체 생성·보완 문제를 해결하기 위해 두 가지 핵심 아이디어를 결합한다. 첫 번째는 Mixture‑of‑Experts(MoE) 구조를 GAN의 Generator에 적용해 여러 전문가 네트워크를 병렬로 학습시키는 것이다. 각 전문가(G₁…Gₙ)는 동일한 기본 아키텍처를 공유하지만, 동적 용량 제약(Dynamic Capacity Constraint, DCC)이라는 손실‑프리 로드 밸런싱 전략에 의해 서로 다른 기하학적 특성을 전문화한다. DCC는 전문가별 활성화 비율을 자동으로 조절해 과도한 전문화나 전문가 간 경쟁을 방지하고, 전체 모델의 연산량을 일정 수준으로 유지한다.
두 번째는 컨텍스트‑aware 게이팅 네트워크(GN)이다. 기존 MoE는 주로 입력 잠재벡터(z)만을 기준으로 라우팅하지만, 본 논문은 부분 손상된 voxel 입력 xₚ를 추가 입력으로 사용한다. GN은 z와 xₚ를 결합해 각 전문가에 대한 친화도 점수를 계산하고, 소프트맥스 기반 가중치 g를 통해 최종 출력 h = Σ gᵢ·Gᵢ(z, xₚ) 를 생성한다. 이 과정은 완전한 객체 생성과 손상 부위 보완 두 가지 태스크에 모두 적용 가능하도록 설계되었다.
Generator는 3D Conv3d와 ConvTranspose3d 레이어를 잔차 연결과 dilated convolution으로 보강했으며, 두 가지 고해상도 표현 방식을 제공한다. 첫 번째는 Minkowski Engine 기반의 sparse convolution을 이용해 128³ voxel까지 효율적으로 처리하는 방식이고, 두 번째는 트리플레인(3×D×D) 형태의 하이브리드 표현으로, 경량 MLP 디코더를 통해 implicit surface로 변환한다. Discriminator는 Spectral Normalization과 Instance Normalization을 결합해 학습 안정성을 높였으며, 트리플레인 입력에 대해서는 2D Conv 경로를 별도로 두어 특징을 융합한다.
실험에서는 ShapeNet, ModelNet 및 otolith(어류 이석) 데이터셋을 활용해 다양한 손실률(10%70%)에 대한 복원 성능을 평가하였다. 정량 지표로는 IoU, Chamfer Distance, F1‑Score를 사용했으며, MoE‑CGAN은 기존 3D‑GAN, MEGAN, 그리고 최신 diffusion‑based 3D 모델에 비해 평균 47% 높은 IoU와 15% 이하의 Chamfer Distance를 기록했다. 정성 평가에서는 Marching Cubes로 추출한 메쉬가 세부 구조와 표면 매끄러움에서 현저히 우수했으며, 특히 복잡한 otolith 형태를 복원할 때 전문가별 특화가 모드 붕괴를 크게 억제함을 확인했다.
또한, 연산 효율성 측면에서 DCC가 적용된 MoE‑CGAN은 전체 파라미터는 기존 단일‑Generator 대비 1.8배 증가했지만, 활성화된 전문가 수가 평균 2.3개에 불과해 실제 FLOPs는 30% 정도 감소했다. 이는 3D voxel 처리에서 메모리·시간 비용을 크게 절감하면서도 품질을 유지할 수 있음을 의미한다.
요약하면, 본 논문은 (1) 전문가별 기하학적 특화와 로드 밸런싱을 위한 DCC, (2) 부분 입력을 활용한 컨텍스트‑aware 라우팅, (3) 고해상도 sparse 및 트리플레인 표현을 결합한 Generator 설계라는 세 가지 혁신을 통해 3D 객체 생성·보완 분야에서 기존 GAN 기반 방법의 한계를 극복하였다.
댓글 및 학술 토론
Loading comments...
의견 남기기