PEGAsus 3차원 형태와 외관 맞춤 생성 프레임워크
초록
PEGAsus는 3D 형상의 기하와 외관을 별도로 학습하고, 텍스트와 결합해 새로운 맞춤형 3D 모델을 생성하는 시스템이다. 전역 및 영역별 개념 학습, 점진적 최적화 전략을 도입해 범주에 구애받지 않는 속성 재사용과 정교한 제어를 가능하게 한다.
상세 분석
본 논문은 3D 형태 개인화 문제를 “재사용 가능한 기하·외관 속성을 추출하고, 이를 텍스트와 결합해 새로운 형태를 생성한다”는 정의로 접근한다. 핵심 아이디어는 대규모 3D 기반 모델인 TRELLIS의 두 단계 파이프라인(희소 구조 단계와 구조화된 잠재 단계)을 활용해 기하와 외관을 명확히 분리하고, 각각에 대해 독립적인 개념 학습을 수행한다는 점이다.
우선 전역 개념 학습에서는 텍스트 임베딩을 최적화하고, 이후 동일 텍스트 임베딩을 고정한 채 기하(또는 외관) 생성기를 파인튜닝한다. 이 두 단계는 동일 손실 L_global_geo/app을 공유하지만 최적화 대상이 달라, 텍스트 공간의 표현 한계를 보완하면서도 생성기의 사전 지식을 유지한다.
지역별 개념 학습에서는 사용자가 지정한 영역에 대해 컨텍스트‑aware 손실(L_ctx)과 컨텍스트‑free 손실(L_free)을 동시에 적용한다. L_ctx는 주변 영역과의 시각적 일관성을 유지하도록 유도하고, L_free는 해당 영역만의 속성을 독립적으로 학습하도록 강제한다. 이렇게 하면 예를 들어 물체의 특정 부위에만 스트라이프 무늬나 개구리 다리 형태와 같은 세부 속성을 삽입할 수 있다.
학습된 개념은 “텍스트 임베딩 + 파인튜닝된 생성기” 형태로 저장되며, 추론 시 새로운 텍스트 프롬프트와 결합해 원하는 속성을 가진 3D 모델을 즉시 생성한다. 네 가지 개인화 모드(전역·지역 × 기하·외관)를 모두 지원함으로써, 전통적인 파트 기반 조합, 스타일 전이 방식, 혹은 2D‑to‑3D 전이 방식이 갖는 범주 의존성 및 제어 한계를 극복한다.
실험에서는 다양한 카테고리(꽃, 의자, 로봇, 개구리 등)와 복합 텍스트 프롬프트에 대해 정량적 지표(FID, CLIP‑Score)와 정성적 시각 평가를 수행했으며, 기존 최첨단 방법보다 높은 품질과 더 풍부한 속성 제어를 입증했다. 특히 교차 카테고리 시나리오에서 “수박 외관 + 개구리 다리 형태”와 같은 비직관적 조합을 성공적으로 구현한 점이 주목할 만하다.
한계로는 현재 텍스트‑조건부 파인튜닝이 비교적 비용이 많이 들며, 복잡한 영역 마스크가 필요할 경우 사용자 부담이 증가한다는 점을 들 수 있다. 또한, TRELLIS 자체가 고해상도 메쉬보다는 라플라시안 스플랫 등 특정 표현에 최적화돼 있어, 최종 출력 형식에 따라 추가 후처리가 필요할 수 있다. 향후 연구에서는 경량화된 파인튜닝 기법과 다중 모달(예: 스케치‑텍스트) 입력을 결합해 보다 직관적인 인터페이스를 제공하는 방향이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기