아트젠: 임의 관절 상태를 위한 조건부 3D 물체 생성 프레임워크
초록
아트젠은 단일 이미지 또는 텍스트 입력으로 임의의 관절 상태에 있는 물체의 기하와 관절 정보를 동시에 생성하는 조건부 확산 모델이다. 교차‑상태 몬테카를로 샘플링, 체인‑오브‑생각(Chain‑of‑Thought) 기반 구조 추론, 그리고 전문가‑혼합(MoE) 디퓨전 트랜스포머를 결합해 전역적인 운동 일관성을 보장하고, 파트‑레벨 형태와 연결성을 고품질로 재현한다. PartNet‑Mobility 벤치마크에서 기존 방법들을 크게 앞선 성능을 기록한다.
상세 분석
아트젠은 기존의 관절 물체 생성 모델이 “닫힌 상태”에만 의존해 기하와 운동을 혼합하는 문제를 근본적으로 해결한다. 핵심 아이디어는 교차‑상태 Monte Carlo 샘플링으로, 학습 단계에서 연속적인 관절 구간 전역에 걸쳐 무작위 상태를 추출해 모델이 모든 가능한 포즈를 경험하도록 만든다. 이 과정은 관절 축·범위와 파트 상태(s_i) 를 연속 변수로 다루어, 관절‑운동 간의 엔탱글먼트를 최소화한다.
조건부 입력은 이미지와 텍스트 두 가지 모달을 모두 지원한다. 이미지 특징은 DINO V3 로 추출하고, 텍스트는 사전학습된 언어 모델을 이용해 토큰화한다. 두 모달은 Cross‑Attention 레이어를 통해 디퓨전 트랜스포머에 주입되며, 이는 기존 Diffusion Transformer(DiT)의 구조에 그대로 통합된다.
아트젠의 또 다른 혁신은 Chain‑of‑Thought(CoT) 추론 모듈이다. 대형 비전‑언어 모델(GPT‑4o)을 활용해 입력 이미지·텍스트로부터 파트 개수·라벨·대략적 공간 관계를 추론하고, 이를 기반으로 연결 그래프, 관절 유형, 파트 의미를 생성한다. 이렇게 얻은 그래프는 인접 행렬 형태의 마스크로 변환돼 디퓨전 모델의 어텐션 연산에 제한을 가한다. 동시에 관절 유형·파트 의미는 MoE 라우터에 전달돼 각 전문가가 해당 유형에 특화된 파라미터를 학습하도록 유도한다.
형태 생성 측면에서는 3D‑VAE 기반 파트‑레벨 잠재 공간을 도입한다. 각 파트는 OBB와 3D‑VAE latent code(f_i) 로 표현되며, 파트 ID 임베딩(e_i) 과 결합해 Local‑Global Attention 메커니즘에 투입된다. 로컬 어텐션은 개별 파트 내부의 미세 기하 정보를 강화하고, 글로벌 어텐션은 파트 간 구조적 상관관계를 모델링한다. 이 설계는 파트‑레벨 디테일과 전체 물체의 일관성을 동시에 달성한다.
학습은 두 단계로 진행된다. 첫째, 대규모 PartNet‑Mobility 데이터셋에서 파트‑레벨 VAE와 디퓨전 모델을 사전학습한다. 둘째, 교차‑상태 샘플링과 CoT‑가이드된 그래프 마스크를 적용해 전체 파이프라인을 미세조정한다. 실험 결과, 아트젠은 Shape IoU, Joint Error, 그리고 Motion Continuity 지표에서 기존 NAP, CAGE, SINGAPO, ArtFormer 등을 크게 앞선다. 특히, 임의 상태에서 텍스트‑조건 생성 시 관절 유형과 축이 정확히 재현되는 비율이 92%에 달한다.
요약하면, 아트젠은 (1) 전역 관절 일관성을 보장하는 교차‑상태 학습, (2) 구조적 사전 지식을 추출하는 CoT‑기반 그래프 추론, (3) 파트‑전문가 MoE와 로컬‑글로벌 어텐션을 결합한 고품질 형태·운동 생성이라는 세 축을 통해 기존 한계를 뛰어넘는 조건부 관절 물체 생성 모델을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기