멀티모달 대형 언어 모델을 통한 3D 캡션 및 고해상도 생성
초록
CG‑MLLM은 텍스트·이미지·3D 데이터를 하나의 통합 프레임워크에서 처리하는 멀티모달 대형 언어 모델이다. 토큰‑레벨 자동회귀 Transformer와 블록‑레벨 자동회귀 Transformer를 혼합한 Mixture‑of‑Transformer 구조를 도입해 고해상도 3D 메쉬를 직접 생성하며, 기존 방법이 제공하던 저해상도 복셀이나 거친 구조물보다 훨씬 정밀한 기하 정보를 재현한다.
상세 분석
본 논문은 3D 콘텐츠 생성이라는 고차원 시공간 문제를 LLM 기반 멀티모달 학습에 자연스럽게 녹여내기 위해 두 가지 핵심 설계를 제안한다. 첫째, 토큰‑레벨 자동회귀(TokenAR)와 블록‑레벨 자동회귀(BlockAR) 트랜스포머를 병렬·직렬로 결합한 Mixture‑of‑Transformer(MoT) 아키텍처이다. TokenAR은 기존 LLM이 사용하는 순차적 토큰 예측 방식을 그대로 유지해 텍스트와 이미지 캡션 등 짧은 시퀀스에 강점을 살리고, BlockAR은 3D VAE가 출력하는 고차원 잠재 블록을 한 번에 병렬 처리함으로써 4천~8천개의 공간 토큰을 효율적으로 모델링한다. 이때 두 트랜스포머는 동일한 토큰 임베딩 공간을 공유하고, 하이브리드 마스킹 전략을 통해 causal mask와 parallel mask를 상황에 맞게 전환한다. 둘째, 사전학습된 대형 비전‑언어 백본(Qwen3‑VL)과 고해상도 3D VAE(Hunyuan3D‑2.1) 사이에 연결 레이어(Connector)와 MLP‑Merger를 삽입해 서로 다른 모달리티의 토큰을 동일 차원으로 정렬한다. 3D VAE는 포인트 클라우드 → 라티스 → 64차원 잠재 벡터로 압축하고, 이 잠재는 고정된 상태로 파인튜닝 과정에서 변형되지 않음으로써 기하학적 priors를 보존한다. 또한, 2D‑RoPE와 Interleaved MRoPE를 활용해 위치 정보를 일관되게 인코딩하고, Grouped Query Attention, SwiGLU, RM‑SNorm 등 최신 트랜스포머 기법을 그대로 이어받아 학습 안정성을 높였다. 실험에서는 3D 이해(예: 객체 식별, 포인트 클라우드 분류)와 3D 생성(고해상도 메쉬 복원) 모두에서 기존 3D‑LLM 및 디퓨전 기반 파이프라인을 크게 앞섰으며, 특히 BlockAR을 이용한 4096 토큰 수준의 블록 처리에서 토큰‑레벨 대비 3배 이상의 추론 속도 향상을 기록했다. 이러한 설계는 LLM이 텍스트·이미지·3D를 동시에 이해하고, 고해상도 3D를 직접 생성할 수 있는 첫 번째 사례로 평가된다.
댓글 및 학술 토론
Loading comments...
의견 남기기