GRASS: 구조를 배우는 재귀형 생성 오토인코더
초록
GRASS는 3차원 물체의 부품 배치를 계층적·대칭적 구조로 추상화하고, 재귀 신경망 기반 오토인코더와 GAN을 결합해 고정 길이 코드에 압축한다. 이 코드는 물체의 형태와 관계를 동시에 표현하며, 학습된 잠재 공간에서 샘플링·보간·블렌딩이 가능해 새로운 구조와 상세 기하를 자동으로 생성한다.
상세 분석
본 논문은 인간이 만든 물체가 갖는 복합적인 파트 관계—인접성, 반사·회전·평행 이동 대칭—를 계층적 구조로 모델링한다는 핵심 가정을 바탕으로 설계되었다. 이를 위해 저자들은 Socher 등이 제안한 재귀 신경망(RvNN)을 확장해 두 종류의 내부 노드를 정의한다. 하나는 ‘연결(assembly)’ 노드로, 두 인접 부품을 결합해 상위 코드로 압축한다. 다른 하나는 ‘대칭(symmetry)’ 노드로, 동일한 변환(반사, 회전, 평행 이동)으로 복제된 여러 부품을 하나의 대칭 그룹으로 요약한다. 각 부품은 방향성 경계 상자(OBB)로 표현되며, OBB 자체도 고정 차원의 임베딩(예: 32‑D)으로 인코딩된다.
오토인코더는 하향식(leaf→root) 인코딩 단계와 상향식(root→leaf) 디코딩 단계로 구성된다. 인코딩 과정에서 임의 개수와 배치를 가진 OBB 집합이 재귀적으로 병합되어 최종 루트 코드에 수렴한다. 디코딩은 이 루트 코드를 역으로 펼쳐, 각 내부 노드가 어떤 병합 방식을 사용했는지(연결 vs. 대칭)와 자식 OBB들의 파라미터를 재생성한다. 재구성 손실은 OBB 위치·크기·방향과 계층 구조의 정확도를 동시에 penalize함으로써, 네트워크가 구조적 일관성을 유지하도록 유도한다.
오토인코더 학습이 완료된 뒤, 저자들은 루트 코드 공간에 대한 확률 모델을 학습한다. 여기서는 GAN을 적용해 실제 물체 구조가 차지하는 저차원 매니폴드(예: 64‑D)를 추정한다. 생성자(Generator)는 무작위 노이즈를 입력받아 매니폴드 위의 코드 샘플을 출력하고, 판별자(Discriminator)는 해당 코드가 실제 오토인코더가 만든 루트 코드와 구분되는지를 학습한다. 이 과정에서 VAE‑GAN 스타일의 재구성 손실을 추가해, 생성된 코드가 디코더에 의해 의미 있는 구조로 복원될 수 있도록 보장한다.
마지막 단계에서는 디코더가 만든 OBB 레이아웃을 실제 파트 기하로 변환한다. 별도의 3D CNN(또는 3D GAN)이 OBB의 임베딩을 입력으로 받아, 해당 부품의 voxel 형태를 출력한다. 이 네트워크는 전역(전체 물체) 및 국부(인접 파트) 컨텍스트를 조건으로 사용해, 동일한 OBB라도 다른 구조적 위치에 따라 다른 세부 형태를 생성하도록 학습한다.
핵심 기여는 세 가지다. 첫째, 구조적 3D 모델링을 위한 최초의 완전 생성형 재귀 오토인코더 프레임워크를 제시했다. 둘째, 연결과 다양한 대칭을 동시에 다룰 수 있는 새로운 RvNN 아키텍처를 설계했다. 셋째, 고정 길이 코드가 구조·기하를 동시에 압축함으로써, 코드 기반의 분류·부분 매칭·보간·블렌딩 등 다양한 응용을 가능하게 했다. 실험에서는 무지도 학습으로도 인간이 직관적으로 인식하는 ‘그룹화’ 원칙(예: 대칭 그룹, 연결된 부품)을 재현했으며, 코드 기반의 k‑NN 분류에서 기존 voxel‑CNN 대비 우수한 정확도를 보였다. 또한, 코드 공간에서 선형 보간을 수행하면 토폴로지가 달라지는 형태 변환(예: 의자‑스툴 변환)이 자연스럽게 발생한다.
이러한 설계는 기존 voxel‑기반 혹은 포인트‑클라우드 기반 생성 모델이 겪는 해상도·구조 제한을 극복하고, 파트 수준의 의미론적 변이를 효율적으로 학습한다는 점에서 의미가 크다. 다만, OBB 기반 추상화가 복잡한 곡면·비대칭 부품을 충분히 표현하지 못할 수 있고, 대칭 그룹의 순서가 고정되지 않아 학습이 불안정해질 가능성이 있다. 향후 연구에서는 보다 정교한 파트 표현(예: 파라메트릭 서피스)과 그래프 신경망을 결합해, 비대칭·비계층적 구조까지 포괄하는 확장성을 탐색할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기