가우시안 레이 트레이싱을 위한 GRTX: 효율적인 가속 구조와 하드웨어 체크포인팅
초록
본 논문은 3D 가우시안 스플래팅의 레이 트레이싱 구현에서 발생하는 BVH 부피 팽창과 중복 트래버설 문제를 해결한다. 가우시안을 단위 구로 변환하는 레이 스페이스 변환을 적용해 단일 공유 BLAS를 구성하고, TLAS 레벨에서 인스턴스별 변환만 수행한다. 또한 다중 라운드 트레이싱 시 루트부터 재탐색하는 대신 체크포인트된 노드에서 재개하는 하드웨어 지원을 제안한다. 실험 결과, 소프트웨어‑하드웨어 결합 최적화인 GRTX는 기존 icosahedron 바운딩 메쉬 기반 구현 대비 평균 4.36배, 일반 GPU 환경에서는 1.44‑2.15배 속도 향상을 달성한다.
상세 분석
논문은 3D Gaussian Splatting(3DGS)이 라스터화 기반으로 높은 프레임레이트와 시각적 품질을 제공하지만, 왜곡된 카메라 모델이나 복잡한 광효과(반사·굴절·그림자 등)에서는 한계가 있음을 지적한다. 기존 연구들은 Gaussian을 삼각형 메쉬 프록시로 변환해 레이 트레이싱 하드웨어가 지원하는 ray‑triangle 교차 테스트를 활용했지만, 이는 각 Gaussian마다 별도의 바운딩 프록시를 생성하고, 전체 장면에 대해 단일 BVH를 구축하게 되어 BVH 노드 수가 급증하고 메모리 사용량이 크게 늘어나는 문제를 야기한다. 또한 다중 라운드 트레이싱 방식에서는 매 라운드마다 루트부터 트래버설을 재시작함으로써 동일한 내부 노드를 반복 방문하게 된다.
GRTX는 두 가지 핵심 아이디어로 이러한 비효율성을 해소한다. 첫 번째는 ‘레이 스페이스 변환’을 이용해 anisotropic Gaussian을 단위 구(sphere)로 정규화한다. 변환 행렬은 TLAS 인스턴스 레벨에서 적용되며, 하드웨어 레이 트레이싱 유닛이 leaf‑instance 단계에서 자동으로 수행한다. 결과적으로 모든 Gaussian은 동일한 BLAS(단위 구 메쉬)만을 참조하게 되며, TLAS는 각 Gaussian의 위치·스케일·회전 정보를 담은 인스턴스 노드만을 보유한다. 이는 BVH 깊이와 노드 수를 크게 감소시켜 캐시 효율성을 높이고, 트래버설 스택 오버헤드를 최소화한다.
두 번째는 ‘트래버설 체크포인팅’ 메커니즘이다. 다중 라운드 트레이싱에서 특정 노드가 현재 라운드의 t‑max 범위 밖으로 미루어졌을 경우, 해당 노드와 그 경로를 체크포인트에 저장한다. 다음 라운드에서는 루트가 아니라 체크포인트된 노드부터 탐색을 재개함으로써 이미 방문한 상위 노드들을 건너뛴다. 이 기능은 하드웨어 레지스터 혹은 전용 메모리 영역에 체크포인트 정보를 기록하고, traceRay 호출 시 옵션 플래그를 통해 활성화한다. 논문은 이 설계가 기존 구현 대비 평균 30% 이상의 트래버설 감소와 15% 이상의 전력 절감을 가져온다고 보고한다.
성능 평가에서는 Vulkan‑Sim 기반 사이클‑레벨 시뮬레이터와 실제 RTX 5090 GPU를 사용하였다. 소프트웨어‑하드웨어 결합 최적화(GRTX)와 소프트웨어 전용 최적화(GRTX‑SW)를 각각 비교했으며, GRTX는 BVH 크기를 70% 이상 축소하고, 전체 렌더링 시간은 4.36× 가속했다. GRTX‑SW는 일반 GPU에서도 1.44‑2.15× 속도 향상을 보였으며, 특히 Gaussian 수가 많고 복잡한 씬에서 효과가 두드러졌다.
이와 같이 GRTX는 Gaussian 기반 장면의 레이 트레이싱을 위한 가속 구조 설계와 하드웨어 지원을 동시에 제시함으로써, 기존 rasterization 기반 3DGS의 한계를 보완하고, 실시간 혹은 인터랙티브 수준의 고품질 렌더링을 가능하게 만든다.
댓글 및 학술 토론
Loading comments...
의견 남기기