범위 이미지 기반 암시 신경망 압축으로 라이다 포인트 클라우드 효율화
초록
본 논문은 라이다(LiDAR) 점군을 2차원 범위 이미지(RI) 형태로 변환한 뒤, 깊이 이미지와 마스크 이미지를 각각 패치‑와 픽셀‑단위 암시 신경망(INR)으로 압축한다. 모델 프루닝·양자화를 적용해 파라미터 크기를 최소화하고, KITTI 데이터셋 실험에서 기존 이미지·점군·RI·INR 기반 압축 방법들을 능가하는 저비트레이트·고품질 재구성을 입증한다.
상세 분석
이 연구는 라이다 측정값을 전통적인 3‑D 점군 대신 2‑D 범위 이미지(RI)로 표현함으로써 압축 효율성을 근본적으로 높인다. RI는 각 픽셀이 레이저 빔이 닿은 거리(ρ)를 담고 있어 부동소수점 정밀도가 요구되지만, JPEG·JPEG2000과 같은 기존 이미지 코덱은 정수 기반 양자화에 최적화돼 고주파 변동을 손실한다. 저자는 이를 극복하기 위해 암시 신경망(INR)이라는 ‘신경망 기반 좌표‑값 매핑’을 활용한다. 핵심 아이디어는 RI를 깊이 이미지와 마스크 이미지로 분리하는데, 마스크는 픽셀이 실제 점을 갖는지(1/0) 여부를 표시한다. 마스크 INR은 픽셀‑단위(좌표 → 0/1) 학습을 수행해 매우 작은 파라미터 집합만으로도 정확한 이진 패턴을 복원한다. 깊이 INR은 패치‑단위 입력(패치 인덱스 + 내부 좌표)으로 설계돼, 동일 모델이 여러 패치에 공유되면서 지역적 연관성을 효율적으로 학습한다. 여기서 SIREN 형태의 사인 활성화 함수를 채택해 고주파 세부 정보를 보존하고, 모델 프루닝·양자화(예: 8‑bit 정수)로 파라미터 용량을 크게 줄인다.
디코딩 단계에서는 압축된 파라미터만을 이용해 마스크와 깊이 이미지를 각각 재구성하고, 마스크를 깊이 이미지에 적용해 ‘무점’ 픽셀을 제거한다. 이후 역투영을 통해 3‑D 점군을 복원한다. 실험에서는 KITTI 데이터셋을 사용해 비트레이트‑왜곡(R‑D) 곡선과 3‑D 객체 검출(AP) 성능을 평가했으며, 특히 0.1 bpp 이하의 저비트레이트 구간에서 기존 PCC(Octree, G‑PCC)·전통 이미지 코덱·다른 INR 기반 방법보다 우수한 재구성 정확도와 검출 성능을 보였다. 또한 디코딩 지연 시간이 수십 밀리초 수준으로 실시간 응용에도 적합함을 확인했다.
한계점으로는 현재 프레임‑내( intra‑coding) 압축에만 초점을 맞추었으며, 시계열 연속성을 활용한 인터‑코딩( inter‑coding) 확장은 미구현 상태이다. 또한 패치 크기와 INR 깊이·폭 선택이 비트레이트와 품질 사이의 트레이드오프에 크게 영향을 미치므로, 자동화된 하이퍼파라미터 튜닝이 필요하다. 향후 연구에서는 다중 프레임 간 상관관계를 모델링한 동적 INR, 그리고 하드웨어 친화적 양자화 스킴을 도입해 실시간 라이다 스트리밍 압축에 적용할 가능성을 탐색할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기