실시간 2D 라이다 객체 탐지를 위한 3프레임 RGB 스캔 인코딩
초록
본 논문은 2D 라이다만을 이용해 실내 서비스 로봇이 객체를 실시간으로 인식하도록, 연속된 3개의 라이다 스캔을 RGB 채널로 스택한 경량 인코딩 방식을 제안한다. 64×384 크기의 텐서를 YOLOv8n에 바로 입력함으로써 점유 격자 생성 비용을 없애고, 라즈베리 파이 5에서 평균 47.8 ms의 엔드‑투‑엔드 지연으로 20 Hz 수준의 인식을 구현한다. 시뮬레이션 기반 160개 시나리오 테스트에서 mAP@0.5 98.4 %를 달성하였다.
상세 분석
이 연구는 실내 서비스 로봇이 요구하는 ‘프라이버시 보호’, ‘저전력·저비용 하드웨어 호환성’, ‘고정밀 객체 인식’이라는 세 축을 동시에 만족시키는 라이다‑전용 인식 파이프라인을 설계했다. 핵심 아이디어는 2D 라이다 스캔을 각도‑거리 좌표계에 그대로 매핑해 64 × 360(각도 1°당 1열) 이진 이미지를 만든 뒤, 24열을 zero‑padding해 64 × 384 형태로 변환하고, 연속된 3프레임을 RGB 채널에 차례대로 할당하는 것이다. 이렇게 하면 시간적 변화를 색상 차이로 표현하면서도 스캔 정렬이나 odometry 보정 없이 간단히 구현할 수 있다.
YOLOv8n은 파라미터 3 M 수준의 초소형 모델로, 입력 해상도가 작아도 충분히 높은 표현력을 유지한다. 본 논문은 라이다 스캔의 고유한 ‘각도 순서’를 보존하기 위해 이미지 비율을 강제로 맞추는 대신 ‘rect=True’ 옵션을 사용해 원본 비율을 유지했으며, 데이터 증강은 각도 축 좌우 플립(50 %)과 거리 축 상하 플립(20 %)만 적용해 시뮬레이션‑실제 전이 위험을 최소화했다.
데이터는 Webots 시뮬레이터에서 160개의 무작위 실내 시나리오를 생성하고, 각 시나리오당 90개의 로봇 위치에서 다중 스캔을 수집해 총 768 897개의 라벨링된 샘플을 자동으로 만든다. 라벨링은 시뮬레이션 메타데이터를 이용해 로봇 좌표계에 투영한 뒤, 라이다 이미지 좌표계에 맞게 정규화된 바운딩 박스로 변환한다. 학습은 H100 GPU에서 120 epoch, 배치 1 024로 진행했으며, AdamW와 코사인 스케줄러를 사용해 최적화하였다.
실험 결과, 시나리오 수준의 엄격한 홀드아웃 테스트에서 전체 평균 mAP@0.5가 0.984, mAP@0.5:0.95가 0.778에 달했다. 클래스별 정밀도·재현율도 0.91~0.99 사이로 고르게 나타났으며, 주요 오류는 책상과 문틀 사이의 기하학적 유사성에서 발생했다.
실시간 성능 측면에서는 라즈베리 파이 5(Cortex‑A76, 2.4 GHz)에서 전체 파이프라인(스캔 인코딩 + YOLOv8n + NMS) 평균 지연이 47.8 ms였으며, 이는 20 Hz 이상의 업데이트 속도를 보장한다. 동일 플랫폼에서 기존 점유 격자 기반 라이다‑YOLO 파이프라인과 비교했을 때, 전처리 비용 감소와 입력 크기 축소 덕분에 지연이 크게 단축된 것을 확인했다.
한계점으로는 전적으로 시뮬레이션 데이터에 의존했으며, 실제 환경에서 라이다 노이즈, 반사율 차이, 동적 장애물 등에 대한 견고성 검증이 부족하다. 또한, 3프레임 스택은 짧은 시간 창만을 포착하므로 빠른 움직임이나 장기적인 맥락을 활용하기엔 제한적이다. 향후 연구에서는 실제 로봇에 적용해 도메인 갭을 메우고, 프레임 수를 동적으로 조절하거나 시계열 CNN/Transformer와 결합해 장기적 시간 정보를 활용하는 방안을 모색할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기