다리만으로 인간 궤적 예측하기
초록
본 논문은 로봇의 360° 전방위 카메라에서 추출한 인간의 하체 3D 관절 정보를 활용해 인간 이동 궤적을 예측하는 방법을 제안한다. JRDB와 새로 구축한 파노라마 데이터셋을 이용한 실험에서 하체 3D 키포인트만 사용해도 평균 변위 오차를 13% 감소시켰으며, 여기에 관절 각도·보폭 등 생체역학적 파생 특징을 추가하면 1~4% 정도 추가 향상이 나타난다. 2D 키포인트를 사용해도 왜곡을 보정하지 않은 파노라마 영상에서 유의미한 성능 개선이 확인돼, 로봇이 다리 움직임만으로도 충분히 인간의 향후 움직임을 예측할 수 있음을 보여준다.
상세 분석
이 연구는 인간 궤적 예측을 위해 기존의 점 기반 모델이 갖는 한계를 인식하고, 인간의 자세 정보를 특히 하체 관절에 초점을 맞춰 활용한다는 점에서 의미가 크다. 먼저 저자는 Human Scene Transformer(HST)를 기본 모델로 채택하고, 입력 피처를 K³ᴰ(전체 33키포인트), K³ᴰᴸ(하체 10키포인트), K³ᴰᵁ(상체 10키포인트) 등으로 구분한다. 각 피처에 대해 관절 각도, 보폭, 머리 방향 등 생체역학적 파생 변수(C³ᴰᴸ, C³ᴰᵁ)를 추가해 모델에 제공함으로써, 순수 키포인트만 사용할 때보다 1~4% 정도의 정확도 향상을 입증한다.
실험은 두 개의 데이터셋에서 수행된다. JRDB는 360° 스테레오 카메라와 LiDAR를 탑재한 로봇이 수집한 데이터로, 2D·3D 포즈 라벨이 모두 제공된다. 여기서 하체 3D 키포인트(K³ᴰᴸ)는 평균 변위 오차(MinADE)를 0.34로 낮추어, 베이스라인(0.39) 대비 13% 개선을 보였다. 상체(K³ᴰᵁ)나 전체(K³ᴰ)보다 하체가 더 큰 기여를 하는 이유는 보행 시 다리 움직임이 향후 위치를 가장 직접적으로 결정하기 때문이다.
두 번째 실험에서는 새롭게 구축한 파노라마 데이터셋을 사용한다. 이 데이터는 Insta360 X4 카메라로 촬영된 equirectangular 영상에서 HRNet+MMPose를 통해 2D 키포인트를 추출하고, 로봇 좌표계로 변환한다. 파노라마 영상은 왜곡이 심하지만, 하체 2D 키포인트(K²ᴰᴸ)만 사용해도 MinADE가 1.03에서 1.02로 미세하게 개선되는 등, 왜곡 보정 없이도 충분한 예측 정보를 제공한다는 점을 확인한다.
또한 3D와 2D 피처를 직접 비교한 결과, 3D 키포인트가 전반적으로 더 높은 정확도를 보였으며, 이는 깊이 정보가 보행 방향과 속도를 더 정밀하게 포착하기 때문이다. 그러나 2D 피처도 충분히 유용함을 보여, 비용이 제한된 로봇 시스템에서도 360° 카메라와 2D 포즈 추출만으로 실용적인 궤적 예측이 가능함을 시사한다.
이 논문의 주요 공헌은 (1) 하체 관절이 인간 궤적 예측에 가장 큰 예측 가치를 가진다는 실증적 증거, (2) 생체역학적 파생 변수의 추가가 소폭이지만 일관된 성능 향상을 가져온다는 점, (3) 360° 전방위 카메라와 2D 포즈 추출만으로도 실시간 로봇 내비게이션에 충분히 적용 가능한 예측 파이프라인을 제시했다는 점이다. 이러한 결과는 로봇 설계 시 카메라 배치와 센서 선택에 대한 구체적인 가이드라인을 제공하며, 특히 저비용 로봇이 복잡한 인간-로봇 상호작용 상황에서도 안전하고 사회적으로 수용 가능한 행동을 구현하는 데 기여한다.
댓글 및 학술 토론
Loading comments...
의견 남기기