트라잼바: 자율주행 차량 시점 보행자 궤적 예측을 위한 이고모션 가이드 Mamba 모델

본 논문은 자율주행 차량이나 모바일 로봇에 장착된 이고카메라(ego‑camera) 시점에서 보행자의 미래 궤적을 예측하는 문제를 다룬다. 기존 연구는 주로 새의 눈(bird’s‑eye) 시점에서 보행자 위치를 예측했으며, 이고카메라가 움직이는 상황에서는 보행자와 차량의 상대적 움직임을 정확히 모델링하기 어려웠다. 저자들은 이러한 문제점을 해결하기 위해 ‘TrajMamba’라는 새로운 프레임워크를 제안한다. TrajMamba는 네 개의 주요 모듈로 구성된다. 첫 번째 모듈인 Pedestrian Motion Encoder(PME)는 과거 보행자 바운딩 박스 시퀀스를 입력받아, 각 프레임의 중심 좌표, 크기, 속도(Δx, Δy) 및 스케일 변화(Δw, Δh)를 계산한 뒤, MLP를 통해 임베딩 벡터 E_pm으로 변환한다. 이 임베딩은 최신 상태공간 모델인 Mamba 인코더에 입력되어 보행자 모션 피처 F_pm을 추출한다. 두 번째 모듈인 Ego‑Motion Encoder(EME)는 차량의 과거 속도·가속도 등 이고모션 데이터를 동일하게 MLP로 임베딩한 뒤, 또 다른 Mamba 인코더에 통과시켜 이고모션 피처 F_em을 얻는다. 여기서 Mamba는 SSM(state‑space model) 기반으로, 시간에 따라 변하는 파라미터와 선형 연산을 결합해 긴 시퀀스를 효율적으로 처리한다. 핵심 혁신은 세 번째 모듈인 Ego‑Motion‑Guided Decoder(EMGD)이다. 기존 방법들은 보행자와 이고모션 피처를 인코딩 단계에서 하나의 벡터로 결합하고, 이를 디코더에 전달하는 방식으로 상대적 관계를 암묵적으로 학습했다. 반면 TrajMamba는 보행자 모션 피처를 ‘역사적 컨텍스트’로, 차량 이고모션 피처를 ‘미래 가이드’로 명시적으로 구분한다. 구체적으로, 디코더 입력 F_in은 보행자 모션 피처 시퀀스 F_m와 마지막 관측 시점(T)의 이고모션 피처를 T_pred(예측 길이)만큼 복제한 것을 concatenate한 형태이다. Mamba 디코더는 이 입력을 순차적으로 처리해 미래 시점별 디코딩 피처 F_de를 생성한다. 이렇게 하면 디코더가 이고모션이 보행자 궤적에 미치는 동적 변조 효과를 직접 학습하게 된다. 마지막 모듈인 Future Trajectory Generator(FTG)는 디코딩 피처를 MLP에 통과시켜 각 미래 타임스텝에 대한 잔차 Δ̂_T+τ를 예측한다. 여기서 저자는 Constant Velocity and Constant Scaling(CV‑CS) 가정을 도입한다. 과거 5프레임의 평균 속도와 평균 스케일 변화를 이용해 ‘참조 궤적(reference trajectory)’ ˆB_T+τ를 계산하고, 네트워크는 이 참조 궤적에 대한 잔차만을 학습한다. 최종 예측 궤적 ˜B_T+τ는 ˆB_T+τ에 잔차를 더해 얻는다. 이 방식은 물리적 사전지식을 네트워크에 주입해 학습을 안정화하고, 급격한 움직임 변화에 대한 보정 능력을 강화한다. 실험은 두 개의 공개 데이터셋, JAAD와 PIE에서 수행되었다. 두 데이터셋 모두 이고카메라 시점에서 보행자 바운딩 박스와 차량 움직임 정보를 제공한다. 평가 지표는 평균 변위 오차(ADE), 최종 변위 오차(FDE), 평균 회전 오차(ARB), 최종 회전 오차(FRB) 네 가지를 사용했다. TrajMamba는 모든 지표에서 기존 LSTM·GRU·Transformer 기반 베이스라인을 앞섰으며, 특히 장거리(6초 이상) 예측에서 Mamba의 장기 의존성 처리 능력이 두드러졌다. Ablation study에서는 (1) 이고모션 가이드 디코더를 제거했을 때 성능이 크게 감소함을 확인했으며, (2) Mamba 대신 Transformer를 사용했을 때 연산량이 증가하고 약간의 성능 저하가 나타났음을 보고했다. 논문의 한계점으로는 이고모션 입력이 차량 속도·가속도와 같은 저차원 신호에 국한되어 있어, 이미지 기반 시각적 이고모션(예: 카메라 흔들림)이나 IMU 데이터와 같은 멀티모달 정보를 활용하지 않은 점을 들 수 있다. 또한 현재는 2D 바운딩 박스만 예측하므로, 3D 위치나 보행자 자세(포즈) 정보를 포함한 확장은 아직 미구현 상태이다. 향후 연구에서는 멀티모달 이고모션 통합, 3D 궤적 예측, 그리고 실시간 시스템 적용을 위한 경량화 방안을 탐구할 여지가 있다. 요약하면, TrajMamba는 Mamba 기반 인코더·디코더 구조와 이고모션 가이드를 결합해 보행자와 차량의 상대적 움직임을 명시적으로 모델링함으로써, 이고카메라 시점에서의 보행자 궤적 예측 정확도를 크게 향상시킨 혁신적인 접근법이다.

트라잼바: 자율주행 차량 시점 보행자 궤적 예측을 위한 이고모션 가이드 Mamba 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기