3D 보행자‑차량 상호작용 기반 차량 조건부 자세 예측
초록
본 논문은 Waymo‑3DSkelMo 데이터셋에 3D 차량 바운딩 박스를 정렬하여 보행자‑차량 상호작용을 현실감 있게 모델링한다. TBIFormer 구조에 차량 인코더와 보행자‑차량 교차‑어텐션 모듈을 추가해 과거 보행자 움직임과 주변 차량 정보를 동시에 활용함으로써 3D 보행자 자세를 조건부로 예측한다. 다양한 차량·보행자 수에 대한 샘플링 스킴을 도입하고, 실험을 통해 차량 정보를 포함했을 때 예측 정확도가 크게 향상됨을 입증한다.
상세 분석
이 연구는 자율주행 시스템에서 보행자 행동 예측의 한계를 3D 공간에서 차량 정보를 활용함으로써 극복하고자 한다. 기존 2D 기반 상호작용 모델은 위치와 2D 포즈만을 이용해 보행자‑보행자 혹은 보행자‑차량 간의 관계를 추정했으며, 깊이와 자세의 미세 변화를 포착하지 못했다. Waymo‑3DSkelMo는 LiDAR‑HMR과 NeMF를 이용해 2.4 백만 개 이상의 고품질 3D 스켈레톤을 제공하지만, 차량 데이터와의 정합이 부족했다. 논문은 Waymo 원본 데이터에서 3D 차량 바운딩 박스를 추출·정렬해 보행자 스켈레톤과 동일 좌표계에 매핑함으로써 다중 에이전트 상호작용을 가능하게 했다.
데이터 전처리 단계에서는 KD‑Tree 기반 근접 보행자 군집 탐색과 거리 임계값(R < 18 m)을 적용해 보행자 간 상호작용이 의미 있는 구간을 추출한다. 이어 차량‑보행자 거리 임계값(th)를 조정해 0–15 m 범위 내 1~4대의 차량을 포함하는 샘플을 선택하고, 보행자 수에 따라 12개의 차량‑보행자 조합(1인·2인·3인 × 4대 차량)을 정의한다. 이러한 샘플링 스킴은 학습 데이터의 균형을 맞추고, 복잡도별 모델 성능을 정량화할 수 있게 한다.
모델 설계는 기존 TBIFormer의 Temporal Body Partition Module(TBPM)과 Transformer 기반 시계열 인코더를 보행자 흐름에 그대로 유지한다. 차량 인코더는 8개의 코너 포인트를 12개의 논리적 그룹(12개의 엣지)으로 분할하고, 프레임 간 변위 시퀀스를 DCT로 변환해 고주파 잡음을 억제한다. 이렇게 압축된 차량 특징은 Pedestrian‑Vehicle Interaction Cross‑Attention(PVI‑CA) 모듈에 입력된다. PVI‑CA는 보행자 파트와 차량 그룹 간의 쿼리‑키‑밸류 어텐션을 수행하면서, 새롭게 설계한 Trajectory‑Aware Relative Position Encoding(TRPE)를 적용해 시간·공간적 상대 위치 정보를 명시적으로 제공한다. 결과적으로 차량의 움직임과 위치가 보행자 신체 부위별 변형에 미치는 영향을 정교하게 모델링한다.
디코더는 기존 Transformer Decoder와 동일하게 동작하지만, 입력으로는 보행자와 차량의 융합 표현을 받는다. 예측된 변위 시퀀스는 역 DCT와 누적 합산을 통해 3D 포즈 시퀀스로 복원된다. 실험에서는 MPJPE, PA‑MPJPE, 그리고 3D IoU 등 다중 지표를 사용해 기존 2D 기반 및 3D 보행자‑보행자 전용 모델 대비 평균 12%~18%의 오차 감소를 기록했다. 특히 차량 수가 증가할수록 성능 향상이 두드러졌으며, 이는 차량 정보가 보행자 행동을 억제·유도하는 역할을 정확히 포착했음을 의미한다.
한계점으로는 차량 종류·속도·가속도와 같은 동적 특성을 별도 피처로 활용하지 않은 점과, 차량‑보행자 상호작용을 위한 라벨링이 없어서 교차‑어텐션 해석이 정량적으로 검증되지 않은 점을 들 수 있다. 향후 연구에서는 차량 행동 의도(예: 정지·가속·회전)와 보행자 의도(횡단·정지)를 공동으로 예측하는 멀티태스크 프레임워크를 구축하고, 시뮬레이션 기반 데이터와 실제 도로 데이터를 혼합해 도메인 일반화 능력을 강화할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기