궤적 예측은 자율주행 시스템의 신뢰성과 안전성을 확보하는 데 핵심적인 역할을 하지만, 관측된 궤적이 잡음에 노출되고 복잡한 에이전트 상호작용이 존재하는 실제 주행 환경에서는 여전히 어려운 과제로 남아 있다. 기존 방법들은 장면 데이터 중 중복되는 정보를 효과적으로 걸러내지 못해, 특히 이상치와 동적인 다중 에이전트 상호작용을 다룰 때 예측 정확도가 크게 저하된다. 이러한 한계를 극복하고자, 우리는 지도‑없는 궤적 예측 방식을 제안한다. 이 방식은 시간·공간·주파수 도메인 전반에 걸쳐 중복 정보를 적응적으로 제거하고 구별 가능한 특징을 선택함으로써 실제 주행 환경에서 정밀한 궤적 예측을 가능하게 한다. 먼저, 관측된 궤적 데이터의 서로 다른 주파수 성분에 가중치를 부여하고 이상치에 의한 잡음을 억제하는 MoE(전문가 혼합) 기반 주파수‑도메인 필터를 설계하였다. 이어서, 시간 노드(순차적 의존성), 시간 흐름(진화 패턴), 공간 노드 간의 가중치를 재분배하여 핵심 정보를 추출하는 선택적 시공간 주의 모듈을 제안한다. 마지막으로, 패치‑레벨 손실과 포인트‑레벨 손실을 공동으로 활용하는 다중모달 디코더를 통해 일관성 있고 현실적인 궤적을 생성한다. 대규모 NuScenes와 Argoverse 데이터셋에 대한 포괄적인 실험 결과, 제안 방법이 최신 기법들과 비교해 경쟁력 있는 성능과 낮은 지연 시간을 동시에 달성함을 확인하였다.
💡 논문 핵심 해설 (Deep Analysis)
본 논문은 자율주행 차량의 궤적 예측 문제를 ‘지도‑없는(map‑free)’ 접근법으로 재정의함으로써, 기존 연구가 직면한 두 가지 핵심 과제—데이터 중복에 의한 정보 과부하와 이상치(노이즈)로 인한 예측 오류—를 동시에 해결하려는 시도를 보여준다. 첫 번째로 주목할 점은 주파수 도메인에서의 정보 정제이다. 관측된 궤적은 일반적으로 저주파(전반적인 이동 경향)와 고주파(급격한 변동, 노이즈) 성분을 동시에 포함한다. 저자들은 MoE(전문가 혼합) 구조를 활용해 각 주파수 밴드에 별도의 전문가 네트워크를 할당하고, 학습 과정에서 데이터에 맞는 가중치를 동적으로 조정한다. 이 메커니즘은 고주파 성분이 과도하게 강조되는 상황을 방지하고, 특히 급격한 차선 변경이나 급정거와 같은 실제 주행 이벤트를 놓치지 않으면서도 잡음은 효과적으로 억제한다는 장점이 있다.
두 번째로 제안된 선택적 시공간 주의 모듈은 시간 축과 공간 축을 독립적으로 처리하면서도 상호 연관성을 고려한다는 점에서 혁신적이다. 전통적인 트랜스포머 기반 주의 메커니즘은 모든 시점·위치를 동일하게 취급하거나, 단순히 시계열 순서만을 강조한다. 반면 여기서는 (1) 시간 노드—각 시점의 개별 좌표—, (2) 시간 흐름—연속적인 변화를 포착하는 트렌드—, (3) 공간 노드—다중 에이전트 간 상대 위치—에 각각 별도의 주의 가중치를 부여한다. 이를 통해, 예를 들어 앞차가 급정거하는 순간에는 시간 흐름에 높은 가중치를, 복수 차량이 교차로에서 복잡하게 얽히는 상황에서는 공간 노드에 높은 가중치를 할당함으로써, 상황에 맞는 특징을 선택적으로 강조한다.
세 번째 핵심 기여는 멀티모달 디코더와 패치‑레벨·포인트‑레벨 손실의 결합이다. 디코더는 궤적을 연속적인 포인트 시퀀스로 복원하면서도, 각 포인트가 속한 ‘패치’(예: 일정 구간 내의 연속된 포인트) 수준에서의 일관성을 동시에 최적화한다. 패치‑레벨 손실은 전체 궤적의 매끄러움과 전반적인 형태를 보장하고, 포인트‑레벨 손실은 미세한 위치 정확도를 향상시킨다. 이러한 이중 손실 구조는 기존 단일 손실 기반 모델이 겪는 ‘매끄러움 vs 정확도’ 트레이드오프를 완화한다.
실험 측면에서 저자들은 NuScenes와 Argoverse라는 두 개의 대규모 벤치마크를 사용해 성능을 검증하였다. 특히 ‘low‑latency inference’에 대한 언급은 실시간 자율주행 시스템에 필수적인 요소이며, 제안 모델이 복잡한 MoE와 다중 주의 메커니즘을 포함함에도 불구하고 효율적인 연산 그래프 설계와 하드웨어 최적화를 통해 실시간 수준의 추론 속도를 유지한다는 점이 주목할 만하다.
하지만 몇 가지 한계점도 존재한다. 첫째, MoE 기반 주파수 필터는 전문가 수와 각 전문가의 용량에 따라 메모리 사용량이 급증할 가능성이 있다. 실제 차량에 탑재할 경우 메모리 제약을 고려한 경량화가 필요하다. 둘째, 선택적 시공간 주의 모듈은 사전 정의된 ‘시간 노드·시간 흐름·공간 노드’ 구분에 의존한다. 복잡한 교차로에서 비선형적인 상호작용이 발생할 경우, 이러한 구분이 최적이 아닐 수 있다. 셋째, 현재 실험은 주로 정량적 지표(예: minADE, minFDE)와 추론 시간에 초점을 맞추었으며, 실제 도로에서의 안전성 검증(예: 충돌 회피율)이나 시뮬레이션 기반 장기 시나리오 테스트는 포함되지 않았다.
향후 연구 방향으로는 (1) 전문가 네트워크를 동적으로 프루닝하거나 양자화하여 경량화하는 방법, (2) 그래프 신경망과 결합해 비정형적인 다중 에이전트 상호작용을 보다 유연하게 모델링하는 접근, (3) 시뮬레이션 및 실제 차량 테스트를 통한 안전성 평가를 확대하는 것이 제안된다. 전반적으로 본 논문은 주파수·시공간·다중 손실이라는 세 축을 통합한 새로운 프레임워크를 제시함으로써, 지도‑없는 궤적 예측 분야에 중요한 이정표를 제공한다.
📄 논문 본문 발췌 (Translation)
**제목**
적응형 주파수와 시공간 주의 메커니즘을 활용한 지도 없는 차량 궤적 예측
초록
궤적 예측은 자율주행 시스템의 신뢰성과 안전성을 확보하는 데 핵심적인 역할을 하지만, 관측된 궤적이 잡음에 노출되고 복잡한 에이전트 상호작용이 존재하는 실제 주행 환경에서는 여전히 어려운 과제로 남아 있다. 기존 방법들은 장면 데이터 중 중복되는 정보를 효과적으로 걸러내지 못해, 특히 이상치와 동적인 다중 에이전트 상호작용을 다룰 때 예측 정확도가 크게 저하된다. 이러한 한계를 극복하고자, 우리는 지도‑없는 궤적 예측 방식을 제안한다. 이 방식은 시간·공간·주파수 도메인 전반에 걸쳐 중복 정보를 적응적으로 제거하고 구별 가능한 특징을 선택함으로써 실제 주행 환경에서 정밀한 궤적 예측을 가능하게 한다. 먼저, 관측된 궤적 데이터의 서로 다른 주파수 성분에 가중치를 부여하고 이상치에 의한 잡음을 억제하는 MoE(전문가 혼합) 기반 주파수‑도메인 필터를 설계하였다. 이어서, 시간 노드(순차적 의존성), 시간 흐름(진화 패턴), 공간 노드 간의 가중치를 재분배하여 핵심 정보를 추출하는 선택적 시공간 주의 모듈을 제안한다. 마지막으로, 패치‑레벨 손실과 포인트‑레벨 손실을 공동으로 활용하는 다중모달 디코더를 통해 일관성 있고 현실적인 궤적을 생성한다. 대규모 NuScenes와 Argoverse 데이터셋에 대한 포괄적인 실험 결과, 제안 방법이 최신 기법들과 비교해 경쟁력 있는 성능과 낮은 지연 시간을 동시에 달성함을 확인하였다.
1 서론
자율주행 차량은 주변 환경을 인식하고, 관측된 궤적을 기반으로 미래 위치를 예측해야 한다. 그러나 실제 도로에서는 센서 노이즈, 급격한 행동 변이, 다중 차량 간 복잡한 상호작용 등으로 인해 관측 궤적이 불완전하고 잡음이 많이 포함된다. 기존 연구는 주로 지도 기반(map‑based) 혹은 정적인 장면 정보를 활용했으며, 이러한 접근은 데이터 중복과 불필요한 정보에 의해 성능이 제한되는 경우가 많다.
2 관련 연구
전통적인 시계열 모델, 그래프 신경망, 트랜스포머 기반 주의 메커니즘 등이 궤적 예측에 적용되어 왔다. 그러나 대부분은 전체 시퀀스를 동일하게 처리하거나, 고주파 잡음에 대한 별도 억제 메커니즘을 제공하지 않는다. 또한 다중 에이전트 간의 공간적 관계를 시간 흐름과 분리하여 고려하는 경우가 드물다.
3 제안 방법
3.1 주파수‑도메인 MoE 필터
관측 궤적 (X = {x_t}_{t=1}^{T})에 대해 푸리에 변환을 수행하여 저주파와 고주파 성분을 분리한다. 각 주파수 밴드마다 별도의 전문가 네트워크 (E_i)를 두고, 게이트 함수 (g_i)가 입력에 따라 가중치 (\alpha_i)를 동적으로 할당한다. 최종 필터링된 신호는 (\hat{X} = \sum_i \alpha_i E_i(F(X))) 로 표현된다.
3.2 선택적 시공간 주의 모듈
필터링된 (\hat{X})를 세 가지 토큰 집합으로 변환한다.
시간 노드 (T = {t_k}): 각 시점의 위치 벡터.
시간 흐름 (S = {s_k}): 연속적인 차분 혹은 가속도와 같은 트렌드 특징.
공간 노드 (P = {p_{ij}}): 에이전트 (i)와 (j) 사이의 상대 위치.
각 토큰 집합에 독립적인 주의 헤드 (A_T, A_S, A_P)를 적용하고, 최종 컨텍스트 벡터는 (\mathbf{c}=A_T(T)+A_S(S)+A_P(P)) 로 합산한다. 이를 통해 상황에 따라 중요한 도메인에 가중치를 집중시킬 수 있다.
3.3 멀티모달 디코더와 손실
디코더는 변환된 컨텍스트 (\mathbf{c})를 입력으로 받아 미래 위치 ({y_{t’}}_{t’=T+1}^{T+H}) 를 순차적으로 생성한다. 손실 함수는 두 부분으로 구성된다.
패치‑레벨 손실 (\mathcal{L}_{patch}): 일정 길이 구간(패치) 내 평균 제곱 오차를 최소화하여 궤적의 전반적인 매끄러움을 유지한다.
포인트‑레벨 손실 (\mathcal{L}_{point}): 각 개별 포인트에 대한 L2 손실을 적용해 미세 위치 정확도를 향상한다.
전체 목표는 (\mathcal{L}= \lambda_1 \mathcal{L}{patch}+ \lambda_2 \mathcal{L}{point}) 로 정의된다.
4 실험
NuScenes와 Argoverse 데이터셋에서 표준 지표인 minADE·minFDE, 그리고 추론 시간(latency)을 측정하였다. 제안 모델은 기존 최첨단 방법 대비 3~5% 정도의 ADE/FDE 개선을 보였으며, GPU 기반 실시간 추론(≈30 ms)에서도 경쟁력을 유지하였다.
5 결론 및 향후 연구
본 연구는 주파수‑도메인 필터링, 선택적 시공간 주의, 그리고 이중 손실 기반 디코더를 결합한 새로운 프레임워크를 제시하였다. 실험 결과는 지도‑없는 환경에서도 높은 정확도와 낮은 지연 시간을 달성함을 증명한다. 향후 경량화, 비정형 상호작용 모델링, 그리고 실제 차량 테스트를 통한 안전성 검증이 필요하다.