DD MDN: 확산 기반 이중 혼합 밀도 네트워크와 자기 보정 불확실성을 이용한 인간 궤적 예측
초록
DD-MDN은 몇 번의 관측만으로도 높은 정확도와 잘 보정된 불확실성을 제공하는 인간 궤적 예측 모델이다. 몇 장면의 denoising diffusion 백본과 이중 Mixture Density Network(MDN)를 결합해 시간별 독립적인 Gaussian Mixture와 전체 궤적 공간의 Anchor‑Trajectory Gaussian Mixture를 동시에 학습한다. NLL 기반 학습과 단계적 모드 프루닝을 통해 알레아틱 불확실성을 자체 보정하며, K개의 확률 순위가 매겨진 궤적 가설을 직접 생성한다. ETH/UCY, SDD, inD, IMPTC 데이터셋에서 짧은 관측 구간에서도 최첨단 정확도와 신뢰성 있는 불확실성 추정 성능을 입증한다.
상세 분석
DD-MDN은 인간 궤적 예측(HTF) 분야에서 ‘정확도‑다양성‑불확실성’ 삼위일체를 동시에 만족시키려는 시도로, 기존 연구가 놓치기 쉬운 불확실성 보정과 짧은 관측 구간에 대한 강인성을 핵심 설계 목표로 삼았다. 모델은 크게 세 단계(인코딩‑확률 모델링‑가설 생성)로 구성되며, 특히 확률 모델링 단계에서 두 종류의 Gaussian Mixture(GM)를 병렬로 학습한다는 점이 독창적이다.
-
Per‑timestep GM (Θ_step)
각 미래 시점 tf마다 M개의 2차원 Gaussian을 예측하고, 가중치 αtf,m을 softmax로 정규화한다. 이 표현은 시점별 불확실성을 직접 제공해, 68 %·95 % 신뢰구간을 즉시 시각화할 수 있다. 하지만 시점 간 상관관계가 없으므로 개별 평균만으로는 물리적으로 일관된 궤적을 만들 수 없다. -
Per‑anchor‑trajectory GM (Θ_anchor)
동일한 μtf,m, Σtf,m 파라미터를 시간 차원으로 연결해 2·Tfut 차원의 공동 Gaussian을 구성한다. 여기서 각 모드 m은 전체 궤적을 나타내는 ‘anchor trajectory’를 형성하고, 해당 궤적에 대한 공분산도 시간 축을 따라 블록 대각선 형태로 유지한다(시간 간 교차 공분산을 생략해 계산량을 절감). 이 설계는 시점별 GM이 제공하는 불확실성을 유지하면서도, 시간적 일관성을 갖는 실제 궤적을 생성한다는 두 마리 토끼를 잡는다. -
Self‑calibrated Uncertainty
모델은 Negative Log‑Likelihood(NLL)를 손실로 사용한다. 단일 Gaussian 경우 NLL은 Mahalanobis 거리와 로그 행렬식으로 분해돼 평균과 공분산을 동시에 최적화한다. 다중 모드에서는 각 모드가 GT에 기여하는 정도에 따라 자동으로 가중치가 조정되며, 과도하게 넓은 공분산은 밀도 감소로 스스로 억제된다. 따라서 별도의 보정 단계 없이도 ‘알레아틱’ 불확실성이 학습된다. -
Dynamic Mode Pruning
모든 입력에 대해 M개의 모드가 항상 필요하지 않다. 논문은 epoch‑dependent threshold δ(e)와 온도 η(e)를 이용해 낮은 가중치 모드를 점진적으로 차단한다. sigmoid gating Gm(e)와 정규화된 ˙αm(e)로 활성 모드 수 M*를 자동 조절함으로써, 복잡한 상황에서는 다수 모드가, 단순 상황에서는 소수 모드만 사용해 과적합을 방지한다. -
Few‑shot Denoising Diffusion Backbone
기존 MDN은 파라미터를 직접 예측하지만, DD‑MDN은 파라미터 자체를 diffusion 과정에 노이즈를 주입해 복원하도록 학습한다. 즉, μ와 Σ, α를 ‘노이즈된’ 형태로 입력받아 역전파를 통해 원래 분포 파라미터를 복원한다. 이 접근은 파라미터 공간의 복잡한 매니폴드 위에 사전 확률을 부여해, 전역적인 시간 일관성을 강화한다. -
K‑hypotheses Generation
학습된 Θ_step과 Θ_anchor를 이용해 affine re‑parameterization 샘플링을 수행, 확률 순위가 매겨진 K개의 구체적인 궤적을 생성한다. 이때 각 가설은 해당 anchor trajectory와 연관된 per‑timestep GM의 불확실성을 그대로 반영하므로, downstream planner가 확률적 위험을 직접 평가할 수 있다.
실험에서는 ETH/UCY, SDD, inD, IMPTC 네 가지 벤치마크에서 (i) ADE/FDE 기준 최첨단 성능, (ii) Expected Calibration Error(ECE)와 Negative Log‑Likelihood(NLL) 기준 우수한 보정, (iii) 관측 길이가 0.5 s 이하일 때도 정확도가 크게 떨어지지 않는 ‘short‑observation robustness’를 입증했다. 특히, 기존 deterministic diffusion 기반 모델(LED, SingularTrajectory 등)은 불확실성 정보를 제공하지 못했으나, DD‑MDN은 동일한 backbone을 사용하면서도 확률적 출력까지 제공한다는 점이 큰 차별점이다.
요약하면, DD‑MDN은 diffusion‑backbone과 이중 GM 설계를 통해 시점별 불확실성과 전체 궤적 일관성을 동시에 모델링하고, NLL 기반 자체 보정과 동적 모드 프루닝으로 과적합 없이 다양한 상황에 적응한다. 이는 인간‑로봇 상호작용, 자율주행, 스마트 감시 등 실시간 의사결정이 요구되는 시스템에서 ‘정확히 예측하고, 언제든지 신뢰할 수 있는 불확실성을 제공’하는 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기