DiffAttn 확산 기반 운전자 시각 주의 예측과 LLM 강화 의미 추론
본 논문은 운전자의 시각 주의 맵을 예측하기 위해 Swin Transformer 기반 인코더와 다중 스케일 조건부 확산 디노이징 과정을 결합한 DiffAttn 프레임워크를 제안한다. 또한 LLM 레이어를 활용해 상위 의미 추론을 강화함으로써 안전에 중요한 시각 단서를 더 잘 포착한다. 네 개의 공개 데이터셋에서 최첨단 성능을 달성하였다.
저자: Weimin Liu, Qingkun Li, Jiyuan Qiu
본 연구는 운전자의 시각 주의가 교통 안전에 미치는 중요성을 강조하며, 이를 정확히 예측하는 기술이 지능형 차량 시스템에서 필수적임을 제시한다. 기존 연구들은 주로 CNN 기반 U‑Net 구조나 ConvLSTM, 혹은 Vision‑Transformer를 활용해 이미지‑비디오 입력을 직접 매핑하는 방식으로 시선 맵을 회귀하였다. 그러나 이러한 방법은 인간 시선이 가지는 가우시안‑형 분포와 불확실성을 충분히 반영하지 못한다는 한계가 있다.
DiffAttn은 이러한 한계를 극복하기 위해 두 가지 핵심 아이디어를 도입한다. 첫째, 시선 맵 예측을 조건부 확산‑디노이징 과정으로 모델링한다. DDPM의 전방 노이즈 과정 q(xτ|x0)와 역방향 노이즈 예측 pθ(xτ‑1|xτ,c)를 차용해, 입력 이미지 I를 조건 c로 사용하고, 목표인 인간 시선의 가우시안 스무딩된 지도 Sg를 데이터 분포로 설정한다. 이 과정은 시선 맵을 점진적으로 정제하면서, 각 단계에서 불확실성을 명시적으로 다룰 수 있게 한다.
둘째, 상위 의미 추론을 강화하기 위해 대규모 언어 모델(LLM) 레이어를 도입한다. Swin‑Transformer‑Base 백본은 로컬 디테일과 글로벌 컨텍스트를 효율적으로 추출하지만, 운전 상황에서의 “위험‑중요” 객체를 인식하고 우선순위를 매기는 고수준 의미는 별도의 모듈이 필요하다. 따라서 가장 깊은 피처 X30을 평탄화·선형 변환 후 LLM에 입력하고, 다시 원래 차원으로 복원한다. 이 과정은 텍스트‑이미지 사전학습 지식을 활용해, 예를 들어 “보행자”, “교차로”, “신호등” 등과 같은 도메인 개념을 피처에 주입한다.
전체 아키텍처는 인코더‑디코더 형태이며, 인코더는 Swin‑Transformer의 4단계 출력(X0~X3)을 제공한다. 디코더는 Feature Fusion Pyramid(FFP)와 다중 스케일 밀집 연결 조건부 확산 모듈로 구성된다. FFP는 각 스케일에 채널 어텐션(CA)과 교차‑레이어 어텐션(CLA)을 적용해 피처를 정교히 융합하고, LLM‑강화는 가장 깊은 스케일에서만 수행해 연산 비용을 최소화한다. 이후, 각 스케일별 노이즈 예측기 εθ가 현재 노이즈 레벨 τ와 FFP 출력 c를 받아 역확산을 수행한다. 모든 스케일에서 예측된 saliency 맵은 ground‑truth saliency S와 L2 손실로 감독되며, 최종 출력은 s=0(원본 해상도)에서 얻어진 ˆS0이다.
실험에서는 DADA‑2000, BDD‑A, DR(eye) 등 네 개의 공개 데이터셋을 사용해 광범위한 비교를 수행하였다. 평가 지표는 KL‑Divergence, Normalized Scanpath Saliency(NSS), Correlation Coefficient(CC) 등을 포함한다. DiffAttn은 기존 비디오‑기반 모델, 상위‑특징(예: 세그멘테이션, 광류) 기반 모델, 그리고 최근 LLM‑보강 모델들을 모두 앞서며, 특히 복잡한 교차로·야간·악천 상황에서 눈에 띄는 성능 향상을 보였다.
Ablation 연구에서는 (1) Swin‑Transformer 대신 ResNet‑50을 사용했을 때 성능이 3~5% 감소, (2) FFP 없이 직접 디코딩했을 때 세부 디테일이 손실되어 CC가 감소, (3) LLM 레이어를 제거했을 때 상위 의미 민감도가 낮아 위험 객체에 대한 시선 예측이 크게 악화되는 것을 확인하였다. 또한, 확산 스케줄링 단계 수(T)를 1000에서 400으로 줄여도 큰 성능 저하 없이 추론 속도를 30% 가량 향상시킬 수 있음을 보고하였다.
결론적으로, DiffAttn은 (i) 확산 기반 확률적 시선 모델링, (ii) Swin‑Transformer를 통한 로컬·글로벌 피처 통합, (iii) LLM을 활용한 의미 강화라는 세 축을 결합해, 운전자 시각 주의 예측의 정확도와 해석 가능성을 동시에 끌어올렸다. 향후 연구에서는 경량화된 확산 알고리즘, 멀티모달(음성·텍스트) 입력 결합, 그리고 실시간 차량 시스템에의 적용을 위한 하드웨어 최적화 등을 탐색할 계획이다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기