운전 행동 인식을 위한 포즈·객체 기반 효율적 토큰 선택 트랜스포머

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 차량 내부 영상을 분석해 운전자의 산만 행동을 실시간으로 판별하는 PO‑GUISE+ 모델을 제안한다. 포즈와 객체 상호작용 정보를 활용한 토큰 선택 기법으로 비디오 트랜스포머의 연산량을 크게 줄이면서도 정확도를 유지·향상시킨다. 또한 Jetson 플랫폼에서의 실험을 통해 실제 차량 탑재 가능성을 입증한다.

상세 분석

PO‑GUISE+는 기존 비디오 트랜스포머의 quadratic 복잡성을 완화하기 위해 두 단계 토큰 선택 파이프라인을 도입한다. 첫 번째 단계에서는 시공간 비디오 토큰을 드롭하는 ‘프루닝’ 과정을 수행하는데, 이때 클래스 토큰, 포즈 히트맵 토큰, 객체 히트맵 토큰에 대한 어텐션 스코어를 종합하여 중요도가 낮은 토큰을 제거한다. 두 번째 단계에서는 남은 토큰들을 유사도 기반으로 클러스터링하고 평균화해 토큰 수를 추가로 감소시킨다. 핵심은 포즈와 객체 히트맵을 별도의 학습 가능한 토큰으로 삽입함으로써, 트랜스포머가 ‘운전 행동 = 자세 + 객체 상호작용’이라는 복합 신호에 직접 주목하도록 만든 점이다.

모델은 VideoMAEv2와 InternVideo2라는 두 강력한 ViT 기반 백본에 적용되며, 입력 영상은 16×16 패치 큐브로 토큰화된다. 히트맵 토큰은 Nhm개의 학습 가능한 임베딩으로 초기화되고, 트랜스포머를 통과한 뒤 경량 디코더(디컨볼루션 + 1×1 Conv)로 변환돼 시간에 따른 관절·객체 위치 변화를 나타내는 모션 히트맵을 생성한다. 이러한 히트맵은 멀티태스크 손실에 포함되어 포즈 추정과 객체 위치 예측을 동시에 학습한다. 따라서 별도의 외부 포즈·객체 검출기가 필요 없으며, 추론 시에도 전적으로 비디오 입력만으로 모든 정보를 얻는다.

효율성 측면에서 저자들은 토큰 유지 비율(token keep rate)을 0.2~~0.8 구간에서 조절하며, 동일한 유지 비율 하에서 PO‑GUISE+가 기존 Top‑K, Merge 등 기존 토큰 선택 기법보다 2~~5% 높은 정확도를 달성함을 실험을 통해 보였다. 특히 낮은 유지 비율(≈0.2)에서도 정확도 손실이 최소화되어, 제한된 연산 자원을 가진 차량용 임베디드 시스템에 적합함을 입증한다.

실제 차량 환경을 모사한 Jetson Xavier NX·Nano 등 여러 하드웨어에서 FLOPs, 메모리 사용량, 지연시간(latency)을 측정했으며, PO‑GUISE+는 동일 모델 크기 대비 평균 30% 이상의 연산량 감소와 20~40ms 수준의 실시간 추론 속도를 기록한다. 이는 기존 VideoMAE‑based DRVMonVM 대비 현저히 낮은 전력 소모와 빠른 응답성을 의미한다.

마지막으로 Drive&Act, 100‑Driver, 3MDAD 등 세 개의 대규모 운전 행동 데이터셋에서 최신 SOTA 모델들을 능가하는 Top‑1 정확도(Drive&Act 88.7%, 100‑Driver 84.3%, 3MDAD 81.5%)를 달성했으며, 이는 포즈·객체 정보를 토큰 선택에 통합한 것이 성능 향상의 핵심 요인임을 강조한다.

운전 행동 인식을 위한 포즈·객체 기반 효율적 토큰 선택 트랜스포머

초록

상세 분석

댓글 및 학술 토론

의견 남기기