교통 이상 상황 이해를 위한 시각 언어 모델 TAU R1
초록
TAU R1은 교통 이상 상황을 실시간으로 탐지하고, 사건의 원인·경과·관계자를 포괄적으로 설명하는 두 단계 구조의 비전‑언어 모델이다. 실제 라운드어바웃 영상 342개와 2 064개의 질의응답을 포함한 Roundabout‑TAU 데이터셋을 새롭게 구축했으며, 경량 분류기와 대형 요약기로 구성된 계층형 파이프라인과 분해‑QA 기반 미세조정 및 TAU‑GRPO 강화학습을 결합해 높은 정확도와 효율성을 동시에 달성한다.
상세 분석
본 논문은 교통 안전을 위한 “교통 이상 상황 이해(TAU)”라는 새로운 문제 정의에서 출발한다. 기존 비전 기반 이상 탐지 연구는 주로 이상 점수나 이진 라벨을 출력해 사건의 원인이나 맥락을 제공하지 못한다는 한계를 지적하고, 이를 보완하기 위해 영상‑언어 모델(VLM)의 멀티모달 추론 능력을 활용한다. 핵심 기여는 세 가지로 요약된다. 첫째, 라운드어바웃 교차로라는 복잡하고 차량 상호작용이 빈번한 실제 도로 환경에서 수집한 342개의 클립과 2 064개의 질의‑응답(QA) 쌍을 포함하는 Roundabout‑TAU 데이터셋을 공개한다. 이 데이터는 ‘환경 인식’, ‘객체 위치’, ‘이상 유형’, ‘시간적 위치’, ‘이유·방법’ 등 네 가지 관점을 포괄하는 다중‑Aspect QA 형태로 설계돼, 기존 데이터가 제공하지 못한 세밀한 사고 원인 분석을 가능하게 한다. 둘째, 두 단계 계층형 프레임워크 TAU‑R1을 제안한다. 첫 번째 레이어는 8 B 이하의 경량 VLM을 이용해 실시간으로 영상 스트림을 스크리닝하고, 네 가지 사전 정의된 이상 클래스(정상, 진행·조향 위반, 근접·충돌, 비정상 도로 이용) 중 하나를 예측한다. 두 번째 레이어는 대형 VLM(예: 30 B 이상)으로, 이상으로 판단된 클립에 대해 사건 요약을 생성한다. 이 설계는 엣지 디바이스의 연산 제한을 고려하면서도, 필요 시 고도화된 추론을 제공한다는 실용적 장점을 가진다. 셋째, 학습 전략으로 ‘분해‑QA 강화 지도학습(SFT)’과 ‘TAU‑GRPO’라는 도메인‑특화 강화학습(Post‑Training) 단계를 도입한다. 분해‑QA 단계에서는 전체 QA를 환경, 객체, 시간, 이유, 설명 등 다섯 개 서브태스크로 나누어 모델이 중간 지식을 단계별로 학습하도록 유도한다. 이후 TAU‑GRPO는 기존 GRPO(Generative Reward‑Based Policy Optimization)를 변형해, 이상 분류 정확도와 요약 품질을 동시에 최적화하는 맞춤형 보상 함수를 적용한다. 실험 결과, 경량 분류기는 94 % 이상의 정확도로 정상·비정상을 구분하고, 대형 요약기는 BLEU‑4, ROUGE‑L 등 자동 평가 지표에서 기존 VLM 대비 12 %~18 % 향상을 보였다. 또한 전체 파이프라인은 30 FPS 이하의 실시간 추론 속도를 유지해 실제 교통 관리 시스템에 바로 적용 가능함을 입증한다. 전체적으로 데이터, 모델 구조, 학습 기법이 유기적으로 결합돼, 교통 이상 상황을 단순 탐지에서 의미 있는 설명까지 확장하는 데 성공한 점이 가장 큰 혁신이라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기