운전자 시선 기반 객체 인식의 패러다임 비교 연구

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 전방 카메라 영상과 운전자의 시선 좌표를 이용해 운전자가 바라보는 객체의 의미론적 클래스를 식별하는 과제를 세 가지 비전 패러다임(YOLOv13 기반 객체 탐지, SAM2‑EfficientNetV2 기반 분할‑분류, Qwen2.5‑VL 기반 비전‑언어 모델)으로 비교한다. BDD100K를 기반으로 만든 4가지 환경(맑은 낮, 맑은 밤, 비오는 낮, 비오는 밤)에서 수집한 시선‑좌표‑라벨 삼중항을 사용해 매크로 F1‑스코어를 평가했으며, YOLOv13과 대형 VLM(Qwen2.5‑VL‑32b)이 0.84 이상을 기록해 우수한 성능을 보였다. 특히 대형 VLM은 야간·소형 교통신호등 인식에서 강인함을 보였고, 분할‑분류 파이프라인은 “부분‑전체” 의미 격차로 재현율이 크게 떨어졌다. 실시간 효율성과 풍부한 맥락 이해 사이의 트레이드오프를 제시하며, 향후 인간‑중심 운전자 모니터링 시스템 설계에 실용적 지침을 제공한다.

상세 분석

이 연구는 운전자의 시선 정보를 활용해 차량 전방 영상에서 운전자가 실제로 주목하고 있는 객체를 자동으로 식별하는 문제를 정의하고, 이를 세 가지 전혀 다른 비전 접근법으로 체계적으로 비교한다. 첫 번째 접근법은 단일 단계 객체 탐지기인 YOLOv13을 이용해, 시선 좌표가 탐지된 바운딩 박스 내부에 있으면 해당 박스의 클래스 라벨을 반환한다. 이 방법은 연산 효율성이 뛰어나 실시간 적용에 유리하지만, 작은 객체나 부분적인 시선(예: 차량 휠)에서는 바운딩 박스가 정확히 맞지 않아 오분류가 발생한다는 한계가 있다. 두 번째는 최신 세그멘테이션 파운데이션 모델인 SAM2를 사용해 시선 좌표를 프롬프트로 마스크를 생성하고, 이를 EfficientNetV2로 분류하는 2단계 파이프라인이다. SAM2는 제로샷으로 다양한 객체를 정확히 분할하지만, 클래스 라벨을 제공하지 않으므로 별도의 분류기가 필요하고, “부분‑전체” 의미 격차(예: 휠만 마스크가 생성돼 차량 전체를 인식하지 못함)로 재현율이 급격히 저하된다. 세 번째는 대형 비전‑언어 모델(Qwen2.5‑VL) 시리즈를 활용한 쿼리 기반 접근법이다. 이미지와 시선 좌표, 그리고 “(x, y) 위치에 있는 객체는 무엇인가?”라는 자연어 질문을 입력하면, 모델이 직접 시각적-언어적 grounding을 수행해 답변을 생성한다. 7B와 32B 두 규모를 비교했으며, 32B 모델은 더 풍부한 컨텍스트와 고해상도 시각 정보를 활용해 특히 야간·저조도 상황에서 작은 교통신호등을 정확히 인식하는 등 뛰어난 강인성을 보였다. 실험 결과는 매크로 F1‑스코어 기준으로 YOLOv13과 Qwen2.5‑VL‑32B가 0.84 이상을 기록해 우수했으며, SAM2‑EfficientNetV2 조합은 0.55 수준으로 크게 뒤처졌다. 이는 실시간 요구사항을 만족하는 전통 탐지기와, 복잡한 환경에서도 의미적 일관성을 유지하는 대형 VLM 사이의 근본적인 트레이드오프를 명확히 보여준다. 또한, 데이터셋 구축 과정에서 BDD100K 기반으로 맑은 낮·밤, 비오는 낮·밤 네 가지 조건을 골고루 포함시켜, 각 모델의 환경 적응력을 정량화했다. 전체적으로 이 논문은 인간‑중심 운전자 모니터링 시스템 설계 시, 실시간성 vs. 맥락 이해, 작은 객체 인식 vs. 연산 비용이라는 설계 선택지를 명확히 제시하며, 향후 VLM 기반 시각 질문 응답이 운전자 주의도 평가에 핵심 기술이 될 가능성을 시사한다.

운전자 시선 기반 객체 인식의 패러다임 비교 연구

초록

상세 분석

댓글 및 학술 토론

의견 남기기