마스크 전이 기반 위험 차선 변경 행동 인식
초록
본 논문은 단일 전방 카메라 영상만을 이용해 차선 변경 시 위험 여부를 판단하는 딥 스페이시오템포럴 모델을 제안한다. 사전 학습된 Mask R‑CNN으로 객체 마스크를 추출한 뒤, 마스크가 입힌 프레임을 CNN‑LSTM 구조에 입력해 위험·안전 이진 분류를 수행한다. 860개의 차선 변경 클립을 사용한 실험에서 AUC 0.937을 달성했으며, 다양한 백본 네트워크와 학습 전략을 비교 분석하였다.
상세 분석
이 연구는 자동차용 저비용 비전 시스템의 한계를 극복하고자, 고가 라이다·레이다 대신 단일 RGB 카메라만으로 위험 차선 변경을 인식하는 프레임워크를 설계했다. 핵심 아이디어는 Semantic Mask Transfer (SMT) 로, 사전 학습된 Mask R‑CNN(ResNet‑101 기반)을 이용해 각 프레임에서 차량·트럭 등 주요 객체의 인스턴스 마스크를 추출하고, 이를 원본 이미지에 오버레이한다. 마스크가 입힌 영상은 배경 잡음과 조명 변화에 대한 강인성을 높여, 이후의 특징 추출 단계에서 의미 있는 구조적 정보를 강조한다.
특징 추출 단계에서는 여러 최신 이미지 분류 백본(ResNet‑50/101, EfficientNet‑B0, MobileNet‑V2 등)을 비교했으며, 최종적으로 가장 높은 성능을 보인 백본을 LSTM에 연결하였다. LSTM은 시계열 특성을 모델링하기 위해 many‑to‑one 구조를 채택, 마지막 타임스텝의 은닉 상태를 완전 연결 소프트맥스 레이어에 전달해 위험·안전 두 클래스를 예측한다.
학습 전략은 두 가지로 나뉜다. ① From‑scratch 학습: 프레임당 CNN을 직접 학습하고, 시퀀스 전체에 LSTM을 적용한다. 데이터 양이 제한적이므로 과적합 위험이 있었다. ② Transfer‑learning 학습: 사전 학습된 백본을 고정하거나 미세조정(fine‑tune)한 뒤, 추출된 고차원 피처를 LSTM에 입력한다. 전자는 데이터 효율성을 크게 향상시켰으며, 실험 결과 전이 학습이 AUC 0.937이라는 최고 성능을 달성했다.
데이터셋은 기존 연구에서 사용된 860개의 차선 변경 비디오 클립을 재활용했으며, 각 클립은 평균 10초, 30 fps로 샘플링 후 16프레임으로 정규화했다. 위험 라벨은 주관적 위험 평가에 기반한 인간 주석자를 통해 부여되었다. 실험에서는 프레임‑별 CNN (FbF‑CNN), CNN‑LSTM, SMT+CNN‑LSTM 등 세 가지 모델을 비교했으며, 마스크 전이와 LSTM 결합이 가장 큰 이득을 제공함을 확인했다.
한계점으로는 라벨링이 주관적이며, 실제 도로 환경에서의 조명·기상 변화에 대한 일반화 검증이 부족하다는 점을 들 수 있다. 또한, 마스크 추출 단계가 별도 모델에 의존하므로 실시간 적용 시 연산량이 증가한다. 향후 연구에서는 경량화된 마스크 생성기와 멀티‑모달(예: 차량 속도·조향각) 정보를 결합해 성능 및 효율성을 동시에 개선할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기