자동차 CAN 데이터 기반 범용 언어 모델
초록
본 논문은 차량 CAN 버스에서 추출한 디코딩 신호를 언어처럼 토큰화하여 대규모 사전학습을 수행하고, 하나의 사전학습된 백본을 다양한 자동차 보험·자동차 응용 과제에 미세조정함으로써 다중 과제 간 일반화 능력을 입증한다. 연속·이산 혼합 신호에 대한 통합 토크나이제이션, 시간‑스케일 처리, 트립 별 컨텍스트 표시에 중점을 두며, 5천만 토큰 규모의 데이터로 BERT‑스타일 모델을 학습한 뒤 충돌 탐지, 운전 행동 분석, 사고 지점 예측 등 세 가지 다운스트림 작업에서 경쟁력 있는 성능을 보인다.
상세 분석
본 연구는 기존 CAN 데이터 활용이 원시 메시지 기반의 단일 과제 모델에 국한돼 왔던 한계를 극복하고, NLP·CV 분야에서 입증된 ‘Foundation Model’ 패러다임을 자동차 CAN 도메인에 적용한다는 점에서 혁신적이다. 가장 큰 기술적 공헌은 연속형 변수와 이산형 변수를 동시에 다루는 통합 토크나이제이션 프레임워크이다. 연속 신호는 사전 정의된 최소·최대 범위와 경험적 변동량(Δi)을 기반으로 고정된 비트 수(예: 128, 256)로 양자화하고, 이상치·결측치는 전용 토큰(
사전학습 단계에서는 BERT와 동일한 마스크드 언어 모델(MLM) 목표를 사용한다. 전체 토큰의 15 %를 마스크하고, 80 %는
다운스트림 평가에서는 동일 사전학습 백본을 전이 학습(fine‑tuning)하여 세 가지 이질적인 작업에 적용한다. 첫 번째는 충돌 탐지 모델로, 실시간 충돌 위험을 예측하는 이진 분류이다. 두 번째는 운전 행동 분석으로, 급제동·급가속 등 위험 운전 패턴을 다중 클래스 형태로 분류한다. 세 번째는 사고 지점(Impact Point) 예측으로, 사고 발생 위치를 좌표 형태로 회귀한다. 모든 작업에서 전체 파라미터를 업데이트하는 전 파라미터 미세조정을 사용했으며, 클래스 불균형을 완화하기 위해 가중 손실을 적용했다. 실험 결과, 사전학습된 모델은 각각의 작업에서 기존 단일 과제 모델 대비 동일하거나 약간 상회하는 성능을 보였으며, 특히 데이터가 제한된 상황에서 사전학습 효과가 두드러졌다.
또한, 토크나이제이션 설계가 모델의 일반화에 미치는 영향을 ablation study를 통해 검증했다. 연속형 양자화 비트를 128에서 256으로 늘리면 미세조정 시 학습 속도는 감소하지만 성능 향상이 미미했으며, 메타 토큰(<NEW_CAR>, <NEW_TRIP>)을 제거하면 트립 간 전이 성능이 현저히 떨어졌다. 이는 컨텍스트 경계 정보를 명시적으로 제공하는 것이 시간‑스케일 변동성을 학습하는 데 핵심임을 시사한다.
전반적으로 본 논문은 (1) 혼합형 CAN 신호를 언어 토큰으로 변환하는 재현 가능한 파이프라인, (2) 대규모 비지도 사전학습을 통한 공유 표현 학습, (3) 다양한 자동차·보험 응용 과제에 대한 효율적인 전이 학습이라는 세 축을 성공적으로 결합하였다. 이는 향후 차량 데이터 기반 AI 서비스가 개별 모델 개발 비용을 절감하고, 새로운 과제에 빠르게 적응할 수 있는 기반을 제공한다는 점에서 큰 의미를 가진다.
댓글 및 학술 토론
Loading comments...
의견 남기기