자동차 CAN 데이터 기반 범용 언어 모델

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 차량 CAN 버스에서 추출한 디코딩 신호를 언어처럼 토큰화하여 대규모 사전학습을 수행하고, 하나의 사전학습된 백본을 다양한 자동차 보험·자동차 응용 과제에 미세조정함으로써 다중 과제 간 일반화 능력을 입증한다. 연속·이산 혼합 신호에 대한 통합 토크나이제이션, 시간‑스케일 처리, 트립 별 컨텍스트 표시에 중점을 두며, 5천만 토큰 규모의 데이터로 BERT‑스타일 모델을 학습한 뒤 충돌 탐지, 운전 행동 분석, 사고 지점 예측 등 세 가지 다운스트림 작업에서 경쟁력 있는 성능을 보인다.

상세 분석

본 연구는 기존 CAN 데이터 활용이 원시 메시지 기반의 단일 과제 모델에 국한돼 왔던 한계를 극복하고, NLP·CV 분야에서 입증된 ‘Foundation Model’ 패러다임을 자동차 CAN 도메인에 적용한다는 점에서 혁신적이다. 가장 큰 기술적 공헌은 연속형 변수와 이산형 변수를 동시에 다루는 통합 토크나이제이션 프레임워크이다. 연속 신호는 사전 정의된 최소·최대 범위와 경험적 변동량(Δi)을 기반으로 고정된 비트 수(예: 128, 256)로 양자화하고, 이상치·결측치는 전용 토큰(, )으로 구분한다. 이산 변수는 열거형 카테고리와 식별자(예: VIN, TripID)로 나누어, 식별자는 <NEW_CAR>, <NEW_TRIP> 같은 메타 토큰으로 대체하고, 동일 트립 내에서는 로 채워 컨텍스트 전이를 명시한다. 이렇게 구성된 약 1,420개의 토큰 집합은 시간 1 Hz로 샘플링된 44개 특성을 순차적으로 나열해 10초 윈도우당 450 토큰 시퀀스를 만든다.

사전학습 단계에서는 BERT와 동일한 마스크드 언어 모델(MLM) 목표를 사용한다. 전체 토큰의 15 %를 마스크하고, 80 %는 토큰, 10 %는 무작위 토큰, 나머지 10 %는 그대로 유지하는 전략으로 양방향 컨텍스트를 학습한다. 모델은 9개의 트랜스포머 인코더 레이어, hidden size 670, 10개의 헤드, 총 파라미터 약 5천만 개를 갖추어, 대규모(≈19 B 토큰) 데이터셋에서 수렴한다.

다운스트림 평가에서는 동일 사전학습 백본을 전이 학습(fine‑tuning)하여 세 가지 이질적인 작업에 적용한다. 첫 번째는 충돌 탐지 모델로, 실시간 충돌 위험을 예측하는 이진 분류이다. 두 번째는 운전 행동 분석으로, 급제동·급가속 등 위험 운전 패턴을 다중 클래스 형태로 분류한다. 세 번째는 사고 지점(Impact Point) 예측으로, 사고 발생 위치를 좌표 형태로 회귀한다. 모든 작업에서 전체 파라미터를 업데이트하는 전 파라미터 미세조정을 사용했으며, 클래스 불균형을 완화하기 위해 가중 손실을 적용했다. 실험 결과, 사전학습된 모델은 각각의 작업에서 기존 단일 과제 모델 대비 동일하거나 약간 상회하는 성능을 보였으며, 특히 데이터가 제한된 상황에서 사전학습 효과가 두드러졌다.

또한, 토크나이제이션 설계가 모델의 일반화에 미치는 영향을 ablation study를 통해 검증했다. 연속형 양자화 비트를 128에서 256으로 늘리면 미세조정 시 학습 속도는 감소하지만 성능 향상이 미미했으며, 메타 토큰(<NEW_CAR>, <NEW_TRIP>)을 제거하면 트립 간 전이 성능이 현저히 떨어졌다. 이는 컨텍스트 경계 정보를 명시적으로 제공하는 것이 시간‑스케일 변동성을 학습하는 데 핵심임을 시사한다.

전반적으로 본 논문은 (1) 혼합형 CAN 신호를 언어 토큰으로 변환하는 재현 가능한 파이프라인, (2) 대규모 비지도 사전학습을 통한 공유 표현 학습, (3) 다양한 자동차·보험 응용 과제에 대한 효율적인 전이 학습이라는 세 축을 성공적으로 결합하였다. 이는 향후 차량 데이터 기반 AI 서비스가 개별 모델 개발 비용을 절감하고, 새로운 과제에 빠르게 적응할 수 있는 기반을 제공한다는 점에서 큰 의미를 가진다.

자동차 CAN 데이터 기반 범용 언어 모델

초록

상세 분석

댓글 및 학술 토론

의견 남기기