멀티모달 트랜스포머로 보는 차량 오류 패턴 예측 혁신
초록
본 논문은 차량 진단 트러블 코드(DTC)와 환경 센서 데이터를 동시에 활용하는 최초의 멀티모달 바이디렉셔널 트랜스포머 모델인 BiCarFormer를 제안한다. DTC 시퀀스와 온도·압력·전압 등 연속형 환경 변수 간의 상호작용을 코-어텐션으로 학습함으로써 360개의 오류 패턴(EP)을 다중 라벨 분류하는 정확도를 기존 시퀀스‑전용 모델보다 크게 향상시킨다. 또한 교차 어텐션 점수를 통해 모델이 어떤 환경 변화에 주목했는지 해석 가능성을 제공한다.
상세 분석
BiCarFormer는 기존 DTC‑전용 시퀀스 모델이 간과해 온 환경 컨텍스트를 효과적으로 통합한다는 점에서 기술적 의의가 크다. 먼저 데이터 전처리 단계에서 DTC는 ECU‑ID, 베이스‑코드, Fault‑Byte라는 3‑요소로 구성된 토큰화된 이벤트 시퀀스로 변환되고, 각 이벤트마다 시간·주행거리와 함께 가변 길이의 환경 조건 시퀀스(설명, 값, 단위) Sᵉ가 부착된다. 논문은 이 두 모달리티를 각각 임베딩하고, 임베딩 차원을 유지한 채 초기 단계에서 concat‑fusion을 수행한 뒤, 양방향 트랜스포머 인코더에 입력한다. 핵심은 코‑어텐션 메커니즘으로, DTC 토큰이 환경 토큰을 query‑key‑value 연산을 통해 동시에 주시함으로써 “온도 급등 → 엔진 과열” 같은 도메인 전문가의 인사이트를 모델이 자동으로 학습하도록 설계되었다.
모델 구조는 표준 멀티헤드 어텐션을 기반으로 하면서도, 환경 토큰 수가 DTC 토큰보다 수십 배 많아 발생하는 O(n²) 연산 부담을 완화하기 위해 Linformer‑style 차원 축소와 Sparse‑Attention(예: LongFormer) 기법을 선택적으로 적용한다. 이는 실제 데이터셋에서 평균 150개의 DTC와 2,300개의 환경 조건을 동시에 처리하면서도 GPU 메모리 한계를 넘지 않게 한다.
학습 목표는 다중 라벨 마스크드 로스이며, 각 EP는 다중 라벨로 표현된다. 실험에서는 5백만 개의 차량 시퀀스(총 22,137개의 고유 DTC)와 360개의 EP 라벨을 사용했으며, 기존 DTC‑전용 Transformer(DTC‑TranGRU)와 RNN, BERT‑기반 시퀀스‑투‑시퀀스 모델에 비해 평균 F1‑score가 7.3%p 상승했다. 특히 환경 변동성이 큰 상황(예: 급격한 온도·전압 변동)에서 성능 격차가 두드러졌으며, 교차 어텐션 시각화 결과는 모델이 실제로 온도·전압 급등 구간에 높은 가중치를 부여함을 보여준다.
또한 논문은 모델 해석 가능성을 강조한다. 각 EP에 대한 어텐션 맵을 추출해 도메인 전문가가 정의한 “핵심 환경 변수”와의 일치도를 정량화했으며, 이는 현장 유지보수 엔지니어가 자동 진단 결과를 신뢰하고 의사결정에 활용할 수 있는 근거를 제공한다.
한계점으로는 환경 조건의 단위와 스케일 차이를 완전히 정규화하지 못해 일부 희소한 단위(예: “bar” vs “psi”)에서 노이즈가 발생할 수 있다는 점, 그리고 라벨 불균형(일부 EP는 매우 적은 샘플)으로 인한 소수 라벨 성능 저하가 있다. 향후 연구에서는 메타‑학습 기반 라벨 균형화와 멀티태스크 학습을 통해 이러한 문제를 보완할 수 있을 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기