ExpressMind 고속도로 운영을 위한 멀티모달 사전학습 대형 언어 모델

본 논문은 현재 고속도로 운영이 규칙 기반·고립형 모델에 의존하고 있어 시스템 간 지식 통합이 어려운 문제점을 지적한다. 최근 대형 언어 모델(LLM)의 인공지능 역량이 교통 분야에도 확산되고 있지만, 일반 LLM은 도메인 특화 규정·인과 관계를 이해하는 데 한계가 있다. 이를 해결하고자 저자들은 “ExpressMind”이라는 멀티모달 사전학습 대형 언어 모델을 설계·구현하였다. 1. 데이터 구축 - **풀스택 고속도로 데이터셋**: 텍스트(정책·법령·전문서), Incident CoT(사건 서술·인과·대응·평가), 영상(사고·혼잡·기상·조명) 3가지 서브셋을 포함한다. 텍스트는 2 백만 문장, 영상은 10 천 개 클립, CoT는 5 천 개 사례를 라벨링했으며, 모든 데이터는 중복 제거·표준화 과정을 거쳐 고품질을 확보했다. - **동적 지식 베이스**: 실시간 교통 흐름·사고 보고·센서 데이터 등을 그래프 형태로 저장해 모델이 최신 상황에 접근하도록 설계했다. 2. 모델 아키텍처 - **기본 모델**: Qwen 기반의 대형 언어 모델을 베이스로 사용하였다. - **그래프‑증강 RAG**: 도메인 엔티티와 관계를 그래프에 매핑하고, 질의 시 서브그래프를 동적으로 검색해 텍스트 생성에 활용한다. - **시각‑우선 정렬(VPA) 인코더**: 영상 프레임에서 추출한 시각 토큰에 가중치를 부여해 텍스트 토큰과의 어텐션을 재조정, 조도·기상 변화가 큰 영상에서도 핵심 객체·행동을 정확히 파악한다. 3. 학습 파이프라인 - **1단계 무지도 사전학습**: 도메인 텍스트 코퍼스를 사용해 전통적인 언어 모델 손실 L_PT를 최소화, 기본 교통 용어·규정 지식을 내재한다. - **2단계 전층 파라미터 미세조정(SFT)**: 마스크드 손실 L_SFT를 적용해 질문‑응답, 정책‑QA, 사고‑보고 등 구체적 태스크에 맞는 지시‑응답 매핑을 학습한다. - **RL‑CoT 정렬**: 그룹 상대 정책 최적화(GRPO)를 이용해 다중 후보 응답을 평가하고, 구조적 일관성(R_struct), 도메인 정렬(R_know), 현실성(R_real) 세 보상을 결합한다. R_struct는 “인식‑분석‑결정‑반성” 네 단계가 순차적으로 등장해야 보상이 주어지는 게이트형 카운팅 메커니즘을 도입해 논리 흐름을 강제한다. KL‑다이버전스 정규화(β DKL)로 기존 SFT 단계에서 학습한 용어 일관성을 유지한다. 4. 실험 및 평가 - **멀티모달 벤치마크**: 기본 지식 이해, 영상 사고 탐지, 안전 대응 생성, 복합 교통 분석 네 가지 서브셋으로 구성된 새 벤치마크를 공개하였다. - **성능**: ExpressMind은 기존 GPT‑4, LLaVA, Qwen‑VL 등 최신 모델 대비 평균 12 % 이상의 F1·BLEU·ROUGE 점수 향상을 보였으며, 특히 사고 대응 생성에서는 전문가 평가에서 92 % 이상의 일치율을 기록했다. - **추가 분석**: Ablation 실험을 통해 그래프‑RAG와 VPA가 각각 4 %·3 %의 성능 향상에 기여함을 확인했으며, RL‑CoT가 논리적 일관성 점수를 15 % 상승시켰다. 5. 결론 및 향후 과제 - ExpressMind은 텍스트·영상·지식 그래프를 통합한 멀티모달 LLM으로, 고속도로 운영에 필요한 규정 이해·인과 추론·응급 대응 전략을 고도화했다. - 현재 제한점으로는 실시간 추론 비용이 높고, 일부 지역 특화 규정이 데이터에 충분히 반영되지 않은 점을 들 수 있다. 향후 경량화 모델 및 지역별 맞춤형 파인튜닝, 그리고 교통 제어 시스템과의 연동 연구가 필요하다. 전반적으로 본 연구는 도메인 특화 멀티모달 LLM 구축을 위한 데이터·모델·학습·평가 전 과정을 체계화했으며, 고속도로와 같은 복합 인프라 운영에 인공지능을 적용하는 데 중요한 이정표를 제시한다.

ExpressMind 고속도로 운영을 위한 멀티모달 사전학습 대형 언어 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기