운전 보조를 위한 이중 단계 LLM 시나리오 중심 의미 해석 프레임워크

본 논문은 도시 주행 상황에서 LLM 기반 위험 판단을 재현 가능하게 평가하기 위해, 멀티모달 데이터를 1초 단위의 결정적 시나리오 윈도우로 정형화하고 고정 프롬프트와 폐쇄형 위험 점수 체계를 적용한다. 동일 입력에 대해 텍스트 전용 모델 두 개와 멀티모달 모델 하나를 비교한 결과, 위험 등급, 고위험 상승, 증거 활용, 인과 귀속 등에 일관된 모델 간 차이가 나타났으며, 이는 모델 오류보다 시나리오 자체의 의미적 불확실성을 반영한다는 점을 강…

저자: Jean Douglas Carvalho, Hugo Taciro Kenji, Ahmad Mohammad Saber

운전 보조를 위한 이중 단계 LLM 시나리오 중심 의미 해석 프레임워크
본 논문은 도시 환경에서 고도화된 운전 보조 시스템(ADAS)이 직면한 의미적 불확실성을 정량화하고, 대형 언어 모델(LLM)의 위험 판단 능력을 체계적으로 검증하기 위한 프레임워크를 제안한다. 서론에서는 기존 ADAS가 주로 센서 기반 객체 검출과 규칙 기반 위험 판단에 의존하지만, 조명 변화, 악천후, 복잡한 교차로 등에서 발생하는 ‘부분 관측’과 ‘의미적 모호성’이 기능적 고장 없이도 위험을 초래한다는 점을 강조한다. 이러한 문제는 ISO 26262와 ISO 21448(SOTIF)에서 다루는 안전 요구와 맞물리며, 특히 SOTIF는 인식 한계와 의미적 모호성을 안전 설계의 핵심 요소로 제시한다. 문제 정의에서는 기존 ADAS 파이프라인이 인식·제어·결정 모듈을 독립적으로 설계해 상위 위험 해석 단계에서 불확실성 전파를 추적하기 어렵다는 점을 지적한다. 이를 해결하기 위해 저자들은 ‘시나리오 중심’ 접근법을 채택한다. 구체적으로, 멀티모달 데이터(카메라 영상, 레이더, 차량 텔레메트리, 지도 메타데이터)를 1 Hz로 정규화하고, 연속된 5 s 구간을 ‘시나리오 윈도우’로 정의한다. 각 윈도우는 객체 검출 결과, 세그멘테이션 라벨, 차선 곡률, 차량 속도·가속도, 날씨·조명 상태 등을 포함하는 구조화된 JSON 형태로 변환된다. 이 과정은 MetaScenario과 유사한 시나리오 추상화를 적용하지만, LLM이 직접 소비할 수 있는 텍스트 기반 증거 집합을 제공한다는 점에서 차별화된다. 시스템 아키텍처는 두 단계로 구성된다. 1단계는 ‘시나리오 구축’ 모듈로, 원시 센서 스트림을 정제·동기화하고, 결정적 시나리오 윈도우를 생성한다. 2단계는 ‘LLM 평가’ 모듈로, 고정 프롬프트와 폐쇄형 위험 스키마(0‑5 점)를 사용해 각 시나리오에 대한 위험 등급, 위험 요인, 증거 인용, 인과 관계 서술을 요구한다. 프롬프트는 “주어진 증거를 바탕으로 위험 등급을 0‑5 사이로 매기고, 위험 요인을 열거하며, 판단 근거를 제시하라”와 같은 형태로, 모델 간 입력 차이를 최소화한다. 실험에서는 ‘near‑people’ 시나리오(보행자·자전거와 근접한 상황) 200개를 선정하고, 세 가지 LLM을 동일 입력에 적용했다. 텍스트 전용 모델은 GPT‑3.5‑Turbo와 LLaMA‑2‑Chat(70B), 멀티모달 모델은 Gemini‑Pro Vision이다. 주요 평가 지표는 (1) 위험 등급 평균 차이, (2) 고위험(등급 ≥ 4) 상승 비율, (3) 증거 인용 정확도, (4) 인과 귀속 일관성, (5) 취약 도로 이용자(VRU) 존재 여부 판단 정확도이다. 결과는 다음과 같다. 텍스트 모델 간 위험 등급 평균 차이는 0.6점, 멀티모달 모델과 텍스트 모델 간 차이는 1.2점으로, 모델에 따라 위험 인식이 크게 달라졌다. 고위험 상승 비율은 멀티모달 모델이 35%로 가장 높았으며, 이는 이미지 기반 객체 과대인식에 기인한다. 증거 인용에서는 텍스트 모델이 메타데이터만을 언급하는 반면, 멀티모달 모델은 이미지에서 직접 추출한 객체를 인용했지만, 때때로 잘못된 객체(예: 가상의 보행자)를 근거로 삼았다. 인과 귀속에서는 모든 모델이 ‘차량 속도 증가’와 ‘보행자 급작스러운 진입’을 주요 원인으로 제시했지만, 세부 원인(조명, 도로 표지판 가시성 등)에 대한 일관성은 낮았다. 특히 VRU 존재 여부 판단에서 텍스트 모델은 78% 정확도, 멀티모달 모델은 84%였으나, 오탐·누락 사례가 서로 상이했다. 논의에서는 이러한 차이가 단순 모델 결함이라기보다, 동일 증거가 내포한 의미적 불확실성(예: 카메라 시야에 보행자가 부분 가려짐)과 LLM의 내부 지식·추론 방식 차이에 기인함을 강조한다. 따라서 LLM을 ADAS에 적용할 때는 (1) 시나리오 중심의 재현 가능한 평가 프레임워크 구축, (2) 프롬프트와 위험 스키마의 표준화, (3) 모델 간 차이를 정량화하고 불확실성을 관리하는 메커니즘이 필요하다고 제안한다. 결론에서는 본 프레임워크가 대규모 시나리오 집합에 대한 자동화된 감사와, 안전 규격(SOTIF 등)과 연계된 증거 기반 안전 주장 작성에 기여할 수 있음을 강조하며, 향후 연구로는 실시간 시나리오 생성, 다중 LLM 앙상블, 그리고 안전 인증 프로세스와의 통합을 제시한다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기