잠재적 의미 규칙 인코딩을 이용한 자율주행 실시간 의미 위험 감지

읽는 시간: 10 분
...

📝 원문 정보

- Title: LSRE Latent Semantic Rule Encoding for Real-Time Semantic Risk Detection in Autonomous Driving
- ArXiv ID: 2512.24712
- 발행일: 2025-12-31
- 저자: Qian Cheng, Weitao Zhou, Cheng Jing, Nanshan Deng, Junze Wen, Zhaoyang Liu, Kun Jiang, Diange Yang

📝 초록

본 논문에서는 자율주행차량이 사회적 규칙을 준수하도록 하는 새로운 접근법인 LSRE(Latent Semantic Rule Encoding)를 제안합니다. 이 방법은 비언어적인 의미 규정을 빠르게 평가할 수 있는 가벼운 분류기를 학습하는 것을 목표로 합니다.

💡 논문 해설

1. **LSRE (Latent Semantic Rule Encoding)**: LSRE는 언어적으로 정의된 사회적 규칙을 내재 공간에서의 판별 경계로 응축해, 실시간으로 의미적인 안전성을 평가할 수 있게 합니다. 2. **VLM-감독형 잠재 분류기와 시간 예측**: 가벼운 잠재 분류기를 설계하여 VLM 감독 아래에서 학습하고, 짧은 기간의 미래 상태를 예측하는 능력을 추가합니다. 3. **의미적 실패 벤치마크 및 평가**: CARLA 시뮬레이션 환경을 이용해 의미적인 실패 사례를 구성하고 LSRE의 성능을 측정합니다.

간단한 설명과 비유:

  • LSRE: 교통법을 알려주는 선생님 같은 존재로, 자율주행차가 사회적 규칙을 이해하도록 가르칩니다.
  • VLM 감독형 분류기: 미래의 위험을 예측하는 능력을 갖춘 스파이처럼 작동합니다. 이는 자율주행차가 실시간으로 위험을 피할 수 있도록 합니다.
  • 의미적 실패 벤치마크: 운전 시뮬레이션 게임과 비슷하게, 다양한 상황에서 자율주행차가 잘 대처하는지 평가합니다.

Sci-Tube 스타일 스크립트:

  1. 초급자용:
    • “LSRE는 자율주행차가 사회적 규칙을 이해할 수 있게 도와줍니다.”
  2. 중급자용:
    • “LSRE는 VLM이 제공하는 정보를 기반으로, 잠재 공간에서 위험을 실시간으로 감지합니다.”
  3. 고급자용:
    • “LSRE는 언어적으로 정의된 규칙을 내재 공간에 응축하여, 자율주행차가 사회적 맥락을 이해하고 실시간 안전성을 평가할 수 있게 합니다.”

📄 논문 발췌 (ArXiv Source)

# 개요

개방형 환경에서의 자율주행은 정확한 인식과 견고한 제어뿐만 아니라 미묘한 인간 사회 규칙에 대한 준수를 필요로 합니다. 긴급 차량에 양보하거나, 교통 신호보다 교통 경찰의 지시를 따르거나, 일시적인 공사 구역 레이아웃을 해석하는 것과 같은 많은 의미론적 내용은 인간에게는 직관적이지만 명확한 규칙으로 인코딩하기 어렵습니다. 이러한 상황에 따라 변하는 제약들은 기존의 규칙 기반 또는 기하학적인 방법으로 포착할 수 없는 의미적인 안전 요구사항을 형성하며, 이들의 위반은 자주 중요하고 드문 실패로 이어집니다. 예를 들어, 인간 운전자는 공식 교통 규정을 넘어서 사회적 신호와 암묵적인 규범을 통해 조정하지만, 자율 주행차량이 오직 교통 규칙만 엄격히 따르면 복잡한 교통 상황에서 인간 같은 협상을 수행하기 어려울 수 있습니다. 또한 도달 가능성이나 시계열 논리와 같은 교통 법규 인코딩은 구조화된 상호작용을 다루는 데 효과적이지만, 상호 작용적 맥락을 통해만 나타나는 잠재적인 사회적 의미를 표현하지 못합니다.

기존의 안전 기제는 주로 교통 규칙 논리, 휴리스틱 필터링 또는 도달 가능성 기반 추론에 의존하고 있습니다. 이러한 방법들은 차선 경계 유지, 충돌 방지 궤도 강제화 및 운동학적 타당성 보장과 같은 기하학적인 안전성에는 효과적이지만 근본적으로 사회 맥락이나 일시적인 교통 구성에서 발생하는 인간이 정의한 의미론을 포착할 수 없습니다. 형식적인 안전 검증 및 도달 가능성 분석에 대한 이전 연구는 물리적 제약에 대해 강력한 보장을 제공하지만, 긴급 차량에게 양보하거나 교통 경찰의 지시를 따르는 것과 같은 고수준 의무를 표현할 수 없습니다.

최근 시각-언어 모델(VLMs)은 도로 의미론에 대한 풍부한 고수준 이해를 제공하는 유망한 방향을 제시합니다. VLMs는 명확한 규칙 집합이나 HD 지도에서 결여된 미묘한 교통 신호를 식별할 수 있습니다. 그러나 프레임 단위의 직접적인 VLM 추론은 실시간 주행에 대해 계산적으로 금지됩니다 — 일반적인 추론 시간은 각 프레임당 200-800ms을 초과합니다. 또한 VLM 출력은 예측 구조가 부재하여 시간적 일관성이 결여되어 있습니다. 따라서 현재 시스템은 이러한 의미론적 제약 조건을 무시하거나 오프라인 분석 파이프라인에서만 VLM을 적용하며, 자율 주행의 의미론적 이해와 배치 가능한 안전 기제 사이에 지속적인 간극이 남아 있습니다.

이 간극을 극복하기 위해 우리는 LSRE (Latent Semantic Rule Encoding) 프레임워크를 제안합니다. LSRE는 반복 세계 모델의 잠재 공간 내에서 작동하는 가벼운 분류기를 통해 언어로 정의된 의미론적 안전 규칙을 응축합니다. LSRE는 학습 동안 VLM을 희박하게 쿼리하여 의미론적 위험 라벨을 획득한 다음 이러한 라벨을 잠재 동력 공간 내의 결정 경계로 인코딩합니다. 배치 시, 잠재 분류기는 프레임 단위 VLM 추론 없이 초당 10Hz에서 의미론적 위험 예측을 제공하여 실시간으로 인간이 이해할 수 있는 사회적 의미를 강제할 수 있습니다.

  • 잠재적 의미론적 규칙 인코딩: 우리는 LSRE를 제안합니다. 이는 언어로 정의된 의미론적 규칙을 반복 세계 모델의 잠재 공간에서의 결정 경계로 응축하여 프레임 단위 VLM 추론 없이 실시간 의미론적 안전 평가를 가능하게 합니다.
  • VLM 감독형 잠재 분류기와 시간 예측: 우리는 짧은 기간의 잠재 회귀 및 하이스테리시스 필터링을 통해 강화된 희박한 VLM 감독 아래에서 학습하는 가벼운 잠재 분류기를 설계합니다. 이 조합은 안정적인 예측과 밀리초 수준의 지연으로 미리 위험을 인식할 수 있게 합니다.
  • 의미적 실패 벤치마크 및 평가: 우리는 6개의 의미론적 실패 시나리오 변형이 포함된 CARLA 벤치마크를 구성합니다. LSRE는 VLM 수준의 정확도에 맞추어 위험을 훨씬 더 빠르게 감지하고 미리 보지 못한 의미론적으로 유사한 장면에도 일반화됩니다.
LSRE의 전체 파이프라인. 사전 학습된 시각-언어 모델(VLM)은 키 프레임에 대한 희박한 의미론적 위험 감독을 제공합니다. 반복 상태 공간 세계 모델은 다중 뷰 관찰을 시간 동력학과 함께 잠재 상태로 인코딩하고 짧은 기간의 회귀를 생성합니다. VLM 감독 아래에서 학습된 가벼운 잠재 분류기는 즉시 및 예측 미래 잠재 상태 모두를 평가하여 운전 스택을 위한 실시간 의미론적 위험 신호를 제공합니다.

관련 연구

자율주행의 안전 제약 및 쉴드

초기 자율 주행 시스템은 교통 법규와 기본적인 운전 행동을 인코딩하기 위해 손으로 작성된 규칙과 결정적 상태 기계에 크게 의존했습니다. 이러한 접근 방식은 구조화된 환경에서는 효과적이지만 모호하거나 상황에 따라 변하는 시나리오에서는 실패합니다. 형식적인 정확성을 얻기 위해 선형 시계열 논리(LTL) 및 신호 시계열 논리(STL)와 같은 시계열 논리 프레임워크가 안전 제약을 지정하고 모니터링하기 위해 도입되었으며, 나중에 운전 관련 계획 작업으로 확장되었습니다.

도달 가능성 분석은 충돌 회피에 대한 수학적으로 엄밀한 보장을 제공합니다. 해밀턴-야코비(HJ) 도달 가능성은 안전하지 않은 상태의 앞으로의 도달 집합을 계산하며, 나중에는 효율적인 근사치를 도입하여 다중 에이전트 상호 작용 운전에서 실시간 도달 가능성 분석을 지원합니다. 연속 시스템을 위한 2차 프로그램 제어기로 안전 제약을 실제 시간에 강제할 수 있도록 컨트롤 바リア 함수(CBFs)가 정의되었습니다.

안전 강화 학습은 실행 중에 정책을 제한하는 학습 기반 메커니즘을 도입했습니다. 조사 보고서는 안전 비평가와 같은 기술을 강조하며, 비평가가 불안전한 결과를 예측합니다. 쉴드 접근법은 에이전트의 행동을 모니터링하고 실행 전에 불안전한 행동을 중단합니다.

충돌 방지 또는 경계 위반 예방에는 효과적이지만 이러한 방법은 명시적인 제약 조건에 의존하며 모호하거나 사회적으로 정의된 의미론적 맥락에는 여전히 부적합합니다. 최근 연구는 긴급 차량에게 양보하거나, 교통 신호보다 경찰을 우선시키거나, 가려진 위험을 식별하는 것과 같은 많은 중요한 운전 행동들이 기하학적인 규칙이나 논리 템플릿으로 완전히 형식화할 수 없다는 점에 주목했습니다. 이러한 제약은 VLM에서 고수준 의미론적 감독을 활용하여 가벼운 잠재 공간 안전 분류기를 학습하는 우리의 접근법을 동기부여합니다.

VLM 기반 위험 평가 및 운전 의미론

시각-언어 모델(VLMs)은 CLIP, BLIP-2, GPT-4V와 같이 최근에 시각적 추론과 의미론적 이해 능력을 보여주었습니다. 이미지와 텍스트 표현을 정렬함으로써 이러한 모델들은 고수준 장면 의미론 및 기하학적 특징을 넘어 컨텍스트 관계를 해석할 수 있습니다. 최근 연구에서는 VLMs을 자율 주행에 적용하여 장면 이해, 캡셔닝 및 의사결정 설명뿐만 아니라 상호 작용 운전에서 위험 추론 및 의도 인식에도 확장되었습니다.

그러나 직접적인 VLM 사용은 높은 계산 비용으로 인해 자율주행에 도전적이며 모델 응축 및 가벼운 다중 모달 변형이 이러한 문제를 부분적으로 완화하더라도 결과 시스템은 여전히 대규모 추론을 필요로 하고 엄격한 실행 시간 보장이 부족합니다. 또한 VLM 추론은 일반적으로 고립된 이미지에 대해 수행되므로 시간적 일관성이나 안전 비판적인 일관성을 유지하기 어렵습니다. 이러한 제약 조건으로 인해 우리는 VLM의 의미론적 이해 능력을 유지하면서 실시간 안전 모니터링을 위한 실행 시간 효율성을 크게 향상시키는 방법을 탐색합니다.

운전 및 잠재 모니터링을 위한 세계 모델

세계 모델은 상상 기반 계획과 의사결정을 위해 환경 전환을 포착하는 컴팩트한 잠재 동력학을 학습하도록 목표를 설정합니다. Ha와 Schmidhuber는 픽셀에서 직접 모델 기반 강화 학습을 지원하기 위해 반복적인 잠재 동력을 학습하는 현대 딥러닝 포맷을 대중화했습니다. 나중에, Dreamer 시리즈는 확률적 잠재 표현 및 잠재 공간의 액터-크리틱 학습을 도입하여 안정성, 확장성 및 성능을 향상시켰습니다. 이러한 접근 방식은 연속 제어 작업에서 강력한 데이터 효율성과 일반화를 보여주었습니다.

최근 몇몇 운전 프레임워크는 세계 모델 개념을 통합했습니다. DriveDreamer와 DriveWorld는 잠재적 상상력을 사용하여 다중 모드의 운전 행동 및 미래 위험을 예측합니다. 이러한 모델은 단일 프레임을 넘어서 시간적 맥락을 포착하는 표현 학습을 가능하게 하여 잠재 공간에서 안전 추론의 기초를 형성합니다.

그러나 현재 방법들은 주로 기하학적 또는 확률적인 위험에 초점을 맞추고 있으며 고수준 의미론적 안전에는 집중하지 않습니다. 이를 해결하기 위해 우리는 VLM으로 가이드된 잠재적 의미론적 위험 추정기를 제안합니다. 이는 VLM 수준의 이해를 세계 모델 잠재 공간에 전달하여 실시간 의미론적 위험 추론을 가능하게 합니다.

문제 정의

우리는 정책 $`\pi`$가 센서 관찰 $`o_t`$에서 제어 행동 $`a_t = \pi(o_t)`$를 생성하는 자율 주행 시스템을 고려합니다. 기하학적 안전성 뿐만 아니라 차량은 의미론적 안전 제약에 준수해야 합니다 — 인간 규칙이 상태가 사회적으로 허용 가능한지 또는 위험한지를 결정하는 맥락에 따라 변하는 것들입니다. 예를 들어, 긴급 차량에게 양보하거나 일시적인 공사 구역에서 지시 사항을 따르거나 학교 버스 앞에서 멈추는 것 등이 있습니다. 이러한 의미론적 내용은 인간에게 직관적이지만 명확한 규칙 또는 논리로 인코딩하기 어렵습니다.

$`y_t \in \{0,1\}`$가 시간 $`t`$에 운전 상태가 의미론적 제약을 위반하는지 나타내고 $`r_t \in [0,1]`$가 그러한 위반의 확률을 나타내는 경우, 고수준 의미론적 위험 함수를 학습하는 목표는 다음과 같습니다.

MATH
\begin{equation}
    r_t = g_\phi(o_t),
\end{equation}
클릭하여 더 보기

현재 관찰이 의미론적으로 안전하지 않은지 예측합니다.

방법

시스템 개요

LSRE는 반복 세계 모델에서 학습된 잠재 공간에 언어로 정의된 규칙을 인코딩하여 실시간으로 의미론적 위반을 감지하도록 목표를 설정합니다. 핵심 아이디어는 VLM을 단순히 오프라인 의미론적 감독자로 사용하는 것입니다 — 희박한 의미론적 라벨을 추출하고, 모든 온라인 추론은 가벼운 잠재 분류기를 통해 수행합니다.

프레임워크는 두 가지 주요 모듈로 구성됩니다: (1) 소수의 키 프레임에 대한 약한 의미론적 라벨을 제공하는 VLM-감독형 의미론적 감독 메커니즘; 그리고 (2) 반복 상태 공간 세계 모델 위에 구축된 의미론적 점수화 모듈, 이에는 즉시 판별 분류기와 짧은 기간의 잠재 회귀 가치 추정기가 포함됩니다. 이러한 모듈들은 시간 일관성과 밀리초 수준의 추론 지연을 갖춘 배치 가능한 의미론적 안전 층을 형성합니다.

VLM 감독형 의미론적 감독

수동적인 주석 없이 의미론적 감독을 얻기 위해, 우리는 사전 학습된 시각-언어 모델(VLM)을 사용하여 희박한 세트의 키 프레임에 대한 의사 라벨을 생성합니다. 운전 시퀀스는 $`\{x_t\}_{t=0}^{T}`$로 표시될 수 있으며, 각 $`x_t`$는 4개의 동기화된 주변 뷰 이미지와 자동차 상태를 포함합니다.

10 프레임 구간이 키 프레임으로 선택되어 VLM에 의해 처리되어 장면이 의미론적 안전 위험을 포함하는지 결정됩니다. 고정된 프롬프트 템플릿을 사용하여 VLM은 부드러운 의미론적 위험 라벨을 생성합니다.

MATH
\begin{equation}
    \hat{y}_t = 
    \mathrm{VLM}\big(x_t^{(1)}, x_t^{(2)}, x_t^{(3)}, x_t^{(4)}, s_t; p\big),
    \qquad t \in \mathcal{K}
\end{equation}
클릭하여 더 보기

여기서 $`x_t^{(i)}`$는 4개의 뷰 이미지, $`s_t`$는 자동차 상태, 그리고 $`p`$는 프롬프트를 나타냅니다.

의미론적 맥락은 짧은 시간 동안 거의 변하지 않으므로 각 10 프레임 창 내에서 의미론적 위험이 대략적으로 안정적이다고 가정합니다.

MATH
\begin{equation}
    y_{t+k} \approx y_t, 
    \qquad k = 1,\ldots,9.
\end{equation}
클릭하여 더 보기

희박하게 샘플링된 키 프레임 간의 시간적 정렬을 유지하기 위해 건너뛴 프레임의 누적 자동차 운동을 기록합니다:

MATH
\begin{equation}
    \Delta s_{t^{-}\!\rightarrow t} = s_t - s_{t^{-}},
\end{equation}
클릭하여 더 보기

여기서 $`t^{-}`$는 이전 키 프레임을 나타냅니다. 이러한 운동 특성은 직접적으로 VLM에 의해 처리되지 않은 프레임의 보조 정보로 사용됩니다. 이전 키 프레임에서 얻은 의미론적 판단 $`\hat{y}_{t^{-}}`$과 함께 누적 자동차 운동은 다음 키 프레임을 분석할 때 VLM에 추가 입력으로 제공됩니다. 이러한 설계는 중간 관찰의 부재를 보상하고 VLM 추론 주파수가 감소한 경우에도 시간적 일관성을 유지하는 데 도움이 됩니다.

이러한 추가 요소를 사용하여 각 키 프레임에 대한 VLM 쿼리는 다음과 같이 정의됩니다.

MATH
\begin{equation}
\begin{aligned}
    \hat{y}_t
    &= \mathrm{VLM}\!\Big(
        x_t^{(1)}, x_t^{(2)}, x_t^{(3)}, x_t^{(4)},\;
        s_t,\;
        \Delta s_{t^{-}\!\rightarrow t},\;
        \hat{y}_{t^{-}},\;
        p
    \Big), \\
    &\qquad\qquad\qquad\quad t \in \mathcal{K}
\end{aligned}
\end{equation}
클릭하여 더 보기

여기서 $`x_t^{(i)}`$는 4개의 동기화된 주변 뷰 이미지, $`s_t`$는 현재 자동차 상태, $`\Delta s_{t^{-}\!\rightarrow t}`$는 건너뛴 프레임을 통한 누적 운동, 그리고 $`\hat{y}_{t^{-}}`$은 이전 키 프레임에서 얻은 의미론적 판단이며, $`p`$는 고정된 프롬프트 템플릿입니다. 이러한 확장된 공식은 VLM 쿼리의 희박한 샘플링에도 불구하고 단기적인 장면 진화를 반영하는 감독 신호를 보장합니다.

의미론적 위험 점수화 모듈

LSRE는 재귀 상태 공간 모델(RSSM)의 잠재 공간 내에서 의미론적 안전을 평가합니다. RSSM은 짧은 기간 동안 일관성이 있는 컴팩트한 잠재 표현 $`z_t`$를 제공하며, 모든 의미론적 추론은 VLM 감독 아래에서 학습된 가벼운 분류기를 통해 처리됩니다.

잠재 동력학

관찰 $`o_t`$가 주어지면 인코더(추론 모델)는 사후 잠재 상태를 추정합니다.

MATH
\begin{equation}
  z_t \sim q_\psi(z_t \mid \hat z_t, o_t),
\end{equation}
클릭하여 더 보기

여기서 $`\hat z_t`$는 $`o_t`$를 반영하기 전에 예측된 잠재 상태를 나타냅니다. 변환 모델은 다음과 같이 잠재 상태를 앞으로 전파합니다:

MATH
\begin{equation}
\hat z_{t+1} \sim p_\phi(\hat z_{t+1}\mid z_t, a_t),
\end{equation}
클릭하여 더 보기

추가적인 의미론적 감독 없이 예측 구조를 제공합니다.

마진 기반 의미론적 위험 분류기

잠재 상태가 의미론적 안전 제약을 위반하는지 평가하기 위해, 우리는 RSSM 잠재 표현 위에 분류기 $`g_\mu(z_t)`$를 학습합니다. 이 분류기는 안전한 상태는 큰 양수 값을 가지며, 의미론적 위반은 큰 음수 값을 가진 실수 마진 점수를 출력합니다.

훈련 세트 $`D`$, 부호화된 라벨 $`y_i \in \{0,1\}`$이 안전한 샘플이나 위험한 샘플을 나타내는 경우, 분류기는 다음과 같은 부호 마진 제약 조건을 만족하도록 학습됩니다. $`y_i g_\mu(z_i) \ge \delta`$를 위반하는 경우 처벌됩니다:

MATH
\begin{equation}
\mathcal{L}_\mu
= \frac{1}{N}
\sum_{z_i \in D}
\mathrm{ReLU}\!\Big(\,
\delta - y_i\, g_\mu(z_i)
\Big  # Limit to 15k chars for stability
</div>
<div style="margin-top: 20px;"><a href="https://arxiv.org/pdf/2512.24712.pdf" target="_blank">ArXiv 원문 PDF 보기</a></div>
<div class="mobile-ad w-full my-6 text-center" style="border: 2px dashed red; background: #ffe6e6;"><ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-1873718820012422" data-ad-slot="auto"></ins><script>(adsbygoogle = window.adsbygoogle || []).push({});</script></div>

<br>
<h4>📊 논문 시각자료 (Figures)</h4>

![Figure 1](/posts/2025/12/2025-12-31-190799-lsre__latent_semantic_rule_encoding_for_real_time_/framework2.png)

<br>
<br>

![Figure 2](/posts/2025/12/2025-12-31-190799-lsre__latent_semantic_rule_encoding_for_real_time_/scenarios.png)

<br>
<br>

![Figure 3](/posts/2025/12/2025-12-31-190799-lsre__latent_semantic_rule_encoding_for_real_time_/case2.jpg)

<br>
<br>

![Figure 4](/posts/2025/12/2025-12-31-190799-lsre__latent_semantic_rule_encoding_for_real_time_/case3.jpg)

<br>
<br>

![Figure 5](/posts/2025/12/2025-12-31-190799-lsre__latent_semantic_rule_encoding_for_real_time_/case1.jpg)

<br>
<br>


<h4 style="margin-top: 3rem; margin-bottom: 1rem; border-bottom: 1px solid #e5e7eb; padding-bottom: 0.5rem;">감사의 말씀</h4>
이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.
클릭하여 더 보기

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키