ScenicRules: 다목적 우선순위 규칙과 추상 시나리오를 결합한 자율주행 벤치마크

읽는 시간: 6 분
...

📝 Abstract

Developing autonomous driving systems for complex traffic environments requires balancing multiple objectives, such as avoiding collisions, obeying traffic rules, and making efficient progress. In many situations, these objectives cannot be satisfied simultaneously, and explicit priority relations naturally arise. Also, driving rules require context, so it is important to formally model the environment scenarios within which such rules apply. Existing benchmarks for evaluating autonomous vehicles lack such combinations of multi-objective prioritized rules and formal environment models. In this work, we introduce ScenicRules, a benchmark for evaluating autonomous driving systems in stochastic environments under prioritized multi-objective specifications. We first formalize a diverse set of objectives to serve as quantitative evaluation metrics. Next, we design a Hierarchical Rulebook framework that encodes multiple objectives and their priority relations in an interpretable and adaptable manner. We then construct a compact yet representative collection of scenarios spanning diverse driving contexts and near-accident situations, formally modeled in the Scenic language. Experimental results show that our formalized objectives and Hierarchical Rulebooks align well with human driving judgments and that our benchmark effectively exposes agent failures with respect to the prioritized objectives. Our benchmark can be accessed at https://github.com/BerkeleyLearnVerify/ScenicRules/ .

💡 Analysis

**

1. 연구 배경 및 필요성

  • 다목적 충돌: 실제 도로에서는 충돌 회피 vs 차선 유지, 승객 편안함 vs 도로 규칙 등 목표 간 충돌이 빈번히 발생한다. 기존 평가 지표는 대부분 단일 목표(충돌률, L2 거리 등) 혹은 가중합 형태로 우선순위를 암묵적으로만 반영한다.
  • 명시적 우선순위: Rulebook

📄 Content

실제 자율주행은 우선순위가 서로 다른 여러 목표들을 동시에 관리해야 하며, 이들 목표는 종종 충돌 관계에 놓입니다. 그림 1a는 Waymo 자율주행 차량을 예시로 든 사례를 보여줍니다[1]. 자전거 차선에 있던 스쿠터 이용자가 갑자기 도로 중앙으로 넘어와 차량 앞에 나타났습니다. 충돌을 피하기 위해 차량은 왼쪽 인접 차선으로 급히 차선을 변경했으며, 이 과정에서 반대 방향 차선까지 거의 침범하게 되었습니다. 이 상황에서 차량은 **‘라이더와의 충돌 회피’**와 **‘차선 유지’**라는 두 목표를 동시에 만족시킬 수 없으므로, 충돌 회피 목표에 더 높은 우선순위를 부여합니다. 그림 1b는 또 다른 사례를 보여줍니다[2]. Tesla 자율주행 차량이 큰 물웅덩이를 피하기 위해 맞은편 차선으로 진입하면서 승차감 향상을 도모합니다. 여기서는 **‘올바른 차선 유지’**와 **‘승차감 향상’**이라는 목표가 충돌하고, 차량은 승차감 향상 목표에 우선순위를 둡니다. 이러한 예시들은 다중 목표와 그 우선순위 관계, 그리고 환경 맥락을 명시적으로 지정하는 것이 자율주행 시스템을 평가할 때 얼마나 중요한지를 강조합니다.


다중 목표 기반 자율주행 평가를 위한 벤치마크의 핵심 요구사항

현대의 복잡한 교통 환경에서 자율주행 시스템을 효과적으로 평가하고, 목표 간 현실적인 트레이드‑오프를 포착하려면 벤치마크는 다음 세 가지 요구사항을 만족해야 합니다.

  1. 다양한 목표를 정량적 지표 혹은 Boolean 속성으로 형식화하고, 위반 정도를 측정할 수 있어야 합니다.
  2. 목표 간 우선순위 관계를 표현할 수 있는 명세 프레임워크를 제공해야 합니다. 이 프레임워크는 해석 가능하고, 조작이 쉬우며, 시나리오마다 다른 선호도를 반영하도록 쉽게 적응 가능해야 합니다.
  3. 교통 시나리오를 표현하는 풍부한 모델을 사용해, 다중 목표 명세 하에서 자율주행 시스템을 평가하고, 경쟁 목표를 균형 있게 조정하는 능력을 검증할 수 있어야 합니다.

1️⃣ 목표 형식화와 위반 정도 측정

기존 연구와 한계

이전 연구들은 교통 규칙을 Boolean 속성이나 정량적 지표로 형식화하려는 시도를 했습니다[3]–[8]. 그러나 대부분은 실제 운전 행동에서 규칙 위반을 정확히 포착하는지 검증하지 못했습니다.

우리의 접근

본 논문에서는 다양한 운전 규칙을 형식화할 뿐 아니라, 선택된 규칙에 대해 대안 정의를 제공합니다. 이는 서로 다른 규칙 정의가 평가 결과에 어떤 영향을 미치는지 조사할 수 있는 기반을 마련합니다. 또한 위반 정도를 정밀하고 세분화된 방식으로 측정하기 위해 새로운 정량적 지표를 설계했습니다.


2️⃣ 우선순위 관계를 다루는 명세 체계

기존 벤치마크의 문제점

대다수 기존 자율주행 벤치마크는 단일 목표에만 초점을 맞추거나([9]–[11]), 다중 목표를 고려하더라도 우선순위 관계를 모델링하지 못합니다([12]–[17]).

Rulebook 구조 도입

우리는 Rulebook 구조[18]를 채택해 목표 간 우선순위 관계를 명시합니다. 더 나아가 Hierarchical Rulebook 프레임워크를 설계해, 다양한 운전 상황에 유연하게 적용하면서도 해석 가능성을 유지하도록 했습니다.


3️⃣ 시나리오 표현과 대표성 확보

데이터 중심 접근의 한계

많은 운전 데이터셋이 인간 운전 데이터를 대량 수집하지만([9]–[14], [19]–[21]), 불완전하거나 검증에 비효율적인 문제가 있습니다.

코어셋 선택과 LLM 활용

우리 벤치마크에서는 코어셋 선택[22], [23] 개념을 적용해 대표성을 유지하면서도 규모를 축소한 시나리오 집합을 구성합니다. 또한 대형 언어 모델(LLM)을 이용한 파이프라인을 통해 실제 충돌 보고서에서 near‑accident 시나리오를 재구성하고, 이를 통해 위험 상황에서의 에이전트 평가가 가능하도록 했습니다.

Scenic 프로그래밍 언어

모든 시나리오는 Scenic[24], [25] 언어로 기술됩니다. Scenic은 복잡한 교통 상황을 추상적으로 모델링하고, 입력 파라미터를 다양하게 변형해 무수히 많은 구체 시나리오를 확률적으로 생성할 수 있어 시뮬레이션 기반 검증에서 파라미터 수준의 커버리지를 제공합니다.


주요 기여

  • ScenicRules 벤치마크를 제안합니다. 이는 Scenic 프로그램과 Rulebook 명세를 결합한 최초의 벤치마크이며, 다중 목표·우선순위 기반 명세 프레임워크와 표현력 높은 시나리오 모델링을 동시에 제공합니다.
  • 다양한 자율주행 목표 19개를 수집·형식화하고, 정량적 위반 측정 지표를 설계했습니다(섹션 IV‑A).
  • Hierarchical Rulebook 프레임워크를 설계해 다중 목표를 계층적으로 인코딩하면서도 해석 가능·확장 가능·다양한 운전 상황에 적응하도록 했습니다(섹션 IV‑B).
  • 대표적·위험한 Scenic 시나리오 집합을 구축해, 경량이면서도 포괄적인 테스트베드를 제공했습니다(섹션 IV‑C).

실험 결과 (섹션 V)

  • 공개 데이터셋[3]에 포함된 인간 궤적 선호 데이터를 이용해 목표 형식화와 Hierarchical Rulebook을 검증했습니다. 결과는 우리의 형식화가 실제 운전 행동과 일치함을 보여줍니다.
  • 생성된 시나리오의 다양성·대표성을 분석하고, 기존 자율주행 에이전트를 평가했습니다. 벤치마크는 우선순위가 부여된 목표에 대한 에이전트 위반을 효과적으로 포착함을 확인했습니다.

기존 벤치마크와의 비교

다양한 자율주행 벤치마크가 제안되었습니다[26].

  • Waymo Open Motion Dataset, Argoverse 2, nuScenes 등은 인식·예측에 초점을 맞추며 시스템‑레벨 평가에는 부적합합니다.
  • Lyft Level 5, M³ CAD 등은 충돌률·L2 거리 등 여러 지표를 사용하지만 목표 간 우선순위 개념을 도입하지 못합니다.
  • Common‑Road, nuPlan, NAVSIM 등은 다중 목표를 가중치 기반 단일 비용 함수로 결합하지만, 명시적인 우선순위 관계를 표현하지 못합니다.

Rulebook 구조[18]는 이러한 한계를 극복하기 위해 제안된 방법이며, 최소 위반 계획[29]·위험 시나리오 식별[30] 등에 활용되었습니다. 본 논문은 기존 연구를 확장해 다양한 시나리오와 목표를 포괄하는 종합 벤치마크를 제공한다는 점에서 차별화됩니다.


기술적 배경

Signal Temporal Logic (STL)

STL은 실시간·실값 제약을 포함한 Linear Temporal Logic(LTL)의 확장입니다. 본 논문에서는 **‘Eventually(F)’**와 ‘Globally(G)’ 연산자를 사용합니다.

  • 신호 (x : T \rightarrow \mathbb{R}^n) (시간 도메인 (T), 구간 (I), STL 공식 (\varphi))
  • 위반 정도STL robustness[34], [35]를 통해 정량화됩니다. 자세한 정의는 부록 A에 제시합니다.

Rulebook 정의

Rulebook은 목표 집합우선순위 관계를 나타내는 방향성 그래프(G = (V, E)) 로 구성됩니다. 각 정점 (v \in V)은 목표를, 간선 ((v_1, v_2) \in E)는 (v_1)이 (v_2)보다 높은 우선순위를 가짐을 의미합니다(그림 2 참고).

Error Value

Chang 등[4]은 Error Value를 제안해 Rulebook 위반 정도를 정량화합니다.

정의 2 (Error Value). 목표 (r)의 error weight는 (2^{m_r})이며, 여기서 (m_r)는 (r)보다 낮은 우선순위를 가진 목표 수입니다. 신호 (x)에 대해, 위반된 모든 목표의 error weight를 합산한 값이 error value이며, 값이 클수록 Rulebook 위반이 심함을 의미합니다.

예시: 그림 2에서 위에서부터 차례로 error weight가 (2^3, 2^2, 2^0, 2^0)이며, 충돌과 오른쪽 클리어런스를 위반하지 않은 경우 error value는 (2^3 + 2^0 = 9)이 됩니다.

Scenic

Scenic은 자율 시스템·로봇 환경을 모델링하기 위한 도메인‑특화 확률 프로그래밍 시스템입니다[24], [25]. 그림 3은 자율주행을 위한 Scenic 프로그램 예시를 보여줍니다. 주요 특징은:

  • 도로 이용자(차량, 보행자, 자전거 등)·도로망 구조·고수준 행동·저수준 제어를 포괄적으로 모델링.
  • CARLA, MetaDrive 등과 연동돼 시뮬레이션과 평가를 원활히 수행.
  • 파라미터 범위 지정을 통해 하나의 프로그램이 다양한 시나리오를 생성하도록 함. 이는 벤치마크 구축에 최적인 특성입니다.

벤치마크 구축 절차

1) 목표 수집 및 형식화 (섹션 IV‑A)

문헌[3]–[7]에서 19개의 자율주행 목표를 수집하고, 표 I에 정리했습니다. 이는 현재까지 가장 포괄적인 규칙 집합이며, 향후 확장을 염두에 두고 설계되었습니다.

각 목표는 다음 두 가지를 제공하도록 형식화했습니다.

  1. 위반 여부 판단 (Boolean)
  2. 위반 정도 정량화 (Violation Score, VS)

STL은 이러한 두 기능을 모두 지원하는 편리한 도구이며, 우리는 STL 기반목표 함수 기반 두 가지 방식을 모두 허용합니다. 예시를 세 가지 제시합니다.

  • **Rule 3

이 글은 AI가 자동 번역 및 요약한 내용입니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키