강화학습(RL)은 자율주행(AD)에서 상당한 잠재력을 보여주었지만, 그 취약성이 실제 배포에 있어 중요한 장애물로 작용하고 있다. 주요 대응책으로서 적대적 훈련은 악의적으로 변동을 도입하는 대립자와 함께 AD 에이전트를 훈련시켜 정책의 강건성을 개선한다. 기존 접근 방식들은 일반적으로 연속적인 공격을 포함한 영합 게임으로 상호 작용을 모델링하지만, 이러한 설계는 에이전트와 대립자 간의 내재된 비대칭성과 안전에 중점을 둔 위험이 희박하다는 점을 무시하여 실제 AD 시나리오에서 충분한 강건성을 제공하지 못한다. 이러한 제약점을 해결하기 위해 우리는 CARRL(Criticality-aware Robust RL), 즉 자율주행에서 희박하고 안전에 중점을 둔 위험을 관리하는 새로운 적대적 훈련 접근법을 도입한다. CARRL은 위험노출 대립자(REA)와 위험타겟 강건 에이전트(RTRA)라는 두 가지 상호작용 요소로 구성된다. REA와 RTRA 간의 상호 작용은 일반 합 게임으로 모델링되어, REA는 안전에 중점을 둔 실패(예: 충돌)를 노출하는 데 집중하고, RTRA는 안전과 주행 효율성을 균형 있게 배분하도록 학습한다. REA는 제약된 예산 하에서 희박한 안전 위험을 더 잘 식별하고 활용하기 위해 분리된 최적화 메커니즘을 사용한다. 그러나 이러한 집중적인 공격은 적대 데이터의 부족으로 이어진다. RTRA는 양호한 경험과 적대적 경험이 결합된 복수 재생 버퍼를 통해 그러한 데이터 부족을 극복하고, 변동 하에서 정책 일관성을 강제하여 행동을 안정화한다. 실험 결과는 우리의 접근법이 최신 베이스라인 방법보다 모든 사례에서 충돌률을 적어도 22.66% 줄일 수 있음을 보여준다.
💡 논문 해설
1. **일반합 마르코프 게임 구조**: 본 논문은 자율 주행에서 안전과 효율성을 동시에 추구하는 새로운 접근 방식을 제안합니다. 이는 두 플레이어가 상호작용하는 일반합 마르코프 게임의 형태로 정의되며, 이론적으로 안전한 운전을 보장하면서도 최적의 주행 경로를 찾아냅니다.
2. **위험 노출 적대자와 분리된 최적화**: 위험 노출 적대자는 제한적인 공격 예산 내에서 가장 위험한 순간에만 공격을 실행하도록 설계되었습니다. 이는 마치 운전자가 길에서 가장 어려운 구간을 찾아내어 대비하는 것과 같습니다.
3. **위험 대응 에이전트와 일관성 제약 정책 최적화**: 위험 대응 에이전트는 적대적인 상황에서도 안정적으로 학습하고, 운행 성능을 유지하도록 설계되었습니다. 이를 통해 자동차는 다양한 상황에서 안전하게 주행할 수 있습니다.
📄 논문 발췌 (ArXiv Source)
Shell *et al.*: IEEEtran.cls를 사용한 샘플 논문
적대 공격, 자율 주행, 심층 강화 학습,
안전 보장
서론
심층 강화 학습(DRL)은 고차원 관측에서 복잡한 의사결정 정책을 학습하고 상호 작용하는 교통 환경에서 장기적인 목표를 최적화하도록 자율 주행(AD)의 핵심 패러다임으로 자리 잡았다. 그러나 DRL 기반 운전 정책은 여전히 관측 편차나 인지 불확실성에 매우 취약하며, 이는 심각한 제어 편차를 유발하고 안전 비판적인 실패를 초래할 수 있다. 이러한 취약점은 DRL 기반 AD 정책을 실제 환경에서 안전하고 신뢰할 수 있게 배포하는데 있어 중대한 우려 사항이다.
이러한 위험을 완화하기 위해, 현존하는 연구는 인공 적대자에게 에이전트의 관측에 편차를 주입하여 DRL 기반 운전 정책의 취약성을 폭로하는 방식으로 이러한 위협을 시뮬레이션한다. 그 결과, 적대적 학습은 정책 학습 과정에서 도전적인 편차에 노출함으로써 강건성(Robustness)을 개선하기 위한 주요 접근법으로 등장하였다. 그러나 현재의 적대적 학습 방법이 달성한 진척에도 불구하고, 여전히 몇 가지 근본적인 제약 사항이 남아 있다.
첫째로, 대부분의 이전 연구는 에이전트와 적대자 간의 상호 작용을 제로섬 게임으로 정식화한다. 그러나 AD에서 에이전트의 목표는 본질적으로 다차원적이며, 안전뿐만 아니라 효율성, 편안함 및 작업 완료를 포함한다. 반면에 현실적인 적대자는 주로 안전 비판적 실패를 유발하는 것을 목표로 한다. 제로섬 가정은 이러한 본질적으로 불일치한 목표들을 혼합하고 실제 최악의 공격 정책에서 적대자를 왜곡시킬 수 있다. 결과적으로, 적대자는 비비판적인 편차를 생성하여 결국 적대적 학습의 효과성을 저하시킨다.
둘째로, 대부분의 기존 접근법은 적대적 편차를 연속 편차로 모델링한다. 그러나 실제 세계에서 운전은 안전 위험이 주로 드물고 비판적인 순간에 집중되어 있으며 시간이 지남에 따라 균일하게 발생하지 않는다. 이러한 연속 공격 설정은 현실적이지 않으며, 에이전트가 지속적으로 편차에 노출되는 학습 과정을 왜곡시킬 수 있다.
최근 연구는 이러한 드문 취약점을 이용하는 비판적 공격 정책의 효과성을 성공적으로 입증했지만, 대응 방어 기법은 여전히 거의 탐구되지 않았다. 안전 비판적인 순간에 적대적 학습을 집중시키면 모든 시간 단계에서 일관되게 적용하는 것보다 더 효과적이며 실제로 실패가 발생하는 곳에 방어력을 집중시킨다. 그럼에도 불구하고, 이 학습 패러다임은 새로운 도전을 제기한다: (i) 공격 빈도의 감소로 인해 적대적 샘플의 가용성이 크게 제한되어 에이전트가 견고한 정책을 학습하는 것이 어려워진다; 그리고 (ii) 무해하고 적대적인 경험의 공존은 안정적인 정책 수렴을 보장하면서 운전 행동을 왜곡하지 않도록 세심하게 구조화된 학습 제약이 필요하다.
이러한 격차를 해소하기 위해, 우리는 드문 순간에도 불구하고 안전 비판적 위험에 집중하는 강건한 강화학습(CARRL)을 제안한다. CARRL은 위험 노출 적대자(REA)와 위험 대응 강건 에이전트(RTRA)라는 두 구성 요소를 포함한다. 먼저, 우리는 REA와 RTRA 간의 상호 작용을 일반합 마르코프 게임(GMG)으로 정식화한다. 이 구조는 REA가 안전 비판적 취약점을 식별하고 활용하는 데 집중하도록 허용하며, 동시에 RTRA는 안전과 효율성을 최적화할 수 있다. REA에 대해서는 적대적 공격 정책을 학습하도록 설계되어 언제 그리고 어떻게 공격해야 하는지 결정한다. 이 집중된 공격 전략은 본질적으로 드문 적대적 데이터를 생성하므로, RTRA는 이러한 부족함을 극복하고 무해한 조건과 비판적인 상황 모두에서 안정적인 운전 행동을 보장하도록 설계되었다.
그림 1은 CARRL을 기존 패러다임과 비교하고 그 주요 혁신들을 강조한다. 우리의 지식에 따르면, CARRL은 안전 비판적 위험에 대한 방어를 집중시키는 최초의 접근법이다. CARRL은 강건한 AD를 위한 새로운 패러다임을 수립하고, 방어 정책을 일반화에서 집중화로 바꾸며 실제 운전에서 안전성을 개선하는 비판적 강건성의 가능성을 보여준다.
이 논문의 주요 기여는 다음과 같습니다:
일반합 마르코프 게임 구조: 우리는 CARRL을 제안하며, 이는 RTRA와 REA 간 상호 작용을 GMG로 정식화하는 새로운 DRL 기반 접근법이다. 이 구조는 제로섬 가정의 한계를 극복하고 REA가 엄격히 최악의 경우에 대한 전략을 추구하도록 하며, RTRA는 안전과 효율성을 동시에 균형있게 추구할 수 있다.
위험 노출 적대자와 분리된 최적화: 우리는 제한적인 공격 예산 내에서 안전 비판적 취약점을 활용하도록 설계된 REA를 제안한다. REA의 행동 결정에 조건부 의존성을 해결하기 위해, 우리는 공격이 없는 시간 단계에서는 무관한 기울기를 필터링하는 분리된 최적화 메커니즘을 도입하여 REA 학습의 정밀도와 효율성에 크게 향상시킨다. 결과적으로, REA는 가장 안전 비판적인 순간을 선택적으로 공격하도록 설계된다.
위험 대응 에이전트와 일관성 제약 정책 최적화: REA의 설계로 인한 적대적 데이터 부족을 해결하기 위해 RTRA는 두 가지 핵심 메커니즘으로 장비된다: 이중 재생 버퍼(DRB)와 일관성 제약 정책 최적화(CCPO). DRB은 무해하고 적대적인 경험의 분포를 균형있게 조정하여 데이터 불균형을 완화하며, CCPO는 적대적 편차 하에서 행동의 일관성을 보장한다. 이 공동 설계는 안정적인 정책 수렴과 견고한 운전 성능을 효과적으로 확보한다.
CARRL의 개념적 비교, 기존 패러다임에 대한 우위를 강조합니다.
다양한 편차 크기, 교통 밀도 및 공격 방법 하에서 수행된 광범위한 경험적 평가들은 CARRL의 우수한 견고성과 강력한 일반화 능력을 검증한다. 기본 교통 밀도와 편차 크기에 따라 우리의 접근법은 충돌률이 3.67%를 달성하며, 기준선 대비 46.1% 감소를 보여준다. 다양한 교통 밀도 하에서는 CARRL이 성공률에서 최소 26.5%의 우위를 유지한다. 특히 우리의 접근법은 제안된 공격뿐만 아니라 연속적인 공격 설정에서도 견고성을 나타내며, 이 경우 상태-of-the-art 방법과 동일한 성공률을 달성하면서 충돌률이 26.83% 감소하여 우수한 견고성 성능을 강조한다.
본 논문의 나머지 부분은 다음과 같이 구성된다.
제2장에서는 관련 연구를 검토하고,
제3장에서는 시스템 모델을 제시하며, CARRL의 구현은
제4장
에서 제공된다.
제5장에서는 실험 결과를 제공하며,
제6장에서는 논문을 결론짓는다.
관련 연구
DRL의 최근 발전은 AD에서 강력한 잠재력을 보여주었지만, 학습된 정책들은 여전히 적대적 편차와 안전 비판적인 불확실성에 취약하다. 따라서 이전 연구는 정책 약점을 폭로하고 안전성을 개선하기 위한 강건한 학습 전략을 탐구하였다. 본 절에서는 이 두 가지 방향의 대표적인 연구들을
제2.1절
와 제2.2절에서 검토한다.
DRL 기반 AD를 위한 적대 공격
최근 연구는 AD에서 DRL 정책의 취약성을 광범위하게 입증하였다. 관측 공간이나 환경 동력학에 엔지니어링된 편차를 통해 주행 에이전트가 얼마나 취약한지 특성화함으로써, 이러한 연구는 잘 훈련된 정책도 차선에서 벗어나거나 장애물을 충돌하는 등의 안전 비판적 실패로 이끌 수 있음을 드러낸다. 예를 들어, Buddareddygari *et al.*은 미분 가능한 환경 모델을 활용하여 정적인 물리 시각 패치를 최적화하고, 피해 차량이 목표 상태로 가게 한다. 유사하게, Pan *et al.*은 유한차분 기반 관측 편차와 도로 마찰 및 움푹 들어간 곳 프로필을 조작하여 에이전트를 불안정하게 하는 RL 기반 동력학 적대자를 탐구한다. 이러한 접근법들은 DRL 취약성을 폭로하지만, 종종 실용적이지 않은 연속적인 간섭에 의존한다. AD에서 안전 비판적 상황은 드물게 발생하므로, 이 중요한 순간에 공격을 집중시키는 것이 무차별 편차보다 더 효과적이다. 결과적으로 최근 연구들은 드문 공격 정책으로의 변화를 보여주고 있다. 예를 들어, Fan *et al.*은 엄격한 예산 제약 하에서 드문 공격을 위한 적응형 프레임워크를 제안한다. 전문가 지도 강화 학습 메커니즘을 활용하여 그들의 방법은 복잡한 시나리오에서 정책 취약성을 폭로하면서도 매우 적은 수의 공격만으로 효과적인 연속 공격 정책과 비교할 만큼 효과를 낸다. 이러한 결과는 AD에서 안전 실패가 종종 몇 개의 비판적 상태나 타이밍 윈도우에 의해 주도된다는 점을 강조한다.
위의 연구들은 DRL 기반 주행 정책의 취약성을 효과적으로 입증했지만, 방어 모델링과 실제 현실성 측면에서 분명한 한계가 있다. 특히 비판적 공격에 대한 방어 메커니즘은 거의 탐구되지 않았다. 따라서 드문 순간에도 불구하고 잘 정의된 적대적인 장애를 견디는 강건하고 신뢰할 수 있는 주행 정책을 학습하는 것은 여전히 개척 과제이다.
DRL 기반 AD 방법에 대한 적대 공격 대비
적대적 학습은 DRL 기반 AD 정책의 강건성을 향상시키기 위한 주요 패러다임으로 등장했다. 이 연구 분야에서 방어 문제는 일반적으로 제로섬 게임으로 정식화되며, 에이전트가 보상을 최대화하려고 하면서 적대자는 이를 최소화하려 한다. 대표적인 예시는 강건한 적대적 강화 학습이며, 여기서 편차는 반대 플레이어로 모델링되고, 에이전트는 최소-최대 목표 아래에서 학습한다. 이 패러다임을 기반으로, 후속 연구들은 제로섬 마르코프 게임 형식을 채택하여 편차를 모델화하고 보수적이지만 강건한 주행 정책을 얻는다. 예를 들어, He *et al.*은 자동차와 적대 환경 사이의 제로섬 마르코프 게임으로 AD를 정식화한다. 그들의 접근법에서 환경 편차는 에이전트 목표에 직접 반하는 적대적 행동으로 모델링되며, 주행 정책은 최악의 경우 편차에 대해 최적화된다. 이 제로섬 형식은 적대 조건 하에서 강건한 성능 보장을 가능하게 한다.
그러나 이러한 접근법들은 AD에 있어 과도한 제약을 가질 수 있다. 실제로, 적대자는 주로 안전 비판적인 실패를 유발하는 것을 목표로 하지만, 에이전트는 효율성과 안전 사이에서 균형을 맞추어야 한다. 이는 대립적 목표를 추구하도록 일반합 모델링으로의 변화를 촉발한다. 예를 들어, Fan *et al.*은 자동차와 적대자 간의 비대칭적인 목표와 제약 조건을 명시적으로 모델링하여 강건한 주행 제어를 개선하였다.
그러나 위에 언급된 방어 방법들은 대부분 무제한적이고 연속적인 적대 공격에 대비하도록 설계되어 있으며, 이러한 접근법은 실제 AD 시나리오와 잘 맞지 않는 경우가 많다. 실제로, 편차는 일반적으로 드문 몇 개의 비판적인 순간에 발생할 때만 치명적인 실패를 초래한다. 따라서 이 중요한 순간에 강건성을 우선시하면 모든 시간 단계에서 일관되게 방어력을 적용하는 것보다 안전성 향상이 크게 이루어진다. 최근 연구는 이러한 취약점을 이용하는 비판적 공격 정책을 탐구하기 시작했지만, 대응 방어 메커니즘의 개발은 여전히 거의 탐구되지 않았다.
이러한 격차를 동기로 하여, 우리는 CARRL이라는 새로운 적대 학습 접근법을 제안한다. 이 접근법은 안전 비판적 실패를 유발하도록 설계된 특정적인 공격을 실행할 수 있는 REA를 도입한다. 이에 따른 적대 샘플의 부족 문제를 해결하기 위해, CARRL은 RTRA에게 DRB와 CCPO를 장비하여 안정적인 정책 학습과 견고한 주행 성능을 가능하게 한다.
시스템 모델
이 절에서는 드문 순간에도 불구하고 구조화된 편차에 대한 강건한 AD 문제를 형식적으로 특성화한다. 그림 2에서 보듯이, 우리는 REA와 RTRA 간의 상호 작용을 통해 이 문제를 모델링한다. REA는 비판적인 순간에 편차를 생성하여 RTRA가 안전 비판적 실패로 이끌도록 하며, RTRA는 주행 목표를 달성하고 이러한 편차에 대해 강건성을 유지하도록 한다. 그들의 상호 작용은 제한된 공격 예산 내에서 REA와 RTRA가 안전 비판적인 순간을 찾아내고, RTRA는 무해한 경험과 적대적 경험을 결합하여 학습한다.
CARRL의 시스템 모델은 REA와 RTRA라는 두 구성 요소로 구성됩니다. 제한된 공격 예산 내에서 REA는 안전 비판적인 순간에 편차를 유발하도록 학습하고, RTRA는 무해한 경험과 적대적 경험을 결합하여 강건한 주행 정책을 학습합니다.
두 플레이어 일반합 마르코프 게임
우리는 REA와 RTRA 간의 상호 작용을 두 플레이어 일반합 마르코프 게임으로 정식화한다. 형식적으로, 이는 th # Limit to 15k chars for stability