희소 위협 집중 방어 위험도 인식 강인 강화학습을 통한 안전한 자율주행

읽는 시간: 2 분
...

📝 원문 정보

  • Title: Sparse Threats, Focused Defense: Criticality-Aware Robust Reinforcement Learning for Safe Autonomous Driving
  • ArXiv ID: 2601.01800
  • 발행일: 2026-01-05
  • 저자: Qi Wei, Junchao Fan, Zhao Yang, Jianhua Wang, Jingkai Mao, Xiaolin Chang

📝 초록 (Abstract)

강화학습(RL)은 자율주행(AD) 분야에서 큰 잠재력을 보여주지만, 외부 교란에 취약한 점이 실제 적용을 가로막는 주요 장애물이다. 주요 대응책으로서 적대적 학습은 의도적으로 교란을 가하는 적을 포함시켜 정책의 강인성을 향상시킨다. 기존 방법은 대부분 연속적인 공격을 가정한 제로섬 게임으로 모델링해 왔으며, 이는 에이전트와 적대자 사이의 비대칭성을 무시하고 안전에 치명적인 위험이 드물게 발생한다는 사실을 반영하지 못한다. 이러한 한계를 극복하고자 본 논문은 희소하고 안전에 중요한 위험을 다루는 새로운 적대적 학습 프레임워크인 Criticality‑Aware Robust RL(CARRL)을 제안한다. CARRL은 위험 노출 적대자(REA)와 위험 목표 강인 에이전트(RTRA)라는 두 구성요소로 이루어지며, 이들 간의 상호작용을 일반합 게임으로 모델링한다. REA는 제한된 교란 예산 하에서 충돌과 같은 안전‑중심 실패를 집중적으로 노출시키는 최적화 메커니즘을 사용하고, RTRA는 적은 양의 적대적 데이터를 보완하기 위해 정상 경험과 적대적 경험을 동시에 활용하는 이중 리플레이 버퍼와 정책 일관성 제약을 도입한다. 실험 결과, 제안 방법은 기존 최첨단 기법 대비 모든 테스트 시나리오에서 충돌률을 최소 22.66% 감소시켰다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
본 논문은 자율주행 시스템에 적용되는 강화학습의 강인성 문제를 ‘희소 위험’이라는 새로운 관점에서 접근한다는 점에서 학술적·실용적 의의가 크다. 기존 적대적 강화학습 연구들은 대부분 연속적인 교란을 가정하고 제로섬 게임 형태로 적과 에이전트가 대등하게 경쟁하도록 설계하였다. 그러나 실제 도로 환경에서는 교란이 언제, 어디서 발생하는지가 매우 제한적이며, 대부분의 상황은 정상적인 주행이다. 이런 상황을 무시하고 연속적인 교란을 가정하면, 학습 과정에서 과도한 교란에 대한 방어에 치중하게 되고, 결과적으로 실제 도로에서 발생하는 드물지만 치명적인 사고(예: 급정거 차량과의 충돌)를 충분히 대비하지 못한다는 한계가 있다.

CARRL은 이러한 비대칭성을 반영해 ‘일반합 게임’으로 모델링함으로써 적대자와 에이전트의 목표가 반드시 상반될 필요가 없음을 명시한다. 위험 노출 적대자(REA)는 제한된 교란 예산(예: 시간당 몇 번의 교란) 내에서 ‘안전…

📄 논문 본문 발췌 (Translation)

...(본문 내용이 길어 생략되었습니다. 사이트에서 전문을 확인해 주세요.)

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키