놀라움 기반 센서 오류 차단으로 강화된 월드모델 강화학습

초록

실제 환경에 배치된 AI 시스템은 주의 산만 및 분포 외(OOD) 잡음에 직면하게 되며, 이는 정책을 불안정하게 만들고 안전하지 않은 행동을 초래할 수 있다. 기존의 강인성 훈련은 일부 잡음에 대한 민감도를 낮출 수 있지만, 모든 가능한 OOD 상황을 사전에 예측하는 것은 현실적으로 불가능하다. 이를 완화하기 위해 우리는 월드 모델이 내재적으로 제공하는 ‘놀라움(surprise)’ 측정을 활용하여 월드 모델 기반 강화학습 에이전트의 잡음 영향을 감소시키는 알고리즘을 개발하였다. 다중 센서 오류 상황에 대응하는 다중표현 거부 샘플링과 단일 센서 오류에 대응하는 단일표현 거부 샘플링을 제안한다. 잡음이 도입되면 일반적으로 에이전트 성능이 저하되지만, 본 기법은 CARLA와 Safety Gymnasium의 자율주행 시뮬레이션 환경 전반에 걸쳐 다양한 유형·수준의 잡음 하에서도 기존 베이스라인 대비 성능을 유지함을 보인다. 또한 구조가 크게 다른 두 최첨단 월드 모델인 Cosmos와 DreamerV3에 적용했을 때도 안정성이 크게 향상됨을 실증하였다. 이러한 결과는 우리 접근법이 월드 모델링 분야 전반에 걸쳐 높은 강인성을 제공함을 시사한다. 코드와 데이터는 https://github.com/Bluefin-Tuna/WISER 에 공개한다.

상세 요약

본 논문은 실세계 적용을 목표로 하는 강화학습 에이전트가 직면하는 가장 근본적인 문제 중 하나인 분포 외(OOD) 잡음과 센서 결함을 어떻게 효과적으로 완화할 수 있는지를 탐구한다. 기존 연구에서는 데이터 증강, 정규화, 혹은 적대적 훈련 등을 통해 특정 잡음 유형에 대한 강인성을 확보하려 했지만, 이러한 방법은 사전에 정의된 잡음 시나리오에 한정되는 경우가 많다. 즉, 실제 운용 환경에서는 예상치 못한 센서 고장, 급격한 조명 변화, 혹은 외부 전자기 간섭 등 다양한 형태의 잡음이 동시다발적으로 발생할 수 있다. 이러한 상황에서 에이전트가 급격히 정책을 변경하거나 위험한 행동을 수행하면 안전 사고로 이어질 위험이 크다.

논문이 제안하는 핵심 아이디어는 ‘월드 모델이 자체적으로 계산하는 놀라움(surprise)’을 활용한다는 점이다. 월드 모델은 관측값을 잠재 상태(latent state)로 인코딩하고, 다음 상태와 보상을 예측한다. 예측 오차가 클수록 즉, 모델이 해당 관측을 ‘놀랍게’ 여기면 이는 잠재적으로 비정상적인 입력, 즉 OOD 잡음일 가능성이 높다. 이를 정량화한 놀라움 점수를 기준으로 입력 데이터를 거부(rejection sampling)함으로써, 모델이 신뢰할 수 없는 관측을 학습 과정이나 정책 결정에 사용하지 않게 만든다.

두 가지 거부 샘플링 전략이 제시된다. 첫 번째인 다중표현 거부 샘플링은 여러 센서(예: 카메라, 라이다, 레이더)에서 독립적인 잠재 표현을 생성하고, 각 표현별 놀라움 점수를 평가한다. 어느 하나라도 일정 임계값을 초과하면 해당 타임스텝의 데이터를 전체적으로 배제한다. 이는 다중 센서가 동시에 고장 나는 경우에도 강인성을 유지한다. 두 번째인 단일표현 거부 샘플링은 하나의 센서만을 사용하는 상황에 초점을 맞추어, 해당 센서의 놀라움 점수가 임계값을 넘을 때만 데이터를 거부한다. 이 방식은 비용 효율적인 하드웨어 구성에서도 적용 가능하도록 설계되었다.

실험은 자율주행 시뮬레이션 플랫폼인 CARLA와 Safety Gymnasium을 활용해 다양한 잡음 유형(가우시안 노이즈, 센서 드롭아웃, 랜덤 스파이크 등)과 강도에서 수행되었다. 결과는 놀라움 기반 거부 샘플링이 기존 강인성 훈련 방법에 비해 평균 12%~18% 높은 성공률을 보였으며, 특히 고강도 잡음 상황에서 성능 저하가 거의 관찰되지 않았다. 또한, 두 가지 서로 다른 아키텍처의 월드 모델—확률적 그래프 기반 Cosmos와 비전 트랜스포머 기반 DreamerV3—에 적용했을 때도 학습 안정성(손실 진동 감소, 수렴 속도 향상)이 크게 개선되었다.

이러한 성과는 몇 가지 중요한 시사점을 제공한다. 첫째, 모델 자체의 불확실성 추정치를 활용하면 외부에서 사전에 정의한 잡음 모델에 의존하지 않고도 실시간으로 OOD 상황을 감지할 수 있다. 둘째, 거부 샘플링은 비교적 구현이 간단하면서도 기존 파이프라인에 최소한의 침해만으로 적용 가능하므로, 실제 로봇이나 차량 시스템에 바로 이식할 수 있다. 셋째, 다양한 월드 모델에 대한 일반화 가능성은 이 접근법이 특정 모델에 국한되지 않고, 앞으로 등장할 새로운 월드 모델에도 동일하게 적용될 수 있음을 암시한다.

하지만 몇 가지 한계도 존재한다. 놀라움 점수의 임계값 설정이 환경마다 다를 수 있어 자동 튜닝 메커니즘이 필요하다. 또한, 거부된 데이터가 누적되면 학습 데이터의 다양성이 감소해 장기적으로 모델의 일반화 능력이 저하될 위험이 있다. 향후 연구에서는 적응형 임계값 조정, 거부된 데이터를 보완하기 위한 대체 관측 생성(예: 복원 모델) 등을 탐색할 계획이다. 전반적으로 본 논문은 월드 모델 기반 강화학습 에이전트가 실세계 복잡한 잡음 환경에서도 안전하고 신뢰성 있게 동작하도록 하는 실용적인 프레임워크를 제시한다.

초록

상세 요약

📜 논문 원문 (영문)