연속 시공간 임파워먼트를 활용한 물리 기반 안전 강화 학습

본 논문은 모바일 로봇 에이전트가 복잡한 환경에서 안전하게 탐색하도록 돕는 새로운 강화학습 프레임워크인 C‑STEP(Continuous Space‑Time Empowerment)을 제안한다. 먼저, 기존 정보이론 기반 임파워먼트가 이산·확률적 시스템에만 적용 가능하다는 한계를 지적하고, 연속·결정론적 시스템에 맞는 정의를 재구성한다. 작은 잡음을 가정해 조건 엔트로피를 유한하게 만든 뒤, 최적 입력이 도달 가능한 상태 집합을 균등하게 채우는 경우 로그 부피가 최대가 된다는 수학적 근거를 제시한다(정리 1). 이를 바탕으로 ‘CST‑Empowerment’라는 개념을 도입해, 시간 호라이즌 T 내에 충돌 없이 도달 가능한 상태 집합 R_T,free(x)의 부피 λ(R_T,free(x))의 로그를 안전 지표로 정의한다. 안전 보상은 기존 목표 보상 r_d(x)와 로그 부피를 곱한 형태 r(x)=r_d(x)·log(c·λ(R_T,free(x))) 로 설계된다. 여기서 c는 사용자가 조정 가능한 안전 계수이며, 값이 작을수록 안전성을 크게 강조한다. 이 보상은 (1) 시스템의 내부 상태(속도·가속도 등)와 전방 동역학을 직접 활용해 물리‑정보 기반 내재 보상을 제공하고, (2) 외부 지도나 사전 장애물 정보 없이도 충돌 가능성을 평가한다는 장점을 가진다. 알고리즘 1은 샘플링 기반으로 N개의 제어 궤적을 시뮬레이션해 최종 위치를 두 집합(R: 충돌 없는 궤적, T: 충돌 궤적)으로 구분하고, 각각의 볼륨을 근사한다. 호라이즌 T는 시스템의 최악 정지 시간으로 설정해 과도한 충돌을 방지하고, 샘플 수 N은 계산 비용과 근사 정확도 사이의 트레이드오프를 고려해 선택한다. 실험에서는 2‑DoF 구형 로봇이 목표 지점까지 이동하는 2D 포인트 미로와 3D 복합 환경을 사용하였다. PPO 기반 정책 학습에 C‑STEP 보상을 적용한 ‘empowered’ 에이전트는 좁은 경로 대신 넓은 경로를 선택해 충돌 횟수가 크게 감소했으며, 평균 이동 시간은 미미하게 증가했다. 이는 C‑STEP이 도달 가능한 부피를 최대화하려는 경향이 안전한 영역을 선호하게 만든 결과이다. 반면, 기존 보상만 사용한 ‘unempowered’ 에이전트는 더 빠른 경로를 선택하지만 충돌 위험이 높았다. 또한, C‑STEP은 기존 안전 RL 방법이 제약 기반 보상이나 차폐 함수를 통해 정책을 제한하는 것과 달리, 보상 자체에 안전성을 내재화함으로써 학습 과정에서 자연스럽게 안전한 행동을 유도한다. 이는 정책 탐색의 자유도를 유지하면서도 안전성을 보장할 수 있는 장점으로, 다양한 로봇 시스템에 적용 가능성을 시사한다. 논문은 마지막으로 C‑STEP의 한계와 향후 연구 방향을 논의한다. 현재는 샘플링 기반 근사가 계산 비용이 크게 소요될 수 있으며, 고차원 복합 로봇이나 동적 장애물 환경에서는 효율적인 샘플링 전략이 필요하다. 또한, 실시간 온라인 적용을 위한 근사 업데이트 방법과 다른 안전 RL 프레임워크와의 통합 연구가 제안된다. 전반적으로 C‑STEP은 연속·결정론적 시스템에 적합한 새로운 임파워먼트 정의와 물리‑정보 기반 내재 보상 설계를 통해 안전 강화 강화 학습 분야에 의미 있는 기여를 한다.

연속 시공간 임파워먼트를 활용한 물리 기반 안전 강화 학습

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기