다중목표 인간 휴리스틱을 활용한 자동 보상 형태 변환
읽는 시간: 2 분
...
📝 원문 정보
- Title: Automatic Reward Shaping from Multi-Objective Human Heuristics
- ArXiv ID: 2512.15120
- 발행일: 2025-12-17
- 저자: Yuqing Xie, Jiayu Chen, Wenhao Tang, Ya Zhang, Chao Yu, Yu Wang
📝 초록 (Abstract)
** 보상 함수를 설계하는 일은 특히 다중목표 환경에서 강화학습의 핵심 과제이다. 본 연구에서는 인간이 설계한 여러 휴리스틱 보상을 자동으로 결합해 하나의 통합 보상 함수로 만드는 일반화된 프레임워크인 *Multi‑Objective Reward Shaping with Exploration* (MORSE)를 제안한다. MORSE는 보상 형태 변환 과정을 이중 최적화 문제로 정의한다. 내부 루프에서는 현재 형태가 변환된 보상을 최대화하도록 정책을 학습하고, 외부 루프에서는 작업 성능을 최적화하도록 보상 함수를 업데이트한다. 보상 공간에서의 탐색을 촉진하고 지역 최적점에 머무르는 것을 방지하기 위해, MORSE는 작업 성능과 고정된 무작위 초기화 신경망의 예측 오류에 의해 가이드되는 노이즈를 주입해 형태 변환 과정에 확률성을 도입한다. MuJoCo와 Isaac Sim 환경에서 수행한 실험 결과, MORSE는 다양한 로봇 과제에서 여러 목표를 효과적으로 균형 맞추며, 수동으로 튜닝한 보상 함수와 동등한 수준의 작업 성능을 달성함을 보여준다.**
💡 논문 핵심 해설 (Deep Analysis)

본 논문은 강화학습(RL)에서 가장 오래된 난제 중 하나인 ‘보상 설계’를 다중목표 상황에 적용해 새로운 해법을 제시한다는 점에서 학술적·실용적 의의가 크다. 기존 연구들은 보통 단일 목표에 초점을 맞추거나, 여러 목표를 가중합 형태로 단순히 결합한다. 그러나 가중치 선택이 작업마다 크게 달라지며, 잘못된 가중치 설정은 학습을 방해하거나 원치 않는 행동을 유도한다. MORSE는 이러한 문제를 ‘휴리스틱 보상’이라는 인간 전문가가 제공하는 여러 부분 보상들을 자동으로 조합한다는 점에서 차별화된다.
1. 이중 최적화 구조
- 내부 루프(Policy Optimization): 현재 형태가 변환된 보상 (R_{\theta})를 사용해 정책 (\pi_{\phi})를 강화학습 알고리즘(예: PPO, SAC)으로 학습한다. 여기서 (\theta)는 보상 형태 변환 파라미터이며, (\phi)는 정책 파라미터다.
- 외부 루프(Reward Optimization): 정책이 일정 에피소드를 수행한 뒤, 실제 환경 목표(예: 목표 위치 도달, 에너지 소비 최소화 등)와의 차이를 기반으로 보상 파라미터 (\theta)를 업데이트한다. 즉, 보상 함수 자체를 ‘메…