다중목표 강화학습을 통한 비선형 평균보상 최적화
본 논문은 여러 목표의 장기 평균 보상의 비선형 결합을 최적화하는 새로운 강화학습 프레임워크를 제시한다. 마르코프성 가정이 깨지는 상황에서도 모델 기반과 모델 프리 두 가지 알고리즘을 설계하고, 모델 기반 방법에 대해 $\tilde O\!\left(LKDS\sqrt{A/T}\right)$ 형태의 서브선형 레지스트 경계를 증명한다. 공정성 기반 셀룰러 스케줄링 및 교통 큐잉 시스템 실험을 통해 기존 SARSA, DQN 등 전통적 RL 방법보다 현…
저자: Mridul Agarwal, Vaneet Aggarwal
본 논문은 다중 목표를 가진 장기 평균 보상의 비선형 결합을 최적화하는 새로운 강화학습 프레임워크를 제안한다. 기존 마르코프 결정 과정(MDP)은 보상이 시간에 따라 누적(additive)될 때만 벨만 최적 방정식을 적용할 수 있다. 그러나 실제 시스템에서는 공정성, α‑fairness, 위험 회피 등과 같이 보상의 평균값에 비선형 함수를 적용해야 하는 경우가 많다. 이러한 경우 현재 상태와 행동만으로는 충분히 표현되지 않아 “비마코프 의사결정 과정”이라 부르는 새로운 문제 설정이 필요하다.
논문은 먼저 문제를 수학적으로 정의한다. 상태 집합 $S$, 행동 집합 $A$, 전이 확률 $P$, 그리고 $K$개의 보상 함수 $r_k(s,a)$가 주어진다. 각 목표 $k$에 대해 장기 평균 보상 $\lambda_{P,k}^\pi$ 를 정의하고, 이를 하나의 비선형 함수 $F(\lambda^\pi)$ 로 결합한다. $F$ 가 $L$‑Lipschitz 연속이며 볼록(concave)일 경우, 최적 정책이 존재하고 이를 찾는 것이 목표가 된다.
두 가지 알고리즘을 제시한다.
1. **모델 기반 알고리즘**
- 전이 확률을 디리클레 사전으로 모델링하고, 베이즈 샘플링(Posterior Sampling)으로 매 타임스텝마다 전이 모델을 샘플링한다.
- 샘플된 모델에 대해 가상의 MDP를 구성하고, 해당 MDP의 최적 정책을 구한다(예: 가치 반복 또는 정책 반복).
- 이 정책을 실제 환경에 적용하고, 관측된 데이터를 통해 사후분포를 업데이트한다.
- 이 과정에서 “벨만 오류”를 정의하고, 한 단계 탈선 후 최적 MDP를 따를 때 발생하는 보상 손실을 정량화한다. 이를 이용해 레지스트를 $\tilde O\!\big(LKDS\sqrt{A/T}\big)$ 로 상한함을 증명한다. 여기서 $K$는 목표 수, $D$는 상태 차원, $S$는 상태 수, $A$는 행동 수, $T$는 총 타임스텝이다.
2. **모델 프리 알고리즘**
- 정책 그라디언트(Policy Gradient) 방식을 사용해 $F(\lambda^\pi)$ 의 직접적인 미분을 추정한다.
- 목표 함수가 미분 가능하고 $L$‑Lipschitz이면, REINFORCE 혹은 Actor‑Critic 구조에 그대로 적용 가능하도록 설계하였다.
- 딥 뉴럴 네트워크를 사용해 $F$ 를 근사함으로써, 로그합, 제곱근 합, max‑min 등 복잡한 비선형 형태도 학습 가능하게 만든다.
- 전이 모델을 알 필요가 없으며, 대규모 상태·행동 공간에서도 샘플 효율성을 유지한다.
이론적 분석에서는 목표 함수가 볼록(concave)하고 $L$‑Lipschitz 연속일 때 최적 정책이 확률적(stochastic)이어야 함을 증명한다. 이는 공정성 문제와 같이 deterministic 정책이 최적이 될 수 없는 상황과 일치한다. 또한, 최적 정책이 존재함을 보이기 위해 문제를 “요소별 단조(monotone) 함수”로 변환하고, 이를 통해 최적화가 볼록(convex)임을 확인한다.
실험 부분에서는 세 가지 실제 시나리오를 통해 제안 알고리즘의 효과를 검증한다.
- **셀룰러 베이스 스테이션 스케줄링**: 다수 사용자에게 무선 자원을 할당하면서 비례공정성(Proportional Fairness) 목표를 최적화한다. 제안 모델 기반 알고리즘은 기존 SARSA 기반 RL보다 15~20% 높은 총 효용을 달성하고, asymptotically optimal인 Blind Gradient Estimator(BGE)와 거의 동일한 성능을 보였다.
- **α‑Fairness 무한 상태 공간**: 상태가 무한히 많은 경우에도 모델 프리 정책 그라디언트가 DQN보다 빠르게 수렴하고, 목표 함수값이 더 높았다.
- **교통 큐잉 시스템**: 여러 차선이 하나의 차선으로 합류하는 상황에서 각 큐의 평균 대기시간을 공정하게 최소화한다. 제안 방법은 Longest‑Queue‑First(LQF)와 DQN 대비 평균 대기시간을 12% 이상 감소시켰다.
논문은 또한 기존 다중 에이전트 강화학습(MARL)과 차별화한다. 기존 연구는 주로 목표의 선형 결합이나 경쟁/협력 게임에 초점을 맞추었지만, 본 연구는 비선형 결합을 직접 다루고, 전이 확률을 모르는 상황에서도 수렴 보장을 제공한다.
마지막으로, 레지스트 분석을 통해 제안 알고리즘이 시간 $T$와 목표 수 $K$에 대해 서브선형 수렴을 보이며, 실제 시스템에 적용 가능한 계산 복잡도와 메모리 요구량을 제시한다. 향후 연구 방향으로는 비볼록 목표 함수, 위험 측정(CVaR) 등 고차원 비선형 목표에 대한 확장과, 연속 행동 공간에 대한 샘플 효율적인 탐색 방법을 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기