프로젝티브 임플리시트 Q 러닝과 서포트 제약을 이용한 오프라인 RL 혁신
초록
PIQL은 기존 IQL의 고정 기대값 파라미터와 밀도 기반 정책 제약을 대체한다. 기대값 회귀에 벡터 투영을 이용한 적응형 τₚᵣₒⱼ 파라미터를 도입하고, 다단계 가치 추정으로 확장한다. 정책 개선 단계에서는 행동 정책의 지원 집합 안에 머무르는 서포트 제약을 적용해 OOD 행동에 의한 외삽 오류를 억제한다. 이론적으로 기대값 회귀와 인‑샘플 학습을 유지하면서 단조적 정책 향상을 보장하고, 실험에서는 D4RL·NeoRL2 전반에 걸쳐 SOTA 성능을 달성한다.
상세 분석
PIQL은 오프라인 강화학습에서 가장 심각한 문제 중 하나인 OOD(Out‑Of‑Distribution) 행동에 의한 외삽 오류를 근본적으로 완화한다는 점에서 의미가 크다. 기존 IQL은 기대값 회귀(expectile regression)를 사용해 Q‑함수의 상한을 추정했지만, τ(예측 기대값 비율) 하이퍼파라미터를 고정하고 데이터셋마다 별도 튜닝이 필요했다. 또한 IQL은 행동 정책에서 직접 샘플링한 행동을 사용해 정책 개선을 수행하는 ‘one‑step’ 구조라, 정책이 행동 정책에서 크게 벗어나면 개선 폭이 제한된다.
PIQL은 두 가지 핵심 아이디어로 이를 극복한다. 첫째, τ를 고정값이 아니라 현재 학습 중인 정책 π_φ와 행동 정책 π_β 사이의 벡터 투영을 통해 동적으로 계산한다. 구체적으로 τₚᵣₒⱼ(a|s)= (π_β(a|s)·π_φ(a|s))/‖π_φ(a|s)‖²·π_φ(a|s) 로 정의해, π_φ가 π_β에 가까워질수록 τ가 커져 보다 낙관적인 가치 추정이 이루어지고, 멀어질수록 보수적으로 전환한다. 이는 기대값 회귀의 ‘optimism‑conservatism trade‑off’를 자동으로 조절해 하이퍼파라미터 튜닝 비용을 없앤다.
둘째, 정책 개선 단계에서 KL‑기반 밀도 제약 대신 서포트 제약을 적용한다. 서포트 제약은 π(a|s)=0 ⇒ π_β(a|s)=0 인 정책 집합을 정의함으로써, 학습 정책이 행동 정책이 전혀 관측하지 않은 행동을 선택하지 못하게 한다. 이는 기존 wBC·STR 방식이 Z(s) 정규화 상수를 무시해 발생할 수 있는 지원 손실을 최소화한다. 또한 서포트 제약은 행동 정책의 지원 집합 안에서 자유롭게 탐색하도록 허용해, 데이터가 부분적으로만 최적일 때도 큰 성능 향상을 가능하게 한다.
이론적 분석에서는 (i) 기대값 회귀가 여전히 기대값(expectile) 형태를 유지함을 보이고, (ii) τₚᵣₒⱼ이 기대값의 상한을 동적으로 조절함을 Lemma 1을 통해 증명한다. (iii) 정책 개선 단계에서 서포트 제약을 적용하면, 정책이 매 반복마다 지원 집합 안에 머무르면서도 기대값이 증가하는 단조적 정책 향상이 보장된다. 특히, ‘progressively more rigorous criterion for advantageous actions’ 라는 표현은 τₚᵣₒⱼ이 작아질수록 (즉, 정책이 행동 정책에서 멀어질수록) 더 높은 advantage를 요구하도록 설계된 것을 의미한다.
실험에서는 D4RL의 10개 데이터셋과 NeoRL2의 복합 환경에서 PIQL이 기존 IQL, CQL, BEAR, STR 등 최신 오프라인 RL 알고리즘을 전반적으로 앞선다. 특히 ‘stitching’ 과제와 같이 긴 시간 horizon에서 서브 트래젝터리를 연결해야 하는 경우, 다단계 가치 추정과 서포트 제약이 큰 이점을 제공한다는 결과가 눈에 띈다. Ablation study에서는 τₚᵣₒⱼ을 고정 τ와 교체했을 때 성능이 급격히 떨어지는 것을 확인해, 적응형 τ의 효과를 실증한다.
종합하면, PIQL은 (1) 하이퍼파라미터 의존성을 제거한 자동 기대값 조정, (2) 인‑샘플 학습을 유지하면서도 다단계 가치 추정으로 강화된 학습 효율, (3) 서포트 제약을 통한 안전하고 유연한 정책 개선이라는 세 축을 성공적으로 결합한 오프라인 RL 프레임워크라 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기