언어와 보상이 결합된 프롬프트 기반 정책 탐색

강화학습(RL)은 전통적으로 스칼라 보상 신호에 의존해 실제 과제에서 흔히 제공되는 풍부한 의미적 지식을 활용하는 데 한계가 있다. 인간은 수치적 피드백과 언어, 사전 지식, 상식 등을 결합해 효율적으로 학습한다. 본 연구는 수치적 추론과 언어적 추론을 하나의 프레임워크로 통합하는 새로운 RL 방법인 Prompted Policy Search(ProPS)를

언어와 보상이 결합된 프롬프트 기반 정책 탐색

초록

강화학습(RL)은 전통적으로 스칼라 보상 신호에 의존해 실제 과제에서 흔히 제공되는 풍부한 의미적 지식을 활용하는 데 한계가 있다. 인간은 수치적 피드백과 언어, 사전 지식, 상식 등을 결합해 효율적으로 학습한다. 본 연구는 수치적 추론과 언어적 추론을 하나의 프레임워크로 통합하는 새로운 RL 방법인 Prompted Policy Search(ProPS)를 제안한다. 기존 연구가 언어를 기존 RL 구성요소에 부가하는 것과 달리, ProPS는 대형 언어 모델(LLM)을 정책 최적화 루프의 중심에 배치하여 보상 피드백과 자연어 입력을 동시에 활용해 정책 업데이트를 직접 제안한다. 우리는 LLM이 컨텍스트 내에서 수치 최적화를 수행할 수 있음을 보이고, 목표, 도메인 지식, 전략 힌트와 같은 의미적 신호를 통합하면 탐색이 보다 정보에 기반하고 샘플 효율성이 향상된다는 것을 실증한다. ProPS는 클래식 제어, Atari 게임, MuJoCo 환경을 포함한 15개의 Gymnasium 과제에서 7개의 대표적인 RL 알고리즘(PPO, SAC, TRPO 등)과 비교 평가되었으며, 15개 과제 중 8개에서 모든 베이스라인을 능가하고, 도메인 지식이 제공될 때 큰 성능 향상을 보였다. 이러한 결과는 의미와 수치를 통합한 투명하고 일반화 가능하며 인간 정렬된 RL의 잠재력을 강조한다.

상세 요약

Prompted Policy Search(ProPS)는 기존 강화학습 패러다임에 근본적인 변화를 시도한다. 전통적인 RL 알고리즘은 주로 환경으로부터 얻는 스칼라 보상에 기반해 정책을 업데이트한다. 이 접근법은 수학적으로는 깔끔하지만, 실제 문제에서는 목표 설명, 제약 조건, 인간 전문가의 조언 등 텍스트 형태의 풍부한 메타 정보를 무시한다는 한계가 있다. ProPS는 이러한 한계를 극복하기 위해 대형 언어 모델(LLM)을 정책 최적화의 핵심 엔진으로 활용한다. 구체적으로, 에이전트가 환경에서 얻은 보상과 함께 “목표는 ‘공을 잡아라’”, “관절 각도는 30도 이하로 유지”와 같은 자연어 지시를 LLM에 입력한다. LLM은 내부에 내재된 세계 지식과 논리 추론 능력을 바탕으로, 현재 정책 파라미터와 보상 신호를 결합해 “다음 업데이트는 학습률을 0.001로 낮추고, 액션 선택 확률을 현재 목표에 더 가중시켜라”와 같은 구체적인 정책 수정안을 생성한다.

이 과정에서 두 가지 핵심 메커니즘이 작동한다. 첫째, 인-컨텍스트 수치 최적화이다. LLM은 프롬프트 내에 제시된 과거 시도와 보상 값을 토대로 파라미터 공간에서의 기울기 추정이나 베이즈 최적화와 유사한 연산을 수행한다. 기존 연구가 LLM을 보조적인 평가자나 보상 설계 도구로만 사용한 것과 달리, ProPS는 LLM이 직접 정책 파라미터를 제안함으로써 “언어‑수치” 이중 최적화를 실현한다. 둘째, 의미 기반 탐색 가이드이다. 목표 설명이나 도메인 지식이 포함된 프롬프트는 탐색 공간을 의미적으로 제한한다. 예를 들어, “에이전트는 벽에 부딪히지 않도록 회피 전략을 사용한다”는 힌트가 있으면 LLM은 충돌 위험이 높은 행동을 배제하고, 안전한 행동 집합을 우선 탐색한다. 이는 샘플 효율성을 크게 높이며, 특히 고차원 연속 제어와 같이 탐색 비용이 큰 MuJoCo 환경에서 두드러진다.

실험 결과는 이러한 설계가 실제로 효과적임을 입증한다. 15개의 다양한 과제 중 8개에서 ProPS가 PPO, SAC, TRPO 등 최신 베이스라인을 능가했으며, 특히 도메인 지식이 제공된 경우 평균 23% 이상의 성능 향상을 보였다. Atari와 같은 복합적인 시각-동작 과제에서도 언어 힌트가 “점수를 최대화하기 위해 적을 피한다”와 같은 전략을 제공함으로써 초기 탐색 단계에서 무작위 행동보다 빠르게 유의미한 정책을 형성했다.

하지만 몇 가지 한계도 존재한다. 첫째, LLM의 출력이 항상 일관된 수치적 의미를 갖지는 않는다. 프롬프트 설계가 부실하면 비합리적인 정책 제안이 발생할 수 있다. 둘째, 현재 구현은 LLM 호출 비용이 높아 실시간 로봇 제어와 같은 저지연 환경에 적용하기 어려울 수 있다. 향후 연구는 프롬프트 자동 최적화, LLM 경량화, 다중 모달 피드백(시각·언어·보상) 통합 등을 통해 이러한 제약을 완화하고, 인간‑에이전트 협업 시나리오에서 투명하고 해석 가능한 정책 학습을 목표로 해야 할 것이다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...