전략 기반 탐색으로 LLM 에이전트 능력 확장

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM) 에이전트의 강화학습(RL) 과정에서 탐색 문제를 해결하기 위해 “전략‑Guided Exploration”(SGE)를 제안한다. SGE는 먼저 고수준 자연어 전략을 생성하고, 그 전략에 조건화된 행동을 수행함으로써 행동 공간이 아닌 전략 공간에서 다양하고 구조적인 탐색을 유도한다. 혼합 온도 샘플링과 전략 반영 메커니즘을 통해 전략 다양성을 극대화하고, UI 조작, 도구 호출, 코딩, 로봇 환경 등 여러 도메인에서 기존 탐색 기반 RL보다 학습 효율과 최종 성능을 크게 향상시킨다.

상세 분석

SGE는 기존 LLM‑RL이 사전 학습된 모델의 고확률 출력에 머무르는 한계를 극복하기 위해 “전략”이라는 중간 추상화를 도입한다. 구체적으로, 에이전트는 매 타임스텝마다 관찰 oₜ와 목표 g를 입력받아 전략 sₜ ∼ Sπ(·|oₜ)를 샘플링하고, 이어서 전략에 조건화된 중간 사고 yₜ와 최종 행동 aₜ를 생성한다. 전략은 “무엇을 달성하려는가”를 자연어로 명시하는 짧은 문장으로, 동일 목표에 대한 서로 다른 실행 경로를 구분한다.

핵심 기술은 두 가지다. 첫째, 혼합 온도 샘플링은 전략 토큰에 높은 온도(예: T≈1.0)를 적용하고, 행동·사고 토큰에는 낮은 온도(예: T≈0.2)를 적용한다. 이는 전략 단계에서 큰 다양성을 확보하면서, 이후 행동 단계에서는 전략에 부합하는 일관된 실행을 유지하게 만든다. 둘째, 전략 반영은 이전 롤아웃의 성공·실패 기록을 메모리에 저장하고, 실패한 전략에 대해 “부정적 반영” 프롬프트를, 성공한 전략에 대해 “긍정적 반영” 프롬프트를 제공함으로써 전략 생성이 환경 피드백에 적응하도록 한다. 이러한 메커니즘은 전략 간 중복을 최소화하고, 탐색이 실제 환경 결과와 연결되도록 만든다.

SGE는 K개의 병렬 전략을 동시에 생성해 그룹‑기반 RL(예: GRPO, RLOO)과 자연스럽게 결합한다. 이는 추가 연산 비용 없이 다중 샘플을 확보해 정책 그라디언트 추정의 분산을 감소시킨다. 실험에서는 UI 조작, 도구 호출, 멀티‑턴 코딩, 임베디드 로봇 네비게이션 등 네 가지 도메인에서 기존 탐색‑중심 베이스라인(ε‑greedy, entropy‑bonus, UCB 등)보다 학습 속도와 최종 성공률이 현저히 높았다. 특히 코딩 환경에서는 기본 모델의 pass@2048 = 0.69에 비해 SGE는 RL 후 pass@1 = 0.73을 달성했으며, 이는 기본 모델이 절대 도달하지 못하는 난이도 영역까지 탐색이 확장되었음을 의미한다.

또한 모델 규모에 대한 분석에서, 작은 LLM(≈2B 파라미터)에서도 전략 다양성 확보가 성능 향상에 크게 기여했으며, 대형 모델(≈70B)에서는 전략‑조건화가 이미 존재하는 고성능 정책을 더욱 미세 조정해 한계 성능을 뛰어넘는 결과를 보였다. Ablation 실험은 혼합 온도와 전략 반영 각각이 독립적으로 탐색 효율을 개선하지만, 두 기법을 동시에 적용했을 때 시너지 효과가 가장 크게 나타남을 확인했다.

요약하면, SGE는 LLM의 언어적 추론 능력을 활용해 고수준 목표‑지향 전략을 생성하고, 이를 행동 생성에 조건화함으로써 “전략 공간”에서의 탐색을 실현한다. 이는 기존 행동‑레벨 탐색이 겪는 토큰‑레벨 잡음과 희소 보상의 문제를 근본적으로 완화하고, 복잡하고 긴 시간 지평을 갖는 에이전트 작업에서 새로운 솔루션을 발견하도록 만든다.

전략 기반 탐색으로 LLM 에이전트 능력 확장

초록

상세 분석

댓글 및 학술 토론

의견 남기기