탐험 비용을 줄인 SCOUT, 언어 모델의 비언어 환경 적응력 강화
초록
본 논문은 대규모 언어 모델(LLM)이 상징·공간 등 비언어 환경에서 탐험 비용이 과다해 성능이 저하되는 문제를 지적하고, 경량 탐색 에이전트인 “스카우트”를 활용해 탐험을 분리·가속화한 SCOUT 프레임워크를 제안한다. 스카우트가 생성한 전문가 궤적을 텍스트화해 LLM을 감독학습(SFT)으로 사전 워밍업하고, 이후 다중 턴 PPO를 통해 LLM 자체의 강화학습을 진행한다. 실험 결과 Qwen2.5‑3B‑Instruct 모델이 평균 0.86 점을 달성해 Gemini‑2.5‑Pro(0.60) 등 상용 모델을 크게 앞섰으며, GPU 사용량도 약 60 % 절감하였다.
상세 분석
이 논문은 LLM이 비언어적 과제, 예컨대 심볼릭 퍼즐이나 고차원 공간 탐색에서 “탐험 비용”이라는 근본적인 병목에 직면한다는 점을 체계적으로 분석한다. 기존 연구는 사전 학습 데이터와 테스트 분포의 불일치를 원인으로 꼽았지만, 저자는 실제로는 파라미터 수억 단위의 LLM이 토큰 생성이라는 고차원 의미 공간을 탐색하면서 발생하는 연산량이 탐험 단계에서 비효율을 초래한다는 점을 강조한다. 특히, LLM은 30 000개가 넘는 토큰 어휘를 통해 행동을 선택해야 하는 반면, 많은 심볼릭·공간 과제는 수십 개 수준의 이산 행동만을 요구한다. 이 불일치는 “행동 공간 vs. 생성 공간” 불일치와 “언어 선험 지식에 의존한 확장성 한계”라는 두 축으로 정리된다.
SCOUT는 이러한 문제를 해결하기 위해 탐험을 경량화된 스카우트(소규모 MLP 또는 CNN)에게 위임한다. 스카우트는 전통적인 RL 알고리즘(DQN, PPO)을 사용해 초당 수천·수만 단계의 시뮬레이션을 수행할 수 있어, LLM이 직접 탐험할 때보다 수십 배 빠른 수렴을 기대한다. 스카우트가 학습한 정책 π*ψ는 전문가 궤적 D_scout를 생성하고, 이를 텍스트화(Texualizer Φ)해 LLM이 이해할 수 있는 대화 형식 τ_LLM으로 변환한다. 여기서 “think” 블록은 비워 두어, 초기 단계에서는 순수 행동 복제에 집중한다.
다음 단계인 Distillation에서는 변환된 궤적을 이용해 LLM을 감독학습(SFT)한다. 손실 함수는 행동(think, raw) 로그우도 최소화 형태이며, 이는 LLM이 스카우트가 파악한 환경 역학을 내부 표현에 직접 내재하도록 만든다. 이 과정은 LLM이 무작위 초기화에서 시작하는 대신, 이미 환경 규칙을 어느 정도 이해한 상태에서 학습을 시작하게 함으로써 탐험 비용을 크게 절감한다.
마지막 Evolving 단계에서는 다중 턴 PPO를 적용해 LLM이 자체적으로 정책을 개선한다. 기존 RLHF가 단일 응답에 초점을 맞추는 반면, 여기서는 전체 대화 흐름 h_t를 조건으로 삼아 KL 제약을 유지하면서 누적 보상(γ^t r_t)을 최적화한다. 특히 “think” 블록을 활성화해 계획·추론 과정을 명시적으로 생성하도록 유도함으로써, 장기 의존성을 갖는 퍼즐(예: Sudoku, Rubik’s Cube)에서도 전략적 사고를 발휘하게 된다.
실험에서는 FrozenLake, Sokoban, Sudoku, 2048, Rubik’s Cube 등 다양한 심볼릭·공간 과제를 사용했다. Qwen2.5‑3B‑Instruct는 SCOUT 적용 후 평균 0.86 점을 기록했으며, 이는 Gemini‑2.5‑Pro(0.60)와 같은 최신 상용 모델을 크게 앞선다. 또한 탐험 단계에서 스카우트가 차지한 GPU 시간은 전체 대비 약 40 %에 불과해, 전체 파이프라인이 기존 LLM‑only 접근법 대비 약 60 %의 연산 비용 절감을 달성했다.
이 논문은 “탐험 비용”을 구조적으로 분리하고, 경량 에이전트와 LLM 간의 지식 전이 메커니즘을 제시함으로써, 대규모 언어 모델이 비언어적, 고차원 환경에서도 효율적으로 적응할 수 있는 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기