내부 강화학습을 통한 계층적 행동 생성과 자동회귀 모델의 잠재 행동 탐구
📝 원문 정보
- Title:
- ArXiv ID: 2512.20605
- 발행일:
- 저자: Unknown
📝 초록 (Abstract)
대규모 자동회귀 모델을 다음 토큰 예측으로 사전학습하고 강화학습(RL)으로 미세조정하면 다양한 분야에서 뛰어난 성과를 거둘 수 있다. 그러나 RL 과정에서 모델은 토큰을 하나씩 생성하며 탐색하기 때문에 보상이 희박한 경우 학습 효율이 크게 떨어진다. 본 연구는 자동회귀 모델의 내부 표현 공간에서 행동을 취하고 탐색함으로써 이 문제를 해결한다. 구체적으로, 기본 자동회귀 모델의 residual stream 활성화를 제어하는 고차원 비인과적(sequence) 모델을 도입해 시간적으로 추상적인 행동을 발견한다. 격자 세계와 MuJoCo 기반 계층 구조 과제에서 고차원 모델은 긴 활성화 시퀀스를 내부 컨트롤러에 압축하고, 각 컨트롤러는 의미 있는 행동 시퀀스를 장시간에 걸쳐 실행하며 학습된 종료 조건을 갖는다. 이러한 컨트롤러들을 연속적으로 조합하면 새로운 과제에 대한 효율적인 탐색이 가능해진다. 우리는 “내부 RL”이라 부르는 직접적인 내부 컨트롤러 강화가 희박한 보상 상황에서도 표준 RL 미세조정이 실패하는 경우 학습을 가능하게 함을 보였다. 결과는 자동회귀 모델에서 잠재 행동 생성과 강화학습의 장점을 입증하며, 기반 모델 내에서 계층적 RL을 구현하는 유망한 방향으로서 내부 RL을 제시한다.💡 논문 핵심 해설 (Deep Analysis)
이 논문은 현재 대형 언어 모델(LLM)이나 기타 자동회귀 기반 생성 모델이 강화학습(RL)과 결합될 때 직면하는 핵심 문제, 즉 “토큰 단위 탐색의 비효율성”을 근본적으로 재고한다. 전통적인 RL 파인튜닝에서는 에이전트가 매 스텝마다 하나의 토큰을 선택하고, 그 토큰이 환경에 미치는 영향을 관찰한다. 보상이 드물게 주어지는 복잡한 과제에서는 수천, 수만 번의 토큰 선택이 필요하고, 이 과정에서 발생하는 탐색 비용은 급격히 증가한다. 저자들은 이러한 비효율성을 해결하기 위해 “내부 행동”이라는 새로운 차원을 도입한다.핵심 아이디어는 기본 자동회귀 모델(예: GPT 계열)의 내부 상태, 특히 residual stream(잔차 흐름) 활성화를 직접 조작할 수 있는 고차원 비인과적(sequence) 모델을 별도로 학습시키는 것이다. 이 고차원 모델은 자체적으로 “컨트롤러”를 생성하고, 각 컨트롤러는 연속적인 토큰 시퀀스를 한 번에 압축한다. 즉, 토큰 수준의 미세 조정이 아니라, 토큰 시퀀스 전체를 하나의 행동 단위로 취급한다. 이러한 행동은 시간적으로 추상화된 “옵션(option)” 혹은 “스킬(skill)”에 해당하며, 기존 옵션 프레임워크와 유사하지만 모델 내부 표현을 직접 활용한다는 점에서 차별화된다.
구현 측면에서 저자들은 두 단계의 학습을 수행한다. 첫 번째는 기본 자동회귀 모델을 대규모 텍스트(또는 시뮬레이션) 데이터에 대해 사전학습(pre‑training)하는 전통적인 단계이며, 두 번째는 고차원 모델을 고정된 기본 모델 위에 얹어 residual stream을 조절하도록 학습한다. 이때 고차원 모델은 비인과적이므로 미래 토큰 정보를 활용해 현재 컨트롤러를 설계할 수 있다. 이는 “예측 기반 계획”과 유사하게, 모델이 앞으로 발생할 토큰을 미리 예측하고 그에 맞는 행동 블록을 선택하도록 만든다.
실험에서는 격자 세계(grid world)와 MuJoCo 로봇 시뮬레이션이라는 두 종류의 계층적 환경을 사용했다. 격자 세계에서는 목표 지점까지 이동하는 장기 계획이 필요하고, MuJoCo에서는 복잡한 물리 제어가 요구된다. 결과는 고차원 모델이 긴 행동 블록을 효과적으로 압축하고, 각 블록에 종료 조건을 학습함으로써 “컨트롤러 전이”가 가능함을 보여준다. 특히, 보상이 매우 드물게 주어지는 상황에서 기존 RL 파인튜닝이 거의 학습에 실패하는 반면, 내부 RL은 몇 번의 에피소드만으로도 의미 있는 행동 시퀀스를 습득한다.
이 접근법의 장점은 크게 세 가지이다. 첫째, 탐색 효율성 향상 – 토큰 단위가 아닌 블록 단위로 탐색함으로써 샘플 복잡도가 크게 감소한다. 둘째, 계층적 구조 자연스러운 학습 – 컨트롤러가 자체 종료 조건을 갖추어 다중 단계의 행동을 자동으로 연결한다. 셋째, 기존 파운데이션 모델과의 호환성 – 기본 모델을 그대로 유지하면서 추가적인 고차원 모듈만 학습하면 되므로, 대규모 사전학습된 모델을 그대로 활용할 수 있다.
하지만 몇 가지 한계도 존재한다. 비인과적 모델이 미래 토큰을 활용한다는 점은 실제 환경에서 “예측 불가능한” 상황에 취약할 수 있다. 또한, 컨트롤러의 내부 표현이 해석 가능하지 않아 디버깅이 어려우며, 컨트롤러 수가 급증하면 메모리와 연산 비용이 다시 증가할 위험이 있다. 마지막으로, 현재 실험은 비교적 제한된 도메인에만 적용되었으므로, 자연어 처리나 복합 멀티모달 작업에 대한 일반화는 추가 연구가 필요하다.
전반적으로 이 논문은 “내부 강화학습”이라는 새로운 패러다임을 제시함으로써, 대형 자동회귀 모델이 계층적 RL을 구현하는 실용적인 길을 열었다. 향후 연구는 컨트롤러의 자동 설계, 해석 가능성 강화, 그리고 다양한 실제 환경에의 적용을 통해 이 접근법을 더욱 확장할 수 있을 것으로 기대된다.