추론 능력 확장을 위한 매니폴드 재구성 정책 최적화
초록
본 논문은 기존 RLHF가 LLM의 저차원 편향 매니폴드에 머무르게 만든다는 “정렬 세금” 가설을 비판하고, 두 단계의 기하학적 접근법인 Spectral Orthogonal Exploration(SOE)와 Effective Rank 정규화를 결합한 Manifold‑Reshaping Policy Optimization(MRPO)를 제안한다. MRPO는 정책을 편향 매니폴드의 영공간(null space)으로 강제 이동시킨 뒤, 고차원 추론 경로를 유지하도록 보상함으로써 4B 모델이 32B 규모 모델을 능가하는 수학 문제 성능을 달성한다.
상세 분석
이 논문은 LLM의 추론 능력을 단순히 “정렬”을 통해 스타일을 바꾸는 것이 아니라, 모델 내부의 잠재적 기하학 구조를 재구성함으로써 실제 용량을 확장할 수 있다는 점을 실증한다. 먼저 저차원 편향 매니폴드(bias manifold)의 정의를 명확히 하고, 이 매니폴드가 고차원 ‘null space’와 직교한다는 수학적 근거를 제시한다. 기존 RLHF는 로그잇 스케일을 증가시켜 샘플링 온도를 낮추고, 결과적으로 효과적 랭크(effective rank)를 감소시켜 추론 궤적을 저차원에 수축시키는 ‘스펙트럼 수축’ 현상을 일으킨다. 이를 극복하기 위해 저자들은 두 단계 전략을 설계한다.
첫 번째 단계인 Spectral Orthogonal Exploration(SOE)은 학생‑교사 프레임워크를 이용해 교사의 현재 편향 매니폴드의 주성분을 추출하고, 학생 모델이 생성한 후보 추론 조각을 그 매니폴드에 직교하도록 평가한다. 직교 점수 Ω(s) 가 1에 가까울수록 영공간에 위치함을 의미한다. 가장 높은 Ω를 가진 조각을 교사의 컨텍스트에 삽입함으로써 정책 초기화를 편향 매니폴드에서 영공간으로 ‘폭발(eject)’한다. 이 과정은 고차원 추론 경로를 탐색하도록 강제하고, 이후 1 epoch의 SFT를 통해 초기 정책을 안정화한다.
두 번째 단계에서는 Group Relative Policy Optimization(GRPO)에 Effective Rank 기반 보상을 결합한다. 슬라이딩 윈도우(64 토큰)에서 최소 효과적 랭크를 계산하고, 이를 정규화해 보상에 가중치 α=0.5 로 추가한다. 따라서 올바른 답을 얻는 동시에 고차원 정보 흐름을 유지해야만 높은 보상을 받는다. 이 보상 구조는 스펙트럼 수축을 억제하고, 정책 파라미터가 고차원 영역으로 지속적으로 이동하도록 유도한다.
실험에서는 AIME, AMC, Math‑500, OlympiadBench, Omni‑Math(Hard) 등 난이도 높은 수학 벤치마크에서 4B 모델이 Qwen‑3‑32B보다 월등히 높은 정확도를 기록했다. 특히 k‑shot 샘플링에서도 성능 저하가 거의 없으며, 토큰 비용도 기존 GRPO와 비슷해 효율성을 유지한다. 결과는 효과적 랭크가 높은 추론 궤적이 실제 문제 해결 능력과 강한 상관관계를 갖는다는 가설을 실증한다.
이 논문은 LLM의 잠재적 차원을 기하학적으로 ‘재구성’함으로써 정렬과 탐색 사이의 트레이드오프를 해소하고, 작은 파라미터 규모에서도 고차원 추론 능력을 끌어낼 수 있음을 보여준다. 향후 연구는 더 복잡한 비수학적 작업에 대한 적용과, 효과적 랭크 외의 다른 기하학적 메트릭을 결합한 다중 목표 최적화로 확장될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기