솔버‑검증자 차이로 보는 LLM 자기 개선 학습 역학
초록
본 논문은 대형 언어 모델(LLM)의 자기 개선 과정에서 솔버 능력과 검증자 능력 사이의 차이, 즉 solver‑verifier gap이 학습 역학을 주도한다는 가설을 수학적으로 모델링한다. 두 능력을 불확실성(uncertainty) 지표로 정의하고, 차이를 잠재 에너지 형태로 가정한 뒤 연립 미분 방정식으로 표현한다. 해석 결과는 솔버와 검증자 모두가 지수적으로 수렴하며, 최종 솔버 성능은 초기 차이와 α, β 두 계수에 의해 결정된다는 것을 보여준다. 실험에서는 다양한 LLM과 데이터셋에 대해 이 이론이 정확히 맞아떨어짐을 확인하고, 제한된 외부 데이터를 언제 사용하든 최종 성능에 큰 차이가 없다는 교차‑개선(cross‑improvement) 결과도 제시한다.
상세 분석
이 논문은 LLM 자기 개선을 solver‑verifier gap이라는 새로운 관점에서 접근한다는 점에서 의미가 크다. 먼저 저자들은 솔버 능력 (U_s(t))를 모델이 직접 생성한 응답의 평균 불확실성(음의 로그우도)으로, 검증자 능력 (U_v(t))를 동일 모델이 여러 후보 응답을 평가해 선택한 Best‑of‑N(BoN) 응답의 평균 불확실성으로 정의한다. 이렇게 하면 두 능력 모두 “불확실성이 낮을수록 강함”이라는 동일한 척도로 비교 가능해진다.
다음으로, 두 능력 간 차이 (G(t)=U_s(t)-U_v(t))를 잠재 에너지 (E(t)=f(G(t)))의 함수로 가정한다. 여기서 (f)는 미분 가능하고 단조 증가하며 (f(0)=0)인 함수이다. 이 가정은 물리학에서 시스템이 높은 에너지 상태에서 낮은 에너지 상태로 흐르는 현상을 차용한 phenomenological 모델링이다.
연립 미분 방정식
\
댓글 및 학술 토론
Loading comments...
의견 남기기