그룹 직교 정책 최적화: 힐베르트 공간에서의 정규화와 희소성

본 논문은 대형 언어 모델(LLM)의 인간 선호 정렬을 기존의 KL‑제약 강화학습(RLHF) 방식에서 완전히 다른 수학적 관점으로 전환한다. 핵심 아이디어는 현재 정책 πₖ 를 기준으로 정의된 제곱적분 함수공간 L²(πₖ) 로 문제를 ‘리프트’함으로써, 확률 단순체 위의 비선형 제약을 선형 직교 조건 ⟨v,1⟩=0 으로 바꾸는 것이다. 여기서 v(y)=π(y)/πₖ(y)−1 은 정책 변동을 나타내는 함수이며, 이 함수가 1 차원 상수 함수와 직교해야만 전체 확률이 1 로 유지된다. 이 변환은 기존 KL‑기반 방법이 갖는 ‘지수형 곡률’ 문제를 회피하고, 힐베르트 공간의 선형 대수적 구조를 활용할 수 있게 만든다. 논문은 세 가지 주요 관찰을 제시한다. 첫째, 확률 보존이 단일 선형 제약으로 축소된다. 둘째, 최소 거리 원리(Geometric Principle of Minimum Distance)를 적용하면 목표 u* = g/μ 와의 L² 거리 최소화 문제가 등장하고, 이를 전개하면 작업‑소산(work‑dissipation) 함수 J(v)=⟨g,v⟩−(μ/2)‖v‖² 가 자연스럽게 도출된다. 셋째, 비음수 제약 v≥−1 을 추가하면 ‘Bounded Hilbert Projection(BHP)’이 정의되고, 이는 정확한 희소성을 제공한다. 작업‑소산 함수는 힐베르트 투영 정리에 의해 최적 해 v* = P_{H₀}(u*) = u* − ⟨u*,1⟩·1 로 구해진다. 여기서 ⟨u*,1⟩/μ 은 라그랑주 승수 λ* 로, ‘화학 퍼텐셜’이라고 부른다. BHP에서는 KKT 조건을 적용해 v*(y)=max{−1, g(y)−λ*μ} 라는 폐쇄형 해를 얻으며, g(y) 가 λ*μ 이하인 경우 v* = −1 로 고정돼 해당 행동의 목표 확률이 정확히 0 이 된다. 이는 사후 필터링 없이도 위험한 출력(예: 환각)을 제거하는 강력한 메커니즘이다. 실제 모델 학습에서는 전체 힐베르트 공간을 직접 다루기 어렵기 때문에, 프롬프트 x 당 그룹 G 개의 샘플을 추출하고 경험적 내적 ⟨·,·⟩_G 를 정의한다. 그룹 정규화된 어드밴티지 A_i = r_i − \bar{r} 은 평균이 0 이므로, 경험적 화학 퍼텐셜 λ* 가 자동으로 사라진다. 따라서 최종 손실은 L_GOP O(θ)=−E_x

그룹 직교 정책 최적화: 힐베르트 공간에서의 정규화와 희소성

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기