잠재공간 적대적 정규화로 오프라인 선호 최적화 강화
초록
본 논문은 인간 피드백 기반 언어 모델 정렬에서 토큰 수준 정규화의 한계를 극복하고자, 정책 모델과 레퍼런스 모델의 내부 표현을 비교하는 잠재공간 정규화 기법인 GANPO를 제안한다. GANPO는 GAN‑유사 적대적 학습을 통해 잠재표현 분포 간 발산을 최소화하고, 이를 기존 오프라인 선호 최적화(OPO) 목표에 플러그인 형태로 추가한다. 다양한 모델·태스크 실험에서 토큰‑KL 정규화 대비 의미적 일관성과 분포 이동에 대한 강인성을 향상시키면서도 연산 비용은 미미한 수준에 머문다.
상세 분석
이 논문은 현재 대형 언어 모델(LLM) 정렬에 널리 사용되는 토큰‑레벨 KL 정규화가 의미적·행동적 유사성을 충분히 포착하지 못한다는 점을 지적한다. 토큰 시퀀스 간 거리와 실제 의미 사이의 불일치는 특히 파인튜닝 단계에서 ‘보상 해킹’이나 과도한 발산을 초래한다. 저자는 이러한 문제를 해결하기 위해 모델 내부의 최종 은닉 상태를 잠재공간 표현으로 정의하고, 정책 모델 πθ와 레퍼런스 모델 πref의 잠재분포 pθ, pref 사이의 발산을 정규화 목표에 포함한다.
잠재공간은 토큰보다 차원이 낮고, 의미·추론 상태를 압축적으로 담고 있기 때문에, 두 모델의 표현 분포를 정렬하면 의미적 일관성을 자연스럽게 유지할 수 있다. 하지만 잠재표현은 확률밀도 함수를 직접 정의하기 어렵다. 이를 해결하기 위해 저자는 GAN의 아이디어를 차용, 판별자 Dϕ를 도입해 pθ와 pref를 ‘진짜’와 ‘가짜’ 샘플로 구분하도록 학습한다. 특히, 표준 GAN의 불안정성을 완화하기 위해 Relativistic Average GAN(RaGAN) 형태를 사용한다. RaGAN은 각 샘플이 상대적으로 다른 샘플보다 더 ‘진짜’일 확률을 예측함으로써, 평균 로그우도 차이를 최소화하고 JSD와 동등한 발산을 제공한다.
GANPO는 단순히 이진 판별에 머무르지 않는다. 선호 데이터는 (x, yw, yl) 형태의 쌍을 제공하므로, 저자는 ‘좋은’과 ‘나쁜’ 두 종류의 판별자를 각각 설계한다. 구체적으로, h⁺_ref와 h⁺_θ(선택된 응답에 대한 레퍼런스·정책 표현)와 h⁻_ref, h⁻_θ(거부된 응답에 대한 표현)를 이용해 네 개의 잠재표현을 구성하고, 긍정 판별자는 h⁺_ref > h⁺_θ 및 h⁺_θ > h⁻_ref을 학습하도록, 부정 판별자는 h⁻_ref > h⁻_θ 및 h⁻_θ > h⁺_ref을 학습하도록 설계한다. 이렇게 하면 정책 모델은 ‘좋은’ 표현을 레퍼런스와 가깝게, ‘나쁜’ 표현은 레퍼런스와 멀게 만들도록 압력을 받는다.
수식적으로는 기존 OPO 손실 L_OPO에 λ·D_Ra(pθ‖pref) 를 가중치 λ와 함께 더한다. 정책 파라미터 θ는 원래의 선호 손실(예: DPO)과 동시에 - BCE(ϕ_pos) - BCE(ϕ_neg) 를 최소화한다. 판별자 ϕ는 BCE를 최소화함으로써 발산 D_Ra를 최대화하고, 이는 잠재공간 정규화가 실제로 두 분포를 일치시키는 방향으로 작동함을 보장한다.
실험에서는 AlpacaEval‑2.0, 다양한 크기의 LLaMA·OPT·GPT‑Neo 모델을 대상으로, GANPO를 DPO 혹은 χ²‑DPO에 플러그인한 버전과 비교하였다. 결과는 토큰‑KL 기반 방법 대비 평균 정확도·승률이 12% 상승하고, 특히 입력 분포가 변하거나 노이즈가 섞였을 때 성능 저하가 현저히 적었다. 또한, 잠재공간 거리(코사인 유사도)와 토큰 거리(레벤슈타인) 간 상관관계를 분석한 바, GANPO는 의미적 변동을 더 잘 보존함을 확인했다. 연산 측면에서는 판별자 두 개와 평균값 업데이트 정도의 오버헤드만 추가돼, 전체 학습 시간은 510% 정도 증가한다.
이러한 설계는 두 가지 중요한 시사점을 제공한다. 첫째, 토큰‑KL이 아닌 잠재공간 정규화가 의미적 일관성을 유지하면서도 보상 해킹을 억제한다는 점이다. 둘째, 적대적 학습을 통해 명시적 확률밀도 없이도 발산을 정의하고 최소화할 수 있다는 점이다. 향후 연구에서는 더 깊은 층의 표현, 멀티‑모달 잠재공간, 혹은 온라인 피드백과 결합한 하이브리드 정규화 방안을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기