다목적 테스트 시 정렬을 위한 통합 자동회귀 보상 모델 UniARM
초록
본 논문은 다중 인간 선호 목표를 동시에 만족시키는 테스트‑타임 정렬을 위해, 개별 파라미터를 필요로 하지 않는 단일 자동회귀 보상 모델(Unified Autoregressive Reward Model, UniARM)을 제안한다. 핵심은 Preference‑Modulated & Shared Low‑Rank Adaptation(MoSLoRA) 구조로, 선호‑무관 모듈이 공유 특징을 추출하고, 혼합 선호 벡터에 조건화된 모듈이 어파인 변환을 적용해 특징 얽힘을 방지한다. 실험에서 UniARM은 안전 정렬과 유용한 어시스턴트 태스크에서 기존 최첨단 방법보다 10~30% 정도의 HV·MIP 향상을 보이며, 파라미터와 지연 시간은 증가시키지 않는다.
상세 분석
UniARM은 기존 다목적 정렬 접근법이 안고 있던 두 가지 근본적인 한계를 해결한다. 첫 번째는 각 선호 목표마다 별도의 파라미터 집합을 학습하거나, 파라미터를 별도 모듈에 할당함으로써 발생하는 특징 얽힘(feature entanglement) 문제이다. 두 번째는 다수의 ARM을 동시에 사용했을 때 발생하는 추론 비용 증가와 선호 간 충돌이다. 이를 극복하기 위해 저자는 Preference‑Modulated & Shared Low‑Rank Adaptation(MoSLoRA)를 설계하였다. MoSLoRA는 크게 두 부분으로 구성된다.
-
Preference‑Agnostic Module: 사전 학습된 LLM 가중치 W_base에 저차원 행렬 A₁, B₁와 코어 텐서 W₁을 적용해 공유 특징 h′를 추출한다. 이 단계는 모든 선호 차원에 공통적인 언어적·문맥적 정보를 캡처한다.
-
Preference‑Modulation Module: 입력된 혼합 선호 벡터 o′ = αᵀ o(여기서 o는 각 선호 목표의 의미 임베딩) 를 기반으로 두 개의 모듈 파라미터 γ_o′, η_o′를 생성한다. γ와 η는 각각 스케일링·시프트 파라미터이며, 저차원 행렬 A₂, B₂와 코어 텐서 W_γ, W_η를 통해 선호에 조건화된 어파인 변환을 수행한다. 최종 표현 \tilde{h} = (γ_o′ + 1)⊙h′ + η_o′ 는 공유 특징을 선호별로 미세 조정한다.
이 설계는 파라미터 재사용을 극대화한다. A₂와 B₂는 두 모듈 모두에서 공유되며, W_γ와 W_η만이 서로 다른 변환을 담당한다. 따라서 별도의 선호‑특화 파라미터를 추가로 학습할 필요가 없으며, 전체 파라미터 수는 고정된다. 또한, 선호 벡터를 입력으로 받는 조건부 손실 ℓ(π_θ, D_i) 을 통해 학습 단계에서 다양한 선호 조합을 자연스럽게 탐색한다.
UniARM의 학습 목표는 토큰‑레벨 보상 r 을 기반으로, 두 후보 응답 y₁, y₂ 에 대한 선호 라벨 z_i 를 이용해 부정 로그우도 손실을 최소화하는 것이다. 이때 선호 벡터 α 는 단순히 가중치로 작용하지 않고, o′ 를 통해 모델 내부 표현을 직접 조정한다. 결과적으로 UniARM은 Pareto‑efficient한 프론트를 학습하며, 추론 시 하나의 ARM만으로 다중 선호를 동시에 만족시킬 수 있다.
실험에서는 7B 규모의 UniARM이 65B 규모의 고정 LLM을 가이드하는 weak‑to‑strong 시나리오에서도 안전성(HV + 18.5%, MIP + 30.2%)과 어시스턴트 유용성(HV + 5.4%, MIP + 10.7%)을 크게 향상시켰다. 특히 파라미터 수와 추론 지연 시간은 변함이 없으며, 이는 MoSLoRA가 파라미터 효율성과 실시간 적용 가능성을 동시에 달성했음을 의미한다.
요약하면, UniARM은 (1) 선호‑공유 특징 추출, (2) 선호‑조건화 어파인 변환, (3) 단일 파라미터 공간에서 다목적 정렬을 구현한다는 세 가지 혁신적인 요소를 결합함으로써, 기존의 다목적 테스트‑타임 정렬 방법보다 효율·성능·확장성 측면에서 모두 우수한 솔루션을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기