오라클 강건 온라인 정렬: 대형 언어 모델을 위한 최악‑사례 최적화와 효율적 업데이트

본 논문은 인간 선호 피드백이 이상적인 오라클과 차이가 있을 때, 대형 언어 모델(LLM)의 온라인 정렬을 강건하게 수행하는 방법을 제시한다. 정책‑의존적인 데이터 수집과 정책 업데이트가 얽힌 이중 강화학습 문제를 SAIL 프레임워크로 단일 레벨로 변환하고, 점별 오라클 불확실성 집합을 도입해 최악‑사례 손실을 정의한다. 로그‑선형 정책 가정 하에 이 손실은 기존 SAIL 손실에 민감도 패널티를 더한 형태로 정확히 분해되며, 약하게 볼록한 목표…

저자: Zimeng Li, Mudit Gaur, Vaneet Aggarwal

본 논문은 대형 언어 모델(LLM)의 온라인 정렬 과정에서 발생할 수 있는 ‘오라클 미스스펙(oracle misspecification)’ 문제를 이론적으로 정형화하고, 이를 해결하기 위한 알고리즘을 제시한다. 1. **문제 배경 및 동기** - RLHF(인간 피드백 기반 강화학습)에서는 정책 $\pi_\theta$ 가 생성한 응답 쌍에 대해 인간 혹은 학습된 선호 오라클 $P$ 로부터 쌍별 선호 라벨을 얻는다. 실제 오라클은 인구 집단 차이, 라벨링 기준 변화, 스타일·가치 편향 등으로 인해 이상적인 $P^\star$ 와 구조적으로 다를 수 있다. - 온라인 정렬에서는 정책이 데이터 수집을 직접 제어하므로, 오라클의 체계적 편차가 정책 업데이트와 피드백 루프에 증폭돼 ‘오라클 과최적화’ 위험이 있다. 기존 연구는 이중 최적화(bilevel RL) 구조를 SAIL 프레임워크를 통해 단일 레벨 손실 $L_{\text{SAIL}}(\theta)$ 로 변환했지만, 오라클 불확실성을 명시적으로 고려하지 않았다. 2. **오라클 불확실성 집합 정의** - 저자는 점별 불확실성 집합 $U_W(P^\star,\rho)=\{P\in\mathcal O:\sup_{z\in\mathcal Z}|P(1|z)-P^\star(1|z)|\le\rho\}$ 를 도입한다. 여기서 $z=(x,y_1,y_2)$ 은 정책에 의해 생성되는 비교이며, $P(1|z)$ 는 $y_1\succ y_2$ 라는 선호 확률이다. - 이 제약은 1‑Wasserstein 거리와 동등하며, 모든 가능한 비교에 대해 동일한 $\rho$ 로 오라클 편차를 제한한다. $\rho$ 가 작을수록 오라클이 $P^\star$ 와 가깝다는 가정이며, $\rho\in(0,\delta)$ 로 설정해 비퇴화(non‑degenerate) 조건을 유지한다. 3. **강건 목표 함수 정의** - 기존 SAIL 손실은 $L_{\text{SAIL}}(\theta) = -\mathbb{E}_{x\sim\mu, y_1,y_2\sim\pi_\theta}

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기