토큰 우선순위로 여는 슈퍼바이즈드 파인튜닝의 새로운 지평
초록
본 논문은 현재 대형 언어모델의 슈퍼바이즈드 파인튜닝(SFT)이 토큰 수준에서의 균일한 학습 신호에 의존함으로써 발생하는 ‘Granularity Mismatch’를 지적한다. 저자는 토큰 우선순위(Token Priority)라는 개념을 도입해, 데이터의 정보밀도, 그래디언트 소진, 노출 편향이라는 세 가지 구조적 결함을 해결하고, Positive Priority와 Signed Priority 두 가지 레짐으로 최근의 정렬 기법들을 통합한다. 이를 통해 SFT를 단순 최적화가 아니라 목표 분포를 재구성하는 과정으로 재정의하고, 동적·위상 인식 우선순위 스케줄링을 향후 연구 방향으로 제시한다.
상세 분석
이 논문은 “Granularity Mismatch”라는 근본적인 구조적 문제를 제시한다. 기존 SFT는 모든 토큰을 동일한 가중치로 최대우도 추정에 사용하지만, 실제 인간 유틸리티를 구현하기 위해서는 고정보호(High‑entropy) 토큰과 저정보(Low‑entropy) 토큰이 갖는 학습 가치가 크게 차이한다. 저자는 이를 세 가지 구체적 현상으로 구분한다. 첫째, 정보‑밀도 격차는 대규모 데이터에 포함된 다수의 저신호 토큰이 그래디언트를 희석시켜 핵심 신호를 가려버린다. 둘째, 그래디언트 소진은 빈번히 등장하는 구문적 앵커 토큰이 최적화 예산을 독점해, 드물지만 논리적·사실적 추론에 필수적인 토큰이 학습되지 못하게 만든다. 셋째, 노출 편향은 교사 강제(teacher forcing)로 인해 모델이 자체 오류를 경험하지 못하고, 오류 누적 시 복구 정책을 학습하지 못한다는 점을 강조한다.
이를 해결하기 위해 논문은 Token Priority Function Φ(x) 를 도입한다. Φ는 토큰의 정보량, 엔트로피, 학습 난이도 등을 정량화해 가중치를 부여하고, 손실 함수에 곱해 토큰별 그래디언트 기여도를 재조정한다. 두 가지 레짐으로 구분한다. Positive Priority는 하드/소프트 선택 메커니즘을 통해 고신호 토큰을 강조하고, 저신호 토큰을 마스킹하거나 다운웨이트함으로써 노이즈를 필터링한다. Signed Priority는 Φ가 음수인 경우를 허용해, 독성·편향 토큰에 대해 역방향 그래디언트를 적용, 즉 ‘언학습(unlearning)’을 수행한다. 이는 기존 RLHF와의 연계에서도 부정적 보상을 명시적으로 구현하는 방식과 일맥상통한다.
또한 논문은 동적 우선순위 스케줄링을 제안한다. 학습 진행에 따라 토큰의 우선순위를 조정함으로써 초기에는 고정보호 토큰을 집중 학습하고, 이후에는 복구 토큰이나 오류 정정 토큰을 강조해 모델이 자체 오류 복구 능력을 습득하도록 설계한다. 이는 “Basin of Ease”라 불리는 얕은 최적점에서 탈피해, 정보 획득을 최적화하는 새로운 스케일링 법칙을 제시한다.
전반적으로 이 논문은 SFT를 단순 데이터 적합이 아니라 분포 재구성(distribution reshaping) 으로 재정의하고, 토큰 수준의 정밀한 가중치 조정이 인간 수준 유틸리티 달성에 필수적임을 논리적으로 설득한다.
댓글 및 학술 토론
Loading comments...
의견 남기기