온정책 언어적 증류: 메모리 효율적인 추론 전이 방법

온정책 언어적 증류: 메모리 효율적인 추론 전이 방법
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

OVD는 토큰 수준의 확률 매칭 대신 교사 모델이 제공하는 0~9 점수의 언어적 피드백을 이용해 학생 모델의 전체 추론 궤적을 맞추는 온정책 증류 프레임워크이다. 이를 통해 메모리 사용량을 크게 줄이고, 학생이 자유롭게 탐색하도록 하며, 웹 질문응답과 수학 추론에서 기존 방법보다 12.9%·25.7%까지 성능을 향상시킨다.

상세 분석

본 논문은 대형 언어 모델(LLM)의 추론 능력을 효율적인 소형 모델에 전이하기 위한 새로운 지식 증류 방식인 온정책 언어적 증류(On‑policy Verbal Distillation, OVD)를 제안한다. 기존 토큰‑레벨 온정책 증류는 교사 모델의 전체 어휘에 대한 로짓을 저장·전달해야 하므로, 시퀀스 길이 L과 어휘 크기 V에 비례해 O(N·L·V) 만큼의 메모리를 요구한다. 예시로 제시된 Qwen‑7B( V≈152 K, L=8192)에서는 배치당 160 GB 이상의 메모리가 필요해 실용성이 떨어진다.

OVD는 이러한 병목을 “언어적 점수”라는 10가지(0‑9) 이산 피드백으로 대체한다. 교사 모델은 각 추론 단계 혹은 전체 궤적에 대해 점수를 샘플링하고, 점수가 낮은 궤적은 재샘플링(언어적 거절 샘플링)으로 배제한다. 이 과정은 전체 어휘 로그를 필요로 하지 않으며, 메모리 요구량을 O(N·K·v) 로 감소시킨다(K는 단계 수, v=10). 결과적으로 N·V/v ≈ 48 000 배 정도의 메모리 절감이 가능해 긴 추론 체인과 대규모 배치를 손쉽게 다룰 수 있다.

기술적 핵심은 두 가지이다. 첫째, 교사 모델이 제공하는 점수는 확률적이며 불확실성을 반영한다. 이를 통해 학생 모델이 탐색‑활용 트레이드오프를 자연스럽게 학습한다. 둘째, 온정책 샘플링과 결합된 거절 샘플링은 기존 오프‑정책(teacher‑generated) 데이터와 달리 학생이 실제 생성한 궤적에 직접 피드백을 주어 분포 이동 문제를 완화한다.

학습 목표는 GRPO(그룹 상대적 최적화)와 PPO‑스타일 클리핑을 이용한 정책 그래디언트이다. 보상은 (① 웹 Q&A에서는 단어 겹침 기반 F1, ② 수학에서는 정확도 δ) 두 형태로 정의되며, 단계별 점수와 전체 보상을 혼합해 크레딧 할당을 세밀하게 조정한다. 또한, 보상 정규화(μ, σ)와 그룹 상대 이점 계산을 통해 문제 난이도 편향을 제거한다.

이론적 분석에서는 OVD를 인터랙티브 모방 학습의 일종으로 해석하고, 언어적 거절 샘플링이 무편향 그래디언트 추정기를 제공함을 증명한다(자세한 증명은 부록). 교사 모델이 블랙박스일 경우에도 로짓 없이 점수만으로 학습이 가능하다는 점은 실용적 의미가 크다.

실험에서는 웹 검색 기반 Q&A와 복합 수학 문제 두 벤치마크에서 기존 토큰‑레벨 온정책 증류, 순수 RL, 그리고 시퀀스‑레벨 증류와 비교했다. OVD는 평균 EM 기준 웹 Q&A에서 최대 +12.9%p, 수학에서는 단일 랜덤 샘플만 사용했음에도 +25.7%p의 절대 향상을 기록했다. 메모리 사용량은 토큰‑레벨 대비 1/50 수준이며, 학습 속도도 2배 이상 빨라졌다.

결과적으로 OVD는 (1) 메모리 효율성, (2) 탐색 자유도 보존, (3) 교사 피드백의 풍부한 의미 활용이라는 세 축을 동시에 만족하는 온정책 증류 프레임워크로, 대규모 LLM의 추론 능력을 저비용 모델에 효과적으로 전이할 수 있음을 입증한다.


댓글 및 학술 토론

Loading comments...

의견 남기기