답변 우선 추론 나중 검색 관련성 향상을 위한 모드 균형 강화학습
초록
본 논문은 검색 관련성 모델이 초실시간 응답과 고해석성을 동시에 만족하도록, 첫 토큰에 최종 점수를 출력하고 그 뒤에 구조화된 논리 설명을 이어가는 “답변 우선, 추론 나중(Answer‑First, Reason‑Later, AFRL)” 패러다임을 제안한다. 기존 RL 기반 학습에서 발생하는 모드 붕괴 문제를 해결하기 위해 전방 KL(모드 커버링)과 역방 KL(모드 탐색)를 동시에 최소화하는 모드‑밸런스 최적화 전략을 도입하고, 자동화된 지시문 진화(PIAR)와 다단계 커리큘럼을 통해 전문가 규칙을 효율적으로 학습한다. 32B 교사 모델을 기반으로 0.6B 학생 모델에 지식 증류를 수행해 실시간 서비스에 적용 가능한 저지연·고성능 모델을 구현한다.
상세 분석
AFRL 패러다임은 기존 “답변‑후‑추론” 방식과 달리, 모델이 첫 번째 토큰에서 최종 관련성 점수를 즉시 출력하도록 설계돼 시간‑투‑퍼스트 토큰(Time‑to‑First‑Token, TFT)을 사실상 0으로 만든다. 이는 온라인 검색 서비스에서 요구되는 밀리초 수준의 응답 지연을 만족하면서도, 뒤따르는 구조화된 CoT(Chain‑of‑Thought) 형태의 논리 트레이스를 통해 인간 전문가가 검증 가능한 설명을 제공한다는 두 마리 토끼를 잡는다.
핵심 기술적 난제는 RL을 적용했을 때 나타나는 ‘모드 붕괴(mode collapse)’ 현상이다. RL은 보상 최대화를 위해 역방 KL(Reverse KL) divergence을 최소화하는데, 이는 확률 분포를 고보상 영역에 집중시키는 모드‑시킹 특성을 갖는다. 결과적으로 모델은 복잡하고 장기적인 규칙을 무시하고, 키워드 매칭 같은 단순한 고보상 패턴에만 의존하게 된다. 반면, 감독 미세조정(Supervised Fine‑Tuning, SFT)은 전방 KL(Forward KL)를 최소화해 데이터 분포 전체를 커버하도록 강제한다. 전방 KL는 ‘모드‑커버링(mode‑covering)’ 특성을 가져, 희귀하지만 중요한 규칙까지 학습하도록 만든다.
논문은 이 두 목표를 동시에 달성하기 위해 ‘모드‑밸런스 최적화(Mode‑Balanced Optimization)’를 제안한다. 구체적으로 Stepwise‑GRPO(Group‑Relative Policy Optimization) 학습 과정에 SFT 손실을 보조 목표로 삽입해, 역방 KL에 의한 모드‑시킹 압력을 완화하고 전방 KL에 의한 규칙 커버링을 유지한다. 손실 함수는 γ·L_SFT + α·L_GRPO 형태로 가중치를 조절해 두 힘을 균형 있게 적용한다.
또한, 전문가 규칙을 대규모로 확보하기 위해 PIAR(Policy Induction & Automated Refinement) 시스템을 구축했다. PIAR은 ‘행동‑진단‑진화’ 루프를 통해 모델이 생성한 오류 샘플을 자동으로 분석하고, 규칙 기반 평가기가 지적한 문제점을 반영해 지시문을 재작성한다. 이 과정은 인간 라벨링 비용을 크게 절감하면서도 규칙의 정확성과 포괄성을 지속적으로 향상시킨다.
학습 효율성을 높이기 위해 다단계 커리큘럼 학습이 도입되었다. 초기에는 쉬운 샘플을 중심으로 SFT를 진행하고, 점차 중·난이도, 장기 규칙이 포함된 샘플로 확대한다. 각 단계에서 단계별 보상 가중치를 적용해 중요한 논리 체크포인트(예: 의도 분석, 최신성 검증 등)에 더 큰 신호를 전달한다.
마지막으로, 32B 규모의 교사 모델에서 얻은 고품질 논리 트레이스를 0.6B 학생 모델에 지식 증류한다. 증류 과정에서는 첫 토큰 점수와 논리 트레이스 모두를 목표로 삼아, 학생 모델이 저지연 환경에서도 전문가 수준의 추론 능력을 유지하도록 만든다. 실험 결과, 교사 모델은 공개된 검색 관련성 벤치마크에서 최첨단 성능을 기록했으며, 증류된 소형 모델도 기존 디스크리미네이터 기반 모델 대비 유의미한 정확도 향상과 응답 지연 감소를 달성했다.
이러한 설계는 검색 엔진뿐 아니라, 실시간 의사결정이 요구되는 다양한 산업 응용 분야에 적용 가능성을 열어준다.
댓글 및 학술 토론
Loading comments...
의견 남기기