스킬팩토리 강화학습 전 인지 스킬 주입 방법

초록

긴 사고 사슬을 활용하는 추론 모델은 답변 검증, 되돌아가기, 대안 방법 재시도 등 다양한 인지 스킬을 사용한다. 기존 연구에서는 기본 언어 모델이 이러한 스킬을 이미 보유하고 있을 때, 강화학습(RL)으로 추가 학습하면 스킬을 효과적으로 활용할 수 있음을 보여주었다. 그렇다면 기본 모델에 존재하지 않는 스킬을 어떻게 학습시킬 수 있을까? 본 연구인 SkillFactory는 강화학습 이전의 지도학습(SFT) 단계에서 모델이 스킬을 대략적으로 습득하도록 하는 미세조정 방법을 제안한다. 이 접근법은 더 강력한 모델로부터의 증류를 사용하지 않고, 모델 자체가 생성한 샘플을 재배열해 스킬 형식의 학습 데이터를 만든다. 이러한 “실버” SFT 트레이스는 완벽하지 않을 수 있지만, RL 단계에서 모델이 스킬을 습득하도록 효과적으로 프라이밍한다. 실험 결과는 (1) SkillFactory로 초기화된 모델은 RL 후 더 어려운 변형 과제에 일반화 능력이 향상되며, RL 전 성능은 낮을 수 있다, (2) 모델이 실제로 인지 스킬을 사용함을 확인했다, (3) RL된 SkillFactory 모델은 RL된 기본 모델에 비해 도메인 외 작업에서 회귀 현상이 적었다는 점을 보여준다. 이 연구는 RL 이전에 학습된 귀납적 편향이 모델이 견고한 인지 스킬을 습득하도록 돕는다는 점을 시사한다.

상세 요약

SkillFactory 논문은 최근 대형 언어 모델이 복잡한 문제 해결 과정에서 “사고 사슬(chain‑of‑thought)”을 활용하면서 보이는 인지적 행동을 체계적으로 강화학습에 연결하는 방법론적 공백을 메우려는 시도이다. 기존 연구는 기본 모델이 이미 검증, 백트래킹, 대안 시도와 같은 스킬을 어느 정도 내재하고 있을 때, RL을 통해 이 스킬을 선택적으로 활용하도록 정책을 학습할 수 있음을 입증했다. 그러나 실제 상황에서는 사전 학습된 모델이 이러한 스킬을 충분히 보유하지 않은 경우가 빈번하며, 이때는 RL만으로는 스킬을 “발명”하기 어렵다. SkillFactory는 이 문제를 해결하기 위해 두 단계의 학습 파이프라인을 제안한다. 첫 번째 단계는 SFT 단계에서 “실버 트레이스”를 생성한다. 구체적으로, 현재 모델이 생성한 답변을 후처리하여 검증·백트래킹·재시도와 같은 형식으로 재구성하고, 이를 라벨링된 데이터처럼 사용해 모델을 미세조정한다. 이 과정은 교사 모델이 필요 없으며, 완전한 인간 라벨링도 요구하지 않는다. 다만 생성된 트레이스가 완전하지 않을 수 있다는 점을 인정하고, 이를 “실버”라 명명한다. 두 번째 단계는 이러한 사전 학습된 모델을 RL 환경에 투입해 보상 신호에 따라 최적 정책을 학습한다. 실험에서는 두 가지 주요 평가가 이루어졌다. 첫째, RL 전후의 성능 변화를 살펴보았을 때, SkillFactory 초기화 모델은 RL 전에는 기본 모델보다 낮은 정확도를 보였지만, RL 후에는 더 어려운 변형 과제에서 현저히 높은 일반화 능력을 나타냈다. 이는 사전 SFT 단계가 모델에게 “스킬 사용 가능성”이라는 잠재적 구조를 심어주어, RL 단계에서 보상에 맞춰 해당 스킬을 효율적으로 선택하도록 만든 것으로 해석된다. 둘째, 모델이 실제로 스킬을 활용했는지를 확인하기 위해 추론 과정 로그를 분석했으며, 검증 단계와 백트래킹 단계가 명시적으로 나타나는 것을 관찰했다. 마지막으로, 도메인 외 테스트에서 SkillFactory 모델은 기본 RL 모델에 비해 성능 퇴보가 적었으며, 이는 사전 학습된 인지 편향이 새로운 상황에서도 일정 수준의 안정성을 제공한다는 증거다. 전체적으로 이 연구는 “스킬을 직접 가르치는” 것이 아니라, 모델 자체가 생성한 데이터를 재구성해 “스킬 사용 가능성”을 심어주는 새로운 프레임워크를 제시한다는 점에서 의미가 크다. 향후 연구에서는 실버 트레이스의 품질을 자동으로 향상시키는 방법, 다양한 스킬(예: 메타‑추론, 오류 교정)으로 확장하는 방안, 그리고 인간 피드백과 결합한 하이브리드 학습 전략을 탐색할 여지가 있다.

초록

상세 요약

📜 논문 원문 (영문)