자기 샘플링으로 간결 추론을 학습하는 S3CoT
초록
S3‑CoT는 활성화 스티어링을 이용해 목표 LLM 자체에서 길이‑조절된 체인‑오브‑생각(CoT) 데이터를 자동으로 생성하고, 이를 답안 또는 자기‑일관성 검증을 통해 고품질 데이터로 정제한다. 정제된 가변‑길이 CoT를 사용해 두 단계(빠른·느린) 인지 시스템과 점진적 압축 커리큘럼으로 SFT를 수행함으로써, 기존 프롬프트 제어·SFT·RL 방식보다 짧고 효율적인 추론을 달성한다. 수학 및 의료 벤치마크에서 전반적인 성능 향상을 보이며, 다양한 일반·R1‑스타일 LLM에 적용 가능함을 입증한다.
상세 분석
본 논문은 LLM 내부 표현 공간에 존재하는 “길이 제어 방향”(Variable‑Length Direction, VL‑D)을 발견하고, 이를 선형적으로 조작함으로써 CoT의 토큰 수를 자유롭게 늘리거나 줄일 수 있음을 실증한다. 활성화 스티어링 기법을 적용해 중간 레이어부터 시작되는 VL‑D를 추출하고, 각 레이어별 평균 분리 강도와 각도 분산을 정량화함으로써 방향의 일관성과 강도를 확인하였다. 실험 결과, Qwen2.5‑7B, LLaMA3‑8B 등 일반 LLM에서는 중간 레이어 이후부터 VL‑D가 뚜렷하게 나타나며, DeepSeek‑R1‑7B와 같은 R1‑스타일 모델에서도 비슷한 현상이 관찰되지만 레이어별 안정성에 차이가 있다.
데이터 생성 단계에서는 목표 LLM에 VL‑D를 일정 강도(α)와 레이어 블록에 적용해 원본 CoT보다 짧은 버전을 샘플링한다. α가 너무 작으면 길이 변화가 미미하고, 너무 크면 출력이 붕괴(반복 혹은 무의미)한다는 점을 탐색적 프로빙을 통해 규명하였다. 일반 LLM은 상위 5~10 레이어에 |α|≤0.5 범위가, R1‑스타일 LLM은 상위 15 레이어에 동일 범위가 안정적이었다.
생성된 샘플은 두 가지 검증 절차를 거친다. 첫째는 정답이 존재할 경우 정답 일치 여부로 필터링하고, 둘째는 정답이 없을 때 가변‑길이 버전 간 예측 일관성을 이용한 자기‑일관성 검증을 수행한다. 특히 자기‑일관성 검증을 적용하면 거의 완벽에 가까운 정확도를 가진 샘플을 확보할 수 있으나, 모델 능력에 따라 필터링 효율이 크게 달라진다(예: LLaMA3‑8B는 6,838개 중 517개만 유지).
학습 단계에서는 (i) “빠른 사고”(System 1)와 “느린 사고”(System 2) 역할을 모방한 이중 인지 시스템과 (ii) 초기 긴 CoT에서 점진적으로 압축된 짧은 CoT로 전이하는 진행형 압축 커리큘럼을 도입한다. 이 커리큘럼은 과도한 압축으로 인한 성능 저하를 방지하면서도 모델이 짧은 추론을 자연스럽게 습득하도록 돕는다.
평가에서는 GSM8K, MATH, 그리고 의료 질문 응답 데이터셋을 사용해 기존 프롬프트‑제어, SFT 기반, RL 기반 베이스라인과 비교하였다. S3‑CoT는 전반적으로 정확도와 토큰 효율성 모두에서 우수한 결과를 보였으며, 특히 R1‑스타일 LLM에 적용했을 때도 안정적인 성능 향상을 기록했다. 또한 교차 도메인 실험에서 의료 데이터에 대한 일반화 능력도 입증하였다.
본 연구는 (1) 고품질 가변‑길이 CoT 데이터를 교사 없이 자체 생성할 수 있는 파이프라인을 제시하고, (2) 활성화 스티어링을 활용한 “자기 진화” 데이터 수집이 실제로 높은 정확도와 스타일 일관성을 유지함을 증명했으며, (3) 압축 커리큘럼을 통한 효율적인 CoT 내재화가 기존 RL 방식보다 계산 비용이 적고 안정적임을 보여준다. 향후 연구에서는 VL‑D의 다중 속성(예: 논리성, 신뢰도) 확장과 더 큰 규모의 LLM에 대한 스케일링 효과를 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기