수학 추론을 위한 오류‑통합 학습: TrajFusion의 혁신
초록
TrajFusion은 기존의 거절 샘플링(Reject Sampling) 방식이 올바른 해답만을 남기고 버리는 문제점을 해결한다. 교사 모델이 생성한 오류 경로를 선택적으로 포함하고, 반성 프롬프트와 올바른 경로를 교차시켜 하나의 퓨전 트래젝터리를 만든다. 오류 빈도와 다양성을 기반으로 샘플 길이를 자동 조절해 어려운 문제에 풍부한 감독 신호를 제공하면서, 오류 정보가 부족할 경우 기존 RFT와 동일하게 동작한다. 실험 결과, 두 가지 베이스 모델(LLaMA‑3‑8B, DeepSeekMath‑7B)과 여섯 개 수학 벤치마크에서 데이터 양에 관계없이 RFT를 꾸준히 능가했으며, 특히 긴 추론이 요구되는 OlympiadBench·TheoremQA 등에서 큰 향상을 보였다.
상세 분석
TrajFusion은 기존 거절 샘플링 파인튜닝(RFT)이 “정답만 남기고 전부 버린다”는 이분법적 감독 방식을 근본적으로 재구성한다. 논문은 먼저 교사 모델이 동일 문제에 대해 다수의 체인‑오브‑생각(Chain‑of‑Thought) 경로를 생성하고, 자동 검증기로 정답 여부를 판별한다. 여기서 중요한 두 가지 통계, 즉 오류 비율 r(x)와 오류 다양성 u(x) (정답 집합의 셈을 Shannon 엔트로피로 측정)를 도출한다. r(x)는 해당 문제에서 교사 모델이 얼마나 자주 틀리는지를 나타내고, u(x)는 틀린 답이 얼마나 다양하게 나타나는지를 정량화한다. 이 두 값은 TrajFusion이 포함할 오류 경로 수 k(x)를 결정하는 핵심 파라미터이며, k(x)=min(k_max,⌊α·r(x)·u(x)⌋) 로 정의된다. 따라서 오류가 거의 없거나 다양성이 낮은 경우 k(x)=0이 되어 RFT와 동일하게 동작하고, 오류가 빈번하고 다양할수록 더 많은 오류 경로가 선택된다.
선택된 오류 경로는 정답 경로와 ‘반성 프롬프트(ρ_i)’로 구분된다. 반성 프롬프트는 “왜 이 답이 틀렸는가?”와 같은 간단한 질문 형태로, 모델에게 이전 시도와 정답 사이의 논리적 차이를 명시적으로 학습하게 만든다. 이렇게 구성된 퓨전 샘플 T(x)=
댓글 및 학술 토론
Loading comments...
의견 남기기