경쟁 프로그래밍을 위한 완전 합성 데이터 기반 X‑Coder 모델
초록
본 논문은 경쟁 프로그래밍 문제, 해답, 테스트 케이스를 전부 합성하여 만든 대규모 데이터셋을 활용, SFT‑then‑RL 파이프라인으로 X‑Coder 시리즈를 학습시켰다. 도메인‑특화 진화와 이중 검증 전략을 통해 과제의 난이도·해답 정확도·테스트 품질을 크게 향상시켰으며, 7B 파라미터 모델인 X‑Coder‑7B가 LiveCodeBench v5/v6에서 평균 62.9%·55.8%의 avg@8 점수를 기록, 동일 규모 혹은 더 큰 실데이터 기반 모델들을 능가한다.
상세 분석
이 연구는 기존 코드 LLM이 실세계 경쟁 프로그래밍 데이터에 의존해 확장성 한계와 데이터 오염 문제에 직면한다는 점을 출발점으로 삼는다. 저자들은 “오프‑더‑쉘프” 합성 기법이 문제 난이도·해답 타당성·테스트 커버리지를 충분히 보장하지 못한다는 사실을 실험적으로 확인하고, 세 가지 핵심 차원(문제 solvability, 솔루션 정합성, RL 보상 신호의 신뢰성)을 개선하기 위한 프레임워크를 설계했다.
-
도메인‑특화 진화: 기존 Feature‑based synthesis(EpiCoder 등)의 일반화된 특징 트리를 경쟁 프로그래밍에 맞게 재구성한다. 10k개의 TA‑CO 코드 스니펫을 GPT‑4o‑0513으로 라벨링·추출해 ‘정렬, 수론, 트리 탐색’ 등 알고리즘 카테고리를 포함한 200여 개의 세부 특징을 구축하고, 진화 연산(선택·교배·돌연변이)으로 상호 일관된 특징 집합을 생성한다. 이를 통해 난이도와 다양성을 동시에 확보한 문제를 자동 생성한다.
-
다중 스타일 지원: Codeforces‑style, LeetCode‑style, AtCoder‑style 등 세 가지 입력·출력 포맷을 모두 제공함으로써 모델이 다양한 인터페이스에 적응하도록 만든다. 스타일별 난이도 추정 실험 결과, AtCoder‑style이 가장 높은 평균 난이도를 보였으며, 전체 데이터셋의 난이도 분포가 인간‑작성 문제와 통계적으로 유사함을 확인했다.
-
테스트 케이스 합성: 프롬프트 기반 생성과 CYaron4 기반 도구 호출 두 방식을 병행한다. 프롬프트 방식은 제약조건을 직접 해석해 표준·경계·스트레스 케이스를 만든다. CYaron4는 함수 호출을 통해 대규모 무작위 입력을 자동 생성하고, 실행 시간·메모리 제한을 검증한다. 두 방법을 결합해 평균 12개의 테스트 입력을 확보했으며, 테스트 커버리지는 95% 이상인 것으로 측정된다.
-
이중 검증 전략: (①) 테스트 검증 – 동일 입력에 대해 8개의 후보 솔루션을 실행, 다수결로 ‘예비 정답’ ˆy를 도출한다. 이 과정에서 94.7% 라벨 정확도를 달성했으며, 경계·스트레스 케이스에 가중치 w_i를 부여해 중요도를 반영한다. (②) 솔루션 검증 – 후보 솔루션을 가중 테스트 세트(T_golden)와 별도 hold‑out 세트(T_val)에서 평가, 가중 정확도가 최고인 솔루션을 ‘골든 솔루션’ A_golden으로 선정한다. 이중 검증을 통해 솔루션 오염을 0.8% 이하로 억제하고, 테스트 케이스와 솔루션 간 일관성을 확보한다.
-
학습 파이프라인: 검증된 (문제, 골든 솔루션) 쌍을 SFT 데이터로, (문제, 골든 테스트) 쌍을 RL 보상으로 사용한다. SFT는 5e‑5 학습률, 배치 128, 8 epoch으로 진행했고, RL은 GRPO 알고리즘을 적용해 테스트 통과 비율을 보상으로 정의했다. 전체 학습 비용은 7B 모델 기준 약 1.2M GPU‑hour 수준이며, 비용 대비 성능 효율이 기존 실데이터 기반 13B 모델보다 1.6배 높다.
-
성능 평가: LiveCodeBench v5/v6에서 X‑Coder‑7B는 avg@8 62.9%·55.8%를 기록, 동일 규모 Qwen2.5‑Coder‑7B(≈48%)와 Mimo‑7B(≈57%)를 크게 앞선다. 특히 ‘Medium’·‘Hard’ 난이도 구간에서 8~10% 포인트 상승을 보였으며, 코드 스타일·언어(파이썬, C++) 전반에 걸쳐 일관된 우위를 유지한다.
-
인사이트: (①) 합성 데이터 규모는 단순히 양이 아니라 ‘도메인 적합성’이 핵심; (②) 특징 진화와 이중 검증이 없으면 솔루션·테스트 품질이 급격히 저하된다; (③) RL 단계에서 고품질 테스트가 없으면 보상 신호가 잡음에 취약해 학습이 불안정해진다. 저자들은 이러한 요소들을 체계화함으로써 완전 합성 데이터만으로도 전문가 수준의 코드 추론 능력을 달성할 수 있음을 실증했다.
댓글 및 학술 토론
Loading comments...
의견 남기기