코드와 문서를 연결하는 자체 지도 백번역 프레임워크 BatCoder
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.
초록
BatCoder는 코드만을 이용해 문서 생성과 코드 재생성을 동시에 학습하는 자체 지도 강화학습 프레임워크이다. 코드 → 문서 → 재코드 순의 백번역 과정을 통해 원본 코드와 재구성된 코드의 유사도를 보상으로 사용한다. 7B 모델을 HumanEval·MBPP에 적용했을 때 각각 83.5%·81.0%의 pass@1을 달성했으며, 데이터 규모와 모델 크기에 따라 일관된 스케일링 효과를 보였다.
상세 분석
BatCoder는 기존 코드‑문서 쌍에 의존하던 학습 패러다임을 근본적으로 전환한다. 핵심 아이디어는 “문서는 원본 코드를 충분히 복원할 수 있어야 한다”는 관찰에 기반한 백번역(back‑translation)이다. 구체적으로, 모델은 먼저 입력 코드 c에 대해 문서 d = fθ(c)를 생성한다(스테이지 1). 생성된 문서는 사전 정의된 포맷 검증과 중복 제거 과정을 거쳐 필터링된다. 필터링된 문서는 다시 코드로 변환되어 재구성 코드 c′ = gθ(d)를 만든다(스테이지 2). 원본 코드와 재구성 코드 사이의 구조·의미 유사도 R(c, c′) 를 보상으로 정의하고, 이를 기대값 J(θ)=E_c
댓글 및 학술 토론
Loading comments...
의견 남기기