멀티턴 코드 생성 위한 온라인 오프라인 RL 융합 컨텍스추얼 밴딧 학습 Cobalt

멀티턴 코드 생성 위한 온라인 오프라인 RL 융합 컨텍스추얼 밴딧 학습 Cobalt
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

Cobalt는 오프라인으로 수집한 코드 생성 궤적을 부분화하여 컨텍스트 밴딧 형태로 온라인 학습을 수행함으로써, 멀티턴 코드 생성에서 온라인 RL의 성능을 유지하면서 비용과 불안정성을 크게 낮춘 방법이다.

상세 분석

본 논문은 멀티턴 코드 생성 문제를 “한 단계 복구 가능(one‑step recoverable) MDP” 로 정의하고, 이를 컨텍스추얼 밴딧 문제로 전환한다는 핵심 아이디어를 제시한다. 기존 온라인 RL은 매 정책 업데이트마다 전체 궤적을 재수집해야 하므로 GPU·시간 비용이 급증하고, 보상 신호가 희소해 학습이 불안정해지는 단점이 있다. 반면 오프라인 RL는 데이터 수집 비용이 낮지만 정책과 데이터 분포가 맞지 않아 성능이 제한된다. Cobalt는 두 접근법의 장점을 결합한다. 먼저 레퍼런스 LLM(예: R1‑Distill 8B‑FT, Qwen3 8B‑FT)으로 다수의 멀티턴 코드 생성 궤적을 생성하고, 각 궤적을 “부분 궤적”(partial trajectory) 형태로 분할한다. 이 부분 궤적은 현재까지의 코드와 피드백(실행 결과)으로 구성된 컨텍스트가 된다. 온라인 단계에서는 LLM이 해당 컨텍스트를 입력받아 단일 코드 조각을 생성하고, 즉시 실행해 얻은 보상(R∈


댓글 및 학술 토론

Loading comments...

의견 남기기