다중턴 코딩 에이전트를 위한 엔트로피 강화 선호 최적화

다중턴 코딩 에이전트를 위한 엔트로피 강화 선호 최적화
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

EntroPO는 다중턴·툴 사용 코딩 에이전트의 다양성을 보존하면서 인간 선호에 맞추는 새로운 학습 프레임워크이다. 엔트로피 정규화를 손실에 추가해 정책이 좁은 해답 집합에 수렴하는 현상을 방지하고, 이를 기반으로 DPO와 KTO의 다중턴 버전을 유도한다. 또한 테스트‑타임 스케일링(TTS) 효율을 높이기 위해 모델 기반 검증기와 모델‑프리 선택을 결합한 하이브리드 베스트‑트래젝터리 선택기를 제안한다. SWE‑Bench 평가에서 30B 모델이 오픈‑웨이트 기준 최고 성능을 기록했으며, 350B 이상 모델에 근접하는 결과를 얻었다.

상세 분석

본 논문은 소프트웨어 엔지니어링 작업, 특히 SWE‑Bench와 같은 레포지터리‑레벨 버그 수정·패치 생성 과제가 LLM에게 여전히 어려운 이유를 ‘다중턴·툴 사용’이라는 구조적 복합성에 기인한다는 점에서 출발한다. 기존의 정렬 방법(DPO, KTO 등)은 인간 선호를 반영하는 데는 효과적이지만, 학습 과정에서 정책의 엔트로피를 급격히 감소시켜 ‘winner‑take‑all’ 현상을 초래한다. 이는 테스트‑타임 스케일링(TTS)에서 다수의 샘플을 생성해도 서로 중복되는 경로가 많아져 탐색 효율이 급감한다는 문제로 이어진다.

EntroPO는 이러한 문제를 해결하기 위해 두 가지 핵심 아이디어를 제시한다. 첫째, 선호 최적화 목표에 가중치 λ를 갖는 엔트로피 정규화 항 λ·H(π)를 추가한다. 이는 정책이 낮은 엔트로피 영역에 수렴하는 것을 직접 억제하고, 특히 ‘정답’이라 판단되는 트래젝터리들 사이에서도 다양성을 유지하도록 설계되었다. 논문은 이를 MDP의 엔트로피‑정규화 형태로 정식화하고, KL‑다이버전스와 엔트로피 항을 결합한 새로운 가치 함수 Vπ와 Qπ를 도출한다.

둘째, 다중턴 환경에 맞게 DPO와 KTO의 손실을 재구성한다. Bradley–Terry 모델을 기반으로 선호 확률을 정의하고, 엔트로피‑정규화된 정책을 이용해 최적 정책 π*를 표현함으로써 기존 단일턴 DPO 손실을 다중턴 버전(EntroPO‑DPO, EntroPO‑KTO)으로 확장한다. 이 과정에서 ‘정답’ 트래젝터리가 레퍼런스 정책에 비해 충분히 언더레프레젠트될 경우, 손실이 더 크게 가중되어 정책이 그 영역을 탐색하도록 유도한다. 즉, 정답이 희소하게 나타나는 경우에도 모델이 이를 놓치지 않게 만든다.

또한 TTS 효율을 극대화하기 위해 하이브리드 베스트‑트래젝터리 선택기를 설계한다. 여기서는 (i) 학습된 검증기 모델이 트래젝터리의 품질을 점수화하고, (ii) 테스트 통과 여부·트래젝터리 길이·툴 호출 수 등 모델‑프리 메트릭을 결합해 최종 순위를 매긴다. 검증기 오류에 대한 로버스트성을 확보하면서도, 엔트로피‑증강 정책이 제공하는 풍부한 후보군을 효과적으로 활용한다.

실험에서는 다양한 모델군(7B~106B)과 여러 베이스 라인(DPO, KTO, M‑DPO 등)을 동일 조건에서 fine‑tune하고, SWE‑Bench‑LITE와 SWE‑Bench‑VERIFIED 두 벤치마크에 적용했다. 결과는 EntroPO가 정책 엔트로피를 현저히 높이며, 동일 샘플 수에서 더 높은 정답 비율을 달성함을 보여준다. 특히 30B 모델은 오픈‑웨이트 라인업 중 LITE에서 1위, VERIFIED에서 4위를 차지했으며, 350B 규모의 폐쇄형 모델에 근접하는 성능을 기록했다.

이 논문의 주요 기여는 (1) 다중턴·툴 사용 시나리오에 특화된 엔트로피‑정규화 선호 최적화 프레임워크, (2) 정답 트래젝터리의 언더레프레젠테이션을 보완하는 이론적 분석, (3) 엔트로피‑증강 정책과 하이브리드 선택기의 시너지 효과를 입증한 실증적 결과이다. 향후 연구는 (a) 엔트로피 가중치 λ의 자동 튜닝, (b) 더 복잡한 툴 체인(예: 디버거, 리팩터)과의 통합, (c) 온라인 RLHF와의 혼합 학습을 통한 장기적인 정책 안정성 확보 등으로 확장될 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기