SWE‑Replay: 소프트웨어 엔지니어링 에이전트의 테스트‑타임 스케일링을 효율화하는 새로운 방법

SWE‑Replay: 소프트웨어 엔지니어링 에이전트의 테스트‑타임 스케일링을 효율화하는 새로운 방법
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

SWE‑Replay은 기존 에이전트가 매번 새롭게 경로를 샘플링하던 비용을 절감하기 위해, 이전에 생성된 트래젝터리를 중간 단계에서 재활용하는 기법이다. 중요한 중간 단계는 파일 탐색 희소성 및 추론 강도를 기준으로 선택되며, 이를 통해 테스트‑타임 스케일링 비용을 최대 17.4 % 절감하면서도 해결률을 최대 3.8 % 향상시킨다.

상세 분석

SWE‑Replay은 “재활용‑재탐색”이라는 핵심 아이디어에 기반한다. 에이전트가 한 번 수행한 작업 흐름을 아카이브에 저장하고, 이후 스케일링 단계에서 두 가지 선택지를 제공한다. 첫째, 완전 탐색 모드에서는 기존과 동일하게 이슈 설명만을 입력으로 새 트래젝터리를 생성한다. 둘째, 재활용 모드에서는 아카이브에 있는 기존 트래젝터리 중 하나를 선택하고, 그 중간 단계 sₜ를 기준으로 환경을 복원한 뒤, 해당 단계의 행동을 새로운 행동 s′ₜ으로 교체한다. 이때 sₜ는 두 가지 기준으로 선정된다. 첫 번째는 “파일 탐색 희소성”이다. 각 단계가 접근한 파일 집합을 추상 상태(state)로 정의하고, 해당 상태에 포함된 구체 단계 수 vᵢ가 적을수록 희소성이 높다고 판단한다. 소프트맥스 함수를 이용해 희소성에 비례하는 샘플링 확률 pᵢ를 부여함으로써, 잘 탐색되지 않은 파일 영역을 우선적으로 재활용한다. 두 번째는 “추론 강도”이다. 현대 에이전트는 각 단계에서 자연어 추론을 수행하는데, 단순 토큰 수보다 의미 있는 단락 수가 추론 강도를 더 잘 나타낸다. 따라서 선택된 추상 상태 내에서 단락 수 lᵢ,ⱼ를 기반으로 다시 소프트맥스 확률 pᵢ,ⱼ를 계산해, 가장 논리적·전략적 의사결정이 이루어진 단계에 재탐색을 집중한다. 이러한 두 단계 선택 메커니즘은 외부 LLM‑as‑Judge 혹은 보상 모델에 의존하지 않으며, 모델 보정 오류에 따른 노이즈를 회피한다.

환경 복원은 저장 비용을 최소화하기 위해 파일 차분(diff)만을 기록한다. 에이전트가 레포지토리 외부(예: 패키지 설치)에서 상태를 변경했는지 여부를 패턴 매칭으로 판단하고, 변경이 없을 경우 차분 적용만으로 빠르게 복원한다. 변경이 있는 경우에는 전체 액션 시퀀스를 재실행한다. 이 설계는 대규모 테스트 실행 비용을 크게 절감한다.

실험 결과는 SWE‑Bench Verified에서 평균 비용 절감 17.4 %와 해결률 향상 3.8 %를 보여준다. 동일한 방법을 SWE‑Bench Pro와 Multilingual 데이터셋에 적용했을 때도 일관된 성능 향상이 관찰되었으며, 특히 장기 파일 탐색 영역에서의 탐색 비중이 증가함을 시각화하였다. 이론적 분석에서는 재활용 단계가 탐색 공간을 효과적으로 재분배하여 기대 성능을 높이는 메커니즘을 설명한다. 전체적으로 SWE‑Replay은 현대 에이전트가 사용하는 자유형 bash 스크립트와 같은 도구 체인을 그대로 유지하면서도, 테스트‑타임 스케일링의 비용‑효율성을 크게 개선한다.


댓글 및 학술 토론

Loading comments...

의견 남기기