LLM 기반 소프트웨어 개발 에이전트 디버깅을 위한 인터랙티브 도구 AgentStepper
초록
AgentStepper는 LLM 기반 소프트웨어 개발 에이전트의 실행 흐름을 대화 형태로 시각화하고, 브레이크포인트·단계 실행·프롬프트·툴 호출 실시간 편집을 지원하는 최초의 인터랙티브 디버거이다. 기존 로그 뷰어가 제공하지 못하는 중간 코드 변경 내역과 고수준 행동 추적을 가능하게 하며, 세 가지 최신 에이전트에 최소한의 코드 삽입(39~42줄)만으로 적용할 수 있다. 사용자 연구 결과, AgentStepper를 사용한 참가자는 에이전트 행동 이해도와 버그 탐지율이 크게 향상되고, 작업 부담이 현저히 감소하였다.
상세 분석
본 논문은 LLM을 핵심 엔진으로 활용하는 소프트웨어 개발 에이전트가 “프롬프트 설계”, “행동 흐름 파악”, “에이전트 프로그램 버그 수정”, “중간 코드 변경 검토”라는 네 가지 고유한 디버깅 과제(C1‑C4)를 안고 있음을 명확히 제시한다. 기존의 로그 뷰어나 전통적인 디버거는 저수준 구현 세부사항에 집중하기 때문에, 에이전트가 LLM과 툴을 오가는 고수준 의사결정 과정을 드러내지 못한다. 이러한 한계를 극복하기 위해 저자들은 전통 디버깅 개념(브레이크포인트, 스텝 실행, 실시간 편집)을 에이전트의 “행동” 수준으로 추상화하였다. 핵심 설계는 에이전트 실행을 두 개의 교차 대화(에이전트‑LLM, 에이전트‑툴)로 구조화하고, 각 단계마다 프롬프트·응답·툴 호출·결과를 독립적인 이벤트로 캡처한다. 백엔드는 이러한 이벤트를 저장하고, Git 기반 버전 관리와 연동해 중간 코드 커밋을 자동 생성한다. UI는 대화형 트리 구조와 커밋 히스토리를 동시에 제공해, 개발자는 특정 단계에서 바로 프롬프트를 수정하거나 툴 호출 파라미터를 바꾸어 재실행할 수 있다. API는 에이전트 프로그램에 최소 57개의 호출 포인트만 삽입하면 되도록 설계돼, 기존 에이전트에 대한 침투 비용을 크게 낮춘다. 실험에서는 ExecutionAgent, SWE‑Agent, RepairAgent 세 가지 최신 에이전트에 각각 3942줄의 코드만 수정해 통합했으며, 이는 전체 코드 대비 0.5% 미만에 해당한다. 사용자 연구(12명)에서는 AgentStepper 사용 시 평균 이해도 점수가 64%에서 67%로 소폭 상승했지만, 버그 탐지 성공률은 17%에서 60%로 크게 개선되었다. 또한 NASA‑TLX 기반 작업 부담 설문에서 좌절감이 5.4/7.0에서 2.4/7.0으로 절반 이하로 감소하는 등, 인지적 부하 감소 효과가 뚜렷했다. 이러한 결과는 고수준 행동 추적과 인터랙티브 제어가 에이전트 디버깅에 필수적임을 실증적으로 뒷받침한다.
댓글 및 학술 토론
Loading comments...
의견 남기기