코드 생성 언어를 실시간으로 습득하는 인퍼런스 시점 에이전트

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 사전 학습에 포함되지 않은 새로운 프로그래밍 언어를 LLM이 실행 중에 학습하도록 설계한 ILA‑agent 프레임워크와, 이를 평가하기 위한 Cangjie‑bench 벤치마크를 제시한다. 탐색·검증 원시 도구를 활용해 공식 문서와 실행 환경을 순차적으로 이용함으로써, 기존의 파인튜닝이나 단일 검색 기반 RAG보다 높은 코드 생성·번역·수정 성능을 달성한다.

상세 분석

ILA‑agent는 LLM을 “행동 원시 도구” 집합으로 확장해 인간 프로그래머가 수행하는 탐색·적용·검증 과정을 모방한다. 탐색 원시 도구는 구조화된 문서 뷰(ViewStruct, ViewDetail)와 의미 기반 검색(SemSearch)으로 구성돼, 언어에 대한 사전 지식이 부족한 모델이 키워드 매칭에 의존하지 않고도 관련 정보를 획득하도록 설계되었다. 검증 원시 도구는 코드 실행(Execute)과 최종 제출(Submit)으로 이루어지며, 실행 환경으로부터 얻는 런타임 오류와 테스트 결과를 즉시 피드백으로 활용한다. 이러한 피드백 루프는 LLM이 잘못된 가정을 빠르게 수정하고, 점진적으로 언어 모델을 업데이트하는 역할을 한다.

프레임워크는 부분적으로 관찰 가능한 마르코프 결정 과정(POMDP)으로 공식화된다. 상태는 현재 질의와 과거 행동·관찰의 시퀀스로 정의되며, 정책 π는 LLM M에 의해 결정된다. 각 타임스텝에서 π는 현재 상태를 입력받아 다음 행동을 선택하고, 선택된 도구는 외부 자원(D, E)으로부터 관찰 o를 반환한다. 이 과정을 최대 T번 반복하거나 Submit이 성공하면 종료한다.

Cangjie‑bench은 새로 발표된 정적 타입 언어 Cangjie를 기반으로 코드 생성(HumanEval 변형), 코드 번역(Java→Cangjie), 프로그램 수리(QuixBugs 변형) 세 가지 작업을 포함한다. 각 작업은 155·165·32개의 문제로 구성되며, 기존 공개 데이터가 거의 존재하지 않아 “콜드 스타트” 상황을 그대로 재현한다.

실험에서는 DeepSeek‑V3.2, Qwen3‑Max, Claude‑Sonnet‑4.5 등 최신 LLM을 대상으로 ILA‑agent와 파인튜닝, 단일·반복 RAG을 비교하였다. 결과는 모든 작업에서 ILA‑agent가 현저히 높은 정확도를 보였으며, 특히 반복 RAG 대비 10~20%p 상승을 기록했다. 특히 프로그램 수리에서는 100% 성공률을 달성해, 실행 환경과 테스트 기반 검증이 코드 품질 향상에 결정적임을 입증했다.

추가 분석에서는 에이전트의 행동 트래젝터리를 시각화해 탐색·검증 단계가 어떻게 교차하는지 살폈다. 초기 단계에서는 문서 검색이 집중되고, 이후 실행 피드백을 통해 코드 스니펫을 반복적으로 수정한다는 패턴이 관찰되었다. 그러나 여전히 복합 타입 추론이나 라이브러리 의존성 해결 등 고난이도 상황에서는 탐색 효율이 떨어지는 한계가 드러났다.

이 논문은 LLM이 사전 지식 없이도 외부 도구와 피드백 루프를 활용해 새로운 언어를 습득할 수 있음을 실증적으로 보여준다. 향후 연구는 자동화된 도구 설계, 다중 언어 동시 학습, 그리고 더 복잡한 소프트웨어 스택(예: 프레임워크, 빌드 시스템)과의 통합을 통해 ILA‑agent의 적용 범위를 확대할 수 있을 것으로 기대된다.

코드 생성 언어를 실시간으로 습득하는 인퍼런스 시점 에이전트

초록

상세 분석

댓글 및 학술 토론

의견 남기기