소형 언어 모델을 위한 적응형 신뢰 게이팅 기반 다중 에이전트 코드 생성 프레임워크

소형 언어 모델을 위한 적응형 신뢰 게이팅 기반 다중 에이전트 코드 생성 프레임워크
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DebateCoder는 사용자, 기술, 품질 보증이라는 세 역할을 갖는 다중 에이전트 체계와 95% 신뢰 임계값을 이용한 적응형 신뢰 게이팅을 결합해, 파군-1B와 같은 소형 모델의 코드 생성 능력을 크게 향상시킨다. 초기 계획 단계에서 신뢰도가 높으면 토론을 생략하고, 낮을 경우 다중 라운드 토론과 리뷰어‑디버깅 루프를 수행한다. HumanEval에서 70.12% Pass@1를 달성하며, MapCoder 대비 API 비용을 약 35% 절감한다.

상세 분석

DebateCoder는 소형 언어 모델(SLM)의 한계를 보완하기 위해 세 가지 핵심 설계를 도입한다. 첫째, 역할 기반 에이전트 구조는 사용자 요구를 명확히 하는 UA, 알고리즘 최적화를 담당하는 TA, 견고성 검증을 수행하는 QA로 구분된다. 각 에이전트는 동일한 파군‑1B 모델을 사용하지만 프롬프트와 목표가 다르게 설계돼, 서로 다른 관점에서 문제를 바라볼 수 있다. 둘째, **적응형 신뢰 게이팅(Adaptive Confidence Gating)**은 각 에이전트가 초기 계획과 함께 0‑100 사이의 신뢰 점수를 산출하고, 평균 신뢰도가 사전 정의된 95% 임계값을 초과하면 토론 라운드를 건너뛴다. 이는 간단한 문제에 대해 불필요한 연산을 방지해 토큰 사용량과 지연 시간을 크게 줄인다. 셋째, 다중 라운드 토론 및 리뷰어‑디버깅 루프는 초기 신뢰가 낮은 경우 최대 3번의 반복 토론을 통해 계획을 교정한다. 각 라운드에서 에이전트는 동료들의 이전 계획을 입력받아 비교·수정하고, 새로운 신뢰 점수를 재계산한다. 마지막 라운드에서는 합성 에이전트가 모든 계획을 통합해 마스터 플랜을 만든 뒤, 코딩 에이전트가 실제 코드를 생성한다. 코드가 테스트를 통과하지 못하면, 코드 리뷰어가 실패 로그와 코드 조각을 분석해 원인과 수정 방안을 제시하고, 디버깅 에이전트가 이를 반영한다. 이 구조는 “실패 루프”라 불리는 무한 오류 수정 현상을 크게 완화한다. 실험 결과는 HumanEval에서 70.12% Pass@1, MBPP에서도 63.22%를 기록해, 동일 파군‑1B 기반의 MapCoder(65.49%/55.95% 평균)보다 전반적으로 높은 정확도와 35% 수준의 API 비용 절감을 보여준다. 그러나 토론 라운드 수와 신뢰 임계값 설정이 데이터셋마다 최적이 다를 수 있으며, 현재는 고정된 95%와 3라운드가 모든 문제에 적용된다는 점이 제한점이다. 또한, 파군‑1B 자체의 한계 때문에 복잡한 알고리즘(예: 그래프 최적화)에서는 여전히 성능 격차가 존재한다. 향후 연구에서는 동적 임계값 조정, 에이전트 별 전문화된 파인튜닝, 그리고 토론 과정에서 메타‑학습을 도입해 소형 모델의 추론 효율성을 더욱 끌어올릴 여지가 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기