툴통합 에이전트를 위한 다중 보상 분해와 단계별 정렬
초록
ToolRLA는 금융 자문 분야에 적용된 툴통합 에이전트를 위해 형식, 툴 선택, 파라미터 정확도, 규제 준수 네 가지 차원을 곱셈적으로 결합한 세밀한 보상 함수를 제안한다. SFT → GRPO → DPO의 3단계 파이프라인으로 사후 학습을 진행하고, 실제 서비스에서 작업 완료율을 62%에서 91%로, 툴 호출 오류를 38%에서 14%로, 규제 위반을 12%에서 0.8%로 크게 감소시켰다.
상세 분석
ToolRLA 논문은 고위험 도메인에서 툴통합 LLM 에이전트를 운영할 때 마주하는 “보상 신호의 과도한 이분법” 문제를 정확히 짚어낸다. 기존 강화학습 기반 접근법은 성공/실패만을 0·1로 구분해 툴 선택 오류와 파라미터 형식 오류를 동일하게 취급한다. 이는 정책이 미세한 오류 패턴을 학습하기 어렵게 만들고, 특히 규제 위반과 같은 치명적 오류를 충분히 억제하지 못한다는 한계가 있다. 저자들은 이를 해결하기 위해 네 가지 보상 차원을 정의한다. 첫째, **형식 보상(R_fmt)**은 JSON 파싱 가능 여부와 필드 명명 정확성을 0·1로 판정해, 형식 자체가 틀린 경우 다른 보상 요소가 무시되도록 한다. 둘째, **정확도 보상(R_cor)**는 툴 이름 일치(S_name), 요구 툴 커버리지(S_comp), 파라미터 정확도(S_acc)를 곱셈으로 결합한다. 여기서 곱셈은 “툴 이름 오류가 발생하면 파라미터 정확도가 아무리 높아도 전체 정확도 점수가 0이 된다”는 베토 로직을 구현한다. 이는 정책이 툴 선택을 우선적으로 학습하도록 강제한다. 셋째, **효율 보상(R_eff)**는 실제 호출 라운드 수와 최적 라운드 수의 차이를 기반으로 0~1 사이 값을 부여해, 불필요한 확인 호출을 억제한다. 넷째, **규제 보상(R_cpl)**은 위반 시 -λ(λ=10)이라는 큰 패널티를 부여해, 규제 준수가 모든 다른 목표보다 우선함을 보상 구조에 명시한다. 이러한 설계는 도메인 우선순위(규제 ≫ 정확도 ≫ 효율)를 자연스럽게 정책에 내재시킨다.
학습 파이프라인은 세 단계로 구성된다. SFT 단계에서는 4.2K개의 샌드박스 검증 트래젝터리를 이용해 기본 툴 호출 능력을 확보한다. 여기서 데이터는 LLM 디스틸레이션(60%), 전문가 주석(25%), 로그 재작성(15%)으로 구성돼 도메인 다양성을 확보한다. GRPO 단계에서는 그룹 내 평균 보상을 기준으로 advantage를 추정하고, 위에서 정의한 복합 보상 함수를 적용해 정책을 업데이트한다. K=8개의 트래젝터리를 샘플링해 그룹 정규화된 advantage를 계산함으로써 가치 네트워크 없이도 안정적인 학습이 가능하다. 특히 R_cor의 곱셈 구조가 툴 선택 오류에 대한 강력한 “veto” 효과를 발휘해, 실험에서 additive 방식 대비 7%p의 툴 호출 오류 감소를 기록한다. DPO 단계는 규제 위반의 회색 영역을 다루기 위해 도입된다. 규제 위반 탐지는 정규식 기반 하드 규칙과 경량 분류기 두 단계로 이루어지지만, 암시적 표현(예: 부드러운 전망 제시)까지 포착하기는 어렵다. 따라서 2,038개의 전문가 선호·비선호 쌍을 수집해 직접 비교 학습을 수행함으로써, GRPO에서 놓친 미묘한 위반을 보완한다.
실제 금융 자문 코파일럿에 적용한 결과는 눈에 띈다. 3개월 동안 작업 완료율(TCR)이 62%→91%(+47%), 툴 호출 오류(TIER)가 38%→14%(-63%), 규제 위반률(VR)이 12%→0.8%(-93%)로 크게 개선되었으며, 평균 레이턴시는 2.8초→1.6초로 43% 감소했다. Ablation 실험에서 보상 구성 요소를 하나씩 제거했을 때, 특히 R_cor의 곱셈을 additive로 바꾸면 TIER가 7%p 상승하고, λ 값을 5로 낮추면 규제 위반 억제 효과가 급격히 감소한다는 점을 확인했다. 또한 ToolBench와 API‑Bank 같은 공개 벤치마크에서도 기존 툴LLM·Gorilla 대비 높은 호출 정확도와 계획 성공률을 기록해, 도메인 특화가 아닌 일반화 가능성도 입증했다.
전반적으로 이 논문은 “보상 설계가 도메인 우선순위를 반영하도록 어떻게 구조화할 수 있는가”라는 질문에 실용적인 해답을 제시한다. 곱셈적 베토 로직, 큰 규제 패널티, 그리고 단계별 정렬(SFT→GRPO→DPO)이라는 학습 흐름은 고위험 산업에서 LLM 기반 툴 에이전트를 안전하고 효율적으로 배치하기 위한 청사진이 된다.
댓글 및 학술 토론
Loading comments...
의견 남기기