툴 사용과 추론이 경쟁한다: 선형 효과 분석과 분리 튜닝
초록
본 논문은 에이전트 강화학습(ARL)에서 추론과 외부 툴 사용을 동일한 파라미터로 학습할 경우, 두 능력 간에 그래디언트 충돌이 발생해 성능이 저하된다는 증거를 제시한다. 이를 정량화하기 위해 Linear Effect Attribution System(LEAS)을 설계하고, 추론‑툴 간의 부정적 상호작용을 확인한다. 이후 별도의 Low‑Rank 어댑터(LoRA)를 이용해 추론과 툴 업데이트를 분리하는 Disentangled Action‑Reasoning Tuning(DART)를 제안한다. DART는 7개 벤치마크에서 평균 6.35%p의 EM 향상을 달성했으며, 다중 에이전트 시스템과 동등한 성능을 단일 모델로 구현한다.
상세 분석
이 연구는 ARL 분야에서 “공유 파라미터가 추론과 툴 사용을 동시에 최적화한다”는 암묵적 가정을 실험적으로 검증한다. 저자들은 먼저 Linear Effect Attribution System(LEAS)을 고안해, 각 모델을 ‘추론 전용’, ‘툴 전용’, ‘통합’ 등 6가지 변형으로 만들고, 이들의 성능을 설계 행렬 X에 매핑한다. 로지스틱 회귀 형태의 선형 방정식 z = Xλ를 풀어 각 질문별 상호작용 계수 λ₍₂₃₎를 추정한다. λ₍₂₃₎가 음수이면 두 능력 간에 간섭이 존재한다는 의미이며, 실험 결과 대부분의 질문에서 λ₍₂₃₎<0이 관찰돼 ‘시소 현상’(툴 성능 향상이 추론 성능을 저하, 그 반대) 을 확인한다.
다음으로 저자들은 그래디언트 마스킹을 통해 툴 토큰과 추론 토큰의 업데이트를 별도로 차단한 3개의 훈련 파생 모델을 만든다. 이를 기반으로 하이브리드 추론 모델을 구성해, 추론 전용 모델과 툴 전용 모델을 토큰 레벨에서 라우팅한다. 이러한 실험 설계는 파라미터 수준에서의 상호작용을 완전히 차단하고, 순수한 능력별 성능을 측정하게 해준다. 결과적으로 툴‑전용 모델과 추론‑전용 모델을 동시에 학습한 통합 모델이 각각을 별도로 학습한 경우보다 평균 4~7%p 낮은 정확도를 보였다.
그래디언트 충돌 분석에서는 툴 토큰과 추론 토큰이 생성하는 손실의 기울기가 코사인 유사도 기준으로 크게 음의 값을 갖는 것을 확인한다. 이는 두 손실이 서로 반대 방향으로 파라미터를 끌어당겨, 최적화 과정에서 ‘타협’ 업데이트가 일어나게 함을 의미한다. 이러한 현상은 특히 대규모 LLM(7B 파라미터)에서 더 뚜렷하게 나타났으며, 파라미터 공간이 제한될수록 충돌이 심화된다는 점을 시사한다.
해결책으로 제안된 DART는 기존 LoRA 방식에 영감을 받아, 추론 전용 LoRA와 툴 전용 LoRA를 각각 별도 저차원 매트릭스(B₁A₁, B₂A₂)로 구현한다. 기본 백본은 완전히 고정하고, 두 LoRA 모듈만을 독립적으로 업데이트한다. 토큰 라우팅 함수 ℓ(t)에 따라 각 토큰이 어느 LoRA에 전달될지 결정되므로, 툴 토큰의 그래디언트는 툴 LoRA에만, 추론 토큰은 추론 LoRA에만 누적된다. 이 구조는 파라미터 충돌을 근본적으로 차단하면서도, 전체 모델 파라미터 수는 기존 LoRA와 동일하게 유지한다(저차원 매트릭스 크기 r만 조정).
실험에서는 Qwen2.5‑3B/7B 기반 모델에 DART를 적용해 7개의 툴‑증강 QA 벤치마크(NQ, HotpotQA 등)를 평가했다. 평균 EM 점수는 기존 Joint‑Training 대비 6.35%p 상승했으며, 다중 에이전트(각각 툴 전용·추론 전용 모델을 별도 배포)와 비교했을 때 0.2%p 이하의 격차만 보였다. 또한, LoRA 파라미터 비율을 0.5%에서 2%까지 변동시켜도 성능 향상이 일관되었으며, 툴 사용 빈도가 높은 질문에서는 특히 큰 이득을 보였다. Ablation 연구에서는 (1) 라우팅 없이 단일 LoRA를 사용했을 때 성능이 급격히 떨어지고, (2) 툴 LoRA만 활성화했을 때 추론 성능이 크게 감소함을 확인해, 두 모듈의 독립적 존재가 필수임을 입증했다.
결론적으로, 이 논문은 ARL에서 추론과 툴 사용이 본질적으로 경쟁 관계에 있음을 실증하고, 저비용의 파라미터 분리 기법으로 이를 완화할 수 있음을 보여준다. DART는 기존 ARL 파이프라인에 최소한의 수정만으로 적용 가능하며, 향후 더 복잡한 멀티‑툴 환경이나 연속적인 행동 계획에도 확장 가능성이 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기