툴 호출을 위한 무학습 활성화 스티어링 어댑터

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대형 언어 모델(LLM) 에이전트가 도구 호출을 필요로 할 때, 중간 레이어 활성화에 내재된 의도를 활용해 툴 모드 전환을 강제하는 무학습 방식인 Activation Steering Adapter(ASA)를 제안한다. ASA는 라우터‑조건부 스티어링 벡터와 프로브‑가이드 서명 게이트를 결합해 단일 삽입으로 의도 강화·억제를 수행한다. MTU‑Bench 실험에서 Qwen2.5‑1.5B 모델의 툴 사용 F1을 0.18→0.50, 위양성률을 0.15→0.05 로 크게 개선했으며, 파라미터 업데이트 없이 약 20KB 의 휴대형 자산만 필요하다.

상세 분석

본 연구는 LLM 기반 에이전트가 도구 호출을 요구받을 때 발생하는 ‘Lazy Agent’ 실패 모드를 체계적으로 분석한다. 저자들은 중간 레이어(L≈18)의 활성화 벡터에 대해 선형 프로브를 학습시켰을 때, 도구 필요 여부를 99% 이상의 AUC 로 정확히 구분할 수 있음을 발견했지만, 실제 생성 단계에서는 80% 이상이 도구 모드로 전환되지 않는 현상을 보고한다. 이는 모델이 의도는 내부에 보유하고 있으나, 파싱 제약이 강한 ‘툴 모드 전환 스위치’를 넘지 못하는 ‘표현‑행동 격차’를 의미한다.

ASA는 이 격차를 메우기 위해 세 가지 경량 컴포넌트를 설계한다. 첫째, 전역 및 도메인별 스티어링 벡터를 구축한다. 전역 벡터는 도구 필요와 비필요 샘플의 평균 활성화 차이(µ_pos‑µ_neg) 로 정의되며, 도메인별 벡터는 동일한 방식으로 각 도메인에 특화된 차이를 추출한다. 두 번째, 라우터는 표준화된 활성화(˜h_L) 를 입력으로 받아 소프트맥스 기반 경량 선형 분류기로 현재 입력이 속한 도메인을 예측한다. 세 번째, 프로브는 도메인별 시그모이드 회귀기로 도구 호출 확률 p(x)를 추정한다.

이후 ASA는 ‘Mixture‑of‑Vectors(MoV)’를 구성한다. MoV = ˆv_d + β·ˆv_global 로, β는 전역 의도 기여도를 조절하는 하이퍼파라미터이다. 마지막으로 서명 게이트는 Gate(h)·α·MoV 형태로 삽입된다. 여기서 α는 전체 스티어링 강도, Gate(h)는 p(x) 의 부호에 따라 +1(강화) 혹은 –1(억제) 로 동작한다. 즉, 도구가 필요하다고 판단되면 의도 방향을 강화하고, 필요하지 않을 경우 반대 방향으로 삽입해 위양성을 억제한다. 이 모든 연산은 한 번의 중간 레이어 삽입 후 정상적인 순전파만 수행하므로, 파라미터 업데이트가 전혀 필요하지 않으며 연산 비용도 미미하다.

실험에서는 MTU‑Bench이라는 새로운 벤치마크를 구축해 도구 호출 필요성, 파싱 정확도, 인자 형식 등을 엄격히 평가한다. Qwen2.5‑1.5B 모델에 ASA를 적용했을 때, 툴 사용 F1 점수가 0.18에서 0.50 으로 2.8배 상승했으며, 위양성률은 0.15→0.05 로 크게 감소했다. 또한 0.5B, 1.5B, 8B 규모 모델 전반에 걸쳐 일관된 개선을 보였으며, 기존 프롬프트 기반 방법이나 LoRA 기반 파인튜닝 대비 저장 공간(≈20KB)과 유지 비용 면에서 현저히 효율적이었다.

추가 분석에서는 (1) 전역 vs. 도메인 벡터의 혼합 비율 β가 성능에 미치는 영향, (2) 라우터 정확도와 프로브 신뢰도가 낮을 때의 안전성, (3) 다양한 파싱 제약(예: 엄격한 JSON 스키마) 하에서의 견고성 등을 검증하였다. 결과는 β가 0.2~0.5 사이에서 최적이며, 라우터 정확도가 90% 이상일 때 성능 저하가 미미함을 보여준다. 또한 ASA는 기존 파라미터 업데이트 기반 방법이 겪는 ‘망각’ 현상을 전혀 유발하지 않는다.

이 논문은 도구 호출이라는 이산적 행동 전환을 ‘내부 표현 조정 + 외부 게이트’라는 두 단계 제어 문제로 재정의하고, 툴 호출을 위한 경량, 학습‑프리 제어 메커니즘을 제시함으로써 LLM 에이전트의 실운용성 향상에 중요한 방향성을 제공한다.

툴 호출을 위한 무학습 활성화 스티어링 어댑터

초록

상세 분석

댓글 및 학술 토론

의견 남기기