산업 현장에서 작은 언어 모델을 위한 에이전트 스킬 프레임워크 효과 분석
초록
본 논문은 에이전트 스킬(Agent Skill) 프레임워크를 소형 언어 모델(SLM)에 적용했을 때의 성능 향상을 정량적으로 평가한다. 270M‑80B 파라미터 규모의 오픈소스 모델들을 IMDB 감성 분석, FiNER 금융 태깅, 그리고 실제 보험 청구 데이터인 InsurBench 세 가지 과제에 적용해, 스킬 선택 정확도와 최종 작업 정확도, 처리 시간·GPU 메모리 비용을 측정하였다. 결과는 12B‑30B 정도의 중간 규모 모델이 에이전트 스킬을 통해 크게 성능이 개선되는 반면, 270M‑4B 수준의 초소형 모델은 스킬 라우팅에 실패한다는 점을 보여준다. 80B 규모의 코드 특화 모델은 폐쇄형 대형 모델에 근접한 정확도를 달성하면서도 GPU 효율성을 높였다. 연구는 산업 현장에서 API 의존을 최소화하고 비용·보안 제약을 고려한 SLM 기반 시스템 설계에 실용적인 지침을 제공한다.
상세 분석
이 논문은 에이전트 스킬 프레임워크를 수학적으로 POMDP(Partially Observable Markov Decision Process) 형태로 정의하고, ‘스킬(k)’을 텍스트 설명(d_k), 내부 정책(π_k), 그리고 추가 컨텍스트를 제공하는 레퍼런스 메커니즘(ρ_k)이라는 삼중항으로 모델링한다. 에이전트는 현재 belief state b_t를 유지하며, 불확실성이 높은 상황에서는 ‘reveal(ρ_k)’를 통해 필요한 컨텍스트를 비용을 지불하고 획득하고, 충분히 확신이 서면 ‘execute(π_k)’를 수행한다는 진행형 공개(progressive disclosure) 전략을 채택한다. 이는 전통적인 POMDP 최적 가치 함수가 piecewise‑linear & convex 특성을 갖는다는 이론과 일치한다.
실험 설계는 세 가지 컨텍스트 엔지니어링 방식—Direct Instruction(DI), Full‑Skill Instruction(FSI), Agent Skill Instruction(ASI)—을 비교한다. DI는 최소 프롬프트만 제공해 모델이 직접 답변하도록 하고, FSI는 모든 스킬 정보를 한 번에 제공해 모델이 올바른 스킬을 선택하도록 강제한다. ASI는 모델이 필요에 따라 스킬을 동적으로 조회하도록 설계돼, 실제 에이전트 스킬 프레임워크의 핵심 메커니즘을 그대로 재현한다. 각 과제마다 4~6개의 방해 스킬을 포함한 임시 스킬 레포지토리를 구성해 스킬 라우팅 난이도를 인위적으로 높였다.
모델군은 270M Gemma‑3‑270M‑it, 4B Gemma‑3‑4B‑it, 12B Gemma‑3‑12B‑it, 30B Qwen3‑30B‑Instruct, 80B Qwen3‑80B‑Instruct/Thinking/Coder 등 총 7종을 포함한다. 또한 폐쇄형 gpt‑4o‑mini를 베이스라인으로 사용했다. 평가 지표는 분류 정확도(Cls ACC), F1 점수(Cls F1), 스킬 선택 정확도(Skill ACC), 평균 처리 시간(Avg GT min), 그리고 GPU 메모리·시간 곱(Avg VRAM Time)이다.
핵심 결과는 다음과 같다. 1) 중간 규모 모델(12B‑30B)은 ASI 적용 시 FiNER에서 Skill ACC가 0.198→0.654로 크게 상승하고, InsurBench에서도 유의미한 정확도 향상을 보였다. 2) 초소형 모델(270M‑4B)은 DI와 FSI 대비 약간의 개선은 있으나, 여전히 스킬 라우팅 정확도가 낮아 전체 파이프라인 성능을 제한한다. 3) 80B 코드 특화 모델(Qwen3‑80B‑Coder)은 FiNER에서 0.498→0.620(Cls ACC) 및 0.331→0.601(F1)으로 폐쇄형 모델에 근접했으며, GPU 메모리·시간 비용은 DI 대비 1.5배 정도 증가했지만, ASI에서는 불필요한 컨텍스트 로드를 최소화해 효율성을 회복한다. 4) ‘Thinking’ 변형은 높은 정확도를 보였지만, 메모리·시간 비용이 급증해 실용성에 한계가 있다.
이러한 결과는 스킬 라우팅이 모델의 내재된 인-컨텍스트 학습 능력에 크게 의존한다는 점을 시사한다. 12B‑30B 규모에서는 충분한 파라미터와 사전 학습 데이터 덕분에 스킬 설명을 이해하고 적절히 선택할 수 있지만, 270M 수준에서는 텍스트 이해와 추론 능력이 부족해 방해 스킬을 구분하지 못한다. 또한 코드 특화 모델은 프로그래밍 지식과 툴 호출 인터페이스가 내장돼 있어, 복잡한 도메인(예: 보험 청구)에서도 빠른 컨텍스트 전환이 가능함을 보여준다.
한계점으로는 (1) 평가 데이터셋이 세 가지에 국한돼 일반화 가능성을 완전히 검증하기 어렵다. (2) 스킬 레포지토리 구성 방식이 임의적이며, 스킬 수와 복잡도에 따른 민감도 분석이 부족하다. (3) 비용 측정이 GPU 메모리·시간만을 고려해, 실제 클라우드 비용(예: 인스턴스 종류, 스팟 가격)과의 연계가 미흡하다. (4) 모델별 파인튜닝 여부와 프롬프트 엔지니어링 차이가 결과에 미치는 영향을 통제하지 않았다. 이러한 점들을 보완하면 SLM 기반 에이전트 스킬 시스템의 산업 적용 가능성을 더욱 명확히 할 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기