통신 운영을 위한 구조화된 지식 주입 SKILLS 벤치마크

본 논문은 8개 TM Forum Open API 도메인을 아우르는 37개의 실제 운영 시나리오를 기반으로, 일반 LLM 에이전트에 구조화된 도메인 스킬을 주입했을 때 성능이 얼마나 향상되는지를 측정한다. SKILL.md 문서를 시스템 프롬프트에 추가한 ‘with‑skill’ 조건에서 모든 모델이 평균 5~19%p의 정확도 상승을 보였으며, 특히 복잡한 시나리오에서는 33~44%p까지 큰 개선을 기록했다.

저자: Ivo Brett

본 논문은 텔레콤 사업자가 AI‑기반 자동화를 도입하면서 직면하는 핵심 질문, 즉 “일반 목적 LLM 에이전트가 실제 API 인터페이스를 통해 통신 운영 워크플로우를 신뢰성 있게 수행할 수 있는가, 아니면 구조화된 도메인 가이드가 반드시 필요한가”에 답하고자 한다. 이를 위해 저자들은 SKILLS(Structured Knowledge Injection for LLM‑driven Service Lifecycle operations)라는 벤치마크 프레임워크를 설계하였다. SKILLS는 8개의 TM Forum Open API 스펙(TMF620‑Product Catalog, TMF621‑Trouble Ticket, TMF622‑Product Ordering, TMF628‑Performance Management, TMF629‑Customer Management, TMF637‑Product Inventory, TMF639‑Resource Topology, TMF724‑Incident Management)을 실제 운영 환경과 유사하게 구현한 Mock 서버와 MongoDB 기반 데이터베이스 위에 37개의 시나리오를 배치한다. 각 시나리오는 사용자 프롬프트, 기대되는 도구 호출, 응답 내용 검증, 데이터베이스 상태 검증을 JSON 형태로 정의하고, ‘Easy·Moderate·Difficult·Complex’ 네 단계의 복잡도 분류표를 제공한다. 실험은 오픈‑웨이트 모델 5종(MiniMax M2.5, Nemotron 120B‑표준·최소 추론, GLM‑5 Turbo, Seed 2.0 Lite, Healer Alpha, Hunter Alpha)을 OpenRouter를 통해 호출하고, 두 가지 조건을 비교한다. Baseline 조건에서는 에이전트가 사용자 프롬프트와 MCP 도구만을 받으며, With‑Skill 조건에서는 동일 프롬프트에 더해 SKILL.md 문서를 시스템 컨텍스트에 삽입한다. SKILL.md는 사전 정의된 워크플로우 단계, API 호출 패턴, 파라미터 포맷, 비즈니스 규칙(예: SLA 가중치, 유지보수 제외 규칙) 및 출력 형식을 자연어와 구조화된 예시로 기술한다. 평가 결과는 다음과 같다. 전체 정확도 기준으로 MiniMax M2.5는 Baseline 67.57%에서 With‑Skill 81.08%(+13.51pp)로 가장 높은 성과를 보였으며, Nemotron 120B(표준)와 GLM‑5 Turbo는 각각 +18.92pp, +5.41pp의 상승을 기록했다. 특히 Complex 단계에서는 모든 모델이 33~44ppp의 큰 스킬 리프트를 보였으며, MiniMax M2.5는 Complex 시나리오 통과율을 44%→78%로 끌어올렸다. TMF628 Performance Management 도메인에서는 MiniMax와 Seed 2.0 Lite가 100% 통과율을 달성했으며, 이는 해당 도메인이 enum 포맷(g_15mn, r_1h)과 작업 생성 로직을 스킬 없이는 추론하기 어려운 특성을 갖기 때문이다. 반면 TMF639 Topology 도메인에서는 일부 중간 규모 모델이 스킬 삽입 시 오히려 성능이 감소했는데, 이는 복잡한 6‑계층 의존 그래프와 SLA 가중치 계산이 스킬 문서와 모델의 추론 방식 사이에 충돌을 일으켰기 때문이다. 추가 분석에서는 ‘Sandbox Discrimination Failure’라는 새로운 실패 양상이 발견되었다. Nemotron 120B와 같은 고추론 모델은 데이터 조회와 실제 연산을 구분하지 못하고, 불필요하게 임시 sandbox를 생성해 인프라 타임아웃에 자주 걸렸다. 이는 모델 수준의 메타인지 한계이며, 스킬 설계만으로는 해결이 어려운 문제다. ‘Baseline‑Lift Compression’ 현상도 관찰되었다. 기본 성능이 높은 모델일수록 스킬에 의한 절대 상승폭이 작아 보이지만, 복잡한 시나리오에서는 여전히 최대치에 도달한다. GLM‑5 Turbo는 baseline이 73%로 가장 높았음에도 전체 lift가 +5.4pp에 그쳤지만, Complex 단계에서는 88.9%까지 도달해 스킬이 복잡도에 따라 결정적임을 보여준다. 추론 수준에 따른 차이도 의미 있다. Nemotron 120B를 ‘minimal reasoning’ 모드로 제한하면 복잡도 높은 시나리오에서 더 높은 통과율을 얻었으며, 이는 불필요한 추론 과정을 배제하고 도메인 작업에 집중하도록 만든 결과다. 반면 표준 추론 모드에서는 TMF639와 같이 다중 홉 그래프 탐색이 필요한 경우에 더 유리했다. 결론적으로, SKILLS는 LLM 기반 텔레콤 자동화에서 구조화된 도메인 스킬이 모델의 기본 능력과 무관하게 일관된 성능 향상을 제공한다는 실증적 증거를 제시한다. 스킬은 API 스키마만으로는 추론할 수 없는 도메인 전용 로직, enum 포맷, 다단계 오케스트레이션, 비즈니스 규칙 등에 특히 효과적이며, 반대로 모델이 이미 높은 baseline을 보이는 경우에는 스킬이 오히려 노이즈가 될 수 있다. 또한, 추론 중심 모델의 메타인지 한계와 인프라 타임아웃 문제는 실제 운영 환경에서 모델 선택과 배포 전략에 중요한 고려 요소가 된다. 향후 연구는 다중 실행을 통한 변동성 분석, 더 다양한 TMF 도메인 확대, 다중 평가자 사용, 그리고 스킬 자동 생성 및 버전 관리 메커니즘을 탐구할 필요가 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기