에지 기반 자율 IT 지원 시스템 VIGIL
VIGIL은 사용자 PC에 상주하는 에이전트를 통해 현장 진단·지식 검색·정책 기반 복구를 실시간으로 수행한다. 10주 파일럿에서 100대의 제한된 장비에 적용해 평균 진단 시간을 36.5초로 단축하고, 인간 지원과 비교해 상호작용 라운드를 39 % 감소시켰으며, 매칭된 사례의 82 %를 자체 해결했다. 설문 결과 사용성 점수(SUS) 86.2점, 신뢰도 4.3/5점 등 높은 만족도를 보였다.
저자: Sarthak Ahuja, Neda Kordjazi, Evren Yortucboylu
본 논문은 기업 환경에서 발생하는 복잡하고 이질적인 IT 장애를 중앙 집중형 지원 체계만으로는 신속히 해결하기 어렵다는 문제점을 인식하고, 이를 해결하기 위한 새로운 아키텍처 ‘VIGIL’을 제안한다. VIGIL은 ‘에지‑확장(agentic) AI’ 개념에 기반해, 각 사용자 PC에 경량화된 데스크톱 에이전트를 설치하고, 이 에이전트가 현장 진단, 기업 지식 검색, 정책 기반 복구를 실시간으로 수행하도록 설계되었다.
1. **배경 및 동기**
- 기업 IT 인프라는 수천 대의 이기종 디바이스와 복잡한 정책, 지속적으로 변하는 소프트웨어 스택으로 구성된다. 장애는 종종 로컬 상호작용에서 발생하며, 전역적인 로그만으로는 원인 파악이 어렵다.
- 기존 AI 챗봇은 대화형 지원에 머무르며, 실제 시스템 조작이나 자동 복구는 제한적이다. 또한 현재 대부분의 AI‑기반 AIOps 솔루션은 엔드포인트를 단순히 텔레메트리 소스로 활용한다.
2. **관련 연구**
- LLM‑기반 IT 운영, 도구‑증강 언어 모델, 에지 AI 등 최신 연구들을 검토하고, 이들 연구가 중앙 집중형 구조에 머무르는 한계를 지적한다. VIGIL은 이러한 기술들을 통합하면서도, 에지에서의 안전한 실행과 클라우드 기반 관측·거버넌스를 동시에 제공한다는 점에서 차별화된다.
3. **시스템 아키텍처**
- VIGIL은 두 개의 제어 루프(운영 루프와 자기‑향상 루프)로 구성된다.
- **운영 루프**: 엔드포인트에서 ‘플래너 → 진단 → 지식 → 복구’ 순서로 진행되며, 모든 단계는 구조화된 트레이스로 기록된다. 진단 단계에서는 MCP를 통해 OS‑레벨 도구(예: uptime, cpu_process 등)를 안전하게 호출하고, 결과를 구조화된 진단 프로파일로 만든다. 지식 단계에서는 기업 내부 KB와 과거 해결 사례를 RAG 방식으로 검색해 근거를 제공한다. 복구 단계에서는 Open Policy Agent 기반 정책 엔진이 행동을 ‘허용·경고·거부’로 판단하고, 사용자 동의를 요구하거나 자동 실행한다.
- **자기‑향상 루프**: 운영 루프에서 생성된 경험 데이터를 활용해 프롬프트, 메모리, 검색 전략, 정책을 지속적으로 개선한다. 현재는 안전성 검증이 완료될 때까지 비활성화돼 있다.
4. **에이전트 역할**
- **플래너 에이전트**: 목표를 세분화하고, 진단·복구 에이전트에 작업을 할당한다. ReAct‑style 다단계 추론을 사용한다.
- **진단 에이전트**: MCP에 정의된 도구를 목적·전제·안전 주석과 함께 호출해 시스템 상태를 수집한다. 정보 이득 기반 탐색을 적용한다.
- **지식 에이전트**: 로컬 에피소드 메모리와 클라우드 지식베이스를 연결해 하이브리드 메모리 구조를 만든다.
- **복구 에이전트**: 정책 엔진에 의해 검증된 명령을 실행하고, 단계별 검증·롤백 메커니즘을 제공한다.
5. **구현**
- Amazon Strands와 Bedrock을 기반으로 Windows‑ 기반 HP G8 디바이스에 독립형 데스크톱 애플리케이션으로 구현했다.
- 도구 목록은 ‘system_uptime’, ‘cpu_process’, ‘disk_usage’, ‘network_status’ 등 네 가지 기본 진단 도구를 포함한다.
- 정책 엔진은 OPA(Open Policy Agent)와 Open Policy Agent(OPA) 규칙을 사용해 행동을 세 단계로 분류한다.
6. **평가**
- **실험 설정**: 10주 동안 100대 디바이스에 파일럿 배포, 총 153건의 지원 세션을 기록.
- **운영 트레이스 분석**: 60건(39 %)이 기존 그래프형 지식 저장소(CGR)와 매칭되었으며, 매칭된 사례에 대해 평균 진단 라운드가 11→18(‑39 %)로 감소, 평균 진단 시간 36.5 초(인간 지원 최소 4배 빠름)였다. 자동 평가 점수는 5가지 품질 차원에서 7.1~8.5점(10점 만점)으로 전반적으로 우수했지만, ‘근본 원인 정확도’가 다소 낮았다.
- **사용자 경험**: 23명의 설문 응답에서 SUS 86.2점(산업 평균 68점 대비 18점 상승), NASA‑TLX 2.53/7점(낮은 작업 부하), 자동화 신뢰 4.29/5점, TAM 4.41/5점 등 높은 만족도와 신뢰를 확인했다. 특히, 기존 매칭 사례가 없을 때도 투명한 진행 상황과 설명이 제공돼 긍정적인 평가를 받았다.
7. **논의 및 한계**
- 현재 파일럿은 단일 OS·하드웨어 환경에 국한돼 있어 멀티‑플랫폼 적용 가능성은 아직 검증되지 않았다.
- 정책 엔진과 도구 인터페이스가 사전 정의된 범위 내에서만 동작하므로, 새로운 진단 도구나 복구 시나리오가 추가될 때 정책 업데이트가 필요하다.
- 자기‑향상 루프가 아직 비활성화돼 있어 장기적인 학습·적응 메커니즘이 실증되지 않았다.
- 향후 연구는 멀티‑플랫폼 지원, 정책 자동 생성, 로그·메모리 덤프 등 풍부한 진단 도구 통합, 인간‑에이전트 협업 프로토콜 확장 등을 목표로 한다.
8. **결론**
VIGIL은 에지에서 LLM 기반 자율 행동을 안전하게 실행하고, 클라우드와 연계해 관측·거버넌스를 확보함으로써 기업 IT 지원의 효율성, 속도, 사용자 신뢰를 동시에 향상시킬 수 있음을 실증했다. 파일럿 결과는 향후 플릿 전체에 확장 가능한 에지‑확장형 AI 지원 시스템의 실현 가능성을 보여준다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기