에이전트 기반 자동 알림 트라이아지 시스템
초록
본 논문은 Adobe 전자상거래 플랫폼에 적용된 에이전트 관찰 가능성 프레임워크를 소개한다. ReAct 패러다임을 활용해 세 종류의 GPT‑4o 에이전트( Splunk, Tools, Reflection )가 실시간으로 알림을 수신·분석·계획·실행하며, 로그, 트레이스, 배포 메타데이터, 내부 위키 등을 자동으로 연계한다. 12주 실증 결과 평균 인사이트 도출 시간(MTTI)을 18분에서 2.3분으로 90% 단축하고, 오류 위치 정확도(ELA)를 88% 수준으로 유지하였다.
상세 분석
이 연구는 기존 RCA‑Copilot·IRCopilot 등 사후 분석에 초점을 맞춘 시스템과 달리, 알림 발생 순간부터 실시간으로 원인 추론을 수행한다는 점에서 혁신적이다. 핵심은 세 가지 특화된 에이전트가 LangGraph 로 연결된 멀티‑에이전트 아키텍처에 있다. Splunk 에이전트는 알림 메타데이터를 파싱해 서비스명, 세션ID, 요청ID 등을 추출하고, Splunk API 를 통해 관련 로그와 분산 트레이스를 비동기적으로 수집한다. 수집된 로그는 구조화된 데이터셋으로 정리돼 Tools 에이전트에 전달된다.
Tools 에이전트는 플래너이자 추론 엔진으로, 로그 요약을 기반으로 정보 격차를 식별하고 하위 목표(예: API 응답 검증, 최신 배포 확인, 보조 체크 실행)를 정의한다. 여기서 Retrieval‑Augmented Generation(RAG) 기법을 사용해 내부 위키, 런북, 최신 코드 배포 메타데이터를 동적으로 조회한다. 이렇게 얻은 근거를 바탕으로 단계별 행동 계획을 생성하고, 필요 시 자동화된 스크립트 실행(캐시 정리, 작업 재시작 등)을 수행한다.
Reflection 에이전트는 메타‑평가자 역할을 수행한다. 완전성, 인과성, 실행 가능성이라는 세 가지 기준을 검증하고, 불확실성이 감지되면 최대 다섯 번까지 재반복 루프를 돌린다. 루프 종료 시점에 확신이 부족하면 가장 높은 신뢰도의 가설을 불확실성 태그와 함께 반환한다. 이 설계는 무한 루프와 과도한 연산을 방지하면서도 인간 엔지니어가 검증하기 쉬운 설명을 제공한다.
실험 설정은 Adobe 전자상거래 서비스 전반에 걸쳐 250개의 알림을 12주 동안 수집한 뒤, 기존 수동 엔지니어 트라이아지(평균 18 분)와 비교했다. 주요 지표는 평균 인사이트 도출 시간(MTTI), 오류 위치 정확도(ELA), 엔지니어 작업 감소율(EER), 알림 응답성(AR)이다. 결과는 MTTI 2.3 분, ELA 88.4 %, EER 65 %, AR 90 %로, 특히 MTTI가 10배 이상 단축된 점이 두드러진다.
케이스 스터디에서는 “Content Validation Error – WARN” 알림을 대상으로, 기존 10‑15 분 소요되는 수동 절차를 에이전트가 1‑2 분 내에 로그 추출·원인 파악·스크립트 실행까지 자동화했다. 이 과정에서 엔지니어는 최종 수정 작업만 수행하면 되며, 전체 알림 중 91.6 %에 대해 자동 진단 보고서를 생성했다.
한계점으로는 로그 데이터 품질에 대한 의존성, Splunk API 호출 제한에 따른 지연, 새로운 서비스와 런북을 온보딩할 때 여전히 인간 작업이 필요함을 꼽는다. 향후 연구는 불확실성 추정, 피드백 기반 학습, 비동기 로그 인덱싱 등을 통해 신뢰성과 확장성을 강화할 계획이다.
전반적으로 이 논문은 대규모 마이크로서비스 환경에서 LLM 기반 에이전트를 활용해 실시간 관찰 가능성을 구현한 최초 사례 중 하나이며, 자동화된 트라이아지가 MTTR 감소와 서비스 신뢰성 향상에 직접적인 영향을 미칠 수 있음을 실증적으로 보여준다.
댓글 및 학술 토론
Loading comments...
의견 남기기