실패한 클라우드 진단 경로를 학습 신호로 전환하는 AOI
AOI는 읽기‑쓰기 권한을 분리한 멀티에이전트 구조와 그룹 상대 정책 최적화(GRPO)를 활용해, 클라우드 운영에서 발생하는 실패 진단 경로를 자동으로 교정·학습 신호로 전환한다. 이를 통해 86개 작업에 대해 사전 학습 없이도 best@5 66.3%의 성공률을 달성하고, 14B 로컬 모델이 새로운 장애 유형에 대해 avg@1 42.9%를 기록한다.
저자: Pei Yang, Wanyi Chen, Asuka Yuxi Zheng
본 논문은 대규모 언어 모델(LLM) 에이전트를 활용한 사이트 신뢰성 엔지니어링(SRE) 자동화가 기업 환경에서 직면하는 세 가지 근본적인 제약—(1) 민감한 운영 데이터에 대한 접근 제한, (2) 권한 기반 실행 안전성, (3) 실패한 진단 경로를 재활용하지 못하는 정적 시스템—을 해결하고자 한다. 이를 위해 제안된 AOI(Autonomous Operations Intelligence) 프레임워크는 세 가지 핵심 구성 요소로 이루어진다.
첫 번째 구성 요소는 **GRPO 기반 옵저버**이다. 기존 강화학습 기반 정책 최적화(PPO, DPO)는 단일 보상 또는 쌍별 선호 데이터에 의존한다. 반면, 그룹 상대 정책 최적화(GRPO)는 동일 그룹 내 여러 후보 행동을 동시에 샘플링하고, LLM 판정기(R)로부터 얻은 점수를 그룹 평균과 표준편차로 정규화해 어드밴티지를 계산한다. 이 방식은 다중 정답이 가능한 복잡한 진단 단계에서도 정책 업데이트가 가능하도록 한다. 옵저버는 6가지 차원(포맷, 정확도, 효율성, 안전성, 설명성, 비용)으로 구성된 다중 스칼라 보상 함수를 사용해 각 행동의 품질을 정밀하게 평가한다. GRPO를 적용해 23개의 태스크에서 파인튜닝된 14B 오픈소스 모델은, 보지 못한 63개의 장애 유형에 대해 avg@1 42.9%를 달성했으며, 이는 Claude Sonnet 4.5(41.3%)를 능가한다.
두 번째 구성 요소는 **읽기‑쓰기 분리 실행 아키텍처**이다. 시스템은 네 개의 에이전트(Observer, Probe, Executor, Compressor)와 세 개의 메모리 스토어(M_raw, M_task, M_comp)로 구성된다. Probe는 읽기 전용 명령(kubectl get, logs 등)을 수행하고 원시 출력을 M_raw에 기록한다. Executor는 화이트리스트 기반의 쓰기 전용 명령을 실행하며, 실행 전 Probe를 통해 “look before you leap” 검증을 수행한다. Compressor는 원시 로그를 규칙 기반 중복 제거 후 LLM 기반 의미 압축을 수행해 M_comp에 저장한다. 옵저버는 오직 M_comp만을 읽어 현재 증거와 압축된 히스토리를 바탕으로 다음 행동을 결정한다. 이러한 권한 분리와 메모리 접근 제어 매트릭스는 최소 권한 원칙을 구현하고, 민감 데이터 유출 및 무분별한 상태 변이를 방지한다. 또한, 이중 시간축 메모리(장기 요약 H와 단기 압축 C)를 통해 긴 진단 흐름에서도 컨텍스트 제한을 초과하지 않으면서 일관성을 유지한다.
세 번째 구성 요소는 **Failure Trajectory Closed‑Loop Evolver**이다. 진단 과정에서 실패한 워크플로우는 Judge 모듈에 의해 식별된다. Evolver는 이러한 실패 경로를 입력으로 받아 교정된 명령 시퀀스를 생성한다. 교정된 시퀀스는 옵저버의 학습 데이터로 재활용되며, 이를 통해 모델은 실제 운영 중 발생하는 오류 패턴을 지속적으로 학습한다. 실험 결과, 37개의 실패 경로(전체 86개 중 43%)를 Evolver가 교정함으로써 최종 avg@5가 4.8%p 상승하고 실행 변동성이 35% 감소했다.
**실험 및 평가**는 AIOpsLab 벤치마크를 사용했다. AOI 런타임만으로도 사전 학습 없이 best@5 66.3%를 달성했으며, 이는 기존 최첨단(41.9%) 대비 24.4%p 상승한 수치다. GRPO 파인튜닝 후 14B 모델은 unseen fault type에 대해 avg@1 42.9%를 기록했고, Evolver를 적용한 전체 파이프라인은 avg@5 4.8%p 향상과 변동성 감소를 보였다.
**시사점**으로는 (1) 보안 제약을 시스템 설계 단계에서 구조적으로 해결함으로써 기업 환경에서도 LLM 기반 자동화를 실현 가능하게 했으며, (2) GRPO와 다중 차원 보상 설계가 복잡한 운영 의사결정에 효과적인 학습 신호를 제공한다는 점, (3) 실패 경로를 교정·재활용하는 폐쇄형 피드백 루프가 모델 지속 학습과 성능 향상에 크게 기여한다는 점을 들 수 있다. 이러한 접근은 향후 클라우드 운영, 네트워크 관리, 보안 인시던트 대응 등 다양한 도메인에 적용될 수 있을 것으로 기대된다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기