LLM 기반 클라우드 장애 원인 분석의 추론 오류 탐구
초록
본 논문은 클라우드 환경에서 다중 홉 장애 전파를 진단하기 위해 LLM을 활용한 루트 원인 분석(RCA)의 추론 능력을 격리된 실험 프레임워크에서 평가한다. 6가지 오픈소스 LLM을 ReAct, Plan‑and‑Execute, 비에이전트 방식으로 적용하고, GAIA와 OpenRCA 두 실제 사례를 바탕으로 48 000개의 시뮬레이션 시나리오를 실행하였다. 결과는 16가지 추론 실패 유형을 정의한 taxonomy와 LLM‑as‑a‑Judge 평가자를 통해 중간 추론 과정의 품질을 정량화한다. 실험을 통해 모델별 정확도 차이, 입력 모달리티(로그·메트릭·트레이스) 민감도, 그리고 특정 추론 오류가 최종 정확도에 미치는 영향을 밝혀낸다.
상세 분석
논문은 기존 LLM 기반 RCA 연구가 복잡한 멀티에이전트 파이프라인에 의존해 실제 추론 능력을 가시화하기 어렵다는 문제점을 정확히 짚어낸다. 이를 해결하기 위해 저자들은 (1) 사전 정의된 지식 그래프(KG)와 통합 알림을 입력으로 사용하고, (2) 단순화된 에이전트 구조와 결정론적 도구(예: Drain 로그 파서, Isolation Forest 트레이스 탐지, 3‑시그마 메트릭 탐지)를 도입해 외부 변수를 최소화하였다. 이렇게 하면 LLM이 수행하는 “계획‑실행‑재계획” 루프와 순수 “Straight‑Shot” 추론을 직접 비교할 수 있다.
실험에서는 Llama‑2‑70B, Mistral‑7B, Gemma‑2B 등 6개 모델을 두 가지 에이전트 워크플로우(ReAct, Plan‑and‑Execute)와 비에이전트 베이스라인에 적용했다. 총 48 000개의 시나리오는 실제 클라우드 서비스의 장애 전파 패턴을 재현했으며, 실행 시간 228일에 달한다. 평가 지표는 (i) 최종 루트 원인 정확도(A@k, Avg@k), (ii) 추론 트레이스 품질, (iii) 16가지 오류 유형(예: “Stalled – 진행 정체”, “Biased – 편향된 가정”, “Confused – 경로 혼동”)의 발생 빈도이다. LLM‑as‑a‑Judge는 사전 라벨링된 3 073개의 트레이스를 기반으로 자동 채점 모델을 학습했으며, 인간 평가자와의 코헨 카파(κ) 0.78을 기록해 신뢰성을 확보했다.
주요 결과는 다음과 같다. 첫째, 전체 모델 평균 루트 원인 정확도는 62 % 수준이었으며, Plan‑and‑Execute가 ReAct보다 7 %p 높은 정확도를 보였다. 둘째, 로그 기반 알림만 사용할 때보다 멀티모달(로그+메트릭+트레이스) 입력이 정확도를 평균 9 %p 향상시켰다. 셋째, “Stalled” 오류가 발생한 경우 최종 정확도가 0.35로 급격히 떨어졌으며, “Biased” 오류는 특정 모델(Llama‑2)에서 과도하게 나타났다. 넷째, 오류 유형 간 상관관계를 분석한 결과, “Confused”와 “Stalled”가 동시에 발생하면 실패 확률이 0.92에 달했다.
이러한 분석을 통해 저자들은 현재 오픈소스 LLM이 다중 홉 RCA에서 충분히 신뢰할 수 없으며, 특히 추론 경로의 일관성 유지와 편향 방지가 핵심 과제임을 강조한다. 또한, taxonomy와 자동 평가 파이프라인은 향후 모델 개선 및 벤치마크 설계에 재사용 가능하도록 공개되었다.
댓글 및 학술 토론
Loading comments...
의견 남기기