마이크로서비스 이상 탐지와 원인 분석을 위한 다중모달 데이터셋 AnoMod
초록
AnoMod은 SocialNetwork와 TrainTicket 두 오픈소스 마이크로서비스 시스템에 4가지 수준(성능·서비스·데이터베이스·코드)의 24가지 이상 시나리오를 주입하고, 로그·메트릭·트레이스·API 응답·코드 커버리지 5가지 모달리티를 동시에 수집한 공개 데이터셋이다. 교차‑모달 이상 탐지와 정밀 원인 분석(RCA) 연구를 위한 벤치마크로 활용될 수 있다.
상세 분석
본 논문은 마이크로서비스 환경에서 AIOps 연구가 고품질 공개 데이터에 의존하고 있으나, 기존 데이터셋이 이상 유형과 모달리티가 제한적이라는 문제점을 정확히 짚어낸다. 저자들은 산업 현장 조사와 신뢰성 가이드라인을 토대로 ‘성능‑레벨’, ‘서비스‑레벨’, ‘데이터베이스‑레벨’, ‘코드‑레벨’ 네 가지 계층으로 이상을 분류하고, 각 계층에 6~8개의 구체적 시나리오를 설계하였다. 특히 데이터베이스 연결 풀 고갈, 서비스 응답 실패, 메서드 반환값 조작 등 실제 운영에서 빈번히 발생하는 복합 장애를 포함시킨 점이 주목할 만하다.
수집 모달리티는 기존 연구가 주로 로그·메트릭·트레이스에 머물렀던 것을 넘어, API 응답과 코드 커버리지(CCR)를 추가함으로써 ‘시스템 내부 상태’와 ‘사용자 관점 증상’ 사이의 연결 고리를 제공한다. API 응답은 HTTP 상태, 지연, 응답 본문을 기록해 사용자 경험을 직접 반영하고, CCR은 실행된 코드 라인·분기 정보를 제공해 로직 수준 RCA를 가능하게 한다.
데이터 수집 파이프라인은 (1) EvoMaster 기반 자동화 테스트로 현실적인 워크로드와 엔드포인트 커버리지를 확보하고, (2) ChaosMesh·ChaosBlade를 활용한 정밀한 이상 주입, (3) 실험 전후 시스템 초기화·클린업을 자동화해 각 실험이 독립적인 데이터 샘플을 생성하도록 설계되었다. 특히 이상 주입 시점과 종료 시점을 엄격히 제어해 시간적 경계가 명확히 구분되므로, 다중 모달 데이터 간 정합성을 확보하기 용이하다.
표 1·표 2·표 3을 통해 기존 데이터셋과 비교했을 때, AnoMod은 이상 유형 수(24), 모달리티 수(5), 대상 시스템 수(2) 모두에서 현저히 우수함을 입증한다. 또한, 서비스 의존 관계를 고려해 영향도가 큰 서비스에 집중적으로 이상을 주입함으로써, 실제 운영 환경에서의 장애 전파 양상을 보다 현실적으로 재현한다.
제한점으로는 두 시스템만 다루고, 이상 주입이 Chaos 엔진에 의존해 실제 복합 장애(예: 인프라 결함·인간 실수)와 완전 일치하지 않을 수 있다는 점을 인정한다. 향후 워크로드 생성 도구 다양화와 화이트박스 테스트 도입을 통해 데이터셋을 확장할 계획이라고 제시한다.
전반적으로 AnoMod은 다중 모달 융합 기반 이상 탐지, 원인 추적, 그리고 자동 복구 정책 연구에 필요한 풍부한 실험 기반을 제공하며, 마이크로서비스 AIOps 분야의 연구 가속화에 크게 기여할 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기