누락된 모달리티를 고려한 마이크로서비스 사고 관리 통합 프레임워크
ARMOR는 메트릭, 로그, 트레이스 등 서로 다른 관측 데이터를 활용해 이상 탐지, 장애 분류, 원인 위치 추정을 동시에 수행한다. 기존 방법이 완전한 데이터만을 전제로 하는 반면, ARMOR는 비대칭 인코더와 가변형 게이트 융합을 통해 모달리티가 누락돼도 견고한 표현을 학습한다. 자기지도 자동회귀와 마스크 기반 복원을 결합해 라벨이 없는 이상 탐지와 원인 분석을 가능하게 하며, 장애 분류는 최소한의 라벨만 필요하도록 설계했다. 실험 결과, …
저자: Wenzhuo Qian, Hailiang Zhao, Ziqi Wang
마이크로서비스 아키텍처는 대규모 클라우드‑네이티브 시스템의 핵심이지만, 그 복잡성 때문에 성능 이상과 장애가 빈번히 발생한다. 기존 연구는 메트릭, 로그, 트레이스와 같은 다중 관측 데이터를 활용해 이상 탐지(Anomaly Detection, AD), 장애 분류(Failure Triage, FT), 원인 위치 추정(Root Cause Localization, RCL) 등 세 가지 진단 작업을 각각 혹은 통합적으로 수행하는 모델을 제시했다. 그러나 이러한 모델은 수집된 데이터가 완전하고 정렬되어 있다는 전제하에 설계되었으며, 실제 운영 환경에서는 네트워크 지연, 에이전트 충돌, 설정 오류 등으로 인해 특정 모달리티가 완전히 사라지는 상황이 흔히 발생한다. 저자는 이러한 현실적 문제를 ‘모달리티 누락’이라고 정의하고, 기존 방법이 정적 플래시홀더(0, 평균 등)로 결손을 메우는 방식은 정상 상태와 동일하게 해석되어 이상 신호를 은폐하고, 특히 연속적인 메트릭이 사라질 경우 진단 성능이 급격히 저하된다는 실험적 증거를 제시한다.
이를 해결하기 위해 제안된 ARMOR(Automated and Robust framework handling Missing modality for Root cause analysis)는 세 가지 핵심 모듈로 구성된다. 첫 번째 모듈은 ‘비대칭 인코더’로, 메트릭은 고밀도 연속 시계열, 로그와 트레이스는 희소 이산 이벤트라는 특성을 반영해 각각 별도의 인코더를 설계한다. 이 인코더들은 시간적, 채널적, 공간적 의존성을 단계적으로 추출하면서, 한 모달리티가 결손되더라도 다른 모달리티의 표현이 오염되지 않도록 구조적으로 분리한다. 두 번째 모듈은 ‘누락 인식 게이트 융합’이다. 입력 모달리티마다 마스크 벡터를 생성하고, 학습 가능한 플래시홀더와 동적 바이어스 보정을 결합해 결손 여부를 명시적으로 인식한다. 이렇게 하면 정적 플래시홀더가 만들어내는 ‘가짜 정상 신호’를 방지하고, 남아 있는 모달리티가 자신의 정보를 충분히 전달할 수 있다. 세 번째 모듈은 ‘통합 진단 서명 생성’이다. 자기지도 자동회귀(pre‑training)와 마스크‑가이드 복원 손실을 동시에 최적화해, 재구성 오류와 잠재 임베딩을 결합한 벡터를 만든다. 이 벡터는 라벨이 없는 AD와 RCL에 바로 활용되며, FT는 제한된 장애 유형 라벨만을 사용해 별도 분류기를 학습한다.
실험에서는 공개된 마이크로서비스 벤치마크와 자체 수집한 대규모 클라우드 서비스 로그·메트릭·트레이스 데이터를 사용했다. 완전 데이터 상황에서 ARMOR는 기존 최첨단 통합 모델(예: ART)보다 F1‑score, Avg@5 등 모든 지표에서 우수한 성능을 보였다. 특히 메트릭, 로그, 트레이스 중 하나가 누락된 경우에도 성능 저하 폭이 5~10% 수준에 머물렀으며, 메트릭이 완전히 사라졌을 때 기존 모델이 RCL 정확도 30% 이하로 급락하는 반면, ARMOR는 70% 이상을 유지했다. t‑SNE 시각화 결과는 정적 플래시홀더가 이상 인스턴스를 정상 클러스터로 끌어당기는 현상을 보여주지만, ARMOR는 이러한 왜곡 없이 명확히 구분되는 클러스터를 형성한다는 점을 확인했다.
결론적으로, ARMOR는 ‘모달리티 결손 → 표현 왜곡 → 진단 오류’라는 악순환을 구조적 비대칭 인코더와 동적 게이트 융합, 그리고 자기지도 학습이라는 세 축에서 차단한다. 라벨이 거의 없는 상황에서도 AD와 RCL을 수행할 수 있고, FT는 최소한의 라벨만으로도 높은 정확도를 달성한다. 따라서 실제 운영 환경에서 관측 데이터의 불완전성을 감안한 견고한 사고 관리 파이프라인을 제공한다는 점에서 큰 의의를 가진다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기