해석 가능한 무감독 이상 탐지 SYRAN

SYRAN은 심볼릭 회귀를 이용해 정상 데이터에서 거의 일정한 값을 갖는 함수(심볼릭 불변량)를 학습하고, 이 불변량에서 벗어나는 정도를 이상 점수로 활용하는 무감독 이상 탐지 방법이다. 인간이 읽을 수 있는 수식 형태로 모델을 제공함으로써 사후 설명이 아닌 본질적인 해석 가능성을 확보한다. 실험에서 과학·의료 데이터에 대한 의미 있는 관계식을 재발견하면서도 최신 검출 성능에 근접함을 보였다.

저자: Md Maruf Hossain, Tim Katzke, Simon Klüttermann

해석 가능한 무감독 이상 탐지 SYRAN
본 논문은 “SYRAN”(SYmbolic Regression for unsupervised ANomaly detection)이라는 새로운 무감독 이상 탐지 프레임워크를 제안한다. 기존의 이상 탐지 기법들은 정상 데이터의 패턴을 고차원 파라미터(예: 딥러닝, 트리 앙상블)로 인코딩해 블랙박스 형태로 동작한다. 이러한 접근은 의료·제조 등 고위험 분야에서 모델의 작동 원리를 이해하거나 검증하기 어렵다는 문제점을 안고 있다. SYRAN은 이러한 한계를 극복하고자, 정상 데이터에 대해 거의 일정한 값을 갖는 함수, 즉 “심볼릭 불변량”을 학습한다. 불변량은 인간이 읽을 수 있는 수식 형태로 표현되며, 정상 데이터에서는 1에 가깝게 유지되고 이상 데이터에서는 크게 벗어나므로, 편차 자체가 이상 점수가 된다. ### 1. 이론적 배경 및 손실 설계 불변량 f는 평균 절대 편차 L₁(f)= (1/N)∑|f(xⁿ)−1| 로 정상 데이터에 대한 적합도를 측정한다. 하지만 이 손실만으로는 전역 상수 함수가 최적해가 되는 문제(Trivial solution)가 발생한다. 이를 방지하기 위해 무작위 잡음 데이터 X_rnd를 생성하고, 잡음에 대한 편차 L_noise(f)= (1/N_rnd)∑|f(˜x^ℓ)−1| 를 계산한다. L_noise가 일정 마진 Δ보다 작으면 패널티 max(0, Δ−L_noise) 를 부여해 잡음에 대해 불변량이 크게 변하도록 강제한다. 또한 모델의 해석 가능성을 위해 복잡도 정규화 L_c(f)=log(1+log(1+c(f))) 를 도입한다. 여기서 c(f)는 표현 트리의 노드 수 등 복잡도 지표이며, γ가 그 가중치를 조절한다. 최종 손실은 L(f)=L₁(f)+max(0,Δ−L_noise(f))+γ·L_c(f) 로 정의된다. ### 2. 심볼릭 회귀와 진화 알고리즘 불변량은 연산자 집합(+,−,*,/, sin, cos, exp 등)과 입력 피처를 이용해 트리 형태의 수식으로 표현된다. 탐색 공간이 이산적이고 비볼록하기 때문에, 논문에서는 변이·교차 연산을 이용한 간단한 진화 기반 심볼릭 회귀 알고리즘을 사용한다. 초기 무작위 식을 생성하고, 매 세대마다 손실 L(f)를 평가한 뒤, 가장 좋은 후보들을 선택하고 변이·교차를 통해 새로운 후보를 만든다. 이 과정을 G세대 반복한다. ### 3. 앙상블 설계 및 점수 집계 단일 불변량은 데이터의 복잡한 구조를 충분히 포착하지 못한다는 점을 인식하고, SYRAN은 M개의 불변량을 학습한다. 각 멤버 i는 피처 서브셋 S_i (크기 K)를 무작위로 선택해 해당 서브스페이스에만 의존하도록 제한한다(Feature Bagging). 이렇게 하면 서로 다른 변수 조합에 대한 다양한 관계식이 학습된다. 예측 단계에서는 각 불변량에 대해 d_i(x)=|f_i(x_{S_i})−1| 를 계산하고, 정상 데이터에서 평균 편차 \bar d_i 로 정규화한다. 정규화된 값에 시그모이드 σ를 적용해 s_i(x)=σ(d_i(x)/\bar d_i) 를 얻는다. 최종 이상 점수는 s_i들의 평균, 즉 score(x)= (1/M)∑ s_i(x) 로 정의된다. 이 방식은 각 멤버가 독립적으로 동작하므로 학습·추론을 손쉽게 병렬화할 수 있다. ### 4. 실험 및 결과 논문은 ADBench 벤치마크에서 19개의 데이터셋(의료, 생화학, 과학 등)을 사용해 SYRAN을 평가한다. 모든 데이터셋에 대해 동일한 하이퍼파라미터(γ=0.1, Δ=1, K=2, M=50)를 적용했으며, 각 데이터셋에 대해 2시간 이내에 학습을 마쳤다(단, fault와 wdbc는 시간 초과로 제외). 성능 평가는 AUC‑ROC 기준이며, SYRAN은 평균 AUC‑ROC에서 기존 최첨단 방법(예: IForest, DEAN, DeepSVDD 등)과 비슷하거나 약간 뒤처졌다. 그러나 해석 가능성 측면에서는 현저히 우수했으며, 특히 물리학 데이터(케플러 제3법칙)에서는 약 30%의 학습된 식이 실제 법칙과 동등한 형태를 재현했다. ### 5. 장점·한계·향후 연구 **장점** - 인간이 직접 검증·수정 가능한 수식 형태 제공 → 모델 투명성 확보 - 다양한 도메인에 적용 가능한 일반 프레임워크 - 앙상블과 피처 bagging을 통한 다양성 확보 및 병렬 처리 가능 - 잡음 대비 패널티와 복잡도 정규화로 과적합 방지 **한계** - 진화 기반 탐색이 계산 비용이 높아 고차원·대규모 데이터에선 시간 제한이 걸릴 수 있음 - 불변량이 근사적으로 일정해야 하므로 매우 복잡하거나 비선형적인 정상 패턴을 완전히 포착하기 어려울 수 있음 - 하이퍼파라미터(γ, Δ, K, M)의 선택이 성능에 민감 **향후 연구** - 베이지안 최적화 등 보다 효율적인 탐색 전략 도입 - 자동 하이퍼파라미터 튜닝 메커니즘 개발 - 다중 불변량 간 상관관계를 활용한 스코어링 개선 및 이상 탐지 정확도 향상 - 실시간 스트리밍 데이터에 대한 온라인 학습 확장 종합하면, SYRAN은 “해석 가능성”을 핵심 설계 목표로 삼아 심볼릭 회귀와 앙상블을 결합한 새로운 무감독 이상 탐지 방법을 제시한다. 성능은 최신 방법과 견줄 만한 수준이며, 특히 과학·의료 분야에서 모델이 제시하는 수식 자체가 새로운 지식 발견이나 검증에 직접 활용될 수 있다는 점에서 큰 의미를 가진다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기