시간 시계열 인과 발견의 강건성 평가를 위한 CausalCompass 벤치마크
초록
CausalCompass는 시계열 인과 발견 알고리즘이 모델 가정 위반 상황에서도 얼마나 견고한지를 체계적으로 평가하기 위한 확장 가능한 벤치마크 스위트이다. 선형·비선형 기본 모델에 8가지 가정 위반 시나리오(측정오차, 비정상성, 잠재 교란, 혼합 데이터 등)를 적용해 11개의 대표 알고리즘을 110,000회 이상 실험했으며, 전반적으로 딥러닝 기반 방법이 가장 높은 평균 성능을 보였다. 특히 NTS‑NOTEARS는 표준화 전처리에 크게 의존한다는 흥미로운 결과도 제시한다.
상세 분석
본 논문은 시계열 인과 구조를 추정하는 TSCD(Time‑Series Causal Discovery) 분야에서 ‘가정 위반(assumption violation)’ 상황에 대한 평가가 거의 이루어지지 않았다는 점을 지적하고, 이를 보완하기 위해 CausalCompass라는 벤치마크 프레임워크를 설계하였다. 먼저 저자는 기존 TSCD 알고리즘을 크게 여섯 범주(제약 기반, 노이즈 기반, 점수 기반, 위상 기반, Granger 기반, 딥러닝 기반)로 분류하고, 각 범주를 대표하는 11개의 알고리즘을 선정하였다. 이때 각 알고리즘이 지원하는 인과 그래프 유형(요약 그래프 vs 윈도우 그래프)과 기본 가정(선형/비선형 메커니즘, 잠재 교란, 측정오차 등)을 표 1에 정리해, 어떤 알고리즘이 어떤 가정에 민감한지를 한눈에 파악할 수 있게 했다.
벤치마크 데이터 생성은 두 가지 ‘바닐라’ 모델을 기반으로 한다. 선형 경우는 최대 지연 τ_max 를 갖는 VAR 모델이며, 비선형 경우는 외부 강제 F 를 조절해 혼돈 정도를 변화시키는 Lorenz‑96 시스템이다. 이 두 기본 모델에 대해 8가지 가정 위반 시나리오를 독립적으로 적용한다. 구체적으로는 (1) 측정오차 모델: 관측값에 비율 α 로 스케일된 가우시안 잡음 추가, (2) 비정상성 모델: 시간에 따라 변동하는 잡음 스케일 ω_t,i 를 Gaussian Process 로 샘플링, (3) 잠재 교란 모델: 일정 확률 ζ 로 라티트 변수 L을 도입해 교차 지연 혹은 동시 교란 생성, (4) Z‑score 표준화 모델: 각 변수별 평균·분산을 이용해 표준화, (5) Min‑max 정규화, (6) 트렌드·계절성 추가, (7) 혼합 데이터(다중 모드) 생성, (8) 결측 데이터 삽입 등이다. 각 시나리오는 선형·비선형 모두에 적용 가능하도록 설계돼, 실제 데이터가 가정 위반을 동시에 겪는 복합 상황을 시뮬레이션한다.
실험 설계는 하이퍼파라미터 탐색을 포함한다. 각 알고리즘마다 기본값과 함께 주요 파라미터(예: PCMCI의 최대 조건부 독립성 테스트 깊이, NTS‑NOTEARS의 λ 정규화 계수, cMLP·cLSTM의 은닉층 크기·학습률 등)를 그리드 탐색했으며, 성능 민감도를 별도 분석했다. 평가 지표는 구조적 Hamming distance, SHD(Structure Hamming Distance), AUROC, AUPRC 등을 사용해 요약 그래프와 윈도우 그래프 각각에 대해 정량화하였다.
주요 결과는 다음과 같다. 첫째, 어느 하나의 알고리즘도 8가지 시나리오 전부에서 최고 성능을 유지하지 못한다는 점이다. 이는 TSCD가 특정 가정에 과도하게 의존하고 있음을 의미한다. 둘째, 전체 평균 성능에서는 딥러닝 기반 cMLP와 cLSTM이 가장 우수했으며, 특히 비선형 바닐라 모델과 비정상성·측정오차·혼합 데이터 등 복합 위반 상황에서 강건함을 보였다. 셋째, NTS‑NOTEARS는 표준화 전처리 없이(‘vanilla’ 상황) 성능이 급격히 저하되지만, Z‑score 표준화 후에는 경쟁력 있는 결과를 도출한다는 흥미로운 특성을 보였다. 이는 NOTEARS 계열이 데이터의 분산 구조를 활용하는 메커니즘이 표준화에 민감함을 시사한다. 넷째, 전통적인 제약 기반 PCMCI와 점수 기반 DYNOTEARS는 선형·정상 상황에서는 괜찮은 성능을 보이나, 비선형·비정상성 시나리오에서는 급격히 성능이 떨어졌다. 마지막으로, 하이퍼파라미터 민감도 분석 결과, 딥러닝 모델은 학습률·배치 크기 등 몇몇 파라미터에 비교적 안정적인 반면, NOTEARS 계열은 정규화 파라미터 λ와 스케일링 파라미터에 크게 좌우되는 경향을 보였다.
이러한 결과는 실무에서 TSCD 알고리즘을 선택할 때 ‘가정 검증’보다 ‘가정 위반에 대한 강건성’ 평가가 더 중요함을 강조한다. 특히 데이터 전처리 단계(표준화·정규화)와 모델 선택이 결과에 미치는 영향을 명시적으로 고려해야 한다는 교훈을 제공한다. 저자는 CausalCompass를 오픈소스로 제공함으로써 연구자들이 새로운 알고리즘을 손쉽게 다양한 가정 위반 상황에 테스트하고, 기존 방법과 비교할 수 있는 기반을 마련했다. 향후 연구는 (1) 더 복잡한 잠재 교란 구조(예: 다중 라티트 네트워크), (2) 비정상성의 다양한 형태(예: 구조 자체 변화), (3) 실시간/온라인 인과 추정 시나리오 등을 포함해 벤치마크를 확장하는 방향으로 진행될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기