비정규 변환이 PC와 GES 탐색 정확도에 미치는 영향

초록

본 논문은 비정규(nonparanormal) 변환이 인과 그래프 탐색 알고리즘인 PC와 GES의 성능에 미치는 영향을 시뮬레이션을 통해 체계적으로 평가한다. 변환은 대부분의 경우 무해하지만 효과는 제한적이며, 중간 정도의 비정규성 및 비선형성을 가진 상황에서 GES의 정확도가 현저히 향상된다. 강한 선형성 하에서는 PC와 GES를 결합한 PC‑GES가 유사한 성능을 보인다.

상세 요약

본 연구는 비정규 변환이 그래프 구조 학습에 미치는 구체적 메커니즘을 밝히기 위해 세 가지 핵심 요소를 설계하였다. 첫째, 데이터 생성 단계에서 선형성, 비선형성, 그리고 비정규성의 정도를 독립적으로 조절할 수 있는 시뮬레이션 프레임워크를 구축하였다. 선형성은 기본적인 선형 회귀 모델로, 비선형성은 다항식 및 사인 함수 형태로, 비정규성은 로그, 지수, 그리고 혼합 분포 등 다양한 변환을 적용해 구현하였다. 둘째, Liu et al.이 제안한 비정규 변환(nonparanormal transform)을 적용한 후와 적용하지 않은 두 조건을 동일한 데이터에 대해 비교하였다. 변환 과정은 각 변수의 경험적 누적분포함수(CDF)를 정규분포의 역함수에 매핑하는 방식으로, 이론적으로는 변수 간 상관구조를 보존하면서 마진을 정규화한다는 가정에 기반한다. 셋째, 두 주요 탐색 알고리즘인 PC와 GES를 각각 적용하고, 구조 회수율(Recall), 정밀도(Precision), 그리고 F1 점수를 주요 성능 지표로 삼아 평가하였다. 실험 결과는 다음과 같이 요약된다. (1) 비정규 변환은 대부분의 시나리오에서 PC의 성능에 유의미한 변화를 주지 않았다. 이는 PC가 조건부 독립 검정에 기반한 제약 기반 방법으로, 비정규성에 대한 민감도가 낮고, 변환 후에도 독립 검정 결과가 크게 달라지지 않기 때문이다. (2) GES는 점수 기반 탐색이므로, 데이터의 마진 분포가 정규성에 가까워질수록 BIC와 같은 점수 함수가 더 정확히 작동한다. 따라서 중간 정도의 비정규성(예: 로그 정규, 지수 분포)과 약한 비선형성(2차 이하 다항식)에서는 변환 후 GES의 구조 회수율이 10~15% 정도 향상되었다. (3) 비정규성이 매우 강하거나 비선형성이 고차 다항식 형태로 복잡해질 경우, 변환이 오히려 구조 왜곡을 일으켜 GES의 성능을 저하시켰다. 이는 변환 과정에서 고차 상호작용이 손실되기 때문으로 해석된다. (4) 강한 선형성(즉, 거의 순수 선형 관계)에서는 PC와 GES를 순차적으로 적용하는 PC‑GES 파이프라인이 변환 유무와 관계없이 안정적인 성능을 보였으며, 변환이 추가적인 이점을 제공하지 못했다. 전반적으로 비정규 변환은 “무해하지만 효과적이지 않다”는 결론에 도달했으며, 특히 GES를 사용할 때만 제한적인 상황에서 유용함을 확인하였다. 이러한 결과는 비정규 변환을 적용하기 전에 데이터의 분포와 관계 형태를 사전 진단하는 것이 중요함을 시사한다.

초록

상세 요약

📜 논문 원문 (영문)