장기 데이터 인과 분석을 위한 안정적 구조 사양 탐색

본 논문은 제한된 구조 방정식 모델(SEM)을 활용한 인과 구조 학습에서 표본 변동에 따른 불안정성을 극복하기 위해, ‘Stable Specification Search for Longitudinal data(이하 S3L)’라는 새로운 프레임워크를 제안한다. 기존 인과 탐색 방법들은 대부분 단일 실행에 의존해 작은 표본 변화가 모델 전체를 뒤바꾸는 문제를 안고 있었으며, 특히 장기 데이터와 같이 시간에 따라 반복 측정되는 데이터에서는 이러한 불안정성이 더욱 두드러진다. S3L은 이러한 문제를 해결하기 위해 두 가지 주요 전략을 채택한다. 첫 번째 전략은 **다중 목표 진화 알고리즘(NSGA‑II)** 를 이용해 모델 적합도와 복잡도라는 상충 목표를 동시에 최적화하는 것이다. NSGA‑II는 초기 무작위 모델 집합을 시작으로, 교차와 돌연변이 연산자를 통해 새로운 후보 모델을 생성하고, 비지배 정렬을 통해 파레토 전선을 형성한다. 이 과정은 여러 세대에 걸쳐 반복되며, 최종 세대의 첫 번째 전선은 주어진 복잡도 범위에서 가장 좋은 적합도를 가진 파레토 최적 모델 집합을 제공한다. 두 번째 전략은 **안정성 선택(stability selection)** 을 도입해 모델의 신뢰성을 강화한다. 전체 데이터를 여러 번(보통 N번) 무작위 서브샘플링(각 서브샘플 크기는 전체의 절반)하고, 각 서브샘플에 대해 위의 NSGA‑II 탐색을 수행한다. 이렇게 얻어진 파레토 최적 모델들을 모두 CPDAG(완전 부분 방향성 비순환 그래프) 형태의 마코프 등가 클래스로 변환한다. 이후 변수 쌍마다 ‘에지 안정도’와 ‘인과 경로 안정도’를 계산한다. 에지 안정도는 해당 변수 쌍 사이에 어떤 형태의 에지가 나타난 비율을, 인과 경로 안정도는 특정 방향성 경로가 나타난 비율을 의미한다. 안정한 인과 관계를 선정하기 위해 두 임계값을 설정한다. **π_sel** 은 선택 확률 임계값으로, 예를 들어 0.6이면 60% 이상 나타난 구조만을 후보로 삼는다. **π_bic** 은 복잡도 임계값으로, 각 복잡도 수준에서 평균 BIC 점수를 구하고 그 중 최소값을 기준으로 설정한다. 이 두 기준을 동시에 만족하는 구조는 ‘안정적·간결한’ 관계라 정의되며, 최종 인과 그래프에 포함된다. 장기 데이터를 다루기 위해 S3L은 **‘롤링’ 모델** 개념을 차용한다. 원래의 다시간 슬라이스 SEM을 ‘베이스라인 모델’과 ‘전이 모델’ 두 부분으로 분리한다. 베이스라인 모델은 초기 시점(t0)에서 변수들 간의 인과 관계를, 전이 모델은 연속된 시점(t→t+1) 사이 및 동일 시점 내의 관계를 포착한다. 이를 위해 원본 데이터를 재구성하여 각 시간 슬라이스를 하나의 관측 행렬로 결합하고, 변환된 모델에 기존 SEM 적합 도구(예: lavaan)를 적용한다. 이렇게 하면 임의의 시간 슬라이스 수를 갖는 장기 데이터를 두 개의 SEM으로 압축해 분석할 수 있다. 또한 S3L은 **사전 지식** 을 제약조건으로 삽입할 수 있다. 예를 들어 특정 변수 간 인과 관계가 존재하지 않음이 알려져 있다면, 해당 방향성을 탐색 공간에서 제외한다. 이는 진화 연산 과정에서 불가능한 구조를 미리 차단함으로써 탐색 효율을 높이고, 도메인 전문가의 지식을 모델에 반영한다. 최종 그래프는 각 에지에 **신뢰도 점수**(최대 선택 확률)와 **표준화 인과 효과**(IDA 기반)를 부착한다. 신뢰도 점수는 해당 에지가 다양한 복잡도 수준에서 얼마나 일관되게 선택되었는지를 나타내며, 값이 높을수록 거짓 양성 가능성이 낮다. 표준화 인과 효과는 관측 데이터만으로도 잠재적 개입 효과를 정량화해, 임상 연구에서 개입 전략을 설계하는 데 활용 가능하게 만든다. 실험에서는 먼저 시뮬레이션 데이터를 이용해 기존 인과 탐색 알고리즘(PC‑stable, CPC, PC‑Max, FGES 등)과 비교하였다. 결과는 S3L이 동일하거나 더 높은 정확도(precision)와 재현율(recall)을 보였으며, 특히 표본 크기가 작고 노이즈가 많은 상황에서 안정적인 구조를 유지하는 것이 확인되었다. 실제 데이터 적용 사례로는 (1) 만성 피로 증후군(CFS) 코호트, (2) 알츠하이머병(AD) ADNI 데이터, (3) 만성 신장 질환(CKD) 코호트가 사용되었다. 각 데이터셋에 대해 S3L이 도출한 인과 그래프는 기존 문헌에서 보고된 주요 관계(예: 염증 마커와 피로 수준, 베타-아밀로이드와 인지 저하, 혈압과 신기능 악화)를 재현했으며, 동시에 새로운 잠재적 연관성(예: 특정 대사체가 신경퇴행에 미치는 영향, 특정 약물 복용이 신장 기능 악화에 미치는 간접 경로)을 제시하였다. 이러한 새로운 발견은 후속 실험적 검증이나 임상 시험 설계에 유용한 가설을 제공한다. 결론적으로, S3L은 **다중 목표 최적화 + 안정성 선택 + 롤링 모델 + 사전 지식 통합**이라는 네 가지 핵심 요소를 결합해, 제한된 표본에서도 신뢰할 수 있는 장기 인과 구조를 효율적으로 추출한다. 향후 연구에서는 비선형 SEM, 비가우시안 노이즈, 잠재 변수 모델링 등을 확장하여 보다 복잡한 생물학적 시스템에 적용하는 방안을 제시한다.

장기 데이터 인과 분석을 위한 안정적 구조 사양 탐색

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기