인퍼런셜 메카닉스 화학생물학 머신러닝 인과 메커니즘
초록
**
본 논문은 화학생물학 데이터에 적용된 머신러닝 모델이 숨겨진 인과 구조를 무시함으로써 일반화 오류를 일으키는 원인을 규명한다. 인과 계산(Causal Calculus)과 ‘포커스(focus)’ 개념을 도입해 구조‑활성 관계의 직접 효과와 총 효과를 구분하고, Akt 억제제 사례를 통해 이론을 실증한다.
**
상세 분석
**
이 연구는 현재 화학·생물학 분야에서 널리 사용되는 머신러닝 기법이 ‘블랙박스’로 전락하면서, 데이터에 내재된 인과 메커니즘을 간과한다는 근본적인 문제를 지적한다. 저자들은 인과 계산의 핵심 요소인 인과 모델(C), 관찰 변수 집합(V), 비관찰 변수 집합(U), 그리고 함수 집합(F)을 명시적으로 정의하고, 이를 Directed Acyclic Graph(DAG) 형태로 시각화한다. 특히 ‘do 연산자’를 활용해 실험적 개입과 관찰을 구분함으로써, 전통적인 확률론이 다루기 어려운 ‘반사실(counterfactual)’ 상황을 수학적으로 다룰 수 있음을 보여준다.
논문은 Total Effect(TE)와 Direct Effect(DE)의 차이를 강조한다. 화학생물학에서는 보통 TE가 아니라 DE, 즉 특정 구조 변수가 다른 모든 인과 요인(U)을 고정한 상태에서 결과 변수에 미치는 직접적인 영향을 파악하고자 한다. 이를 위해 저자들은 Back‑door와 Front‑door 조정법을 적용해 관측되지 않은 교란 변수(U)를 통제하고, 실제 실험 데이터에서 DE를 추정하는 절차를 제시한다.
핵심 개념인 ‘포커스(focus)’는 머신러닝 알고리즘이 대규모 데이터 속에 숨겨진 ‘숨은 메커니즘’을 탐지하고, 이를 기반으로 모델을 재구성하는 능력을 의미한다. 기존의 피처 엔지니어링이 단순히 화학 구조를 비트 벡터(예: Fingerprint)로 변환하는 데 그친다면, 포커스는 특정 결합 부위(M)와 결합 역학을 식별해 데이터셋을 서브그룹으로 나누고, 각각에 맞는 독립적인 모델을 학습하도록 유도한다.
실증 사례로 제시된 Akt 억제제 데이터셋에서는 두 개의 화합물 군(s1, s2)이 서로 다른 결합 부위(m1, m2)에서 활성을 나타낸다. 전체 데이터를 통합해 학습하면 아릴‑메틸(Ar‑Me) 비트가 무작위와 같은 상관관계를 보여 모델이 해당 피처를 무시한다. 그러나 포커스를 적용해 m1과 m2 별로 데이터를 분리하면 Ar‑Me 비트가 활성에 결정적인 역할을 함을 발견하고, 이는 Simpson’s paradox가 발생한 전형적인 예시이다.
결과적으로, 인과 계산과 포커스 개념을 결합하면 (1) 데이터셋 내 숨은 인과 구조를 명시적으로 드러낼 수 있고, (2) 모델의 일반화 성능을 크게 향상시킬 수 있다. 또한, 이 접근법은 기존의 ‘베스트 프랙티스’만으로는 해결되지 않는 ‘인과적 오류’를 체계적으로 진단하고 교정하는 프레임워크를 제공한다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기