신뢰성 있는 OOD 가상 스크리닝
초록
EXPLOR는 단일 라벨 데이터만을 이용해 잠재공간 확대와 다양한 의사라벨러를 결합한 다중헤드 신경망으로, 화학적 분포 이동 상황에서도 고신뢰도 예측을 제공한다. 특히 상위 후보군의 정밀도 향상에 초점을 맞추어 가상 스크리닝에 최적화된 OOD 일반화 성능을 보여준다.
상세 분석
본 논문은 리간드 기반 가상 스크리닝(LBVS)에서 가장 큰 난제인 “분포 외(Out‑of‑Distribution, OOD) 영역의 신뢰성”을 해결하기 위해 EXPLOR(Extrapolatory Pseudo‑Label Matching for OOD Uncertainty‑Based Rejection)라는 프레임워크를 제안한다. 핵심 아이디어는 (1) 다양한 특징·샘플 서브셋을 이용해 K개의 의사라벨러( pseudo‑labeler )를 독립적으로 학습시켜 라벨 다양성을 확보하고, (2) 자동인코더 기반 잠재공간 φ→γ를 활용해 입력 벡터를 방사형 스케일링(1+|ε|)·z 형태로 확장함으로써 원본 데이터의 지원(support) 영역을 넘어서는 합성 샘플을 생성한다. 이러한 확장 샘플은 실제 라벨이 존재하지 않으므로, 앞서 만든 K개의 의사라벨러가 제공하는 라벨을 각각의 헤드에 매칭시켜 학습한다. 다중헤드 구조는 각 헤드가 특정 의사라벨러와 1:1 매칭되도록 설계되었으며, 동시에 헤드 간 일관성을 정규화 항으로 부과해 과도한 분산을 억제한다. 결과적으로 모델은 (i) OOD 영역에 대한 외삽 능력을 갖추면서, (ii) 고신뢰도 구간에서의 불확실성 추정이 안정적인 예측기를 얻게 된다.
기존의 “novelty‑rejection” 방식은 OOD를 회피하도록 설계돼 새로운 화학 스캐폴드를 탐색하려는 LBVS와 근본적으로 상충한다. EXPLOR는 오히려 OOD를 적극적으로 탐색하되, 높은 신뢰도를 요구하는 상위 후보군에 대해서는 과도한 자신감을 억제하고, 불확실도가 높은 경우에는 거부(abstain) 옵션을 제공한다. 평가 지표로는 전통적인 AUROC·AUPRC 대신, 실제 스크리닝 상황에 맞춰 낮은 재현율 구간에서의 정밀도 면적(AUPRC@R<τ)을 도입해 “초기 회수(early‑recognition)” 성능을 정량화한다. 실험에서는 Morgan fingerprint, MolFormer, ChemBERT 등 다양한 벡터 표현을 사용했으며, 화학적 OOD 베치마크와 표형(tabular) 데이터셋 모두에서 기존 감독학습, 반감독학습, 도메인 일반화 기법들을 앞섰다. 특히 고신뢰도 영역(예: 상위 1 % 후보)에서의 정밀도가 크게 개선돼 실제 실험 비용 절감 효과를 기대할 수 있다. 또한 여러 랜덤 시드에 대한 성능 변동성이 낮아 훈련 안정성도 입증되었다.
이러한 설계는 (1) 단일 라벨 데이터만 존재하는 현실적인 가상 스크리닝 파이프라인에 바로 적용 가능하고, (2) 벡터형 입력에 국한되지 않아 그래프, 3D 구조 등 다양한 분자 표현에도 확장 가능하다는 장점을 가진다. 향후 연구에서는 라벨러의 다양성을 더욱 강화하기 위한 메타‑학습 전략이나, 잠재공간 확장의 비선형 변형을 탐색함으로써 OOD 커버리지를 넓히는 방안이 제시될 수 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기