질량분석 교차기기 분자 식별을 위한 대조 도메인 일반화
초록
본 논문은 질량분석(MS) 스펙트럼을 사전 학습된 화학 언어 모델의 분자 구조 임베딩 공간에 직접 매핑하는 교차‑모달 대조 학습 프레임워크를 제안한다. 스펙트럼 전처리와 Gaussian Fourier 투영을 통해 기기 간 변동성을 보정하고, Dual‑Encoder 구조로 스펙트럼과 SMILES 임베딩을 정렬한다. 엄격한 스캐폴드‑디스조인트 평가에서 256‑way 제로샷 Top‑1 정확도 42.2%와 5‑way 5‑shot 재식별 정확도 95.4%를 달성해, 기존 폐쇄형 모델 대비 뛰어난 일반화 능력을 입증한다.
상세 분석
이 연구는 질량분석 데이터의 물리적 특성과 화학 구조 표현 사이의 ‘시맨틱 갭’ 문제를 근본적으로 해결하려는 시도로, 두 가지 핵심 기술을 결합한다. 첫째, 스펙트럼 전처리 단계에서 m/z 값을 로그 변환하고 강도는 제곱근 정규화를 적용해 이질적인 측정 정밀도와 폭넓은 동적 범위를 안정화한다. 이어서 Gaussian Fourier Projection을 사용해 변환된 m/z를 고차원 주기 함수 공간에 매핑함으로써, 딥러닝 모델이 흔히 겪는 스펙트럼 바이어스(저주파 특성에 편향)를 완화하고 미세한 피크 변동을 보존한다. 둘째, 화학 언어 모델인 ChemBERTa에 LoRA(Low‑Rank Adaptation)를 적용해 쿼리·키·밸류 프로젝션을 소수의 파라미터만으로 미세조정한다. 이는 대규모 사전 학습된 화학 지식을 그대로 유지하면서 스펙트럼 임베딩과 구조 임베딩을 효율적으로 정렬할 수 있게 한다.
대조 학습은 InfoNCE 손실을 이용해 같은 분자에 대한 스펙트럼·SMILES 쌍을 긍정 샘플로, 다른 분자 쌍을 부정 샘플로 삼아 코사인 유사도 기반의 온도 파라미터 τ=0.07로 최적화한다. 이 과정에서 배치 내 모든 스펙트럼‑분자 조합을 고려해 글로벌하게 일관된 임베딩 공간을 형성한다. 실험에서는 MassBank 데이터를 스캐폴드‑디스조인트 방식으로 학습/테스트를 분리했으며, 106k 학습 스펙트럼(14k 스캐폴드)과 26k 테스트 스펙트럼(3.5k 스캐폴드)을 사용했다. 제로샷 256‑way 검색에서 Top‑1 42.2%를 기록했는데, 이는 기존 256‑way 기준 모델 대비 현저히 높은 수치이며, 전역 후보 풀에서도 강인한 재검색 성능을 보였다. 또한 5‑way 5‑shot 재식별 실험에서 95.4%의 정확도를 달성해, 제한된 라벨 샘플만으로도 임베딩 기반 유사도 판단이 매우 신뢰할 수 있음을 입증한다.
이 프레임워크는 기기 간 피크 폭, 충돌 에너지, 노이즈 등 물리적 변동성을 전처리와 고주파 인코딩으로 정규화하고, 화학 구조 의미를 사전 학습된 언어 모델에 의존함으로써 ‘도메인 일반화’를 실현한다. 결과적으로 스펙트럼‑구조 정렬이 성공하면, 새로운 스캐폴드와 미지의 측정 장비에서도 제로샷·소수샷 상황에서 높은 식별 정확도를 유지한다는 중요한 교훈을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기