FOAM: 질량 스펙트럼 기반 구조 탐색을 위한 공식 제약 최적화
초록
본 논문은 LC‑MS/MS 데이터로부터 분자 구조를 규명하기 위해, 화학식 제약을 갖는 그래프 유전 알고리즘과 최신 스펙트럼 시뮬레이터 ICEBERG를 결합한 FOAM 워크플로우를 제안한다. FOAM은 스펙트럼 유사도와 구조 복잡도(SAScore)를 다목적 목표로 하여 파레토 정렬 후 교배·돌연변이 과정을 반복함으로써 후보 구조를 점진적으로 개선한다. NIST’20와 MassSpecGym 데이터셋에서 68 % 이상의 실제 구조 탐색 성공률과, 3세대 내 상위 10개 후보 중 31 %에서 실제 구조를 포함하는 성과를 보이며, 기존 역모델과의 결합에서도 유의미한 향상을 확인하였다.
상세 분석
FOAM은 질량 스펙트럼 기반 구조 규명을 “공식‑제약 최적화” 문제로 재정의한다. 먼저, 전처리 단계에서 SIRIUS·MIST‑CF·BUDDY 등으로부터 얻은 전구체 질량과 고해상도 MS1 정보를 이용해 후보 화학식을 도출한다. 이 화학식에 일치하는 모든 구조(예: PubChem) 혹은 외부 생성 모델이 제시한 시드 구조를 초기 개체군으로 채택한다. 각 후보는 ICEBERG라는 기하학적 딥러닝 기반 스펙트럼 시뮬레이터를 통해 실험 스펙트럼과 동일한 충돌 에너지·이온화 조건으로 파편 스펙트럼을 예측한다. 예측 스펙트럼과 실험 스펙트럼 사이의 엔트로피 기반 유사도와, 구조 복잡도를 정량화한 SAScore를 다목적 함수로 설정하고, 비지배 정렬(Non‑Dominated Sorting)으로 파레토 순위를 산출한다. 파레토 최상위 개체들을 교배·돌연변이 연산에 투입하는데, 여기서 교배·돌연변이는 그래프 기반 변환을 사용하면서도 화학식 보존 제약을 엄격히 적용한다(예: 원자 수·원소 조성 유지). 이렇게 생성된 자손은 다시 ICEBERG로 평가되며, 세대가 진행될수록 평균 스펙트럼 유사도가 꾸준히 상승한다. 실험에서는 200개의 개체군을 유지하고, 세대당 최대 600개의 자손을 생성, 총 7 500회(또는 5 000회) 호출 제한 하에 최적화를 수행한다. NIST’20 테스트에서는 68 %의 경우 실제 구조를 탐색에 포함시켰으며, 3세대 이내에 11 %는 1위, 31 %는 상위 10위에 도달했다. 이는 스펙트럼 예측 정확도가 최종 성공률의 주요 병목임을 시사한다. 또한, 시드 구조의 초기 유사도가 높을수록, 그리고 ICEBERG의 예측 정확도가 높을수록 최종 후보의 구조적 유사도가 향상되는 경향을 확인하였다. FOAM은 기존의 스펙트럼‑대‑구조 매핑 모델(예: Fingerprint‑기반 검색, 조건부 생성 모델)과 달리, 임의의 수의 시드와 다목적 목표를 동시에 활용할 수 있어 확장성이 뛰어나다. 다만, 그래프 유전 연산의 탐색 효율성 및 ICEBERG의 예측 한계가 여전히 존재하므로, 보다 정교한 스펙트럼 시뮬레이터와 강화된 변이 연산이 향후 연구 과제로 남는다.
댓글 및 학술 토론
Loading comments...
의견 남기기