대량 분석의 미래 질량 스펙트럼에서 구조 예측

읽는 시간: 9 분
...

📝 원문 정보

- Title: Comparative Analysis of Formula and Structure Prediction from Tandem Mass Spectra
- ArXiv ID: 2601.00941
- 발행일: 2026-01-02
- 저자: Xujun Che, Xiuxia Du, Depeng Xu

📝 초록

액체 크로마토그라피 질량 분석법(LC-MS)을 기반으로 한 대사물질omics와 노출omics는 생물학적 샘플 내에서 감지 가능한 작은 분자들을 측정하는 것을 목표로 합니다. 이러한 결과는 대사 변화 및 질병 메커니즘에 대한 가설 생성 발견을 용이하게 하고, 환경 노출과 그들이 인간 건강에 미치는 영향에 대한 정보를 제공합니다. 대사물질omics와 노출omics는 LC의 높은 해상도 및 MS의 높은 질량 측정 정확도 덕분에 가능해졌습니다. 하지만, 이러한 연구에서 대부분의 신호들은 기존 스펙트럼 라이브러리가 LC-MS/MS로 포착된 광범위한 화학 공간을 거의 다 커버하지 못하기 때문에 전통적인 라이브러리 검색을 통해 식별하거나 주석하기 어렵습니다. 이러한 도전과제를 해결하고 대사물질omics와 노출omics의 전체 잠재력을 발휘하기 위해, 단일 질량 스펙트럼을 기반으로 화합물을 예측하는 여러 계산적 접근법이 개발되었습니다. 이러한 접근법들에 대한 출판된 평가는 다른 데이터셋과 평가를 사용했습니다. 실제 응용 프로그램을 위한 예측 워크플로우를 선택하고 더 나아갈 방향을 식별하기 위해, 최신 예측 알고리즘의 체계적인 평가를 수행하였습니다. 특히, 다양한 유형의 부가물에 대한 공식 예측 및 구조 예측의 정확도를 평가했습니다. 이로 인해 실제 성능 기준을 설정하고, 중요한 병목 현상을 식별하며, MS 기반 화합물 예측을 향상시키는 데 도움이 되는 지침을 제공하였습니다.

💡 논문 해설

1. **데이터와 모델의 다양성:** 대규모 데이터셋과 다양한 계산 방법을 사용하여 메타볼롬스 및 엑소몰스 분석에서 화합물 예측의 정확성을 향상시켰습니다.

비유: 이것은 마치 많은 종류의 열매와 과일이 있는 주스 가게에서, 가장 맛있는 주스를 만드는 레시피를 찾는 것과 같습니다. 다양한 재료와 레시피를 사용하면 더 맛있는 주스를 만들 수 있습니다.

  1. 화합물 예측의 2단계: 분자 공식을 예측한 후, 그 공식에 따른 구조를 생성하는 두 단계로 화합물을 예측합니다.

    비유: 이것은 처음으로 사람의 얼굴 형태를 정하고, 그 다음에는 눈, 코, 입 등의 세부적인 특징을 추가하여 전체 얼굴을 완성하는 것과 같습니다.

  2. 데이터 분할 방법: 무작위 데이터 분할을 사용하여 실제 메타볼롬스 연구와 유사한 조건에서 모델의 성능을 평가했습니다.

    비유: 이것은 학생들이 다양한 문제를 풀 수 있도록 여러 종류의 문제를 섞어서 주는 것과 같습니다. 이렇게 하면 학생들은 실제 시험에서도 잘 대처할 수 있습니다.

📄 논문 발췌 (ArXiv Source)

# 서론

대규모 분자 연구인 메타볼롬스와 엑소몰스는 복잡한 생물학적 시스템을 이해하고 새로운 바이오마커를 발견하는 데 핵심적인 역할을 합니다. 액체 크로마토그래피-질량분석법은 화학 공간의 광범위한 영역을 분석하는 주요 플랫폼 중 하나입니다. 질량분석법 기반 메타볼롬스와 엑소몰스 연구에서는 원시 데이터를 행동 가능한 생물학적 통찰력으로 전환하기 위해 트랜드 마스 스펙트럼에 화합물이나 화합물 클래스를 할당하는 작업이 중요합니다. 그러나 이는 여전히 도전이며, 대부분의 결과 트랜드 질량 분석 스펙트럼은 알려지지 않은 상태로 남아 있습니다. 이를 명확하게 이해하지 않으면 메타볼롬스와 엑소몰스에 대한 질량분석법 기반 연구의 진정한 잠재력을 실현할 수 없습니다.

LC는 복잡한 혼합물 내 화합물을 화학적 특성에 따라 분리합니다. 이 분리는 화학적 복잡성을 줄이고 다른 분석물이 서로 간섭하는 것을 방지하며, 화합물의 정확한 검출을 가능하게 합니다. 그 다음 트랜드 질량분석법(MS/MS)은 대응하는 전구 이온을 파괴하여 고유한 분해 패턴을 생성하고 이를 기반으로 화합물의 구조 정보를 제공합니다. 전통적으로, 알려지지 않은 MS/MS 스펙트럼은 알려진 MS/MS 라이브러리에 대해 매칭됩니다. 라이브러리에서 가장 유사한 MS/MS를 가진 화합물이 알려지지 않은 MS/MS에 할당됩니다. 이 과정을 화합물 식별(강력한 증거로 신뢰할 수 있는 할당) 또는 주석(일부 증거로 할당)이라고 합니다. 라이브러리 검색 기반 방법은 매우 효과적이지만, LC-MS 플랫폼이 감지할 수 있는 화합물의 광범위한 공간에 비해 현재 존재하는 MS/MS 라이브러리는 여전히 작습니다. 따라서 일반적인 메타볼롬스 또는 엑소몰스 연구에서 대부분의 MS/MS는 라이브러리 검색 후에도 알려지지 않은 상태로 남아 있습니다.

이 도전 과제를 해결하기 위해 계산 워크플로가 개발되어 알려지지 않은 MS/MS로부터 화합물을 예측합니다. 화합물 예측은 MS/MS 라이브러리의 한계를 극복하고, 어떤 공식이 알려지지 않은 MS/MS를 생성했을 수 있는지에 대한 중대한 통찰력을 제공할 수 있지만, 라이브러리 매칭만큼 신뢰성을 달성하지는 못합니다. 화합물 예측은 일반적으로 두 단계로 이루어집니다: 분자 공식 예측구조 명확화.

분자 공식 예측에서는 잠재적인 후보 공식 목록을 생성하고 순위를 매깁니다. 한 가지 알고리즘인 Sirius는 이성체 패턴 모델링과 MS/MS 스펙트럼에서 확률적 분해 트리 구조를 결합하여 모든 후보자를 점수화하고 MS1 및 MS/MS 증거 모두에 가장 일치하는 분자 공식을 선택합니다. Sirius는 해석 가능한 결과를 생성하지만 속도와 복잡성에서 어려움이 있습니다. 이러한 제한점을 해결하기 위해 MIST-CF, FIDDLE과 같은 딥러닝 기반 방법들이 대안으로 등장했습니다. 이 데이터 주도 모델들은 복잡한 스펙트럼 패턴을 포착하여 성능과 합리적인 정확성을 향상시켰지만, 일반적으로 큰 학습 데이터셋이 필요하며 예측 과정에서 불투명할 수 있습니다.

각 공식 후보에 대해 구조 예측은 두 가지 전략으로 수행될 수 있습니다: 데이터베이스 검색 또는 de novo 생성. CSI:FingerID는 SIRIUS가 생성한 분해 트리 기반으로 분자 구조 지문을 예측하고 알려진 화합물의 구조 데이터베이스와 비교하여 유사성을 계산하는 방법을 사용합니다. 당연히 이 방법은 알려진 분자가 한계이며 새로운 구조를 놓칠 수 있습니다. 실제 메타볼롬스 실험에서 많은 스펙트럼이 현재 존재하지 않는 알려지지 않은 화합물로부터 오는 것으로 추정되기 때문에 이는 중대한 제약입니다. de novo 구조 생성 방법에는 MADGEN, MSNovelist, DiffMS 등이 포함됩니다. 이러한 de novo 예측 접근법은 특히 구조적 이소체를 구분하는 데 있어 높은 복잡성을 극복해야 하는 어려움이 있습니다. 고해상도 질량 분석법에서도 여러 공식 후보가 여전히 구별되지 않을 수 있으며, 이는 이소바르 또는 이소체 화합물을 식별하려고 할 때 더욱 복잡해집니다.

이러한 본질적인 기술적 도전 외에도 현재 모델 평가 방법론은 실용성에 대한 의문을 제기합니다. 첫째, 많은 벤치마크 데이터셋에는 규모와 커버리지 측면에서 문제가 있습니다. 예를 들어 널리 사용되는 Global Natural Products Social Molecular Networking (GNPS) 데이터베이스는 알려진 자연물 중 약 2.5%에 대한 스펙트럼을 포함하고 있으며, 이러한 데이터셋으로 훈련 및 평가된 모델은 더 광범위한 화학 우주를 대표하지 못할 수 있습니다. 둘째로, 널리 사용되는 평가 패러다임 중 하나는 엄격한 구조 유사성 분리를 사용하는 것입니다. 여기서 테스트 세트의 분자는 의도적으로 학습 세트와 구조적으로 다르게 선택됩니다. 이 접근법은 모델의 일반화 능력을 철저히 시험하지만 실용적 적용 가능성에 비해 이를 과대평가합니다. 실제 메타볼롬스 연구에서는 특정 알려진 가족 내에서 대사물질을 식별하는 데 초점을 맞추며 구조적 유사성이 예상됩니다. 현재의 넓은 일반화에 대한 집중은 이러한 일반적인 사용 사례를 반영하지 않습니다.

이 학술 벤치마킹과 실용적 적용 사이의 간극을 메우기 위해, 우리는 대규모 및 포괄적인 데이터셋에서 최신 계산 방법의 성능을 평가했습니다. 구체적으로, National Institute of Standards and Technology (NIST) 23 트랜드 스펙트럼 라이브러리와 Mass Bank of North America (MoNA)의 트랜드 질량 분석 스펙트럼을 사용하여 체계적인 평가를 수행했습니다. 이는 양질의 정제된 스펙트럼과 다양한 커뮤니티 기여 데이터를 나타냅니다. 우리는 먼저 분자 공식을 예측하고 그 후 각 제안된 공식에 대한 분자 구조를 예측하는 두 단계 파이프라인을 구현했습니다. 우리는 구조 유사성 분리 대신 무작위 데이터 분할을 채택하여 실제 메타볼롬스 시나리오를 반영했습니다. 또한, adduct 유형별 분석을 수행하여 다양한 adduct에 대한 성능 이질성을 드러내고 통계가 가려놓은 실용적 통찰력을 제공했습니다.

우리의 평가는 계산적인 화합물 예측이 주요 adduct 유형에 대해 실제로 유용한 수준의 정확도를 달성했다는 것을 보여주었습니다. [M+H]$`^+`$에 대한 훈련된 모델은 공식 예측 정확도가 86% 이상이고 구조 예측 정확도가 67% 이상을 달성했습니다. 그러나 덜 일반적인 adduct 유형인 [M+H-2H$`_2`$O]$`^+`$ 및 [M-H+2Na]$`^+`$는 심각한 성능 저하를 보였으며, 이는 단순 데이터 확장 이상의 아키텍처 혁신이 필요한 근본적인 도전을 나타냅니다. ground truth 공식이 제공되는 오라클 조건과 공식 예측이 포함된 실제 파이프라인에서 구조 생성을 평가함으로써 총 예측 오류를 각 단계의 기여도로 분해할 수 있었습니다. 우리는 공식 예측에서 발생한 오류가 구조 생성에 매우 제한적으로 전파됨을 발견했습니다. 이러한 결과는 미래 연구 방향을 우선순위 지정하고 이러한 방법을 실제 세계 메타볼롬스 응용 프로그램에 배포하는 데 있어 최선의 관행을 알려주는 기초를 제공합니다.

실험 섹션

데이터셋

NIST 23 스펙트럼 라이브러리:

분야에서 골드 표준으로 간주되는 상업적, 고품질 스펙트럼 라이브러리입니다. 정밀한 품질 관리를 거친 세심하게 정제된 스펙트럼을 포함하여 제어 조건 하에서 예측 정확도를 평가하는 이상적인 벤치마크 데이터셋입니다. 우리는 그 MS/MS 스펙트럼을 다음과 같은 여섯 가지 기준에 따라 필터링했습니다:

  1. 이온화 극성: 양극.
  2. 분해 유형: HCD.
  3. 전하 상태: 단일 전하 전구 이온만 (전하 = 1).
  4. 원소: H, C, N, O, P, S, F 만(대부분의 생물학적으로 관련된 대사물질을 포함).
  5. adduct 유형: [M+H]$`^+`$, [M+Na]$`^+`$, [M+K]$`^+`$, [M+H-H$`_2`$O]$`^+`$, [M+H-2H$`_2`$O]$`^+`$, [M-H+2Na]$`^+`$.
  6. 충돌 에너지: 분자-adduct 쌍당 최대 3개 스펙트럼, 중앙값 충돌 에너지를 선택하여 중복을 줄임.

MoNA (North America의 MassBank:)

메타볼롬스 커뮤니티가 기여한 오픈 액세스 질량 분석 데이터베이스입니다. NIST와 달리 MoNA는 실제 세계 스펙트럼 데이터의 다양성과 이질성을 나타냅니다. 다양한 실험 프로토콜과 장비를 갖춘 여러 연구실의 기여를 포함합니다. 우리는 LC-MS/MS 양극 모드 스펙트럼을 다운로드하고 다음과 같은 기준에 따라 필터링했습니다:

  1. 원소: H, C, N, O, P, S, F 만.
  2. adduct 유형: NIST 23과 동일.

데이터셋 통계:

표 1은 필터링 후의 결과 데이터셋의 통계를 요약하고 Table 2는 각 데이터셋에서 adduct 유형의 스펙트럼 분포를 보여줍니다. 후자는 특정 adduct가 지배하는 실제 세계 시나리오를 반영하는 뚜렷한 불균형을 드러냅니다. 특히, [M+H]$`^+`$는 두 데이터셋 모두에서 스펙트럼의 대부분을 차지하며, NIST에서는 약 56.1%, MoNA에서는 78.6%를 차지합니다. 반면에 [M+H-2H$`_2`$O]$`^+`$ 및 [M-H+2Na]$`^+`$는 데이터의 극소 부분을 차지하며 때때로 스펙트럼이 30개 미만인 경우도 있습니다.

Metric NIST MoNA
# Spectra 86,435 76,196
# Unique Molecules 19,511 11,894
# Unique Formulas 9,630 6,244
MW Range (Da) 82.11–1,704.01 45.08–2,680.17

두 데이터셋의 필터링 후 통계치. (MW = 분자량)

화합물 예측을 위한 계산 방법

화학 공식 예측

SIRIUS:

현재까지 가장 선도적인 분해 트리 기반 공식 예측입니다. 이는 먼저 관찰된 전구 질량 내에서 지정된 질량 허용 오차에 일치하는 후보 화학 공식을 열거합니다. 각 공식 후보에 대해 SIRIUS는 MS/MS 피크에 잠재적인 하위 공식을 할당하고, 전구에서 관찰되는 분해물로의 가능한 중성 손실 경로를 나타내는 분해 트리를 구성합니다. 분해 트리는 화학 지식에 기반한 조각 가능성과 MS/MS 스펙트럼 설명의 품질을 모두 고려하는 최대 사후 확률(MAP) 추정 프레임워크를 사용하여 점수화됩니다. SIRIUS는 예상 분해 패턴, 일반적인 중성 손실 및 이성체 분포와 같은 도메인 지식으로 매개변수가 조정된 수작업 스코어링 함수를 사용합니다. 이 방법은 선택적으로 MS1 이성체 패턴 정보를 포함하여 공식 구별을 개선할 수 있지만, MIST-CF와의 공평한 비교를 위해 여기서는 MS/MS 기반 점수화 구성 요소에만 집중합니다. SIRIUS는 핸드 크래프트 매개변수를 사용하는 규칙 기반 방법이므로 훈련을 필요로하지 않습니다.

MIST-CF:

MS/MS 스펙트럼을 주어진 화학 공식 후보를 순위 지정하기 위한 신경망 기반 접근법입니다. 에너지 모델링 프레임워크와 Chemical Formula Transformer 아키텍처를 사용합니다. 특정 질량 허용 오차 내에서 MS/MS 조각 피크에 잠재적인 하위 공식을 할당하기 위해 후보 화학 공식과 해당 adduct 유형이 주어집니다. 이 하위 공식으로 표시된 피크는 사인OID 임베딩을 사용하여 인코딩되고 트랜스포머 네트워크를 통해 처리되며, 후보 공식과 관찰되는 분해 패턴 사이의 호환성을 점수화하는 데 학습합니다. 분해 트리 기반 방법과 달리 MIST-CF는 명시적인 트리 구축 없이 데이터에서 직접 점수화 함수를 학습하여 대규모 후보 집합을 효율적으로 평가할 수 있습니다. 우리의 실험에서는 NPLIB1 데이터셋에 대해 사전 훈련된 모델을 사용했으며, 추가로 NIST와 MoNA 데이터셋 각각에 대해 처음부터 두 개의 별도 모델을 학습했습니다.

분자 구조 생성

MSNovelist:

분자 지문 예측에 기반한 SMILES 문자열 표현으로 분자를 생성하는 LSTM 기반 시퀀스-투-시퀀스 모델입니다. 이는 두 단계로 작동합니다. 첫 번째 단계에서는 지문 예측 모델이 MS/MS 스펙트럼에서 확률적 분자 지문을 추론하고, 두 번째 단계에서는 LSTM 디코더가 예측된 지문에 의해 안내되어 SMILES 문자를 자동회귀적으로 생성합니다. 우리의 실험에서는 SIRIUS 소프트웨어의 MSNovelist 구현을 사용했습니다. 기본 RNN 모델은 HMDB, COCONUT 및 DSSTox 데이터베이스에서 1,232,184 개의 화학 구조를 학습했습니다.

DiffMS:

불연속 그래프 확산에 기반한 조건부 분자 생성 모델입니다. 이 방법은 스펙트럼 인코더와 그래프 디코더라는 두 주요 구성 요소로 구성됩니다. 인코더는 MIST-CF와 동일한 Formula Transformer 아키텍처를 사용하여 MS/MS 스펙트럼에서 구조적 정보를 추출하고, 분해 패턴을 포착하는 고정 차원 임베딩을 생성합니다. 디코더는 분자 그래프에 대한 이산 확산 과정을 구현하며, 주어진 스펙트럼 임베딩과 알려진 화학 공식을 조건으로 하여 랜덤 초기화에서 시작하여 결합 유형을 반복적으로 노이즈를 제거합니다.

우리의 실험에서는 저자에 의해 발행된 사전 훈련된 DiffMS 모델을 사용했습니다. NPLIB1 데이터로 학습되었습니다. 도메인 적응을 위해 NIST와 MoNA 데이터셋 각각에 대해 사전 훈련된 디코더 가중치를 초기화한 두 개의 별도 모델을 학습했습니다. 우리는 완전 예측 파이프라인에서 다양한 오류 원인을 분리하기 위해 DiffMS를 두 가지 실험 설정에서 평가했습니다:

  1. DiffMS (Oracle): 이 구성에서는 디코더에 정확한 화학 공식을 제공합니다. 이것은 구조 예측 성능의 상한선을 나타내며, 올바른 공식이 주어졌을 때 분자 그래프를 올바르게 생성하는 디코더의 능력을 분리합니다. 이 설정에서 발생하는 오류는 구조 생성 모델 자체에 대한 제약 또는 MS/MS 데이터에 내재된 불명확성(예: 입체이소체나 유사한 분해 패턴을 가진 구조적 이소체를 구별할 수 없음) 때문입니다.

  2. DiffMS (MIST-CF): 이 구성에서는 MIST-CF가 먼저 MS/MS 스펙트럼에서 후보 화학 공식을 예측하고, 상위 5개의 순위 지정된 공식 예측이 각각 DiffMS 디코더에 입력되어 구조 생성을 수행하는 완전한 end-to-end 파이프라인이 구축되었습니다. 다섯 가지 공식 중 하나를 사용하여


📊 논문 시각자료 (Figures)

Figure 1



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키