거울 이미지 펩타이드 데이터 저장을 위한 결합 절단 예측 및 서열 최적화
초록
본 연구는 D-아미노산으로 구성된 거울 이미지 펩타이드를 데이터 저장 매체로 활용하기 위해, 펩타이드 결합 절단 가능성을 예측하는 딥러닝 모델 DBond를 개발하고, 절단 비율이 높은 서열을 선택함으로써 디노보 서열 분석 정확도를 간접적으로 향상시키는 방법을 제시한다. 513종의 펩타이드와 477 669개의 스펙트럼으로 구성된 MiPD513 데이터셋을 구축하고, 자동 라벨링 알고리즘(PBCLA)으로 1,247만 개의 결합 절단 라벨을 생성하였다. 다중 라벨과 단일 라벨 두 가지 예측 전략을 비교한 결과, 단일 라벨 방식이 전반적인 성능에서 우수함을 확인하였다.
상세 분석
본 논문은 거울 이미지 펩타이드(전부 D-아미노산) 기반 데이터 저장의 핵심 과제인 디노보 서열 분석의 정확성을, 서열 설계 단계에서 사전 예측 모델을 활용해 간접적으로 개선한다는 새로운 패러다임을 제시한다. 먼저 저자들은 20가지 일반 아미노산 외에 D‑Dap, D‑Orn, D‑X, D‑Cha 등 특수 아미노산을 포함한 513개의 펩타이드와 477 669개의 tandem MS 스펙트럼을 수집해 MiPD513 데이터셋을 구축하였다. 이 데이터는 기존 공개 데이터가 거의 없는 거울 이미지 펩타이드 분야에서 최초 규모이며, 모델 학습에 필요한 풍부한 라벨을 제공한다.
라벨링 단계에서는 Peptide Bond Cleavage Labelling Algorithm(PBCLA)를 설계해, b, y, b‑H₂O, b‑NH₃, y‑H₂O, y‑NH₃ 등 6가지 이온 타입을 20 ppm 이내의 m/z 오차 허용 범위와 전하 상태 1·2를 고려해 매칭한다. 매칭된 이온 정보를 기반으로 각 펩타이드 결합이 절단되었는지를 0/1 라벨로 정의함으로써, 12 473 724개의 라벨링 인스턴스를 자동 생성하였다. 이는 303개의 서로 다른 결합 유형을 포괄한다.
예측 모델 DBond은 네 가지 특징 그룹을 입력으로 사용한다. (1) State features: 전구 이온 전하, m/z, 강도 등 이온화 조건; (2) Bond features: 결합 위치 정보; (3) Env features: 충돌 에너지, 스캔 번호 등 실험 환경; (4) Sequence features: D‑아미노산 서열 자체. 각각의 그룹에 맞는 전처리와 임베딩을 수행한 뒤, 멀티‑헤드 셀프‑어텐션(MSA) 기반 트랜스포머 레이어를 적용해 전역적인 상호작용을 학습한다. 최종 출력은 각 결합에 대한 절단 확률이며, 교차 엔트로피 손실을 최소화하도록 학습한다.
예측 전략은 두 가지로 나뉜다. 다중 라벨 방식은 하나의 펩타이드에 대해 모든 결합을 동시에 예측하고, 단일 라벨 방식은 각 결합을 독립적인 이진 분류 문제로 풀어 순차적으로 예측한다. 실험 결과, 단일 라벨 전략이 다중 라벨보다 정확도(F1), 정밀도, 재현율 모두에서 우수했으며, 특히 긴 서열(>30 아미노산)에서 절단 패턴을 더 정확히 포착한다는 점이 강조된다.
이러한 예측 결과를 활용해, 저자들은 “절단 비율 = (절단된 결합 수)/(전체 결합 수)”를 서열 설계 목표 함수로 설정하고, 가능한 매핑 규칙 중 절단 비율이 가장 높은 규칙을 선택한다. 즉, 원시 데이터(예: 이진 코드)를 D‑아미노산 서열로 변환할 때, DBond이 예측한 높은 절단 비율을 갖는 서열을 우선적으로 채택함으로써, 실제 디노보 서열 분석 단계에서 스펙트럼 품질이 향상되고 오류율이 감소한다는 논리적 연결고리를 제공한다.
전체적으로 본 연구는 (1) 대규모 거울 이미지 펩타이드 MS 데이터셋 구축, (2) 자동 라벨링 파이프라인 개발, (3) 특화된 딥러닝 모델 및 예측 전략 제시, (4) 서열 설계와 데이터 저장 효율성 간의 연계 메커니즘 규명이라는 네 가지 핵심 기여를 통해, 생물학적 데이터 저장 분야에서 실용적인 성능 향상을 기대할 수 있는 중요한 발판을 마련한다.
댓글 및 학술 토론
Loading comments...
의견 남기기