피드백 확산과 듀얼 스트림 트랜스포머로 BBB 침투 펩타이드 예측 혁신
초록
본 논문은 혈뇌장벽(BBB) 침투 펩타이드(BBBP) 예측을 위해, 피드백 확산 모델(FB‑Diffusion)로 고품질 가짜 BBBP를 생성하고, 서열 특징과 물리화학적 특성을 동시에 학습하는 듀얼‑스트림 트랜스포머 분류기를 결합한 DREAM‑B3P 프레임워크를 제안한다. 데이터 불균형을 완화하고, AUC·ACC·MCC 등 주요 지표에서 기존 최고 성능을 4.3%·17.8%·14.9% 향상시켰다.
상세 분석
DREAM‑B3P는 두 가지 핵심 기술을 통합한다. 첫째, FB‑Diffusion은 기존 확산 모델에 BLAST 기반 피드백 분석기를 연결해, 생성된 서열이 실제 BBBP와 얼마나 유사한지를 점수화한다. 일정 임계값 이상을 받은 샘플만을 pseudo‑BBBPs로 채택하고, 이를 원본 데이터에 순환적으로 추가함으로써 모델이 점진적으로 더 정교한 분포를 학습하도록 설계되었다. 이는 샘플 수가 428개에 불과한 소규모 데이터셋에서 과소적합을 방지하고, 다양성과 품질을 동시에 확보한다는 점에서 의미가 크다.
둘째, 분류기 자체는 두 개의 병렬 스트림으로 구성된다. 서열 스트림은 50‑aa 길이의 원-핫 인코딩을 입력으로 받아, 다중 헤드 셀프‑어텐션을 통해 잔기 수준 및 모티프 수준의 패턴을 추출한다. 물리화학 스트림은 수소표면적, 전하, 회전 결합 수, 편극성 등 4가지 정량적 특성을 정규화 후 완전 연결층에 투입한다. 두 스트림의 임베딩을 concat 후 최종 예측 레이어에 전달함으로써, 서열 정보와 구조·물리적 특성 사이의 상호보완성을 극대화한다.
실험에서는 (1) 기존 Deep‑B3P, B3Pred, BBPpredict, Augur와 비교해 AUC 0.951, ACC 0.886, MCC 0.773을 기록했으며, (2) 서열 전용, 물리화학 전용 모델 대비 5~7%p의 성능 상승을 확인했다. 특히 FB‑Diffusion으로 6000개의 pseudo‑BBBPs를 추가했을 때 가장 높은 지표를 얻었으며, 동일 수량을 FB‑GAN으로 생성했을 때보다 일관되게 낮은 성능을 보였다. 이는 피드백 메커니즘이 생성 품질을 실질적으로 향상시킨다는 증거다.
한계점으로는 (i) 피드백 분석기로 BLAST만 사용해 서열 유사도에 편중될 가능성, (ii) 물리화학 특성 선택이 제한적이며, (iii) 50‑aa 이하의 짧은 펩타이드에만 적용 가능하다는 점을 들 수 있다. 향후에는 다중 피드백(예: 구조 예측, 기능 도메인)과 더 풍부한 화학적 설명변수를 도입해 일반화 능력을 강화할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기