바이오브릿지: 단백질과 언어를 잇는 지속적 사전학습 프레임워크
초록
바이오브릿지는 도메인‑증분 지속적 사전학습(DICP)과 PLM‑Projector를 활용해 대형 언어 모델(LLM)에 단백질 지식을 주입하고, 단백질‑텍스트 교차 정렬을 통해 다중 과제에 대한 일관된 성능을 달성한다. 실험 결과, 주요 단백질 벤치마크에서 기존 단백질 언어 모델(PLM) 수준의 정확도를 유지하면서 일반 언어 이해 과제(MMLU, RACE)에서도 경쟁력을 보인다.
상세 분석
본 논문은 현재 PLM이 단일 과제에 최적화되어 범용성·다중 과제 학습이 제한적인 점과, 일반 LLM이 생물학적 도메인 지식이 부족해 단백질 서열을 직접 해석하지 못한다는 문제점을 정확히 짚어낸다. 이를 해결하기 위해 제안된 BioBridge는 세 가지 핵심 모듈로 구성된다. 첫 번째는 Domain‑Incremental Continual Pre‑training(DICP)이다. 기존의 지속적 사전학습이 기존 언어 능력을 망가뜨리는 재앙적 망각(catastrophic forgetting) 문제를 완화하기 위해, 일반 텍스트와 생물학 전용 코퍼스를 혼합하고, 고품질 수학·코드·과학 문제를 포함한 Mixture of Thoughts(MoT) 데이터를 소량 삽입해 일반 언어 능력을 보존한다. 두 번째는 PLM‑Projector 모듈이다. 여기서는 최신 단백질 인코더인 ESM2를 고정하고, Q‑Former를 이용해 다수의 쿼리 토큰을 추출함으로써 단백질 서열을 고정 차원의 임베딩으로 압축한다. 이후 이 임베딩을 선형 매핑해 LLM의 텍스트 임베딩 공간에 정렬한다. 이때 교차‑모달 대조학습(loss = Lₚ₂ₜ + Lₜ₂ₚ)과 매칭 예측 손실(L_PTM)을 동시에 최적화해 양쪽 모달리티 간 의미적 일치를 강화한다. 세 번째는 End‑to‑End Fine‑tuning 단계이다. 정렬된 단백질 임베딩을 텍스트 토큰 앞에 삽입해 LLM이 직접 단백질 정보를 attend하도록 하며, 별도 구조 변경 없이 순수 텍스트‑생성 파이프라인을 유지한다. 이 설계는 단백질‑텍스트 연계가 자연스럽게 LLM의 생성 능력에 스며들게 하여, 별도 다운스트림 데이터 없이도 다양한 단백질 과제(예: EC 분류, 서브셀룰러 로컬라이제이션, BindingDB)에서 높은 정확도(0.74‑0.76)와 F1·Spearman 점수를 기록한다. 실험에서는 Qwen2.5‑7B‑Instruct를 베이스로 사용했으며, 24개의 A800 GPU를 활용해 1 epoch의 DICP와 30 epoch의 정렬 학습을 수행했다. 결과적으로 BioBridge는 기존 PLM(ESM2, ProtT5 등)과 비슷하거나 약간 우수한 성능을 보이며, 일반 LLM이 수행하는 MMLU·RACE와 같은 언어 이해 벤치마크에서도 경쟁력을 유지한다. 전체적으로 도메인 지식 주입과 교차‑모달 정렬을 효율적으로 결합한 설계가, 단백질‑언어 통합 모델의 새로운 패러다임을 제시한다는 점에서 의의가 크다.
댓글 및 학술 토론
Loading comments...
의견 남기기