인플루엔자 항원 예측을 위한 구조 인식 DNA 언어 모델 AntigenLM
초록
AntigenLM은 인플루엔자 전체 유전체를 기능 단위별로 정렬·연결한 뒤 사전학습한 DNA 기반 생성 언어 모델이다. 전체 8개 세그먼트를 보존한 구조‑인식 사전학습을 통해 진화적 제약을 학습하고, 과거 HA·NA 서열을 입력으로 미래 항원 서열을 예측한다. 주요 평가에서 기존 계통수 기반 방법과 site‑wise 진화 모델(beth‑1)을 능가했으며, 서브타입 분류에서도 거의 완벽한 정확도를 보였다. 세그먼트 파편화·섞어보기 등 ablation 실험을 통해 기능 단위 보존이 성능에 핵심임을 입증하였다.
상세 분석
AntigenLM은 인플루엔자 A 바이러스의 13 kb 전체 유전체를 8개의 기능적 세그먼트(PB2, PB1, PA, HA, NP, NA, MP, NS) 순서대로 연결한 후, 토큰화 없이 직접 뉴클레오티드 시퀀스를 입력으로 사용한다. 이때 사전학습 단계에서 “전체‑게놈” 접근법을 채택해, 각 세그먼트 간 장거리 상호작용과 보존된 순서를 학습하도록 설계하였다. 모델은 GPT‑2와 동일한 디코더‑전용 트랜스포머 구조를 갖추되, 6개의 레이어, 384 차원, 6개의 헤드로 경량화하면서도 13 000 위치까지의 포지션 임베딩을 지원한다. 이렇게 함으로써 메모리 효율성을 유지하면서도 바이러스 전체 길이의 컨텍스트를 포착한다.
두 개의 헤드를 도입한 멀티태스크 설계가 핵심이다. LM 헤드는 다음 뉴클레오티드 토큰을 예측하는 전형적인 인과 언어 모델 손실을 최소화하고, 이는 진화적 변이를 시계열적으로 학습하게 만든다. 분류 헤드는 HA·NA 블록에 삽입된 sentinel 토큰(
파인튜닝 단계에서는 과거 3개월간의 HA·NA 서열을 “
실험에서는 2022년 이전에 수집된 54 512개의 완전 유전체를 사전학습에 사용했으며, H3N2와 H1N1을 주요 서브타입으로, 10개의 소규모 서브타입을 보조적으로 포함했다. 지역 일반화 평가에서는 유럽·아시아 데이터를 학습하고, 일본(인‑도메인)과 미국(아웃‑오브‑도메인)에서의 예측 정확도를 측정했다. AntigenLM은 기존 phylogenetic 기반 WHO 추천, LBI, 그리고 site‑wise 모델(beth‑1)에 비해 평균 아미노산 불일치율을 15 % 이상 감소시켰으며, 서브타입 분류에서는 99.8 % 이상의 정확도를 기록했다.
다섯 가지 사전학습 변형(ablation) 실험을 통해 구조적 보존의 중요성을 검증했다. “Segment‑wise”(각 세그먼트를 별도 입력)와 “Incomplete‑genome”(무작위 윈도우 추출) 모델은 전체‑게놈 모델에 비해 예측 성능이 10‑20 % 낮았다. “Antigen‑only”(HA·NA만) 모델은 특히 서브타입 분류에서 급격히 성능이 떨어졌으며, 단백질‑레벨 입력은 뉴클레오티드‑레벨 입력보다 전반적으로 열등했다. 이러한 결과는 바이러스 진화가 코딩·비코딩 영역, 세그먼트 간 상호작용 등 복합적인 제약을 받으며, 이를 무시하면 모델이 중요한 신호를 놓친다는 것을 시사한다.
또한 모델 복잡도와 효율성 사이의 균형을 강조한다. 6‑layer, 384‑dimensional 설계는 수십만 개의 유전체를 수일 내에 학습할 수 있게 하면서도, 13 kb 전체 길이를 한 번에 처리한다. 이는 기존 대규모 DNA 트랜스포머가 수백 메가베이스까지 확장하는 데 비해 훨씬 가벼운 설정이며, 실제 공중보건 감시 파이프라인에 적용 가능함을 보여준다.
전반적으로 AntigenLM은 (1) 기능 단위 보존을 통한 구조‑인식 사전학습, (2) 시계열 기반 생성 예측, (3) 멀티태스크 학습을 통한 표현 강화라는 세 축을 결합해, 인플루엔자 항원 진화 예측에서 새로운 기준을 제시한다. 향후 다른 RNA 바이러스(예: 코로나바이러스)나 더 복잡한 다중 세그먼트 바이러스에도 동일한 프레임워크를 적용할 수 있을 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기