Gengram 유전체 기반 모델을 위한 조건부 기억 모듈
초록
Gengram은 k‑mer(1~6) 해시 테이블을 이용해 다중 염기 모티프를 명시적으로 저장·검색하는 경량 기억 모듈이다. 기존 트랜스포머 기반 유전체 기초 모델에 삽입하면 연산량은 거의 증가하지 않으면서도 기능성 유전체 예측에서 최대 14%의 성능 향상을 달성한다. 모듈은 층‑별 게이트와 윈도우 기반 집계를 통해 멀티스케일 모티프 정보를 효율적으로 통합하고, 학습 과정에서 역보완 대칭 및 프로모터·5′UTR와 같은 생물학적 패턴을 자동으로 학습한다.
상세 분석
Gengram은 유전체 서열의 기본 알파벳(A,T,C,G,N)의 작은 크기를 활용해 충돌 없는 해시 함수를 설계하고, 길이 1부터 6까지의 모든 가능한 k‑mer을 키로 하는 정적 메모리 테이블을 구축한다. 입력 토큰이 들어올 때마다 현재 위치 이전의 고정 크기 윈도우(W)를 슬라이딩하며 모든 연속 k‑mer을 열거하고, 중복을 제거한 뒤 해시 테이블에서 해당 임베딩을 조회한다. 각 k‑mer 길이별로 평균 풀링을 수행해 고정 차원의 요약 벡터 m(N)ₜ를 얻고, 이를 concat 후 두 개의 선형 변환을 거쳐 게이트(zₜ)와 메모리 신호(uₜ)를 만든다. RMSNorm으로 정규화된 백본 표현 Xₜ와 zₜ 사이의 스케일된 내적을 sigmoid으로 변환해 게이트 스칼라 ũₜ를 구하고, 이를 uₜ에 곱해 SiLU 활성화 후 잔차 연결로 백본에 합산한다. 이 설계는 (1) 메모리 조회 비용이 O(n·|N|·W)이며 W와 |N|을 고정하면 선형 시간, (2) 메모리 파라미터가 약 60M에 불과해 기존 모델 파라미터 대비 부담이 적고, (3) 게이트 메커니즘을 통해 모델이 필요할 때만 모티프 정보를 활용하도록 하여 학습 안정성을 높인다.
실험에서는 1.2B 파라미터 모델에 Gengram을 단일 층 혹은 다층에 삽입했을 때 검증 손실이 크게 감소함을 확인했다. 특히 얕은 층(3)에서는 로컬 패턴을, 중간 층(6)에서는 추상화된 특징을, 깊은 층(10)에서는 고차원 기능적 관계를 포착하도록 설계했으며, {3,6,10} 조합이 다섯 개 주요 다운스트림 카테고리(구조 이해, 유전자 조절, 후생유전학, 변이 효과, 임상 영향)에서 평균적으로 가장 높은 AUROC를 기록했다. 다양한 트랜스포머 변형(MHA, GQA, MLA)과 MoE 구조에서도 성능 향상이 일관되었으며, 파라미터와 데이터 양을 절반 수준으로 줄여도 기존 최첨단 모델과 동등하거나 우수한 결과를 얻었다.
생물학적 해석에서는 메모리 임베딩이 역보완 대칭을 보이며, 프로모터와 5′UTR 영역에서 높은 게이트 활성화를 나타냈다. 이는 Gengram이 단순히 빈도 기반 패턴을 저장하는 것이 아니라, 컨텍스트에 따라 동적으로 중요한 모티프를 선택하고, 이를 통해 모델의 메커니즘적 해석 가능성을 크게 향상시킨다. 또한, 메모리 테이블이 고정된 키를 사용하므로 새로운 종이나 변이 서열에 대해서도 빠르게 확장 가능하고, 사전 학습된 모델에 플러그인 형태로 적용할 수 있다.
전반적으로 Gengram은 (i) 멀티스케일 모티프를 명시적으로 저장·검색하는 새로운 모델 원시(primitives)를 제시하고, (ii) 계산 효율성을 유지하면서도 기능성 유전체 예측에서 실질적인 성능 향상을 달성하며, (iii) 학습된 메모리와 게이트가 생물학적 의미와 일치함을 보여 해석 가능성을 제공한다는 점에서 차세대 유전체 기초 모델 개발에 중요한 방향성을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기