DNA 청크러 가변 길이 토큰화로 DNA 언어 모델 성능 혁신

DNA 청크러 가변 길이 토큰화로 DNA 언어 모델 성능 혁신
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DNA 청크러는 DNA 서열을 고정‑k‑mer나 BPE 대신, 학습 가능한 동적 세그멘테이션 모듈로 가변 길이 청크로 변환한다. 양방향 Mamba 인코더가 토큰 임베딩을 생성하고 코사인 유사도 기반 경계 판단으로 청크를 형성한다. 마스크 보호 메커니즘을 통해

상세 분석

DNA 청크러는 DNA 서열 토큰화를 근본적으로 재설계한 모델이다. 기존 연구가 단일 뉴클레오타이드, 고정‑k‑mer, 혹은 BPE와 같은 정적 토크나이저에 의존해 왔지만, 이러한 방식은 삽입·삭제·시프트에 매우 취약하고, 기능적 신호와 무관한 반복 서열을 과도하게 세분화한다는 한계가 있다. 청크러는 두 단계의 계층적 인코더와 디코더를 도입해, 먼저 경량 양방향 Mamba 레이어로 베이스‑페어 수준의 임베딩을 만든 뒤, 코사인 유사도 기반 라우팅 네트워크가 인접 위치 간 경계 확률을 예측한다. 확률값이 사전 정의된 임계값을 초과하면 경계가 형성되고, 경계에 따라 연속된 임베딩을 평균(pool)하거나 합쳐서 하나의 청크 벡터로 압축한다. 이 과정이 두 번 반복되면서 첫 번째 단계에서는 비교적 짧은 청크(수십 bp), 두 번째 단계에서는 더 긴 청크(수백 bp)로 압축된다.

핵심 설계 중 하나는 마스크 보호 메커니즘이다. MLM 사전학습에서


댓글 및 학술 토론

Loading comments...

의견 남기기