광학 DNA: OCR 기반 유전체 모델링 혁신
초록
본 논문은 DNA 서열을 1차원 토큰이 아닌 2차원 이미지 문서로 변환하고, OCR 기술을 활용한 비전‑언어 모델로 학습함으로써 기존 대형 언어 모델의 비효율성을 극복한다. 시각 토큰 압축, 레이아웃 인식, 영역 기반 프롬프트 학습을 통해 450 kb까지 20배 적은 토큰으로 높은 정확도를 달성하고, 파라미터는 985배 적게 사용한다.
상세 분석
OpticalDNA는 유전체 데이터를 “문서”로 재구성한다는 근본적인 패러다임 전환을 제안한다. 기존의 LLM 기반 유전체 모델은 A/T/C/G 네 글자를 순차적으로 토큰화해 1차원 시퀀스로 처리한다. 그러나 유전체 기능은 희소하고 불연속적인 영역에 집중되어 있어, 전체 서열을 일일이 스캔하는 방식은 계산량을 낭비하고 장기 의존성을 포착하기 어렵다. 이를 해결하기 위해 저자들은 DNA 서열을 고정 해상도 캔버스에 모노스페이스 폰트로 렌더링하고, 페이지당 약 1,800 염기를 포함하는 다중 페이지 이미지 문서를 만든다. 각 염기마다 픽셀 수준의 바운딩 박스를 주석으로 달아, 1차원 좌표와 2차원 이미지 영역을 일대일 매핑한다.
시각 인코더는 SAM‑Conv‑CLIP‑L 백본을 사용해 16×16 패치 단위로 특징을 추출하고, 학습 가능한 프로젝터와 다페이지 융합 모듈을 통해 페이지별 토큰 시퀀스를 하나의 문서 토큰 시퀀스로 압축한다. 이 과정에서 “시각 토큰”은 원본 염기 정보를 재구성 가능하도록 설계돼, 기존 k‑mer 토큰 대비 20배 적은 토큰 수로도 높은 재현성을 유지한다.
프리트레이닝 단계에서는 6가지 OCR‑스타일 프롬프트(읽기, 영역 정렬, ROI 기반 전사, 마스크 완성, 서열 검색, 염색체 분류)를 정의하고, 각 작업을 대화형 형식(<|User|>, <|Assistant|>)으로 제공한다. 예를 들어 T2는 텍스트와 해당 바운딩 박스를 동시에 출력하도록 요구해, 모델이 “어디에 무엇이 있는가”를 동시에 학습하게 만든다. 이러한 프롬프트 기반 학습은 영역‑중심의 이해를 촉진하고, downstream 작업에서는 가벼운 MLP 헤드만 추가하면 된다.
실험 결과, OpticalDNA는 eQTL 예측, 프로모터 검출, 변이 효과 예측 등 다양한 벤치마크에서 최신 1D 기반 모델을 크게 앞선다. 특히 450 kb 길이의 서열을 처리할 때, 20배 적은 유효 토큰으로도 최고 성능을 기록했으며, 전체 파라미터는 985배 적은 모델에 비해 256 k개의 학습 가능한 파라미터만으로도 경쟁력을 유지한다. 이는 시각 토큰 압축과 영역‑조건 학습이 장기 컨텍스트를 효율적으로 다룰 수 있음을 입증한다.
전반적으로 OpticalDNA는 유전체 데이터를 시각적 문서로 변환하고 OCR 기술을 차용함으로써, 희소하고 구조적인 유전체 정보를 효율적으로 인코딩한다는 새로운 길을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기