유전 구조 탐색을 위한 자동 신경망 설계

본 논문은 인간 게놈의 복잡한 구조를 사전에 알 수 없는 상황에서, 신경망 아키텍처 자체를 데이터에 맞게 자동으로 탐색·학습하는 새로운 검색 알고리즘을 제안한다. 순차적 하이퍼파라미터 최적화와 시각화 기반 의사결정 트리를 결합해 탐색 공간을 단계별로 축소하고, 최종적으로 AttentionNet과 PromoterNet이라는 두 가지 고성능 모델을 도출한다. TFBS 분류와 신규 ILSEP 회귀 과제에서 기존 DeepBind·DeepMotif 대비…

저자: Laura Deming, Sasha Targ, Nate Sauder

유전 구조 탐색을 위한 자동 신경망 설계
본 논문은 인간 게놈이라는 30억 염기쌍 규모의 복잡한 데이터에 대해, 기존에 인간의 직관이나 도메인 지식에 의존해 설계된 신경망 구조가 충분히 최적화되지 못한다는 점을 출발점으로 삼는다. 저자들은 ‘Genetic Architect’라는 새로운 아키텍처 탐색 프레임워크를 제안한다. 이 프레임워크는 (1) 표준 및 최신 딥러닝 블록(컨볼루션, residual, LSTM, attention 등)을 조합한 광범위한 설계 공간을 정의하고, (2) 하이퍼파라미터 최적화 알고리즘(예: 베이지안 최적화)으로 초기 후보 모델을 학습한 뒤, (3) 시각화 도구를 통해 최상위 모델들의 하이퍼파라미터 조합과 상호작용을 의사결정 트리 형태로 정리한다. 이후 가장 영향력 있는 파라미터를 고정하고, 남은 파라미터에 대해 다시 탐색을 수행하는 순차적 절차를 반복한다. 이 과정에서 탐색 공간이 점진적으로 축소되며, 서로 다른 서브스페이스(예: 컨볼루션‑중심 vs 재귀‑중심)로 분기되어 병렬 탐색이 가능해진다. 이러한 탐색 과정을 통해 두 가지 최종 아키텍처가 도출되었다. 첫 번째는 ‘AttentionNet’으로, 주로 전사인자 결합 부위(TFBS) 예측에 사용된다. 이 모델은 초기 컨볼루션 층과 residual block을 통해 로컬 모티프를 추출하고, 이후 완전 연결 층과 soft attention을 결합해 전역적인 시퀀스 정보를 강조한다. 두 번째는 ‘PromoterNet’으로, 프로모터 서열을 입력으로 하여 세포주별 유전자 발현량을 회귀 예측한다. PromoterNet은 초기 컨볼루션·residual 구조 뒤에 양방향 LSTM을 배치하고, attention 기반 차원 축소와 완전 연결 층을 통해 최종 출력에 연결한다. 실험은 두 가지 주요 과제로 구성된다. 첫 번째는 Alipanahi et al. (2015)와 Lanchantin et al. (2016)에서 제시한 108개의 TFBS 데이터셋을 이용한 이진 분류이다. AttentionNet은 평균 AUROC 0.933을 기록했으며, 이는 DeepBind(0.904)와 DeepMotif(0.927)를 모두 앞선 결과다. 특히 67.6%의 데이터셋에서 DeepMotif보다 우수했으며, attention mask를 시각화한 결과 알려진 전사인자 모티프와 높은 일치도를 보였다. 모티프 복원 실험에서는 JASPAR 데이터베이스와 비교해 42/57개의 모티프를 정확히 재현하였다. 두 번째 과제는 ‘ImmGen lineage‑specific expression prediction (ILSEP)’이라는 신규 회귀 벤치마크이다. 14,116개의 프로모터 서열(4,2000 one‑hot)과 243개의 세포주별 발현값을 사용해 10‑fold 교차 검증을 수행하였다. PromoterNet은 멀티태스크 설정에서 평균 Pearson r 0.587, 단일 태스크에서는 0.592를 달성했으며, 이는 DeepBind(0.506·0.502)와 DeepMotif(0.441·0.498)을 크게 앞선 수치다. 또한 attention 가중치를 분석한 결과, 고발현 유전자는 전사 시작점(TSS) 근처에 집중된 attention을 보였고, 발현 변이가 큰 유전자는 프로모터 전역에 걸쳐 attention이 분산되는 패턴을 나타냈다. 이는 기존 연구에서 TSS 근처가 핵심 조절 요소임을 뒷받침한다. 논문은 또한 탐색 과정에서 발견된 몇 가지 흥미로운 설계 원칙을 제시한다. 배치 정규화가 제거될 경우 ELU가 더 좋은 성능을 보였으며, 컨볼루션보다 완전 연결 층이 전역 정보를 처리하는 데 유리했다. LSTM과 attention을 결합했을 때 양방향 LSTM이 오히려 성능을 저하시켰다는 비직관적인 결과도 보고한다. 이러한 발견은 도메인 전문가가 사전에 알기 어려운 설계 선택을 데이터‑주도적으로 밝혀낸 사례라 할 수 있다. 한계점으로는 탐색 비용이 높고, 하이퍼파라미터 공간 정의가 여전히 연구자에게 의존한다는 점, 그리고 현재 실험이 인간·마우스 데이터에 국한되어 있어 다른 종이나 복합 오믹스 데이터에 대한 일반화 검증이 부족하다는 점을 언급한다. 그럼에도 불구하고, ‘Genetic Architect’는 데이터 자체가 구조를 알려주지 못하는 상황에서도 최적의 신경망 아키텍처를 자동으로 발견할 수 있음을 입증했으며, 이는 유전체학뿐 아니라 구조가 불명확한 다양한 과학·공학 분야에 적용 가능한 보편적인 프레임워크로 평가될 수 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기