크리오ET와 서브톰그램 평균화를 위한 완전 데이터 처리 워크플로우
초록
본 논문은 전자동화된 틸트 시리즈 정렬, CTF 보정, 입자 추출, 서브톰그램 정렬·평균화까지 전 과정을 포괄하는 통합 워크플로우를 제시한다. 최신 GPU 기반 알고리즘과 파이프라인 자동화를 통해 인간 개입을 최소화하고, 순수 단백질 복합체와 세포 내 복합체 모두에서 서브나노미터 해상도의 구조를 얻을 수 있음을 실험적으로 입증한다.
상세 분석
이 연구는 CryoET 데이터 처리의 병목 현상을 근본적으로 해소하기 위해 소프트웨어 스택을 재설계하였다. 첫 단계인 틸트 시리즈 정렬에서는 전통적인 마커 기반 정렬의 불확실성을 줄이기 위해 자동화된 교차 상관 기반 정렬 알고리즘을 도입했으며, 이는 0.5° 이하의 정밀도를 달성한다. 이어지는 모션 보정 단계에서는 각 틸트 이미지에 대해 프레임 별 움직임을 추정하고, 고속 GPU 가속을 활용해 실시간 수준의 정합을 수행한다. CTF(Contrast Transfer Function) 추정은 각 틸트 각도마다 별도로 수행되며, 기존의 전역 CTF 모델링과 달리 각도별 defocus 변화를 동적으로 모델링함으로써 고주파 정보 손실을 최소화한다.
입자 추출 단계에서는 딥러닝 기반 3D 물체 검출기를 적용해 세포 내 복합체와 정제된 단백질 복합체를 자동으로 식별한다. 검출된 입자는 초기 정렬을 위해 저해상도 볼륨으로 다운샘플링된 뒤, 다중 스케일 정렬 전략을 통해 회전 및 이동 파라미터를 추정한다. 서브톰그램 정렬·평균화 단계에서는 RELION과 EMAN2의 핵심 알고리즘을 통합한 하이브리드 파이프라인을 구축했으며, 특히 정밀한 3D 정렬을 위한 베이즈 추정과 다중 클래스 분류를 동시에 수행한다. 이 과정에서 CTF 보정된 복소수 볼륨을 직접 사용함으로써 CTF 역보정 단계에서 발생할 수 있는 위상 오류를 회피한다.
GPU 가속을 전반에 걸쳐 적용함으로써 전체 파이프라인의 처리 속도를 기존 대비 5~10배 향상시켰다. 또한, 파라미터 자동 튜닝 모듈을 도입해 사용자가 사전에 상세한 파라미터를 지정할 필요 없이 데이터 특성에 맞는 최적값을 자동으로 탐색한다. 결과 검증을 위해 2nm 이하의 해상도를 요구하는 바이오마커와 0.9nm 수준의 원자 수준 해상도를 요구하는 대형 복합체 두 가지 사례를 실험하였다. 두 경우 모두 기존 수작업 기반 파이프라인 대비 30% 이상의 해상도 향상을 기록했으며, 처리 시간은 1주일 이내로 단축되었다.
이 워크플로우는 오픈소스 형태로 배포되며, 모듈 간 인터페이스가 표준화돼 있어 기존 CryoET 소프트웨어와의 호환성이 뛰어나다. 향후 확장성을 고려해 플러그인 형태의 추가 기능(예: 멀티스케일 파티클 분류, 실시간 데이터 스트리밍)도 지원한다는 점이 큰 장점이다.
댓글 및 학술 토론
Loading comments...
의견 남기기