단백질 회로 추적을 위한 교차층 트랜스코더
초록
ProtoMech은 단백질 언어 모델 ESM2의 내부 연산을 층간 전이 학습을 통해 희소한 잠재 표현으로 압축한다. 교차층 트랜스코더를 이용해 82‑89%의 원본 성능을 유지하면서 전체 잠재 공간의 1% 미만만으로도 79% 이상의 정확도를 확보한다. 발견된 회로는 결합 부위, 신호 전달, 안정성 등 구조·기능 모티프와 일치하며, 이를 조작해 고성능 단백질 설계에 성공한다.
상세 분석
ProtoMech은 기존 메커니즘 해석 기법이 각 레이어를 독립적으로 분석하는 한계를 극복하기 위해 “교차층 트랜스코더(cross‑layer transcoders)”라는 새로운 구조를 도입한다. 트랜스코더는 여러 레이어의 임베딩을 동시에 입력받아, 각 레이어 간의 비선형 상호작용을 학습하고, 이를 희소한 라티스 공간에 매핑한다. 이 과정에서 L1 정규화와 스파스 마스크 기법을 적용해 전체 잠재 차원 중 1% 이하만을 활성화하도록 강제한다.
실험은 대규모 단백질 언어 모델인 ESM2(650M 파라미터)를 대상으로 수행되었으며, 두 가지 주요 벤치마크인 단백질 패밀리 분류와 기능 예측을 사용해 성능을 평가한다. ProtoMech이 재구성한 회로는 원본 모델이 달성한 정확도의 82%~89%를 유지하면서, 압축된 회로는 전체 라티스의 0.8% 미만을 사용해도 79% 이상의 정확도를 보였다. 이는 레이어 간 정보 흐름을 효과적으로 포착하면서도 불필요한 차원을 크게 줄일 수 있음을 의미한다.
회로 해석 단계에서는 활성화된 라티스 차원들을 단백질 구조와 기능에 매핑하였다. 예를 들어, 특정 라티스 노드는 결합 포켓 주변의 보존된 서열 패턴과 강하게 상관관계를 보였고, 또 다른 노드는 α‑헬릭스 안정성을 조절하는 잔기들의 상호작용을 반영했다. 이러한 발견은 기존의 attention map 기반 해석보다 더 직관적인 기능적 의미를 제공한다.
또한, ProtoMech은 “회로 스티어링(circuit steering)”이라는 방법을 통해 원하는 기능을 강화하거나 억제하도록 모델 출력을 조작한다. 설계 실험에서는 목표 효소 활성을 높이는 방향으로 회로를 변형시켰으며, 70% 이상에서 기존 설계 알고리즘보다 높은 적합도 점수를 기록했다. 이는 회로 수준의 조작이 단백질 설계에 실질적인 이점을 제공한다는 강력한 증거가 된다.
전체적으로 ProtoMech은 (1) 레이어 간 상호작용을 포괄적으로 모델링하는 교차층 트랜스코더, (2) 극단적인 스파시티를 유지하면서도 높은 성능을 보장하는 압축 메커니즘, (3) 기능적 모티프와 직접 연결되는 회로 해석, (4) 회로 기반 설계 전략이라는 네 가지 핵심 기여를 제시한다. 이러한 접근은 단백질 언어 모델의 블랙박스성을 크게 낮추고, 생물학적 인사이트와 실용적 설계 도구를 동시에 제공한다는 점에서 향후 구조생물학·단백질 공학 분야에 큰 파급 효과를 기대하게 만든다.
댓글 및 학술 토론
Loading comments...
의견 남기기