GRIMM: 유전적 층화 기반 효소 기능 예측 벤치마크 – “진짜 OOD(Out‑of‑Distribution) 테스트를 위한 새로운 표준”
📝 Abstract
The vast majority of biological sequences encode unknown functions and bear little resemblance to experimentally characterized proteins, limiting both our understanding of biology and our ability to harness functional potential for the bioeconomy. Predicting enzyme function from sequence remains a central challenge in computational biology, complicated by low sequence diversity and imbalanced label support in publicly available datasets. Models trained on these data can overestimate performance and fail to generalize. To address this, we introduce GRIMM (Genetic stRatification for Inference in Molecular Modeling), a benchmark for enzyme function prediction that employs genetic stratification: sequences are clustered by similarity and clusters are assigned exclusively to training, validation, or test sets. This ensures that sequences from the same cluster do not appear in multiple partitions. GRIMM produces multiple test sets: a closed-set test with the same label distribution as training (Test-1) and an open-set test containing novel labels (Test-2), serving as a realistic out-of-distribution proxy for discovering novel enzyme functions. While demonstrated on enzymes, this approach is generalizable to any sequence-based classification task where inputs can be clustered by similarity. By formalizing a splitting strategy often used implicitly, GRIMM provides a unified and reproducible framework for closed- and open-set evaluation. The method is lightweight, requiring only sequence clustering and label annotations, and can be adapted to different similarity thresholds, data scales, and biological tasks. GRIMM enables more realistic evaluation of functional prediction models on both familiar and unseen classes and establishes a benchmark that more faithfully assesses model performance and generalizability.
💡 Analysis
**
1. 연구 배경 및 필요성
- 동질성 누수 문제: 기존 랜덤 분할은 동일 혹은 고유사도 서열이 훈련·테스트에 동시에 존재해, 모델이 “유사 서열 매핑”에만 의존하게 된다. 이는 특히 프로테인 언어 모델(ESM, ProtTrans 등)의 높은 인‑도메인 성능을 과대평가하게 만든다.
- 라벨 불균형: 효소 EC 번호는 계층적이며, 일부 라벨은 수천 개, 일부는 수십 개에 불과하다. 기존 데이터셋은 이 불균형을 반영하지 못해, 희귀 라벨에 대한 일반화가 검증되지 않는다.
- 실제 적용 시나리오: 메타게놈, 환경 샘플링 등에서는 진정한 OOD 서열(진화적으로 먼 서열)과 새로운 기능을 마주한다. 따라서 벤치마크도 이런 상황을 모사해야 한다.
2. 핵심 아이디어 – 유전적 층화(Genetic Stratification)
| 단계 | 설명 |
|---|---|
| 클러스터링 | UniRef50(≥50% 동일성) 등 사용자가 정의한 임계값으로 서열을 클러스터링. |
| 클러스터‑레벨 할당 | 각 EC 라벨 내에서 클러스터를 훈련 / 검증 / Test‑1에 독점적으로 배정. |
| 오픈‑셋 생성 | 라벨이 훈련에 등장하지 않는 orphan 클러스터를 모아 Test‑2 구성 (80%는 훈련에 포함해 데이터 양 확보, 20%는 Test‑2). |
| 다중 폴드 | 5‑fold 교차검증을 수행해, 클러스터가 매 폴드마다 다른 파티션에 배정되도록 함. |
- 장점:
- 동질성 누수 최소화 → 실제 OOD 상황에 가까운 평가.
- 라벨 다양성 보장(Test‑2) → 희귀·신규 기능 탐색 능력 측정.
- 재현성: 클러스터 ID와 라벨 매핑만 있으면 누구나 동일한 벤치마크 재생산 가능.
3. 실험 및 결과 요약
- 데이터 규모 (SwissProt, prokaryote, 2025년 5월 기준)
- 훈련: 185 418 서열
- 검증: 26 966 서열
- Test‑1 (Closed‑set): 24 617 서열
- Test‑2 (Open‑set): 420 서열 (희귀 라벨)
- 유사도 분석
- 훈련‑검증/테스트 간 평균 시퀀스 유사도: 38‑39 % (GRIMM) vs >42 % (무작위 분할).
- Test‑2와 훈련 간 평균 유사도: 31‑33 %, 외부 OOD 벤치마크와 유사 수준.
- 베이스라인 모델 (CLEAN)
- 동일 파이프라인으로 5‑fold 훈련 후, Test‑2에서 기존 OOD 벤치마크와 비슷한 성능 저하를 확인, GRIMM이 실제 OOD 난이도를 잘 반영함을 입증.
4. 강점
- 범용성 – EC 외에도 GO, PFAM 등 모든 라벨 체계에 적용 가능.
- 경량 파이프라인 – 클러스터링과 라벨 매핑만 있으면 구현 가능, 별도 복잡한 전처리 불필요.
- 투명한 평가 설계 – Closed‑set vs Open‑set 구분이 명확해, 모델의 내재적 일반화와 신규 라벨 탐지 능력을 독립적으로 측정.
- 오픈소스 – GitHub·HuggingFace에 데이터와 코드 공개, 커뮤니티가 손쉽게 확장·재현 가능.
5. 한계 및 개선점
| 항목 | 설명 | 제언 |
|---|---|---|
| Pseudo‑OOD vs True OOD | Test‑2는 공개 데이터에서 추출된 클러스터이므로, 완전한 “보지 못한” 서열은 아니다. | 실제 현장 메타게놈 샘플을 추가해 진정한 OOD 테스트셋 구축. |
| 클러스터 임계값 선택 | UniRef50(50 % 동일성) 기준이 기본이지만, 다른 임계값(30 % 등)에서 결과가 어떻게 변하는지는 미탐색. | 다양한 임계값에 대한 민감도 분석 제공. |
| 라벨 불균형 | 희귀 라벨이 Test‑2에 과도하게 집중될 경우, 평가가 라벨 수에 편향될 수 있다. | 라벨 가중치 혹은 샘플링 전략을 도입해 균형 잡힌 OOD 평가 설계. |
| 다중 라벨/다중 태스크 | 현재는 단일 라벨(EC) 기준이지만, 실제 생물학에서는 다중 기능(멀티‑라벨) 예측이 일반적. | 멀티‑라벨 데이터셋에 대한 확장 규격 제시. |
| 시퀀스 길이·구조 정보 | 현재는 순수 서열 기반; 구조(3D) 정보와 결합하면 OOD 평가가 더 어려워질 수 있다. | 구조‑통합 벤치마크(예: AlphaFold 모델)와 연계. |
6. 향후 연구 방향
- 실제 메타게놈 OOD 데이터와 결합해 GRIMM‑OOD 확장판 개발.
- 다중 임계값 클러스터링(UniRef30, UniRef90)과 다중 레벨 층화(클러스터 → 서브클러스터) 적용으로 평가 난이도 조절.
- 멀티‑모달(서열 + 구조 + 기능 메타데이터) 벤치마크 구축, 최신 프로테인 언어 모델의 진정한 일반화 능력 검증.
- 자동 라벨 생성(예: GO term 추론)과 결합해 라벨‑스파스 OOD 상황을 시뮬레이션.
7. 학문·산업적 파급효과
- 학계: 데이터셋 설계 원칙을 명확히 함으로써, 향후 Bio‑AI 논문의 평가 기준을 표준화하고, 재현 가능한 연구 문화 조성에 기여한다.
- 산업: 바이오경제(효소 설계, 신약 타깃 탐색)에서 신규 기능 탐색이 핵심이므로, GRIMM 기반 벤치마크는 실제 제품화 단계에서 모델 신뢰성을 검증하는 데 필수 도구가 될 것이다.
**
📄 Content
**생물학적 서열 모델링에서 지속적인 과제는 평가 조건을 넘어 적용될 때 Bio‑AI 모델의 일반화 가능성이 제한된다는 점이다. 실제로 DNA 혹은 아미노산 서열로부터 생물학적 특성을 예측하는 서열 기반 모델은 학습·검증·테스트 파티션 간에 서열 유사도가 크게 겹칠 수 있는 데이터셋을 사용해 훈련하고 평가한다. 그러나 현실의 생물학적 응용에서는 진화적으로 멀리 떨어져 있거나 학습 데이터에 전혀 포함되지 않은 새로운 서열이 지속적으로 등장한다. 이러한 평가 프로토콜과 실제 배포 조건 사이의 괴리는 성능 추정치를 부풀리고, 진정으로 새로운 분포 밖(Out‑of‑Distribution, OOD) 서열에 대한 모델 행동을 정확히 평가하는 것을 방해한다. 여기서는 유전체학 맥락에서 OOD 라는 용어를, 아미노산 서열 유사도 측면에서 학습 데이터와 크게 다르고, 모델 학습 시 충분히 대표되지 못한 서열 공간 영역에 위치한 단백질 서열을 지칭하는 데 사용한다(Shih et al., 2025).
1. 기존 데이터 분할 방식의 문제점
성능이 과대평가되는 주요 원인 중 하나는 흔히 사용되는 생물학적 서열 데이터셋 내 중복성이다. 전통적인 분할 전략은 동종(동일) 서열이 서로 다른 파티션에 동시에 존재하도록 허용하는 경우가 많아, 누수(leakage) 를 발생시켜 예측 과제의 실제 난이도를 낮춘다(Florensa et al., 2024; Shih et al., 2025). 그 결과 표준 벤치마크는 특히 서열 공간에서 희소하게 샘플링되었거나 탐색되지 않은 영역에 위치한 OOD 서열에 대한 일반화 문제를 포착하지 못한다(Koh et al., 2021).
2. GRIMM: 유사도‑인식 학습‑테스트 분할 방법
이러한 한계를 극복하고자 우리는 GRIMM(Genetic stRatification for Inference in Molecular Modeling)이라는 방법론을 제안한다. GRIMM은 서열 유사도 클러스터(예: UniRef50, Suzek et al., 2007; uni 2021; 혹은 사용자가 제공하는 임의의 클러스터 ID)를 기반으로 유사도‑인식(train‑test) 분할을 수행한다. 구체적인 절차는 다음과 같다.
- 클러스터 기반 그룹화 – 모든 서열을 동일한 클러스터에 속하도록 묶는다.
- 라벨별 독점 할당 – 각 기능 라벨(예: EC 번호)마다 클러스터를 하나의 파티션(학습, 검증, 테스트)으로만 할당한다.
- 두 종류의 테스트 세트 정의
- Test‑1 (Closed‑set): 학습과 동일한 라벨을 갖는 서열로 구성된 전통적인 평가 세트.
- Test‑2 (Open‑set, pseudo‑OOD): 학습에 포함되지 않은 라벨을 가진 고아 클러스터(orphan clusters) 로부터 추출한 서열. 이는 실제 OOD 데이터가 아니라 공개 데이터의 클러스터링 절차를 통해 만든 ‘pseudo’ OOD 세트이다.
GRIMM은 EC 분류 체계를 구체적인 사례로 사용하지만, Gene Ontology, 단백질 가족 어노테이션 등 다른 구조화된 라벨링 시스템에도 동일하게 적용할 수 있다. 즉, 재현 가능한 pseudo‑OOD 데이터 분할을 제공함으로써 생물학적 예측 과제에서 모델 일반화를 평가할 수 있는 일반 프레임워크를 제공한다. 기존에 연구자들이 암묵적으로 수행해오던 “동일 클러스터를 같은 파티션에 배치한다”는 관행을 명시적이고 일관된 closed‑set / open‑set 정의와 결합한 것이 핵심이다.
3. GRIMM 데이터셋 구축 예시 (EC 기능 예측)
데이터 출처: UniProt(스위스‑프로트)와 ENA(유럽 핵산 아카이브)에서 2025년 5월 기준 프로카리오틱(세균·고세균) 서열을 수집.
클러스터링: UniRef50(50 % 아미노산 동일성) 클러스터를 사용했으며, 필요에 따라 UniRef90/100 또는 사용자 정의 클러스터도 가능.
분할 절차
- 각 EC 번호별로 클러스터를 80 %/10 %/10 % 비율로 train / validation / test에 할당.
- 클러스터 수가 3 이하인 경우 별도 “extras” 리스트에 모아, 클러스터 수에 따라 적절히 배분(예: 2개 클러스터 → 1개는 train, 1개는 Test‑1).
- 고아 클러스터(singleton)들은 “orphan” 리스트에 저장하고, 최종적으로 5‑fold 교차 검증을 수행하면서 매번 무작위 셔플한다.
- 고아 클러스터 중 80 %는 train에, 나머지 20 %는 Test‑2에 배치한다(라벨과 서열 모두 학습 데이터와 겹치지 않음).
최종 규모(한 번의 5‑fold 분할 기준)
- Train: 185,418 서열
- Validation: 26,966 서열
- Test‑1 (Closed‑set): 24,617 서열
- Test‑2 (Pseudo‑OOD): 420 서열
Test‑1은 학습 라벨과 겹치므로 검증·벤치마크용으로 일관성을 제공하고, Test‑2는 학습에 존재하지 않은 라벨을 포함해 진정한 일반화 능력을 평가한다.
4. 기존 연구와의 연계
- 데이터 설계 중요성: Schnoes et al. (2009), Gerlt et al. (2016), Radivojac et al. (2013) 등은 동종 누수가 정확도와 일반화 성능을 크게 왜곡한다는 점을 강조했다.
- 동질성 전이 한계: Rost (1999), Tawfik (2020), Khersonsky & Tawfik (2006) 등은 서열 동일성 “황혼 지대(twilight zone)”에서 기능 전이가 불안정함을 보고했다.
- 메타게놈·마이크로바이옴: Steinegger & Söding (2018), Zhou et al. (2022) 등은 효소 서열 공간 대부분이 아직 희소하게 특성화되었다고 지적한다.
- 딥러닝·단백질 언어 모델: UniRep, ProtTrans, ESM 등은 in‑distribution에서는 뛰어난 성능을 보이지만, close homology를 넘어서는 일반화를 위해서는 표준화된 평가 프로토콜이 필요함을 알린다(Alley et al., 2019; Elnaggar et al., 2021; Lin et al., 2022; Yu et al., 2023).
최근 NeurIPS 2024 CARE 벤치마크와 SpanSeq 같은 프로젝트는 OOD 성능을 명시적으로 측정하도록 설계되었지만, 대부분 유사도 기반 분할에 머물며 closed‑set vs. open‑set 라벨 구분을 명확히 하지 않는다. GRIMM은 이러한 흐름에 보완적인 역할을 수행한다. 즉, 특정 과제에 국한되지 않고 다양한 라벨링 체계에 적용 가능한 일반‑목적 메커니즘을 제공한다.
5. 실험 결과 요약
| 평가 항목 | Validation | Test‑1 (Closed‑set) | Test‑2 (Pseudo‑OOD) |
|---|---|---|---|
| 평균 서열 유사도(0 제외) | 38‑39 % | 38‑39 % | 31‑33 % |
| 평균 서열 유사도(0 포함) | 0.06 | 0.06 | 0.01‑0.02 |
| 무작위 베이스라인 대비 차이 | – | – | ‑9.16 % (가장 큰 감소) |
- Genetic Stratification은 파티션 간 동종 누수를 현저히 감소시킨다(표 1).
- Test‑2는 외부 OOD 데이터셋(price‑149, new‑392)과 유사한 낮은 유사도를 보이며, 실제 OOD 상황을 잘 모사한다.
CLEAN 모델 비교
- CLEAN‑split100(전통적 무작위 분할) → OOD 데이터에서 F1 감소: –0.45 ~ –0.50
- CLEAN‑GRIMM(GRIMM 기반 학습) → OOD 데이터에서 F1 감소: –0.31 (new‑392) / –0.38 (price‑149)
- 외부 OOD 데이터(new‑392)에서 CLEAN‑GRIMM은 0.57(split100 대비 0.452)로 더 높은 성능을 기록한다.
이 결과는 GRIMM이 만든 Test‑2가 실제 OOD와 유사한 난이도를 제공함을 의미한다. 동시에, 라벨·서열 다양성을 크게 보존하면서도 학습 데이터 규모가 감소하기 때문에 전체 모델 성능은 다소 낮아질 수 있다(표 2).
6. 의의 및 향후 활용
- 라벨·서열 다양성 보존: GRIMM은 라벨과 서열의 다양성을 의도적으로 보존함으로써, 모델이 진정한 일반화 능력을 시험하도록 만든다.
- 재현 가능한 벤치마크: 클러스터‑단위 독점 할당이라는 명시적 규칙을 통해, 연구자 간 비교 가능성을 확보한다.
- 다양한 라벨링 체계 적용 가능: EC 외에도 Gene Ontology, Pfam, COG 등 거의 모든 구조화된 라벨에 적용할 수 있다.
- 오픈소스 제공: 5‑fold EC 기능 예측 데이터셋, 전·후 처리 파이프라인, 그리고 코드 전체를 GitHub와 HuggingFace(데이터)에서 공개한다.
- 메타게놈·유전체 마이닝: 실제 메타게놈 어노테이션, 유전체 마이닝, 효소 발굴 등에서 희귀·진화적으로 새로운 서열을 다룰 때, GRIMM 기반 평가가 보다 현실적인 기대치를 제공한다.
7. 결론
GRIMM은 유전적(클러스터 기반) 층화를 통해 학습·검증·테스트 파티션 간 동종 누수를 최소화하고, Closed‑set과 Open‑set(pseudo‑OOD) 평가를 명확히 구분한다. 이를 통해 기존 무작위 혹은 완화되지 않은 분할이 초래하
이 글은 AI가 자동 번역 및 요약한 내용입니다.