“주의(attention) 공동발현? – 단일세포 Foundation Model 해석의 한계와 새로운 해법(CSSI)”

2026년 02월 23일

읽는 시간: 9 분

...

📝 Abstract

We present a systematic evaluation framework - thirty-seven analyses, 153 statistical tests, four cell types, two perturbation modalities - for assessing mechanistic interpretability in single-cell foundation models. Applying this framework to scGPT and Geneformer, we find that attention patterns encode structured biological information with layer-specific organisation - protein-protein interactions in early layers, transcriptional regulation in late layers - but this structure provides no incremental value for perturbation prediction: trivial gene-level baselines outperform both attention and correlation edges (AUROC 0.81-0.88 versus 0.70), pairwise edge scores add zero predictive contribution, and causal ablation of regulatory heads produces no degradation. These findings generalise from K562 to RPE1 cells; the attention-correlation relationship is context-dependent, but gene-level dominance is universal. Cell-State Stratified Interpretability (CSSI) addresses an attention-specific scaling failure, improving GRN recovery up to 1.85x. The framework establishes reusable quality-control standards for the field.

💡 Analysis

1. 연구 배경 및 목표

배경: 대규모 단일세포 전사체 데이터를 학습한 트랜스포머 모델(scGPT, Geneformer)은 세포 유형 분류·교란 반응 예측·유전자 조절망(GRN) 추론 등 다양한 응용 가능성을 보여 왔다. 특히 ‘주의(attention)’ 가중치를 이용해 직접적인 조절 회로를 도출한다는 기대가 크다.
문제점: NLP 분야에서 주의가 실제 인과 관계를 반영하지 않는다는 비판이 존재하고, 생물학적 데이터는 맥락‑의존성·조합성·불완전한 레퍼런스 데이터베이스(TRRUST, DoRothEA) 등으로 해석이 복잡하다.
목표: (i) 주의 가중치가 실제 조절 신호를 담고 있는지, (ii) 기존 유전자 수준 통계보다 유의미한 부가 정보를 제공하는지, (iii) 다양한 세포·교란 상황에서 결과가 일관되는지를 종합적으로 검증한다.

2. 평가 프레임워크 설계

테스트 패밀리	핵심 질문	방법론
Trivial‑baseline	주의·상관점수 > 단순 유전자 통계?	AUROC/ AUPRC 비교 (분산, 평균, dropout)
Conditional Incremental‑value	edge score가 feature에 추가될 때 성능 향상?	교차‑교란·교차‑유전자·공동 split, Linear/Non‑linear 모델
Expression Residualisation & Propensity Matching	유전자 수준 confound 제거 후 남는 신호?	OLS/GDBT residualisation, 매칭 기반 베이스라인
Causal Ablation	“조절” 헤드가 실제 예측에 기여하는가?	헤드 마스킹, uniform attention, MLP ablation + fidelity diagnostics
Cross‑context Replication	결과가 다른 세포·교란에 일반화되는가?	K562, RPE1, T‑cell, iPSC‑neuron 등 4종 세포·2종 교란 테스트

통계적 엄격성: 153개의 검정을 Benjamini‑Hochberg FDR 보정으로 처리.
데이터 규모: scGPT·Geneformer 사전학습에 사용된 수백만 셀, K562 CRISPRi 640k 셀 등 대규모 실험 데이터 활용.

3. 주요 결과 및 해석

3.1 레이어‑별 구조 vs. 예측 성능

초기 레이어: 단백질‑단백질 상호작용 신호 포착.
후기 레이어: 전사조절 신호 포착.
하지만 이러한 구조적 패턴이 교란 예측(AUROC ≈ 0.70)에는 기여하지 않으며, 단순 유전자 통계(AUROC 0.81‑0.88)보다 열등함.

3.2 주의‑상관관계 관계는 컨텍스트 의존적

K562 vs. RPE1 등 세포 유형에 따라 주의와 상관관계 점수 간 상관계수가 변하지만, “유전자 수준 특성 우세”라는 전반적 경향은 유지된다.

3.3 CSSI (Cell‑State Stratified Interpretability)

문제: 이질적인 세포 상태가 섞이면 주의 가중치가 희석(dilution)되어 신호가 약해진다.
해법: Leiden 클러스터링으로 세포를 K‑strata 로 나눈 뒤, 각 stratum 별로 edge score를 계산하고 합산.
효과: DLPFC 뇌 데이터에서 TRRUST 기반 F1이 최대 1.85배 향상, 최적 K = 5‑7.

3.4 교란 예측에서 “edge”가 제공하는 부가 가치 부재

베이스라인: 유전자 분산·평균·dropout만으로 AUROC ≈ 0.88.
edge 추가: ΔAUROC ≈ 0 (통계적으로 유의미한 차이 없음).
다양한 모델·분할: Logistic regression, GBDT, 다양한 split 전략에서도 동일한 결과 재현.

3.5 표현식‑공변량에 대한 민감도

주의 기반 edge는 표현식 평균·분산에 크게 의존(76% 신호 손실) → “표현식‑confounded”.
상관관계 기반 edge는 상대적으로 독립적(91% 신호 유지).

4. 강점

포괄적 프레임워크: 5가지 테스트 패밀리와 37개의 분석을 통해 단일 지표에 의존하지 않는 다각적 검증을 수행.
통계적 엄격성: 다중 검정 보정, 부트스트랩, 파워 분석 등을 통해 결과의 신뢰성을 확보.
재현성: 여러 세포 유형·교란 방식·모델( scGPT, Geneformer)에서 일관된 결론 도출.
구성 가능한 개선책(CSSI): 실제 적용 가능한 방법을 제시해 “주의” 활용 가능성을 완전히 부정하지 않음.

5. 한계 및 비판

항목	설명
레퍼런스 GRN 한계	TRRUST·DoRothEA 자체가 불완전 → “실제 조절 신호”와의 격차가 평가에 영향을 미칠 수 있음.
교란 데이터 편향	주로 CRISPRi·CRISPRa에 국한; 다른 형태(약물 처리, 환경 스트레스)에서는 결과가 달라질 가능성.
모델 다양성 부족	현재는 scGPT와 Geneformer 두 모델만 평가. 최신 대형 모델(예: scBERT, CellLM)과의 비교는 향후 과제.
CSSI 파라미터 선택	최적 K값이 데이터마다 달라질 수 있으며, 클러스터링 품질에 민감함. 자동화된 K 선택 기준이 필요.
인과관계 검증 한계	헤드 마스킹·Ablation은 “인과적 기여”를 완전히 배제하지 못한다(다중 헤드 상호작용 가능).

6. 향후 연구 방향

다중 모달 데이터 통합 – ATAC‑seq, 프로테오믹스 등과 결합해 주의가 실제 전사인자 결합과 어떻게 연관되는지 탐색.
다양한 교란 실험 – 약물, 성장인자, 미세환경 변화 등 비‑CRISPR 교란을 포함해 일반화 범위 확대.
대규모 베이스라인 구축 – 유전자‑레벨 통계 외에 “생물학적 의미가 있는” 베이스라인(예: pathway activity, pseudo‑time)과의 비교.
자동화된 CSSI 파이프라인 – 클러스터링 방법·K값 선택을 데이터‑드리븐하게 최적화하는 메타‑학습 접근.
인과적 해석 프레임워크 – 활성화 패치(activation patching)·경로 탐색(pathway discovery) 등 NLP에서 성공한 인과적 해석 기법을 생물학에 맞게 변형.

7. 결론

본 논문은 단일세포 Foundation Model의 “주의(attention)”가 실제 조절 신호를 담고 있다는 기존 가설을 엄격히 부정하고, 단순 유전자 수준 통계가 여전히 최고의 예측 성능을 제공한다는 중요한 사실을 밝혀냈다. 동시에, CSSI라는 새로운 해석 기법을 통해 주의 기반 신호를 부분적으로 회복할 수 있음을 보여 주며, 향후 모델 설계·평가에 있어 **‘주의만으로는 충분치 않다’**는 교훈을 제공한다. 제시된 5가지 테스트 패밀리와 37개의 분석은 앞으로 단일세포 Foundation Model 해석 연구에 재사용 가능한 품질 관리 표준으로 자리 잡을 전망이다.

🇺🇸 Read in English

📄 Content

트랜스포머 기반 단일세포 전사체학 파운데이션 모델의 등장은 계산생물학에 새로운 패러다임을 제시한다[Cui et al., 2024; Theodoris et al., 2023; Yang et al., 2022; Hao et al., 2024]. 수백만 개의 세포와 다양한 조직에 대해 학습된 이 모델들은 맥락적 표현을 학습하며, 세포 유형 주석, 교란 반응 예측, 그리고 유전자 조절 네트워크(GRN) 추론에 유망한 성과를 보이고 있다[Chen et al., 2024; Rosen et al., 2024]. 특히 주목할 만한 점은 기계적 해석 가능성이다. 즉, 어텐션으로부터 도출된 엣지 스코어를 이용해 생물학적으로 의미 있는 조절 회로를 직접 추출할 수 있다는 약속이다. scGPT[Cui et al., 2024]와 Geneformer[Theodoris et al., 2023]는 어텐션 기반 유전자 네트워크 추론을 핵심 응용 분야로 강조했으며, 이후 연구들 역시 어텐션 기반 엣지 스코어를 규제 프록시로 채택했지만, 엄격한 검증은 이루어지지 않았다[Zheng et al., 2024].

이러한 기대는 대형 언어 모델(Large Language Model, LLM) 해석 분야의 진보와도 연관된다. 활성화 패치링[Meng et al., 2022; Goldowsky‑Dill et al., 2023]이나 자동 회로 발견[Conmy et al., 2023] 같은 기법을 통해 잘 정의된 행동에 대한 계산 회로가 밝혀졌다[Elhage et al., 2021; Olsson et al., 2022; Wang et al., 2022]. 그러나 이러한 접근법을 생물학에 적용하려면 고유한 난관을 마주한다. 유전자 조절 관계는 맥락 의존적이며, 조합적이고, TRRUST[Han et al., 2018]와 DoRothEA[Garcia‑Alonso et al., 2019] 같은 참고 데이터베이스에 부분적으로만 수록돼 있다. 실제 존재하는 조절 상호작용의 일부에 불과하다[Pratapa et al., 2020].

현재 단일세포 파운데이션 모델 해석 실무는 다음과 같은 검증되지 않은 가정에 크게 의존한다.

어텐션 패턴이 직접적으로 인과적 조절 관계를 반영한다는 가정 – 이는 NLP 분야에서도 이미 논란이 되고 있다[Jain & Wallace, 2019; Serrano & Smith, 2019; Bibal et al., 2022].
데이터셋이 클수록 기계적 해석의 신뢰도가 일관되게 향상된다는 가정.
어텐션 기반 예측이 CRISPR 스크린 같은 실험적 교란 결과와 일치한다는 가정.
기계적 통찰이 다양한 생물학적 맥락에 걸쳐 안정적으로 전이된다는 가정.

우리는 이러한 가정을 두 단계 평가 프레임워크를 통해 검증한다. 핵심 단계는 파운데이션 모델 내부 표현(어텐션 가중치, 개입 효과, 교란‑결과 예측)을 직접 평가하고, **Cell‑State Stratified Interpretability(CSSI)**라는 건설적 방법을 제안한다. 경계 조건 단계는 엣지 스코어링 방법이 반드시 마주해야 할 한계(종 간 전이, 의사시간(pseudotime) 방향성, 기술적 누수, 불확실성 보정)를 상관 기반 엣지 스코어와 비교해 설정한다(보조 노트 7‑10).

기존 벤치마크는 GRN 추론 방법[Pratapa et al., 2020]이나 개별 파운데이션 모델의 능력[Zheng et al., 2024]을 평가했지만, 어텐션 기반 엣지 스코어가 발현 통계량을 넘어선 기계적 정보를 제공하는지 혹은 이를 인과적 개입으로 검증했는지는 다루지 않았다. 우리는 이 격차를 메우기 위해 재사용 가능한 평가 프레임워크를 구축했다. 이 프레임워크는 37개의 상보적 분석(단순 베이스라인 비교, 조건부 증분 가치 테스트, 발현 잔차화, 성향 매칭 벤치마크, 인과적 절제와 개입‑충실도 진단)을 포함한다. 두 가지 파운데이션 모델 아키텍처(scGPT, Geneformer V2‑316M), 네 종류의 세포(K562, 1차 T 세포, RPE1 망막 상피세포, iPSC 뉴런), 두 종류의 교란 방식(CRISPRi, CRISPRa)에서 153개의 통계 검정을 Benjamini‑Hochberg FDR 보정 하에 수행하였다(보조 표 1; 보조 노트 16).

프레임워크를 통해 도출된 세 가지 주요 결과는 다음과 같다.

어텐션 패턴은 층별 생물학적 구조를 인코딩한다—초기 층은 단백질‑단백질 상호작용, 후기 층은 전사 조절을 반영한다(보조 노트 17). 그러나 이 정보는 교란 예측에 증분 가치를 제공하지 않는다. 단순 유전자‑수준 베이스라인이 어텐션 및 상관 엣지보다 우수하고, 쌍별 엣지 스코어는 예측 기여도가 0이며, “조절” 헤드를 절제해도 행동에 변화가 없다.
어텐션‑상관 관계는 세포 유형에 따라 맥락 의존적이지만, 근본적인 혼동 요인인 유전자‑수준 특성이 지배한다.
CSSI는 어텐션 특유의 스케일링 실패를 셀‑상태 층화로 보정함으로써 즉시 활용 가능한 건설적 도구를 제공한다.

프레임워크 자체(다양한 테스트, 대조군, 진단 체크)는 단일세포 파운데이션 모델에서 기계적 해석 가능성 주장을 평가하기 위한 재사용 가능한 품질 관리 표준이 된다.

평가 프레임워크 설계

우리는 다섯 개의 상호 연결된 테스트 군을 설계했다(그림 1‑6; 보조 노트 1‑16).

테스트 군	목적	핵심 내용
(i) 단순 베이스라인 비교	쌍별 엣지 스코어가 단변량 유전자 특성(분산, 평균 발현, dropout 비율)보다 우수한가?	모델 없이도 얻을 수 있는 베이스라인과 비교
(ii) 조건부 증분 가치 테스트	엣지 스코어를 유전자 특성에 추가했을 때 예측이 향상되는가?	교차‑교란, 교차‑유전자, 공동 분할 등 점점 어려워지는 일반화 프로토콜 적용, 선형·비선형 모델 모두 사용
(iii) 발현 잔차화 & 성향 매칭	유전자‑수준 혼동을 제거하고 엣지‑특이 신호를 분리	두 가지 상보적 통계 접근법 적용
(iv) 인과 절제 + 충실도 진단	“조절” 헤드가 교란 예측에 인과적으로 기여하는가?	헤드 마스킹, 균일 어텐션 교체, MLP 절제 등 3가지 개입 방식 사용, 내부 표현 변화를 정량화
(v) 맥락 복제	결과가 다양한 세포 유형·교란 방식에 일반화되는가?	K562, RPE1, 1차 T 세포, iPSC 뉴런 × CRISPRi/CRISPRa 조합 테스트

각 군은 서로 다른 혼동 요인을 통제하며, 모두가 동시에 만족될 때 결과의 신뢰도가 크게 상승한다. 경계 조건 군(종 간 전이, 의사시간, 배치 누수, 보정)에서는 모든 엣지 스코어링 방법이 마주해야 할 한계를 상관 기반 엣지와 비교해 제시한다(보조 노트 7‑10). 전체적으로 37개의 분석과 153개의 통계 검정을 수행하였다.

데이터 규모와 해석 가능성

데이터 규모가 해석 가능성을 향상시킨다는 가설을 검증하기 위해, scGPT 신장 스케일링 실험을 3가지 모델 규모(소/중/대), 3개의 시드, 3개의 셀 수(200, 1,000, 3,000) 조합으로 분석했다. TRRUST[Han et al., 2018]에 대한 Top‑K F1 점수는 셀 수가 늘어날수록 감소하였다. 200→1,000 셀 전환에서는 모든 9개의 tier × seed 조합에서 감소가 관측됐으며(sign test p = 0.002), 1,000→3,000에서도 대부분 감소 추세를 보였다(p = 0.09). 반면 연속 점수 AUROC(임계값 없이)는 0.86→0.93으로 단조 증가했다. 즉, 평가지표에 따라 결과가 달라짐을 확인했다.

동일 데이터를 Tabula Sapiens 신장에 적용해 샘플 크기와 이질성을 분리한 실험에서는, 구성 비율을 고정한 경우 AUROC는 변동이 없었고(ρ = ‑0.05, p = 0.82), 셀 수를 고정하고 이질성을 높이면 오히려 복구 성능이 향상되었다(ρ = +0.63, p = 10⁻⁴). 따라서 관찰된 성능 저하는 어텐션 특유의 현상이며, 일반적인 엣지 스코어링 방법의 한계는 아니다.

CSSI: 셀‑상태 층화 해석 가능성

위 결과를 바탕으로 우리는 **Cell‑State Stratified Interpretability(CSSI)**를 제안한다. 이 방법은 희석 모델(ρ_pool ≈ (n₁/N)·ρ₁ → 0)에서 영감을 받아, 이질성이 커질수록 풀링된 어텐션 엣지 스코어가 희석된다는 점을 정량화한다. CSSI는 다음 절차로 진행된다.

모델 임베딩으로부터 k‑NN 그래프를 구축하고 Leiden 클러스터링으로 **셀‑상태 스트라타(K)**를 정의한다.
각 스트라타 내부에서 어텐션 엣지 스코어를 계산한다.
스트라타별 스코어를 평균(또는 가중 평균)하여 최종 엣지 스코어를 얻는다.

DLPFC 뇌 scRNA‑seq 데이터에 적용한 결과, CSSI‑max는 TRRUST 복구 F1를 최대 1.85배 향상시켰으며(K = 5‑7일 때 최적) 이는 비층화 기준보다 현저히 높은 성능이다(그림 1). K를 2‑20 범위로 변동시킨 넓은 널 테스트에서도 무작위 스트라타에서는 거짓 양성 증가가 없었으며, 실제 신호 회복이 개선된 경우에만 성능이 상승함을 확인했다.

실제 데이터에서 레이어/헤드 분석을 수행하면, 회복 가능한 신호는 **후기 Geneformer 레이어(L13)**에 집중돼 있다(L13 AUROC = 0.694, 보조 노트 11). 부트스트랩 분석에서는 18개 TF 중 7개가 견고한 엣지 수준 신호를 보였으며(전역 AUROC 95% CI = [0.71, 0.77]), 합성 데이터에서도 동일한 경향이 재현되었다(보조 노트 12). scGPT와 Geneformer 두 모델 모두 비층화 접근에서는 거의 무작위 수준의 성능을 보였으며(보조 노트 13), 이는 아키텍처 차이와 무관하게 **어텐션 기반 GR

ArXiv 원문 보기

이 글은 AI가 자동 번역 및 요약한 내용입니다.

“주의(attention) 공동발현? – 단일세포 Foundation Model 해석의 한계와 새로운 해법(CSSI)”

📝 Abstract

💡 Analysis

1. 연구 배경 및 목표

2. 평가 프레임워크 설계

3. 주요 결과 및 해석

3.1 레이어‑별 구조 vs. 예측 성능

3.2 주의‑상관관계 관계는 컨텍스트 의존적

3.3 CSSI (Cell‑State Stratified Interpretability)

3.4 교란 예측에서 “edge”가 제공하는 부가 가치 부재

3.5 표현식‑공변량에 대한 민감도

4. 강점

5. 한계 및 비판

6. 향후 연구 방향

7. 결론

📄 Content

평가 프레임워크 설계

데이터 규모와 해석 가능성

CSSI: 셀‑상태 층화 해석 가능성

목차

목차

📝 Abstract

💡 Analysis

1. 연구 배경 및 목표

2. 평가 프레임워크 설계

3. 주요 결과 및 해석

3.1 레이어‑별 구조 vs. 예측 성능

3.2 주의‑상관관계 관계는 컨텍스트 의존적

3.3 CSSI (Cell‑State Stratified Interpretability)

3.4 교란 예측에서 “edge”가 제공하는 부가 가치 부재

3.5 표현식‑공변량에 대한 민감도

4. 강점

5. 한계 및 비판

6. 향후 연구 방향

7. 결론

📄 Content

평가 프레임워크 설계

데이터 규모와 해석 가능성

CSSI: 셀‑상태 층화 해석 가능성

검색 시작

검색 결과 없음