Title: Mechanistic Interpretability of Antibody Language Models Using SAEs
ArXiv ID: 2512.05794
발행일: 2025-12-05
저자: Rebonto Haque, Oliver M. Turnbull, Anisha Parsan, Nithin Parsan, John J. Yang, Charlotte M. Deane
📝 초록 (Abstract)
희소 오토인코더(SAE)는 대형 단백질 언어 모델이 학습한 개념을 해석하는 메커니즘적 기법으로 활용되어 왔다. 본 연구에서는 TopK와 Ordered SAE를 적용해 자동회귀 항체 언어 모델인 p‑IgGen을 조사하고, 그 생성 과정을 조정한다. 실험 결과, TopK SAE는 생물학적으로 의미 있는 잠재 특징을 드러내지만, 특징과 개념 사이의 높은 상관관계가 반드시 생성에 대한 인과적 제어를 보장하지는 않는다. 반면 Ordered SAE는 계층적 구조를 부여하여 조정 가능한 특징을 신뢰성 있게 식별하지만, 활성 패턴이 더 복잡하고 해석이 어려워진다. 이러한 결과는 도메인 특화 단백질 언어 모델의 메커니즘적 해석을 진전시키며, 개념 매핑에는 TopK SAE가 충분하지만 정밀한 생성 스티어링이 필요할 때는 Ordered SAE가 더 적합함을 시사한다.
💡 논문 핵심 해설 (Deep Analysis)
본 논문은 단백질 언어 모델, 특히 항체 서열을 생성하도록 설계된 pIgGen에 대한 메커니즘적 해석을 목표로 한다. 이를 위해 두 종류의 희소 오토인코더, 즉 TopK SAE와 Ordered SAE를 도입하였다. TopK SAE는 각 레이어에서 가장 큰 K개의 활성값만을 보존함으로써 희소성을 강제하고, 이를 통해 잠재 공간의 개별 차원이 특정 생물학적 특성과 강하게 연관되는지를 탐색한다. 실험에서는 특정 뉴런(또는 뉴런 집합)이 항체의 CDR(Complementarity Determining Region) 길이, 친화도, 혹은 특정 아미노산 패턴과 높은 상관을 보이는 것이 확인되었다. 그러나 이러한 상관관계가 실제로 해당 뉴런을 조작했을 때 원하는 서열 변이를 일관되게 유도한다는 증거는 부족했다. 즉, 상관이 인과를 의미하지 않으며, TopK SAE만으로는 생성 과정의 정밀 제어가 제한적이다.
Ordered SAE는 TopK 방식에 계층적 제약을 추가한다. 활성값을 크기 순서대로 정렬하고, 상위 활성값이 하위 활성값을 억제하도록 설계함으로써, 잠재 차원 간에 명확한 우선순위와 종속성을 부여한다. 이 구조는 “핵심” 특징이 먼저 활성화되고, 그 뒤에 보조적인 특징이 따라오는 형태를 만든다. 논문에서는 이러한 계층적 구조가 특정 기능(예: 항체의 프레임워크 영역 보존 또는 특정 변이 억제)을 목표로 할 때, 해당 기능에 대응하는 뉴런을 직접 조작하면 기대한 서열 변이가 높은 확률로 발생함을 보여준다. 다만, 활성 패턴이 복잡해져 해석이 어려워지는 부작용이 있다. 예를 들어, 하나의 뉴런을 억제했을 때 예상치 못한 다른 뉴런들의 활성도가 변동하는 현상이 관찰되었으며, 이는 계층적 억제 메커니즘이 상호작용을 일으키기 때문이다.
결과적으로, 두 SAE 방식은 서로 보완적인 역할을 수행한다. TopK SAE는 “어디에 의미가 있는가”를 빠르게 탐색하는 탐색적 도구로 유용하고, Ordered SAE는 “어떻게 조절할 것인가”에 대한 정밀한 제어 수단으로 적합하다. 연구는 또한 도메인 특화 단백질 언어 모델에 대한 해석 가능성을 높이는 동시에, 생성 모델을 실험실 수준의 설계 목표에 맞게 스티어링할 수 있는 가능성을 제시한다. 향후 과제는 계층적 억제 구조를 더 직관적으로 설계하고, 활성 패턴의 복잡성을 낮추는 방법을 모색함으로써, 해석 가능성과 제어 가능성 사이의 트레이드오프를 최소화하는 것이다.
📄 논문 본문 발췌 (Excerpt)
## 항체 언어 모델 pIgGen의 생성 조절을 위한 TopK 및 Ordered 희소 오토인코더 분석
항체는 체내 적응면역 반응의 핵심 요소로서, 특정 항원과의 결합 및 중재 능력을 통해 그 역할을 수행합니다. 이러한 능력은 구조적 다양성에서 기인하며, 거의 모든 표적 항원을 결합할 수 있습니다 (Chiu et al., 2019).
항체의 항원 결합 도메인은 변이중쇄(VH)와 경중쇄(VL) 사슬로 구성됩니다. 항체-항원 결합 특성과 친화성은 보완결합단위(CDR)라고 불리는 구조적 단위들에 의해 크게 결정됩니다. 각 VH 및 VL 사슬은 3개의 CDR를 가지며, 이는 총 6개의 CDR를 형성하여 항체의 전체적인 다양성을 이끌어냅니다. 우리 유전체 내에서 V, D, J 유전자 세그먼트가 결합하여 VH 및 VL 사슬을 암호화합니다.
항체 생성에는 다양한 유전자 세그먼트의 조합(V, D, J)이 결합하여 최종 시퀀스 다양성을 만들어내는 과정인 결합적 조립이 포함됩니다. 또한, 소세포 변이(somatic hypermutation)로 인해 항체 중쇄에 있는 V(D)J 세그먼트에서 무작위 누누 서브스트리션이 발생하여 시퀀스 다양성이 더욱 증가합니다 (Andreano & Rappuoli, 2021).
항체 약물 개발의 가능성은 높은 특이성과 친화성을 가진 항체의 존재로 인해 주목받고 있습니다. 그 결과, 항체 약물은 시장 점유율이 꾸준히 증가하고 있으며, 전체 제약 시장의 상당 부분을 차지하고 있습니다 (Crescioli et al., 2025). 항체 약물 개발 파이프라인에서는 특정 표적에 대한 특이성과 결합 친화성을 가진 후보 항체를 식별하는 것이 필수적이며, 또한 ‘개발 가능성’을 지닌 항체도 필요합니다. 개발 가능성은 성공적인 약물로서 필요한 특성인 면역원성, 용해성, 특이성, 안정성, 제조 가능성, 저장 가능성 등을 포함합니다 (Raybould & Deane, 2022).
항체 언어 모델은 약물 개발 파이프라인에서 다양한 단계를 최적화하는 데 활용되어 왔습니다. p-IgGen은 GPT와 유사한 구조의 디코더 전용 모델로, 17M 매개변수를 가지고 있습니다 (Turnbull et al., 2024). 저자들은 짝을 이룬 모델과 미세 조정된 버전을 공개했으며, 이는 다양한 항체 라이브러리를 생성하고 개발 가능성을 지닌 특성을 가진 항체를 생산하는 데 활용될 수 있습니다.
기계 학습 모델의 해석 불가능성은 모델 예측에 대한 신뢰 부족, 생물학적으로 관련성 있는 기능의 사용 여부 파악 어려움, 과적합 문제 등을 야기하여 항체 약물 발견을 위한 언어 모델의 적용에 장벽을 만듭니다 (Chen et al., 2023). 구조적 해석 가능성을 제공하는 자동 인코더(SAE)는 이러한 문제를 해결하는 데 유망한 접근법으로, 학습된 인간 이해 가능한 개념을 식별하고 모델 출력을 제어할 수 있습니다 (Chen et al., 2025; Templeton et al., 2024). 기존 연구에서는 SAE를 사용하여 PLM(변환 기반 언어 모델)의 내부 메커니즘을 이해하고 모델 출력을 제어했습니다 (Adams et al., 2025; Parsan et al., 2025b; Simon & Zou, 2024). 그러나 항체 또는 단백질에 특화된 언어 모델에서 SAE를 사용한 연구는 부족합니다. 이 논문은 항체 언어 모델 p-IgGen의 해석 가능성을 향상시키고, SAE를 사용하여 항체 라이브러리 생성에 대한 제어를 개선하는 것을 목표로 합니다.
기계 학습 모델의 메커니즘적 해석성은 복잡한 기계 학습 시스템을 설명하기 위해 모델의 기능 단위(기능)를 설명하는 접근법입니다 (Kästner & Crook, 2024). 이는 시스템의 더 기본적인 계산으로 분해하거나 역공학하여 시스템의 동작 방식을 이해하는 것을 목표로 합니다. 궁극적으로 이 목표는 모델 입력과 출력 사이의 인과 관계를 발견하는 것입니다.
변환 기반 언어 모델에 대한 연구에서, 세 가지 주요 개념이 메커니즘적 해석성에 관련됩니다: 기능, 회로, 보편성 (Rai et al., 2025). 기능은 모델 활성화로부터 인간이 이해할 수 있는 속성을 의미합니다. 회로는 이러한 기능이 추출되는 방법과 입력에서 출력으로 정보가 전달되는 방식을 설명합니다. 보편성은 특정 모델과 작업에 국한되지 않고 다른 모델과 작업에서도 존재하는 개념을 의미합니다. 이 논문은 특히 언어 모델의 기능에서 SAE를 사용하여 메커니즘적 해석성을 연구하는 데 초점을 맞춥니다.
희소 오토인코더(SAE)는 기능 발견에 특화된 기계 학습 모델로, 기능 중복으로 인해 발생하는 문제인 기능 과다성을 해결합니다. SAE는 밀집 신경망의 활성화를 희소한 잠재 공간으로 투영하여 기능 간 중복을 줄입니다.
TopK SAE와 Ordered SAE는 메커니즘적 해석성을 위한 SAE의 두 가지 주요 유형입니다. TopK SAE는 잠재 공간에서 가장 높은 확률을 가진 상위 k 잠재 표현을 선택하여 각 토큰을 표현합니다 (Gao et al., 2024). 이는 모델의 활성화 패턴을 단순화하고 해석하기 쉽게 만듭니다. 반면에 Ordered SAE는 계층적 순서를 유지하는 잠재 공간을 생성하여 더 복잡한 기능 관계를 포착할 수 있습니다 (Parsan et al., 2025b).
본 논문은 TopK 및 Ordered SAE를 사용하여 p-IgGen의 생성 조절을 분석합니다. 구체적인 연구 목표는 다음과 같습니다:
항체 시퀀스 데이터셋에 대한 TopK 및 Ordered SAE의 적응성을 평가합니다.
SAE 잠재 표현에서 생물학적으로 관련성 있는 항체 특성을 식별하고, 이를 사용하여 p-IgGen의 생성을 제어합니다.
SAE를 사용하여 항체 언어 모델의 메커니즘적 해석성을 향상시킵니다.
실험 방법:
…(본문이 길어 생략되었습니다. 전체 내용은 원문 PDF를 참고하세요.)…