SMILES 기반 고분자 그래프 표현을 활용한 기초 모델의 혁신적 성능
📝 Abstract
From the relative scarcity of training data to the lack of standardized benchmarks, the development of foundation models for polymers face significant and multi-faceted challenges. At the core, many of these issues are tied directly to the structural representation of polymers and here, we present a new foundation model using a SMILES-based polymer graph representation. This approach allows representation of critical polymer architectural features and connectivity that are not available in other SMILES-based representations. The developed polymer foundation model exhibited excellent performance on 28 different benchmark datasets. Critical evaluation of the developed representation against other variations in control experiments reveals this approach to be a highly performant method of representing polymers in language-based foundation models. These control experiments also reveal a strong invariance of all SMILES representations, with many variations achieving state-of-the-art or near state-of-the-art performance-including those which are chemically or semantically invalid. Examination of error sources and attention maps for the evaluated representations corroborate the findings of the control experiments, showing that chemistry language models based on SMILES interpolate over all sequence space for prediction tasks, not only those of semantically valid inputs. Overall, this work highlights the importance of control experiments as a check on human-imposed assumptions that can limit rational design of both chemistry foundation models and their underlying structural representations.
💡 Analysis
본 논문은 고분자 과학 분야에서 최근 급부상하고 있는 ‘foundation model’ 개념을 실제 적용하기 위해 가장 근본적인 문제인 구조 표현 방식을 재고한다는 점에서 큰 의의를 가진다. 전통적인 SMILES 문자열은 작은 분자에 대해 효율적인 텍스트 기반 표현을 제공하지만, 고분자는 반복 단위와 복잡한 아키텍처(예: 브랜치, 교차결합, 블록 공중합 등)를 포함하고 있어 단순 선형 문자열로는 이러한 정보를 충분히 전달하기 어렵다. 저자들은 이를 해결하고자 ‘SMILES 기반 고분자 그래프’라는 하이브리드 표현을 설계하였다. 구체적으로, 각 반복 단위는 SMILES 토큰으로 인코딩하고, 그래프 구조는 인접 행렬 혹은 엣지 리스트 형태로 추가함으로써, 토폴로지 정보와 화학적 연결성을 동시에 모델에 제공한다.
이러한 표현을 토대로 훈련된 언어 모델은 28개의 서로 다른 베치마크(물성 예측, 열역학적 특성, 전기·광학적 성능 등)에서 기존 방법들을 일관되게 앞섰다. 특히, 동일한 모델 아키텍처에 다양한 SMILES 변형(예: 무작위 순열, 비표준화된 토큰, 의도적으로 오류를 삽입한 문자열)을 입력했을 때도 성능 저하가 거의 없었다는 점은 ‘표현 불변성(invariance)’이 강하게 작용함을 시사한다. 이는 모델이 실제 화학적 의미보다는 문자열 패턴 자체를 학습하고, 전체 시퀀스 공간을 매끄럽게 보간(interpolation)한다는 의미이다.
오류 분석에서는, 화학적으로 불가능한 SMILES가 입력될 경우 모델이 여전히 합리적인 예측값을 산출하지만, 어텐션 맵을 살펴보면 특정 토큰에 과도하게 집중하는 경향이 드러난다. 이는 모델이 의미론적 오류를 감지하지 못하고, 학습 데이터에 내재된 통계적 편향에 의존한다는 위험성을 보여준다. 따라서, 고분자 설계와 같은 안전·신뢰성이 요구되는 분야에서는 이러한 ‘블랙박스’ 특성을 보완하기 위한 추가 검증 절차가 필요하다.
또한, 본 연구는 대조 실험의 중요성을 강조한다. 인간 연구자는 종종 “올바른 SMILES만 사용해야 한다”는 전제하에 모델을 설계하지만, 실제로는 비정상적인 입력도 동일한 성능을 보이는 경우가 존재한다. 이는 모델 설계 단계에서 인간의 직관이 과도하게 제한될 위험을 경고한다. 향후 연구에서는 그래프 기반 표현과 SMILES 텍스트를 결합한 멀티모달 학습, 혹은 화학 규칙을 명시적으로 삽입한 하이브리드 모델이 제안될 수 있다.
요약하면, 이 논문은 고분자 분야에 특화된 그래프‑SMILES 하이브리드 표현이 기존 텍스트‑전용 모델보다 우수함을 실증하고, 동시에 SMILES 변형에 대한 모델의 강인함과 한계를 동시에 조명한다. 이는 고분자 기초 모델 개발에 있어 구조 표현 선택이 성능뿐 아니라 해석 가능성, 신뢰성에도 결정적인 영향을 미친다는 중요한 교훈을 제공한다.
📄 Content
기초 모델의 혁신적 성능을 위한 SMILES 기반 고분자 그래프 표현 활용
고분자 재료의 합리적인 설계는 그 구조와 특성을 예측할 수 있는 강력한 인공지능(AI) 모델에 크게 의존합니다. 이러한 모델은 화학 공간의 광범위한 영역을 탐색하여 다양한 하류 작업에서 예측 능력을 제공할 수 있습니다. 그러나 단백질과 달리, 기초 모델을 위한 고분자 개발은 주요하고 종종 해결하기 어려운 과제에 직면해 있습니다. 데이터 부족 [6], 제한된 라이선스 [7][8][9][10], 그리고 데이터 출처의 제한 [11](그림 1c)는 심층 학습 모델의 개발과 상업적 활용을 제한합니다. 또한, 기존 데이터셋은 종종 불완전하며 중요한 구조적 설명자 [11][12][13][14][15]를 누락합니다. 이러한 설명자에는 중량 평균 분자량, 처리 조건 등이 포함되며, 이는 고분자 특성에 중요한 역할을 합니다.
고분자 데이터셋의 구조 표현은 주로 SMILES (Simplified Molecular Input Line Entry System) 변종의 사용에 의존합니다 [12][13][14][15]. SMILES는 화학 구조를 문자열로 표현하는 표준화된 방법이지만, 고분자의 복잡한 건축학적 및 구성적 특징을 정확하게 표현하는 데에는 한계가 있습니다. 이러한 한계를 극복하기 위해 다양한 SMILES 확장 버전이 개발되었습니다 [29,[31][32][33], 연결 문자열의 조정 [34], 추가 텍스트 정보의 포함 [18,22,23], 또는 SMILES를 SELFIES (SMILES-like representations for molecular images)로 변환 [26] 등입니다. 이러한 접근 방식은 특정 다운스트림 작업에서 모델 성능을 향상시키는 데 성공적이었습니다. 그러나 벤치마크 성능만으로는 표현 변경이 실제 성능 향상에 기여했는지 확인하기 어렵습니다.
본 연구에서는 고분자 구조 표현의 핵심적인 문제에 초점을 맞추고, 최소한의 SMILES 문법 확장을 통해 일반적인 고분자 건축을 인코딩하고 모델에 전달하여 성능 향상을 유도하고자 합니다.
이전 연구에서, 우리는 화학 마킹 언어(CMDL)를 소개했습니다. CMDL은 고분자를 그래프로 표현하고 이를 문자열로 변환하여 회귀 트랜스포머 모델에 사용할 수 있습니다 [35]. 이 접근 방식은 실험적으로 유효했지만, CMDL의 직렬화된 고분자 그래프 표현은 PSMILES (확장된 SMILES) 또는 다른 데이터셋과 호환되지 않아 맞춤형 토큰화가 필요했습니다. 그러나 CMDL의 장점은 도메인 특정 언어로서 고분자를 그래프로 표현하고 다양한 직렬화 표현으로 컴파일할 수 있는 유연성을 제공한다는 것입니다.
CMDL의 핵심 고분자 그래프 표현은 두 가지 원칙에 기반합니다: 1) 핵심 구조적 구성 요소 간의 연결 지정, 2) 건축학적 대칭성 감소. 각 고분자 구조적 구성 요소는 SMILES 문자열로 표현되며, 비원자 플레이스홀더 문자를 사용합니다 (Q, R). 건축학적 대칭성은 엣지 정의를 통해 무게로 표시됩니다 [35]. 대부분의 PSMILES 데이터셋은 상대적으로 단순한 호모폴, 랜덤 또는 블록 공중체이며, 건축학적 대칭성이 거의 없습니다 [12,13,18,36]. 따라서 CMDL의 고분자 그래프 표현을 이러한 데이터셋에 쉽게 적용할 수 있습니다.
이 접근 방식의 장점은 다양한 고분자 구조 유형, 종단 그룹 및 혼합 또는 포뮬레이션을 포괄할 수 있다는 것입니다. 또한, 이 표현은 블록 공중체와 같은 중합체를 구별할 수 있으며, 이는 화학 언어 모델이 PSMILES 표현만 사용하여 이러한 중합체를 잘못 연관시킬 가능성이 있기 때문입니다.
또한, 이 표현 방식은 혼합 고분자 또는 소분자 혼합물을 포함하는 데이터셋 (예: 많은 고분자 전해질 데이터셋)을 처리할 수 있습니다 (보충 자료 1).
사전 학습 및 벤치마크 데이터셋은 공개적으로 이용 가능한 데이터셋에서 가져왔습니다 [12,18,18,21,23,[36][37][38][39][40][41][42]. PSMILES 또는 다른 표현 방식의 데이터셋은 CMDL 고분자 그래프 표현으로 변환되었습니다. SMI-TED-POLYMER 289M 모델의 사전 학습 과정에는 두 가지 주요 단계가 포함됩니다: 1) 토큰 임베딩 학습, 2) 통합된 CPG 문자열로 토큰 임베딩을 재구성하는 것입니다. 이 재구성된 공간은 구조 표현과 고분자 토큰 및 전체 CPG 문자열의 재구성을 모두 포착합니다. 따라서 사전 학습 과정은 두 가지 다른 손실 함수를 사용합니다: 하나는 토큰 임베딩을 다루며 마스킹 메커니즘에 기반하며, 다른 하나는 인코더-디코더 레이어를 대상으로 토큰 재구성을 수행합니다.
CPG 표현의 유용성을 평가하기 위해 SMI-TED-POLYMER 모델은 다양한 속성 예측 작업 (총 28개 데이터셋)에 대해 테스트되었습니다 (보충 자료 참조). 각 벤치마크 작업은 전자, 물리, 광학 및 가스 차단 특성과 같은 네 가지 주요 범주로 분류되었습니다 (표 1). SMI-TED-POLYMER 모델은 모든 범주에서 SOTA (최고 성능)를 달성하거나 달성했습니다 (데이터셋 2-5, 10-18, 20, 23, 28, 표 1). 일부 경우, SMI-TED-POLYMER 모델의 결과는 SOTA 값과 매우 근접했습니다. 특히 전자 친화성과 이온화 잠재력과 같은 전자 특성은 상당한 편차를 보였습니다 (데이터셋 6 및 7, 표 1).
표 1에서 나타난 바와 같이, CPG 표현은 고분자 속성 예측 작업에 있어 SMILES 기반 모델의 성능을 향상시키는 데 효과적임을 보여줍니다. 그러나 이러한 결과만으로는 CPG 표현이 PSMILES 또는 다른 선형 노트이션보다 우월한지, 아니면 단순히 구조 표현 변경으로 인해 성능 향상이 일어났는지를 확신할 수 없습니다. 엄밀한 평가는 제어 실험을 통해 수행되어야 합니다. 이는 대부분의 벤치마크 연구가 모델 아키텍처 또는 피처링 방법에 초점을 맞추고 구조 표현 시스템의 요구 사항이나 해석 방식에 대한 가정을 검증하기 위한 실험이 부족하기 때문입니다.
CPG 표현의 효과를 체계적으로 평가하기 위해, 우리는 SMI-TED 모델 (SMI-TED-POLYMER의 기반 모델)을 사용하여 SMI-TED-POLYMER 모델과 비교할 수 있는 여섯 가지 다른 모델을 개발했습니다. 이는 두 가지 고정된 무게 (SMI-TED 및 미세 조정된 SMI-TED-POLYMER)와 각 표현 시스템에 대해 미세 조정된 버전으로 구성됩니다.
CPG와 PSMILES 표현을 비교하는 것은 SMI-TED 또는 SMI-TED-POLYMER 모델의 기본 구조가 asterisk 토큰을 포함하는 SMILES 문자열을 처리한다는 전제 하에 수행되었습니다. 따라서 추가적인 변형을 통해 두 표현 시스템의 성능을 평가해야 합니다.
이러한 변형은 세 가지 접근 방식을 포함합니다: 1) 모든 asterisk 문자를 동일한 원자로 대체, 2) bracket 내 번호가 있는 asterisk와 숫자 모두 대체, 3) bracket 내 asterisk만 대체. 또한, 일부 대체는 유효한 SMILES 문자열을 생성하지 않기 때문에 이러한 표현에 대한 추가적인 제어 실험이 필요합니다.
특히, 금속과 같은 원자는 모델의 토큰 목록에 존재하지 않기 때문에 메타 데이터로 대체됩니다. 이러한 대체는 패딩 토큰으로 처리되어 상호 교환 가능하지만, CPG 표현에서 숫자 지정이 제거된 경우와 같이 일부 예외가 발생할 수 있습니다.
다양한 표현 시스템과 모델의 성능을 평가하기 위해 5-폴드 교차 검증 실험이 반복되었습니다 (각 폴드에 대해 5회 반복). XGBoost 회귀 모델은 각 표현 시스템에 대해 동일한 훈련/검증/테스트 분할을 사용하여 최적화되었습니다 (방법 참조).
그림 2는 CPG, PSMILES 및 다양한 대체 표현 시스템의 성능을 보여줍니다. 결과는 이러한 표현 시스템이 거의 동일하게 수행되며, 데이터셋에 따라 성능에 약간의 변동이 있음을 나타냅니다. 흥미롭게도, CPG 표현은 SMI-TED 모델의 미세 조정이 없음에도 불구하고 모든 데이터셋에서 우수한 성능을 보였습니다 (그림 2). 또한, 랜덤하게 섞인 SMILES 표현 (RC 및 RT)은 대부분의 경우 다른 입력 표현 시스템과 유사한 성능을 보였으며, 일부 경우 SOTA 수준에 근접했습니다. 미세 조정은 랜덤한 토큰 대체 표현의 성능을 향상시켰습니다 (그림 2).
대체 표현 시스템의 분석 결과, CPG, PSMILES 및 대부분의 대체 표현은 유사한 성능을 보였으며, 일부 예외가 데이터셋에 따라 발생했습니다. 이러한 결과는 예측 오류와 구조 표현 간의 상관 관계를 이해하는 데 중요한 함의를 가집니다.
딥러닝 모델의 예측 오류는 종종 그들의 상호 보완적인 본질과 시스템 편향이 도입된 훈련 및 벤치마크 데이터에 기인합니다. 심층 학습 모델은 화학 공간을 탐색하여 다양한 하류 작업에서 예측 능력을 제공하지만, OOD 작업에 대한 어려움을 겪습니다 [48]. 이러한 한계를 극복하기 위한 노력에는 OOD 성능을 향상시키기 위한 다양한 기술이 포함됩니다 [49][50][51]. 또한, 데이터 분할 기법의 영향 [52][53][54], 예측 불확실성 정량화 [51,[55][56][57], 그리고 표현의 거친 정도 분석 [58]에 대한 연구가 이루어졌습니다.
본 연구에서는 예측 오류의 잠재적인 원인을 이해하기 위해 훈련 및 테스트 세트 간의 예측 오차를 분석했습니다. 이러한 오차는 화학 유사성에 기반한 원자 쌍 지문과 관련이 있습니다. 원자 쌍 지문은 이전 연구에서 작은 분자 데이터셋에 대한 예측 오류를 설명하는 데 효과적이었습니다 [59,60].
요약하자면, 본 연구에서는 고분자 구조 표현을 개선하기 위해 SMILES 기반 고분자 그래프 표현인 CPG를 제안했습니다. CPG는 다양한 고분자 구조 유형과 복잡성을 포괄할 수 있으며, 이를 통해 심층 학습 모델의 성능을 향상시킬 수 있습니다. 제어 실험 및 표현 시스템 간의 비교를 통해 CPG가 PSMILES와 같은 기존 표현 시스템에 비해 우월한지 확인할 수 있었습니다. 이러한 결과는 고분자 AI 연구에서 구조 표현의 중요성을 강조하며, 향후 연구 방향을 제시합니다.
이 글은 AI가 자동 번역 및 요약한 내용입니다.