NEAT: 원자 순열 불변성을 갖는 효율적인 3D 분자 자동회귀 생성 모델
초록
NEAT는 분자 그래프를 원자 집합으로 취급해 순서에 구애받지 않는 확률 분포를 학습하는 자동회귀 세트 트랜스포머이다. 이 모델은 이웃 정보를 활용해 토큰 선택을 가이드하고, 효율적인 어텐션 설계와 마스크 기반 디코딩으로 3D 좌표와 화학적 연결을 동시에 생성한다. 실험 결과, 기존 자동회귀 및 확산 기반 방법들을 능가하면서 원자 수준의 순열 불변성을 보장한다.
상세 분석
NEAT는 기존 트랜스포머 기반 3D 분자 생성 모델이 직면한 두 가지 근본적인 한계를 동시에 해결한다. 첫째, 원자 순서는 물리적으로 고정되지 않은 집합(set) 형태이므로 순차적 토큰화가 불가능하고, 이는 canonical ordering을 강제하면 순열 불변성이 깨져 prefix completion 같은 작업에 부적합해진다. 둘째, 3D 좌표와 결합 정보를 동시에 다루는 고차원 어텐션 연산은 계산 비용이 급격히 증가한다. 이를 극복하기 위해 NEAT는 ‘Set Transformer’를 기반으로 하여 입력을 순서가 없는 집합으로 처리하고, ‘Neighborhood‑guided’ 메커니즘을 도입한다. 구체적으로, 현재 그래프 경계에 위치한 원자들의 1‑hop 이웃 정보를 집계해 토큰 후보의 확률을 조정함으로써, 물리적 근접성에 기반한 의미론적 제약을 자연스럽게 반영한다. 또한, 효율성을 위해 라인어스(Linear) 어텐션과 토큰‑레벨 마스크를 결합해 복잡도를 O(N) 수준으로 낮추면서도 전역적인 컨텍스트를 유지한다. 학습 단계에서는 변분 하한(VAE‑like) 목표와 함께 3D 좌표의 회전·반사 불변성을 보장하는 정규화를 적용해, 생성된 구조가 실제 화학적 유효성을 갖도록 유도한다. 실험에서는 QM9, GEOM‑Drugs 등 대규모 3D 분자 데이터셋에서 기존 SOTA인 Graphormer‑AR, Diffusion‑based EDM 등과 비교해 유효성(Validity), 독창성(Novelty), 다양성(Diversity) 지표에서 모두 우수한 성능을 기록했다. 특히, 원자 순열을 임의로 섞어도 동일한 확률 분포를 출력하는 ‘Permutation Invariance’ 테스트에서 0% 차이를 보이며 설계 목표를 완벽히 달성했다. 이러한 설계는 향후 약물 설계, 재료 탐색 등에서 부분적인 구조를 고정하고 나머지를 완성하는 prefix completion 시나리오에 직접 적용 가능하다는 점에서 큰 의미를 가진다.