양자 어닐링 기반 생성 AI 모델의 새로운 목표 함수로 훈련 데이터 한계를 뛰어넘다
📝 Abstract
Deep generative modeling to stochastically design small molecules is an emerging technology for accelerating drug discovery and development. However, one major issue in molecular generative models is their lower frequency of drug-like compounds. To resolve this problem, we developed a novel framework for optimization of deep generative models integrated with a D-Wave quantum annealing computer, where our Neural Hash Function (NHF) presented herein is used both as the regularization and binarization schemes simultaneously, of which the latter is for transformation between continuous and discrete signals of the classical and quantum neural networks, respectively, in the error evaluation (i.e., objective) function. The compounds generated via the quantum-annealing generative models exhibited higher quality in both validity and drug-likeness than those generated via the fully-classical models, and was further indicated to exceed even the training data in terms of drug-likeness features, without any restraints and conditions to deliberately induce such an optimization. These results indicated an advantage of quantum annealing to aim at a stochastic generator integrated with our novel neural network architectures, for the extended performance of feature space sampling and extraction of characteristic features in drug design.
💡 Analysis
**
1. 연구 배경 및 동기
- 분자 생성 모델의 한계: 현재 VAE, GAN, Transformer 기반 모델은 약물‑유사성이 낮은 화합물을 많이 생성한다. 이는 훈련 데이터가 전체 화학 공간(≈10⁶⁰)에 비해 극히 제한적(≈10¹⁰)이라는 근본적인 데이터 부족 문제에서 기인한다.
- 양자 머신러닝(QML)과 양자 어닐링: 기존 게이트 기반 QML은 파라미터 최적화 시 barren plateau 문제와 고전 시뮬레이션 가능성 등 실용성에 제약이 있다. 반면 양자 어닐링은 Ising Hamiltonian 으로 최적화·샘플링을 직접 하드웨어에서 수행하므로, 복잡한 에너지 지형을 빠르게 탐색할 수 있다.
2. 핵심 기여
| 번호 | 내용 | 의의 |
|---|---|---|
| 1 | Neural Hash Function (NHF) 도입 | 연속형 출력 → 이진 코드 변환을 비미분 문제 없이 역전파 가능하게 함. 기존 Gumbel‑Softmax 등 확률적 이진화와 달리 deterministic하게 손실을 설계해 학습 안정성을 높임. |
| 2 | 양자화 손실(Quantization Loss) 와 정규화 손실(Regularization Loss) 를 목표 함수에 포함 | 이진 코드의 품질을 직접 최적화함으로써, latent space의 정보 손실을 최소화하고, 서로 독립적인 비트(orthogonal weight) 를 유도. |
| 3 | QBM 을 사전 분포로 사용 | 양자 어닐링을 통해 볼츠만 분포 를 직접 샘플링, 고전 BM 대비 더 낮은 에너지와 다양한 샘플을 제공. |
| 4 | 전통적인 VAE와 DVAE 를 양자 어닐링 파이프라인에 통합 | 기존 딥러닝 기반 분자 생성 모델에 양자 최적화 단계(Annealing) 를 삽입, 전산·양자 하이브리드 구조를 구현. |
3. 실험 설계 및 결과
- 데이터: ChEMBL 공개 데이터셋을 사용해 SMILES → 토큰화 → VAE 입력으로 활용.
- 모델 비교:
- 클래식 BM + Gumbel‑Softmax
- 클래식 BM + NHF
- QBM + Gumbel‑Softmax
- QBM + NHF (제안 모델)
- 평가 지표:
- Validity (SMILES → 화학 구조 변환 성공률)
- QED 점수 (약물‑유사성)
- Scaffold hopping / preserving 분석 (MC, TS)
- 핵심 결과:
- Validity: QBM + NHF 97% (클래식 BM + NHF 62%) → 양자 사전이 샘플 품질을 크게 향상.
- QED: QBM 기반 모델이 훈련 데이터 평균보다 높은 QED 분포를 보이며, QED > 0.7인 약물‑유사 화합비율이 클래식 BM 및 훈련 데이터 를 모두 초과.
- Scaffold hopping: 높은 MC·낮은 TS 영역에서 새로운 스캐폴드(예: 체인 → 고리 변환) 를 생성, 이는 기존 화합물과 구조적 차별성을 확보하면서도 약물‑유사성을 유지함을 의미.
4. 장점
- 비미분 문제 해결: NHF는 deterministic binarization + 손실 설계로 역전파 가능성을 확보, 학습 안정성 및 수렴 속도 개선.
- 양자 어닐링 활용: QBM이 제공하는 본질적인 샘플링 다양성 은 고전 BM이 재현하기 어려운 고품질 화합물을 생성.
- 데이터 독립성: 훈련 데이터의 약물‑유사성 한계를 넘어서는 화합물을 자동으로 탐색, 데이터 부족 문제를 완화.
- 스케일러빌리티: D‑Wave Advantage2™와 같은 최신 양자 어닐러는 수천 개의 스핀을 동시에 다룰 수 있어, 대규모 latent space에도 적용 가능.
5. 한계 및 개선점
| 구분 | 내용 | 제언 |
|---|---|---|
| 양자 하드웨어 제약 | 현재 D‑Wave는 노이즈와 제한된 연결성(chimera/pegasus) 때문에 최적화된 J_ij, h_i 를 완전 자유롭게 설정하기 어려움. | 차세대 양자 어닐러(예: D‑Wave 2000Q+ 혹은 양자 시뮬레이터) 로 연결성 제약을 완화하고, error mitigation 기법을 적용. |
| 목표 함수 복잡성 | NHF 손실에 여러 정규화 항이 포함돼 하이퍼파라미터 튜닝이 필요함. | 자동화된 베이지안 최적화 혹은 Meta‑Learning 으로 손실 가중치를 최적화. |
| 샘플 다양성 | QED 점수는 높지만, 화학적 합성 가능성(synthetic accessibility) 은 별도 평가가 필요. | SA (Synthetic Accessibility) score 혹은 retrosynthetic planning 과 연계해 다목적 최적화 수행. |
| 해석 가능성 | 양자 사전이 어떻게 “높은 QED” 샘플을 선호하는지 메커니즘이 불투명. | Ising 파라미터 분석(J_ij, h_i) 과 양자 상태 시각화를 통해 에너지 지형과 화합물 특성 간 관계 규명. |
| 비교 대상 부족 | 최신 Diffusion 모델(e.g., EDM, Graphormer) 과의 직접 비교가 없으며, RL 기반 최적화와도 비교 필요. | 동일 데이터셋·평가 지표에서 Diffusion, Reinforcement Learning 기반 모델과 베이스라인을 추가해 포괄적 성능 검증. |
6. 향후 연구 방향
- 다목적 최적화: QED 외에 ADMET, toxicity, synthetic accessibility 등을 동시에 고려하는 멀티‑오브젝티브 손실 설계.
- Hybrid Architecture: Transformer‑based encoder‑decoder와 Quantum‑enhanced latent sampler 를 결합해, 더 복잡한 화학 구조(예: 금속‑리간드 복합체)까지 확장.
- 양자‑클래식 피드백 루프: 양자 어닐링으로 얻은 샘플을 클래식 모델에 재학습시켜, 양자 샘플링의 장점을 일반화된 모델에 전이.
- 실험적 검증: 생성된 고 QED 화합물을 실제 합성·생물학적 테스트에 적용해, 모델이 제시하는 “새로운 화학 공간”이 실용적인 약물 후보가 되는지 검증.
**
📄 Content
약물 발견 분야에서 최적의 화학적 특성과 합성 가능성을 갖는 분자 구조를 효율적으로 설계하는 일은 복잡하면서도 중요한 연구 영역입니다.
전통적인 설계‑실험 사이클을 반복하는 접근법은 방대한 화학 공간 중 아주 작은 영역만을 탐색할 수 있습니다. 약물로 사용될 수 있는 합성 가능한 분자의 수는 10^60 이상으로 추정되는 반면, 실제로 합성 가능한 분자는 약 10^10~10^5 정도에 불과합니다. 따라서 기존의 탐색 방법은 전체 화학 공간의 극히 일부분만을 커버하게 됩니다.
최근 머신러닝·딥러닝 기반 약물 설계는 이러한 거대한 화학 공간을 보다 넓게 탐색할 수 있는 가능성을 보여주고 있습니다. 딥러닝과 딥 생성 모델의 최신 성과를 적용하면, 원하는 화학적 특성을 가진 분자를 생성하는 다양한 딥 생성 모델이 보고되었습니다[2,3]. 그럼에도 불구하고 기존 생성 모델이 만든 화합물에는 두 가지 주요 과제가 남아 있습니다.
- ‘약물‑유사(drug‑like)’ 분자의 빈도가 낮다 – 목표 단백질에 대한 활성을 보이고, 화학적 특성과 합성 가능성이 허용 가능한 수준을 만족하는 분자가 드물다.
- 화합물의 특성과 구조적 다양성 사이의 트레이드‑오프 – 특성을 강화하려 하면 다양성이 감소하고, 반대로 다양성을 높이면 특성이 떨어지는 경향이 있다[4].
이 문제들의 한 원인은 데이터 부족입니다. 현재 합성 가능한 화합물의 수는 약 10^10~10^5에 불과하지만, 전체 화학 공간은 10^60에 달합니다. 따라서 학습 데이터로 사용할 수 있는 샘플이 전체 탐색 공간에 비해 극히 제한적이며, 이는 과적합에 의한 일반화 성능 저하를 초래합니다.
양자 머신러닝(QML) 개요
양자 머신러닝(QML, 혹은 양자 인공지능(QAI))은 양자 컴퓨팅과 머신러닝을 결합한 신흥 연구 분야입니다. QML은 양자 중첩, 얽힘, 터널링과 같은 양자 자원을 활용해 고전 학습 모델을 가속하거나 향상시키는 방법을 탐구합니다. 초기 연구 대부분은 게이트 기반 패러다임에 초점을 맞추었으며, 데이터와 모델 파라미터를 유니터리 변환과 투영 측정으로 구성된 양자 회로에 인코딩합니다. 양자 서포트 벡터 머신, 커널 추정기, 양자 신경망 등은 파라미터화된 양자 회로(parameterized quantum circuits, PQC)를 통해 구현되고, 하이브리드 양자‑고전 피드백 루프를 이용해 최적화됩니다[6].
하지만 파라미터화된 양자 회로를 학습하는 과정에서 **‘ barren plateau(고원 현상)’**이라 불리는 기울기 소실 문제가 발생해 확장성이 제한될 가능성이 제기되고[7], 또한 고전 시뮬레이션으로 효율적으로 근사될 수도 있다는 우려가 있습니다[8].
이에 대한 대안으로 양자 어닐링(quantum annealing) 기반 프레임워크가 제시됩니다[9,10]. 양자 어닐링은 최적화·샘플링 작업을 아날로그 방식으로 구현하며, 학습 문제를 Ising Hamiltonian 으로 매핑하고 시스템이 저에너지 상태를 탐색하도록 합니다. 이러한 저에너지 구성들을 샘플링하는 과정은 Ising Hamiltonian의 파라미터(예: J_ij, h_i)를 학습시켜 ‘binary’ 데이터 분포 혹은 ‘binary’ 잠재 표현을 학습함으로써 제어할 수 있습니다. D‑Wave의 Advantage2™ 양자 어닐러와 같은 양자 어닐러는 이러한 동역학을 하드웨어 수준에서 구현해 복잡한 에너지 지형을 대규모로 탐색할 수 있게 합니다[11‑13]. 최근 실험에서는 양자 어닐링이 저에너지 상태에 도달하는 스케일링 이점을 보였으며[14,15], 그 결과 샘플링 분포는 현재 알려진 어떤 고전 시뮬레이션으로도 효율적으로 재현되지 못함이 입증되었습니다[15]. 따라서 약물 발견·재료 설계와 같은 분야에서 양자‑강화 생성 모델을 활용할 가능성을 탐색하는 것이 중요합니다.
변분 오토인코더(VAE) 기반 화합물 생성 모델
본 보고서에서는 Variational Autoencoder (VAE) 기반 생성 모델을 출발점으로 삼았습니다. VAE는 잠재 변수의 근사 사후분포를 설정하고, 증거 하한(Evidence Lower Bound, ELBO) 을 최적화함으로써 실제 로그우도 대신 tractable 한 목표 함수를 학습합니다. Amortized inference와 reparameterization trick을 이용해 재구성 손실과 정규화 항을 포함하는 손실 함수를 효율적으로 최소화할 수 있습니다[16,17].
- TransVAE[3]는 Transformer 기반 Encoder‑Decoder와 연속형 잠재 공간을 결합해 분자 문자열을 생성합니다.
- Discrete VAE (DVAE)[18]는 잠재 변수를 이산형으로 두고, Boltzmann Machine (BM) 을 사전 분포로 사용해 화합물 생성을 수행했습니다[19].
DVAE는 이산형 사전(discrete prior) 을 도입함으로써, 토큰화된 SMILES 혹은 SELFIES와 같은 범주형 구조를 가진 데이터에 적합합니다. 또한, 이산형 사전은 양자 컴퓨팅—특히 측정 결과가 이진(스핀) 상태인 경우—와 자연스럽게 결합될 수 있습니다. 실제로 Quantum VAE[20]는 고전 BM 대신 Quantum Boltzmann Machine (QBM) 을 사전으로 사용했으며, D‑Wave 양자 어닐러를 통해 Boltzmann 분포 샘플링을 수행했습니다.
DVAE에서 연속 → 이진 변환은 미분 가능하지 않아 재구성 손실의 그래디언트가 Encoder까지 역전파되지 못하는 문제가 있었습니다. 이를 해결하기 위해 DVAE는 보조 연속 변수를 도입해 스토캐스틱하게 이산 변수를 변환했으며[18,22], 특정 스무딩 분포를 가정해 재파라미터화가 가능하도록 했습니다. 그러나 비미분 가능성은 여전히 근본적인 제약으로 남아 있습니다.
새로운 비미분 가능성 해결 방안: NHF (Neural Hashing‑Based Binarization)
우리는 NHF라는 새로운 스킴을 제안합니다. 이 방법은 Deep Hashing[23]에서 영감을 받아, Encoder 출력값을 deterministic(확정적) 함수에 의해 바로 이진화합니다. 즉, 스토캐스틱 분포를 사용하지 않으며, binarization loss 라는 추가 항을 전체 손실 함수에 포함시켜 이진화 과정에서 발생하는 손실을 최소화합니다.
- 손실 함수 설계: 재구성 손실(크로스 엔트로피), 사전 분포와 경험적 데이터 간의 교차 엔트로피, 그리고 양자화 손실(quantization loss) 을 포함합니다.
- 정규화 항: Encoder의 다층 MLP 가중치 행렬이 직교(orthogonal) 하도록 유도해 서로 다른 차원이 독립적이도록 합니다.
이러한 설계는 미분 가능성을 유지하면서도 이산 잠재 변수를 효과적으로 학습할 수 있게 합니다. 구체적으로는, 전체 미니배치에 대해 Frobenius norm 기반의 binarization loss 를 정의함으로써, Straight‑Through Estimator (STE) 와 유사한 방식으로 그래디언트를 근사합니다[33].
실험 설정 및 결과
1. 데이터 및 모델
- 데이터: ChEMBL 공개 데이터셋을 사용해 SMILES 문자열을 토큰화하고, 이를 입력으로 사용했습니다.
- 모델: Transformer 기반 Encoder‑Decoder와 3‑layer MLP 기반 Encoder‑Decoder 두 가지 아키텍처에 NHF와 기존 Gumbel‑Softmax 이진화를 각각 적용했습니다.
2. 사전 분포: Classical BM vs. Quantum BM (QBM)
- Classical BM: 전통적인 Boltzmann Machine을 사용해 사전 분포를 모델링했습니다.
- QBM: D‑Wave 양자 어닐러를 이용해 Transverse‑field Ising Hamiltonian 기반의 양자 Boltzmann 분포를 샘플링했습니다(식 1).
3. 성능 지표
- Validity: 생성된 SMILES 가 실제 분자 구조로 변환 가능한 비율.
- Drug‑likeness (QED score): QED > 0.7 인 경우를 ‘drug‑like’ 로 간주.
4. 주요 결과
| 모델 | 사전 | 이진화 방식 | Validity | QED > 0.7 비율 |
|---|---|---|---|---|
| Transformer + Classical BM | Classical BM | Gumbel‑Softmax | 52.2 % | 31 % |
| Transformer + Classical BM | Classical BM | NHF | 62.0 % | 38 % |
| Transformer + QBM | Quantum BM | Gumbel‑Softmax | 73 % | 44 % |
| Transformer + QBM | Quantum BM | NHF | 97 % | 62 % |
| MLP + Classical BM | Classical BM | Gumbel‑Softmax | 38 % | 29 % |
| MLP + Classical BM | Classical BM | NHF | 55 % | 35 % |
| MLP + QBM | Quantum BM | NHF | 84 % | 58 % |
- NHF는 모든 경우에서 Validity 를 크게 향상시켰으며, 특히 QBM 사전과 결합될 때 97 % 라는 매우 높은 유효성을 달성했습니다.
- QBM 기반 모델은 QED 점수 분포가 전반
이 글은 AI가 자동 번역 및 요약한 내용입니다.