딥러닝 기반 다중분산 강직선의 소각각산란 예측 모델
초록
본 연구는 변분 오토인코더(VAE)와 다층 퍼셉트론(MLP)으로 구성된 신경망을 이용해, 부피분율·평균길이·직경분산 등 시스템 파라미터와 소각각산란 함수 I(Q) 사이의 비선형 매핑을 학습한다. HOOMD‑blue를 활용한 마코프 체인 몬테카를로 시뮬레이션으로 20 000개의 강직선을 4가지 분산 조건(균등, 정규, 로그정규)에서 5 500쌍씩 생성한 데이터셋을 훈련·검증에 사용하였다. VAE‑기반 생성 모델은 전통적인 Percus‑Yevick 근사보다 높은 정확도로 I(Q)를 재현하고, 최소제곱 피팅을 통해 실험 데이터의 파라미터 추정이 가능함을 보였다.
상세 분석
이 논문은 이방성 콜로이드 시스템, 특히 길이와 직경이 다중분산된 강직선(하드 로드)들의 소각각산란(SAS) 데이터를 예측하기 위한 데이터‑구동 접근법을 제시한다. 기존의 Percus‑Yevick(PY) 근사는 구형 입자에 대한 구조인자를 기반으로 하며, 이방성 및 고농도에서 형상‑상호작용을 충분히 반영하지 못한다는 한계가 있다. 저자들은 이러한 한계를 극복하고자, 시스템 파라미터(부피분율 ϕ, 평균 길이 L, 직경 분산 σ_D)를 입력으로, 스펙트럼 I(Q)를 출력하는 변분 오토인코더(VAE) 기반 신경망을 설계하였다.
데이터 생성 단계에서는 HOOMD‑blue의 Hard Particle Monte Carlo(HPMC) 모듈을 이용해 20 000개의 하드 스페로실린더를 NVT ensemble에서 시뮬레이션하였다. 각 입자는 길이 L_i와 직경 D_i가 독립적인 확률분포(균등, 정규, 로그정규)로 할당되며, 부피분율 ϕ는 0.01–0.30 범위에서 균등하게 샘플링된다. 압축·무작위화 과정을 거친 뒤, 100개의 독립적인 구성에서 I(Q)를 계산해 5 500쌍의 데이터셋을 네 종류(하나는 길이·직경 모두 다중분산, 나머지는 길이 분산을 0으로 고정)로 구축하였다.
신경망 구조는 다음과 같다. 인코더는 9×9 커널, 스트라이드 2인 2개의 1차원 컨볼루션 레이어(채널 30, 60)를 통해 100차원 I(Q) 벡터를 1500차원 특징으로 압축하고, 이를 평균 μ와 표준편차 σ의 3차원 잠재 변수(z)로 변환한다. 디코더는 인코더와 대칭인 전치 컨볼루션 레이어로 구성되어 z를 다시 I’(Q)로 복원한다. MLP는 시스템 파라미터를 입력받아 동일 차원의 잠재 변수 μ̂, σ̂를 출력하고, 디코더와 결합해 직접 I’(Q)를 생성한다(Generator). 손실 함수는 로그 스케일의 평균 제곱 오차를 Q 전체에 평균한 형태이며, VAE와 Generator를 순차적으로 2000, 300, 300 epoch씩 학습한다.
학습 전 PCA 분석을 통해 I(Q) 데이터가 실제로 저차원(특히 3차원) 공간에 강하게 집중됨을 확인하였다. 부피분율은 저 Q 영역에서, 평균 길이는 중간 Q 구간에서, 직경 분산은 고 Q에서 특유의 딥을 형성한다는 물리적 해석과 일치한다. 반면 길이 분산 σ_L은 I(Q)에 거의 영향을 미치지 않아 현재 모델에서는 제외하였다.
성능 평가는 두 가지 관점에서 이루어졌다. 첫째, 테스트 셋에 대한 재구성 오차는 로그‑MSE 기준으로 기존 PY 근사보다 2~3배 낮았다. 둘째, 생성된 I’(Q)를 실제 실험 데이터에 최소제곱 피팅에 적용했을 때, 회복된 파라미터(ϕ, L, σ_D)의 상대 오차가 5 % 이하로 매우 정확했다. 또한, 다양한 분산 형태(균등, 정규, 로그정규)에 대해 동일한 네트워크 구조가 일반화 가능함을 보였다.
이 연구는 (1) 대규모 시뮬레이션 데이터와 변분 오토인코더를 결합해 복잡한 이방성 상호작용을 효율적으로 학습, (2) 전통적인 이론적 근사보다 높은 정밀도로 SAS 데이터를 예측, (3) 파라미터 역문제에 직접 적용 가능한 생성 모델을 제공한다는 점에서 의미가 크다. 향후 실험적 SAXS/SANS 데이터에 바로 적용하거나, 다른 이방성 형태(예: 나노플레이트, 원통형 마이크로구조)로 확장하는 연구가 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기