통합 대사 모델링과 머신러닝을 활용한 효모 바이오연료 생산 최적화

이 논문은 Saccharomyces cerevisiae의 Yeast9 게놈 규모 대사 모델을 기반으로, FBA로 생성한 2,000개의 대사 플럭스 데이터를 머신러닝(랜덤 포레스트, XGBoost, FFNN)과 딥러닝(VAE, GAN)으로 학습시켜 바이오연료 생산에 핵심적인 바이오매스 플럭스를 고정밀도로 예측하고, SHAP을 통해 주요 반응을 해석한다. 베이지안 최적화를 이용해 영양제 섭취 조건을 조정하면 12배 이상의 성장률 향상이 가능함을 보…

저자: Neha K. Nair, Aaron D'Souza

통합 대사 모델링과 머신러닝을 활용한 효모 바이오연료 생산 최적화
본 논문은 Saccharomyces cerevisiae를 대상으로, Yeast9 게놈 규모 대사 모델을 활용한 통합 컴퓨팅 파이프라인을 구축하였다. 첫 단계에서는 포도당, 산소, 암모늄 섭취율을 다양한 범위로 변동시켜 2,000개의 FBA 플럭스 프로파일을 생성했으며, 각 프로파일은 4,131개의 반응 플럭스를 포함한다. 두 번째 단계에서는 변분 오토인코더(VAE)를 통해 고차원 플럭스 데이터를 2차원 잠재공간으로 압축하고, 엘보우와 실루엣 분석을 기반으로 K‑means 군집화를 수행해 네 개의 대사 클러스터를 정의하였다. 클러스터 1이 평균 0.554 gDW·h⁻¹로 가장 높은 바이오매스 생산성을 보였으며, 다른 클러스터는 0.48–0.47 gDW·h⁻¹ 수준이었다. 세 번째 단계에서는 랜덤 포레스트, XGBoost, 그리고 다층 퍼셉트론(FFNN) 세 가지 회귀 모델을 학습시켰다. 랜덤 포레스트와 XGBoost는 교차 검증에서 R² ≈ 0.9999를 기록했으며, 테스트 셋에서도 각각 0.99989와 0.9990의 높은 설명력을 보였다. FFNN은 하이퍼파라미터 튜닝이 부족해 약간의 예측 오차가 있었지만, 비선형 관계 포착 가능성을 시사했다. 예측 모델의 해석을 위해 SHAP(Shapley Additive Explanations)를 적용했으며, 평균 절대 SHAP 값이 높은 상위 20개 반응이 식별되었다. 이들 반응은 주로 해당과정(glycolysis), TCA 회로, 지방산 합성 및 핵심 전구체 생성에 관여한다. SHAP 비즈윈 플롯은 플럭스 값이 클수록 양의 기여를, 작을수록 음의 기여를 하는 양상을 보여, 특정 반응의 과발현 또는 억제가 성장에 미치는 방향성을 직관적으로 파악할 수 있게 한다. 네 번째 단계에서는 SHAP 상위 반응들을 대상으로 in silico 과발현 및 knockout 실험을 수행했다. 과발현 시 해당 반응의 상한 플럭스 제한을 10배 확대했을 때, 모델이 예측한 바이오매스 플럭스는 0.979 gDW·h⁻¹에 도달했으며, 이는 베이지안 최적화로 얻은 이론적 최대치(1.041 gDW·h⁻¹)와 근접한다. 반면 knockout은 대부분 성장 저하를 초래했으며, 특히 r_1277과 r_1696 같은 반응은 필수적임을 확인했다. 다섯 번째 단계에서는 산소 섭취 하한을 -20 mmol·gDW⁻¹·h⁻¹에서 -2 mmol·gDW⁻¹·h⁻¹까지 단계적으로 감소시켜, 호기성에서 혐기성 전이 구간의 성장 변화를 분석했다. 결과는 전형적인 ‘크래버-맥페이’ 전환 곡선을 재현했으며, 산소 제한이 심해질수록 에탄올 생산 경로가 활성화되는 메커니즘을 시뮬레이션적으로 확인했다. 여섯 번째 단계에서는 베이지안 최적화를 적용해 포도당, 암모늄, 산소 섭취율 3차원 파라미터 공간을 탐색했다. 가우시안 프로세스 서러게이트 모델이 각 파라미터 조합에 대한 예상 성장률을 추정하고, 기대 개선(EI) 획득함수를 통해 다음 실험점을 선택했다. 최적화 결과, 초기 성장률 0.0858 gDW·h⁻¹에서 1.041 gDW·h⁻¹(≈12배)로 향상시켰으며, 최적 조합은 고포도당·중간암모늄·적당한 산소 섭취 조건으로 도출되었다. 마지막 단계에서는 GAN(Generative Adversarial Network)을 구축해 기존 FBA 플럭스와 구분이 어려운 가짜 플럭스를 생성했다. 생성된 플럭스는 평균 분산 0.156을 보였으며, 재실행된 FBA에서 스토이키오메트리와 열역학 제약을 만족하는지 검증했다. 일부 생성 샘플은 기존 경로와 다른 대사 흐름을 제시했으며, 이는 새로운 대사 경로 설계 아이디어로 활용될 가능성을 시사한다. 전체적으로, 이 연구는 (1) 대규모 대사 시뮬레이션 데이터베이스 구축, (2) 고성능 머신러닝 기반 성장 예측, (3) SHAP을 통한 반응 수준 해석, (4) 베이지안 최적화를 통한 환경 변수 최적화, (5) GAN을 이용한 새로운 대사 플럭스 생성이라는 다섯 축을 통합한 파이프라인을 제시한다. 이러한 접근은 효모의 바이오연료 생산성을 체계적으로 향상시키는 데 실용적인 로드맵을 제공하며, 다른 미생물 시스템에도 확장 적용이 가능하다. 향후 실험적 검증과 유전공학적 구현을 통해 모델의 예측 정확성을 실제 생산 공정에 검증하는 것이 필요하다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기