다목적 베이지안 최적화로 빠른 동결보호제 조합 발견

초록

본 논문은 고처리량 실험과 다목적 베이지안 최적화를 결합한 활성학습 프레임워크를 제시한다. 초기 측정된 CPA(동결보호제) 혼합물 데이터를 기반으로 농도와 세포 생존율을 예측하는 확률적 대리모델을 구축하고, 불확실성을 고려한 기대 파레토 개선(EI‑P) 획득함수를 통해 다음 실험을 선택한다. 실험 결과, 기존 탐색 전략 대비 파레토 전면을 9.5 %·4.5 % 향상시키면서 실험 횟수를 크게 절감했으며, 합성 벤치마크에서도 30 %의 평가만으로 유사한 최적해를 복구하였다.

상세 분석

이 연구는 동결보호제(CPA) 조합 설계라는 고차원·다목적 문제에 데이터 효율적인 탐색 방법을 적용한 점이 가장 큰 혁신이다. 기존에는 전문가 직관이나 전수조사 방식에 의존해 수백~~수천 번의 실험이 필요했지만, 저자들은 초기 샘플링 단계에서 20~~30개의 조합만을 측정하고, 이를 기반으로 가우시안 프로세스(GP) 기반의 두 개 별도 대리모델을 학습한다. 하나는 목표인 CPA 농도(얼음 억제 능력) 예측, 다른 하나는 세포 생존율(독성) 예측을 담당한다. 각 모델은 평균 예측값과 예측 불확실성(분산)을 동시에 제공함으로써, 후보 조합에 대한 신뢰 구간을 정량화한다.

다음 실험 후보를 선정할 때는 ‘기대 파레토 개선(Expected Hypervolume Improvement, EHVI)’을 확장한 ‘기대 파레토 개선 under Uncertainty(EI‑P)’ 획득함수를 사용한다. 이 함수는 현재 파레토 전면을 기준으로, 후보가 새로운 비지배 영역을 차지할 확률과 그 기여량을 모두 고려한다. 불확실성이 큰 영역을 우선 탐색함으로써 탐색·활용 균형을 자연스럽게 맞춘다. 또한, 다목적 상황에서 각 목표가 상충관계에 있기 때문에, 단일 목표 최적화와 달리 파레토 전면 전체를 확장하는 방향으로 샘플링이 진행된다.

실험 설계는 두 단계로 나뉜다. 첫 번째는 실제 세포주(예: 인간 섬유아세포)와 다양한 CPA 라이브러리(예: DMSO, EG, PG 등)를 이용한 고처리량 스크리닝으로, 96‑웰 플레이트 기반 자동화 시스템을 활용해 1 h 이내에 농도와 생존율을 측정한다. 두 번째는 베이지안 최적화 루프를 10~15회 반복하면서 새로운 조합을 실험하고, 모델을 업데이트한다.

성능 평가는 ‘지배된 하이퍼볼륨(dominated hypervolume)’을 기준으로 한다. 제안 방법은 무작위 탐색(naïve) 대비 9.5 % 상승, 기존 다목적 베이지안 최적화(예: ParEGO) 대비 4.5 % 상승을 기록했으며, 동일한 하이퍼볼륨을 달성하는 데 필요한 실험 수는 약 30 % 수준으로 크게 감소했다. 합성 테스트(예: DTLZ, ZDT 시리즈)에서도 동일한 효율성을 보이며, 실험 시간으로는 약 10주를 절감할 수 있음을 시뮬레이션으로 입증했다.

이 프레임워크는 ‘측정 가능한 목표와 정의된 조합 공간’만 있으면 다른 CPA 라이브러리, 세포 종류, 혹은 추가적인 물리·화학적 목표(예: 점도, 냉동 속도)에도 손쉽게 적용 가능하다. 따라서 동결보호제 설계뿐 아니라, 약물 조합 최적화, 재료 설계 등 다목적 실험 설계 전반에 확장 가능한 범용 도구로 활용될 전망이다.