컴퓨터 실험 모델링에서 너깃의 필요성
초록
컴퓨터 실험은 보통 결정론적이라 가정하고, 가우시안 프로세스(GP) surrogate 모델에서 측정오차를 나타내는 작은 스케일 항인 ‘너깃(nugget)’을 제외한다. 본 논문은 이러한 관행이 지나치게 제한적이며 통계적으로 비효율적임을 지적한다. 저자들은 비영(非零) 너깃을 추정함으로써 예측 정확도와 신뢰구간 커버리지를 향상시킬 수 있음을 다양한 시뮬레이션과 실제 사례를 통해 보여준다.
상세 분석
이 논문은 컴퓨터 실험의 “결정론적” 특성을 전제하는 전통적 GP 모델링 접근법을 비판한다. 일반적으로 GP는 관측값이 정확히 재현되도록 하는 인터폴레이션 형태로 구현되며, 이때 코베리언스 행렬에 작은 대각 항(너깃)을 넣지 않는다. 그러나 실제 컴퓨터 코드에는 수치적 불안정성, 알고리즘적 근사, 입력 파라미터의 미세한 변동, 그리고 모델링 단계에서의 데이터 전처리 오류 등으로 인해 미세한 변동이 존재한다. 이러한 변동을 무시하고 순수 인터폴레이터만을 사용하면 과적합(over‑fitting) 위험이 커지고, 특히 관측점이 적거나 고차원 입력 공간에서 예측 불확실성을 과소평가하게 된다.
저자들은 먼저 이론적 근거를 제시한다. 너깃을 포함한 GP는 관측값을 완전히 재현하지 않으며, 이는 베이즈 관점에서 관측 오차를 모델링하는 것과 동일하다. 비영 너깃을 추정하면 코베리언스 행렬이 조건부 수치 안정성을 확보하고, 하이퍼파라미터(길이척도, 변동성 등)의 추정이 더 견고해진다. 특히 최대우도(MLE)나 베이지안 사후 샘플링을 통해 너깃을 추정하면, 모델이 실제 데이터의 잡음 수준을 반영하게 되어 예측 평균과 분산이 보다 현실적인 값을 갖는다.
실험에서는 (1) 단순 1‑D 함수, (2) 다변량 베르누이 함수, (3) 고차원 설계 공간을 갖는 실제 공정 시뮬레이션 등 세 가지 시나리오를 설정했다. 각 경우에 대해 ‘너깃 포함 GP’와 ‘전통적 인터폴레이터 GP’를 비교했으며, 평가 지표는 평균제곱오차(MSE), 로그예측밀도(LPD), 그리고 95 % 신뢰구간의 실제 커버리지였다. 결과는 일관되게 너깃을 포함한 모델이 MSE와 LPD에서 우수했으며, 특히 커버리지는 95 % 목표를 크게 초과하거나 미달하는 현상을 완화시켰다.
또한 저자들은 너깃 추정이 과도한 스무딩을 초래할 위험도 논의한다. 이를 방지하기 위해 사전분포를 적절히 설정하거나, 교차검증 기반의 너깃 하이퍼파라미터 튜닝 절차를 제안한다. 마지막으로, 너깃을 포함한 GP가 다중 출력(multi‑output) 모델이나 비선형 변환을 포함한 복합 모델에서도 동일한 이점을 제공한다는 점을 강조한다.
요약하면, 컴퓨터 실험에서 ‘완전 결정론적’이라는 가정은 현실적인 수치 오차와 모델링 불확실성을 무시하는 것이며, 비영 너깃을 추정함으로써 보다 견고하고 신뢰할 수 있는 surrogate 모델을 구축할 수 있다. 이는 특히 제한된 실험 설계와 고차원 입력 공간에서 모델링 효율성을 크게 향상시킨다.