“연속 잠재공간으로 풀어내는 질·량 혼합 요인 가우시안 프로세스: 통합 커버리언스 프레임워크”

읽는 시간: 6 분
...

📝 Abstract

Computer experiments involving both qualitative and quantitative (QQ) factors have attracted increasing attention. Gaussian process (GP) models have proven effective in this context by choosing specialized covariance functions for QQ factors. In this work, we extend the latent variable-based GP approach, which maps qualitative factors into a continuous latent space, by establishing a general framework to apply standard kernel functions to continuous latent variables. This approach provides a novel perspective for interpreting some existing GP models for QQ factors and introduces new covariance structures in some situations. The ordinal structure can be incorporated naturally and seamlessly in this framework. Furthermore, the Bayesian information criterion and leave-one-out cross-validation are employed for model selection and model averaging. The performance of the proposed method is comprehensively studied on several examples.

💡 Analysis

**

1. 연구 배경 및 필요성

  • QQ 입력의 실무적 중요성: 제시된 사례(제방 설계, 데이터센터 열역학 등)처럼 실제 엔지니어링 문제에서는 질적·양적 요인이 혼합된 입력이 일반적이다. 따라서 이를 효과적으로 다루는 서러게이트 모델이 필수적이다.
  • 기존 연구의 한계: 기존 GP 기반 QQ 모델은 각각 특수한 공분산 구조를 제안했지만, 서로 간의 연관성을 체계적으로 정리하거나 확장성을 제공하지 못했다.

2. 핵심 아이디어

  • 잠재 연속 공간(Latent Continuous Space): 질적 요인 (v_j) 를 차원 (l_j) 의 연속 벡터 (z^{(j)}) 로 매핑한다.
  • 분리 가능한 커널 구조
    \

📄 Content

컴퓨터 실험은 복잡한 시스템을 모델링할 수 있는 능력 때문에 과학, 공학, 비즈니스 분야에서 점점 더 많은 관심을 받고 있습니다. 그러나 이러한 시뮬레이션을 실행하는 데 드는 높은 계산 비용 때문에 대리 모델이나 에뮬레이터를 사용해야 하는 경우가 많습니다. 이 가운데 가우시안 프로세스(GP) 모델링은 시뮬레이션의 동작을 정확하고 효율적으로 근사할 수 있는 강력한 접근법으로 부상했습니다(Santner et al., 2003).

최근 연구에서는 GP 모델링을 확장하여 확률분포(Bachoc et al., 2017)나 함수(Li and Tan, 2022)와 같은 다양한 입력 형태를 지원하도록 하였습니다.

많은 실제 응용에서는 컴퓨터 실험의 입력이 양적 요인과 질적 요인을 모두 포함하는 QQ 입력을 갖습니다. 예를 들어, 제방 시스템 설계에서는 입력으로 하나의 양적 변수(중심선으로부터의 어깨 거리)와 세 개의 질적 변수(시공 속도, 기둥의 영률, 보강 강성)를 사용합니다(Liu and Rowe, 2015; Deng et al., 2017). 마찬가지로 데이터 센터의 열역학을 모델링할 때는 디퓨저 위치, 배기 공기구 위치, 랙 열 부하 비균일성 등 질적 요인과 랙 온도 상승, 랙 열 부하, 전체 디퓨저 유량 등 양적 요인을 함께 고려해야 합니다(Schmidt et al., 2005; Qian et al., 2008). 이러한 사례들은 QQ 입력을 잘 다룰 수 있는 GP 모델 개발의 필요성을 강조합니다.

GP 모델링의 핵심 단계 중 하나는 공분산 함수를 구성하는 것입니다. 최근 몇 년간 QQ 입력을 다루는 컴퓨터 실험의 예측 정확도를 높이기 위해 다양한 공분산 구조가 제안되고 연구되었습니다(Qian et al., 2008; Zhou et al., 2011; Deng et al., 2017; Zhang et al., 2020; Roustant et al., 2020; Garrido‑Merchán and Hernández‑Lobato, 2020; Tao et al., 2021; Xiao et al., 2021; Lin et al., 2024). 이들에 대한 리뷰는 섹션 2.2에 정리되어 있습니다. 그럼에도 불구하고, 이러한 접근법들을 하나로 묶는 일반적인 프레임워크는 아직 부족한 실정입니다.

[ Y(U,V)=\mu+G(U,V) ]

여기서 (\mu)는 상수 평균 항을, (G(U,V))는 평균이 0인 GP를 의미합니다. 주요 목표는 서로 다른 입력 ((U,V))와 ((U’,V’))에 대응하는 응답 (Y(U,V))와 (Y(U’,V’)) 사이의 공분산을 모델링하는 것입니다. 공분산 커널을 이용하면 새로운 입력에 대한 예측이 가능해집니다(Santner et al., 2003).

기존 방법들은 직관적이면서 해석 가능하고 계산 효율적인 공분산 구조를 선택하거나 제안하는 데 초점을 맞추었습니다(McMillan et al., 1999; Qian et al., 2008; Zhou et al., 2011; Deng et al., 2017). 질적 변수를 어떤 잠재적인 수치값으로 표현한다는 아이디어에 영감을 받아, Zhang et al. (2020)은 (j)번째 질적 요인 (v_j)가 잠재 벡터 (z^{(j)})에 대응한다고 제안했습니다.

[ 1\le l_j\le a_j ]

이 식을 따라 우리는 연결된 잠재 벡터를 다음과 같이 정의합니다.

[ \mathbf{z} = \bigl(z^{(1)\top},\dots ,z^{(J)\top}\bigr)^{\top} ]

이 프레임워크를 이용하면 입력 ((U,V))에 대한 응답 (Y(U,V))는 연속 입력 ((U,\mathbf{Z}V))에 대한 응답과 동일한 분포를 가진다고 말할 수 있습니다. 즉,

[ Y(U,V);\stackrel{d}{=};Y(U,\mathbf{Z}V) ]

GP 가정 하에 이 분포 동등성은 두 공분산 함수가 동일할 때만 성립합니다. 따라서 우리는 관심 대상인 원래 과정 (Y(U,V))의 공분산 함수를 연속 입력 ((U,\mathbf{Z}V))의 공분산 함수로 모델링하고자 합니다.

[ \operatorname{Cov}\bigl[Y(U,V),Y(U’,V’)\bigr] = \sigma^{2},K_{U}(U,U’),K_{Z}(\mathbf{Z}V,\mathbf{Z}V’) \tag{1} ]

여기서 (\sigma^{2})는 분산, (K_{U}(\cdot,\cdot))와 (K_{Z}(\cdot,\cdot))는 각각 양적 요인과 질적 요인에 대응하는 커널 함수입니다. 식 (1)의 마지막 등식은 (U)와 (V)가 (Y)에 미치는 효과가 곱셈적으로 분리될 수 있다는 가정에 기반합니다.

두 커널 모두 정규화 조건 (K_{U}(U,U)=1) 및 (K_{Z}(\mathbf{Z},\mathbf{Z})=1)을 만족합니다((\forall U\in\mathbb{R}^{I},;\forall \mathbf{Z}\in\mathbb{R}^{\sum_{j=1}^{J}l_{j}})). 이 프레임워크는 다양한 커널을 자유롭게 선택하여 복잡한 패턴을 포착할 수 있는 유연성을 제공합니다.

잠재 벡터라는 가정은 처음엔 제한적일 수 있으나, 실제로는 기존의 다수 방법(Qian et al., 2008; Deng et al., 2017; Zhang et al., 2020; Tao et al., 2021)을 특수 경우로 포함합니다. 또한, 이러한 일반성은 향후 방법론적 확장과 새로운 응용에 대한 가능성을 열어줍니다.

아래에서는 본 프레임워크와 기존 문헌에 소개된 몇몇 방법들 사이의 연결 고리를 상세히 논의합니다.


1. 곱셈형 선형 커널 (Multiplicative Linear Kernel)

질적 변수들 사이에 곱셈 구조를 부여하고 연속 변수에 선형 커널을 적용하면(Rojo‑Álvarez et al., 2018) 잠재 벡터에 의해 정의되는 상관은 다음과 같습니다.

Case I ((l_{j}=a_{j}))

Qian et al. (2008)이 제안한 공분산 구조는

[ \tau^{(j)}{v,v’}\in\mathbb{R}^{a{j}\times a_{j}} ]

와 같이 (J)개의 반정정(semidefinite) 행렬 (\tau^{(j)}) (대각 원소가 1인 SPDUDE)으로 구성됩니다. 여기서 (\tau^{(j)}{v,v’})는 (j)번째 질적 요인의 레벨 (v)와 (v’) 사이의 상관을 의미합니다. Cholesky 분해(Pinheiro and Bates, 1996)를 이용하면 (\tau^{(j)}{v_{j},v’_{j}})를 두 열벡터의 곱으로 표현할 수 있습니다. 이렇게 하면 (3)식의 질적 부분을 (2)식과 동등하게 나타낼 수 있습니다. Zhou et al. (2011)은 계산을 간소화하기 위해 초구면(hyperspherical) 파라미터화를 제안했습니다.

Case II ((l_{j}<a_{j}))

Roustant et al. (2020)와 Tao et al. (2021)은 잠재 벡터의 차원 (l_{j})를 레벨 수 (a_{j})보다 작게 설정하여 저‑랭크 구조를 강제했습니다. 이는 하이퍼파라미터 수를 크게 줄여 추정 부담을 완화합니다. Tao et al. (2021)은 이와 더불어 초구면 표현을 도입해 계산 효율성을 높였으나, 식별성(identifiability)에 관한 논의는 충분히 이루어지지 않았습니다(섹션 2.3 참고).

Case III ((제한된 상관 행렬))

상관 행렬의 복잡성을 낮추기 위해 Qian et al. (2008)처럼 특정 구조(예: 모든 상관을 동일하게) 를 가정할 수 있습니다. 우리 프레임워크에서는 이러한 가정을 잠재 변수에 대한 제약으로 변환할 수 있으며, 독립 잡음이 허용되고 원소가 모두 같은 1차원 잠재 벡터가 할당되는 특수 경우에 해당합니다.


2. 가법형 선형 커널 (Additive Linear Kernel)

Deng et al. (2017)은 질적 요인에 가법 구조를 부여하고 이를 양적 요인의 상관과 곱하는 형태의 공분산을 제안했습니다. 우리 프레임워크는 이와 직접적으로 연결됩니다.

(K_{Z}(\cdot,\cdot))를 연속 변수에 대한 1차 가법 GP(Plate, 1999; Duvenaud et al., 2011)에서 파생된 커널로 두고, 각 구성요소가 선형 커널을 사용하도록 하면, (4)를 만족하는 잠재 벡터를 구성할 수 있습니다.

[ \operatorname{Cov}[Y(U,V),Y(U’,V’)] = \sum_{j=1}^{J}\psi_{j},\sigma^{2}{j},K{U,j}(U,U’),K_{Z}^{(j)}(v_{j},v’_{j}) \tag{5} ]

여기서 (\psi_{j})는 가중치((\sum_{j=1}^{J}\psi_{j}=1)), (\sigma^{2}{j})는 (j)번째 질적 요인에 대응하는 분산입니다. 식 (5)는 Deng et al. (2017)이 제시한 공분산 구조의 특수 경우이며, 그들의 모델에서는 각 양적 요인마다 서로 다른 커널 (K{U,j})를 사용합니다. 반면 우리 접근법은 모든 양적 요인에 동일한 커널 (K_{U})를 적용합니다.


3. 곱셈형 가우시안 커널 (Multiplicative Gaussian Kernel)

Zhang et al. (2020)은 곱셈 구조와 가우시안 커널을 결합한 형태를 제안했습니다.

[ K_{Z}^{\text{Gauss}}(v,v’)=\exp!\bigl(-|z^{(j)}{v}-z^{(j)}{v’}|^{2}/\theta^{2}\bigr) ]

다른 커널(예: 파워 지수, Matérn, lifted Brownian)로 일반화할 가능성을 언급했지만, 실제 구현 및 검증은 진행되지 않았습니다. 예를 들어, 선형 커널은 가우시안 커널에 비해 식별 조건이 다르고 추가 제약이 필요합니다(섹션 2.3).


4. 사전 지정 잠재 변수 (Pre‑specified

이 글은 AI가 자동 번역 및 요약한 내용입니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키