공분산 구조를 활용한 주변우도 근사법
초록
본 논문은 베이지안 모델 선택에서 핵심인 주변우도 계산을 위해 라플라스 근사법을 확장한 새로운 방법을 제시한다. Gaussian 및 t‑copula를 이용해 다변량 의존성을 보다 정확히 포착하고, 사후 샘플이 있든 없든 적용 가능한 변형을 제공한다. 또한 브리지 샘플링과 다수의 잠재 변수를 포함하는 랜덤 효과 모델에 대한 실용적인 구현 방안을 논의한다.
상세 분석
베이지안 모델 선택에서 모델별 주변우도(marginal likelihood)를 정확히 추정하는 일은 고차원 적분 문제 때문에 실무에서 큰 장애물로 작용한다. 전통적인 라플라스 근사는 사후분포를 다변량 정규분포로 근사함으로써 로그 주변우도를 2차 테일러 전개로 근사하지만, 비선형성이나 다중공선성, 비정규성 등이 심한 경우 정확도가 급격히 떨어진다. 저자들은 이러한 한계를 극복하기 위해 사후분포의 의존 구조를 별도로 모델링하는 copula 접근법을 도입한다. 구체적으로, 먼저 사후분포의 각 변수를 개별적인 마진 분포로 분리하고, 그 마진들을 연결하는 의존 구조를 Gaussian copula 혹은 t‑copula로 기술한다. Gaussian copula는 선형 상관관계를 효율적으로 포착하지만, 꼬리 의존성(tail dependence)이 약한 것이 단점이다. 이를 보완하기 위해 t‑copula를 도입해 자유도 파라미터를 조정함으로써 꼬리 두께를 조절하고, 비정규적인 다변량 의존성을 보다 정밀하게 근사한다.
근사식은 크게 두 가지 형태로 제시된다. 첫 번째는 사후 샘플이 존재할 때, 샘플 기반으로 마진 밀도와 상관행렬을 추정한 뒤 copula 결합을 구성하는 방법이다. 이 경우, 샘플의 경험적 분포를 이용해 마진을 커널 밀도 추정 등으로 부드럽게 만들고, 정규화된 순위 변환을 통해 copula 파라미터를 추정한다. 두 번째는 사후 샘플이 없을 때, 라플라스 근사에서 얻은 평균과 헤시안 정보를 활용해 정규 마진과 상관행렬을 직접 계산하고, 이를 copula에 삽입하는 방식이다. 두 방법 모두 기존 라플라스 근사의 1차·2차 정보만을 사용하므로 구현이 간단하고, 고차원 모델에서도 계산 비용이 크게 증가하지 않는다.
또한 저자들은 제안된 copula 근사를 브리지 샘플링(bridge sampling)과 결합하는 전략을 제시한다. 브리지 샘플링은 두 분포 사이의 정상화 상수를 추정하는 데 효과적이며, copula 기반 근사분포를 제안 분포로 사용하면 제안-목표 비율이 안정되어 효율이 크게 향상된다. 특히, 다수의 랜덤 효과를 포함하는 혼합 모델에서는 잠재 변수 차원이 수백에 달할 수 있는데, 이때 각 랜덤 효과에 대한 마진을 별도로 추정하고 전체 의존 구조를 copula로 묶음으로써 고차원 적분을 실질적으로 분해한다. 실험 결과는 시뮬레이션과 실제 데이터(예: 다변량 베이지안 회귀, 계층적 로지스틱 모델)에서 제안 방법이 기존 라플라스와 단순 변분 근사보다 로그 주변우도 추정 오차를 현저히 줄이며, 계산 시간은 비슷하거나 약간 증가하는 수준임을 보여준다.
핵심 통찰은 “사후분포의 마진과 의존 구조를 분리해 각각에 맞는 근사법을 적용하면, 전체 다변량 근사의 정확도를 크게 향상시킬 수 있다”는 점이다. 특히 t‑copula를 이용한 꼬리 의존성 보정은 비정규성이나 이상치가 많은 실제 데이터에서 실용적이며, 라플라스 기반 방법과 자연스럽게 결합될 수 있다는 점이 큰 장점이다.
댓글 및 학술 토론
Loading comments...
의견 남기기