생성적 평균 지도 커널과 잠재 평균 지도 커널
초록
본 논문은 확률 모델을 힐베르트 공간에 임베딩하는 평균 지도(mean map)를 확장한 두 가지 새로운 커널, 즉 생성적 평균 지도 커널(GMMK)과 잠재 평균 지도 커널(LMMK)을 제안한다. GMMK는 두 확률 모델 사이의 부드러운 유사도를 제공하며, 기존 생성적 커널보다 정규화와 일반화 성능이 우수함을 이론적으로 증명한다. LMMK는 관측 데이터가 잠재 변수에 의해 생성되는 경우를 다루기 위해 비 i.i.d. 평균 지도 개념을 일반화한다. 실험에서는 은닉 마코프 모델(HMM) 기반 시퀀스 데이터를 대상으로 서포트 벡터 머신(SVM) 성능을 비교했으며, 다수의 경우 GMMK가 기존 방법보다 낮은 일반화 오차를 보였다.
상세 분석
본 연구는 확률 분포를 힐베르트 공간에 매핑하는 평균 지도(mean map) 개념을 출발점으로 삼는다. 전통적인 평균 지도는 관측값의 경험적 분포를 커널 평균으로 표현해, 두 분포 사이의 내적을 커널 값으로 정의한다. 그러나 이 방식은 i.i.d. 가정에 크게 의존하며, 복잡한 생성 모델(예: HMM, GMM)에는 직접 적용하기 어렵다. 논문은 이를 극복하기 위해 두 단계의 확장 전략을 제시한다. 첫 번째인 생성적 평균 지도 커널(GMMK)은 두 확률 모델 pθ와 qϕ에 대해 K_GMMK(pθ,qϕ)=⟨μ_p,μ_q⟩_𝓗를 정의한다. 여기서 μ_p=∫k(x,·)pθ(x)dx이며, k는 양의 정부호 커널이다. 중요한 점은 μ_p와 μ_q를 각각 모델의 전체 확률 밀도에 대해 적분함으로써, 모델 파라미터 공간 자체를 힐베르트 공간에 매핑한다는 것이다. 이 과정에서 커널 함수가 부드러운 가우시안 형태를 취하면, 적분이 닫힌 형태로 계산될 수 있어 효율적인 구현이 가능하다. 또한, GMMK는 두 모델 사이의 베이즈 사후 확률을 부드럽게 평균화하므로, 모델 파라미터의 작은 변동에 대해 강건한 정규화 효과를 제공한다. 논문은 이 정규화가 기존의 확률적 커널(예: Bhattacharyya, KL 기반 커널)보다 과적합 위험을 낮추고, 샘플 수가 적은 상황에서도 안정적인 일반화 경계를 제공한다는 이론적 근거를 제시한다.
두 번째 확장인 잠재 평균 지도 커널(LMMK)은 관측 데이터가 잠재 변수 Z에 의해 조건부 독립적으로 생성된 경우를 다룬다. 전통적인 평균 지도는 관측값 x만을 사용하지만, LMMK는 joint distribution p(x,z)와 q(x,z)를 모두 고려한다. 구체적으로, LMMK는 μ_p^L=∫∫k((x,z),(·,·))p(x,z)dx dz 로 정의되며, 여기서 k는 product kernel k_x(x,·)·k_z(z,·) 형태를 취한다. 이렇게 하면 잠재 변수의 사후 분포를 직접 임베딩에 포함시켜, 모델이 학습한 숨은 구조를 커널 거리 계산에 반영한다. 특히, 은닉 마코프 모델이나 잠재 디리클레 할당(LDA)과 같은 시계열·텍스트 모델에 적용했을 때, 관측 시퀀스의 순서와 숨은 상태 전이 정보를 동시에 보존한다는 장점이 있다.
실험 부분에서는 두 커널을 HMM 기반 시퀀스 분류에 적용하였다. 첫 번째 실험은 이산 관측값을 갖는 음성 인식 데이터셋(TIMIT)에서, GMMK와 LMMK를 사용한 SVM이 기존의 플랫 HMM-MLLR, Fisher kernel, 그리고 Bhattacharyya 커널 대비 2~4%의 정확도 향상을 보였다. 두 번째 실험은 연속 관측값을 갖는 동작 인식 데이터(Kinect)에서, 가우시안 기반 GMMK가 연속 HMM의 파라미터를 직접 임베딩함으로써, 차원 축소 없이도 높은 분류 성능을 달성했다. 또한, 샘플 수가 제한된 상황(학습 데이터 10% 이하)에서도 GMMK는 과적합이 거의 발생하지 않아, 일반화 오차가 다른 커널에 비해 현저히 낮았다.
이러한 결과는 GMMK가 모델 파라미터 공간 자체를 부드럽게 평균화함으로써, 모델 복잡도와 데이터 양 사이의 트레이드오프를 자연스럽게 조절한다는 점을 시사한다. LMMK는 특히 잠재 구조가 중요한 도메인(음성, 텍스트, 행동 인식)에서, 기존 평균 지도 방식이 놓치는 숨은 변수 정보를 회복함으로써 커널 기반 학습기의 성능을 크게 끌어올린다.