커널 거리의 직관적 이해와 응용
초록
본 논문은 커널 함수를 이용해 정의되는 커널 거리의 개념을 이론 컴퓨터 과학 배경을 가진 독자에게 친절히 소개한다. 커널 거리를 확률분포·점집합·곡선·표면 등 다양한 형태의 데이터에 대한 L₂ 거리로 해석하고, 이를 재생산 커널 힐베르트 공간(RKHS)으로의 임베딩을 통해 효율적인 계산과 기하학적 해석이 가능함을 보여준다. 또한 양의 정부호 커널 조건, Mercer 정리, 그리고 측도·커런트 관점에서의 수학적 기반을 설명한다.
상세 분석
논문은 먼저 유사도 함수 K(x,y) 를 정의하고, K(x,x)=1, 거리 증가에 따라 K가 감소하는 전형적인 가우시안 커널을 예시로 든다. 커널 거리 D_K(P,Q)는 두 집합 P와 Q에 대해 D_K²(P,Q)=∑{p∈P}∑{p’∈P}K(p,p’)+∑{q∈Q}∑{q’∈Q}K(q,q’)−2∑{p∈P}∑{q∈Q}K(p,q) 로 정의된다. 이 식은 자기유사도와 교차유사도의 차이로 해석되며, 집합의 대칭 차이를 일반화한 형태이다.
핵심 통찰은 K가 양의 정부호(positive definite) 커널일 때, K(p,q)=⟨Φ(p),Φ(q)⟩ 로 표현되는 힐베르트 공간 Φ가 존재한다는 점이다. 따라서 D_K(P,Q)=‖∑{p∈P}Φ(p)−∑{q∈Q}Φ(q)‖₂ 로 변환되며, 이는 유클리드 거리와 동등한 구조를 가진다. 이 임베딩은 무한 차원일 수 있지만, 유한 샘플에 대해서는 커널 트릭을 이용해 차원을 크게 축소할 수 있다(예: 랜덤 피처, Nystrom 방법).
논문은 점 집합을 δ-함수의 합으로 보는 측도적 관점을 제시하고, 가중치 w(p) 를 도입해 일반화된 교차유사도 κ(P,Q)=∑{p∈P}∑{q∈Q}w(p)K(p,q)w’(q) 로 확장한다. 연속적인 확률분포 μ,ν 에 대해서는 적분 형태 κ(μ,ν)=∬K(p,q)dμ(p)dν(q) 로 정의되며, 이는 기존의 MMD(Maximum Mean Discrepancy)와 동일한 식이다.
곡선과 표면에 대해서는 단순히 점 집합으로 보는 것이 아니라, 접선·법선 정보를 포함시켜 K(p,q)⟨t_P(p),t_Q(q)⟩ 혹은 ⟨n_P(p),n_Q(q)⟩ 형태의 가중 유사도를 정의한다. 이는 현재(current) 거리와 일치하며, 기하학적 형태를 보존하면서도 힐베르트 공간에 임베딩한다.
양의 정부호 커널의 필요조건을 설명하면서, 행렬 커널 K(x,y)=xᵀAy 가 PSD일 때 A=BBᵀ 로 분해되어 Φ(x)=Bx 로 표현될 수 있음을 보인다. 연속적인 경우 Mercer 정리를 이용해 K(x,y)=∑λ_i v_i(x)v_i(y) 로 전개하고, Φ(x)=(√λ_i v_i(x))_i 로 정의한다. 이때 H=span{v_i} 가 RKHS이며, D_K는 H에서의 유클리드 거리와 동치가 된다.
마지막으로, 측도와 커런트 이론을 통해 커널 거리를 확률분포의 메트릭화와 형태 분석에 동시에 적용한다. Integral Probability Metric(IPM) 관점에서 F={f:‖f‖H≤1} 로 잡으면 D_K(P,Q)=sup{f∈F}|∫f dP−∫f dQ| 가 되며, 이는 RKHS 내에서의 최대 차이와 동일하다. 따라서 커널 거리의 두 가지 독립적인 기원—통계적 분포 메트릭과 기하학적 형태 비교—이 하나의 수학적 프레임워크로 통합된다.
댓글 및 학술 토론
Loading comments...
의견 남기기