f$‑다이버전스가 만든 상호정보 행렬의 양정성: 지역적 완전특성
초록
이 논문은 $f$‑다이버전스로 정의한 변수쌍의 상호정보 $I_f(X_i;X_j)$ 로 구성된 행렬 $M^{(f)}$ 가 모든 변수 개수 $n$에 대해 양정정(PSD)인지의 조건을 연구한다. 저자는 독립에 가까운 상황(각 쌍의 결합‑곱비가 $1\pm\delta$ 범위)에서 $M^{(f)}\succeq0$ 가 되려면 $f$ 가 $t=1$ 근처에서 절대단조(모든 고차 미분계수가 비음)이며 해석적이어야 함을 보인다. 부정적인 테일러 계수가 있으면 임의의 약한 의존에서도 PSD가 깨지는 구체적인 반례를 만든다. 비해석적 볼록함수(예: 전변량 거리)도 제외된다.
상세 분석
본 연구는 두 단계로 구성된다. 첫째, $f$가 $t=1$ 근처에서 비음이 아닌 계수만을 갖는 멱급수 $f(t)=\sum_{m\ge2}a_m(t-1)^m$ 로 전개될 수 있으면, 각 $m$에 대해 $I_{f_m}(X_i;X_j)$ 가 Gram 행렬로 표현될 수 있음을 보인다. 구체적으로 $f_m(t)=(t-1)^m$ 에 대해 복제(replica) 기법을 이용해 $g_i^{(m)}$ 라는 함수들을 정의하고, $I_{f_m}(X_i;X_j)=\langle g_i^{(m)},g_j^{(m)}\rangle$ 를 얻는다. 따라서 비음이 아닌 가중합 $\sum_m a_m I_{f_m}$ 역시 양정정이다. 이는 충분조건을 증명하는 핵심이다.
둘째, 필요조건을 입증하기 위해 부정적인 테일러 계수를 가진 $f$에 대해 반례를 구성한다. 저자는 잠재변수 $U$ 와 편향 파라미터 $a$ 를 도입한 3점 혼합 모델을 설계한다. 이 모델에서 $I_f(Y_i;Y_j)$ 가 $H_a(\rho_{ij})$ 형태의 스칼라 커널로 표현되며, $\rho_{ij}$ 은 로딩 벡터 $u_i$ 들의 내적에 비례한다. 조건부 복제(replica) 블록 행렬 $B_R=J_R\otimes K_a+I_R\otimes\Delta_a$ 를 만들고, $B_R\succeq0$ 가 모든 $R$ 에 대해 성립하려면 $K_a\succeq0$ 이어야 함을 보인다(복제 강제 레마). 여기서 $K_a$ 는 모든 유한 Gram 집합에 대해 양정정이어야 하므로, Schoenberg–Berg–Christensen–Ressel(SBCR) 정리에 의해 $H_a(z)$ 가 $z$ 에 대한 비음 계수 멱급수 $H_a(z)=\sum_{m\ge0}d_m z^m$ 로 전개될 수 있어야 한다. $a=0$ 일 때 $H_0(z)=\frac12\bigl(f(1+z)+f(1-z)\bigr)$ 가 되므로, $f^{(m)}(1)\ge0$ (모든 $m\ge2$) 가 필요함을 얻는다. 따라서 $f$ 가 절대단조가 아니면, 적절히 선택한 $u_i$ 와 $a$ 로 $K_a$ 를 부정적인 방향으로 만들 수 있고, 복제 블록을 통해 $M^{(f)}$ 가 비양정정이 된다. 이 과정은 $\delta$ 를 임의로 작게 잡아도 성립하므로, 약한 의존 하에서도 PSD가 깨진다.
핵심 통찰은 다음과 같다. (1) $f$ 의 로컬 테일러 계수만으로 변수간 상호정보 행렬의 양정성을 완전히 판정할 수 있다. (2) $\chi^2$‑다이버전스에 해당하는 $(t-1)^2$ 항이 기본적인 양정성 원천이며, 고차 항도 비음이 아니면 양정성을 유지한다. (3) 일반적인 정보량(예: Shannon) 은 $t\log t$ 의 2차 미분이 양이지만 3차 이상에서 부호가 바뀌어 PSD가 깨진다. (4) 비해석적 볼록함수(전변량 거리 등)는 근처 독립에서도 PSD를 보장하지 못한다. (5) PSD 요구는 분포 간 거리(예: $\sqrt{\text{JS}}$)와는 별개의 성질이며, 변수 인덱싱된 커널을 설계할 때 반드시 검토해야 한다.
댓글 및 학술 토론
Loading comments...
의견 남기기