텐서 혼합 모델: 생성적 신경망의 새로운 패러다임
텐서 혼합 모델(TMM)은 합성곱 신경망 구조와 텐서 분해를 결합해, 확률 분포의 정확한 주변화와 효율적인 학습을 동시에 제공한다. 저차원 혼합 성분을 고차원 데이터에 적용하고, 비음수 저랭크 텐서 팩터라이제이션을 통해 합성곱 산술 회로(ConvAC)로 구현한다. 이를 통해 깊은 네트워크가 얕은 네트워크보다 지수적으로 높은 표현력을 갖는다는 이론적 특성을 유지하면서, 결측 데이터가 있는 분류 문제에서 최첨단 성능을 달성한다.
저자: Or Sharir, Ronen Tamari, Nadav Cohen
본 논문은 현대 머신러닝에서 생성 모델과 신경망을 결합하려는 다양한 시도들을 검토하고, 특히 두 가지 핵심 요구사항—확률 모델의 정확한 주변화와 고차원 데이터에 대한 충분한 표현력—을 동시에 만족시키는 새로운 접근법을 제시한다. 기존의 GAN, VAE, PixelRNN 등은 강력한 생성 능력을 보이지만, 주변화가 비트랙터블하거나 계산 비용이 prohibitive 하다. 반면, 산술 회로와 합성곱 산술 회로(ConvAC) 기반의 합성곱 신경망은 구조적 트랙터빌리티를 제공하지만, 설계와 학습이 복잡하고 표현력에 제한이 있다.
저자들은 이러한 문제를 해결하기 위해 텐서 분석을 도입한다. 입력 데이터를 N개의 로컬 패치 X = (x₁,…,x_N) 로 분해하고, 각 패치를 M개의 혼합 성분 중 하나에 할당하는 숨은 변수 d_i 를 도입한다. 개별 패치의 조건부 확률 P(x_i|d_i;θ_{d_i})는 기존의 혼합 모델과 동일하게 정의된다. 전체 입력에 대한 확률은 네트워크 다항식 형태인 P(X)=∑_{d₁,…,d_N} P(d₁,…,d_N)∏_{i=1}^N P(x_i|d_i;θ_{d_i}) 로 표현된다. 여기서 P(d₁,…,d_N) 를 M차원, N차 텐서 A 로 간주한다.
직접적인 텐서 저장은 M^N개의 원소가 필요하므로 비현실적이다. 따라서 저자는 텐서의 비음수 저랭크 분해를 활용한다. 가장 단순한 경우는 rank‑1 분해로, A = v^{(1)}⊗…⊗v^{(N)} 로 표현되며, 이는 각 d_i 가 독립이라는 가정을 의미한다. 이 경우 모델은 N개의 독립 혼합 모델의 곱으로 변환돼 계산이 즉시 가능하지만, 복잡한 상호 의존성을 포착하지 못한다.
이를 보완하기 위해 CP (CANDECOMP/PARAFAC)와 HT (Hierarchical Tucker) 분해를 도입한다. CP는 여러 rank‑1 텐서의 합으로, HT는 재귀적인 CP 구조를 통해 깊은 계층을 형성한다. 이러한 분해는 곱셈과 가중합만을 사용하므로, 산술 회로 형태로 구현 가능하다. 특히, Cohen 등은 이러한 구조가 ConvAC와 동등함을 증명했으며, ConvAC는 1×1 합성곱, 겹치지 않는 곱셈 풀링, 선형 활성화로 구성된다. 각 레이어의 채널 수는 텐서 분해에서의 “랭크”에 대응하고, 레이어 깊이는 텐서의 계층적 구조와 일치한다.
ConvAC의 주요 장점은 두 가지이다. 첫째, 비음수 제약과 정규화(채널 가중치를 단순체(simplex)에 제한) 덕분에 prior tensor A 가 실제 확률 분포가 되도록 보장한다. 이는 모델을 잠재 트리(Latent Tree) 그래픽 모델로 해석할 수 있게 하며, 각 레이어는 트리의 한 레벨에 해당한다. 둘째, ConvAC는 기존 합성곱 신경망과 동일한 학습 파이프라인을 활용할 수 있다. 저자는 전체 모델을 하나의 ConvAC에 공유시켜 클래스별 조건부 확률 P(X|Y=y)를 동시에 출력하도록 설계한다. 손실 함수는 교차 엔트로피(판별 손실)와 전체 데이터 로그우도(생성 손실)를 합한 형태이며, 로그‑공간에서 계산해 수치적 안정성을 확보한다.
특히, 결측 데이터가 존재하는 분류 문제에서 TMM의 강점이 두드러진다. 생성 모델은 결측된 변수들을 주변화함으로써 베이즈 최적 추론을 수행할 수 있다. ConvAC의 비음수 저랭크 구조는 이러한 주변화를 정확하고 효율적으로 수행하게 만든다. 저자는 이론적으로 결측 메커니즘이 어떠하든(무작위, MAR 등) 주변화가 최적임을 증명한다. 실험에서는 MNIST, CIFAR‑10 등 이미지 데이터에 대해 다양한 결측 비율(10%~70%)을 적용했으며, TMM은 기존 GAN‑기반, VAE‑기반, SPN 기반 모델보다 일관되게 높은 정확도를 기록했다. 또한, 모델의 깊이와 채널 수를 조절함으로써 표현력과 연산 비용 사이의 트레이드오프를 정량적으로 제어할 수 있음을 보였다.
결론적으로, 텐서 혼합 모델은 (1) 텐서 분해를 통한 구조적 트랙터빌리티, (2) ConvAC와의 동등성으로 인한 깊이‑폭 조절 가능성, (3) 결측 데이터에 대한 정확한 주변화 능력이라는 세 축을 결합한 새로운 생성‑판별 하이브리드 프레임워크이다. 이 접근법은 기존 생성 모델의 한계를 극복하고, 실용적인 고차원 데이터 처리와 결측 상황에서도 강력한 성능을 제공한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기