다중모달 자기지도 학습을 위한 가우시안 공동 임베딩과 확장형 모델

본 논문은 자기지도 표현학습(Self‑Supervised Representation Learning, SSL)에서 현재 널리 사용되는 결정론적 예측 구조가 다중모달 역문제에 내재된 한계를 가지고 있음을 지적한다. 특히, ℓ2 손실 기반의 예측은 베이즈 최적 해가 조건 평균이 되므로, 컨텍스트가 여러 가능한 타깃을 동시에 설명해야 하는 상황에서 평균값으로 수렴해 의미 없는 중간 표현을 만든다. 이러한 현상은 “조건 평균 붕괴(Conditional Mean Collapse)”라 부르며, 기존의 BYOL, SimCLR, JEP‑A 등은 구조적 비대칭(EMA 타깃, 스톱‑그래디언트 등)이나 추가적인 분산 정규화 없이도 표현 붕괴를 방지하기 위해 설계된 복잡한 트릭에 의존한다. 이를 근본적으로 해결하고자 저자는 “Gaussian Joint Embeddings”(GJE)라는 새로운 확률적 프레임워크를 제안한다. GJE는 컨텍스트 z_c와 타깃 z_t를 하나의 연속형 확률변수 (z_c, z_t) 로 보고, 이들의 공동 밀도 p(z_c, z_t)를 가우시안으로 파라미터화한다. 공동 로그우도(NLL)를 최소화하면 다음과 같이 분해된다. ‑log p(z_c, z_t) = ‑log p(z_t|z_c) + ‑log p(z_c). 첫 번째 항은 기존의 정렬 손실과 동일하게 컨텍스트와 타깃을 일치시키며, 두 번째 항은 가우시안 공분산 행렬식(det) 로그를 포함해 잠재 공간의 부피와 방향성을 정규화한다. 즉, 표현이 특정 차원에 수축하거나 전체 분산이 사라지는 “차원 붕괴”와 “인스턴스 붕괴”를 동시에 억제한다. GJE는 닫힌 형태의 조건부 평균과 공분산을 제공하므로, 예측 시 불확실성 추정이 자연스럽게 가능하고, 추후 다운스트림 작업에서 베이지안 방식으로 활용할 수 있다. 하지만 단일 가우시안은 복잡한 다중모달 구조를 충분히 표현하지 못한다는 점을 인식하고, 논문은 이를 확장한 “Gaussian Mixture Joint Embeddings”(GMJE)를 제시한다. GMJE는 공동 밀도를 가우시안 혼합 모델(GMM)으로 모델링함으로써, 각 모드가 서로 다른 의미적 클러스터를 나타내도록 설계한다. 여기서 핵심적인 문제는 배치 기반 공분산 추정이 “Mahalanobis Trace Trap”을 일으킬 수 있다는 점이다. 배치 내 공분산이 고정된 형태로 수렴하면 Mahalanobis 거리의 트레이스가 일정해져, 서로 다른 뷰 간의 매칭 신호가 상수화되고 학습이 정체된다. 이 함정을 극복하기 위해 네 가지 구체적인 방법을 제안한다. 1. **Prototype‑Based GMJE**: 전역 프로토타입(learnable global prototypes)을 도입해 각 배치가 전체 데이터 구조를 참조하도록 함으로써, 배치 공분산이 전체 공분산을 반영하도록 만든다. 2. **GMJE‑MDN (Mixture Density Network)**: 컨텍스트에 조건부로 가중치와 평균·공분산을 동적으로 예측하는 네트워크를 삽입해, 배치 내 고정된 공분산 대신 상황에 맞는 혼합 파라미터를 학습한다. 이는 “조건부 정보 병목(Conditional Information Bottleneck)”을 구현해 불필요한 모드 붕괴를 방지한다. 3. **GMJE‑GNG (Growing Neural Gas)**: 데이터 토폴로지를 실시간으로 탐색하고, 새로운 클러스터를 자동으로 생성·삭제하는 GNG 알고리즘을 결합해, 혼합 컴포넌트 수와 구조를 데이터에 맞게 적응시킨다. 4. **SMC‑GMJE (Sequential Monte Carlo Memory Bank)**: 전통적인 FIFO 메모리 큐 대신 파티클 필터링 방식을 도입해, 각 샘플에 중요도 가중치를 부여하고 재샘플링을 통해 정보량이 높은 샘플을 강조한다. 이는 대조학습에서 흔히 사용되는 대규모 네거티브 풀을 효율적으로 대체한다. 또한, 논문은 대조학습(InfoNCE)과 GMJE 사이의 이론적 연결고리를 제시한다. GMJE의 비파라메트릭 한계, 즉 혼합 컴포넌트 수를 무한히 늘리고 각 컴포넌트에 동일한 가중치를 부여하면, 결국 모든 샘플이 동일한 공분산을 갖는 단일 가우시안이 되며, 이는 InfoNCE가 최소화하는 “양성 샘플 정렬 + 부정 샘플 균일성” 목표와 동등함을 증명한다. 따라서 대조학습은 GMJE 프레임워크의 특수한 경우로 해석될 수 있다. 실험 부분에서는 세 가지 주요 평가를 수행한다. 첫째, 합성 데이터에서 다중모달 정렬을 수행해 GMJE가 정확히 모드별 매핑을 복원하고, Mahalanobis Trace Trap을 회피하는 다양한 변형(Prototype, MDN, GNG, SMC)의 효과를 정량화한다. 둘째, CIFAR‑10, ImageNet 등 실제 비전 벤치마크에서 GMJE‑SMC가 BYOL, SimCLR, MoCo 등과 동등하거나 더 높은 Top‑1 정확도와 선형 평가 성능을 기록한다. 특히, SMC 메모리 뱅크가 FIFO 대비 메모리 효율성을 크게 향상시킴을 보인다. 셋째, 학습된 잠재 분포에서 직접 샘플링해 무조건적 이미지 생성 실험을 수행, 단일 가우시안 기반 방법보다 다양하고 고품질의 이미지를 생성함을 시연한다. 결론적으로, 본 논문은 “조건부 평균 붕괴”와 “Mahalanobis Trace Trap”이라는 두 가지 핵심 실패 모드를 정확히 규명하고, 확률적 공동 모델링을 통해 이를 근본적으로 해결한다. GJE와 GMJE는 불확실성 정량화, 공분산 기반 기하 제어, 다중모달 표현 학습을 동시에 제공하며, 기존 대조학습과 예측 기반 SSL을 통합하는 이론적·실험적 기반을 마련한다. 향후 연구는 더 복잡한 비가우시안 공동 분포, 텍스트·오디오 등 다중모달 데이터에의 확장, 그리고 메모리‑효율적인 SMC 변형 등을 탐구할 여지를 남긴다.

다중모달 자기지도 학습을 위한 가우시안 공동 임베딩과 확장형 모델

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기