구조적 불변성을 활용한 적응형 자기지도 학습
초록
본 논문은 자연스럽게 쌍을 이루는 데이터(예: 연속 영상 프레임)에서 발생하는 일대다 매핑 문제를 해결하기 위해, 잠재 변수 r을 도입한 새로운 자기지도 학습 프레임워크 AdaSSL을 제안한다. r을 통해 조건부 불확실성을 모델링하고, 임베딩 간 상호정보에 대한 변분 하한을 정규화 항으로 도입함으로써 기존 대비 이질적·다중모달 노이즈를 효과적으로 학습한다. 실험은 인과 표현 학습, 미세 이미지 구분, 비디오 세계 모델링 등에서 기존 SSL 방법을 능가함을 보여준다.
상세 분석
AdaSSL은 기존 자기지도 학습(SSL)이 전제로 하는 “양쪽 데이터가 동일한 의미적 요인을 공유한다”는 가정을 완화한다. 자연스러운 쌍, 예컨대 연속된 비디오 프레임은 동일한 잠재 요인 z 에 대해 복잡하고 다중모달인 변환 p(z⁺|z) 를 갖는다. 기존 대비학습(InfoNCE)이나 BYOL 같은 방법은 이러한 변환을 단일 스칼라·동질적 노이즈(동등분산)로 가정하고, 따라서 조건부 분포의 다중모드나 이질적 스케일을 무시한다. 논문은 이를 정량적으로 보여주기 위해 Proposition 2.1을 제시한다. 여기서는 임베딩 공간이 구면 S^{d_f} 와 같이 비선형 구조를 가질 때, 입력 z 에 따라 조건부 분산이 달라지는 이질적(heteroscedastic) 특성이 필연적으로 발생함을 증명한다.
이를 해결하기 위해 저자는 잠재 변수 r을 도입한다. r 은 z → z⁺ 변환을 설명하는 숨은 요인으로, p(z⁺|z) 를 p(r|z)·p(z⁺|z,r) 로 분해한다. 이렇게 하면 p(z⁺|z,r) 는 상대적으로 단순한 형태(예: 가우시안·단일모드)로 가정할 수 있고, 복잡성은 r 의 분포에 위임된다. 저자는 변분 정보이론을 이용해 I(f(x);f(x⁺))를
I(f(x),r;f(x⁺)) − I(r;f(x⁺)|f(x))
로 재구성하고, 첫 번째 항을 기존 SSL 목표와 동일하게 최적화하면서 두 번째 항을 KL · 정규화 항으로 억제한다. 결과적으로 “r이 f(x)만으로는 예측할 수 없는 정보를 담아야 한다”는 제약이 생겨, 모델이 조건부 불확실성을 명시적으로 학습하게 된다.
AdaSSL은 두 가지 구현 변형을 제시한다. AdaSSL‑V는 인코더 f 와 별도로 변분 인코더 q_ϕ(r|x,x⁺)를 학습해 r 의 후방분포를 근사하고, MLP 예측기 η 를 통해 f(x⁺) 를 재구성한다. AdaSSL‑S는 r 을 이산형·희소하게 설계해, 각 차원이 특정 변환(예: 카메라 이동, 물체 가속도)을 의미하도록 강제한다. 두 변형 모두 기존 대비학습 또는 BYOL과 같은 distillation‑based SSL에 쉽게 통합될 수 있다.
실험에서는 (1) 합성 수치 데이터에서 다중모달 p(z⁺|z) 를 정확히 복원하고 OOD 성능이 향상됨을, (2) 이미지 데이터셋(CUB, iNat)에서 미세한 속성 구분 능력이 기존 대비학습 대비 3~5% 상승함을, (3) 비디오 월드 모델링(DeepMind Lab, Atari)에서 stochastic한 객체 가속도를 포착해 미래 프레임 예측 정확도가 크게 개선됨을 보여준다. 특히, AdaSSL‑S는 r 의 희소성을 이용해 해석 가능한 변환 요인을 추출할 수 있어, 인과 표현 학습에서도 유용함을 입증한다.
전체적으로 이 논문은 “조건부 불확실성을 잠재 변수로 명시화하고, 이를 변분 하한을 통한 정규화로 SSL에 통합한다”는 새로운 패러다임을 제시한다. 기존 SSL이 갖는 단일 모드·동질적 노이즈 가정의 한계를 이론적·실험적으로 설득력 있게 극복했으며, 다양한 비전 도메인에 적용 가능한 범용 프레임워크를 제공한다. 다만 r 의 차원 선택, 변분 근사의 품질, 그리고 대규모 데이터에서의 계산 비용 등에 대한 추가 연구가 필요하다.
댓글 및 학술 토론
Loading comments...
의견 남기기