베이지안 잠재 전송을 통한 확률적 기하 정렬로 도메인 적응 강화

본 논문은 대규모 파운데이션 모델을 제한된 라벨 데이터만으로 새로운 도메인에 적응시키기 위해, 잠재 공간의 확률 분포를 워싱스테인 거리의 지오데식 경로를 따라 이동시키는 베이지안 전송 연산자를 제안한다. 동시에 PAC‑Bayesian 정규화를 적용해 후방 복잡도를 제한함으로써 과적합을 방지하고, 이론적 수렴·손실 평활성·샘플 효율성 보장을 제공한다. 실험에서는 기존의 결정론적 미세조정 및 적대적 도메인 적응 방법보다 잠재 매니폴드 불일치를 크게…

저자: Aueaphum Aueawatthanaphisut, Kuepon Auewattanapisut

베이지안 잠재 전송을 통한 확률적 기하 정렬로 도메인 적응 강화
본 논문은 “Probabilistic Geometric Alignment via Bayesian Latent Transport for Domain‑Adaptive Foundation Models”라는 제목으로, 대규모 사전학습 파운데이션 모델을 라벨이 거의 없는 새로운 도메인에 효과적으로 적응시키기 위한 새로운 프레임워크를 제안한다. 1. **문제 정의 및 동기** 파운데이션 모델은 풍부한 사전학습 덕분에 다양한 다운스트림 작업에 강력한 전이 능력을 보이지만, 타깃 도메인의 데이터가 제한적일 경우 소스와 타깃 잠재 분포 사이의 불일치가 심화되어 과적합 및 불확실성 보정 실패가 발생한다. 기존 방법은 (i) 통계적 차이 최소화, (ii) 적대적 정렬, (iii) 베이지안 변분 추론 등으로 접근했으나, 각각이 잠재 공간의 기하학적 구조와 일반화 이론을 동시에 다루지 못한다는 한계가 있다. 2. **핵심 아이디어** - **베이지안 잠재 전송 연산자**: 소스 잠재 분포 p_s(z) 를 타깃 분포 p_t(z) 로 변환하는 연산자를 베이지안 관점에서 정의한다. 변분 후방 q_φ(z|x) 를 도입해, Wasserstein‑type 지오데식 경로를 따라 연속적인 확률 질량 이동을 수행한다. 이 과정은 KL‑다이버전스 최소화와 동시에 전송 에너지 ‖∇_t T_t‖² 를 최소화하도록 설계된다. - **PAC‑Bayesian 정규화**: 전송 과정에 PAC‑Bayesian 위험 상한을 손실에 추가한다. 구체적으로, KL(q_φ‖π) / n (π는 사전) 형태의 정규화 항을 도입해 후방 가설 복잡도를 제어하고, 이론적으로 목표 위험 R_T ≤ R_S + √( (KL+log(2√n/δ))/2n ) 와 같은 tighter bound 를 얻는다. - **이론적 보장**: 전송 연산자의 수렴성을 증명하고, 손실 함수가 Lipschitz 연속성을 만족함을 보이며, 샘플 효율성에 대한 새로운 일반화 바운드를 제시한다. 특히, 전송 경로가 최적화 과정에서 손실 평활성을 제공해 급격한 그래디언트 변동을 억제한다는 점을 강조한다. 3. **모델 아키텍처** 전체 파이프라인은 (i) 사전학습된 파운데이션 모델의 잠재 공간 추출, (ii) 베이지안 잠재 전송 엔진 (변분 인코더‑디코더 + 지오데식 전송 모듈), (iii) PAC‑Bayesian 규제 블록, (iv) 최종 타깃 태스크용 헤드로 구성된다. 전송 엔진은 다중 샘플 Monte‑Carlo 추정으로 전송 경로를 근사하고, 불확실성 캘리브레이션을 위해 후방 분산을 동적으로 조정한다. 4. **실험 설정 및 결과** - **데이터셋**: Office‑Home 이미지 도메인, DomainNet, 그리고 텍스트 도메인에서는 Amazon 리뷰 → Yelp 리뷰 전이 실험을 수행했다. - **비교 대상**: 기존 결정론적 미세조정, DANN, CDAN, MMD, 그리고 최신 베이지안 적응 방법(Variational Domain Indexing 등)을 포함한다. - **성능**: 제안 방법은 평균 정확도에서 기존 최첨단 대비 3~5%p 향상을 기록했으며, 특히 5‑shot, 10‑shot 같은 초소량 설정에서 큰 격차가 나타났다. - **불확실성 및 캘리브레이션**: Expected Calibration Error (ECE) 가 0.07 → 0.02 로 감소했고, Brier Score 역시 개선되었다. 후방 분산의 시간적 변동이 제한된 구간 내에 머물러, 예측 신뢰도가 일관되게 유지되었다. - **잠재 매니폴드 정렬**: t‑SNE 시각화에서 소스와 타깃 클러스터가 거의 겹치며, 전송 전후 KL(p_s‖p_t) 가 1.8 → 0.3 로 크게 감소했다. 5. **분석 및 논의** - **장점**: 확률적 전송을 통해 잠재 공간의 기하학적 구조를 보존하면서도 불확실성을 명시적으로 모델링한다. PAC‑Bayesian 정규화는 이론적 위험 상한을 제공해 과적합을 억제한다. - **제한점**: 전송 경로 근사를 위한 샘플 기반 최적화가 계산 비용을 증가시킨다. 하이퍼파라미터(전송 스텝, 변분 분포 형태 등)의 민감도가 존재하며, 자동 튜닝 메커니즘이 필요하다. 또한, 현재는 연속적인 잠재 공간에 국한되므로, 이산형 토큰 임베딩에 대한 확장 연구가 요구된다. 6. **결론 및 향후 연구** 본 연구는 베이지안 잠재 전송과 PAC‑Bayesian 일반화 이론을 결합한 새로운 확률적 기하 정렬 프레임워크를 제시함으로써, 대규모 파운데이션 모델의 도메인 적응을 보다 이론적으로 견고하고 실용적으로 만든다. 향후 연구에서는 (i) 전송 연산자의 효율적인 근사 알고리즘, (ii) 이산형 표현에 대한 확장, (iii) 멀티‑도메인 및 연속적 도메인 흐름에 대한 적용을 탐색할 계획이다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기