VLM 기반 함수 공간 경험적 베이즈 정규화
초록
본 연구는 대규모 시각-언어 모델(VLM)을 활용해 의미 있는 컨텍스트 포인트를 생성하고, 이를 바탕으로 표현력이 풍부한 함수 공간 사전 분포를 구축하는 VLM-FS-EB 방법을 제안합니다. 이 접근법은 기존 함수 공간 변분 추론 방법이 가우시안 프로세스 사전에 의존하며 고차원에서 제한되는 문제를 해결하며, 특히 데이터가 부족한 환경과 분포 외 감지 작업에서 예측 성능과 불확실성 추정의 신뢰성을 크게 향상시킵니다.
상세 분석
이 논문의 기술적 핵심은 베이지안 딥러닝의 고질적 난제인 ‘고차원 데이터에 대한 유익한 사전 분포 설계’를 함수 공간 접근법과 대규모 기초 모델의 강점을 결합하여 돌파한 점에 있습니다. 기존 함수 공간 변분 추론(FSVI) 방법들은 대부분 가우시안 프로세스(GP)를 사전 분포로 사용하는데, GP는 함수의 평균과 공분산 구조만을 정의하므로 고차원 복잡 데이터의 풍부한 의미론적 구조를 포착하는 데 한계가 있습니다.
VLM-FS-EB는 이 문제를 두 가지 혁신으로 해결합니다. 첫째, 생성형 VLM을 이용해 실제 데이터에 의존하지 않고도 작업과 관련된 다양하고 의미론적으로 일관된 컨텍스트 포인트(가상 샘플)를 생성합니다. 이는 데이터 부족 상황에서 FS-EB의 핵심 요소인 컨텍스트 데이터 의존성을 근본적으로 제거합니다. 둘째, CLIP 같은 대조학습 기반 VLM의 고정된(frozen) 임베딩 모델을 특징 추출기로 사용합니다. 이 임베딩 공간은 수십억 개의 이미지-텍스트 쌍으로 사전 학습되어 있어, 복잡한 시각 개념 간의 의미론적 관계와 계층 구조를 내재하고 있습니다. 따라서 이 임베딩을 기반으로 구축된 함수 공간 사전은 단순한 통계적 정규화를 넘어선 ‘의미론적 정규화’를 수행하며, 이는 OOD 샘플에 대한 보다 민감하고 신뢰할 수 있는 불확실성 추정으로 이어집니다.
방법론적으로는 FS-EB의 확장으로, VLM 생성 컨텍스트와 VLM 임베딩을 각각 x_c와 특징 함수 h(·)에 통합합니다. 이를 통해 얻은 경험적 사전은 매개변수 공간과 함수 공간 모두에서 정규화를 적용하며, 선형화 근사 없이도 잘 정의된 목적함수를 유도합니다. 실험 결과가 보여주듯, 이 접근법은 소량의 데이터만으로도 강력한 일반화 성능과 불확실성 정량화 능력을 발휘하며, 기존의 파라미터 공간 정규화나 전통적인 FSVI 방법들을 능가합니다. 이는 기초 모델의 지식을 체계적으로 베이지안 프레임워크에 주입하여 신뢰성 있는 AI를 구축하는 새로운 패러다임을 제시합니다.
댓글 및 학술 토론
Loading comments...
의견 남기기