프리트레인 네트워크를 위한 활성화 공간 불확실성 정량화
초록
본 논문은 사전 학습된 모델의 가중치를 변경하지 않고도 신뢰할 수 있는 불확실성 추정을 제공하는 사후‑핵심 방법인 Gaussian Process Activations(GAPA)를 제안한다. 기존 비선형 함수를 가우시안 프로세스 기반 활성화 함수로 교체함으로써, 활성화의 사후 평균이 원본 활성화와 정확히 일치하도록 설계해 백본의 예측을 그대로 유지한다. 희소 변분 인덕팅 포인트와 지역 k‑최근접 이웃 서브셋 조건화를 결합해 대규모 네트워크에서도 단일 패스, 샘플링·역전파·2차 미분 없이 폐쇄형 에피스테믹 분산을 계산한다. 회귀, 분류, 이미지 분할, 언어 모델링 등 다양한 베치마크에서 GAPA는 캘리브레이션 및 OOD 탐지에서 기존 사후‑기법들을 능가하거나 동등한 성능을 보이며, 테스트 시 효율성을 유지한다.
상세 분석
본 연구는 사전 학습된 딥러닝 모델에 대해 불확실성 정량화를 수행할 때, 가중치를 재학습하거나 Monte‑Carlo 샘플링, 2차 미분 등 비용이 큰 절차를 피하고자 하는 실용적 요구에서 출발한다. 이를 위해 저자들은 “활성화 공간”에 베이지안 모델링을 전이하는 새로운 프레임워크인 Gaussian Process Activations(GAPA)를 고안하였다. 핵심 아이디어는 기존 신경망에서 사용되는 비선형 함수(예: ReLU, GELU)를 가우시안 프로세스(GP) 기반의 확률적 활성화 함수로 대체하는 것이다. 이때 GP의 사후 평균을 원본 비선형 함수와 정확히 일치시키도록 설계함으로써, 백본 네트워크가 학습 단계에서 얻은 결정론적 출력은 변하지 않는다. 즉, GAPA는 “점 예측(point prediction)”을 보존하면서도 각 활성화에 대한 에피스테믹(모델) 불확실성을 폐쇄형으로 제공한다.
GP 활성화 함수는 훈련 데이터의 캐시된 활성화값을 이용해 변분 인덕팅 포인트(inducing points)를 학습한다. 저자들은 대규모 모델에 적용 가능하도록 희소 변분 근사(sparse variational approximation)를 채택했으며, 이는 전체 훈련 샘플이 아닌 제한된 수의 인덕팅 포인트만을 최적화한다. 또한, 테스트 시에는 입력 샘플의 활성화와 가장 가까운 k개의 인덕팅 포인트만을 선택해 조건부 사후 분포를 계산하는 “지역 k‑NN 서브셋 조건화”를 도입한다. 이 절차는 인덕팅 포인트 전체를 사용했을 때 발생할 수 있는 O(N) 복잡도를 O(k)로 낮추어, 실시간 추론에 적합한 단일 패스 연산을 가능하게 한다.
수학적으로, 각 레이어 ℓ의 활성화 aℓ는 GP fℓ(aℓ−1)로 모델링된다. 변분 목표는 ELBO(증거 하한)를 최대화하는 것이며, 여기서 KL 발산은 인덕팅 포인트와 실제 활성화 분포 사이의 차이를 정규화한다. 테스트 단계에서는 사후 평균 μℓ와 공분산 Σℓ를 직접 계산하고, 이를 다음 레이어의 입력으로 전달한다. 이때 공분산은 에피스테믹 불확실성을 나타내며, 레이어를 거치면서 누적된다. 결과적으로 최종 출력은 평균 예측과 함께 전체 네트워크에 걸친 불확실성 추정값을 제공한다.
실험에서는 회귀(UTKFace, UCI), 이미지 분류(CIFAR‑10/100, ImageNet‑30), 시멘틱 분할(PASCAL VOC), 언어 모델링(Wikitext‑103) 등 다양한 도메인에서 GAPA를 평가하였다. 캘리브레이션 지표(ECE, Brier Score)와 OOD 탐지 AUROC에서 기존 사후‑기법인 Deep Ensembles, MC‑Dropout, SWAG, Laplace Approximation 등을 능가하거나 동등한 성능을 보였다. 특히, GAPA는 테스트 시 추가적인 파라미터 업데이트나 샘플링이 필요 없으며, GPU 메모리와 연산량 측면에서 기존 방법보다 2~5배 효율적이었다. Ablation study에서는 인덕팅 포인트 수, k값, 그리고 GP 커널 선택이 성능에 미치는 영향을 분석했으며, 적절한 하이퍼파라미터 설정이 불확실성 추정의 품질을 크게 좌우함을 확인했다. 한계점으로는 매우 높은 차원의 활성화(예: 대형 트랜스포머의 마지막 레이어)에서 인덕팅 포인트 선택이 여전히 비용이 크며, 커널 파라미터를 자동으로 최적화하는 방법이 필요하다는 점을 언급한다. 전반적으로 GAPA는 “가중치가 고정된 상태에서 활성화 수준에서 베이지안 추론을 수행한다”는 새로운 패러다임을 제시하며, 실무에서 사전 학습된 모델을 안전하게 배포하고자 하는 상황에 실용적인 솔루션을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기