생성 모델 편향 보정을 위한 가능도 자유 중요도 가중치
본 논문은 학습된 생성 모델이 데이터 분포와 갖는 통계적 편향을, 실제 확률밀도비를 직접 계산할 수 없을 때도 가능도‑자유(classifier‑based) 중요도 가중치를 이용해 교정하는 방법을 제안한다. 베이즈 최적 이진 분류기를 학습해 데이터와 모델 샘플을 구분하고, 그 출력으로부터 밀도비를 추정한다. 추정된 가중치를 적용한 샘플은 다양한 적합도 지표(IS, FID, KID)에서 개선을 보이며, 데이터 증강 및 모델 기반 정책 평가(MBOP…
저자: Aditya Grover, Jiaming Song, Alekh Agarwal
본 논문은 현대 딥러닝 기반 생성 모델이 데이터 분포를 완벽히 재현하지 못하고, 따라서 통계적 편향을 내포한다는 문제를 다룬다. 이러한 편향은 특히 기대값을 추정하거나 정책을 평가하는 downstream 작업에서 심각한 오류를 초래한다. 전통적인 해결책인 중요도 샘플링은 정확한 밀도비 w(x)=p(x)/pθ(x) 가 필요하지만, 실제로는 p와 pθ의 명시적 확률밀도를 알 수 없는 경우가 대부분이다.
이를 극복하기 위해 저자들은 “가능도‑자유 중요도 가중치”(Likelihood‑Free Importance Weighting, LFIW)라는 프레임워크를 제안한다. 핵심 아이디어는 두 분포에서 샘플을 추출해 이진 분류기를 학습하고, 베이즈 최적 분류기의 출력 cφ(x) 를 이용해 밀도비를 ŵφ(x)=γ·cφ(x)/(1−cφ(x)) 로 근사하는 것이다. 여기서 γ 는 데이터와 모델 샘플 수 비율이다. 이 방법은 실제 확률밀도가 필요 없으며, 샘플만 있으면 적용 가능하다는 장점이 있다.
LFIW 추정기는 기본 형태 외에도 실용적인 변형을 제공한다. 첫째, 셀프‑노멀라이제이션은 가중치를 정규화해 분산을 감소시킨다. 둘째, 플래팅 파라미터 α 를 도입해 균등 가중치와 추정 가중치 사이를 조절함으로써 편향 감소와 분산 증가 사이의 트레이드오프를 제어한다. 셋째, 클리핑 파라미터 β 를 사용해 지나치게 작은 가중치가 전체 추정에 미치는 영향을 제한한다. 이러한 변형은 실제 데이터에서 가중치가 과도하게 변동하는 문제를 완화한다.
이론적으로는 LFIW를 이용해 새로운 유도 분포 pθ,φ(x)∝pθ(x)·ŵφ(x) 를 정의하고, 샘플‑중요도‑재샘플링(SIR) 알고리즘을 통해 입자 기반 근사 pSIRθ,φ(x;T) 를 만든다. KL 발산 차이 Δ =E_{p_data}
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기