데이터셋 증류 효용 한계: 스케일링과 구성 커버리지 법칙
초록
본 논문은 데이터셋 증류(DD)의 이론적 기반을 통합적으로 정립한다. 저자는 구성‑다이내믹스‑오차 프레임워크를 제시해 기존의 그래디언트 매칭, 분포 매칭, 트래젝터리 매칭을 하나의 일반화 오차 관점으로 재구성한다. 이를 바탕으로 (i) 증류 샘플 수가 증가함에 따라 오류가 $O(1/\sqrt{k})$ 로 감소하고 일정 수준 이하에서는 포화되는 단일‑구성 스케일링 법칙과, (ii) 구성 다양도에 비례해 필요한 증류 샘플 수가 선형적으로 증가하는 커버리지 법칙을 도출한다. 실험을 통해 두 법칙이 다양한 방법과 설정에 걸쳐 일치함을 확인하고, 매칭 방식이 본질적으로 교환 가능함을 밝힌다.
상세 분석
논문은 먼저 데이터셋 증류 문제를 “실제 데이터 분포 $\hat\mu_\tau$와 합성 데이터 분포 $\hat\mu_s$ 사이의 매칭 불일치”라는 하나의 함수 $\Delta_a(\cdot,\cdot)$ 로 정의한다. 여기서 $a$는 옵티마이저, 학습률, 네트워크 구조, 데이터 증강 등 전체 학습 구성을 의미한다. 저자는 이 매칭 불일치를 기존의 그래디언트 매칭(GM), 분포 매칭(DM), 트래젝터리 매칭(TM) 각각이 최소화하려는 목표와 동일한 형태의 상위 목표로 보는 통합적 시각을 제시한다.
단일 구성 분석에서는 가정 4.1을 통해 업데이트 연산 $\Phi_a$가 유계·리프시츠·PL(Polyak‑Łojasiewicz) 조건을 만족한다고 가정한다. 이때 최적화 잔차는 $\rho_a^T$ 로 지수적으로 감소하고, 통계적 변동은 $\mathcal O(1/\sqrt{k})$ 로 나타난다. 핵심은 “내재 일반화 오차” $\Delta^\star_a$ 로, 이는 $k$개의 프로토타입이 실제 데이터와 완벽히 일치시킬 수 없는 최소 불일치를 의미한다. 정리 4.2는 전체 일반화 오차를
\
댓글 및 학술 토론
Loading comments...
의견 남기기