데이터셋 농축을 통한 손실 없는 데이터 압축

본 논문은 대규모 시각 인식 시스템 구축에 필요한 방대한 데이터 비용과 접근성 문제를 해결하고자, 데이터셋 증류(Dataset Distillation, DD)라는 패러다임을 확산 모델(Diffusion Model)과 결합한 새로운 프레임워크인 “Dataset Concentration”(DsCo)를 제안한다. 기존 DD는 원본 데이터셋을 매우 작은 합성 데이터셋으로 압축함으로써 학습·저장·전송 비용을 크게 절감하고, 프라이버시 보호 측면에서도 원본 데이터를 직접 공유하지 않고도 모델을 학습할 수 있게 한다. 그러나 현재 최첨단 확산 기반 DD 방법들은 세 가지 주요 한계에 직면해 있다. 첫째, 확산 모델을 활용하는 근거가 경험적 직관에 머물러 이론적 정당성이 부족하다. 둘째, 합성 샘플 수가 적을수록 효율성이 높지만, 고용량(IPC, Items Per Class) 상황에서는 합성 비용이 급격히 상승해 확장성이 떨어진다. 셋째, 원본 데이터에 접근할 수 없는 데이터‑프리 상황에서 기존 방법들은 거의 적용이 불가능하다. 이를 해결하기 위해 저자는 먼저 DD를 “분포 매칭” 문제와 동등하게 보는 이론적 프레임워크를 구축한다. 목표 데이터셋의 데이터 분포 \(p_{\text{data}}(x)\)와 합성 데이터셋의 분포 \(p_{\theta}(x)\) 사이의 거리(예: KL, Wasserstein)를 최소화하는 것이 DD의 본질적 목표임을 증명한다. 이때 사전 학습된 확산 모델은 역확산 과정을 통해 원본 데이터 분포를 복원하도록 설계돼 있기 때문에, 자연스럽게 분포 매칭을 수행한다는 점을 이론적으로 정당화한다. 그 다음, 확산 기반 샘플링이 무작위 노이즈 초기화에 크게 의존함으로써 “far‑apart” 샘플, 즉 데이터 공간에서 희소하지만 중요한 사례들을 충분히 커버하지 못하는 샘플링 편향을 가지고 있음을 분석한다. 이 편향은 단순히 클래스 가이드나 파인튜닝으로는 해소되지 않으며, 데이터셋 전체 손실에 일정한 \(\epsilon\)를 추가하는 형태로 나타난다. 또한, 고IPC 환경에서는 이러한 “far‑apart” 샘플이 전체 데이터 비중을 크게 차지해, 합성만으로 전체 분포를 재현하려면 탐색 공간이 폭발적으로 커져 계산 비용이 비현실적으로 증가한다는 효율성 병목(efficiency bottleneck)을 규명한다. 이론적 통찰을 바탕으로 제안된 DsCo 프레임워크는 두 핵심 구성요소를 포함한다. 첫 번째는 Noise‑Optimization(NOpt)이다. 기존 방법이 무작위 노이즈 \(\mathbf{z}\sim\mathcal{N}(0,I)\)를 그대로 사용한다면, NOpt은 \(\mathbf{z}\)를 직접 미분 가능한 변수로 두고, 사전 학습된 확산 모델의 파라미터는 고정한 채 \(\mathbf{z}\)를 최적화한다. 구체적으로, 목표 분포와의 KL 거리 혹은 분포 매칭 손실 \(\mathcal{L}_{\text{distill}}\)에 대한 \(\nabla_{\mathbf{z}}\)를 계산해 노이즈를 점진적으로 조정함으로써 무작위 샘플링 편향을 크게 감소시킨다. 두 번째는 “Doping” 메커니즘이다. 여기서는 원본 데이터셋에서 대표성을 가진 “far‑apart” 샘플을 선택적으로 추출하고, 합성 샘플과 결합한다. “Doping Trigger”는 현재 합성 샘플이 커버하는 분포 영역을 실시간으로 평가해, 커버리지가 사전에 정의된 임계값 이하로 떨어질 경우 자동으로 추가 샘플을 삽입한다. 이 과정은 데이터에 접근할 수 있는 경우에만 적용 가능하지만, 데이터‑프리 상황에서도 NOpt만으로도 충분히 경쟁력 있는 성능을 달성한다는 실험적 증거를 제공한다. 실험은 CIFAR‑10/100, ImageNette, ImageWoof, 그리고 ImageNet‑1k 등 다양한 데이터셋과 모델(ResNet‑18, ResNet‑50 등)에서 수행되었다. 저IPC(≤10) 설정에서는 기존 최첨단 확산 기반 DD 방법들(IGD, Minimax‑IGD 등)을 모두 능가했으며, 고IPC(≥50)에서는 데이터셋 크기를 약 50 %까지 감소시켜도 원본 데이터셋을 사용한 학습과 거의 동일한 정확도를 유지했다. 특히, 데이터‑프리 시나리오에서 NOpt만을 적용했을 때도 최신 데이터‑프리 DD 기법보다 3~5 % 높은 정확도를 기록하였다. 비용 분석 결과, DsCo는 합성 비용과 저장·전송 비용 모두에서 기존 오픈소스 확산 기반 방법보다 2~3배 효율적이었다. 마지막으로, 저자는 DsCo가 가져올 사회·경제적 파급효과를 논의한다. 데이터셋 크기 감소는 모델 학습에 필요한 에너지 소비를 크게 줄이며, 프라이버시 규제가 강화되는 현재 환경에서 원본 데이터를 공유하지 않고도 고성능 모델을 배포할 수 있게 한다. 또한, 데이터‑프리 상황에서도 학습이 가능해 전 세계적으로 데이터 접근성이 낮은 지역이나 기업에 큰 혜택을 제공한다. 요약하면, 이 논문은 (1) 데이터셋 증류와 분포 매칭의 동등성을 이론적으로 증명하고, (2) 무작위 노이즈 초기화가 초래하는 효율성 한계와 샘플링 편향을 정량화했으며, (3) Noise‑Optimization과 Doping을 결합한 DsCo가 데이터 접근 가능·불가능 상황 모두에서 손실 없는 데이터 압축을 실현한다는 점에서 학술적·실용적 의의를 모두 갖는다.

데이터셋 농축을 통한 손실 없는 데이터 압축

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기