라벨 일관성을 위한 탐지기 기반 데이터셋 증류와 정제
초록
본 논문은 사전 학습된 탐지기를 활용해 합성된 데이터셋에서 라벨 오류와 구조적 결함을 자동으로 탐지하고, 다중 후보 이미지 생성·선별 과정을 통해 라벨 일관성과 이미지 다양성을 동시에 확보하는 새로운 데이터셋 증류 프레임워크를 제안한다. 실험 결과, 기존 확산 기반 증류 방법 대비 검증 정확도가 크게 향상됨을 보인다.
상세 분석
본 연구는 데이터셋 증류(Dataset Distillation, DD)의 핵심 문제인 “라벨 노이즈”와 “구조적 디테일 부족”을 해결하기 위해 탐지기(detector)를 중심으로 한 두 단계 파이프라인을 설계하였다. 첫 단계에서는 원본 데이터에서 추출한 클래스별 프로토타입을 이용해 Latent Diffusion Model(LDM)을 조건화하고, 이를 통해 초기 합성 이미지 집합을 만든다. 여기서 사용된 프로토타입은 사전 학습된 이미지 인코더(E)로부터 추출한 특징을 K‑means 클러스터링하여 얻으며, 각 클러스터 중심이 해당 클래스의 대표적인 잠재 표현으로 작동한다. 이러한 프로토타입‑조건화는 기존 Diffusion 기반 증류가 무작위 노이즈에서 시작하는 것과 달리, 동일한 프로토타입으로부터 다양한 변형을 손쉽게 생성할 수 있게 해준다.
두 번째 단계는 “이상 탐지·정제”이다. 원본 데이터로 학습된 탐지기 f는 CutMix 기반 데이터 증강을 통해 라벨 혼합에 강인하도록 훈련된다. 합성 이미지에 대해 탐지기의 예측 라벨과 소프트맥스 확신도(p)를 얻고, (예측 라벨 ≠ 목표 라벨) 또는 (p < β)인 경우를 결함 샘플로 판정한다. 결함 샘플마다 동일 프로토타입과 라벨을 다시 조건으로 하여 LDM을 여러 번 실행해 후보 이미지 집합 {x̃_i}를 만든다. 후보는 탐지기 신뢰도 점수와 기존 정상 샘플과의 특징 거리(예: 코사인 유사도) 두 축을 동시에 고려해 순위가 매겨진다. 상위 k개의 후보 중, 기존 정상 샘플과 가장 큰 거리(다양성)를 보이는 이미지를 최종 선택함으로써 라벨 정확성은 유지하면서 intra‑class 다양성을 증진한다.
핵심 기여는 다음과 같다. (1) 탐지기를 이용해 자동으로 라벨 불일치와 저신뢰 이미지를 식별함으로써 데이터셋 품질을 정량적으로 보증한다. (2) 프로토타입‑조건화된 다중 후보 생성 및 거리 기반 선택 메커니즘을 도입해, 라벨 일관성뿐 아니라 클래스 내 표현 다양성까지 동시에 최적화한다. (3) 실험적으로 CIFAR‑10/100, ImageNet‑1K 등에서 기존 확산 기반 증류(D4M, Stable Diffusion) 대비 2~4%p 이상의 정확도 향상을 입증한다.
또한, 알고리즘 1에 명시된 바와 같이 전체 파이프라인은 거의 전 과정이 자동화돼, 별도의 인간 개입 없이 대규모 데이터에 적용 가능하다. 계산 복잡도 측면에서는 후보 이미지 생성이 추가되지만, 각 후보는 동일 프로토타입을 재사용해 빠르게 생성되며, 탐지기 평가와 특징 거리 계산은 비교적 가벼운 연산이다. 따라서 전체 증류 시간은 기존 확산 기반 방법과 비슷하거나 약간 증가하더라도, 품질 향상 효과가 비용을 상쇄한다는 점이 실용적이다.
댓글 및 학술 토론
Loading comments...
의견 남기기