파인튜닝의 한계를 깬 고품질 데이터셋, Fine T2I
초록
텍스트-이미지(T2I) 생성 모델의 파인튜닝을 위한 고품질 오픈 데이터셋이 부족한 현실에서, ‘Fine-T2I’는 대규모이면서도 높은 품질을 유지하는 데이터셋을 제안합니다. 합성 이미지와 전문가 큐레이션 실사 이미지를 혼합하고, 엄격한 필터링을 통해 초기 후보의 95% 이상을 제거하여 약 600만 쌍의 텍스트-이미지 데이터를 구축했습니다. 이 데이터셋으로 다양한 모델을 파인튜닝한 결과, 생성 품질과 지시어 준수도가 모두 향상되었음을 확인했습니다.
상세 분석
Fine-T2I 논문의 핵심 기술적 통찰은 ‘규모와 품질의 동시 확보’ 및 ‘체계적인 데이터 구축 파이프라인’에 있습니다. 기존 공개 파인튜닝 데이터셋(예: JourneyDB, LAION-Art)은 낮은 해상도, 불완전한 텍스트-이미지 정렬, 제한된 다양성으로 인해 엔터프라이즈급 모델과의 성능 격차를 야기했습니다. Fine-T2I는 이 문제를 해결하기 위해 두 가지 혁신적인 접근법을 취했습니다.
첫째, 데이터 구축 전략에 있어 ‘합성(Synthetic)‘과 ‘실제(Real)’ 데이터의 하이브리드 방식을 채택했습니다. 합성 데이터는 강력한 현대 모델(예: SD3, Flux)로 생성하며, LLM을 활용해 10가지 작업 조합, 32개 프롬프트 카테고리, 11가지 시각적 스타일 등을 포괄하는 체계적인 프롬프트를 설계했습니다. 여기에 더해 프롬프트 향상 모델을 적용하여 상세한 설명을 추가했습니다. 실제 데이터는 전문 사진작가의 라이선스 이미지를 활용하고, 강력한 VLM으로 정교한 프롬프트를 생성하여 고품질 실사 데이터의 부족 문제를 해결했습니다.
둘째, ‘95% 제거율’을 보여주는 엄격한 다단계 필터링 파이프라인이 데이터 품질의 핵심입니다. 이는 단순한 미학적 필터를 넘어섭니다. (1) 의미적 중복 제거: 어휘 중복이 아닌 임베딩 코사인 유사도를 기준(0.8)으로 한 의미적 중복 제거를 수행하여 다양성을 극대화했습니다. (2) 다각적 품질 평가: 텍스트-이미지 정렬(CLIP 점수), 시각적 충실도, 프롬프트 품질(내용 안전성, 속성 일치도)을 종합적으로 평가했습니다. (3) 다양한 해상도 및 종횡비 지원: 고정 해상도(예: 512x512)가 아닌 768x768부터 5184x3456에 이르는 다양한 해상도와 종횡비를 포함하여 현실적인 생성 요구를 반영했습니다.
이러한 접근법은 단순히 데이터를 모은 것이 아니라, ‘프로덕션급 모델을 위한 파인튜닝’이라는 명확한 목표 하에 데이터 분포를 설계하고 제어했다는 점에서 의미가 큽니다. 실험 결과, Flux, SD3, AR 모델 등 다양한 아키텍처에서 Fine-T2I 파인튜닝이 인간 평가, 시각적 비교, 자동 메트릭(CLIP Score, Aesthetic Score)에서 모두 일관된 성능 향상을 가져왔습니다. 이는 데이터셋의 일반화 가능성을 입증하며, 오픈 커뮤니티가 엔터프라이즈급 모델의 데이터 우위에 대항할 수 있는 실질적인 기반을 마련했다는 점에서 공학적 및 연구적 가치가 매우 높습니다.
댓글 및 학술 토론
Loading comments...
의견 남기기