진화하는 AI 생성 이미지 품질 평가를 위한 라벨프리 프레임워크 ELIQ
초록
ELIQ는 인간 라벨 없이 자동으로 생성한 양성·음성 이미지 쌍을 활용해, 시각적 품질과 프롬프트‑이미지 정합성을 2차원 점수로 예측하는 프레임워크이다. 사전 학습된 멀티모달 모델을 명령 튜닝하고, 가벼운 게이트형 융합·Quality Query Transformer로 점수를 산출한다. 실험 결과, 기존 라벨프리 방법을 넘어서는 성능을 보이며 AIGC와 UGC 모두에 적용 가능함을 입증한다.
상세 분석
ELIQ는 급격히 발전하는 텍스트‑투‑이미지 생성 모델이 만든 이미지의 품질 기준이 지속적으로 변한다는 문제를 인식하고, 절대적인 MOS(Mean Opinion Score) 라벨에 의존하지 않는 새로운 학습 패러다임을 제시한다. 핵심 아이디어는 “상대적 비교”를 자동으로 생성하는 것이다. 먼저 7가지 카테고리(실내, 도시, 자연, 인물·활동, 사물·인공물, 음식, 이벤트)와 세부 개념을 정의하고, GPT‑5 기반 프롬프트 생성기로 400개의 다양하고 의미가 명확한 텍스트 프롬프트를 만든다. 이 프롬프트를 Qwen‑Image, FLUX.1‑dev, Stable Diffusion 3.5‑Large 등 세 가지 최신 T2I 모델에 입력해 고품질 양성 이미지(I⁺)를 1,200장 확보한다.
음성 샘플은 두 가지 왜곡 패밀리(전통적·AI‑특화)와 세 가지 품질 차원(기술, 미학, 정합)으로 구성된다. 전통적 왜곡은 JPEG 반복 압축·가우시안 노이즈, 이미지‑투‑이미지 편집(Qwen‑Edit) 등을 사용해 시각적 저하를 만든다. AI‑특화 왜곡은 프롬프트를 의도적으로 손상시키거나, 디퓨전 라텐트를 중간 단계에서 추출해 저품질 이미지를 생성한다. 정합 음성은 이미지‑프롬프트 쌍을 섞어 의미 불일치를 유도한다. 이렇게 구성된 튜플 T = {I⁺, I⁻_tec, I⁻_aes, p, p⁻_ali}는 “I⁺ > I⁻_tec”, “I⁺ > I⁻_aes”, “(I⁺,p) > (I⁺,p⁻_ali)”라는 순위 제약을 제공한다.
ELIQ는 이러한 순위 정보를 이용해 사전 학습된 멀티모달 대형 언어 모델(MLLM)을 품질 인식 백본으로 전환한다. 구체적으로는 “기술 품질 평가”, “미학 품질 평가”, “텍스트‑이미지 정합 평가”라는 세 가지 명령을 설계하고, 양성·음성 쌍을 라벨 없이 디스크리트 ‘high/low’ 형태로 지도한다. 이 단계는 전체 파라미터를 미세조정하는 인스트럭션 튜닝이며, 모델이 각 측면을 독립적으로 판단하도록 학습한다.
백본을 고정한 뒤, 가벼운 스코어링 모듈을 추가한다. 이미지와 프롬프트를 각각 비주얼 임베딩·텍스트 임베딩으로 변환한 뒤, 게이트형 융합(gated fusion)으로 두 모달리티를 결합한다. 이어서 Quality Query Transformer(QQT)는 “visual‑query”와 “alignment‑query”라는 두 개의 학습 가능한 질의 토큰을 입력받아, 각각 시각적 품질 점수와 정합 점수를 출력한다. 손실 함수는 위에서 정의한 순위 제약을 만족하도록 설계된 랭킹 손실(예: hinge loss)이며, 절대값 라벨이 필요 없으므로 라벨링 비용이 전혀 들지 않는다.
실험에서는 AIGC 전용 벤치마크(AIGIQA‑20K, AGIN 등)와 기존 UGC 벤치마크(KonIQ‑10k, PaQ‑2‑PiQ 등) 모두에 적용했다. 라벨프리 방법 중 CLIP‑IQA, Quali‑CLIP 등과 비교했을 때, SRCC/PCC 지표에서 평균 5~7%p 상승을 기록했으며, 최신 감독 학습 기반 모델(예: MANIQA)에 근접하거나 일부 경우 능가했다. 특히, 모델이 훈련된 시점과 평가 시점 사이에 생성 모델이 크게 업그레이드된 경우에도 성능 저하가 거의 없었다. 이는 자동 생성된 순위 데이터가 최신 모델의 품질 분포를 즉시 반영할 수 있기 때문이다.
또한, ELIQ는 동일 아키텍처와 파라미터를 유지한 채 UGC 데이터에 그대로 적용했을 때도 경쟁력 있는 결과를 보였다. 이는 “시각적 품질”과 “정합”이라는 두 축이 인간이 인지하는 전반적인 이미지 품질을 포괄적으로 설명한다는 점을 시사한다. 마지막으로, 코드와 데이터 파이프라인을 공개 예정이라 연구 커뮤니티가 손쉽게 재현·확장할 수 있다.
요약하면, ELIQ는 (1) 라벨프리 양·음성 쌍 자동 생성, (2) 멀티모달 인스트럭션 튜닝, (3) 경량화된 질의 기반 스코어링이라는 세 가지 핵심 기술을 결합해, 급변하는 AI 생성 이미지 환경에서도 지속 가능한 품질 평가 체계를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기