이 논문에서는 텍스트-이미지 생성 모델(T2I)에서 발생하는 미세한 왜곡을 자동으로 인식하고 수정하기 위한 **Agentic Retoucher**라는 새로운 프레임워크를 제안합니다. Agentic Retoucher는 시각적-의사결정-행동 순환 구조로 설계되어, 생성된 이미지에서 특정 부분에 대한 왜곡을 감지하고 수정할 수 있습니다. 이를 위해 **GenBlemish-27K**라는 대규모 데이터셋을 구성하여, 다양한 왜곡 유형에 대한 정밀한 주석과 자연어 설명을 제공합니다. 실험 결과는 Agentic Retoucher가 현존하는 후처리 방법보다 향상된 성능을 보여주며, 특히 미세한 왜곡 인식 및 수정에서 뛰어난 효과를 나타냅니다.
💡 논문 해설
1. **Agentic Retoucher: 새로운 패러다임**
- **쉬운 설명:** Agentic Retoucher는 이미지 생성 모델이 스스로 문제점을 찾아내고 수정할 수 있도록 하는 '스마트한 편집자'입니다.
- **비교적 쉬운 설명:** 이미지에 작은 문제가 생겼을 때, 이 시스템은 자동으로 문제를 찾아내고 수정하려는 방법을 제시합니다. 이를 통해 생성된 이미지를 더 자연스럽게 만들 수 있습니다.
- **сложный объяснение:** Agentic Retoucher는 생성된 이미지에서 미세한 왜곡을 인식하고 이를 수정하는 자동화 프로세스를 제공합니다. 이를 통해 이미지의 품질이 크게 개선되고, 사용자는 더 자연스럽고 현실적인 결과물을 얻을 수 있습니다.
GenBlemish-27K 데이터셋: 세부 주석
쉬운 설명: GenBlemish-27K는 이미지의 작은 문제점을 잘 찾아낼 수 있는 큰 규모의 데이터베이스입니다.
비교적 쉬운 설명: 이 데이터셋은 생성된 이미지에서 발생하는 다양한 유형의 왜곡을 세부적으로 주석하고 자연어로 설명합니다. 이를 통해 Agentic Retoucher는 더 정확하게 문제점을 인식하고 수정할 수 있습니다.
сложный объяснение: GenBlemish-27K 데이터셋은 생성된 이미지에서 발생하는 다양한 왜곡을 세밀하게 주석화하고, 이 정보를 바탕으로 Agentic Retoucher는 더 정확한 문제점 인식과 수정을 수행할 수 있습니다.
세 가지 에이전트의 협업
쉬운 설명: Agentic Retoucher에는 시각적인 감지, 분석, 그리고 수정에 각각 전담하는 세 명의 ‘편집자’가 있습니다.
비교적 쉬운 설명: 이 프레임워크는 시각적인 문제를 찾고, 어떤 문제가 있는지를 판단하며, 이를 수정하기 위해 세 가지 다른 기능을 가진 에이전트로 구성되어 있습니다. 이들 에이전트의 협업으로 생성된 이미지가 더욱 자연스럽게 변환됩니다.
сложный объяснение: Agentic Retoucher는 시각적 감지, 분석, 수정에 각각 전담하는 세 가지 에이전트를 통해 구조화된 순환 프로세스를 제공합니다. 이를 통해 생성된 이미지에서 발생하는 미세한 왜곡을 자동으로 인식하고 수정할 수 있습니다.
📄 논문 발췌 (ArXiv Source)
# 서론
텍스트-이미지(T2I) 확산 모델들, 예를 들어 Imagen, Stable Diffusion,
FLUX 및 Qwen-Image는 자연어 프롬프트로부터 사진 같은 실감나고 창의적인 이미지를 생성하는 데 혁명을 일으켰습니다. 이러한 모델들은 이제 디자인, 영화, 엔터테인먼트 파이프라인뿐만 아니라 편집 및 비디오 생성과 같은 하류 작업에서도 널리 채택되고 있습니다. 그러나 가장 진보된 모델들도 작은 규모의 왜곡을 자주 발생시킵니다. 이러한 왜곡에는 팔다리가 맞지 않거나, 얼굴이 비대칭적이거나, 글자가 읽기 어려운 것 등이 포함됩니다. 이러한 결함들은 대부분 그렇지 않은 경우에도 고급 출력 내에서 국소적으로 발생하여 감지하기 어렵고 전체 이미지를 다시 생성하는 데 비용이 많이 듭니다. 결과적으로 T2I 시스템은 아직 자동화된 인식 신뢰성을 갖추지 못한 상태로, 이는 실제 창의적 및 산업 사용에 있어 중요한 장애물입니다.
최근 연구에서는 세 가지 주요 방향으로 생성 정확도를 향상시키기 위해 노력하고 있습니다: 프롬프트 강화, 강화 학습 기반 최적화, 그리고 미세한 노이즈 공간 맞춤. 이러한 접근법은 전체적인 현실성을 크게 향상시킵니다만 명시적인 공간 추론 능력이 부족하여 국소적인 실패를 인식하거나 수정할 수 없습니다. Imagic, Bagel 및 Step1x-Edit와 같은 후 처리 편집 파이프라인은 지역적 세부 조정을 가능하게 하지만, 수동으로 작성된 마스크나 휴리스틱 텍스트 암시에 의존하여 자동화된 수정 요구 영역 식별을 방지합니다.
비전-언어 모델(VLMs)은 그들의 의미 추론 능력 때문에 자동화된 비평가로서 가능성을 보여줍니다. 그러나 도표 [fig:teaser] (왼쪽)에서 볼 수 있듯이, 최신 VLM들도 왜곡된 영역을 신뢰할 수 있게 정위하는 데 어려움을 겪습니다. 명시적인 질의가 종종 일관성 없거나 잘못된 평가를 내리고, 분명히 비정상적인 영역이 정상으로 판단되는 경우가 있습니다. 이는 두 가지 주요 문제에서 기인합니다: VLMs은 고수준 의미적 대응을 위한 최적화로 인해 픽셀 수준 검증에 약한 공간적 정위 및 미세한 아트팩트를 놓치게 됩니다. 또한 그들의 광범위한 지식 사전이 시각적 증거를 무시하고 환영된 판단을 초래할 수 있습니다. 예를 들어, 손에 여섯 개의 손가락이 있는 초상화는 손목이 명확히 표시되어 있어도 합리적으로 보일 수 있음을 보여줍니다. 이것은 현재 VLMs가 AI 생성 이미지에서 미세한 아트팩트 감지를 위해 신뢰할 수 없다는 것을 나타냅니다.
이러한 제약을 해결하기 위해, 우리는 Agentic Retoucher를 제안합니다. Agentic Retoucher는 후 처리 수정을 구조화된 인식-추론-행동 루프로 재정의하는 계층적 의사결정 기반 프레임워크입니다. Agentic Retoucher는 통합된 자기 정교화 사이클을 수행하는 세 가지 협업 에이전트를 포함합니다. 감지 에이전트는 시각적 증거와 프롬프트 의미론을 통합하여 컨텍스트 인식의 왜곡 유의성을 예측하고, 미세한 이상에 대한 신뢰할 수 있는 영역 제안을 생성합니다. 추론 에이전트는 점진적인 선호도 정렬을 통해 변형 유형 식별, 변형의 출현 상세화 및 전반적인 이미지와의 일관성 평가를 포함하는 인류 중심 진단 추론을 수행합니다. 행동 에이전트는 모듈러 도구 라이브러리에서 적응적으로 선택하고 타겟팅된 수정 작업을 실행하여 사용자나 환경 제약 하에 마스크 안내 및 지시어 기반 편집을 지원합니다. 반복적인 검증을 통해 이러한 구성 요소는 인식 단서, 의미 추론 및 통제 가능한 도구 기반 수정을 일관된 자기 수정 프로세스로 융합하여 제안된 Agentic Retoucher가 자동적으로 텍스트, 손, 얼굴 및 상호 작용의 왜곡 아트팩트를 정교화할 수 있습니다 (도표 [fig:teaser] 오른쪽).
미세한 규모와 지역 인식 감독을 가능하게 하기 위해 우리는 GenBlemish-27K라는 데이터셋을 구성하였습니다. 이 데이터셋은 12개의 대표적인 아트팩트 유형을 포함하여 6,000개의 T2I 이미지에 대한 27,000개의 픽셀 수준 주석화된 왜곡 영역이 있습니다. 이 데이터셋은 공간적 정위와 의미 추론 단서를 제공하여 우리의 시스템이 지역적인 왜곡을 신뢰할 수 있게 인식하고 해석 가능한 영역 수준 피드백으로 변환하고 이를 타겟팅된 수정 작업으로 전환하는 데 도움을 줍니다. 우리 프레임워크 지원을 넘어서, GenBlemish-27K는 AIGC 이미지 평가를 위한 VLM의 견고성을 향상시키며 지역 기반 평가 및 인간 중심 왜곡 추론으로 조정합니다. 광범위한 실험은 Agentic Retoucher가 다양한 확산 백본에서 로컬 인식 정확도를 크게 높이는 동시에 전역적 일관성을 유지하며, 상태의 예측 점수는 44.21에서 47.10으로 증가하고 인간 선호 연구에서는 **83.2%**가 수정되지 않은 출력보다 더 선호하는 것으로 나타났습니다.
우리의 주요 기여는 다음과 같습니다:
우리는 Agentic Retoucher, 생성 후 편집을 인식-추론-행동 루프로 재정의하는 새로운 패러다임을 제안합니다. 이는 확산 모델이 자동으로 자신의 아트팩트를 진단하고 정교화할 수 있게 합니다.
우리는 인식 에이전트가 컨텍스트 인식 왜곡 로케일화, 추론 에이전트가 인간 중심 세부 진단을 수행하고 행동 에이전트가 사용자 지도 도구로 적응적 지역 수정을 수행하는 협업 세 가지 에이전트 시스템을 설계합니다.
우리는 GenBlemish-27K를 구성하여 12개의 아트팩트 유형에 대한 픽셀 수준 마스크와 텍스트 주석화를 제공하여 미세한 아트팩트 인식 및 수정을 위한 데이터셋을 제공합니다.
광범위한 실험은 다양한 확산 백본에서 시각적 질량 향상, 아트팩트 로케일 및 텍스트 설명 정확도 측면에서 우리 프레임워크가 최고 수준의 성능을 달성한다는 것을 보여줍니다.
관련 연구
style="width:100.0%" />
GenBlemish-27K 개요. 도표는 (a) 6개의 고수준 차원과 12개의 미세한 카테고리를 포함하는 이중 계층 왜곡 세분화, (b) 로케일된 왜곡 유형 분포, (c) 인간-AI 협업 주석화 파이프라인 및 (d) 픽셀 수준 마스크와 텍스트 설명을 가진 대표적인 포맷팅 샘플을 보여줍니다. 이를 통해 GenBlemish-27K는 다양한 텍스트-이미지 왜곡에 대한 미세한 로케일화 및 추론을 가능하게 합니다.
시각적 질량 평가 (VQA). VQA는 인간의 주관적인 인식과 더 가까운 정렬로 다양한 이미지와 비디오 작업을 평가하는 중요한 분야입니다. AIGC 콘텐츠 평가를 위해 대부분의 기존 연구는 전역 스케일에서 양적 지표를 적용하며 명시적인 로케일화 및 결함 평가 없이 진행됩니다. RichHF는 로컬 구조적 왜곡을 위한 예측자와 대응하는 점수링 절차를 소개합니다. 그러나 이러한 방법은 단순히 평가에 중점을 두고 있으며 자동화된 폐쇄 루프 파이프라인으로의 통합이 이루어지지 않았습니다.
비전-언어 모델 (VLMs). VLMs는 대규모 다중모달 데이터를 통해 훈련을 받아 일반 인공 지능 분야에서 주도적인 역할을 수행합니다. 그러나 높은 정확성 사전 학습 데이터와 학습된 사전의 의존성이 강한 경우에는 텍스트-이미지 평가 컨텍스트에서 VLMs는 사전 기반, 불안정한 환영 응답을 쉽게 생성합니다.
비전 내 에이전트 시스템. 에이전트 시스템은 능동적인 폐쇄 루프 인식-결정-행동 프레임워크를 채택하며, VLMs는 강력한 추론으로 인해 점점 플래너로 작용합니다. 3D 영역에서는 VADAR이 우수한 성능을 달성하는 에이전트 프로그램 합성을 제안하고 있습니다. 이미지 및 비디오 복원에서 AgenticIR과 MoA-VR은 독립적으로 VLM 통합 다중 에이전트 수정 패러다임을 제안하고 있으며, 예술적 창작에서는 JarvisArt가 사용자 지시에 기반한 도구 호출을 통해 세밀한 사진 편집을 가능하게 합니다.
데이터셋: GenBlemish-27K
style="width:100.0%" />
제안된 Agentic Retoucher 개요. 이 프레임워크는 AIGC의 생성 후 수정을 위한 인식-추론-행동 루프로 작동합니다. 인식 에이전트는 크로스 모달 유의성 예측을 통해 컨텍스트 종속 왜곡을 로케일화하고, 추론 에이전트는 반복적 추론을 통해 인간 중심 진단을 수행하며, 행동 에이전트는 추론 출력에 따라 적응적인 지역 인페인팅을 실행하여 폐쇄 루프 자기 수정 프로세스를 형성합니다.
우리는 텍스트-이미지 생성에서 세밀한 왜곡 진단과 추론을 위한 대규모 데이터셋인 GenBlemish-27K를 구성하였습니다. 이 데이터셋은 12개의 아트팩트 유형에 대한 27,000개 이상의 픽셀 수준 주석화와 자연어 설명을 제공하여 인식, 추론 및 지역 수정 작업에 대한 포괄적인 감독을 제공합니다.
왜곡 세분화
기존 T2I 평가 데이터셋은 제한된 커버리지 (예: HADM), 둔감한 주석 (예: RichHF) 및 부족한 규모 (예: SynArtifacts-1K는 1,000개 샘플만 있음)로 인해 어려움을 겪습니다. 이러한 문제를 해결하기 위해 GenBlemish-27K는 대규모 주류 T2I 모델 출력 검사를 통해 도출된 왜곡의 계층적 세분화를 설정합니다. 우리는 인간 해부학적 왜곡, 속성 일관성 부족, 공간 오류, 객체 변형 또는 중복, 행동 및 상호 작용 왜곡, 기타 사례 등 여섯 가지 고수준 왜곡 차원을 정의하며 이러한 차원은 팔다리 이상, 얼굴 왜곡 및 텍스트 이상과 같은 12개 미세한 카테고리로 세분화됩니다. 이 세분화는 최신 확산 모델에서 관찰되는 일반적인 아트팩트를 포착하고 무엇이 잘못되었고 어디서 잘못되었는지에 대한 해석 가능한 추론을 가능하게 합니다 (도표 [fig:dataset] 참조).
데이터 주석화
우리는 EvalMuse-Structure에서 6,025개의 이미지를 수집하여 Dreamina, Midjourney, Kandinsky 및 SDXL과 같은 20개 이상의 T2I 모델에서 나온 출력을 커버합니다. 4단계의 인간 중심 주석화 과정은 의미의 풍부함과 주석의 일관성을 보장합니다. (1) 주석자들은 먼저 사전 주석화 단계를 통해 교육받습니다. (2) 각 왜곡 영역에 대해 여러 주석자가 독립적으로 중심, 카테고리 및 간단한 텍스트 설명을 제공하며, 영역 반경은 이미지 높이의 1/20입니다. (3) QwenVL-Max를 통해 텍스트 설명이 확장되고 세밀화됩니다. (4) 최종 주석은 다수결 투표와 전문가 검증을 통해 조정됩니다. 각 샘플에는 생성된 이미지, 입력 프롬프트, 왜곡 마스크, 카테고리 레이블 및 자연어 설명이 포함되어 있으며, 유의성 예측, 결함 분류 및 언어 기반 정위에 대한 작업을 지원합니다.
데이터셋 통계
GenBlemish-27K는 6,025개 이미지와 27,507개 주석화된 왜곡 영역을 포함합니다. 다수결 투표와 전문가 검증 간의 일치율은 95%를 초과하여 주석의 신뢰성을 확인합니다. 각 이미지는 평균적으로 4.6개의 주석화 영역이 있으며, 각각은 11.8단어 설명을 포함합니다. 도표 [fig:dataset]에 따르면, 손 왜곡이 모든 주석의 46.8%를 차지하며 얼굴 결함이 그 다음으로 15.7%입니다. 이러한 통계는 고급 확산 모델에서도 세밀한 인간 생성이 지속적인 과제임을 나타냅니다. 보충자료에 더 자세한 내용이 포함됩니다.
방법론
Agentic Retoucher 개요
우리는 Agentic Retoucher를 제안합니다. 이는 생성 후 이미지 수정을 폐쇄된 인식-추론-행동 루프로 재정의하는 것입니다. 기존의 전방향 편집 파이프라인이 정적 수정을 적용하는 것과 달리, 우리의 프레임워크는 수정 과정에 자율성, 해석 가능성 및 자기 수정을 도입합니다. 레토싱을 순차적인 의사결정 프로세스로 구성함으로써 모델은 무엇과 어디서 왜곡이 발생하는지 추론한 다음 타겟팅된 수정을 수행할 수 있습니다. 이를 통해 인식 증거, 의미 추론 및 통제 가능한 수정을 단일 해석 가능 파이프라인에 통합합니다.
도표 [Fig:pipeline]에서 보듯이 프레임워크는 세 가지 협업 에이전트로 구성됩니다. 감지 에이전트는 시각-텍스트 신호로부터 컨텍스트 종속 왜곡을 탐지하고 유의성 맵을 생성합니다. 추론 에이전트는 탐지된 영역을 분석하여 왜곡 유형을 식별하고 인간 중심 텍스트 설명을 생성합니다. 행동 에이전트는 추론 출력에 따라 지역적 수정을 수행하여 반복적인 정교화를 통해 인식-추론-행동 사이클을 닫습니다.
수학적으로, $`I_t`$가 수정할 이미지를 나타내고 $`t`$에서 감지 에이전트는 유의성 맵 $`S_t`$를 생성하여 이상적인 영역을 강조합니다. 만약 유의성 $`S_t`$가 임계값 $`\tau_s`$를 초과하면 추론 에이전트는 왜곡 유형을 추론하고 지역 수준 설명 $`\{D_i\}`$ 및 마스크 $`\{M_i\}`$를 생성합니다. 행동 에이전트는 다음의 로컬 수정을 적용하여 업데이트된 이미지를 얻습니다:
MATH
\begin{equation}
I_{t+1} = \Phi_{\text{act}}(I_t, \{M_i \lor D_i\}), \quad t \leftarrow t + 1.
\end{equation}
클릭하여 더 보기
이 과정은 모든 유의성 왜곡이 제거될 때까지 반복되어 시각적으로 충실한 결과를 생성합니다. 이러한 순환 루프를 통해 프레임워크는 생성 후 수정을 반응적 수정에서 적극적인 추론으로 전환하고, 인식 분석, 컨텍스트 이해 및 통제 가능한 레토싱을 단일 해석 가능 파이프라인에 통합합니다.
컨텍스트 인식 시각적 왜곡 분석
텍스트-이미지 생성은 종종 불가능한 팔다리, 객체 및 텍스트와 같은 미세하고 컨텍스트 의존적인 왜곡을 보여줍니다. 이러한 아트팩트는 명확한 물체 경계를 갖추지 않아 전통적인 픽셀 단위 탐지를 신뢰할 수 없게 합니다. 인간의 시각적 민감성을 모방하기 위해, 우리는 이미지 $`I`$와 프롬프트 $`P`$에 기반한 왜곡 유의성 맵 $`S \in [0,1]^{H\times W}`$를 추정하는 컨텍스트 인식 유의성 예측기를 설계합니다. Dual-encoder ViT-T5 백본은 이미지와 텍스트 표현을 인코딩하고 이를 후속적으로 셀프 어텐션 메커니즘을 통해 결합하여 시각적 구조와 텍스트 의미 사이의 내재적인 상응관계를 포착합니다. 가벼운 주의력 정교화 모듈은 다중 스케일 컨텍스트 단서를 추가로 집약하여 전반적인 이미지에 따라 가시성이 결정되는 왜곡 감지를 개선합니다.
이 모델은 픽셀 정확도와 분포 일관성을 균형 있게 맞추는 하이브리드 손실을 사용하여 최적화됩니다: