생성하지 말아야 할 것을 안내하는 자동 부정 프롬프트: 텍스트‑이미지 정렬 향상

읽는 시간: 3 분
...

📝 원문 정보

  • Title: Guiding What Not to Generate: Automated Negative Prompting for Text-Image Alignment
  • ArXiv ID: 2512.07702
  • 발행일: 2025-12-08
  • 저자: Sangha Park, Eunji Kim, Yeongtak Oh, Jooyoung Choi, Sungroh Yoon

📝 초록 (Abstract)

텍스트‑이미지 생성 기술이 크게 발전했음에도 불구하고, 복합적인 구문이나 상상적인 요소가 포함된 프롬프트에 대해 정확한 정렬을 이루기는 여전히 어렵다. 이를 해결하고자 우리는 부정 프롬프트를 이용한 이미지 교정(NPC)이라는 자동 파이프라인을 제안한다. NPC는 교정이 필요한 이미지 영역을 파악하고, 해당 영역을 억제하도록 설계된 부정 프롬프트를 적용함으로써 정렬 오류를 감소시킨다. 우리는 교차‑어텐션 패턴을 분석하여, 정렬 오류와 직접 연결된 ‘목표 부정 프롬프트’와, 프롬프트와는 무관하지만 이미지에 나타난 ‘비목표 부정 프롬프트’ 모두가 정렬을 개선할 수 있음을 보였다. 유용한 부정 프롬프트를 찾기 위해 NPC는 검증‑캡셔너‑제안자(framework)를 활용해 후보 문장을 생성하고, 이미지 재생성을 필요로 하지 않는 텍스트 공간 내 현저도 점수로 순위 매긴다. GenEval++와 Imagine‑Bench 벤치마크에서 NPC는 강력한 베이스라인을 뛰어넘어 각각 0.571 vs. 0.371, 그리고 Imagine‑Bench 전체 최고 성능을 기록하였다. 부정 프롬프트를 통해 “생성하지 말아야 할 것”을 명시함으로써, 확산 모델에서 텍스트‑이미지 정렬을 자동으로 강화하는 원칙적인 방법을 제공한다. 코드는 https://github.com/wiarae/NPC 에서 공개한다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
본 논문은 텍스트‑투‑이미지(diffusion) 모델이 프롬프트의 의미를 완벽히 반영하지 못하고, 종종 원하지 않는 객체나 배경을 생성하는 현상을 ‘정렬 오류(alignment error)’라 정의한다. 이러한 오류는 특히 복합적인 명사구, 관계절, 혹은 상상적·추상적 개념을 포함한 프롬프트에서 두드러진다. 저자들은 먼저 교차‑어텐션 매트릭스를 시각화함으로써, 모델이 텍스트 토큰과 이미지 패치 사이에 형성하는 연결 강도가 정렬 성공 여부와 밀접하게 연관됨을 확인한다. 구체적으로, 목표 토큰(예: “red apple”)에 대한 어텐션이 기대 위치에 집중되지 않을 때, 이미지 내에 ‘불필요한’ 토큰(예: “dog”)에 대한 어텐션이 비정상적으로 높아지는 패턴을 발견했다. 이는 모델이 프롬프트와 무관한 시각적 특징을 과도하게 활성화한다는 의미이며, 이를 억제하는 것이 정렬 개선의 핵심임을 시사한다.

이에 기반해 제안된 Negative Prompting for Image Correction(NPC)은 두 단계로 구성된다. 첫 번째 단계는 ‘검증‑캡셔너‑제안자’ 프레임워크이다. 검증자(verifier)는 현재 생성된 이미지와 원본 프롬프트 사이의 정렬 점수를 추정하고, 캡셔너(captioner)는 이미지에 나타난 모든 시각적 요소를 텍스트로 기술한다. 제안자는 캡셔너가 만든 설명과 원본 프롬프트를 비교해 차이를 도출하고, 차이 요소를 부정 프롬프트 후보로 변환한다. 예를 들어, 캡셔너가 “a cat sitting on a table”를 출력했지만 원본은 “a dog on a table”라면, “no cat”과 같은 부정 토큰이 후보가 된다.

두 번째 단계는 후보 부정 프롬프트를 ‘현저도 점수(salient text‑space score)’로 평가하고 순위 매기는 과정이다. 현저도 점수는 후보 토큰이 원본 프롬프트와 텍스트 임베딩 공간에서 얼마나 멀리 떨어져 있는지를 측정하고, 동시에 캡셔너가 만든 설명에 얼마나 자주 등장하는지를 고려한다. 이렇게 하면 이미지 재생성을 하지 않아도 가장 효과적인 부정 프롬프트를 선별할 수 있다. 최종적으로 선택된 부정 프롬프트를 원본 프롬프트와 결합해 다시 이미지 생성에 투입하면, 교차‑어텐션이 목표 토큰에 더 집중하고 비목표 토큰에 대한 어텐션은 감소한다.

실험에서는 GenEval++와 Imagine‑Bench 두 대규모 벤치마크를 사용했다. GenEval++는 정밀한 텍스트‑이미지 정렬을 평가하는 메트릭을 제공하며, NPC는 기존 최첨단 방법 대비 0.571의 점수(베이스라인 0.371)로 크게 앞섰다. Imagine‑Bench는 다양한 도메인(풍경, 인물, 추상)과 복합 프롬프트를 포함하는데, NPC는 전체 평균에서 최고 성능을 기록했다. 특히 ‘목표 부정 프롬프트’와 ‘비목표 부정 프롬프트’ 모두가 정렬 개선에 기여한다는 점이 흥미롭다. 이는 부정 프롬프트가 단순히 오류를 직접 억제하는 역할을 넘어, 모델의 어텐션 분포를 재조정해 전반적인 표현력을 높인다는 새로운 인사이트를 제공한다.

결론적으로, NPC는 (1) 교차‑어텐션 분석을 통한 오류 원인 규명, (2) 이미지‑텍스트 양방향 검증을 통한 부정 프롬프트 자동 생성, (3) 텍스트 공간 기반 효율적 후보 선정이라는 세 가지 핵심 기법을 결합한다. 이 접근법은 추가 이미지 샘플링 없이도 정렬을 크게 향상시킬 수 있어, 실시간 생성 서비스나 제한된 연산 자원을 가진 환경에서도 실용적이다. 향후 연구에서는 부정 프롬프트와 긍정 프롬프트를 동시에 최적화하거나, 다중 단계 부정 프롬프트 체인을 설계해 더욱 복잡한 구문 구조에 대한 정렬을 탐구할 여지가 있다.

📄 논문 본문 발췌 (Translation)

(내용이 길어 본문은 생략되었습니다.)

📸 추가 이미지 갤러리

fig1_v3.png npo.png prompt_based.png prompts.png rank_new.png snr_analysis_v4.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키