텍스트와 이미지 정합성을 높이는 시맨틱 기반 시드 슈퍼비전
초록
SeGroS는 시각적 그라운딩 맵을 이용해 텍스트 토큰과 이미지 패치를 정밀히 매핑하고, 핵심 시각 영역을 ‘Visual Hints’로 제공하며, 낮은 그라운딩 점수를 가진 영역을 그대로 남겨 두어 마스크‑복원 손실을 핵심 영역에 집중시킨다. 이를 통해 기존 UMM의 텍스트‑이미지 granularity mismatch와 불필요한 감독 중복을 해소하고, GenEval·DPGBench·CompBench에서 전반적인 생성 품질과 교차‑모달 정합성을 크게 향상시킨다.
상세 분석
본 논문은 Unified Multimodal Models(UMM)에서 텍스트 프롬프트와 이미지 토큰 사이의 granularity mismatch 문제를 근본적으로 해결하고자 한다. 기존의 텍스트‑조건부 마스크‑복원 방식은 텍스트가 제공하는 추상적 의미와 이미지 토큰이 담고 있는 고밀도 공간 정보를 일치시키지 못해, 동일 텍스트에 대해 다양한 시각적 변형이 존재함에도 불구하고 특정 이미지만을 정답으로 강제한다는 편향을 만든다. 또한, 이미지‑조건부 프롬프트(Visual Hints)를 전체 이미지 토큰에 적용하면 배경 등 저중요도 영역이 과도하게 주입돼 모델의 어텐션이 분산되고, 무작위 마스크는 의미와 무관한 영역에 손실을 할당한다는 비효율성을 야기한다.
SeGroS는 세 단계의 핵심 메커니즘을 제시한다. 첫째, 텍스트 토큰을 intra‑modal(텍스트‑텍스트)와 inter‑modal(텍스트‑이미지) 어피니티를 동시에 고려해 ‘Discriminative Text Token Filtering’을 수행한다. 이 과정에서 L2 정규화된 임베딩을 기반으로 자기‑어피니티 행렬을 softmax로 변환해 각 토큰의 언어적 중요도를 구하고, 이미지‑텍스트 어피니티 행렬을 통해 시각적 대응성을 평가한다. 두 번째 단계에서는 필터링된 텍스트 토큰과 이미지 패치 사이의 유사도를 계산해 ‘Visual Grounding Map’을 만든다. 이 맵은 각 이미지 토큰이 텍스트 의미와 얼마나 정렬되는지를 정량화하며, 높은 점수를 받은 토큰을 ‘Visual Hints’로 추출해 모델에 추가적인 조건으로 제공한다. 마지막으로, 낮은 점수를 받은 토큰을 unmasked context로 남겨 두고, 높은 점수를 받은 핵심 영역을 마스크 처리해 ‘Semantically‑Grounded Corrupted Input’를 구성한다. 이렇게 하면 복원 손실이 의미적으로 중요한 영역에 집중돼 모델이 텍스트‑이미지 정합성을 학습하는 효율이 크게 상승한다.
실험에서는 기존 UMM 아키텍처(Harmon, Show‑o 등)에 SeGroS를 파인튜닝한 뒤, 텍스트‑투‑이미지 생성 평가지표인 GenEval, 디테일·구성 평가인 DPGBench, 그리고 복합 멀티모달 이해를 측정하는 CompBench에서 일관된 성능 향상을 보고한다. 특히, Visual Hints를 30% 상위 패치만 사용했을 때도 전체 이미지 프롬프트 대비 동일하거나 더 높은 점수를 얻으며, 마스크 비율을 텍스트‑정합 영역에만 적용함으로써 학습 효율과 메모리 사용량이 개선된다.
결과적으로 SeGroS는 (1) 텍스트‑이미지 정합성을 정량화하는 시각적 그라운딩 메커니즘, (2) 의미 중심의 마스크 전략을 통한 손실 집중, (3) 기존 UMM 구조를 그대로 유지하면서도 파인튜닝만으로 성능을 끌어올리는 경량화된 솔루션이라는 세 가지 주요 기여를 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기