VIBE 시각적 지시 기반 편집기

읽는 시간: 9 분
...

📝 원문 정보

- Title: VIBE Visual Instruction Based Editor
- ArXiv ID: 2601.02242
- 발행일: 2026-01-05
- 저자: Grigorii Alekseenko, Aleksandr Gordeev, Irina Tolstykh, Bulat Suleimanov, Vladimir Dokholyan, Georgii Fedorov, Sergey Yakubson, Aleksandra Tsybina, Mikhail Chernyshov, Maksim Kuprashevich

📝 초록

이 논문은 지시어를 기반으로 한 이미지 편집 모델을 소개하며, 특히 저비용 추론과 엄격한 원본 일관성을 유지하기 위한 방법을 제안한다. 이 모델은 Qwen3-VL-2B-Instruct와 Sana1.5-1.6B 확산 모델을 기반으로 하며, 네 가지 단계의 훈련 파이프라인을 통해 학습된다.

💡 논문 해설

1. **오픈 소스 이미지 편집 시스템**: 이 논문은 약 1500만 개의 트리플릿 데이터셋을 기반으로 한, 고속이고 컴팩트한 지시어 기반 이미지 편집 시스템을 제안합니다. 이를 통해 비전문가도 쉽게 접근할 수 있으며, 저비용과 빠른 처리 속도를 갖추고 있습니다. 2. **네 가지 단계의 학습 파이프라인**: 이 모델은 네 가지 단계로 구성된 훈련 파이프라인을 사용합니다. 이를 통해 다양한 확산 백본과 언어/비주얼 모델을 지원하며, 엄격한 원본 일관성을 유지할 수 있습니다. 3. **데이터 수집 및 필터링**: 이 논문은 데이터의 품질을 유지하기 위해 다단계 필터링 프레임워크를 사용합니다. 이를 통해 실세계에서 발생하는 다양한 지시어에 대해 안정적인 결과를 얻을 수 있습니다.

📄 논문 발췌 (ArXiv Source)

style="height:98.0%" />

VIBE가 생성한 이미지 편집의 예시들.

/>

VIBE가 생성한 이미지 편집의 예시들.

서론

지시어를 기반으로 한 이미지 편집 모델은 자연 언어 지시어에 따라 시각 콘텐츠를 수정하고, 콘텐츠 제작을 민주화하는 것을 약속한다. 전통적인 리터칭 도구와 달리 이러한 생성 모델은 비전문가도 접근할 수 있는 직관적이고 언어 기반의 인터페이스를 제공한다. 따라서 지시어에 따른 편집은 생성 AI 분야에서 가장 활발한 방향 중 하나가 되었다.

최근의 전문 시스템들은 Google Nano Banana Pro(Gemini 3 Pro Image), OpenAI의 GPT Image 1.5, Black Forest Labs의 FLUX.1 Kontext 모델과 같은 급속한 진보를 보여주고 있다. 반면 오픈 소스 연구는 품질과 사용성 면에서 일반적으로 뒤처져 있다. 대부분의 오픈 모델은 여전히 크기가 크며(6B~20B 파라미터) 학습 및 수정에 비용이 많이 들기 때문에 실험 속도가 느려지고 접근성이 제한된다.

많은 실용적인 시스템들은 사전 훈련된 텍스트-이미지 확산 백본을 시작점으로 하여 지시어 기반의 편집에 적응시키고 있다. 이 설정에서, 확산 기반 편집은 세 가지 설계 축에 의해 형성된다: (i) 참조 이미지가 어떻게 주입되는지, (ii) 지시어는 어떻게 해석되는지, 그리고 (iii) 학습 파이프라인은 어떻게 구성되는지.

참조 이미지 안내는 두 가지 일반적인 방법론으로 나뉘는데, (a) 참조 라턴트나 특징의 채널별 결합과 (b) 시각적 내용을 토큰화하고 이를 모델 입력 시퀀스로 주입하는 것.

텍스트 안내에 있어서 중요한 구조 선택은 확산 백본의 내장 텍스트 조건부에 의존할지, 아니면 지시어를 재구성하거나 구조화한 후 생성기를 조건부로 만드는 외부 모델을 추가할지를 결정하는 것이다. 널리 사용되는 텍스트-이미지 확산 백본들은 텍스트 조건부 생성에 최적화되어 있으며 따라서 텍스트만을 조건부 모듈(예: CLIP, T5 또는 Sana1.5에서 사용한 LLM)로 사용한다. 이러한 파이프라인에서는 조건부 모듈이 소스 이미지를 관찰할 수 없으므로 참조 콘텐츠의 맥락에서 지시어를 해석할 수 없다. 이미지 편집에서는 이 공동 해석이 종종 필수적이다. 따라서 본 모델은 지시어와 소스 이미지를 모두 섭취하고 확산에 대한 더 명확하고 이미지 인식 조건부 신호를 생성하는 지시어 튜닝 VLM을 사용한다.

확산 백본은 여전히 내장 텍스트 인코더의 표현 공간에서 조건부를 기대하므로, VLM 표현을 확산 모델의 조건부 공간으로 매핑하는 추가 설계 결정이 필요하다.

본 논문에서는 엄격한 효율성 제약 하에 이러한 구조적 질문들을 탐구한다. 우리는 계산적으로 효율적인 채널별 결합과 학습 가능한 메타 토큰 메커니즘을 결합하여 저비용 추론을 목표로 한다.

훈련은 네 가지 단계의 파이프라인으로 이루어진다:

  • 정렬: 고아스테틱 샘플에 대한 텍스트-이미지 목표를 통해 VLM을 확산 공간과 인터페이스하는 것.
  • 사전 학습: 대규모, 상대적으로 잡음이 많은 데이터에서 이미지-이미지 작업을 추가하여 핵심 편집 능력을 배우는 것.
  • 감독형 미세 조정: 깨끗하고 다양한 트리플릿에 대해 세밀하게 조정하는 것.
  • 직접 선호도 최적화(DPO): 고품질 선호도 데이터를 사용하여 실제 지시어와 모델을 정렬하는 것.

제안된 파이프라인은 다른 LLM/VLM과 확산 백본에 적용할 수 있도록 유연하다. 또한 CLIP 텍스트 인코더와 같은 상대적으로 가벼운 텍스트 인코더를 사용하는 백본도 지원한다. 정렬 단계에서 언어 모델과 확산 잠재 공간 사이의 연결을 명시적으로 형성하기 때문이다.

또한 우리의 접근법은 기술적 벤치마크가 아니라 실세계 문제에 대한 모델을 채택하는 것을 중점으로 한다. 우리는 실제 사용자 요청에 초점을 맞추고, 템플릿이나 순수하게 LLM이 생성한 프롬프트보다 인간의 표현과 더 잘 일치하는 지시어를 수집하거나 합성한다.

이 파이프라인을 위한 데이터는 다양한 출처에서 수집되며, 낮은 잡음과 실제 세계 분포에 최적화되어 있다. 우리는 전문 모델 파이프라인, 오픈 및 전roprietary 편집 시스템에서 추출한 신호, 자동 트리플릿 탐지 파이프라인, 필터링된 오픈 소스 이미지 편집 및 컴퓨터 비전 데이터셋, 수동으로 수집된 삼각대 촬영 사진 등과 추가 출처를 결합한다. 또한 광범위한 증강을 적용하며 특히 트리플릿 반전과 부트스트래핑에 크게 의존하여 계산 및 주석 비용을 줄인다.

역사적으로 다양한 지시어 기반 이미지 편집 방법은 소스 이미지의 원하지 않는 수정에 대한 다른 용인도를 가졌으며, 픽셀 수준의 외관, 장면 구성, 피사체 신원, 기타 속성 등이 어느 정도 유지되어야 하는지를 포함한다. 본 연구에서는 엄격한 원본 일관성을 목표로 한다: 지시어에서 명시적으로 요청되지 않은 변경 사항은 문제가 되며 모든 학습 및 평가 단계에서 처리된다. 이러한 목표는 특히 전역 변환을 장려하는 편집 카테고리(예: 스타일 변환)에 특히 도전적이다.

데이터셋의 품질을 유지하기 위해, 학습된 트리플릿 스코어링을 통해 정제한 Gemini 기반 검증기와 얼굴 임베딩 제약 조건 및 이미지 품질 점수 등 보조 확인 방법을 사용하는 다단계 필터링 프레임워크를 사용한다.

요약하면, 주요 기여는 다음과 같다:

  1. 약 1500만 개의 트리플릿을 기반으로 Qwen3-VL-2B-Instruct와 Sana1.5-1.6B 확산 모델을 학습한 오픈 소스, 초고속, 컴팩트 지시어 기반 이미지 편집 시스템을 제안한다.
  2. 다양한 확산 백본과 LLM/VLM 프론트 엔드에 적용할 수 있는 유연한 네 단계 학습 파이프라인을 제안한다.
  3. 실험 설계, 데이터 수집, 증강 및 필터링에 대한 결과, 분석, 통찰력과 같은 아블레이션 연구를 제공한다.

관련 작업

지시어 기반 이미지 편집은 모델 아키텍처, 안내 메커니즘, 학습 전략의 혁신을 통해 급속히 진화하고 있다. 초기 방법들은 일반적으로 사전 훈련된 확산 모델에 대해 반전 또는 주의 제어를 통해 직접 작동하는 비훈련 방식이었다. 이러한 접근법은 저비용이지만, 높은 품질 결과를 달성하기 어렵다. 이로 인해 분야는 대규모 트리플릿을 사용하여 확산 백본을 미세 조정하는 학습 기반 패러다임으로 변화했다. 흥미롭게도, 널리 사용되는 많은 학습 트리플릿은 이전 편집 시스템에서 부트스트래핑되었으며, 확대 가능한 데이터 생성과 모델 진보 사이의 긴밀한 결합을 강조한다.

생산 중심 오픈 편집기와 효율성 제약

불균형한 진행에도 불구하고, 높은 수준의 편집 품질은 여전히 한정된 수의 시스템에 집중되어 있다. 최근 오픈 기반 편집기는 텍스트-이미지 생성과 지시어 기반 편집을 단일 모델 가족 내에서 통합하려는 경향이 있지만, 종종 상대적으로 큰 확산 백본에 의존한다: 최근 릴리스의 경우 6B~20B 파라미터(예: LongCat-Image/Z-Image는 6B, FLUX.1 Kontext [dev]는 12B, Qwen-Image-Edit은 20B Qwen-Image 백본 위에 구축됨)이다. 이러한 규모는 학습과 추론 비용을 높여 개발 반복 속도를 늦추고 사용자에게 지연 및 편집당 비용을 증가시키며, 원하는 결과까지 도달하기 전에 사용자가 수행할 수 있는 상호작용적 세부 조정 사이클의 수를 제한한다. 이러한 비용으로 인해 최근 연구는 Sana 스타일의 백본과 같은 더 효율적인 확산 변환기와 학습 레시피에 대한 연구가 시작되었다. 본 논문에서는 동일한 효율성 우선 설정을 중점으로 하며, 2B급 VLM과 1.6B 확산 백본을 결합하여 엄격한 원본 일관성을 유지하면서 낮은 지연 시간 및 저비용 편집을 제공한다.

소스 이미지를 조건부로 만드는 아키텍처

확산 기반 편집의 핵심 설계 선택 중 하나는 소스 이미지에 대한 데노이징 과정을 어떻게 조건부로 만들 것인가이다. InstructPix2Pix에서 소개된 계산적으로 효율적인 접근 방법은 채널별 결합이며, 여기서 소스 이미지 라턴트는 노이즈 라턴트와 채널 차원에 따라 결합된다. 이 설계는 추론을 가볍게 유지하며 종종 지연 시간에 민감한 설정에서 선호된다.

다른 방법은 시각적 내용을 토큰화하고 주의를 통해 모델 입력 시퀀스로 주입하는 토큰별 다중모달 조건부 방법이다. 이 접근법은 소스 이미지, 지시어 및 네트워크 내에서의 중간 표현 간의 더 풍부한 상호작용을 가능하게 하지만 종종 구조적 및 계산상의 부담이 크다. 최근 기반 편집기는 텍스트와 이미지 토큰을 통합된 시퀀스로 처리하는 단일 스트림 확산 변환기를 더욱 일반화하고 있으며, 일반적인 생성 및 편집 능력의 일부로서 강력한 편집 동작을 보고한다. 반면에 우리는 채널별 조건부의 실용적 효율성을 유지하면서 컴팩트 VLM 안내와 데이터/레시피 선택을 통해 엄격한 배포 제약 하에서 생산 수준의 동작을 달성한다.

지시어를 해석하는 아키텍처

다른 주요 축은 텍스트 지시어가 소스 이미지에 어떻게 표현되고 근거하는지를 나타내는 것이다. 많은 편집기는 주로 확산 백본의 내장 텍스트 조건부에 의존하고 데이터 스케일링 및 학습 레시피를 통해 지시어 따라가기를 개선한다. 다른 연구 방향은 소스 이미지 맥락에서 지시어를 해석하고 생성기에게 더 명확한 편집 의도를 제공하는 강력한 VLM을 도입한다. 최근 오픈 기반 편집기는 편집 스택에 강력한 VLM 구성 요소를 직접 통합하기 시작했다. 예를 들어, Qwen-Image-Edit은 공개 이미지 기반 모델에 멀티모달 조건부를 확장하여 지시어 주도의 편집을 수행하고 있으며 LongCat-Image-Edit과 Z-Image-Edit은 유사한 통합 생성 및 편집 프레임워크 내에서 특화된 편집 변이체를 보고한다. 우리의 파이프라인은 현대 VLM을 사용하여 이미지 편집을 안내하는 동일한 고수준 방향을 따르지만, 통과량 및 엄격한 일관성을 최적화하기 위해 컴팩트 규모에서 진행된다.

학습 파이프라인, 데이터 및 정렬

모델 아키텍처를 넘어서 학습 파이프라인 자체가 중요한 요소이다. 초기 연구는 주로 데이터셋 수집에 초점을 맞췄지만 최근 연구는 더 복잡한 방식을 탐구하고 있다. 편집 미세 조정에서 일반적인 실제 문제 중 하나는 재앙적 잊음으로, 사전 학습된 텍스트-이미지 모델을 특화된 편집 트리플릿에 적응하는 과정에서 원래의 생성 가정이 손상되어 견고성과 미학적 품질이 저하된다. 또 다른 지속적인 어려움은 인터페이스 정렬으로, VLM이 편집을 해석할 때 그 표현이 확산 백본에 기대되는 조건부 공간으로 매핑되어야 하며, 무작위 엔드-투-엔드 학습은 불안정하거나 샘플 효율성이 떨어질 수 있다.

많은 최근 오픈 소스 파이프라인은 선호도 기반 목표(일부 경우 강력한 교사 편집기로부터의 증류를 포함)로 후 학습 정렬 신호를 사용하여 시각적 품질과 지시어 준수를 개선한다. 별도로, 최근 기반 편집기는 대규모 결합 사전 학습(종종 이미지-이미지 목표 포함)에 이어 감독형 후 학습 및 정렬을 강조하며, 강력한 편집 성능으로 실용적인 경로를 제공한다.

본 논문의 네 단계 설정에서 우리는 먼저 VLM과 연결기를 동결된 DiT 모델의 임베딩 공간에 적응시켜 새로운 VLM과 확산 모델 사이의 연결을 구축하는 정렬 단계를 수행한다. 이 단계에서는 고아스테틱 데이터에 대한 텍스트-이미지 목표를 사용하여 인터페이스를 안정화한 후 모델이 편집 특수 동작을 배우도록 한다. 그런 다음 대규모 이미지-이미지 사전 학습을 도입하고, 정제된 트리플릿에 대한 감독형 미세 조정을 수행하며 마지막으로 선호도 기반 후 학습(DPO)을 적용하여 편집 품질과 신뢰성을 개선한다. 실세계 동작을 유지하기 위해 데이터 구성 및 학습 과정에서 강력한 품질 관리를 강조하고 증강(예: 트리플릿 반전, 부트스트래핑) 및 다단계 필터링/검증을 통해 원하지 않는 수정을 줄이고 엄격한 원본 일관성을 강제한다.

일관성과 실제 지시어 분포

지시어 기반 편집 방법은 소스 이미지의 원하지 않는 변경에 대한 다른 용인도를 가진다. 신원 보존, 배경 안정성, 조명 일관성 및 세밀한 외관 제어 등이 포함된다. 엄격한 원본 일관성을 유지하는 것은 특히 전역 변환(예: 스타일화)을 장려하거나 정교하고 국소적인 수정을 요구하면서 부수적인 흐름을 피해야 하는 경우에 매우 어렵다. 또 다른 실용적 갭은 지시어 분포이다. 많은 학술 데이터셋에서 지시어는 주석자가 작성하거나 LLM이 생성하며 실제 사용자 쿼리와 표현, 모호성 및 의도가 다를 수 있다. 최근의 데이터셋과 인간 피드백 노력은 커버리지와 품질을 개선했지만, 실세계 지시어 스타일에 맞추는 것은 여전히 도전적이다. 우리의 연구는 실제 사용자 행동을 목표로 하며, 실세계 쿼리를 기반으로 지시어 텍스트를 근거하고 일관성을 위해 강력한 필터링을 적용하여 컴팩트 모델이 현실적인 프롬프팅에서 안정적으로 동작할 수 있도록 한다.

모델 아키텍처.

방법

본 아키텍처는 두 가지 주요 구성 요소를 통합한다: (i) 사용자의 지시어와 입력 이미지를 맥락에 따라 해석하는 학습 가능한 메타 토큰을 사용한 대형 비주얼-언어 모델(세부 사항은 섹션 3.2 참조)과 (ii) 생성 과정을 통해 편집된 이미지를 합성하는 확산 변환기이다. 이러한 구성 요소를 연결하기 위해, 섹션 3.3에서 자세히 설명한 대로 편집 의도와 확산 모델을 정렬하는 커넥터 모듈을 사용한다. 전체 파이프라인은 그림 3에서 설명된다.

본 연구에서는 다음과 같은 모델 t


📊 논문 시각자료 (Figures)

Figure 1



Figure 2



Figure 3



Figure 4



Figure 5



Figure 6



Figure 7



Figure 8



Figure 9



Figure 10



Figure 11



Figure 12



Figure 13



Figure 14



Figure 15



Figure 16



Figure 17



Figure 18



Figure 19



Figure 20



Figure 21



Figure 22



Figure 23



Figure 24



Figure 25



Figure 26



Figure 27



Figure 28



Figure 29



Figure 30



Figure 31



Figure 32



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키