세미NFT 모방에서 감상으로 프리셋 전송을 배우는 하이브리드 샘플 강화학습

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

세미NFT는 디퓨전 트랜스포머(DiT)를 기반으로, 초기에는 짝(pair) 데이터로 구조와 색상 매핑을 학습하고, 이후 비짝 데이터와 하이브리드 온라인‑오프라인 보상으로 강화학습을 진행해 인간 미학을 내재화한다. 이 과정에서 구조 보존을 유지하면서도 전역·국부 색조 일치를 달성하고, 흑백 사진 컬러화·애니메‑사진 간 프리셋 전송 같은 제로샷 작업에서도 뛰어난 성능을 보인다.

상세 분석

세미NFT는 기존 프리셋 전송 모델이 갖는 “전역 색상 매핑에 의존, 의미론적 맥락 무시”라는 근본적인 한계를 두 단계 커리큘럼 학습으로 극복한다. 첫 번째 단계인 콜드‑스타트 단계에서는 3,200개의 짝 이미지 트리플렛(텍스트 설명, 소스, 레퍼런스, 타깃)을 이용해 LoRA 모듈을 삽입한 DiT에 감독학습을 수행한다. 여기서 핵심은 소스‑레퍼런스‑타깃 간 구조적 일치를 학습하도록 인코더‑디코더 사이에 인과적(attention mask) 구조를 도입해 정보 누수를 방지한 점이다. 이 단계는 모델이 색상 변환보다 이미지 내용 보존에 집중하도록 만든다.

두 번째 단계는 강화학습(RL) 단계이다. 짝이 없는 1,500개의 소스‑레퍼런스 쌍을 활용해, 기존 DiffusionNFT의 “플로우 매칭 + 부정 보상” 방식을 확장한다. 특히, VLM(Qwen3‑VL‑8B‑Instruct)을 이용해 이미지‑레퍼런스 쌍에 대한 인간‑유사 점수를 자동으로 추출하고, 이를 정규화된 스칼라 보상으로 변환한다. 보상의 설계는 전역 색조 유사도와 국부(픽셀‑레벨) 일치를 동시에 고려하도록 프롬프트를 설계했으며, 확률적 출력(p(R=r|X))을 가중 평균해 기대 점수를 산출한다.

세미NFT는 여기서 “하이브리드 온라인‑오프라인 보상”을 도입한다. 온라인 샘플은 현재 정책이 생성한 이미지에 대해 VLM 보상을 적용하고, 오프라인 샘플은 인간이 사전에 평가한 고품질 검증 세트(소수)에서 고정 점수를 부여한다. 오프라인 점수는 정책이 구조적 왜곡이나 과도한 프리셋 전송에 빠지는 것을 방지하는 앵커 역할을 하며, 동시에 VLM 보상의 편향을 보정한다. 이중 보상 구조는 (1) 카탈리시스 효과 없이 점진적 미학 향상, (2) 초기 단계에서 학습한 구조 보존 능력의 망각 방지, (3) 보상 해킹(reward hacking) 위험 최소화를 동시에 달성한다.

모델 아키텍처 측면에서, 세미NFT는 Flux.1‑dev 기반 DiT에 두 개의 LoRA 모듈(콜드‑스타트 LoRA, RL LoRA)을 순차적으로 학습한다. 콜드‑스타트 LoRA는 10k 스텝 동안 고정된 데이터셋에만 학습하고, 이후 고정된 채로 RL LoRA만 업데이트한다. 이렇게 하면 파라미터 충돌을 최소화하고, 두 단계 간 지식 전이가 명확히 구분된다.

실험 결과는 다면적 평가 프로토콜을 통해 검증된다. 기존 PSNR/SSIM 외에도 Gemini‑2.5‑flash, GPT‑4o, Qwen3‑VL‑32B 등 최신 비전‑언어 모델을 활용해 인간 주관적 평가를 대체하는 자동 점수 체계를 구축했다. 표준 프리셋 전송 벤치마크에서 SOTA 모델들을 앞서며, 특히 색상 일관성·구조 보존·미학 점수 모두에서 평균 7‑8% 향상을 기록했다. 제로샷 실험에서는 흑백 사진 컬러화와 애니메‑사진 간 프리셋 전송에서 기존 방법이 색상 왜곡이나 구조 손실을 보이는 반면, 세미NFT는 자연스러운 색채와 원본 디테일을 동시에 유지한다.

요약하면, 세미NFT는 (1) 구조와 색상 학습을 단계적으로 분리, (2) VLM 기반 정교 보상과 인간 라벨 오프라인 샘플을 결합한 하이브리드 강화학습, (3) DiT와 LoRA를 활용한 효율적 파라미터 튜닝이라는 세 축을 통해 기존 프리셋 전송 모델의 한계를 근본적으로 해결한다. 이는 향후 이미지 편집, 색보정, 도메인 간 스타일 전이 등 다양한 응용 분야에 확장 가능한 프레임워크로 평가된다.

세미NFT 모방에서 감상으로 프리셋 전송을 배우는 하이브리드 샘플 강화학습

초록

상세 분석

댓글 및 학술 토론

의견 남기기