마스크드 자동회귀 모델을 위한 두 단계 샘플링: 생성‑재구성 가속 기법

마스크드 자동회귀 모델을 위한 두 단계 샘플링: 생성‑재구성 가속 기법
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 마스크드 자동회귀(MAR) 모델의 병렬 샘플링 한계를 극복하기 위해 “생성‑재구성”(Generation‑then‑Reconstruction, GtR)이라는 훈련‑무료 계층적 샘플링 전략을 제안한다. 먼저 체커보드 패턴으로 이미지 토큰을 고르게 배치해 전역 구조를 천천히 생성하고, 이후 남은 토큰을 고주파 정보를 기반으로 선택·집중하여 단 몇 단계만에 빠르게 재구성한다. Frequency‑Weighted Token Selection(FTS)으로 세부 디테일 토큰에 더 많은 연산을 할당함으로써 품질 저하 없이 3.7배 이상의 속도 향상을 달성한다.

상세 분석

이 연구는 MAR 모델이 한 번에 다수의 토큰을 예측할 때 발생하는 “공간적 상관관계” 문제를 근본적으로 재고한다. 기존 MAR은 무작위 토큰 순열을 사용해 동시에 여러 토큰을 마스크드 오토리그레시브 방식으로 복원한다. 그러나 인접한 토큰을 동시에 예측하면 서로의 조건부 의존성이 크게 증가해 모델이 복잡한 공동분포를 학습해야 하며, 이는 샘플링 속도와 이미지 품질 사이의 트레이드오프를 악화시킨다. 논문은 두 가지 관찰을 기반으로 새로운 샘플링 프레임워크를 설계한다. 첫째, 이미지의 전역 구조는 상대적으로 적은 수의 비인접 토큰만으로도 충분히 형성될 수 있다는 점이다. 실험적으로 체커보드 패턴으로 50% 토큰을 고르게 배치하면 남은 토큰을 다양한 시드로 재생성해도 결과 이미지가 거의 동일함을 확인하였다. 이는 초기 단계에서 “전역 의미 스캐폴드”가 이미 구축된 상태임을 의미한다. 둘째, 고주파 성분이 강한 토큰은 세부 텍스처와 디테일을 담고 있어 생성 난이도가 높다. 저주파 토큰보다 더 많은 연산 자원을 할당해야 전체 이미지 품질을 유지할 수 있다.

GtR은 이러한 통찰을 두 단계로 구분한다. 생성 단계에서는 (i+j) mod 2 = 0인 토큰을 체커보드 방식으로 선택해, 각 단계당 마스크드 오토리그레시브 스텝 수를 제한함으로써 속도를 의도적으로 낮춘다. 이 단계는 전역 구조를 빠르게 확립하고, 이후 단계에서의 조건부 확률을 크게 강화한다. 재구성 단계에서는 남은 (i+j) mod 2 = 1 토큰을 거의 한 번 혹은 두 번의 마스크드 스텝만에 복원한다. 여기서 핵심은 FTS이다. 토큰의 라텐시 벡터에 2‑D 푸리에 변환을 적용해 고주파 에너지 맵을 계산하고, 에너지 상위 토큰을 우선적으로 선택·다중 스텝에 할당한다. 결과적으로 세부 디테일이 풍부한 영역은 더 많은 디퓨전 스텝을 거쳐 정교하게 복원되고, 저주파 영역은 단일 스텝으로 충분히 재구성된다.

수학적으로는 전체 토큰 집합을 K개의 상호 배타적 서브셋 {S₁,…,S_K}으로 분할하고, 각 서브셋에 대해 조건부 확률 p(S_k|S_{<k})를 마스크드 오토리그레시브 스텝 M_k ≤ |S_k| 로 근사한다. 단계별 마스크 비율 r_k는 (생성 단계) 낮게, (재구성 단계) 높게 설정되어 전체 샘플링 복잡도가 크게 감소한다. 또한, 토큰 간 인접성을 최소화하도록 설계된 체커보드 패턴은 각 스텝에서 예측해야 할 토큰 간 상관관계를 약화시켜 모델이 보다 단순한 조건부 분포를 학습하도록 돕는다.

실험에서는 ImageNet 클래스 조건 생성과 텍스트‑투‑이미지 생성 두 작업에 대해 MAR‑H(대형 MAR 모델)와 비교하였다. GtR+FTS 조합은 평균 3.72× 속도 향상을 달성하면서 FID 1.59, IS 304.4 등 원본 MAR‑H와 거의 동일한 품질을 유지한다. 특히, 기존의 “샘플링 스케줄링”이나 “토큰 프루닝” 기법보다 높은 가속률과 품질 보존을 보여, 다양한 모델 규모와 데이터셋에 일반화 가능함을 입증한다.

이 논문은 훈련 단계에 어떠한 변경도 가하지 않고, 순수히 샘플링 전략만으로 MAR 모델의 효율성을 크게 끌어올릴 수 있음을 증명한다. 향후 연구에서는 GtR을 다른 비자율형 생성 프레임워크(예: Diffusion, VQ‑GAN)와 결합하거나, 동적 토큰 선택 정책을 학습 기반으로 확장하는 방향이 기대된다.


댓글 및 학술 토론

Loading comments...

의견 남기기