스케일·공간 마코프 기반 시각 자동회귀 모델 MVAR
초록
MVAR는 이미지 생성에서 차원 축소된 토큰을 다중 스케일로 예측하는 기존 방식의 한계를 극복한다. 인접 스케일만을 조건으로 삼는 스케일‑마코프 트래젝터와, 인접 스케일의 동일 위치 주변 k개의 토큰만을 참조하는 공간‑마코프 어텐션을 도입해 복잡도를 O(N²)에서 O(Nk)로 낮추고, GPU 메모리 사용량을 3배 이상 절감한다. ImageNet 실험에서 작은 모델은 스크래치 학습, 큰 모델은 파인튜닝 모두에서 동등하거나 우수한 성능을 보이며, KV 캐시 없이도 효율적인 추론이 가능하다.
상세 분석
본 논문은 시각 자동회귀 모델링에서 “다음‑스케일 예측”이라는 패러다임을 채택했음에도 불구하고, 여전히 모든 이전 스케일과 토큰을 조건으로 삼아 연산량과 메모리 사용이 과도하다는 문제점을 지적한다. 저자들은 두 가지 핵심 관찰을 통해 이를 해결한다. 첫째, 어텐션 가중치 분석 결과, 현재 스케일은 바로 이전 스케일에 가장 큰 의존성을 보이며 비인접 스케일에 대한 관심은 미미하다. 이는 “스케일‑마코프” 가정, 즉 인접 스케일만을 사용해 다음 스케일을 예측해도 충분하다는 근거가 된다. 이 가정은 조건부 확률을 p(rₗ|rₗ₋₁) 형태로 단순화함으로써, 각 스케일을 독립적으로 병렬 학습할 수 있게 하고, KV 캐시 필요성을 없앤다. 둘째, 동일 스케일 내 토큰 간 어텐션에서도 대부분이 공간적으로 인접한 이웃에 집중한다는 점을 발견한다. 이는 “공간‑마코프” 어텐션을 도입해, 각 토큰이 인접 스케일의 동일 위치 주변 k개의 토큰만을 키·밸류로 사용하도록 제한함으로써 O(N²) 복잡도를 O(Nk)로 감소시킨다. 여기서 k는 하이퍼파라미터이며, 실험에서는 3~5 정도가 적절함이 입증되었다.
MVAR의 아키텍처는 크게 두 단계로 구성된다. 1) 스케일‑마코프 트래젝터: 각 스케일 l에 대해 rₗ₋₁만을 입력으로 받아 rₗ를 예측한다. 이때 기존 V‑AR의 전체 조건(prefix) 대신, 인접 스케일만을 사용해 cross‑entropy 손실을 계산한다. 2) 공간‑마코프 어텐션: Transformer 블록 내 어텐션 연산을 수정해, Qₗ는 전체 토큰을 사용하지만 Kₗ·Vₗ는 (l‑1) 스케일의 동일 좌표 주변 k×k 윈도우만을 사용한다. 이렇게 하면 고해상도 스케일일수록 토큰 수 N이 급증하는데, 연산량이 선형적으로 증가한다.
실험에서는 ImageNet 256×256 데이터를 사용해 두 가지 모델 규모를 평가한다. 작은 모델(≈300M 파라미터)은 스크래치 학습으로, 큰 모델(≈1.2B 파라미터)은 사전 학습된 V‑AR 가중치를 파인튜닝한다. 결과는 다음과 같다. (1) FID 점수와 IS(이미지 품질)에서 기존 V‑AR 대비 0.5~1.2% 개선, (2) 평균 GPU 메모리 사용량이 3.0× 감소, (3) 추론 시 KV 캐시가 필요 없어 메모리와 지연시간이 추가로 4.2× 절감. 또한, 스케일‑마코프와 공간‑마코프를 각각 제거한 ablation 실험에서 두 요소 모두가 성능 및 효율성에 기여함을 확인한다.
이 논문의 주요 기여는 다음과 같다. 첫째, 스케일‑마코프 가정을 통해 다중 스케일 조건부 확률을 단순화하고, 병렬 학습과 메모리 절감을 실현했다. 둘째, 공간‑마코프 어텐션을 통해 고해상도 토큰 간 전역 어텐션의 불필요한 비용을 로컬 윈도우 연산으로 대체했다. 셋째, 이러한 설계가 실제 대규모 이미지 생성 작업에서 성능 저하 없이 효율성을 크게 향상시킨다는 실증적 증거를 제공한다. 앞으로는 k값을 동적으로 조정하거나, 마코프 가정을 비선형적으로 확장해 더 복잡한 시각 변환(예: 비디오, 3D)에도 적용할 가능성이 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기