시각 자동회귀 가속을 위한 이중연결 엔트로피 기반 적응형 토큰 축소

시각 자동회귀 가속을 위한 이중연결 엔트로피 기반 적응형 토큰 축소
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 시각 자동회귀(VAR) 모델의 고비용 토큰 연산을 해결하고자, 엔트로피 변화를 이용해 모델의 불확실성 감소 과정을 정량화한다. NOVA라는 훈련‑무료 프레임워크는 스케일별 엔트로피 성장 곡선의 변곡점을 실시간으로 탐지해 가속 활성화 시점을 결정하고, 스케일‑연결 및 레이어‑연결 비율 함수를 통해 각 스케일·레이어마다 최적의 토큰 축소 비율을 동적으로 할당한다. 낮은 엔트로피 토큰을 제거하면서 이전 스케일의 잔차 캐시를 재활용함으로써 연산량을 크게 줄이고, 이미지 품질 저하를 최소화한다. 실험 결과, Infinity‑2B에서 2.89배 가속(성능 손실 0.01%)과 Infinity‑8B에서 지연 시간 0.75 s(원본 1.51 s) 달성, 심지어 선호 점수까지 향상시켰다.

상세 분석

NOVA는 기존 VAR 토큰 축소 기법이 갖는 “단계 구분의 휴리스틱”, “고정 스케일·비율”, “가속 범위 제한”이라는 세 가지 근본적인 한계를 엔트로피 기반의 동적 분석으로 극복한다. 엔트로피는 각 토큰이 현재까지 관측된 컨텍스트에 대해 얼마나 불확실한지를 직접적으로 나타내는 정보이론적 지표이며, 높은 엔트로피 토큰은 이후 예측에 큰 영향을 미치는 반면, 낮은 엔트로피 토큰은 이미 충분히 확정된 정보를 담고 있다. 논문은 스케일별 전체 엔트로피 평균 ¯Hₜ를 계산하고, 그 성장 곡선에서 급격히 완만해지는 변곡점을 찾아 가속을 시작할 최적 스케일 t*를 자동으로 선정한다. 이는 “조기 축소로 인한 품질 저하”와 “늦은 축소로 인한 가속 손실” 사이의 트레이드오프를 실시간으로 해결한다는 점에서 혁신적이다.

스케일‑연결 비율 함수는 t* 이후의 모든 스케일에 대해 서로 다른 축소 비율 ρₛ(t)를 할당한다. 초기 스케일에서는 엔트로피가 빠르게 상승하므로 보존 비율을 높게 유지하고, 후반 스케일에서는 엔트로피 상승이 둔화되므로 aggressive하게 토큰을 제거한다. 레이어‑연결 비율 조정은 동일 스케일 내에서도 각 Transformer 레이어의 평균 엔트로피 차이를 반영한다. 얕은 레이어는 주로 저수준 텍스처를 다루며 엔트로피가 낮은 경향이 있어 높은 축소 비율을 적용하고, 중간·깊은 레이어는 구조와 의미 정보를 담당하므로 엔트로피가 높아 보존 비율을 늘린다. 이렇게 이중 연결(스케일·레이어) 전략은 연산량을 균등하게 분산시키면서도 중요한 정보는 최대한 유지한다.

또한 NOVA는 “잔차 캐시 재사용” 메커니즘을 도입한다. 이전 스케일에서 남은 토큰들의 잔차 표현을 그대로 저장하고, 다음 스케일에서 해당 토큰이 다시 필요할 경우 캐시를 조회함으로써 추가적인 포워드 연산을 회피한다. 이는 특히 고해상도 이미지 생성 시 메모리와 FLOPs를 크게 절감한다.

실험에서는 GenEval, ImageReward 등 다양한 벤치마크에서 기존 토큰 축소 기법(예: Frequency‑based, Fixed‑ratio) 대비 1.8~3.0배의 속도 향상을 보였으며, PSNR·FID·Preference Score와 같은 품질 지표에서는 거의 차이가 없거나 오히려 개선되는 결과를 얻었다. 특히 Infinity‑8B에서 원본 대비 0.75 s로 지연 시간을 절반 이하로 줄이면서도 인간 평가에서 선호 점수가 상승한 점은 실용적 가치를 강조한다.

한계점으로는 엔트로피 계산 자체가 모델 출력 확률 분포를 필요로 하므로, 매우 큰 배치나 실시간 스트리밍 환경에서 추가적인 연산 오버헤드가 발생할 수 있다. 또한 현재는 토큰 수준의 엔트로피 평균만 사용했지만, 공간적·채널적 상관관계를 고려한 다변량 엔트로피 모델링이 더 정교한 축소 전략을 제공할 가능성이 있다. 향후 연구에서는 이러한 고차원 엔트로피 추정과 하드웨어 친화적 캐시 관리 기법을 결합해 더욱 경량화된 VAR 가속기를 설계할 수 있을 것이다.


댓글 및 학술 토론

Loading comments...

의견 남기기