고차원 잠재 공간의 한계를 극복하는 새로운 비주얼 토크나이저 RecTok
초록
RecTok은 기존 비주얼 토크나이저가 겪던 고차원 잠재 공간에서의 생성 품질 저하 문제를 해결하기 위해, Rectified Flow의 전방 흐름(forward flow)에 의미론적 정보를 주입하는 새로운 증류(distillation) 기법을 제안합니다. 이를 통해 높은 재구성 정밀도와 뛰어난 생성 품질을 동시에 달성하며, 차원이 높아질수록 성능이 향상되는 혁신적인 확장성을 보여줍니다.
상세 분석
RecTok 논문의 핵심적인 기술적 가치는 비주얼 토크나이저 설계 시 발생하는 ‘차원의 딜레마’를 해결하기 위해 기존의 접근 방식을 근본적으로 재정의했다는 점에 있습니다. 기존의 연구들은 주로 잠재 공간(latent space)의 차원을 조절하여 재구성 정밀도(reconstruction fidelity)와 생성 품질(generation quality) 사이의 균형을 맞추려 노력했습니다. 그러나 저차원 공간에서는 정보 손실로 인해 재구성력이 떨어지고, 고차원 공간에서는 생성 모델이 학습해야 할 데이터의 복잡도가 급증하여 생성 품질이 저하되는 근본적인 트레이드오프가 존재했습니다.
저자들은 이 문제의 해결책을 잠재 공간 자체의 구조를 개선하는 것이 아니라, ‘Flow Matching’ 과정의 ‘전방 흐름(forward flow) 궤적’에서 찾았습니다. 이는 매우 통찰력 있는 접근입니다. Diffusion Transformer(DiT)와 같은 생성 모델의 실제 학습 공간은 정적인 잠재 공간이 아니라, 노이즈에서 데이터로 변해가는 흐름(flow) 그 자체이기 때문입니다.
RecTok은 두 가지 핵심 메커니즘을 도입합니다. 첫째, ‘Flow Semantic Distillation’입니다. 이는 Vision Foundation Model(VFM)이 가진 풍부한 의미론적 정보를 Flow Matching의 전방 흐름 궤적에 직접 주입하는 기술입니다. 이를 통해 생성 모델이 학습하는 경로 자체가 이미 의미론적으로 풍부한 정보를 포함하게 됩니다. 둘째, ‘Reconstruction-Alignment Distillation’입니다. 마스킹된 특징을 재구성하는 손실 함수를 도입하여, 고차원 공간에서도 특징 간의 정렬과 의미론적 일관성을 유지하도록 강제합니다. 결과적으로 RecTok은 고차원 잠재 공간을 사용하더라도 생성 품질이 저하되지 않고, 오히려 차원이 증가함에 따라 성능이 향상되는 ‘확장 가능한(scalable)’ 토크나이저의 가능성을 입증했습니다.
최근 확산 모델(Diffusion Models)과 Diffusion Transformer(DiT)의 발전에서 비주얼 토크나이저는 핵심적인 역할을 수행합니다. 토크나이저가 생성하는 잠재 공간의 차원은 이미지의 재구성 정밀도와 생성 모델의 표현력을 결정짓는 결정적인 요소입니다. 그러나 지금까지의 기술적 한계는 명확했습니다. 낮은 차원의 잠재 공간은 생성 효율은 높지만 세부 묘사가 부족하고, 높은 차원의 잠재 공간은 정밀한 재구성은 가능하지만 생성 모델의 학습 난이도를 높여 결과적으로 생성 품질을 떨어뜨리는 트레이드오프를 유발했습니다.
본 논문에서 제안하는 RecTok은 이러한 고차원 토크나이저의 한계를 극복하기 위한 새로운 패러다임을 제시합니다. 저자들의 핵심 통찰은 “학습의 초점을 잠재 공간(latent space)이 아닌, Flow Matching의 전방 흐름(forward flow) 궤적으로 옮겨야 한다"는 것입니다. 즉, 생성 모델이 학습하는 ‘노이즈에서 이미지로 가는 경로’ 자체를 의미론적으로 풍부하게 만드는 것이 핵심입니다.
이를 구현하기 위해 RecTok은 두 가지 혁신적인 증류(distillation) 기법을 제안합니다. 첫 번째인 ‘Flow Semantic Distillation’은 VFM(Vision Foundation Model)의 강력한 의미론적 능력을 활용합니다. 기존 방식이 잠재 공간의 특징을 정제하는 데 집중했다면, RecTok은 Flow Matching의 전방 흐름 궤적에 VFM의 의미론적 정보를 직접 주입합니다. 이를 통해 DiT가 학습하는 궤적 자체가 이미 고도의 의미론적 정보를 내포하게 되어, 고차원 공간에서도 생성 모델이 길을 잃지 않도록 돕습니다.
두 번째인 ‘Reconstruction-Alignment Distillation’은 의미론적 정렬을 강화합니다. 마스킹된 특징을 재구성하는 손실 함수를 통해, 토크나이저가 단순히 픽셀을 복원하는 것을 넘어 특징 간의 구조적, 의미론적 일관성을 유지하도록 유도합니다. 이는 고차원 공간에서 발생할 수 있는 의미론적 파편화를 방지하는 역할을 합니다.
실험 결과, RecTok은 gFID-50K 지표에서 Classifier-Free Guidance(CFG) 적용 여부와 상관없이 기존의 SOTA(State-of-the-art)를 경신하는 압도적인 성능을 보여주었습니다. 특히 주목할 만한 점은 ‘확장성(Scalability)‘입니다. 기존 모델들이 차원을 높일수록 생성 품질이 하락했던 것과 달리, RecTok은 잠재 공간의 차원이 증가할수록 재구성 정밀도와 생성 품질이 동시에 향상되는 양상을 보였습니다. 이는 향후 초고해상도 이미지 생성 및 복잡한 비주얼 콘텐츠 생성을 위한 토크나이저 설계에 있어 매우 중요한 기술적 이정표를 제시한 것으로 평가받을 수 있습니다.
댓글 및 학술 토론
Loading comments...
의견 남기기