멀티모달 이해를 위한 완전 이산 모델 켈릭

멀티모달 이해를 위한 완전 이산 모델 켈릭
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

켈릭은 제품 양자화 기반의 고용량 시각 토크나이저와 차세대 블록 예측 방식을 도입해, 기존 이산 비전 토큰이 갖는 정보 손실 문제를 극복하고, 연속형 피처 기반 VLM과 동등한 수준의 멀티모달 이해 성능을 달성한 완전 이산 자동회귀 모델이다.

상세 분석

본 논문은 대규모 언어 모델(LLM)의 성공 요인을 멀티모달 영역에 그대로 적용하기 위해, 텍스트와 시각 정보를 동일한 이산 토큰 공간으로 매핑하는 방법론을 제시한다. 기존 비전‑언어 모델(VLM)은 텍스트 토큰은 이산 형태이지만, 이미지 특징은 연속형 ViT 임베딩을 그대로 사용해 하이브리드 인터페이스를 구성한다. 이 접근법은 텍스트 중심의 학습 편향을 초래하고, 비텍스트 데이터에 대한 자기지도 학습 활용을 제한한다. 켈릭은 이러한 한계를 해소하기 위해 두 가지 핵심 기술을 도입한다. 첫째, 제품 양자화(Product Quantization, PQ)를 기반으로 한 시각 토크나이저를 설계한다. 기존 VQ‑VAE 방식은 하나의 코드북 인덱스로 1024‑차원 임베딩을 압축해 16비트 정도의 정보만 전달한다. 반면 PQ는 각 패치 임베딩을 N개의 서브스페이스로 분할하고, 각각 독립적인 서브코드북에 매핑함으로써 조합 가능한 코드 수가 K^N(예: 8 × 8192 = 65 536)까지 확대된다. 이렇게 얻어진 N개의 이산 토큰은 합산(pooling) 과정을 거쳐 하나의 복합 토큰으로 변환되어 LLM 입력 길이를 유지하면서도 정보 용량은 크게 늘어난다. 둘째, 차세대 블록 예측(Next‑Block Prediction, NBP) 방식을 도입해 시각 블록을 N개의 토큰 +  형태로 하나의 블록으로 처리한다. LLM은 블록 단위로 순차 예측을 수행하므로, 시각 데이터에 대해 N배 압축된 시퀀스 길이만을 보게 된다. 이는 컨텍스트 길이 폭발을 방지하면서도 공간적 구조를 보존한다. 학습 목표는 전통적인 다음 토큰 예측 손실과 VQ 손실(코드북 손실 + 커밋먼트 손실)의 합으로 정의되며, 보조 경량 텍스트 디코더를 통해 시각 토큰과 텍스트 토큰 간 의미 정렬을 유도한다. 또한, 사전 학습된 K‑ViT 기반의 비전 인코더와 SimVQ 기법을 활용해 코드북 붕괴를 방지하고, 단계적 언프리징 스케줄을 통해 다양한 이해 중심 데이터(상식 추론, VQA, OCR 등)로 토크나이저의 의미 포괄성을 강화한다. 실험 결과, 켈릭은 OCRBench에서 기존 이산 모델 대비 23%p 이상 향상된 정확도를 기록하고, 연속형 피처 기반 최첨단 VLM에 근접한 성능을 보이며, 동시에 이미지 생성 품질에서도 SOTA 수준을 유지한다. 이는 이산 토큰이 더 이상 멀티모달 이해의 병목이 아니라는 강력한 증거이며, 향후 대규모 자기지도 학습과 오픈‑소스 LLM 에코시스템과의 시너지를 기대하게 만든다.


댓글 및 학술 토론

Loading comments...

의견 남기기