- Title: HyperCLOVA X 8B Omni
- ArXiv ID: 2601.01792
- 발행일: 2026-01-05
- 저자: NAVER Cloud HyperCLOVA X Team
📝 초록
HyperCLOVA X 8B Omni(OMNI)는 텍스트, 음성, 비전 모달을 모두 입력과 출력으로 지원하는 다중모달 모델입니다. 이 모델은 하나의 디코더-온리 Transformer 백본에서 다양한 모달의 토큰과 임베딩을 교차로 처리하여 의미적 구성이 가능하게 설계되었습니다. OMNI는 다양한 입력 및 출력 모달에 걸친 경쟁력 있는 성능으로, 특히 한글과 영어를 다루는 데 강점을 가지고 있습니다.
💡 논문 해설
1. **다중모달 통합**: HyperCLOVA X 8B Omni는 텍스트, 이미지, 음성 등 다양한 모달을 하나의 모델에서 처리할 수 있는 능력을 갖추고 있습니다. 이는 마치 한 사람이 글쓰기, 그림 그리기, 노래 부르기를 동시에 잘 할 수 있는 것과 같습니다.
교차모달 시퀀스 처리: OMNI는 텍스트, 이미지, 음성의 토큰을 교차로 배치하고 이를 하나의 Transformer 모델에서 처리합니다. 이는 마치 여러 종류의 재료를 한 그릇에 섞어 조리하는 것과 같습니다.
효율적인 학습: OMNI는 비용 효율적으로 다양한 모달 학습을 수행하며, 특히 한국어와 영어 양방향 능력을 갖추고 있습니다. 이는 마치 한글과 영어를 동시에 잘 쓸 수 있는 사람처럼, 여러 언어를 자유롭게 다루는 능력입니다.
📄 논문 발췌 (ArXiv Source)
# 소개
style="width:100.0%" />
다양한 모달, 즉 텍스트, 비전, 그리고 음성을 이해하고 생성하는 능력의 비교. 결과는 HyperCLOVA X 8B Omni가 단일 모델 내에서 모든 종류의 다중모달 이해와 생성을 지원하는 통합적인 엔드-투-엔드 설계를 보여줍니다.
AI 시스템이 현실 세계에 깊게 통합되기 위해서는 다양한 모달, 예를 들어 텍스트, 음성, 비전 등을 이해하고 생성할 수 있는 능력이 필요합니다. 이러한 요구사항은 특정 애플리케이션이 본질적으로 다중모달 입력과 출력을 포함하기 때문입니다. 더불어, 인간이 생성한 텍스트는 대형 언어 모델(LLMs)의 빠른 확장에 따라 쌓이는 속도를 따라잡지 못할 수 있습니다. 심지어 그렇다 하더라도, 단순히 텍스트만으로 모든 다중모달 차원을 포착하기에는 부족합니다.
다중모달 모델 개발의 한 전략은 기존 LLM에 다양한 모달을 위한 인코더와 디코더를 순차적으로 통합하는 것입니다. 이러한 모달 확장은 텍스트 기반 모델을 다중모달로 효율적이고 시간 단축된 변환을 가능하게 하지만, 다중모달 학습은 종종 LLM 백본 내의 지식을 잊어버리는 문제를 일으킵니다. 이러한 도전은 여러 모달에서 통합 프레임워크 내에서 공동 학습이 필요함을 의미합니다.
이에 대응하여, 우리는 HyperCLOVA X 8B Omni(OMNI)라는 다중모달 모델을 소개합니다. OMNI는 텍스트, 음성 및 비전 모달을 모두 입력과 출력으로 지원합니다. 이 모델은 Figure 1에서 보여집니다. OMNI는 교차 다중모달 토큰 시퀀스와 임베딩을 공동으로 모델링하는 디코더-온리 Transformer입니다. 각각의 모달별 토큰과 임베딩은 공통의 다음 토큰 예측 인터페이스를 공유하며, 이를 통해 다양한 모달 간 의미적 구성이 가능합니다.
OMNI는 비교 가능한 크기의 다른 모델들과 다양한 입력 및 출력 모달 조합에 걸친 벤치마크에서 성능을 비교합니다. 이 벤치마크에는 텍스트-텍스트, 비전-텍스트, 텍스트-비전, 음성-텍스트, 오디오-텍스트, 그리고 음성-음성이 포함됩니다. 또한, 텍스트-음성 변환에 대한 인간 선호도 연구를 제시합니다. 대부분의 모달 조합에서 한국어와 영어로 평가를 수행하여 양방향 능력을 평가합니다. 결과는 OMNI가 모든 입력 및 출력 모달 조합을 처리하는 유일한 모델임에도 불구하고, 전반적으로 경쟁력 있는 성능을 보여줍니다.
OMNI는 사용 규정에 따라 상업적 이용이 허용되는 오픈-웨이트 모델로 공개되었습니다. OMNI의 컴팩트한 크기와 다양한 입력 및 출력 모달에서의 경쟁력 있는 성능은 한국과 글로벌 연구 커뮤니티 모두에게 학계와 산업 파트너를 위한 귀중한 자원으로 제공됩니다.
HyperCLOVA X 8B Omni
style="width:100.0%" />
HyperCLOVA X 8B Omni의 전체 아키텍처. 텍스트, 비전 및 오디오 입력은 모달별 인코더와 토크나이저를 통해 연속적인 임베딩과 이산적인 토큰으로 인코딩되고, 단일 디코더-온리 Transformer 백본에서 교차로 처리됩니다. 모달별 디코더는 공유된 시퀀스 표현으로부터 시각적 및 청각적 출력을 재구성하여 엔드-투-엔드 다중모달 생성이 가능합니다.
설계 동기와 방향
최근의 다중모달 시스템은 최종 통합에서 모달별 생성 파이프라인까지 광범위한 설계 공간을 포괄하고 있습니다. 우리의 접근법에서는 모달별 토큰과 임베딩이 공통의 다음 토큰 예측 인터페이스를 공유할 때 다중모달 능력이 효과적으로 실현될 수 있다는 가설에 따라 설계되었습니다. 이를 통해 다양한 모달 간 의미적 구성이 가능합니다. Figure 2에서 보듯이, 텍스트는 이산적인 토큰으로 표현되며 비전과 오디오는 이산적 토큰과 연속적인 임베딩을 모두 사용합니다. 이러한 표현은 단일 디코더-온리 Transformer 백본에서 교차로 처리됩니다.
우리는 36층 오토리거시브 Transformer를 백본으로 구현하며, 내부 크기는 4,096입니다. 이는 HyperCLOVA X 32B Think(THINK)의 아키텍처와 구현 선택사항을 따릅니다. THINK와 마찬가지로 텍스트 토크나이징 파이프라인은 형태를 유지하는 프리토크나이저와 서브워드 토크나이저를 결합하고, 토큰 경계 바이어스를 완화하면서도 토큰 효율성을 유지하기 위해 확률이 낮은 StoChasTok을 적용합니다. 서브워드 토크나이징에서는 영어 중심의 토크나이저를 세 단계의 어휘 수정을 통해 한국어에 최적화한 버전으로 변경하여, 한국어 토큰 효율성을 크게 향상시키면서도 영어, 코드, 수학 작업에서 성능 저하가 발생하지 않습니다.
운용적으로 우리는 각각의 모달 토크나이저의 이산적인 코드북 항목을 언어 모델의 추가 어휘 항목으로 취급하여 텍스트에서 공유된 다중모달 토큰 공간까지 다음 토큰 예측을 확장합니다. 이해와 세부 사항에 대한 정밀한 지지력은 모달별 인코더를 부착하여 백본 임베딩 공간으로 연속적인 임베딩을 프로젝트하는 것으로 보완됩니다. 이후, 모달별 디코더는 예측된 텍스트 외의 토큰을 원래 신호 영역(픽셀과 웨이브폼)으로 변환합니다.
다음 섹션에서는 비전 및 오디오 토크나이저/인코더와 관련 디코더의 자세한 사양을 제공합니다.
비전 모달
OMNI는 시각 정보를 처리하는 데 세 가지 구성 요소를 협력적으로 통합하여 다루는데, 이는 연속적인 비전 인코더, 이산적 의미 토크나이저, 그리고 확산 기반 디코더로 구성됩니다. 이러한 삼부 아키텍처는 단일 프레임워크 내에서 교차 다중모달 시퀀스를 원래대로 처리하도록 설계되었습니다.
먼저, 연속적인 비전 인코더는 백본에 직접 맞추어 밀도가 높은 특징을 추출하여 전체적인 비전 이해를 지원합니다. 두 번째로, 비전 생성을 지원하기 위해 OMNI에는 시각적 특성을 이산적인 의미 토큰으로 양자화하는 비전 토크나이저가 포함됩니다. 이러한 선택은 우리 Transformer 백본의 오토리거시브(AR) 본질과 밀접하게 연결되어 있으며, 디스크립션 토큰을 모델링하는 데 이상적입니다. Janus-Pro나 Emu 3와 같은 모델들이 저수준 VAE 스타일의 토크나이저에 의존하는 반면, 우리의 토크나이저는 의미 수준에서 작동하여 텍스트 임베딩과의 교차모달 시너지를 최대화합니다.
마지막으로 비전 생성은 확산 기반 비전 디코더를 사용하여 이러한 이산적 토큰을 픽셀로 디코드합니다. 의미적인 양자화는 세밀한 시각적 세부 사항을 버리는 것으로 인해 불가피하게 정보 손실이 발생하지만, 확산 모델은 잃어버린 세부 사항을 무작위적으로 복원하는 보완 요소로서 작용합니다. 이는 채널 결합 기반 아키텍처를 통해 고주파 텍스처와 세밀한 구조를 합성하며, 이를 통해 크게 빠른 수렴과 원래 비율에 가까운 지원이 가능해집니다.
인코더
아키텍처적으로 OMNI의 시각 이해 구성 요소는 THINK에서 Qwen2.5-VL의 Vision Transformer(ViT) 아키텍처를 채택하여 통합 이미지 및 비디오 모델링을 수행합니다. 설계 안정성을 위해 우리는 시각적 특징을 백본에 맞추기 위한 단순화된 선형 어댑터를 활용합니다. 주요 디자인 목표는 계산 효율성으로, 시각 토큰 할당을 최적화하여 표준 설정 대비 약 53%의 GPU 시간 학습 비용을 절감했습니다. 정적인 이미지와 120 프레임 비디오는 각각 3K 및 11K 토큰으로 효율적으로 압축됩니다. 특히, 인코더는 한국어 중심의 다중모달 능력을 내재화하는 데 중요하기 때문에 학습 과정에서 동결되지 않고 유지됩니다.
토크나이저
우리는 사전 훈련된 텍스트 정합 토크나이저 TA-Tok을 재사용하고, 이는 학습 중에 완전히 동결되어 있습니다. TA-Tok은 SigLIP 2를 세분화한 시각적 특징(패치 단위)을 이산적인 토큰으로 양자화하고 이러한 토큰에서 원래의 시각적 특성을 재구성합니다. TA-Tok의 한 가지 실제 제약은 고정된 입력 해상도 384×384입니다. 확산 기반 비전 디코더에 의해 대부분의 해상도 손실이 보상되지만, 비정사각형 이미지는 정사각형으로 리사이징되어야 하며 이는 기하학적 왜곡을 유발할 수 있습니다. 우리는 이러한 문제를 사전 평가하였고 실용적으로 심각한 저하로 이어지지 않는다는 것을 확인했습니다(그림 3 참조). 이러한 왜곡은 자체 디코더를 처음부터 학습하는 과정에서 직접 통합되므로 더욱 완화됩니다.
(왼쪽) TA-Tok의 동반 디코더를 사용한 재구성 테스트. 의미적 추상화와 양자화로 인해 불가피하게 발생하는 정보 손실로 인해 재구성이 완벽하지 않습니다(새의 눈과 깃털 패턴, 두 경우 모두 톤 차이를 참조). 아래쪽에 표시된 비정사각형 이미지는 "정사각형으로 리사이징 → 양자화 → 정사각형 이미지로 디코딩 → 원래의 비율로 다시 리사이징"됩니다. 우리는 왜곡 수준이 중요하지 않다는 것을 관찰하고, 이러한 과정을 반영하는 새로운 디코더를 학습하여 보상할 수 있을 것으로 예측합니다. (오른쪽) 전통적인 주의 기반 아키텍처(초록색)와 우리의 채널 결합 기반 아키텍처(파란색)의 검증 손실 수렴.
디코더
우리의 비전 디코더는 TA-Tok 모델과 함께 출시된 디코더와 유사하지만 두 가지 중요한 측면에서 다릅니다. 첫째, 주의 기반보다 크게 수렴 속도를 높이는 채널 결합 기반 조건화 아키텍처를 사용합니다. 둘째, 정확한 원래 비율을 지원하여 TA-Tok 디코더에 의해 강제된 엄격한 정사각형 이미지 제약을 피할 수 있습니다.
모델은 MMDiT의 단일 스트림 블록으로만 구성된 확산 트랜스포머를 채택하며, 전체적으로 2B 매개변수입니다. 이는 FLUX.1 VAE의 잠재 공간에서 패치 크기 1을 기반으로 작동합니다. 중요한 점은 우리 모델이 텍스트 조건화를 사용하지 않는다는 것입니다. 유일한 조건 신호는 시각적 토큰이며, 이는 잡음된 잠재물과 채널별 결합을 통해 주입됩니다. 구체적으로, TA-Tok에 의해 생성된 시각적 토큰은 고정 공간 해상도 27×27을 가지고 있습니다; 이러한 토큰은 먼저 연속적인 특징 벡터로 재구성되고, 잠재물의 모양(예: 928×624 이미지의 경우 116×78)에 맞추어 리사이즈된 후 결합됩니다. 우리는 이러한 설계가 수렴 속도를 크게 향상시킨다는 것을 경험적으로 관찰했습니다(그림 3 참조). 또한 주의 기반 조건화를 피함으로써 모델의 전체 계산 비용이 크게 감소합니다. 디코더 모델 학습 및 추론에 대한 자세한 설명은 부록 7 참조.
오디오 모달
OMNI는 통합 언어 모델링 프레임워크 내에서 오디오 이해와 생성을 지원하도록 설계되었습니다. 오디오 모듈은 연속적인 오디오 인코더, 이산적 오디오 토크나이저, 그리고 신경 오디오 디코더로 구성됩니다. 연속적인 음향 임베딩과 이산적 오디오 토큰은 언어 모델에 별도의 입력 스트림으로 제공되어 단일 트랜스포머 백본에서 오디오와 텍스트를 공동 처리합니다. 음성 합성을 위해, 언어 모델이 예측한 이산적 오디오 토큰은 오디오 디코더로 전달되어 시간 도메인 웨이브폼을 재구성합니다.
인코더
연속적인 오디오 표현에 있어서, 우리는 사전 훈련된 오디오 인코더를 채택하며, 이는 Whisper-large-v3 모델에서 초기화됩니다. 입력 오디오는 16 kHz로 리샘플링되고, 25 ms 창 크기와 10 ms 홉 사이즈를 사용하여 128 채널 로그-멜 스펙트로그램으로 변환됩니다. 스트라이드가 두인 풀링 레이어는 시간 해상도를 줄여 각 출력 프레임이 원래 오디오의 약 40 ms 구간에 대응하도록 합니다. 결과적으로, 인코더는 효과적인 프레임 속도 25 Hz로 연속적인 오디오 임베딩을 생성합니다. 그 후, 두 층 MLP 어댑터(Linear-GELU-Linear 구조)를 통해 인코더 출력은 언어 모델 임베딩의 차원으로 매핑됩니다. 장면 내에서 오디오 처리 효율성을 위해, 우리는 추가적인 토큰 압축 메커니즘을 적용합니다. 구체적으로, MLP 어댑터 후에 단일 층 MambaMia 모듈을 통합하여 오디오 표현을 25 Hz에서 1 Hz로 다운샘플링합니다. 이러한 아키텍처적인 개선은 토큰 효율성을 크게 향상시키고, 긴 형태의 비디오와 교차된 오디오를 처리하면서도 관리 가능한 컨텍스트 예산을 유지할 수 있습니다. 학습 과정 전체에서 오디오는 동결되어 대규모 사전 학습 중에 얻은 강력한 음향 표현을 완전히 활용합니다.
토크나이저
연속적인 임베딩뿐만 아니라, 우리는 사전 훈련된 오디오 토크나이저를 사용하여 말소리를 이산적 단위로 표현합니다. 이 토크나이저는 사전 훈련된 SenseVoice-Large 자동 음성 인식(ASR) 모델의 인코더에 유한 스칼라 양자화(FSQ) 모듈을 삽입합니다. 입력 음성은 먼저 Transformer 블록 스택을 통해 중간 표현을 얻고, 이를 낮은 차원 공간으로 투영하고 FSQ 모듈에서 제약 내림으로 양자화합니다. 양자화된 표현은 다시 원래의 차원으로 투영되며, 이산적 오디오 토큰은 양자화된 낮은 차원 벡터를 (2K+1)-ary 시스템에서 인덱싱하여 생성됩니다. 이러한 과정은 6,561개의 토큰으로 구성된 코드북을 생성합니다. 결과적인 오디오 토큰은 초당 25토큰의 고정 속도로 생성되어 연속적 오디오 임베딩의 시간 해상도와 완벽하게 일치합니다.
이 이중 인코딩 설계는 모델이 두 표현의 보완적인 장점을 활용할 수 있게 합니다. 연속적인 오디오 임베딩은 세밀한 음향 정보와 풍부한 프로소디 상세 사항을 유지하며, 이산적 오디오 토큰은 자동회귀 모델링 및 웨이브폼 합성에 적합한 컴팩트하고 생성 친화적인 표현을 제공합니다.
디코더
이산적 오디오 토큰에서 시간 도메인 웨이브폼을 재구성하기 위해, 우리는 오디오 디코더 Unit-BigVG