K-EXAONE 기술 보고서

이 기술 보고서는 LG AI Research에서 개발한 대규모 다국어 언어 모델인 K-EXAONE에 대해 설명합니다. K-EXAONE은 총 236B 파라미터로 구성된 Experts의 혼합 구조를 기반으로 하며, 추론 중에는 23B 파라미터가 활성화됩니다. 이 모델은 256K 토큰 컨텍스트 윈도우를 지원하며 한국어, 영어, 스페인어, 독일어, 일본어, 베트남

K-EXAONE 기술 보고서

초록

이 기술 보고서는 LG AI Research에서 개발한 대규모 다국어 언어 모델인 K-EXAONE에 대해 설명합니다. K-EXAONE은 총 236B 파라미터로 구성된 Experts의 혼합 구조를 기반으로 하며, 추론 중에는 23B 파라미터가 활성화됩니다. 이 모델은 256K 토큰 컨텍스트 윈도우를 지원하며 한국어, 영어, 스페인어, 독일어, 일본어, 베트남어의 여섯 가지 언어를 다룹니다. 우리는 K-EXAONE을 세계 지식, 수학, 코딩, 에이전시 도구 사용, 명령 수행, 한국어, 다국어 및 안전성에 걸친 포괄적인 벤치마크 스위트에서 평가합니다. 이러한 평가를 통해 K-EXAONE은 유사한 크기의 오픈 소스 모델과 비교할 수 있는 성능을 보여줍니다. K-EXAONE은 더 나은 삶을 위한 AI 발전을 목표로 하며, 다양한 산업 및 연구 응용 분야에 활용되는 강력한 독점 AI 기초 모델입니다.

상세 요약

This paper introduces K-EXAONE, a large-scale multilingual language model developed by LG AI Research. The model boasts 236 billion parameters in total and activates 23 billion during inference. It supports a context window of up to 256K tokens and covers six languages: Korean, English, Spanish, German, Japanese, and Vietnamese.

The primary issue this research addresses is the need for highly capable models that can perform well across multiple domains and languages, particularly in multilingual environments where language diversity poses challenges. In many applications, especially those involving natural language processing (NLP), having a model that understands various languages fluently is crucial.

To tackle these issues, K-EXAONE utilizes a Mixture-of-Experts (MoE) architecture, which combines the strengths of multiple specialized models to achieve both performance and efficiency. This architecture allows the model to handle diverse tasks with greater proficiency by leveraging different experts for specific tasks.

The results show that K-EXAONE performs exceptionally well across various benchmarks including world knowledge, mathematics, coding, tool use, instruction following, Korean-specific tasks, multilinguality, and safety. Its performance is comparable to other models of similar size but open-source status.

K-EXAONE’s significance lies in its potential for wide-ranging industrial and research applications due to its robust support for multiple languages, especially Korean. This makes it a valuable asset not only in the global market but also in local markets where multilingual capabilities are critical.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...