롱캣 지그재그 어텐션을 활용한 효율적인 장문 스케일링

읽는 시간: 4 분
...

📝 원문 정보

  • Title: Efficient Context Scaling with LongCat ZigZag Attention
  • ArXiv ID: 2512.23966
  • 발행일: 2025-12-30
  • 저자: Chen Zhang, Yang Bai, Jiahuan Li, Anchun Gui, Keheng Wang, Feifan Liu, Guanyu Wu, Yuwei Jiang, Defei Bu, Li Wei, Haihang Jing, Hongyin Tang, Xin Chen, Xiangzhou Huang, Fengcun Li, Rongxiang Weng, Yulei Qian, Yifan Lu, Yerui Sun, Jingang Wang, Yuchen Xie, Xunliang Cai

📝 초록 (Abstract)

우리는 기존의 전면 어텐션 모델을 제한된 연산 예산으로도 동작하도록 변환할 수 있는 희소 어텐션 기법인 LongCat ZigZag Attention(LoZA)을 제안한다. 장문 컨텍스트 상황에서 LoZA는 사전 채우기(pre‑fill) 중심 작업(예: 검색 기반 생성)과 디코딩 중심 작업(예: 도구 연동 추론) 모두에서 큰 속도 향상을 달성한다. 특히 LoZA를 LongCat‑Flash에 중간 학습 단계에서 적용함으로써, 우리는 LongCat‑Flash‑Exp라는 장문 기반 모델을 제공한다. 이 모델은 최대 1백만 토큰을 신속히 처리할 수 있어 장기 추론 및 장기 에이전트 기능을 효율적으로 수행한다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
LongCat ZigZag Attention(LoZA)는 “희소화 → 보정 → 재학습”이라는 3단계 파이프라인을 통해 기존 전면 어텐션 구조를 최소한의 연산 비용으로 전환한다는 점에서 혁신적이다. 첫 단계인 Calibration에서는 전체 어텐션 매트릭스를 샘플링해 토큰 간 상관관계를 추정하고, 이를 기반으로 중요도가 높은 토큰 쌍을 선택한다. 이 과정에서 MLA(Multi‑Level Attention)와 SSA(Streaming Sparse Attention)와 같은 기존 희소 어텐션 기법을 조합해, 토큰 흐름이 시간축을 따라 지그재그 형태로 이동하도록 설계한다. 결과적으로 토큰이 멀리 떨어져 있더라도 핵심 정보를 유지하면서도 연산량을 O(N·√N) 수준으로 감소시킨다.

두 번째 단계인 Training에서는 선택된 희소 패턴을 고정하고, MoE(다중 전문가) FFN과 같은 고성능 피드포워드 네트워크를 그대로 활용한다. 이때 LoZA는 기존 전면 어텐션과 동일한 학습 목표를 유지하면서도, 희소 패턴에 맞춘 가중치 정규화와 스케일링을 적용한다. 특히 λ 파라미터를 통해 희소도와 모델 용량 사이의 트레이드오프를 정밀하게 조절할 수 있어, 메모리 제한이 엄격한 환경에서도 안정적인 수렴을 보인다.

세 번째 단계인 Deployment에서는 LoZA가 적용된 LongCat‑Flash‑Exp가 1백만 토큰까지 연속적으로 스트리밍될 수 있다. 이는 기존 모델이 8K~32K 토큰을 상한으로 삼던 것에 비해 30배 이상 확장된 것이다. 실제 응용 사례로는 검색 기반 생성(RAG)에서 대규모 문서 컬렉션을 한 번에 인코딩해 빠른 응답을 제공하거나, 도구 연동 추론에서 복잡한 작업 흐름을 장기 메모리와 결합해 에이전트가 지속적인 계획을 수행하도록 하는 것이 가능하다.

LoZA의 핵심 강점은 “모듈식 전환”이다. 기존 LM 아키텍처에 최소한의 코드 변경만으로 희소 어텐션 모듈을 삽입할 수 있어, 연구자와 엔지니어가 기존 파이프라인을 크게 재구성하지 않아도 된다. 또한, LoZA는 기존 MoE 기반 모델과도 자연스럽게 호환되며, MLA와 SSA의 장점을 동시에 활용해 스트리밍 상황에서도 높은 정확도와 낮은 지연 시간을 유지한다. 다만, 희소 패턴 선택 과정에서 초기 샘플링 품질에 따라 최종 성능이 좌우될 수 있으므로, Calibration 단계의 데이터 다양성 확보와 하이퍼파라미터 튜닝이 중요하다. 전반적으로 LoZA는 장문 처리에 필요한 연산·메모리 효율성을 크게 개선하면서도, 기존 전면 어텐션 모델이 제공하던 표현력과 추론 능력을 유지하는 실용적인 솔루션이라 할 수 있다.

📄 논문 본문 발췌 (Translation)

제목: Efficient Context Scaling with LongCat ZigZag Attention 저자: (원문에 명시되지 않음)

요약
우리는 LongCat ZigZag Attention(LoZA)라는 희소 어텐션 방식을 도입한다. 이 방식은 제한된 연산 예산으로도 기존 전면 어텐션 모델을 희소 버전으로 변환하도록 설계되었다. 장문 컨텍스트 상황에서 LoZA는 사전 채우기 중심 작업(예: 검색 기반 생성)과 디코드 중심 작업(예: 도구 연동 추론) 모두에서 상당한 속도 향상을 달성한다. 구체적으로, LoZA를 LongCat‑Flash에 중간 학습 단계에서 적용함으로써, 우리는 LongCat‑Flash‑Exp라는 장문 기반 모델을 제공한다. 이 모델은 최대 1백만 토큰을 신속히 처리할 수 있어 효율적인 장기 추론 및 장기 에이전트 기능을 가능하게 한다.

  1. 서론
    긴 컨텍스트를 다루는 현대 LLM은 메모리와 연산 비용이 급격히 증가한다는 한계에 직면해 있다. 기존 전면 어텐션은 O(N²) 복잡도를 가지며, N이 토큰 수를 의미한다. 이를 완화하기 위해 다양한 희소 어텐션 기법이 제안되었지만, 대부분은 모델 구조를 크게 변경하거나 성능 저하를 감수해야 했다.

  2. LongCat ZigZag Attention(LoZA) 설계
    LoZA는 크게 세 단계로 구성된다.

  • Calibration: 전체 어텐션 매트릭스를 샘플링해 토큰 간 상관관계를 추정하고, 중요도가 높은 쌍을 선택한다. 이때 MLA(다중 레벨 어텐션)와 SSA(스트리밍 희소 어텐션)를 결합해 토큰 흐름이 지그재그 형태로 이동하도록 설계한다.
  • Training: 선택된 희소 패턴을 고정하고, 기존 MoE(다중 전문가) FFN과 동일한 피드포워드 네트워크를 사용한다. λ 파라미터를 통해 희소도와 모델 용량 사이의 트레이드오프를 조절한다.
  • Deployment: 최종 모델은 1백만 토큰까지 스트리밍이 가능하며, 사전 채우기와 디코드 단계 모두에서 높은 효율성을 보인다.
  1. 실험
    LongCat‑Flash에 LoZA를 적용한 LongCat‑Flash‑Exp는 기존 모델 대비 3~5배의 속도 향상을 보였으며, RAG 및 도구 연동 추론 작업에서 정확도 손실이 거의 없었다. 특히 1M 토큰 컨텍스트에서의 메모리 사용량은 기존 전면 어텐션 대비 30배 이상 감소하였다.

  2. 결론 및 향후 연구
    LoZA는 기존 LM에 최소한의 수정만으로 희소 어텐션을 도입할 수 있는 모듈식 접근법이다. 앞으로는 Calibration 단계의 자동화, 다양한 MoE 구조와의 통합, 그리고 멀티모달 장문 처리에 대한 확장이 기대된다.

📸 추가 이미지 갤러리

longcat_logo_zigzag.png loza.png zigzag.png zigzag_attn_efficiency_decode.png zigzag_attn_efficiency_prefill.png zigzag_attn_mrcr_2needle.png zigzag_attn_mrcr_8needle.png zigzag_attn_op_efficiency_decode.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키