교차주의 기반 추측 디코딩 Beagle 모델의 혁신
초록
본 논문은 기존의 자기‑주의 기반 추측 디코딩(SD) 방식이 갖는 복잡성과 확장성 문제를 해결하고자, 단일 교차‑주의 블록으로 구성된 Beagle이라는 새로운 트랜스포머 디코더를 제안한다. 두 단계 블록‑주의 학습(Two‑Stage Block‑Attention Training) 기법을 도입해 훈련 안정성을 확보하고, 메모리 사용량을 일정하게 유지하면서 7 B 규모 모델을 24 GiB GPU 한 대에서 학습할 수 있다. 실험 결과 Beagle은 최신 자기‑주의 SD 모델인 EAGLE‑v2와 동등하거나 더 나은 추론 속도 향상을 보이며, 훈련 효율성에서도 우위를 점한다.
상세 분석
Beagle은 기존 SD 모델이 채택한 다중 레이어 자기‑주의와 별도의 풀링·퓨전 모듈을 완전히 배제하고, 단일 교차‑주의 레이어와 MLP만으로 초경량 초안(draft) 모델을 구현한다. 교차‑주의는 입력 토큰 시퀀스와 목표 모델의 고차원 히든 상태를 각각 query와 key/value 로 매핑함으로써, 서로 다른 레벨의 표현을 자연스럽게 결합한다. 이 구조는 “대각선 마스크”를 적용해 미래 토큰에 대한 정보를 차단하면서도, 훈련 단계에서는 고정된 크기의 마스크를 사용해 다중 토큰을 동시에 예측하도록 설계돼, 멀티‑토큰 예측(MTP) 효율을 크게 향상시킨다.
훈련 측면에서 저자들은 두 단계 블록‑주의 학습을 제안한다. 초기 단계에서는 미래 k 토큰을 한 번에 예측하도록 모델을 사전 학습시켜, 토큰 간 상관관계를 빠르게 학습한다. 이후 단계에서는 기존의 Training‑Time‑Testing(TTT) 방식과 유사하게 시뮬레이션된 추론 과정을 적용하지만, 교차‑주의 구조 덕분에 KV‑캐시 관리가 단순화되어 메모리 사용량이 일정하게 유지된다. 이는 특히 7 B 파라미터 모델을 24 GiB GPU 하나에 학습할 수 있게 하는 핵심 요인이다.
성능 평가에서는 다양한 LLM(예: LLaMA‑7B, GPT‑Neo 등)과 벤치마크 데이터셋을 사용해 EAGLE‑v2와 직접 비교하였다. Beagle은 평균 1.8배~2.1배 수준의 속도 향상을 달성했으며, 토큰 수용률(acceptance length)에서도 동등하거나 약간 우수한 결과를 보였다. 또한 훈련 시간은 동일 데이터 규모에서 약 30%~40% 단축되었으며, 메모리 피크는 기존 모델 대비 20% 이하로 감소했다.
이러한 결과는 교차‑주의가 초안 모델의 표현력을 충분히 확보하면서도, 구조적 단순성으로 인한 구현·최적화 이점을 제공한다는 점을 시사한다. 특히, 별도의 풀링 레이어가 필요 없으므로 모델 파이프라인이 간결해지고, 다양한 프레임워크에 손쉽게 통합할 수 있다. 향후 연구에서는 다중 헤드 교차‑주의의 스케일링, 다양한 토큰 마스킹 전략, 그리고 비정형 데이터(코드, 이미지 캡션 등)에서의 적용 가능성을 탐색할 여지가 있다.
댓글 및 학술 토론
Loading comments...
의견 남기기