디코딩 효율을 극대화하는 AFD 아키텍처의 최적 Attention/FFN 비율

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대규모 언어 모델(LLM) 디코딩 단계에서 Attention과 Feed‑Forward Network(FFN)를 분리하는 AFD(Attention‑FFN Disaggregation) 구조의 인스턴스 비율 r 을 이론적으로 최적화한다. 확률적 워크로드 모델을 기반으로 Attention 작업량의 비정상성을 분석하고, 평균 토큰 부하를 구해 r* 에 대한 폐쇄형 해를 도출한다. 시뮬레이터 검증을 통해 제안된 r* 가 실제 최적값과 10 % 이내 차이임을 보이며, 파이프라인 버블을 크게 감소시킨다.

상세 분석

이 논문은 AFD 아키텍처가 “Attention‑FFN r : 1” 토폴로지를 가정하고, 시스템 전체 처리량을 최적화하기 위한 인스턴스 비율 r 을 수학적으로 규정한다. 핵심은 두 컴포넌트의 워크로드 특성이 서로 다르다는 점이다. Attention은 KV‑cache를 매 단계 전체 읽어야 하므로 토큰 부하 T 에 비례해 메모리‑대역폭 한계(선형 지연 t_A = α_A T + β_A)를 가진다. 반면 FFN은 배치 크기 rB 에만 의존해 컴퓨팅 한계(선형 지연 t_F = α_F rB + β_F)를 보인다. 통신 지연은 t_C = α_C B + β_C 로 모델링한다.

워크로드는 프리필 길이 P 와 디코드 길이 D 로 구분한다. 프리필은 평균 μ_P 를 갖는 제한된 분포이며, 디코드 길이는 종료 확률 p 를 갖는 기하분포 Geo(p) 로 가정한다. 이 가정은 “메모리리스” 특성을 제공해, 각 디코드 단계에서 요청이 종료될 확률이 현재 진행 단계와 무관함을 의미한다. 따라서 각 슬롯 b 의 디코드 인덱스 i_b(k) 와 프리필 길이 s_b(k) 는 마코프 체인으로 기술될 수 있다.

Lemma 4.1을 통해 기대 토큰 부하 E

디코딩 효율을 극대화하는 AFD 아키텍처의 최적 Attention/FFN 비율

초록

상세 분석

댓글 및 학술 토론

의견 남기기