Attention‑FFN 분리의 한계와 가능성: 대규모 MoE 모델을 위한 하드웨어·알고리즘 통합 분석

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 MoE(전문가 혼합) 모델에서 Attention과 FFN을 물리적으로 분리하는 AFD(Attention‑FFN Disaggregation) 구조를 기존 Expert Parallelism(EP)과 비교한다. 통신‑확장된 Roofline 모델을 도입해 연산 강도, 인터커넥트 대역폭, 하드웨어 FLOPS 활용도(HFU)를 정량화하고, 표준 클러스터에서는 대역폭 한계로 인해 FFN 인스턴스 수를 늘려도 HFU가 향상되지 않는 ‘데드 존’이 존재함을 밝혀낸다. 또한 AFD는 3배 배치 오버랩(3BO) 필요성, 불균형에 대한 높은 민감도 등 EP 대비 단점을 지니지만, 초고대역폭 Superpod 수준의 네트워크와 전문가가 거칠고 sparsity가 낮은 모델에서는 효율이 크게 개선될 수 있음을 제시한다.

상세 분석

본 연구는 AFD가 제시하는 “연산·메모리·통신 자원의 독립적 스케일링”이 실제 시스템에서 어떻게 제한되는지를 정밀히 분석한다. 먼저 저자들은 기존 Roofline 모델을 통신 레벨까지 확장해, 연산 강도(I)와 인터커넥트 대역폭(B) 사이의 관계를 HFU(하드웨어 FLOPS 활용도)와 직접 연결하였다. 이때 AFD는 두 종류의 노드(Attention‑role, FFN‑role)로 구성되며, 토큰은 일방향 M→N 집합 통신(dispatch)과 combine 단계로 이동한다. 이러한 비대칭 통신은 전통적인 EP가 사용하는 전역 all‑to‑all과 달리, 네트워크 대역폭이 충분히 크지 않으면 전체 파이프라인의 병목이 된다.

논문은 “데드 존” 현상을 수식적으로 설명한다. t_B(마이크로배치당 허용 레이턴시) 내에서 t_a(Attention 연산), t_f(FFN 연산), t_c(통신) 중 최대값이 t_B를 초과하면 GPU가 유휴 상태가 발생한다. 특히 FFN 쪽은 토큰당 전문가 수가 적고, 메모리 접근이 빈번해 연산 강도가 낮아( I ≈ 2·B ) 네트워크 대역폭이 제한적일 때 t_c가 t_B를 압도한다. 결과적으로 FFN 인스턴스 수(N_F)를 늘려도 t_f·I가 충분히 증가하지 않아 HFU가 정체된다. 이는 “scale‑out”(노드 수 확대)보다 “scale‑up”(NVLink 등 고대역폭 내부 연결) 의 중요성을 강조한다.

또한 AFD는 3배 배치 오버랩(3BO)을 최소 요구조건으로 제시한다. 2BO 이하에서는 t_dispatch + t_f + t_combine > t_a가 되어 Attention 흐름에 버블이 생기고, 버블이 양방향으로 전파되면 전체 파이프라인이 급격히 붕괴한다. 3BO는 버블을 억제하지만, t_B 변동(네트워크 지터, 부하 불균형)에 대한 허용폭이 매우 좁다. 저자들은 EP가 연속적인 배치 조정으로 부하 불균형을 완화하는 반면, AFD는 노드 간 이산적 스케일링으로 인해 부하 불균형에 더 취약함을 실험적으로 입증한다.

조건부 이점도 상세히 제시된다. 첫째, Superpod‑급 인프라(InfiniBand HDR, 600 GB/s 이상)에서는 t_c가 충분히 작아져 t_a ≈ t_f ≈ t_B에 근접한다. 둘째, 전문가가 “거칠게”(예: H≈4096, M≈2048) 설계되고 sparsity가 낮아(Top‑K 비율이 0.10.2) 토큰당 전문가당 입력 토큰 수 B가 증가하면 연산 강도 I가 크게 상승한다. 이 경우 AFD는 OFU(Operator FLOPS Utilization)를 크게 끌어올리며, 전체 HFU도 EP 대비 1015% 향상될 수 있다. 셋째, 멀티‑토큰 프레딕션(MTP) 적용 시 L_accept가 증가해 t_B가 확대되므로, AFD가 요구하는 3BO의 절대적인 레이턴스 제한이 완화된다.

결론적으로, AFD는 “특정 하드웨어·모델 조합에 최적화된” 아키텍처이며, 일반적인 클라우드 GPU 클러스터에서는 통신 대역폭과 부하 불균형이 주요 제약이 된다. 따라서 AFD를 도입하기 전에는 네트워크 대역폭, 전문가 규모, sparsity, MTP 사용 여부 등을 종합적으로 평가해야 함을 강조한다.

Attention‑FFN 분리의 한계와 가능성: 대규모 MoE 모델을 위한 하드웨어·알고리즘 통합 분석

초록

상세 분석

댓글 및 학술 토론

의견 남기기