밀집형 LLM 배포를 위한 병렬화 전략: 응용별 트레이드오프와 병목 현상 탐색

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 Llama‑3.1‑70B와 405B 두 대형 밀집형 언어 모델을 대상으로, 텐서 병렬(TP)과 파이프라인 병렬(PP)의 다양한 조합이 레이턴시와 처리량(throughput) 사이의 상충 관계에 미치는 영향을 정량적으로 분석한다. 시뮬레이터와 실제 GPU 실험을 통해 TP가 레이턴시 감소에, PP가 처리량 향상에 유리함을 확인하고, 하이브리드 구성이 두 목표 사이의 균형을 맞출 수 있음을 제시한다.

상세 분석

이 연구는 먼저 밀집형 LLM이 토큰당 전체 파라미터를 활성화한다는 점에서 메모리와 연산 요구량이 급격히 증가함을 강조한다. Llama‑3.1‑405B 모델은 FP8 양자화 기준으로도 약 405 GB의 가중치와 KV 캐시를 필요로 하며, 단일 GPU(예: AMD MI325X, NVIDIA H200) 메모리 한계를 초과한다. 따라서 모델 파라미터와 KV 캐시를 여러 GPU에 분산시키는 모델 병렬화가 필수적이다.

논문은 두 가지 주요 병렬화 기법을 비교한다. 텐서 병렬(TP)은 각 트랜스포머 레이어를 가로로 샤딩하여 모든 GPU가 동일 레이어의 부분 연산을 동시에 수행하고, 결과를 All‑Reduce로 합산한다. 이 방식은 레이턴시 감소에 기여하는데, 이유는 동일 토큰에 대해 더 많은 연산 유닛이 동시에 작업함으로써 전 단계(pre‑fill)와 디코드 단계 모두에서 파이프라인 대기시간이 최소화되기 때문이다. 그러나 All‑Reduce 통신 비용이 증가하고, 작은 배치 크기에서는 메모리 효율이 떨어질 수 있다.

반면 파이프라인 병렬(PP)은 트랜스포머 블록을 깊이 방향으로 분할해 각 GPU가 연속적인 레이어 집합을 담당한다. 이렇게 하면 서로 다른 배치가 파이프라인 단계마다 겹쳐 실행되므로 GPU 활용률이 높아지고 전체 처리량이 크게 향상된다. 그러나 각 배치가 파이프라인을 통과하는 데 걸리는 시간(레벨당 대기시간)이 누적돼 레이턴시가 늘어나는 것이 일반적이다. 특히 입력 시퀀스가 길어질수록 KV 캐시가 각 단계에 분산 저장되면서 메모리 압박이 가중된다.

핵심 실험에서는 동일한 하드웨어 환경(MI250 GPU 기반 8‑GPU 노드)에서 TP와 PP의 다양한 차수(예: TP‑2, TP‑4, PP‑2, PP‑4)와 하이브리드 조합(TP‑2 + PP‑2 등)을 적용했다. 결과는 다음과 같다.

Llama‑70B에서는 TP‑4 구성이 레이턴시를 18 %~22 % 감소시키는 반면, 처리량은 5 % 미만 증가에 그쳤다.
Llama‑405B에서는 메모리 제한으로 TP‑2만 가능했으며, 이 경우 레이턴시 감소 효과는 미미했지만 PP‑4 구성이 처리량을 2.3배까지 끌어올렸다.
하이브리드(TP‑2 + PP‑2)에서는 레이턴시와 처리량이 각각 10 %~12 %와 1.8배 수준으로 균형을 맞출 수 있었다.

또한 입력 특성(시퀀스 길이, 배치 크기)과 KV 캐시 성장률이 병렬화 선택에 미치는 영향을 분석했다. 짧은 시퀀스(≤512 토큰)와 작은 배치(≤4)는 TP가 유리했으며, 긴 시퀀스(≥4 K 토큰)와 대규모 배치(≥16)는 PP가 병목을 완화한다는 것이 확인되었다. 통신 비용 측면에서는 NVLink 기반 고대역폭 인터커넥트가 All‑Reduce 오버헤드를 크게 낮추어 TP의 효율성을 높였으며, 파이프라인 단계 간 동기화 지연은 PCIe 기반 시스템에서 더욱 두드러졌다.

마지막으로 시뮬레이터와 실제 실리콘 측정값 간의 상관관계를 검증했으며, 평균 3 % 이내의 오차율을 보였다. 이는 향후 설계 단계에서 시뮬레이션 기반 의사결정이 충분히 신뢰할 수 있음을 의미한다.

밀집형 LLM 배포를 위한 병렬화 전략: 응용별 트레이드오프와 병목 현상 탐색

초록

상세 분석

댓글 및 학술 토론

의견 남기기