소비자 GPU용 저정밀 사전학습 프레임워크 LLMQ
초록
**
LLMQ는 16 GB 수준의 일반 게이밍 GPU에서도 7 B 모델을, RTX 4090 4구에서는 32 B 모델을 8‑bit(실제는 FP8) 훈련 파이프라인으로 실행하도록 설계된 CUDA/C++ 기반 엔드‑투‑엔드 시스템이다. 활성 체크포인팅, 선택적 재계산, 옵티마이저·잔차 오프로드, ZeRO‑1 기반 가중치·그래디언트 샤딩, 복사 엔진 기반 커뮤니케이션 등 메모리·대역폭 병목을 해소하는 여러 최적화를 결합해 평균 50 % 이상의 모델 FLOPs Utilization(MFU)를 달성한다.
**
상세 분석
**
LLMQ가 제시하는 가장 큰 혁신은 소비자 급 GPU의 제한된 VRAM(16 GB)과 낮은 PCIe 대역폭을 전제로, 메모리 사용량을 단계별로 최소화하면서도 FP8(동적 텐서‑레벨 스케일링) 훈련을 그대로 유지한다는 점이다. 활성 체크포인팅을 단순히 일부 레이어만 재계산하는 수준에서 시작해, 필요에 따라 전체 트랜스포머 블록을 재계산하도록 선택적 재계산 옵션을 제공한다. 이는 메모리 절감량과 재계산 비용 사이의 트레이드오프를 사용자가 직접 조정할 수 있게 해, 0.5 B 모델은 배치 6으로, 1.5 B 모델은 배치 2~12까지 다양한 설정이 가능하도록 만든다.
옵티마이저 상태를 BF16(또는 FP8)으로 축소하고, 추가로 CPU 페이지‑잠금 메모리 혹은 명시적 더블‑버퍼링을 통해 완전히 오프로드한다는 전략은, 기존 ZeRO‑2/3과 달리 GPU 메모리 사용량을 크게 낮추면서도 통신량을 최소화한다. 특히 최신 소비자 GPU는 직접 GPU‑to‑GPU PCIe 연결이 불가능해 호스트를 경유해야 하는데, 가중치를 호스트에 캐시해 두면 매 스텝마다 GPU‑to‑CPU 전송만으로 충분해 통신 비용을 크게 절감한다.
FP8 훈련에서는 동적 텐서‑레벨 abs‑max 스케일링을 사용해 값이 클리핑되지 않도록 보장한다. 이는 지연 스케일링보다 한 번의 전역 감소 연산을 추가로 필요로 하지만, 정밀도 손실을 방지한다는 장점이 있다. 또한, 주요 매트멀(Attention·FFN) 연산은 FP8으로 수행하고, 비선형성·RMSNorm·Embedding·LM‑Head 등은 BF16으로 유지해 그래디언트 누적 시 수치적 안정성을 확보한다.
멀티‑GPU 환경에서는 ZeRO‑1 수준의 옵티마이저 샤딩을 기본으로 하고, 가중치·그래디언트 샤딩을 독립적으로 선택 가능하게 함으로써 메모리와 통신을 균형 있게 배분한다. 복사 엔진 기반 커뮤니케이션 백엔드는 전통적인 NCCL보다 낮은 오버헤드로 토큰당 7 800 tokens/s(14 B 모델)·3 400 tokens/s(32 B 모델) 정도의 높은 처리량을 달성한다.
결과적으로 LLMQ는 RTX 4090 단일 카드에서 14 B 모델을 4 300 tokens/s, 61 % MFU로 훈련하고, 4× RTX 4090에서는 32 B 모델을 3 400 tokens/s, 51 % MFU로 실행한다. 이는 동일 하드웨어에서 L40S(클라우드‑그레이드) GPU가 보이는 29 % MFU보다 두 배 이상 효율적이다. 또한 HP ZGX Spark(Blackwell) GPU와 통합 메모리 환경에서도 정상 동작함을 보이며, 향후 소비자‑레벨 워크스테이션이 대규모 LLM 사전학습에 실질적인 대안이 될 수 있음을 입증한다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기