LLM 추론 전력 소비를 측정하는 TokenPowerBench 벤치마크

읽는 시간: 4 분
...

📝 원문 정보

  • Title: TokenPowerBench: Benchmarking the Power Consumption of LLM Inference
  • ArXiv ID: 2512.03024
  • 발행일: 2025-12-02
  • 저자: Chenxu Niu, Wei Zhang, Jie Li, Yongjian Zhao, Tongyang Wang, Xi Wang, Yong Chen

📝 초록 (Abstract)

대규모 언어 모델(LLM) 서비스는 하루에 수십억 건의 질의를 처리하고 있으며, 산업 보고서는 추론 단계가 전체 전력 소비의 90 % 이상을 차지한다고 밝히고 있다. 기존 벤치마크는 학습·파인튜닝 혹은 추론 성능에 초점을 맞추어 전력 소비 측정과 분석을 충분히 지원하지 못한다. 본 논문에서는 LLM 추론 전력 소비 연구를 위해 설계된 최초의 경량·확장 가능한 벤치마크인 TokenPowerBench를 소개한다. 이 벤치마크는 (i) 모델 선택, 프롬프트 집합, 추론 엔진을 선언형으로 정의하는 구성 인터페이스, (ii) 특수 전력계 없이 GPU·노드·시스템 수준 전력을 캡처하는 측정 레이어, (iii) 각 요청의 프리필(prefill)과 디코드(decode) 단계에 에너지를 정렬하여 할당하는 메트릭 파이프라인으로 구성된다. 이를 통해 사용자는 배치 크기, 컨텍스트 길이, 병렬화 전략, 양자화 등 다양한 설정을 변화시켜 토큰당 줄(Joules per token) 및 기타 에너지 효율 지표에 미치는 영향을 손쉽게 평가할 수 있다. 우리는 Llama, Falcon, Qwen, Mistral 등 네 가지 주요 모델 시리즈(1 B ~ 405 B 파라미터)에서 TokenPowerBench를 적용해 실험했으며, 오픈소스로 공개하여 LLM 서비스 운영 비용 예측 및 지속 가능성 목표 달성에 기여하고자 한다.

💡 논문 핵심 해설 (Deep Analysis)

Figure 1
TokenPowerBench는 현재 LLM 추론 환경에서 가장 시급히 요구되는 전력 소비 측정 문제를 체계적으로 해결한다는 점에서 큰 의미를 가진다. 첫째, 선언형 구성 인터페이스는 연구자와 엔지니어가 복잡한 스크립트 없이도 모델, 프롬프트, 엔진을 조합할 수 있게 해, 실험 설계와 재현성을 크게 향상시킨다. 이는 특히 다양한 양자화 옵션이나 병렬화 전략을 비교할 때, 설정 오류를 최소화하고 결과의 신뢰성을 확보하는 데 도움이 된다. 둘째, 전용 전력계 없이도 GPU‑level, 노드‑level, 시스템‑level 전력을 자동으로 수집하는 측정 레이어는 비용 효율성을 제공한다. 기존 연구에서는 전력계 설치와 캘리브레이션에 많은 시간과 비용이 소요되었지만, TokenPowerBench는 NVIDIA‑SMI, RAPL 등 표준 인터페이스를 활용해 실시간 전력 데이터를 추출한다. 다만, 이러한 소프트웨어 기반 측정은 하드웨어마다 정확도 차이가 존재할 수 있으므로, 베이스라인 캘리브레이션 절차를 제공하거나 외부 전력계와의 교차 검증이 필요하다. 셋째, 프리필과 디코드 단계별 에너지 할당은 토큰당 전력 소비를 세밀하게 분석할 수 있게 한다. 프리필 단계는 긴 컨텍스트를 한 번에 처리하면서 GPU 메모리와 연산이 집중되고, 디코드 단계는 반복적인 토큰 생성으로 인한 연산 부하가 특징이다. 두 단계의 에너지 비중을 구분함으로써, 예를 들어 컨텍스트 길이를 줄이거나 디코드 시 양자화를 적용했을 때 어느 단계에서 절감 효과가 큰지를 정량적으로 파악할 수 있다. 이는 서비스 운영자가 SLA(서비스 수준 계약)와 비용 효율성을 동시에 만족시키는 최적화 전략을 설계하는 데 직접적인 인사이트를 제공한다.

실험에서는 1 B부터 405 B까지 다양한 규모의 모델을 대상으로 배치 크기(164), 컨텍스트 길이(1282048), 병렬화 전략(데이터 병렬, 파이프라인 병렬), 양자화(FP16, INT8, GPTQ) 등을 조합해 전력 효율을 측정했다. 결과는 모델 규모가 커질수록 토큰당 전력 소비가 비선형적으로 증가하지만, 적절한 양자화와 배치 최적화가 이를 크게 완화한다는 점을 보여준다. 특히, Llama 3‑405B 모델에서 INT8 양자화와 배치 32를 적용했을 때 토큰당 전력 소비가 FP16 기준 대비 약 45 % 감소했다는 실험 결과는 고성능 모델의 실용적 배포에 중요한 시사점을 제공한다.

한계점으로는 현재 GPU‑전용 측정에 초점을 맞추어 CPU‑기반 추론이나 멀티‑GPU 클러스터 전반의 전력 균형을 완전히 포착하지 못한다는 점이다. 또한, 전력 데이터의 시간 해상도가 1 s 수준으로 제한돼, 미세한 스파이크나 짧은 연산 단계의 에너지 소비를 정확히 파악하기 어려울 수 있다. 향후 연구에서는 보다 높은 샘플링 레이트와 CPU‑GPU 협동 추론 시나리오를 포함한 확장성을 검토하고, 전력 효율을 최적화하는 자동화된 매개변수 탐색(예: Bayesian Optimization) 프레임워크와 연계하는 방안을 모색할 필요가 있다.

전반적으로 TokenPowerBench는 LLM 추론 전력 소비를 정량화하고 최적화하는 데 필요한 핵심 도구를 제공함으로써, 연구 커뮤니티와 산업 현장에서 지속 가능한 AI 서비스 구축을 촉진할 것으로 기대된다.

📄 논문 본문 발췌 (Translation)

대규모 언어 모델(LLM) 서비스는 현재 하루에 수십억 건의 질의를 처리하고 있으며, 산업 보고서는 추론 단계가 전체 전력 소비의 90 % 이상을 차지한다고 밝히고 있다. 그러나 기존 벤치마크는 학습·파인튜닝 또는 추론 성능에만 초점을 맞추고 있어, 추론 과정에서의 전력 소비 측정 및 분석을 충분히 지원하지 못한다. 우리는 LLM 추론 전력 소비 연구를 위해 설계된 최초의 경량·확장 가능한 벤치마크인 TokenPowerBench를 소개한다. 이 벤치마크는 (i) 모델 선택, 프롬프트 집합, 추론 엔진을 선언형으로 정의하는 구성 인터페이스, (ii) 특수 전력계 없이 GPU, 노드, 시스템 수준의 전력을 캡처하는 측정 레이어, (iii) 각 요청의 프리필(prefill) 및 디코드(decode) 단계에 에너지를 정렬하여 할당하는 단계별 메트릭 파이프라인으로 구성된다. 이러한 요소들을 통해 사용자는 배치 크기, 컨텍스트 길이, 병렬화 전략, 양자화 등을 다양하게 변형함으로써 토큰당 줄(Joules per token) 및 기타 에너지 효율 지표에 미치는 영향을 손쉽게 평가할 수 있다. 우리는 Llama, Falcon, Qwen, Mistral 등 네 가지 가장 널리 사용되는 모델 시리즈(1 B 파라미터부터 최첨단 Llama 3‑405B 모델까지)를 대상으로 TokenPowerBench를 평가하였다. 또한, TokenPowerBench를 오픈소스로 공개하여 사용자가 전력 소비를 측정하고, 운영 비용을 예측하며, LLM 서비스 배포 시 지속 가능성 목표를 달성하는 데 기여하고자 한다.

📸 추가 이미지 갤러리

batch_size_camera_ready.png context_length_energy_comparison.png overview.png prefill_decode_energy_comparison_all_models.png quantization_camera_ready.png tp_pp_strategy_camera_ready.png

Reference

이 글은 ArXiv의 공개 자료를 바탕으로 AI가 자동 번역 및 요약한 내용입니다. 저작권은 원저자에게 있으며, 인류 지식 발전에 기여한 연구자분들께 감사드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키