GPU 활용 전압 조정: 배치 크기로 그리드와 데이터센터를 연결하는 새로운 패러다임

GPU 활용 전압 조정: 배치 크기로 그리드와 데이터센터를 연결하는 새로운 패러다임
안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 대규모 LLM 추론 시 GPU 배치 크기를 제어 변수로 삼아, 전력망 전압 규제와 데이터센터 서비스 품질을 동시에 만족시키는 온라인 피드백 최적화 프레임워크를 제안한다. 배치 크기 증감이 GPU 전력 소모, 지연, 토큰 처리량에 미치는 비선형 관계를 실측 데이터 기반 로지스틱 모델로 정량화하고, 이를 전압 제한과 지연 제한을 포함한 다목적 최적화 문제에 통합한다. 실시간 전압·전력 측정에 기반한 OFO(Online Feedback Optimization) 제어기를 통해 배치 크기를 연속적으로 조정함으로써, 전압 저하 구간에서는 전력 감소, 전압 과전압 구간에서는 전력 증가를 유도한다. 실험 결과, 전압 위반을 크게 완화하면서도 사용자 지연 요구를 충족하고 토큰 처리량을 유지할 수 있음을 보인다.

상세 분석

이 연구는 데이터센터 GPU 부하를 전력망의 유연한 수요‑응답 자원으로 활용한다는 점에서 기존 전력 시스템 연구와 컴퓨터 시스템 연구 사이의 격차를 메우는 중요한 시도이다. 핵심 아이디어는 LLM 추론 시 배치 크기(batch size)를 제어 변수로 삼아 GPU 전력 소비를 직접 조절함으로써 배전망 전압을 실시간으로 보정한다는 것이다. 논문은 먼저 NVIDIA H100 기반 클러스터에서 다양한 LLM(예: Llama‑3.1, Qwen‑3) 모델에 대해 배치 크기와 전력·지연·처리량 사이의 관계를 실측하였다. 이 데이터를 기반으로 로그 배치 크기 x=log₂(b)를 사용한 로지스틱 함수 3종(p(x), l(x), r(x))을 피팅함으로써, 배치 크기 증가가 전력 소비와 지연을 단조 증가시키고, 토큰 처리량은 초기에는 급격히 상승하지만 포화 단계에 이르면 한계 수익을 보인다는 비선형 특성을 정량화한다.

전력망 모델은 단일 노드에 연결된 M버스 3상 배전망을 가정하고, 데이터센터 부하를 고정 전력인자(PF)로 변환한 유효·무효 전력으로 표현한다. 배치 크기 결정 변수는 이산형이지만, 연속적인 최적화와 실시간 제어를 위해 로그 배치 크기 x를 연속 변수로 완화한다. 최적화 목적식(4a)은 토큰 처리량을 최대화하면서 이전 제어값과의 차이를 L2 정규화(γ‖x−x_t‖²)로 억제해 급격한 배치 변동을 방지한다. 제약식(4b)은 모든 버스 전압이 허용 구간 내에 머물도록 전력‑전압 매핑을 포함하고, (4c)는 모델별 지연 한계 L_th,i를 만족하도록 한다.

모델링 오차, 워크로드 변동, 실행 지연 등을 고려해 온라인 피드백 최적화(OFO) 방식을 채택한다. OFO는 실제 전압·전력 측정값 ˆv와 GPU 지연 ˆl을 입력으로 받아, 라그랑지안 기반 경사 하강법으로 x를 업데이트하고, 최종적으로 이산 배치 크기 b=2^{round(x)}를 적용한다. 이렇게 하면 전압 저하가 감지되면 배치 크기를 감소시켜 전력 소모를 줄이고, 전압 과전압이 감지되면 배치를 확대해 전력 사용을 늘려 전압을 낮춘다—전통적인 “전력 최소화가 항상 그리드에 이롭다”는 가정을 뒤집는 결과다.

시뮬레이션에서는 OpenDSS 기반 배전망과 실제 GPU 측정 데이터를 연동해, 전압 위반 횟수가 30% 이상 감소하고, 평균 지연은 서비스 수준을 유지하면서도 5~10% 정도 증가하는 수준에 머물렀다. 토큰 처리량은 배치 크기 조정 전후 차이가 미미해, 데이터센터 운영 효율성을 크게 해치지 않음이 확인되었다. 이러한 결과는 전력망이 재생에너지 과잉 생산 시 전압 상승을 겪을 때, 데이터센터가 전력 소비를 의도적으로 늘려 전압을 낮출 수 있는 새로운 수요‑응답 메커니즘을 제시한다.

본 논문의 기여는 세 가지로 요약할 수 있다. 첫째, GPU‑레벨 성능 지표와 전력망 전압을 연결하는 정량적 모델을 실측 기반으로 구축했다. 둘째, 배치 크기라는 기존에 서비스 품질 최적화에만 사용되던 제어 변수를 전력망 안정성 확보 수단으로 재해석했다. 셋째, 실시간 전압·전력 피드백을 이용한 OFO 제어기를 구현해, 모델 불확실성과 워크로드 변동성을 견디면서도 전압 위반을 효과적으로 완화하는 방법을 제시했다. 향후 연구에서는 다중 노드 데이터센터, 다양한 전력망 서비스(주파수, 탄소 배출권)와의 연계, 그리고 배치 크기 외에 GPU 클럭·전압 조절 등 추가적인 제어 차원을 통합하는 방안을 탐색할 수 있다.


댓글 및 학술 토론

Loading comments...

의견 남기기