Distributed Computing

'Distributed Computing' 카테고리의 모든 글

총 5개의 글

시간순 정렬

AI 기반 다중 클러스터 환경의 클라우드 리소스 최적화

현대의 클라우드 네이티브 시스템은 확장성, 견고성 및 지리적 분산을 지원하기 위해 다중 클러스터 배포에 점점 더 의존하고 있습니다. 그러나 기존의 리소스 관리 접근 방식은 여전히 대응형이고 클러스터 중심적이어서 동적인 워크로드 하에서 시스템 전체의 행동을 최적화하는 능력이 제한됩니다. 이러한 한계는 분산 환경에 걸쳐서 효율적인 리소스 활용, 지연된 적응 및 증가된 운영 부담으로 이어집니다. 본 논문은 다중 클러스터 클라우드 시스템에서 적응형 리소스 최적화를 위한 AI 기반 프레임워크를 제시합니다. 제안된 접근 방식은 예측 학습, 정책 인식 결정 및 지속적인 피드백을 통합하여 클러스터 간에 능동적이고 조율된 리소스 관리를 가능하게 합니다. 이 프레임워크는 클러스터 간 텔리미트리와 역사적 실행 패턴을 분석하여 성능, 비용 및 신뢰성 목표를 균형 있게 맞추기 위해 리소스 할당을 동적으로 조정합니다. 프로토타입 구현은 전통적인 대응형 접근 방식에 비해 개선된 리소스 효율성, 워크로드 변동 시 더 빠른 안정화 및 성능 변화의 감소를 보여줍니다. 결과는 확장적이고 견고한 클라우드 플랫폼을 위한 핵심 요인으로서 지능형 자가 적응 인프라 관리의 효과성을 강조합니다.

2026년 02월 04일

paper AI 요약

PackKV LLM 인식 손실 압축을 통한 KV 캐시 메모리 절약

트랜스포머 기반 대형 언어 모델(LLMs)은 광범위한 실제 응용 분야에서 놀라운 잠재력을 보여주고 있습니다. 그러나 키-밸류(KV) 캐시의 큰 메모리 요구 사항으로 인해 긴 문맥 추론이 여전히 중요한 도전 과제입니다. KV 캐시는 시퀀스 길이와 배치 크기가 증가함에 따라 몇 GB까지 확장될 수 있습니다. 본 논문에서는 긴 문맥 생성을 위한 최적화된 일반적이고 효율적인 KV 캐시 관리 프레임워크인 textbf{PackKV}를 제시합니다. PackKV는 KV 캐시 데이터의 특성에 맞게 조정된 손실 압축 기법을 도입하며, 압축 알고리즘과 시스템 아키텍처 간의 세밀한 공학 설계를 특징으로 합니다. 우리의 접근 방법은 KV 캐시가 동적으로 성장하는 성격을 유지하면서 높은 연산 효율성을 보존합니다. 실험 결과는, 현존하는 양자화 방법과 같은 정확도 하락을 감안할 때 PackKV가 평균적으로 K 캐시에 대해 textbf{153.2} %의 메모리 감소율을, V 캐시에 대해서는 textbf{179.6} %를 달성함을 보여줍니다. 또한 PackKV는 분해압축 오버헤드를 효과적으로 제거하고 행렬-벡터 곱 연산을 가속화하여 매우 높은 실행 통과율을 제공합니다. 구체적으로, A100 및 RTX Pro 6000 GPU에서 cuBLAS 행렬-벡터 곱 커널에 비해 K는 평균 textbf{75.7} %, V는 textbf{171.7} %의 통과율 향상을 이루며, 이는 더 적은 GPU 메모리 대역폭을 필요로 합니다. 코드는 https //github.com/BoJiang03/PackKV에서 이용 가능합니다.

2026년 02월 04일

paper AI 요약

RelayGR 장기 시퀀스 생성 추천의 확장을 위한 다단계 중계 경주 추론

현대 산업용 추천 시스템은 하루에 수십억 건의 요청을 처리하며, 이는 검색, 사전 가공 및 세부 정렬 단계를 포함한다. 사용자 참여는 지연 시간에 매우 민감하므로 전체 파이프라인은 몇 백 밀리초 내에 완료되어야 한다. 세부 정렬 단계가 병목 현상을 일으키며, 고용량 모델로 수백 개의 후보 항목을 점수화하는 데 99번째 백분위 수(P99)에서 몇십 밀리초만 주어진다. 생성적 추천(GR) 모델은 긴 시퀀스를 처리하고 더 큰 용량에 잘 확장되지만, 온라인 서비스에서는 시퀀스 길이 증가로 인한 추론 지연 시간 증가로 인해 제약을 받는다. 본 논문에서는 GR의 입력 구조적 특징을 활용하여 장기 사용자 행동 접두사에 대한 사전 추론과 중간 상태 캐싱 및 재사용을 통해 이 문제를 해결하는 RelayGR 시스템을 제안한다.

2026년 02월 04일

paper AI 요약

No Image

분산 학습 전략의 숨겨진 비밀 메모리와 통신량 예측하기

(이 논문은 분산 딥러닝에서 이론과 실무 간의 격차를 다룹니다. 700억 개의 파라미터를 가진 모델을 훈련시키는 데 필요한 메모리는 약 1,120GB로, 현재 GPU가 갖는 80GB 용량을 크게 초과합니다. 이를 해결하기 위해 데이터 병렬화, ZeRO/Fully Sharded Data Parallel (FSDP), 텐서 병렬화, 파이프라인 병렬화 및 전문병렬화와 같은 병렬화 전략들이 사용됩니다. 논문은 이러한 병렬화 전략의 구현을 통해 메모리와 통신 비용을 파악하고 이를 시스템적으로 분석하는 프레임워크를 제시합니다.)

2026년 02월 04일

paper AI 요약