Distributed, Parallel, and Cluster Computing

'Distributed, Parallel, and Cluster Computing' 카테고리의 모든 글

총 14개의 글
시간순 정렬
메트릭 제약 최적화를 위한 평행 투영 방법

메트릭 제약 최적화를 위한 평행 투영 방법

기계 학습과 데이터 마이닝의 많은 클러스터링 응용 프로그램은 메트릭 제약 최적화 문제를 해결하는 데 의존하고 있습니다. 이러한 문제는 큰 데이터셋에서 n 개체에 대한 거리 변수 간 삼각 부등식을 강제하는 O(n^3)의 제약 조건으로 특징지어집니다. 이 방법은 유용하지만, 세제곱 수준의 제약 조건과 표준 최적화 소프트웨어의 높은 메모리 요구 사항 때문에 실제 사용에서 어려움이 따릅니다. 최근 연구에서는 반복적인 투영법을 통해 이전보다 더 큰 규모의 문제를 해결할 수 있음을 보여주었지만, 이러한 방법의 주요 제한점은 느린 수렴 속도입니다. 본 논문에서는 메트릭 제약 최적화에 대한 병렬 투영 방법을 제시하여 실제 사용에서 수렴 속도를 높였습니다. 우리의 접근 방식의 핵심은 여러 메트릭 제약 조건에 대해 동시에 투영을 수행할 수 있도록 하는 새로운 병렬 실행 스케줄입니다. 우리는 상관 클러스터링 문제의 메트릭 제약 선형 계획법 이완을 해결하는 데 이러한 실행 스케줄을 구현하고 실험한 결과를 보여줍니다. 실험에서는 2.9조 개의 제약 조건을 포함하는 문제에 대한 다양한 실험적 결과가 나왔습니다.

paper AI 요약
에러asure-코딩된 저장 시스템을 위한 복구 파이플라인  알고리즘과 평가

에러asure-코딩된 저장 시스템을 위한 복구 파이플라인 알고리즘과 평가

우리는 일반적인 에러코드 저장소에서 복구 성능을 빠르게 하는 기술인 복구 파이프라인(repair pipelining)을 제안합니다. 작은 단위로 분할된 손상된 데이터를 각각의 저장 노드에 걸쳐 세심하게 스케줄링함으로써, 동일한 환경에서 일반적인 블록 읽기 시간과 거의 같은 수준으로 단일 블록 복구 시간을 줄입니다. 우리는 이 기법을 다양한 환경과 여러 블록 복구 작업에 대한 확장 버전도 설계했습니다. 우리는 ECPipe라는 복구 파이프라인 프로토타입을 구현하고 이를 Hadoop 분산 파일 시스템(HDFS)의 두 가지 버전(즉, HDFS-RAID와 HDFS-3), 그리고 Quantcast File System(QFS)으로 통합한 중간웨어 시스템으로 적용했습니다. 현지 테스트베드 및 Amazon EC2에서 수행된 실험은 복구 파이프라인이 기존 복구 기법보다 손상 읽기와 전체 노드 복구 성능을 크게 향상시킨다는 것을 보여줍니다.

paper AI 요약
No Image

인터넷-of-Things을 위한 분산 딥 컨볼루션 뉴럴 네트워크

사물인터넷(IoT) 단위의 메모리와 계산에 대한 심각한 제약은 일반적으로 대규모 메모리와 높은 처리 부하를 요구하는 딥러닝(DL)-기반 솔루션의 실행을 방해할 수 있습니다. 고려된 DL 모델의 실시간 실행을 지원하기 위해서는 IoT 단위에 대한 메모리 및 처리 능력 제약 조건을 염두에 두고 디자인되어야 합니다. 본 논문에서는 분산형 IoT 애플리케이션에서 컨볼루셔널 신경망(CNNs)의 실행을 할당하는 방법론을 소개합니다. 이러한 방법론은 데이터 수집 단계와 그 이후의 의사결정 단계 사이의 지연 시간을 최소화하면서 주어진 메모리 및 처리 부하 제약 조건 내에서 최적화 문제로 정식화됩니다. 이 방법론은 동일한 IoT 시스템에서 여러 소스의 데이터뿐만 아니라 여러 개의 CNNs를 실행하는 것을 지원하여 자율성, 낮은 의사결정 지연 시간, 높은 서비스 품질을 요구하는 CNN 기반 애플리케이션을 설계할 수 있습니다.

paper AI 요약
분산 합의 기술의 특성 -- 모든 블록체인이 진정한 블록체인인 이유는 무엇일까?

분산 합의 기술의 특성 -- 모든 블록체인이 진정한 블록체인인 이유는 무엇일까?

블록체인 기술 및 애플리케이션에 대한 연구는 빠르게 진행되고 있습니다. 그러나 나카모토의 비트코인 백서가 발표된 지 10년이 지난 지금도 이 분야는 여전히 미성숙하고 초기 단계에 머물러 있습니다. 현재 이 영역의 연구는 기술과 그 특성을 설명하는 용어에 대한 공통적으로 공유되는 이해와 합의가 부족한 상태입니다. 동시에 이러한 연구는 비트코인 코어 개념의 기본적인 측면을 도전하고 있습니다. 모든 이러한 새로운 접근 방식이 여전히 블록체인 기술이라고 설명할 수 있는지 질문해야 합니다. 우리는 이를 대체하기 위해 분산 합의 기술(DCT)이라는 일반 범주를 사용하자고 제안합니다. 분산 합의 기술은 분산 장부 기술과 비장부 기술로 구성됩니다. 블록체인 기술은 여러 가지 분산 장부 기술 구현 중 하나일 뿐입니다. 또한, 우리는 분산 합의 기술의 세 가지 주요 특징을 식별했습니다 분산화, 신뢰성 없음 및 최종적으로 합의에 도달할 수 있는 능력입니다. 특정 구현의 사용 사례에 따라 다음과 같은 추가 속성이 고려되어야 합니다 프라이버시, 참여 동기부여, 불가역성 및 변형 불능성, 운영 목적, 확인 시간, 거래 비용, 외부화된 거래 및 계산 능력, 확장 가능성.

paper AI 요약
초고속 상호연결망에서의 네트워크 과부하 연구

초고속 상호연결망에서의 네트워크 과부하 연구

고속 인터커넥트의 네트워크 혼잡은 애플리케이션 실행 시간 성능 변동의 주요 원인이다. 최근 학계와 산업계는 네트워크 수준에서 혼잡 제어 및 시스템 수준에서 애플리케이션 배치, 매핑 및 일정 조정을 위한 새로운 접근법 개발에 큰 관심을 보여왔다. 하지만 이러한 연구들은 실제 고속 인터커넥트의 혼잡 특성을 대표하지 못하는 프록시 애플리케이션과 벤치마크를 기반으로 하고 있다. 이 격차를 해소하기 위해, 우리는 (a) 장기적인 현장 혼잡 특성화 연구를 지원하기 위한 모니터링 및 분석을 위한 end-to-end 프레임워크와 (b) Cray Gemini(3-D 토러스 위상 사용)와 Cray Aries(DragonFly 위상 사용) 두 가지 다른 인터커넥트 기술에 걸친 피타스케일 시스템의 네트워크 혼잡에 대한 경험적 연구를 제시한다.

paper AI 요약
통신 효율적인 연방 딥러닝  비동기 모델 업데이트와 시간 가중치 집합

통신 효율적인 연방 딥러닝 비동기 모델 업데이트와 시간 가중치 집합

연방 학습은 클라이언트에서 로컬로 훈련된 모델을 집계하여 서버에 중앙 모델을 얻는다. 따라서 연방 학습은 클라이언트가 데이터를 서버에 업로드할 필요 없이 클라이언트의 데이터 프라이버시를 보호한다. 연방 학습에서 하나의 도전 과제는 클라이언트-서버 통신을 줄이는 것이다. 왜냐하면 종단 장치는 일반적으로 매우 제한적인 통신 대역폭을 가지고 있기 때문이다. 본 논문은 클라이언트에서 동기식 학습 전략을 사용하고 서버에서는 로컬 모델의 시간 가중 집계를 도입하여 개선된 연방 학습 기술을 제안한다. 비동기 학습 전략에서는 딥 뉴럴 네트워크의 서로 다른 계층이 얕은 계층과 깊은 계층으로 분류되며, 깊은 계층의 파라미터는 얕은 계층의 파라미터보다 덜 자주 업데이트된다. 또한 서버에서는 이전에 훈련된 로컬 모델을 활용하기 위해 시간 가중 집계 전략이 도입되어 중앙 모델의 정확도와 수렴성을 향상시킨다. 제안된 알고리즘은 두 가지 데이터셋과 다양한 딥 뉴럴 네트워크를 사용하여 실험적으로 평가된다. 우리의 결과는 제안된 비동기 연방 딥 학습이 통신 비용과 모델 정확도 측면에서 기준 알고리즘보다 우수함을 보여준다.

paper AI 요약
지연 없음  네트워크 지연에 기반한 애플리케이션 성능 인식 클러스터 스케줄링

지연 없음 네트워크 지연에 기반한 애플리케이션 성능 인식 클러스터 스케줄링

데이터 센터에서 관찰되는 네트워크 지연의 변동성으로 인해 애플리케이션의 성능은 데이터 센터 내에서의 위치에 의해 결정됩니다. 우리는 NoMora라는 클러스터 스케줄링 아키텍처를 제시합니다. 이 아키텍처의 핵심은 네트워크 지연을 기반으로 한, 애플리케이션 성능을 고려하는 클러스터 스케줄링 정책입니다. 이 정책은 데이터 센터 내에서 호스트 간 측정된 네트워크 지연에 근거한 예상 성능을 반영하여 애플리케이션의 작업을 배치합니다. 또한, 테넌트의 애플리케이션이 높은 네트워크 지연으로 인해 성능이 저하되면 더 나은 위치로 이동시킬 수 있습니다. 초기 결과는 우리의 정책이 전체 평균 애플리케이션 성능을 최대 13.4% 향상시키며, 사전 중단(preemption)이 활성화된 경우 최대 42%까지 향상시킬 수 있음을 보여줍니다. 이는 Google 클러스터 작업 부하에 대해 무작위 정책에 비해 작업 배치 지연을 1.79배로, 중앙값 알고리즘 실행 시간을 1.16배로 개선했습니다. 이는 애플리케이션 성능을 향상시키기 위해 네트워크 지연과 애플리케이션 성능 간의 관계를 활용하고 데이터 센터에서의 현재 네트워크 상태를 고려하면서, 저지연 클러스터 스케줄링의 요구사항을 충족시키는 것을 보여줍니다.

paper AI 요약
[한글 번역 중] Viability and Performance of a Private LLM Server for SMBs  A Benchmark Analysis of Qwen3-30B on Consumer-Grade Hardware

[한글 번역 중] Viability and Performance of a Private LLM Server for SMBs A Benchmark Analysis of Qwen3-30B on Consumer-Grade Hardware

대형 언어 모델(LLM)의 확산은 클라우드 기반, 전roprietary 시스템에 대한 의존성을 높였으며, 이는 데이터 프라이버시, 운영 주권 및 증가하는 비용과 같은 중요한 문제를 야기하고 있습니다. 본 논문에서는 소규모 중소기업(SMBs)이 부담할 수 있는 비용으로 고성능 사설 LLM 추론 서버를 배치하는 것이 가능하다는 것을 조사합니다. 우리는 Qwen3 기반의 양자화된 300억 매개변수 Mixture-of-Experts(MoE) 모델을 다음 세대 NVIDIA GPU가 장착된 소비자 등급 서버에서 호스팅하는 종합적인 벤치마크 분석을 제시합니다. 클라우드 기반 서비스와 달리, 우리의 접근 방식은 비용이 적게 들고 프라이빗한 솔루션을 제공하며 복잡한 통합이 필요하지 않습니다. 모델의 내재적 능력과 서버가 부하를 받는 상황에서의 성능 두 가지 차원을 평가합니다. 모델 성능은 학계 및 산업 표준에 대해 벤치마킹하여 클라우드 서비스와 비교할 수 있는 추론 및 지식 측면에서 정량화됩니다. 동시에, 동시 사용자 수가 증가함에 따라 레이턴시, 초당 토큰, 첫 번째 토큰 생성 시간 등을 통해 서버 효율성을 측정합니다. 우리의 결과는 부가 가치 있는 온프레미스 설정을 갖춘 새로운 소비자 하드웨어와 양자화 오픈소스 모델이 클라우드 기반 서비스와 비교할 수 있는 성능을 달성하며, 프라이버시 침해 없이 SMBs가 강력한 LLM을 배치하는 데 있어 실현 가능한 경로를 제공함을 보여줍니다.

paper AI 요약
모바일 엣지 클라우드에서 리소스 공유를 위한 게임 이론적 프레임워크  함께 나눠보자

모바일 엣지 클라우드에서 리소스 공유를 위한 게임 이론적 프레임워크 함께 나눠보자

이 논문은 모바일 에지 컴퓨팅을 통해 다양한 지연 민감도가 있는 애플리케이션에 자원을 제공하는 것을 목표로 합니다. 이는 어려운 문제입니다. 왜냐하면, 에지 클라우드 서비스 제공자는 모든 요청된 자원을 충족할 수 있을 만큼의 충분한 자원을 보유하지 못할 수도 있기 때문입니다. 또한, 다양한 애플리케이션에 있는 사용 가능한 자원을 최적화하는 것도 어렵습니다. 다른 에지 클라우드 서비스 제공자들 간의 자원 공유는 위와 같은 한계를 해결할 수 있습니다. 특정 서비스 제공자는 다른 서비스 제공자가 빌릴 수 있는 자원을 보유하고 있을 수 있기 때문입니다. 그러나, 에지 클라우드 서비스 제공자는 서로 다른 목표나 *이용성*을 가질 수 있습니다. 따라서, 각 서비스 제공자의 다양한 목적을 고려하여 효율적이고 효과적인 자원 공유 메커니즘이 필요합니다. 우리는 이 문제를 다목적 최적화 문제로 모델링하고 *협력 게임 이론*(CGT)에 기반한 해결 프레임워크를 제시합니다. 각 서비스 제공자가 먼저 자체 애플리케이션에 자원을 할당한 후, 나머지 자원을 다른 서비스 제공자들의 애플리케이션과 공유하는 전략을 고려하였습니다. 우리는 단조 증가하는 이용성 함수에 대해 게임이 캐논이고 볼록하다는 것을 입증하였습니다. 따라서, *코어*는 빈 집합이 아니며, 그랜드 컨소시엄은 안정적입니다. 또한, 우리가 제안한 두 가지 알고리즘인 *게임 이론 기반 파레토 최적 할당*(GPOA)과 *폴리안드리-폴리가모스 매칭 기반 파레토 최적 할당*(PPMPOA)은 코어에서 할당을 제공합니다. 따라서, 얻어진 할당은 *파레토* 최적이고 모든 서비스 제공자들이 참여하는 그랜드 컨소시엄은 안정적입니다. 실험 결과는 제안한 자원 공유 프레임워크가 에지 클라우드 서비스 제공자의 이용성을 향상시키고 애플리케이션 요청 충족을 개선한다는 것을 확인하였습니다.

paper AI 요약
DUNE 프레임워크  기본 개념과 최근 발전

DUNE 프레임워크 기본 개념과 최근 발전

이 논문은 분산 및 통합된 수치 환경(Distributed and Unified Numerics Environment)의 기본 개념과 모듈 구조를 제시하며, 2007년 첫 번째 Dune 버전 출시 이후의 주요 개발과 변화에 대해 설명합니다. 이 논문은 도메인 결합 및 쿠팅 셀, 그리드 수정(예 적응화 및 이동 도메인), 고차원 해석 및 노드 수준 성능, 미분 가능한 다중 격자 방법, 그리고 다중 규모 방법 등의 다양한 고급 기능에 대한 설명을 포함하고 있습니다. 논문은 프레임워크의 현재 개발 방향과 미래 전망에 대해 간략하게 논합니다.

paper AI 요약
AI 기반 다중 클러스터 환경의 클라우드 리소스 최적화

AI 기반 다중 클러스터 환경의 클라우드 리소스 최적화

현대의 클라우드 네이티브 시스템은 확장성, 견고성 및 지리적 분산을 지원하기 위해 다중 클러스터 배포에 점점 더 의존하고 있습니다. 그러나 기존의 리소스 관리 접근 방식은 여전히 대응형이고 클러스터 중심적이어서 동적인 워크로드 하에서 시스템 전체의 행동을 최적화하는 능력이 제한됩니다. 이러한 한계는 분산 환경에 걸쳐서 효율적인 리소스 활용, 지연된 적응 및 증가된 운영 부담으로 이어집니다. 본 논문은 다중 클러스터 클라우드 시스템에서 적응형 리소스 최적화를 위한 AI 기반 프레임워크를 제시합니다. 제안된 접근 방식은 예측 학습, 정책 인식 결정 및 지속적인 피드백을 통합하여 클러스터 간에 능동적이고 조율된 리소스 관리를 가능하게 합니다. 이 프레임워크는 클러스터 간 텔리미트리와 역사적 실행 패턴을 분석하여 성능, 비용 및 신뢰성 목표를 균형 있게 맞추기 위해 리소스 할당을 동적으로 조정합니다. 프로토타입 구현은 전통적인 대응형 접근 방식에 비해 개선된 리소스 효율성, 워크로드 변동 시 더 빠른 안정화 및 성능 변화의 감소를 보여줍니다. 결과는 확장적이고 견고한 클라우드 플랫폼을 위한 핵심 요인으로서 지능형 자가 적응 인프라 관리의 효과성을 강조합니다.

paper AI 요약
PackKV  LLM 인식 손실 압축을 통한 KV 캐시 메모리 절약

PackKV LLM 인식 손실 압축을 통한 KV 캐시 메모리 절약

트랜스포머 기반 대형 언어 모델(LLMs)은 광범위한 실제 응용 분야에서 놀라운 잠재력을 보여주고 있습니다. 그러나 키-밸류(KV) 캐시의 큰 메모리 요구 사항으로 인해 긴 문맥 추론이 여전히 중요한 도전 과제입니다. KV 캐시는 시퀀스 길이와 배치 크기가 증가함에 따라 몇 GB까지 확장될 수 있습니다. 본 논문에서는 긴 문맥 생성을 위한 최적화된 일반적이고 효율적인 KV 캐시 관리 프레임워크인 textbf{PackKV}를 제시합니다. PackKV는 KV 캐시 데이터의 특성에 맞게 조정된 손실 압축 기법을 도입하며, 압축 알고리즘과 시스템 아키텍처 간의 세밀한 공학 설계를 특징으로 합니다. 우리의 접근 방법은 KV 캐시가 동적으로 성장하는 성격을 유지하면서 높은 연산 효율성을 보존합니다. 실험 결과는, 현존하는 양자화 방법과 같은 정확도 하락을 감안할 때 PackKV가 평균적으로 K 캐시에 대해 textbf{153.2} %의 메모리 감소율을, V 캐시에 대해서는 textbf{179.6} %를 달성함을 보여줍니다. 또한 PackKV는 분해압축 오버헤드를 효과적으로 제거하고 행렬-벡터 곱 연산을 가속화하여 매우 높은 실행 통과율을 제공합니다. 구체적으로, A100 및 RTX Pro 6000 GPU에서 cuBLAS 행렬-벡터 곱 커널에 비해 K는 평균 textbf{75.7} %, V는 textbf{171.7} %의 통과율 향상을 이루며, 이는 더 적은 GPU 메모리 대역폭을 필요로 합니다. 코드는 https //github.com/BoJiang03/PackKV에서 이용 가능합니다.

paper AI 요약
RelayGR  장기 시퀀스 생성 추천의 확장을 위한 다단계 중계 경주 추론

RelayGR 장기 시퀀스 생성 추천의 확장을 위한 다단계 중계 경주 추론

현대 산업용 추천 시스템은 하루에 수십억 건의 요청을 처리하며, 이는 검색, 사전 가공 및 세부 정렬 단계를 포함한다. 사용자 참여는 지연 시간에 매우 민감하므로 전체 파이프라인은 몇 백 밀리초 내에 완료되어야 한다. 세부 정렬 단계가 병목 현상을 일으키며, 고용량 모델로 수백 개의 후보 항목을 점수화하는 데 99번째 백분위 수(P99)에서 몇십 밀리초만 주어진다. 생성적 추천(GR) 모델은 긴 시퀀스를 처리하고 더 큰 용량에 잘 확장되지만, 온라인 서비스에서는 시퀀스 길이 증가로 인한 추론 지연 시간 증가로 인해 제약을 받는다. 본 논문에서는 GR의 입력 구조적 특징을 활용하여 장기 사용자 행동 접두사에 대한 사전 추론과 중간 상태 캐싱 및 재사용을 통해 이 문제를 해결하는 RelayGR 시스템을 제안한다.

paper AI 요약
No Image

분산 학습 전략의 숨겨진 비밀 메모리와 통신량 예측하기

(이 논문은 분산 딥러닝에서 이론과 실무 간의 격차를 다룹니다. 700억 개의 파라미터를 가진 모델을 훈련시키는 데 필요한 메모리는 약 1,120GB로, 현재 GPU가 갖는 80GB 용량을 크게 초과합니다. 이를 해결하기 위해 데이터 병렬화, ZeRO/Fully Sharded Data Parallel (FSDP), 텐서 병렬화, 파이프라인 병렬화 및 전문병렬화와 같은 병렬화 전략들이 사용됩니다. 논문은 이러한 병렬화 전략의 구현을 통해 메모리와 통신 비용을 파악하고 이를 시스템적으로 분석하는 프레임워크를 제시합니다.)

paper AI 요약

< 카테고리 현황 (Total: 566) >

Computer Science (514) Machine Learning (117) Artificial Intelligence (89) Computer Vision (71) Computation and Language (NLP) (62) Electrical Engineering and Systems Science (36) Cryptography and Security (24) Robotics (22) Systems and Control (22) Software Engineering (20) Mathematics (18) Statistics (17) Economics (16) Information Retrieval (15) Distributed, Parallel, and Cluster Computing (14) Human-Computer Interaction (14) Neural and Evolutionary Computing (13) Computer Science and Game Theory (11) Econometrics (11) Image and Video Processing (10) Physics (10) Sound (10) Multiagent Systems (9) Optimization and Control (8) Computational Geometry (7) Databases (7) Graphics (6) Networking and Internet Architecture (6) Quantitative Biology (6) Quantum Physics (5) Theoretical Economics (5) Computational Complexity (4) Computational Engineering, Finance, and Science (4) Computers and Society (4) Emerging Technologies (4) Information Theory (4) Methodology (4) Multimedia (4) Programming Languages (4) Quantitative Finance (4) Signal Processing (4) Audio and Speech Processing (3) Data Structures and Algorithms (3) Hardware Architecture (3) History and Philosophy of Physics (3) Logic in Computer Science (3) Neurons and Cognition (3) Social and Information Networks (3) Statistics Theory (3) Computation (2) Condensed Matter (2) Dynamical Systems (2) Formal Languages and Automata Theory (2) General Finance (2) Operating Systems (2) Optics (2) Quantitative Methods (2) Applications (1) Astrophysics (1) Combinatorics (1) Computational Physics (1) Digital Libraries (1) Disordered Systems and Neural Networks (1) General Economics (1) Genomics (1) Geophysics (1) Instrumentation and Methods for Astrophysics (1) Logic (1) Mathematical Finance (1) Mathematical Software (1) Medical Physics (1) Mesoscale and Nanoscale Physics (1) Metric Geometry (1) Other Statistics (1) Performance (1) Physics and Society (1) Plasma Physics (1) Probability (1) Trading and Market Microstructure (1)

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키