에이전트형 강화학습을 위한 분산 인프라 최적화 시스템 ROLLART
에이전트형 강화학습(RL)은 대형 언어 모델(LLM)이 자율적인 의사결정과 장기 계획을 수행하도록 한다. 기존 LLM 사후학습과 달리 에이전트형 RL 워크로드는 사전 채우기(pre‑fill) 단계의 높은 연산 집약성, 디코딩 단계의 대역폭 제한, 그리고 상태를 유지하는 CPU 중심의 환경 시뮬레이션 등 매우 이질적인 특성을 가진다. 우리는 효율적인 에이전트
초록
에이전트형 강화학습(RL)은 대형 언어 모델(LLM)이 자율적인 의사결정과 장기 계획을 수행하도록 한다. 기존 LLM 사후학습과 달리 에이전트형 RL 워크로드는 사전 채우기(pre‑fill) 단계의 높은 연산 집약성, 디코딩 단계의 대역폭 제한, 그리고 상태를 유지하는 CPU 중심의 환경 시뮬레이션 등 매우 이질적인 특성을 가진다. 우리는 효율적인 에이전트형 RL 학습을 위해서는 특화된 최적 하드웨어를 활용할 수 있는 분산 인프라가 필요하다고 주장한다. 그러나 단순히 인프라를 분리하면 단계 간 복잡한 의존성 때문에 동기화 오버헤드와 자원 미활용이 크게 증가한다. 본 논문에서는 이러한 문제를 해결하기 위해 다중 작업 에이전트형 RL의 처리량을 극대화하도록 설계된 분산 시스템 ROLLART를 제시한다. ROLLART는 (1) 하드웨어 친화적 워크로드 매핑: 연산 집약 작업과 대역폭 제한 작업을 각각 최적의 GPU에 할당, (2) 미세 입자 수준 비동기성: 궤적 단위로 실행을 관리해 자원 공백을 최소화, (3) 상태 인식 연산: 보상 모델과 같은 무상태 컴포넌트를 서버리스 인프라에 오프로드해 탄력적으로 확장한다는 세 가지 핵심 원칙에 기반한다. 실험 결과, ROLLART는 단일형 및 동기식 베이스라인에 비해 학습 처리량을 크게 향상시키고 최종 학습 시간을 1.35‑2.05배 단축한다. 또한 알리바바 클러스터(3,000여 GPU)에서 수백억 파라미터 규모의 MoE 모델을 학습시켜 ROLLART의 확장성과 견고함을 입증하였다. 코드는 https://github.com/alibaba/ROLL 에서 공개한다.
상세 요약
본 논문은 최근 LLM을 활용한 에이전트형 강화학습(Agentic RL) 분야에서 발생하는 시스템적 병목을 체계적으로 분석하고, 이를 해결하기 위한 새로운 분산 시스템 설계를 제시한다. 에이전트형 RL은 전통적인 언어 모델 사후학습과 달리, 사전 채우기(pre‑fill) 단계에서 대규모 토큰 시퀀스를 한 번에 처리해야 하는 고연산 부하와, 디코딩 단계에서 토큰을 순차적으로 생성하면서 네트워크 대역폭에 크게 의존하는 특성을 동시에 갖는다. 더불어 환경 시뮬레이션은 상태를 유지하고 복잡한 로직을 수행하는 CPU 중심 작업으로, GPU와는 전혀 다른 자원 요구사항을 가진다. 이러한 이질적인 워크로드를 동일한 클러스터에 그대로 배치하면 GPU는 디코딩 단계에서 대역폭 제한에 시달리고, CPU는 환경 시뮬레이션에서 과부하가 걸리는 등 자원 활용 효율이 급격히 떨어진다.
저자들은 이러한 문제를 “분산 인프라의 비효율적 결합”이라고 정의하고, 해결책으로 세 가지 설계 원칙을 도출한다. 첫 번째는 하드웨어‑친화적 워크로드 매핑이다. 연산 집약적인 사전 채우기와 MoE 라우팅은 메모리 대역폭과 연산량이 높은 최신 GPU에 할당하고, 디코딩처럼 대역폭이 병목이 되는 작업은 메모리 대역폭이 넓고 네트워크 연결이 최적화된 GPU에 매핑한다. 두 번째는 미세 입자 수준 비동기성으로, 전체 배치가 아니라 개별 궤적(trajectory) 단위로 스케줄링하여 GPU와 CPU 사이에 발생하는 대기 시간을 최소화한다. 이는 기존의 동기식 파이프라인에서 흔히 나타나는 “자원 버블”을 효과적으로 해소한다. 세 번째는 상태 인식 연산이다. 보상 모델이나 가치 평가와 같이 입력에 따라 변하지 않는 무상태 컴포넌트를 서버리스 함수(예: FaaS)로 오프로드함으로써 필요 시 자동으로 스케일업/다운이 가능하도록 설계했다. 이는 특히 대규모 MoE 모델에서 보상 모델이 차지하는 연산 비중을 크게 낮추어 전체 시스템의 탄력성을 높인다.
시스템 구현은 알리바바 내부 클러스터에서 3,000여 GPU를 활용해 검증되었다. 실험에서는 기존의 단일‑GPU‑집중형 설계와, 모든 단계가 동기화된 전통적 파이프라인에 비해 학습 처리량이 35 %에서 105 %까지 향상되었으며, 최종 학습 시간도 1.35배에서 2.05배까지 단축되었다. 특히 수백억 파라미터 규모의 MoE 모델을 학습할 때도 안정적인 스케일링을 보여, ROLLART가 대규모 에이전트형 RL 워크로드에 적합함을 입증한다.
이 논문의 의의는 단순히 하드웨어 자원을 늘리는 것이 아니라, 워크로드 특성에 맞는 분산 인프라 설계가 필요함을 실증적으로 보여준 점이다. 다만 현재 구현은 알리바바 내부 네트워크와 스케줄러에 최적화돼 있어, 다른 클라우드 환경으로 이식할 경우 추가적인 튜닝이 필요할 것으로 보인다. 또한 서버리스 오프로드가 네트워크 지연에 민감할 수 있어, 초저지연 요구가 있는 실시간 에이전트 시나리오에서는 추가적인 최적화가 요구된다. 전반적으로 ROLLART는 에이전트형 RL의 시스템 효율성을 크게 향상시킬 수 있는 실용적인 프레임워크이며, 향후 다양한 도메인에 적용될 가능성이 크다.
📜 논문 원문 (영문)
🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...