에이전트 RL 롤아웃을 위한 분산 오케스트레이션 시스템 Heddle

Heddle은 에이전트 강화학습(RL)에서 발생하는 길게 늘어지는 트래젝터리(길이 편향) 문제를 해결하기 위해 설계된 분산 시스템이다. 트래젝터리‑중심 스케줄링, 트래젝터리‑인식 배치, 그리고 트래젝터리‑맞춤형 자원 관리라는 세 가지 핵심 메커니즘을 통해 대기시간, 간섭 오버헤드, 토큰당 처리시간을 동시에 최소화한다. 실험 결과, 기존 프레임워크 대비 최대 2.5배 높은 롤아웃 처리량을 달성한다.

저자: Zili Zhang, Yinmin Zhong, Chengxu Yang

에이전트 RL 롤아웃을 위한 분산 오케스트레이션 시스템 Heddle
본 논문은 최근 LLM 기반 에이전트 강화학습(Agentic RL)이 복잡한 도구 연동을 통해 실제 환경에서 자율적으로 문제를 해결하는 데 중요한 역할을 하고 있음을 전제로 한다. 에이전트 RL은 “롤아웃(데이터 수집)” 단계와 “학습(정책 최적화)” 단계가 반복되는 구조이며, 특히 롤아웃 단계에서 LLM이 외부 도구를 호출하고 그 결과를 반영하며 다단계 트래젝터리를 생성한다. 이러한 트래젝터리는 토큰 수와 도구 호출 지연이 장기 꼬리(long‑tail) 분포를 보이며, 전체 배치의 makespan을 지배한다는 점이 기존 연구(예: 17, 33)와 실험을 통해 확인되었다. 논문은 먼저 롤아웃 makespan을 수식 (1) 로 정의한다. 여기서 T(i) = T_queue(i) + N_tokens(i)·T·α(i) + T_tool(i) 로, T_queue은 큐 대기시간, α는 간섭 계수, T는 토큰당 기본 처리시간, N_tokens는 토큰 수, T_tool은 도구 호출 지연이다. 토큰 수와 도구 지연은 알고리즘적으로 고정되거나 서버리스 인프라로 해결 가능하지만, T_queue, α, T는 GPU 자원 배치와 스케줄링에 따라 크게 변동한다. 기존 에이전트 RL 프레임워크는 “step‑centric” 설계로, 각 단계마다 독립적인 요청을 처리한다. 이 설계는 트래젝터리 전체 컨텍스트를 무시하고, 라운드‑로빈 방식으로 스케줄링한다. 결과적으로 긴 트래젝터리는 여러 단계에 걸쳐 재큐잉되며, 누적 대기시간이 급증한다. 또한, 배치 전략으로는 캐시 친화성(cache‑affinity)과 최소 부하(least‑load) 두 가지가 주로 사용되는데, 전자는 정적 바인딩으로 부하 불균형을 초래하고, 후자는 매 단계마다 재배치를 요구해 캐시 재계산 비용과 간섭을 악화시킨다. 마지막으로, 모든 워커에 동일한 GPU 구성을 적용하는 고정 자원 할당은 짧은 트래젝터리에는 높은 스루풋을, 긴 트래젝터리에는 높은 레이턴시를 초래한다는 트레이드오프가 존재한다. 이러한 문제점을 해결하기 위해 저자들은 “Heddle”이라는 새로운 분산 오케스트레이션 시스템을 제안한다. Heddle은 트래젝터리‑중심 설계로 전환하여, 언제(when), 어디서(where), 어떻게(how) 트래젝터리를 실행할지를 전역적으로 최적화한다. 구체적인 세 가지 핵심 메커니즘은 다음과 같다. 1. **트래젝터리‑레벨 스케줄링 (when)** - 런타임 예측 모델을 사용해 현재까지 관찰된 프롬프트와 컨텍스트를 기반으로 남은 토큰 수와 예상 실행 시간을 추정한다. - 예측 정확도는 트래젝터리가 진행될수록 향상되므로, “프로그레시브 프라이어리티” 방식을 도입한다. 즉, 초기에는 낮은 우선순위를 부여하되, 예측이 길어질수록 우선순위를 단계적으로 상승시켜 긴 트래젝터리가 빠르게 실행되도록 한다. - 이를 통해 큐잉 지연 T_queue를 최소화하고, 전체 배치의 makespan을 크게 단축한다. 2. **트래젝터리‑인식 배치 (where)** - 초기 배치 단계에서 트래젝터리를 예상 길이별로 정렬하고, 동적 프로그래밍(DP) 알고리즘을 사용해 간섭 계수 α를 최소화하는 최적 배치를 계산한다. 이때, 긴 트래젝터리는 가능한 한 독립된 워커에 배치되어 다른 짧은 트래젝터리와의 메모리·연산 경쟁을 피한다. - 실행 중에는 툴 호출이 대기 상태인 짧은 간격을 활용해 비동기적으로 트래젝터리 컨텍스트를 마이그레이션한다. 이를 “오포튜니스 마이그레이션”이라 부르며, 마이그레이션 비용을 숨기기 위해 툴 호출 대기 시간에 데이터를 전송한다. - 이러한 두 단계 접근은 초기 예측 오류를 실시간으로 보정하고, 워커 간 부하 균형을 유지하면서 간섭을 최소화한다. 3. **트래젝터리‑맞춤형 자원 관리 (how)** - 각 트래젝터리의 레이턴시·스루풋 요구에 따라 모델 병렬도(MP)를 동적으로 조정한다. 짧은 트래젝터리는 데이터 병렬(낮은 MP)로 높은 스루풋을 유지하고, 긴 트래젝터리는 모델 병렬(높은 MP)로 토큰당 처리시간을 가속한다. - 초기 배치를 위한 파라미터는 트래젝터리 길이 정렬을 기반으로 시뮬레이티드 어닐링을 적용해 빠르게 근사 최적 해를 찾는다. 이 과정은 온라인 환경에서도 저렴한 비용으로 수행된다. **구현 및 평가** Heddle은 컨트롤 플레인과 데이터 플레인으로 구성된다. 컨트롤 플레인은 전역 상태를 관리하며, 스케줄러·플레이스먼트·리소스 매니저 모듈을 포함한다. 데이터 플레인은 실제 LLM 추론과 툴 호출을 담당하는 워커들로 이루어진다. 실험에서는 코딩(코드 생성), 검색, 수학 문제 등 세 가지 도메인에서 에이전트 RL 워크로드를 구축하고, 기존 SGLang·VerL 기반 프레임워크와 비교하였다. 주요 결과는 다음과 같다. - 전체 롤아웃 처리량이 평균 1.9배, 최고 2.5배 향상. - 긴 트래젝터리의 평균 완료 시간이 40% 이상 감소. - GPU 활용률이 30% 이상 개선되어 비용 효율성 증대. - 큐잉 지연과 간섭 계수가 각각 45%·35% 정도 감소. **의의와 한계** Heddle은 트래젝터리‑중심 설계와 세 가지 최적화 메커니즘을 결합함으로써, 에이전트 RL 시스템에서 가장 큰 병목인 길이 편향 트래젝터리 문제를 근본적으로 완화한다. 이는 대규모 LLM 기반 에이전트가 실시간으로 복잡한 도구와 상호작용해야 하는 실제 서비스 환경에서 확장성을 크게 높인다. 다만, 현재 구현은 주로 GPU 기반 클러스터에 초점을 맞추었으며, CPU‑전용 혹은 혼합 하드웨어 환경에 대한 적용 가능성은 추가 연구가 필요하다. 또한, 런타임 예측 모델의 정확도가 낮은 초기 단계에서 발생할 수 있는 오버프라이팅 위험을 완전히 제거하지는 못한다는 점도 향후 개선 과제로 남는다. 결론적으로, Heddle은 에이전트 RL 롤아웃의 장기 꼬리 현상을 효과적으로 억제하고, 시스템 전반의 처리량과 레이턴시를 동시에 개선하는 실용적인 분산 오케스트레이션 솔루션으로 평가된다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기