다중턴 워크플로우 최적화를 위한 그룹 서브시퀀스 정책 학습
초록
본 논문은 정적 코드 생성 방식에서 벗어나, LLM 기반 에이전트가 자연어로 생각·행동·관찰을 반복하며 워크플로우를 구축하도록 설계한 Workflow‑R1 프레임워크와, 그 과정에서 최적화 단위를 ‘Think‑Action’ 서브시퀀스로 정의하고 정책 업데이트를 수행하는 Group Sub‑sequence Policy Optimization(GSsPO) 알고리즘을 제안한다. 실험 결과, 여러 QA 벤치마크에서 기존 정적 및 토큰‑/시퀀스‑레벨 RL 방법들을 크게 앞선 성능을 보이며, 다중턴 추론에 특화된 구조‑인식 강화 학습이 유효함을 입증한다.
상세 분석
Workflow‑R1은 기존 워크플로우 자동화 연구가 갖는 “Static Execution Trap”을 근본적으로 해소한다. 기존 방법들은 전체 실행 그래프를 사전에 코드 형태로 한 번에 생성하고, 실행 결과를 반영하지 못하는 개방형(open‑loop) 구조였다. 반면, Workflow‑R1은 에이전트가
핵심 기여는 최적화 granularity를 토큰 수준(GRPO)이나 전체 시퀀스 수준(GSPO)에서 “Think‑Action” 서브시퀀스로 이동시킨 GSsPO이다. 서브시퀀스는 하나의 턴에 해당하는 연속된 토큰 블록으로, 의미적으로 완전한 의사결정 단위이며, 정책 업데이트가 이 경계에 맞춰 수행된다. 구체적으로, 각 서브시퀀스 s에 대해 토큰 확률 비율의 기하 평균을 중요도 샘플링 비율 r_s(θ)로 정의하고, 그룹 내 정규화된 보상 b_A_s를 동일하게 적용한다. 손실 함수는 모든 서브시퀀스에 대해 평균을 취해 “길이 편향”을 제거하고, 서브시퀀스 수 |S_i| 로 정규화함으로써 길이가 긴 서브시퀀스가 과도하게 학습에 영향을 미치는 것을 방지한다. 이는 토큰‑레벨 최적화가 의미적 일관성을 깨뜨릴 위험과, 시퀀스‑레벨 최적화가 세부 결정 단계를 구분하지 못하는 문제 사이의 균형을 맞춘다.
또한, 논문은 보상 설계에서도 두 축을 강조한다. 첫째, 형식 보상(R_Format)은
실험에서는 Qwen2.5‑32B‑Instruct와 DeepSeek‑V3.2 두 가지 LLM을 백본으로 사용해 NQ, TriviaQA, PopQA, HpQA, Wiki, Musique, Bamb 등 7개의 QA 데이터셋에서 기존 SOTA인 AFlow, MaAS, SC‑MedPrompt 등과 비교하였다. 모든 벤치마크에서 Workflow‑R1이 평균 3~5%p 이상의 절대 성능 향상을 기록했으며, 특히 복합적인 다단계 추론이 요구되는 PopQA와 Musique에서 가장 큰 격차를 보였다. 이는 GSsPO가 서브시퀀스 단위의 미세 조정을 통해 “Think‑Action” 사이의 인과관계를 효과적으로 학습함을 의미한다.
한계점으로는 서브시퀀스 파싱 규칙이 현재
댓글 및 학술 토론
Loading comments...
의견 남기기