다중턴 워크플로우 최적화를 위한 그룹 서브시퀀스 정책 학습

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 정적 코드 생성 방식에서 벗어나, LLM 기반 에이전트가 자연어로 생각·행동·관찰을 반복하며 워크플로우를 구축하도록 설계한 Workflow‑R1 프레임워크와, 그 과정에서 최적화 단위를 ‘Think‑Action’ 서브시퀀스로 정의하고 정책 업데이트를 수행하는 Group Sub‑sequence Policy Optimization(GSsPO) 알고리즘을 제안한다. 실험 결과, 여러 QA 벤치마크에서 기존 정적 및 토큰‑/시퀀스‑레벨 RL 방법들을 크게 앞선 성능을 보이며, 다중턴 추론에 특화된 구조‑인식 강화 학습이 유효함을 입증한다.

상세 분석

Workflow‑R1은 기존 워크플로우 자동화 연구가 갖는 “Static Execution Trap”을 근본적으로 해소한다. 기존 방법들은 전체 실행 그래프를 사전에 코드 형태로 한 번에 생성하고, 실행 결과를 반영하지 못하는 개방형(open‑loop) 구조였다. 반면, Workflow‑R1은 에이전트가 , , , 와 같은 자연어 태그를 이용해 매 턴마다 사고(Think)와 행동(Action)을 명시하고, 실행 엔진으로부터 반환된 를 관찰(observe)하여 다음 사고를 유도한다. 이 폐쇄형(closed‑loop) 설계는 에이전트가 실시간 피드백을 활용해 워크플로우 토폴로지를 동적으로 수정할 수 있게 한다.

핵심 기여는 최적화 granularity를 토큰 수준(GRPO)이나 전체 시퀀스 수준(GSPO)에서 “Think‑Action” 서브시퀀스로 이동시킨 GSsPO이다. 서브시퀀스는 하나의 턴에 해당하는 연속된 토큰 블록으로, 의미적으로 완전한 의사결정 단위이며, 정책 업데이트가 이 경계에 맞춰 수행된다. 구체적으로, 각 서브시퀀스 s에 대해 토큰 확률 비율의 기하 평균을 중요도 샘플링 비율 r_s(θ)로 정의하고, 그룹 내 정규화된 보상 b_A_s를 동일하게 적용한다. 손실 함수는 모든 서브시퀀스에 대해 평균을 취해 “길이 편향”을 제거하고, 서브시퀀스 수 |S_i| 로 정규화함으로써 길이가 긴 서브시퀀스가 과도하게 학습에 영향을 미치는 것을 방지한다. 이는 토큰‑레벨 최적화가 의미적 일관성을 깨뜨릴 위험과, 시퀀스‑레벨 최적화가 세부 결정 단계를 구분하지 못하는 문제 사이의 균형을 맞춘다.

또한, 논문은 보상 설계에서도 두 축을 강조한다. 첫째, 형식 보상(R_Format)은 , , , 태그 순서와 존재 여부를 검사해 0~‑1 사이의 페널티를 부여, 모델이 인터페이스 규약을 엄격히 따르도록 강제한다. 둘째, 결과 보상(R_Outcome)은 정답과의 Exact Match(EM) 점수를 사용해 최종 답변의 정확성을 직접 평가한다. 두 보상을 합산함으로써 구조적 타당성과 최종 성능을 동시에 최적화한다.

실험에서는 Qwen2.5‑32B‑Instruct와 DeepSeek‑V3.2 두 가지 LLM을 백본으로 사용해 NQ, TriviaQA, PopQA, HpQA, Wiki, Musique, Bamb 등 7개의 QA 데이터셋에서 기존 SOTA인 AFlow, MaAS, SC‑MedPrompt 등과 비교하였다. 모든 벤치마크에서 Workflow‑R1이 평균 3~5%p 이상의 절대 성능 향상을 기록했으며, 특히 복합적인 다단계 추론이 요구되는 PopQA와 Musique에서 가장 큰 격차를 보였다. 이는 GSsPO가 서브시퀀스 단위의 미세 조정을 통해 “Think‑Action” 사이의 인과관계를 효과적으로 학습함을 의미한다.

한계점으로는 서브시퀀스 파싱 규칙이 현재 ‑ 쌍에 고정돼 있어, 보다 복잡한 멀티툴 연쇄나 비선형 흐름을 다루기 위해서는 파싱 로직과 보상 함수의 확장이 필요하다. 또한, 현재 실험은 주로 QA 도메인에 국한돼 있어, 코드 생성, 데이터 파이프라인 구성 등 다른 워크플로우 유형에 대한 일반화 검증이 추가로 요구된다. 마지막으로, RL 기반 학습 비용이 여전히 높으며, 샘플 효율성을 개선하기 위한 온‑폴리시 학습이나 인간 피드백 통합 방안이 향후 연구 과제로 남는다.

다중턴 워크플로우 최적화를 위한 그룹 서브시퀀스 정책 학습

초록

상세 분석

댓글 및 학술 토론

의견 남기기