문서 작업 자동화를 위한 단계별 롤백 지원 오케스트레이션
초록
AutoDW는 문서 기반 업무에서 다단계, 세션 수준의 워크플로우를 자동화하기 위해 설계된 실행 프레임워크이다. 사용자 명령을 의도‑필터링한 API 후보와 문서 상태에 기반해 단계별로 행동을 계획하고, 인수 수준·API 수준의 롤백 메커니즘을 도입해 오류를 실시간으로 수정한다. 250개의 세션·1,708개의 인간 주석 명령으로 구성된 벤치마크에서 AutoDW는 지시 수준 90%, 세션 수준 62%의 완성도를 기록했으며, 기존 최강 모델 대비 각각 40%·76% 향상된 성능을 보였다.
상세 분석
AutoDW의 핵심 설계는 “단계적 계획‑실행‑롤백” 루프에 있다. 먼저 사용자의 자연어 지시를 LLM이 파싱해 작업 의도를 추출하고, 사전 정의된 API 레퍼런스 풀에서 의도와 일치하는 후보를 필터링한다. 이때 API는 문서 편집, 포맷 변환, 메타데이터 추출 등 문서 처리에 특화된 함수 집합으로 구성된다. 후보가 선정되면 현재 문서 상태(텍스트 내용, 구조, 포맷 메타데이터)를 컨텍스트로 활용해 구체적인 인수를 자동 생성한다. 중요한 점은 인수 생성 과정에서 “프롬프트‑조건부 샘플링”을 적용해 다중 후보를 탐색하고, 확률적 신뢰도 점수를 부여한다는 것이다.
실행 단계에서는 선택된 API와 인수를 실제 시스템에 전달하고, 결과를 즉시 검증한다. 검증은 두 축으로 이루어진다. 첫째, 반환값이 사전 정의된 스키마와 일치하는지 확인하고, 둘째, 사용자가 기대한 문서 변화(예: 특정 섹션이 삽입·삭제되었는지)를 비교한다. 검증에 실패하면 롤백 메커니즘이 작동한다. AutoDW는 인수 수준 롤백과 API 수준 롤백을 구분한다. 인수 수준 롤백은 잘못된 파라미터만을 재생성해 재시도하는 반면, API 수준 롤백은 전체 호출 자체를 취소하고 대체 API를 탐색한다. 이러한 이중 롤백 구조는 오류 전파를 최소화하고, 장기 세션에서 누적되는 편향을 방지한다.
학습 측면에서는 백본 LLM을 고정하고, AutoDW의 플래너와 롤백 정책을 별도 강화학습(RL) 혹은 지도학습으로 미세조정한다. 실험 결과, GPT‑3.5‑Turbo와 Claude‑2를 백본으로 사용했을 때 모두 유사한 성능 향상을 보였으며, 특히 복잡한 의존 관계가 있는 워크플로우(예: “표를 삽입하고, 그 표를 기반으로 차트를 만든 뒤, 차트를 요약에 삽입”)에서 롤백이 없는 베이스라인 대비 30% 이상 높은 성공률을 기록했다.
한계점으로는 API 레퍼런스가 사전 정의된 경우에만 효과적이며, 새로운 도메인(예: 그래픽 디자인)에서는 API 확장이 필요하다. 또한 롤백 정책이 과도하게 보수적이면 불필요한 재시도가 발생해 효율성이 떨어질 수 있다. 향후 연구에서는 메타‑학습을 통해 자동으로 API를 추출·등록하고, 비용‑효율적인 롤백 전략을 강화학습으로 최적화하는 방향을 제시한다.