기업용 워크플로우 세계: 엔터프라이즈 시스템을 위한 새로운 벤치마크
초록
**
본 논문은 ServiceNow 기반의 대규모 비즈니스 규칙·워크플로우를 포함한 실험 환경 “World of Workflows”(WoW)를 제시하고, 234개의 과제로 구성된 WoW‑bench를 통해 최신 대형 언어 모델(LLM)의 에이전트 역량과 시스템 동역학 모델링 능력을 평가한다. 실험 결과, 현존 LLM은 숨겨진 워크플로우에 의해 발생하는 연쇄적 부작용을 예측하지 못하는 ‘다이나믹스 블라인드니스’를 보이며, 관측 가능성이 제한된 상황에서 신뢰성 있는 행동을 수행하려면 시스템 동역학을 명시적으로 학습해야 함을 강조한다.
**
상세 분석
**
WoW는 실제 기업에서 사용되는 ServiceNow 인스턴스를 그대로 재현한 환경으로, 4,000여 개의 비즈니스 규칙과 55개의 활성 워크플로우가 얽혀 있다. 이러한 복잡성은 데이터베이스 상태가 수천 개 테이블에 걸쳐 비가역적으로 커지는 ‘인tractable state space’를 만든다. 논문은 이를 Partially Observable Markov Decision Process(POMDP) 형태로 공식화하고, 두 가지 관측 모델(툴 응답만 제공하는 표준 관측, 테이블 감사 로그를 포함한 오라클 관측)을 비교한다. 실험 결과, 감사 로그를 제공했을 때 과제 성공률이 최대 7배 상승했지만, 실제 기업에서는 감사 로그 접근이 비용·지연·보안 측면에서 현실적이지 않다. 따라서 LLM이 ‘세계 모델’로서 시스템 동역학을 내재화해야 하는 필요성이 대두된다.
주요 실험에서는 4가지 과제 유형(자동 작업 완료, 제약 이해, 동역학 예측, 툴 선택)을 통해 최신 LLM(GPT‑4, Claude‑3, Llama‑2 등)의 성능을 평가했다. 대부분의 모델이 단순 CRUD 작업은 수행하지만, 워크플로우에 의해 발생하는 연쇄 업데이트를 예측하거나 제약을 위반하지 않는 행동을 선택하는 데 실패했다. 특히, “다이나믹스 블라인드니스”는 에이전트가 수행한 액션 뒤에 숨겨진 상태 변화를 인식하지 못해, 성공적인 작업 수행 후에도 시스템 전체에 불일치가 누적되는 현상을 초래한다.
논문은 또한 기존 엔터프라이즈 벤치마크(WorkArena++, CRMArena‑Pro 등)와 WoW‑bench를 비교표로 제시하며, 기존 벤치마크가 현실적인 워크플로우와 제약 조건을 충분히 반영하지 못함을 지적한다. WoW‑bench는 ‘세계 모델 평가’를 명시적 목표로 삼아, 에이전트가 관측되지 않은 상태 변화를 추론하고, 장기적인 목표 달성을 위해 시뮬레이션 능력을 활용하도록 설계되었다.
한계점으로는 현재 실험이 주로 API 기반 툴 호출에 국한돼 UI 기반 복합 인터랙션을 다루지 못한다는 점, 그리고 감사 로그를 제공하는 ‘오라클’ 설정이 실제 운영 환경에서 구현 가능성이 낮다는 점을 들 수 있다. 향후 연구는 (1) 제한된 관측 하에서 효율적인 상태 추론 모델 개발, (2) 워크플로우 자체를 학습 가능한 형태로 추출·표현하는 메타‑모델링, (3) 비용·보안 제약을 고려한 실시간 감사 로그 대체 메커니즘 등을 제안한다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기