협업을 위한 경험 최적화 공동진화 프레임워크 CoWork‑X
초록
CoWork‑X는 실시간 협업이 요구되는 다중 에이전트 환경에서, 에피소드 간 경험을 구조화된 HTN 스킬 라이브러리로 축적하고, 에피소드 종료 후 LLM 기반 코옵티마이저가 예산과 드리프트 제약을 고려해 스킬을 패치·통합한다. 실험 결과, Overcooked‑AI 벤치마크에서 온라인 토큰 사용을 0으로 낮추고 지연을 2.6 초 수준으로 감소시키면서 30 에피소드에 걸쳐 누적 점수를 96.3까지 끌어올렸다.
상세 분석
CoWork‑X는 두 가지 핵심 모듈, Skill‑Agent와 Co‑Optimizer로 구성된다. Skill‑Agent는 계층적 작업 네트워크(HTN)를 이용해 사전에 정의된 스킬 라이브러리 Sₖ를 빠르게 조회·실행한다. HTN 구조는 State representation, Operators, Methods 로 나뉘며, 상태는 공간 정보를 추상화해 고수준 플래닝에만 집중하고, 실제 이동·조작은 중간 레벨 컨트롤러에 위임한다. 이렇게 하면 LLM 호출을 최소화해 서브‑초 실시간 제약을 만족한다.
Co‑Optimizer는 매 에피소드 종료 시 전체 트래젝터리와 로그(실패 원인, 정체 현상, 행동 분포)를 LLM 프롬프트에 삽입해 “패치 스타일” 업데이트를 수행한다. 주요 설계 포인트는 예산 제약(온라인 토큰 상한)과 드리프트 정규화(기존 스킬의 급격한 변형 방지)이다. 업데이트는 파이썬 파일 형태의 스킬 라이브러리를 직접 수정하는 방식으로, 문법 검증과 히스토리(최고 성능 버전) 비교를 통해 부작용을 최소화한다.
이론적으로 CoWork‑X는 fast‑slow 메모리 개념을 구현한다. 빠른 메모리(HTN 스킬)는 에피소드 내 실시간 제어를 담당하고, 느린 메모리(LLM 코옵티마이저)는 에피소드 간 학습·정제 역할을 한다. 이렇게 하면 비용이 높은 LLM 추론을 비동기적으로 전환하면서도, 경험을 구조화된 형태로 축적해 재사용 가능하게 만든다.
실험 설계는 Overcooked‑AI의 실시간 협업 시나리오를 기반으로, 두 에이전트가 대칭적으로 동일한 스킬 라이브러리를 공유한다. 비교 대상은 ReAct(빈번한 인‑에피소드 추론), Reflection(에피소드 후 텍스트 피드백), DPT‑WTOM(계층적 FSM+LLM) 등이다. CoWork‑X는 10 에피소드에서 52.0점, 30 에피소드에서 96.3점으로 급격히 상승했으며, 온라인 토큰 사용은 0, 평균 지연은 2.6 초(≈27배 빠름)였다. 이는 실시간 안정성과 지속적 적응을 동시에 달성한 최초 사례라 할 수 있다.
한계점으로는 현재 HTN 스킬이 비교적 단순한 요리 작업에 최적화돼 있어, 복잡한 물리‑상호작용이나 다중 목표(예: 협동 퍼즐)에는 추가적인 연산 레이어가 필요할 수 있다. 또한 코옵티마이저가 LLM에 크게 의존하므로, 프롬프트 설계와 모델 크기에 따라 업데이트 비용이 변동한다. 향후 연구에서는 멀티모달 피드백(시각·음성)과 분산 스킬 저장소를 도입해 확장성을 높이는 방향이 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기