완료와 협업은 다르다 협업 노력 확장을 위한 에이전트 설계

본 논문은 기존 에이전트 평가가 일회성 작업 완수에만 초점을 맞추는 한계를 지적하고, 인간과의 반복적·협업적 상호작용을 중심으로 한 “협업 노력 확장” 프레임워크를 제안한다. 에이전트의 가치는 최종 결과물뿐 아니라 사용자의 참여도와 이해도 향상에 얼마나 기여하느냐로 측정되며, 실험을 통해 현존 최첨단 모델이 다중 턴 상황에서 기대 이하의 성능을 보임을 확인

완료와 협업은 다르다 협업 노력 확장을 위한 에이전트 설계

초록

본 논문은 기존 에이전트 평가가 일회성 작업 완수에만 초점을 맞추는 한계를 지적하고, 인간과의 반복적·협업적 상호작용을 중심으로 한 “협업 노력 확장” 프레임워크를 제안한다. 에이전트의 가치는 최종 결과물뿐 아니라 사용자의 참여도와 이해도 향상에 얼마나 기여하느냐로 측정되며, 실험을 통해 현존 최첨단 모델이 다중 턴 상황에서 기대 이하의 성능을 보임을 확인한다. 이를 통해 지속적인 참여 유도와 사용자 스캐폴딩 능력이 에이전트 설계의 핵심 요소임을 강조한다.

상세 요약

논문은 먼저 현재 AI 에이전트 평가 패러다임을 비판한다. 대부분의 벤치마크가 단일 입력‑출력 쌍, 즉 “한 번에 문제를 해결하고 끝”이라는 가정을 전제로 설계돼 있다. 그러나 실제 업무 환경에서는 목표가 불명확하거나 진행 중에 변동이 생기며, 인간 사용자는 부분적인 피드백을 제공하고 새로운 정보를 지속적으로 추가한다. 이러한 상황을 “협업적 문제 해결”이라고 정의하고, 에이전트가 단순히 정답을 제시하는 수준을 넘어 사용자의 인지 부하를 낮추고, 이해를 촉진하며, 작업 흐름을 원활히 이어가는 역할을 해야 한다고 주장한다.

핵심 제안인 “협업 노력 확장(Collaborative Effort Scaling, CES)”은 에이전트의 효용 U를 사용자 참여도 E의 함수 U(E)로 모델링한다. 여기서 E는 대화 턴 수, 사용자가 제공한 추가 정보량, 사용자의 만족도 등 다차원 지표로 정의된다. CES는 두 가지 주요 형태를 제시한다. 첫째, 선형 혹은 포화형 성장 모델로, 일정 수준 이상의 참여가 있을 때 효용이 급격히 상승하거나 한계에 도달한다는 가정이다. 둘째, “스캐폴딩 계수” S를 도입해, 에이전트가 사용자의 이해를 돕는 정도에 따라 효용이 가중된다는 점이다. 수학적으로는 U(E)=α·E·S (α는 기본 효율)와 같이 표현된다.

실험에서는 최신 대형 언어 모델(LLM)들을 다중 턴 시나리오에 투입해 CES 지표를 측정했다. 결과는 대부분의 모델이 초기 몇 턴에서는 인간과 비슷한 성과를 보였지만, 대화가 진행될수록 사용자 질문에 대한 맥락 유지와 적절한 피드백 제공이 급격히 저하되는 것을 확인했다. 특히, 사용자가 새로운 제약조건을 제시하거나 목표를 재정의할 때 모델은 이전 정보를 재통합하지 못하고, 오히려 혼란을 야기하는 경향이 있었다. 이는 현재 모델이 “문제 완수”에 최적화돼 있어 “협업 지속성”을 지원하는 메커니즘(예: 메모리 관리, 목표 재설정 정책)이 부족함을 의미한다.

논문은 이러한 한계를 극복하기 위한 설계 원칙도 제시한다. 첫째, “대화형 메모리”를 통해 이전 턴의 핵심 정보를 구조화된 형태로 저장하고, 필요 시 재활용한다. 둘째, “목표 재조정 모듈”을 도입해 사용자가 목표를 수정하면 자동으로 작업 계획을 재생성한다. 셋째, “사용자 스캐폴딩 인터페이스”를 통해 에이전트가 단계별 설명, 예시, 체크리스트 등을 제공함으로써 사용자의 인지 부하를 감소시킨다. 이러한 요소들을 통합한 시스템은 CES 곡선이 더 완만하고 높은 상한값을 보이며, 실제 사용자 평가에서도 만족도와 효율성이 크게 향상되는 것으로 보고된다.

결론적으로, 논문은 에이전트 평가와 설계에 있어 “완료 ≠ 협업”이라는 패러다임 전환을 촉구한다. 협업 노력 확장은 에이전트가 인간과 공동으로 문제를 풀어가는 과정 전체를 정량화하고, 향후 연구와 산업 적용에서 보다 실용적인 지표가 될 것으로 기대한다.


📜 논문 원문 (영문)

🚀 1TB 저장소에서 고화질 레이아웃을 불러오는 중입니다...