입력 오류 상황에서 LLM 에이전트의 협업 붕괴 진단 다중 턴 상호작용 기반 DriftBench

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

DriftBench은 사용자 입력의 의도, 전제, 파라미터, 표현 오류 등 네 가지 협업 붕괴 유형을 체계화하고, 다중 턴 명확화 과정을 통해 에이전트가 실제 파일·API·웹 환경에서 수행하는 작업의 성공률과 안전성을 평가한다. 정형화된 페르소나 기반 사용자 시뮬레이터와 RISE 평가 프로토콜을 도입해, 오류가 있는 지시가 에이전트의 실행 위험으로 이어지는지를 정량화한다. 실험 결과 최신 모델조차 입력 오류 시 40% 수준의 성능 급락을 보이며, 투명한 백박스와 불투명한 블랙박스 환경에서 명확화 전략의 효과가 상이함을 밝혀냈다.

상세 분석

DriftBench은 LLM 기반 에이전트가 실제 시스템(파일, 데이터베이스, 외부 API 등)과 상호작용하는 상황을 전제로 설계되었다. 기존 벤치마크가 “Oracle Assumption”(사용자 지시가 항상 명확하고 완전함)을 전제로 하는 반면, 본 연구는 의도 누락, 전제 오류, 파라미터 부족, 표현 모호성이라는 네 가지 입력 결함을 체계적으로 삽입한다. 이 네 가지는 고전적 의사소통 이론—Grice의 협력 원칙, Austin의 발화 행위 이론, Watzlawick의 상호작용 공리—에 기반해 정의되었으며, 각각 대화의 관련성, 진실성, 충분성, 명료성 맥락을 위반한다는 점에서 에이전트가 명확화를 요구해야 하는 근거를 제공한다.

데이터 구성 단계에서는 두 종류의 실행 환경을 사용한다. 첫 번째는 상태 지향 환경(예: 로컬 OS, 데이터베이스)으로, 에이전트가 내부 상태를 직접 조회하고 수정할 수 있는 ‘화이트박스’ 형태다. 두 번째는 서비스 지향 환경(예: 외부 REST API)으로, 에이전트가 내부 로직을 알 수 없는 ‘블랙박스’ 상황을 재현한다. 이러한 이중 환경은 에이전트의 내부 추론 능력과 외부 인식 능력을 동시에 평가한다는 점에서 의미가 크다.

입력 결함 생성 파이프라인은 (1) 의미 프레임 추출, (2) 결함 유형별 교란 전략 생성, (3) 교란 삽입의 세 단계로 이루어진다. 의미 프레임은 행동 유형, 필요 파라미터, 기대 출력 등을 구조화해 LLM이 자동으로 조작할 수 있게 만든다. 결함 삽입은 의도 전환, 전제 왜곡, 파라미터 누락·오염, 표현 다의성·모호성 등을 무작위가 아닌 통제된 방식으로 적용한다. 이 과정에서 원본 과제의 풀이 가능성을 검증하기 위해 세 개의 중간 규모 모델이 ‘오라클’ 모드에서 성공해야만 데이터셋에 포함한다는 엄격한 필터링을 거친다.

에이전트 측면에서는 기존의 ‘명령-실행’ 루프에 다섯 가지 명확화 도구(Ask Parameter, Disambiguate, Propose Solution, Confirm Risk, Report Blocker)를 추가한다. 이는 에이전트가 불확실한 입력을 감지했을 때 구조화된 클라리피케이션 요청을 생성하고, 시뮬레이터가 해당 요청에 페르소나별 응답을 반환하도록 설계되었다. 페르소나는 Rational, Intuitive, Dependent, Avoidant, Spontaneous 등 인간 의사결정 스타일을 모델링한 것으로, 동일한 결함에 대해 다양한 대화 흐름을 유발한다.

평가 프로토콜인 RISE는 (R)esult(성공 여부), (I)nteraction(대화 라운드 수), (S)atisfaction(사용자 만족도 추정), (E)fficiency(클라리피케이션 비용) 네 가지 지표를 동시에 측정한다. 실험에서는 GPT‑4, Claude‑2, Llama‑2‑70B 등 최신 모델을 대상으로 결함 유형별 성능 저하를 정량화했으며, 특히 블랙박스 환경에서는 다중 턴 명확화가 오히려 컨텍스트 과부하를 일으켜 성능이 감소하는 ‘명확화 역설’이 관찰되었다. 또한 70% 이상의 경우 에이전트가 위험한 행동을 사전 확인 없이 진행하는 ‘실행 편향’이 드러났으며, 이는 안전성 관점에서 심각한 위험 요소로 지적된다.

이러한 결과는 LLM 에이전트가 실제 서비스에 배치될 때, 입력 오류에 대한 사전 진단과 다중 턴 명확화 메커니즘이 필수적임을 시사한다. DriftBench은 이와 같은 협업 붕괴를 체계적으로 재현·측정함으로써, 향후 에이전트 설계 시 명확화 정책, 페르소나 맞춤형 대화 전략, 그리고 실행 전 위험 검증 절차를 통합하는 연구 로드맵을 제공한다.

입력 오류 상황에서 LLM 에이전트의 협업 붕괴 진단 다중 턴 상호작용 기반 DriftBench

초록

상세 분석

댓글 및 학술 토론

의견 남기기