에이전트 대화 위험 추정 트레이서
초록
TRACER는 다중 턴 도구 사용 대화에서 에이전트의 불확실성을 평가하기 위해 설계된 궤적 수준 위험 지표이다. 내용 중심의 서프라이즈, 반복·일관성 결함, 도구-관찰 불일치 등을 단계별로 측정하고, 최악 구간을 강조하는 tail‑risk 집계로 결합한다. τ²‑Bench에서 실패 예측과 선택적 실행에 적용했을 때 기존 토큰‑레벨 불확실성 지표 대비 AUROC를 최대 37.1%, AUARC를 최대 55% 향상시켰다.
상세 분석
TRACER는 기존의 토큰‑레벨 불확실성 추정 방식이 다중 턴, 도구‑사용 에이전트 대화에서 나타나는 희소하지만 결정적인 오류를 포착하지 못한다는 문제점을 정확히 짚어낸다. 논문은 먼저 내용‑중심 정규화 서프라이즈를 도입해, 의미를 담은 토큰에만 초점을 맞춤으로써 구조적·기능적 토큰이 불필요하게 평균을 낮추는 현상을 방지한다. 여기서 사용된 필터링 기준(불용어, 숫자, 고확률 토큰)은 실제 대화에서 정보량이 높은 단어를 선택하도록 설계돼, 에피스테믹(지식 기반) 불확실성을 보다 정확히 추정한다.
다음으로 상황 인식 지표를 세 가지로 정의한다. 첫째, 하이브리드 로컬 반복 지표는 의미적 유사도와 어휘적 겹침을 곱해, 단순한 의미 일치와는 구별되는 진짜 루프(동일한 명령을 반복) 상황을 탐지한다. 둘째, 에이전트‑관찰 일관성 격차는 도구 호출 결과와 에이전트의 다음 발화 사이의 의미적 거리로 측정해, 도구 출력이 잘못 해석되거나 무시되는 경우를 포착한다. 셋째, 사용자‑에이전트 협조 격차는 사용자의 직전 발화와 에이전트의 응답 사이의 의미 차이를 계산해, 대화 흐름이 어긋나는 상황을 감지한다. 이러한 지표들은 모두 단계별로 0~2 사이의 값으로 정규화돼, 이후 MAX‑Composite 위험 점수에서 가장 큰 값이 선택된다. 이는 하나의 위험 신호가 다른 낮은 신호에 의해 희석되지 않도록 하는 설계이다.
TRACER의 핵심 집계는 tail‑focused 위험 함수이다. 전체 단계 위험값을 내림차순 정렬한 뒤 상위 k% 구간의 평균(Tail‑Mean, CVaR)과 전체 최대값을 가중 평균해 최종 점수를 산출한다. 이 방식은 지속적인 불확실성(만성 위험)과 급격한 붕괴(급성 위험)를 동시에 반영한다. 논문은 이 집계가 코히어런트 위험 측정으로, 단조성, 양의 동질성, 서브어디티티 등을 만족함을 증명하고, ℓ∞‑노름에 대해 1‑Lipschitz 연속성을 갖는다고 제시한다.
이론적 분석에서는 단계 위험 r_t이 실제 실패 위험 C_t을 상한한다는 가정 하에, 희소 위험 모델(sparse‑hazard)에서 TRACER 점수가 실패 확률의 상한을 제공한다는 불확실성‑위험 연계식을 도출한다. 특히, 위험‑지배‑위험 가정(risk‑dominates‑hazard)과 tail‑sparsity 가정이 만족될 때, TRACER 점수의 기대값이 직접적으로 실패 확률을 제한한다는 결과는, 실제 시스템에서 위험 점수를 임계값으로 사용해 안전하게 중단하거나 인간에게 전달할 수 있는 근거를 제공한다.
실험에서는 τ²‑Bench이라는 복합 도구‑사용 대화 벤치마크를 활용해, 에이전트가 도구를 호출하고 사용자와 협업하는 시나리오에서 TRACER가 기존 토큰‑레벨 엔트로피, 샘플링 분산, 자기‑일관성 등과 비교해 AUROC와 AUARC 모두 크게 개선됨을 보였다. 특히, 조기 경고(early warning) 능력이 강화돼, 실패가 발생하기 전 몇 턴 앞서 위험을 감지할 수 있었다. 코드와 데이터셋을 공개함으로써 재현 가능성을 높였으며, 다양한 파라미터(α,β,γ,k,w)의 민감도 분석도 제공한다.
요약하면, TRACER는 (1) 내용‑중심 서프라이즈로 토큰‑레벨 불확실성을 정교화하고, (2) 반복·일관성·협조 결함을 정량화하는 상황 인식 지표를 도입하며, (3) 최악 구간을 강조하는 tail‑risk 집계로 전체 궤적 위험을 평가한다. 이 세 축을 결합함으로써, 다중 턴 도구‑사용 대화에서 드물지만 치명적인 오류를 조기에 포착하고, 시스템의 안전성을 크게 향상시킬 수 있음을 입증한다.
댓글 및 학술 토론
Loading comments...
의견 남기기