에이전트 평가의 불확실성 측정 ICC로 일관성 정량화

초록

대형 언어 모델을 에이전트 시스템에 통합하면서 평가의 신뢰성이 핵심이 된다. 기존에 단일 정확도만 보고하는 방식은 결과 뒤에 숨은 변동성을 가린다. 저자는 측정 과학에서 차용한 Intraclass Correlation Coefficient(ICC)를 도입해, 질문 간 난이도(between‑query)와 동일 질문 내 모델 변동성(within‑query)을 분리한다. GAIA와 FRAMES 벤치마크에 적용한 결과, 작업 유형에 따라 ICC가 0.30‑0.77 사이로 크게 달라짐을 확인했으며, 안정적인 개선을 판단하려면 정확도와 함께 ICC 상승을 확인해야 한다고 제안한다. 또한 ICC는 구조화된 과제에서는 8‑16회, 복잡 추론 과제에서는 32회 이상 시도하면 수렴한다는 실증적 가이드라인을 제공한다.

상세 요약

이 논문은 에이전트형 LLM이 실제 시스템에 배치될 때 발생하는 “측정 불확실성”을 정량화하려는 시도로, 기존 평가 패러다임의 근본적인 한계를 짚는다. 현재 대부분의 벤치마크는 단일 실행에서 얻은 정확도 혹은 F1 점수만을 보고한다. 그러나 에이전트는 프롬프트, 온도, 샘플링 전략 등 여러 stochastic 요소에 민감해, 동일 질의에 대해 매번 다른 출력을 생성한다. 이러한 변동성을 무시하면, 우연히 높은 점수를 얻은 모델이 실제로는 불안정한 경우에도 “진보”로 오인될 위험이 있다.

저자는 측정 과학에서 널리 쓰이는 Intraclass Correlation Coefficient(ICC)를 차용한다. ICC는 전체 변동을 두 부분으로 분해한다. 첫 번째는 질문 간 차이, 즉 과제 자체의 난이도나 복잡도에 기인하는 between‑query variance; 두 번째는 동일 질문에 대해 여러 번 실행했을 때 나타나는 within‑query variance, 즉 모델의 내재적 불확실성이다. ICC 값이 1에 가까울수록 관측된 변동이 대부분 질문 간 차이에 기인하고, 모델 자체는 일관되게 작동한다는 의미다. 반대로 0에 가깝다면 같은 질문에 대해 결과가 크게 흔들려, 측정 자체가 신뢰할 수 없다는 경고가 된다.

실험에서는 두 가지 벤치마크를 선택했다. GAIA는 에이전트 능력을 레벨 1‑3으로 구분해 추론 복잡도와 행동 계획을 평가하고, FRAMES는 다중 문서 검색·사실성 검증 과제로, 각각의 특성이 ICC에 미치는 영향을 비교한다. 다양한 모델(예: GPT‑3.5, Claude‑2, Llama‑2 등)을 8‑64회 반복 실행해 정확도와 ICC를 동시에 측정했다. 결과는 흥미롭다. FRAMES의 경우 대부분 모델이 0.50‑0.71 사이의 ICC를 보였으며, 이는 질문 난이도와 모델 변동이 비교적 균형을 이룬다는 뜻이다. 반면 GAIA에서는 모델에 따라 ICC가 0.30에서 0.77까지 크게 차이났는데, 특히 고난이도 레벨 3에서는 변동성이 크게 증가했다. 이는 복잡 추론 단계에서 모델의 stochastic 특성이 두드러진다는 실증적 증거다.

또한 저자는 ICC 수렴성을 분석했다. 구조화된 과제(예: 정답이 명확히 정의된 선택형 질문)에서는 8‑16번의 재시도만으로 ICC가 안정적인 값에 수렴했으며, 복잡 추론 과제에서는 최소 32번 이상의 반복이 필요했다. 이 발견은 실무자가 평가 비용과 신뢰성 사이에서 최적의 샘플링 규모를 결정하는 근거를 제공한다.

마지막으로 평가 카드(Evaluation Card) 형식을 제안한다. 기존 카드에 ‘Accuracy’, ‘Within‑query variance’, ‘ICC’를 추가해, 논문·보고서에서 결과를 투명하게 제시하도록 독려한다. 이는 벤치마크 리더보드가 단순 순위 경쟁을 넘어, 과학적 재현 가능성을 갖춘 평가 체계로 전환되는 발판이 된다.

요약하면, 이 연구는 에이전트형 LLM 평가에 반드시 포함돼야 할 ‘안정성 지표’를 제시하고, ICC를 통해 측정 불확실성을 정량화함으로써, “높은 정확도 = 좋은 모델”이라는 단순 논리를 넘어선 보다 엄밀한 과학적 접근을 제시한다.

초록

상세 요약

📜 논문 원문 (영문)