인간 같은 대화 사용자 프록시 평가를 위한 MirrorBench 벤치마크
초록
MirrorBench는 대화형 시스템에서 사용자 역할을 수행하는 LLM 기반 프록시의 인간 유사성을 평가하기 위한 재현 가능하고 확장 가능한 벤치마크 프레임워크이다. 어휘 다양성 지표(MA‑TTR, Yule’s K, HD‑D)와 LLM‑judge 기반 행동 현실성 지표(GTEval, Pairwise Indistinguishability, Rubric‑and‑Reason)를 결합하고, Human‑Human 및 Proxy‑Proxy 캘리브레이션을 통해 점수의 절대값을 정규화한다. 네 개의 공개 데이터셋(QULAC, ClariQ, OASST1, ChatbotArena)에서 실험한 결과, 현재 강력한 LLM도 실제 사용자와는 일정한 격차를 보이며, 어휘 다양성과 행동 현실성 사이에 트레이드오프가 존재함을 확인한다.
상세 분석
MirrorBench는 사용자 프록시 에이전트를 “인간‑유사성”이라는 두 축으로 정량화한다. 첫 번째 축은 어휘 다양성으로, MA‑TTR은 고정 길이 윈도우 내에서 타입‑토큰 비율을 평균화해 길이 편향을 완화한다. Yule’s K는 토큰 빈도 스펙트럼을 기반으로 반복성을 요약하며, HD‑D는 하이퍼지오메트릭 분포를 이용해 어휘 집합의 다양성을 확률적으로 측정한다. 이 세 지표는 모두 인간 대화 코퍼스에서 얻은 분포와 z‑스코어 형태로 정규화돼, 프록시가 인간 수준에 얼마나 근접했는지를 직관적으로 보여준다. 두 번째 축은 행동 현실성으로, LLM‑judge 기반 메트릭을 활용한다. GTEval은 사전 정의된 평가 기준(자연스러움, 톤, 적절성 등)을 LLM에게 직접 물어 점수를 산출하고, Pairwise Indistinguishability는 인간과 프록시 발화를 쌍으로 제시해 어느 쪽이 인간인지 구분하기 어려운 정도를 확률적으로 측정한다. Rubric‑and‑Reason는 평가 기준을 루브릭 형태로 제시하고, LLM이 이유를 함께 제공하도록 함으로써 평가의 투명성을 높인다. 중요한 점은 이들 LLM‑judge가 Human‑Human(HH)와 Proxy‑Proxy(PP) 대조군을 통해 캘리브레이션된다는 것이다. HH는 실제 인간 대화 쌍을, PP는 동일 프록시 간의 대화를 사용해 기준점과 변동성을 추정한다. 이를 통해 절대 점수의 해석이 데이터셋마다 다를 수 있음을 보정한다. 실험 설계는 네 개의 데이터셋을 각각 200개(최대) 샘플로 층화 추출해 균형을 맞추었으며, 각 대화에 대해 목표(goal)를 자동 생성해 프록시에게 조건부 입력으로 제공한다. 프록시와 어시스턴트 LLM을 롤아웃하여 합성 대화를 만든 뒤, 사용자 발화만을 대상으로 위 메트릭을 적용한다. 결과는 모델별, 데이터셋별로 인간‑프록시 격차를 variance‑aware하게 제시하고, 어휘 다양성 점수와 행동 현실성 점수 사이에 종종 반비례 관계가 있음을 보여준다. 예를 들어, ClariQ와 같은 명확화 중심 데이터에서는 높은 GTEval 점수를 얻은 프록시가 여전히 MA‑TTR·Yule’s K·HD‑D에서 인간보다 낮은 점수를 기록한다. 이는 프록시가 “자연스러운” 발화를 만들지만, 실제 인간이 사용하는 어휘 폭과 반복 패턴을 충분히 모방하지 못한다는 의미다. 또한, 판사 선택에 따라 절대 점수와 순위가 변동될 수 있음을 확인했으며, 이는 다중 판사 보고와 캘리브레이션이 필수임을 시사한다. 전반적으로 MirrorBench는 사용자 프록시의 인간‑유사성을 체계적으로 측정하고, 어휘·행동 두 차원을 동시에 고려함으로써 기존의 단일 지표 기반 평가의 한계를 극복한다.
댓글 및 학술 토론
Loading comments...
의견 남기기