언어별 LLM 평가의 불안정성: 핀노우그리크 언어에서 드러난 판정 변동
초록
본 연구는 에스토니아어, 핀란드어, 헝가리어로 동일한 파라미터로 생성한 합성 고객지원 대화를 이용해 LLM‑as‑judge 평가의 신뢰성을 검증한다. 표면적 자동 지표는 언어 간 안정성을 보였지만, 일관성·지시 따름·라벨 복구와 같은 실용적 판단은 언어마다 순위가 뒤바뀌어 측정 불안정성을 드러냈다.
상세 분석
이 논문은 “평가 불안정성”이라는 개념을 정량화하기 위해 두 단계 실험 설계를 도입했다. 첫 번째 단계에서는 10 000개의 합성 대화를 에스토니아어, 핀란드어, 헝가리어, 그리고 영어로 동일 템플릿·파라미터를 사용해 생성하고, TTR, MA‑TTR, Self‑BLEU, 의미 유사도 등 표면적 자동 메트릭으로 언어 간 일관성을 검증했다. 결과는 의미 유사도가 0.89‑0.94로 거의 변동이 없으며, 어휘 다양성은 형태소 복잡도 차이로 인해 언어마다 차이를 보였지만, 이는 생성 품질 자체의 차이라기보다 언어 구조적 특성에 기인한다는 점을 확인했다.
두 번째 단계에서는 “LLM‑as‑a‑judge” 모델(gpt‑5‑mini)에게 문법(G), 가독성(R), 일관성(C), 유창성(F), 라벨 복구 정확도(LRA) 다섯 가지 점수를 부여하도록 했다. 여기서 G·R·F는 표면적 판단으로, C·LRA는 대화 흐름과 지시 따름을 요구하는 실용적 판단이다. 각 언어별 모델 순위를 Kendall’s τ로 비교했을 때, G·R·F는 τ ≥ 0.70으로 높은 안정성을 보였지만, C와 LRA는 τ가 -0.06에서 -0.17 사이로 거의 0에 가깝거나 음수였으며, 통계적으로 유의한 순위 전환이 관찰되었다. 특히 에스토니아어‑헝가리어 쌍에서는 C 순위 전환이 p = 0.02로 유의했다.
이러한 불안정성은 두 가지 중요한 함의를 가진다. 첫째, 표면적 자동 메트릭만으로는 LLM 판정의 신뢰성을 충분히 평가할 수 없으며, 특히 대화 수준의 평가에서는 언어별 전이 실패가 빈번함을 보여준다. 둘째, 메타프롬프트를 영어와 에스토니아어로 번역해도 점수 차이가 0.05 이하로 미미했으므로, 불안정성의 원인은 프롬프트 언어가 아니라 LLM 내부의 언어별 표현 능력 차이임을 시사한다.
추가 실험으로 여섯 종류의 판정 모델을 교차 검증했을 때, 모든 모델이 거의 동일한 패턴(Δ < 0.02)을 보였으며, 이는 불안정성이 특정 판정 모델에 국한된 것이 아니라 현재의 LLM‑judge 설계 전반에 걸친 구조적 한계임을 확인한다.
결론적으로, 논문은 “제어된 생성 → 자동 메트릭 검증 → 소규모 인간 주석 → 판정‑인간 순위 정합성 검증 → 언어별 보정”이라는 워크플로우를 제안한다. 이 절차를 통해 언어가 다른 상황에서도 평가 도구가 일관된 순위를 제공하는지 사전에 검증할 수 있다. 특히 자원이 제한된 저자원 언어 커뮤니티에서는 소수의 인간 주석만으로도 판정 모델의 전이 가능성을 판단할 수 있어, 비용 효율적인 평가 파이프라인 구축에 큰 도움이 된다.
댓글 및 학술 토론
Loading comments...
의견 남기기