LLM 판사의 신뢰성 진단: IRT 기반 평가 프레임워크

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 LLM을 평가자(LLM‑as‑a‑Judge)로 사용할 때 그 신뢰성을 측정하기 위해 교육심리학의 아이템 반응 이론(Item Response Theory, IRT) 중 등급 반응 모델(Graded Response Model, GRM)을 적용한 두 단계 진단 체계를 제안한다. 첫 단계에서는 다양한 프롬프트 변형에 대한 일관성을 ‘프롬프트 일관성(CV)’과 ‘한계 신뢰도(ρ)’로 평가하고, 두 번째 단계에서는 인간 평가와의 정렬 정도를 ‘판별 폭 비율(θ‑ratio)’과 ‘워싱턴 거리(DW)’로 측정한다. 실험을 통해 제시된 지표들이 LLM 판사의 불안정 원인을 구체적으로 밝혀주며, 신뢰할 수 있는 자동 평가 시스템 구축에 실용적인 가이드를 제공한다.

상세 분석

이 논문은 LLM‑as‑a‑Judge의 신뢰성을 기존의 단순 상관·일치도 측정에서 한 차원 높은 메타‑측정 접근으로 확장한다. 핵심은 등급형 출력(예: 1~5점 리커트)을 확률적 잠재 변수 모델인 GRM에 매핑함으로써, 관측된 점수가 ‘진짜 품질(θ)’과 ‘프롬프트 특성(α, β)’으로 분리될 수 있음을 보인다.

GRM 설계와 베이지안 추정
- 각 프롬프트 변형(p)은 자체 차별화 파라미터 αₚ와 임계값 βₚₖ을 갖고, 모든 변형이 동일한 θⱼ를 공유한다. 이는 동일 샘플에 대해 다른 프롬프트가 주는 점수 차이를 ‘측정 도구의 변동’으로 해석하게 한다.
- 사전분포는 θ∼N(0,1), α∼LogNormal(0,0.5), β∼N(0,1) (순서 제약 포함)이며, NUTS 샘플링을 통해 사후를 추정한다. 베이지안 접근은 불확실성(σⱼ²)까지 제공해 한계 신뢰도(ρ) 계산에 직접 활용한다.
내재 일관성 지표
- 프롬프트 일관성(CV): 각 프롬프트별로 동일 등급에 속한 샘플들의 θ 분산을 평균(¯Vₚ)하고, 이 평균값들의 변동계수(CV=σ_V/μ_V)를 구한다. CV가 0.1 이하이면 프롬프트 변화에 강건하다고 판단한다.
- 한계 신뢰도(ρ): ρ = Var(θ̂) /

LLM 판사의 신뢰성 진단: IRT 기반 평가 프레임워크

초록

상세 분석

댓글 및 학술 토론

의견 남기기