LLM 채점 편향: 점수 체계와 프롬프트 설계의 숨은 함정
초록
본 논문은 LLM을 평가자(LLM‑as‑a‑Judge)로 활용할 때 발생하는 절대점수 부여 과정의 편향을 체계적으로 조사한다. 루브릭 순서, 점수 ID 형태, 그리고 레퍼런스 답변에 부여된 점수 세 가지 새로운 편향 유형을 정의하고, 이를 정량화하기 위한 안정성·정확도·점수 경향성 메트릭을 제시한다. 실험 결과 최신 LLM조차도 이러한 편향에 크게 영향을 받으며, 프롬프트 설계 개선 방안을 제시한다.
상세 분석
논문은 기존 연구가 비교‑기반(Llama‑2, GPT‑4 등) 평가에서 드러난 위치·길이·자기‑선호 편향에 집중한 반면, 산업 현장에서 더 널리 쓰이는 절대점수(스코어링) 방식의 편향은 거의 탐구되지 않았다는 점을 지적한다. 이를 보완하기 위해 저자들은 “점수 편향(scoring bias)”을 “프롬프트 자체의 교란에 의해 동일 응답에 대해 점수가 변동하는 현상”으로 정의하고, 세 가지 구체적 편향을 제안한다. 첫째, **루브릭 순서 편향(rubric order bias)**은 점수 설명이 1→5, 5→1 혹은 무작위 순서로 제시될 때 LLM이 점수를 체계적으로 달리 매기는 현상이다. 둘째, **점수 ID 편향(score ID bias)**은 아라비아 숫자(1‑5) 대신 알파벳(A‑E)이나 로마 숫자(i‑v) 등 다른 표기법을 사용했을 때 발생한다. 셋째, **레퍼런스 답변 점수 편향(reference answer score bias)**은 레퍼런스 답변에 특정 점수(예: 5점)를 부여하거나, 1‑4점으로 다양하게 지정했을 때 LLM의 채점 일관성이 어떻게 변하는지를 측정한다.
편향 정량화를 위해 저자들은 안정성 메트릭(Flip Rate, Mean Absolute Deviation)으로 교란 전후 점수 일관성을, 정확도 메트릭(Spearman, Pearson)으로 LLM 점수와 인간·고급 LLM(예: GPT‑4.1) 기준점수와의 상관관계를, 점수 경향성 메트릭(점수 분포 N(p))으로 특정 점수 범위에 대한 과잉·과소 할당 현상을 각각 측정한다. 데이터 측면에서는 기존 4개 벤치마크(BiGGen, FLASK, MT‑Bench, Vicuna‑Bench)를 활용하고, 레퍼런스 답변을 자동 생성·검증하는 생성‑검토 파이프라인을 구축해 1‑4점 레퍼런스를 추가로 확보한다.
실험에서는 GPT‑4.1, GPT‑4o, Qwen‑3, Mistral‑Small 등 최신 모델을 평가 대상으로 삼았다. 결과는 모든 모델이 루브릭 순서 교란 시 평균 Flip Rate가 12‑18%에 달하고, 점수 ID 교란 시 평균 MAD가 0.4‑0.7점 정도 상승함을 보여준다. 특히 레퍼런스 답변에 1‑4점이 부여되면 점수 경향성이 크게 왜곡돼, 원래 5점에 가까운 응답도 2‑3점으로 낮춰지는 현상이 관찰되었다. 이러한 편향은 모델 규모와 무관하게 존재하며, GPT‑4.1이 인간 점수와 가장 높은 상관관계를 보였음에도 불구하고 교란 상황에서는 여전히 편향이 심각하게 나타난다.
논문은 편향 완화를 위한 실용적 가이드라인도 제시한다. 첫째, 루브릭은 항상 오름차순(1→5) 형태로 고정하고, 순서 변형을 피한다. 둘째, 점수 ID는 아라비아 숫자만 사용해 혼동을 최소화한다. 셋째, 레퍼런스 답변을 제공할 경우 **최고 점수(5점)**만 사용하고, 다른 점수 레퍼런스는 배제한다. 또한 프롬프트에 **명시적 “점수 ID는 숫자이며, 순서는 1부터 5까지”**와 같은 메타 지시문을 삽입하면 안정성이 향상된다.
전반적으로 이 연구는 LLM‑as‑a‑Judge 시스템을 실제 서비스에 적용할 때 간과하기 쉬운 프롬프트‑레벨 편향을 조명하고, 정량적 평가 프레임워크와 자동 데이터 생성 방법을 제공함으로써 향후 평가 파이프라인의 신뢰성을 크게 높일 수 있음을 증명한다.
댓글 및 학술 토론
Loading comments...
의견 남기기