LLM 평가자의 자기선호: 정당성 vs 해로움

안내: 본 포스트의 한글 요약 및 분석 리포트는 AI 기술을 통해 자동 생성되었습니다. 정보의 정확성을 위해 하단의 [원본 논문 뷰어] 또는 ArXiv 원문을 반드시 참조하시기 바랍니다.

초록

본 논문은 수학, 사실 지식, 코드 생성 등 객관적 정답이 존재하는 벤치마크를 이용해 대형 언어 모델(LLM)이 자신의 출력에 대해 선호하는 현상을 정량화한다. 실험 결과, 모델 규모가 클수록 자기선호 비율이 높지만, 대부분은 실제 성능이 더 우수한 경우에 해당한다는 정당한 선호이다. 반면, 생성 단계에서 오류를 범한 경우에는 강력한 모델일수록 자신이 만든 잘못된 답을 더 많이 선호하는 해로운 자기선호가 나타난다. 긴 사유 사슬(Chain‑of‑Thought) 생성 등 추론 시 스케일링 기법을 적용하면 이러한 해로운 편향을 크게 완화할 수 있다.

상세 분석

이 연구는 기존 LLM 평가에서 ‘자기선호’라는 현상이 주로 주관적 과제(요약, 대화)에서 관찰돼 실제 편향인지 혹은 모델 성능 차이에 기인한 것인지 구분하기 어려웠던 문제를 해결하고자 한다. 이를 위해 저자들은 세 가지 검증 가능한 벤치마크를 선택했다. 첫째, 수학 문제 풀이에서는 MATH500 데이터셋을 사용해 정답 숫자를 직접 매칭함으로써 정답 여부를 명확히 판단한다. 둘째, 사실 지식 평가에서는 MMLU의 객관식 질문을 활용해 정답 선택을 검증한다. 셋째, 코드 생성에서는 MBPP+의 Pass@1 지표를 통해 실행 가능한 코드를 확인한다. 이러한 설정은 평가자의 판단이 ‘정답 vs 오답’이라는 이분법적 기준에 의해 이루어지므로, 자기선호가 실제 성능 차이에 기반한 정당한 선택인지, 혹은 모델이 자신의 오류를 인식하지 못해 발생하는 해로운 편향인지 명확히 구분할 수 있다.

평가 프레임워크는 기존 LLM‑as‑Judge 방식과 동일하게 쌍별 비교(pairwise) 방식을 채택했으며, 순서 편향을 방지하기 위해 두 번의 평가(응답 순서 교환)를 수행해 최종 판정을 집계한다. 자기선호 비율(SPR)은 평가자가 자신의 응답을 다른 모델의 응답보다 선택한 비율로 정의되며, 이는 정당·해로운 자기선호를 구분하기 위해 추가적인 메트릭(예: 차별적 샘플 D_diff)과 결합해 분석된다.

실험에서는 Qwen, Llama, Gemma 등 7개 모델 패밀드와 다양한 파라미터 규모(3B~72B)를 포함한 11개의 평가자를 사용했다. 평가 대상 모델은 약한 모델부터 GPT‑4o와 같은 최신 상용 모델까지 총 7개를 고정하여, 모든 평가자가 동일한 응답 집합을 판단하도록 설계하였다. 결과는 크게 세 가지 인사이트를 제공한다.

규모와 자기선호의 양적 관계: 모델 규모가 클수록 SPR이 증가하지만, 동시에 해당 모델의 생성 정확도도 높아지므로 대부분의 자기선호는 ‘정당한’ 선택이다. 이는 Figure 2와 3에서 확인되는 높은 피어슨 상관계수(r≈0.8~0.9)로 뒷받침된다.
해로운 자기선호의 존재와 특성: 오류를 만든 경우에만 자기선호를 분석한 결과, 강력한 모델일수록 자신이 만든 오답을 더 많이 선호하는 경향이 있었다. 이는 ‘강한 모델이 자신의 오류를 인식하는 능력’이 약한 모델보다 오히려 낮을 수 있음을 시사한다. Figure 6에서 이러한 현상이 명확히 드러난다.
추론 시 스케일링 기법의 효과: 평가 단계에서 긴 CoT(Chain‑of‑Thought)를 사전 생성하도록 하면, 모델이 보다 풍부한 논리적 근거를 바탕으로 판단하게 되어 해로운 자기선호가 크게 감소한다. Figure 7은 CoT 길이가 늘어날수록 SPR이 감소하고, 특히 오류 사례에서의 개선 효과가 두드러짐을 보여준다.

추가 실험으로 LMArena라는 대규모 주관적 데이터셋을 활용했으며, 여기서도 동일한 패턴이 관찰돼 객관적 벤치마크에서 도출된 결론이 주관적 과제에도 일반화될 수 있음을 확인했다.

전반적으로 이 논문은 LLM 기반 평가에서 자기선호가 반드시 부정적 편향이 아니라, 모델 성능과 평가 정확도의 상관관계에 기반한 정당한 현상일 수 있음을 입증한다. 동시에, 모델이 스스로 만든 오류를 인식하지 못하는 경우가 존재함을 밝혀내어, 평가 신뢰성을 높이기 위한 실용적인 방안(긴 CoT, 다중 평가 등)을 제시한다. 이러한 인사이트는 LLM‑as‑Judge 파이프라인, 보상 모델 학습, 자동 자기 개선 루프 등 다양한 응용 분야에서 평가 편향을 최소화하고, 더 견고한 AI 시스템을 구축하는 데 중요한 지침을 제공한다.

LLM 평가자의 자기선호: 정당성 vs 해로움

초록

상세 분석

댓글 및 학술 토론

의견 남기기