벤치마크 착시 LLM 간 불일치와 과학적 영향
초록
본 논문은 MMLU‑Pro와 GPQA 같은 대표적인 추론 벤치마크에서 정확도는 비슷하지만 모델 간 답변이 16 %‑66 % 정도 다르게 나타나는 현상을 밝힌다. 이러한 ‘벤치마크 착시’는 과학 연구에서 LLM을 데이터 라벨링에 활용할 때 치료 효과 추정치가 80 % 이상 변동하거나 심지어 부호가 바뀌는 등 결과 재현성을 위협한다는 점을 실증한다.
상세 분석
논문은 먼저 “벤치마크 착시”라는 개념을 정의한다. 기존 연구에서는 동일한 정확도 점수를 얻은 모델은 기능적으로 동등하다고 가정했지만, 저자들은 MMLU‑Pro(12 032문항, 14학문 분야)와 GPQA(448문항, 생물·물리·화학)에서 모델 간 정답 일치율을 직접 측정함으로써 이 가정이 깨진다는 것을 입증한다. 모델 예측을 고정된 프롬프트와 결정적 디코딩 방식으로 수집한 결과, 정확도가 비슷한 모델 쌍에서도 16 %‑66 %의 질문에 서로 다른 답을 제시했으며, 최첨단 모델(정확도 > 60 %)에서도 16 %‑38 %의 불일치가 지속되었다. 이는 단순히 ‘우연한 오류’가 아니라 모델이 지식과 추론을 내부적으로 다르게 구성한다는 증거이다.
다음으로 저자들은 이러한 불일치가 과학적 추론에 미치는 영향을 정량화한다. 측정 오류 프레임워크를 도입해, 라벨링 오류가 독립 변수(X)와 상관관계를 가질 경우 회귀계수 β̂가 편향될 수 있음을 수식적으로 보여준다. 특히 오류가 특정 처리군이나 특정 인구통계와 연관될 때, 편향은 방향성까지 달라질 수 있다. 이를 뒷받침하기 위해 세 종류의 ‘AI 라벨러’를 시뮬레이션에 투입한다. 낮은 정확도(85 %)이지만 오류가 무작위인 라벨러는 전형적인 감쇠(bias toward null)만을 보이는 반면, 높은 정확도(≈94 %)를 가진 두 라벨러는 각각 치료군에서 양성 사례를 과소판정하거나 대조군에서 과소판정하는 체계적 오류를 내포한다. 결과적으로 동일한 데이터셋에 대해 추정된 치료 효과는 0.37, 0.62, 1.43으로 크게 달라졌으며, 이는 정확도만으로는 오류 구조를 판단할 수 없다는 강력한 증거가 된다.
실제 연구 사례에서도 동일한 현상이 관찰된다. 교육 분야에서는 Kim et al.(2021)의 대규모 독서 개입 실험을 재분석했는데, 원본 인간 채점 점수(효과 크기 0.44)와 8개의 최신 LLM이 제공한 점수 사이에 0.19‑0.35의 차이가 발생했다. 정치학 연구에서는 러시아 국가 매체의 보도 귀속 분석에서 일부 LLM은 ‘공무원이 좋은 소식을 더 많이 차지한다’는 원래 결론을 재현했지만, 다른 모델은 반대로 ‘공무원이 나쁜 소식을 더 많이 비난받는다’는 결론을 도출했다. 즉, 모델 선택만으로도 정량적 결론이 크게 변동하고, 경우에 따라 결론 자체가 뒤바뀌는 상황이 발생한다.
이러한 결과는 현재 LLM 평가 체계가 과학적 활용에 부적합함을 시사한다. 과학자는 평균 정확도가 아닌 오류의 분포, 구조, 안정성을 중점적으로 검증해야 한다. 인간 코더 간 신뢰도 평가(Krippendorff’s α)와 유사하게, LLM 간 불일치를 정량화하고, 특정 연구 변수와의 상관성을 사전 검증하는 절차가 필요하다. 또한, 다중 모델 앙상블이나 오류 교정 기법(예: 라벨 스무딩, 베이지안 교정) 등을 도입해 모델 선택에 따른 편향을 최소화하는 방법도 모색해야 한다.
결론적으로, 논문은 “벤치마크 착시”를 통해 LLM 선택이 과학적 재현성에 숨은 자유도임을 밝히고, 향후 연구에서는 모델 간 불일치를 명시적으로 보고하고, 오류 구조를 사전에 파악하는 표준 프로토콜을 마련할 것을 촉구한다.
댓글 및 학술 토론
Loading comments...
의견 남기기