편향을 없앤 MCQ 평가 프로토콜
초록
본 논문은 다중 선택 질문(MCQ) 벤치마크에서 LLM이 답안 라벨, 위치, 그리고 few‑shot 프롬프트의 정답 분포 등 다양한 편향을 이용해 성능을 과대평가하는 문제를 지적한다. 이를 해결하기 위해 라벨을 동일한 ‘‑’ 로 통일하고, 모델이 전체 텍스트 답안을 생성하도록 유도한 뒤, 의미적 유사도 모델로 생성 답안을 후보 옵션과 매칭하는 ‘Matched‑and‑Dashed (M&D)’ 프로토콜을 제안한다. NonsenseQA라는 무의미한 합성 데이터와 실제 MCQ 벤치마크에서 실험한 결과, M&D는 정답 정확도 변동성을 평균 3배 감소시키면서 평균 성능 저하를 최소화한다.
상세 분석
이 논문은 기존 MCQ 평가가 내재하고 있는 세 가지 주요 편향을 체계적으로 분석한다. 첫째, 옵션 라벨(A, B, C, D 등)의 순서가 모델에게 암묵적인 순위 정보를 제공해 정답 위치에 따라 성능이 달라지는 ‘라벨 편향’이다. 둘째, 정답이 특정 위치(예: 첫 번째 혹은 마지막)에 배치될 때 모델이 이를 학습된 패턴으로 활용하는 ‘위치 편향’이다. 셋째, few‑shot 프롬프트에 포함된 예시 질문들의 정답 분포가 모델의 추론에 영향을 미치는 ‘프롬프트 분포 편향’이다. 특히 저자들은 기존 연구가 주로 위치와 라벨 편향만을 다루었지만, 실제 LLM은 프롬프트 내 정답 비율을 통계적으로 파악해 이를 추론에 활용한다는 점을 NonsenseQA 실험을 통해 밝혀냈다. NonsenseQA는 무작위 단어로 구성된 질문·옵션에 정답을 무작위로 할당한 1,000개의 샘플로, 이론적으로는 25% 수준의 정확도가 기대된다. 그러나 S&L(Select‑and‑Letter) 프로토콜을 적용하면 일부 모델은 95%에 육박하는 성능을 보이며, 이는 모델이 의미 없는 텍스트에서도 라벨·위치·프롬프트 분포를 이용해 정답을 추론한다는 강력한 증거다.
제안된 M&D 프로토콜은 라벨을 모두 ‘‑’ 로 통일해 라벨 편향을 원천 차단하고, 모델에게 전체 텍스트 답안을 생성하도록 유도한다. 생성된 답안은 사전 학습된 문장 임베딩 모델(Qwen3‑Embedding‑0.6B)과 코사인 유사도를 사용해 후보 옵션과 매칭한다. 이 과정은 정답이 동의어 혹은 약간 다른 표현으로 제시될 경우에도 올바르게 매핑할 수 있게 해준다. 중요한 점은 M&D가 모델 내부 로그 확률이나 파인튜닝 없이 단일 패스만으로 동작한다는 점이다. 실험에서는 13개의 오픈소스 LLM(8B32B 파라미터)과 5개의 공개 MCQ 벤치마크(CSQA, ARC, MMLU‑Pro, GPQA, INCLUDE)에서 기존 S&L 대비 평균 정확도 변동성을 3배 감소시켰으며, 평균 정확도 저하는 12% 수준에 머물렀다. 또한 SCORE 지표를 활용해 다양한 퍼뮤테이션 상황에서 예측 간 유사성을 정량화했으며, M&D가 높은 SCORE와 낮은 분산 비율(σ²_R)을 동시에 달성함을 보여준다.
추가적인 ablation 연구에서는(1) 라벨을 ‘‑’ 로 바꾸는 것만으로도 편향이 크게 감소하고, (2) 임베딩 모델을 바꾸거나 유사도 함수를 바꾸어도 성능 차이가 미미함을 확인했다. 이는 M&D 프로토콜이 특정 임베딩에 과도하게 의존하지 않으며, 일반적인 의미적 매칭 기법과도 호환된다는 점을 시사한다. 전체적으로 이 논문은 MCQ 기반 LLM 평가에 내재된 다중 편향을 정량화하고, 실용적이면서도 비용 효율적인 해결책을 제시함으로써 향후 LLM 벤치마크 설계에 중요한 기준을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기