동적 평가로 보는 대형 언어 모델의 진실된 성능
초록
LLMEval‑Fair는 220 000개의 대학 수준 문제를 비공개 은행으로 활용해 매 평가마다 무작위로 1 000문제를 추출하고, 이중 인증·질문 순서 고정·답변 제거 등 안티치팅 메커니즘을 적용한다. LLM‑as‑a‑Judge(GPT‑4o)로 0‑3 점수 체계를 검증해 인간 전문가와 90 % 일치율을 달성했으며, 30개월 동안 60여 모델을 3회 이상 반복 평가해 성능 상한선과 정적 벤치마크의 오염 문제를 밝혀냈다. 상대‑점수(ELO) 기반 순위 체계는 샘플 재추출 시 변동이 거의 없어 공정하고 안정적인 모델 비교를 가능하게 한다.
상세 분석
LLMEval‑Fair는 현재 LLM 평가가 직면한 ‘평가 위기’를 근본적으로 해결하려는 시도로, 데이터 오염·리더보드 과적합을 방지하기 위해 세 가지 핵심 과제를 정의하고 각각에 대응하는 설계 요소를 제시한다. 첫 번째 과제인 데이터 무결성 확보를 위해 저자들은 중국 대학 시험지를 원본으로 수집하고 30명 이상의 전문가가 78 009개의 고품질 원문을 선별한 뒤, LLM 기반 자동 증강 파이프라인을 통해 선택형·단답·채우기·분석형 문제를 다중 변형으로 확대했다. 결과적으로 220 k 이상의 질문이 13개 분야(공학, 경제, 교육 등)와 6가지 형식으로 구성돼, 동일 질문이 모델에 반복 노출되는 위험을 크게 낮춘다.
두 번째 과제인 예측 불가능한 평가 프로토콜은 ‘동적 질문 샘플링’과 ‘이중 레이어 안티치팅 아키텍처’로 구현된다. 매 평가 세션마다 1 000개의 질문을 비복원 방식으로 무작위 추출하고, 질문 순서를 고정해 모델이 사전 선택·답변 조작을 할 수 없게 만든다. 외부 레이어는 JWT 기반 인증·역할 기반 접근 제어(RBAC)로 모델 접근을 제한하고, 내부 레이어는 질문 할당·완료 카운터를 실시간 감시해 과다 요청이나 재제출을 차단한다. 또한 전송되는 데이터에서 답변과 해설을 완전히 제거해 모델이 시험 중에 외부 정보를 유출하거나 학습 데이터에 포함될 가능성을 원천 차단한다.
세 번째 과제인 공정하고 안정적인 순위 체계는 ‘LLM‑as‑a‑Judge’와 상대 점수(ELO) 방식을 결합한다. 평가자는 GPT‑4o를 고정 사용해 0‑3 점수(정답·부분 정답·오답·설명 품질)로 채점하고, 동일 질문 세트 내에서 기준 모델(Doubao‑1.5‑Thinking‑Pro)의 절대 점수에 대한 비율로 상대 점수를 산출한다. 이렇게 하면 샘플링 변동에 따른 절대 점수 차이가 상대 점수에 거의 반영되지 않아, 다중 라운드·다양한 샘플 크기에서도 순위 변동이 미미하다. 실험 결과 Cohen’s κ가 0.70 이상인 평가자 집합을 선정해 인간‑기계 일치율을 90 %까지 끌어올렸으며, 동일 모델을 서로 다른 질문 세트에 적용했을 때 순위 상관계수가 0.95 이상으로 매우 안정적이었다.
30개월 종단 연구에서는 60여 모델을 3회 이상 평가해 평균 180 k 이상의 응답 데이터를 축적했다. 주요 발견은 (1) 모든 모델이 지식 암기 능력에서 약 90 % 수준의 상한에 수렴하고, 특히 문학·의학 등 전문 분야에서 지속적인 격차가 존재한다는 점, (2) 정적 벤치마크와 비교했을 때 동적 평가에서 순위가 크게 달라지며, 기존 벤치마크는 데이터 오염으로 인해 과대평가된 경우가 다수라는 점, (3) 상대‑점수 기반 순위는 샘플 재추출·다중 라운드에서도 변동이 거의 없어 공정한 모델 비교가 가능하다는 점이다. 이러한 결과는 정적 데이터셋에 의존하는 현재 평가 패러다임이 모델의 실제 일반화 능력을 제대로 측정하지 못한다는 강력한 증거를 제공한다.
LLMEval‑Fair는 공개 GitHub 저장소를 통해 데이터 수집·증강·평가 파이프라인을 오픈소스로 제공함으로써, 연구 커뮤니티가 동일한 안티치팅 메커니즘과 상대‑점수 체계를 재현·확장할 수 있게 한다. 이는 향후 LLM 평가 표준을 동적·공정·투명하게 전환하는 데 중요한 기반이 될 것으로 기대된다.
댓글 및 학술 토론
Loading comments...
의견 남기기