자율 웹 기반 동료 평가 프레임워크 PeerRank
초록
**
PeerRank는 모델이 스스로 질문을 만들고, 실시간 웹 검색으로 답을 생성하며, 서로의 답을 평가해 순위를 매기는 완전 자동화된 평가 시스템이다. 평가 과정에서 정체성·위치·자기 편향을 제어하고, Elo 방식과 평균 점수 두 가지 집계법으로 결과를 검증한다. 12개 상용 LLM과 420개의 자동 생성 질문을 대상으로 수행한 실험에서 안정적인 순위와 편향 측정이 가능함을 보였으며, TruthfulQA와 GSM8K에서도 객관적 정확도와 높은 상관관계를 확인했다.
**
상세 분석
**
PeerRank는 “질문‑답변‑평가”를 하나의 다중 에이전트 루프 안에 통합한 혁신적인 평가 파이프라인을 제시한다. 첫 단계에서 각 모델은 사전 정의된 5가지 카테고리(사실 지식, 논리·추론, 최신 사건, 창의·개방형, 실용‑방법) 중 하나를 무작위로 선택해 35개의 질문을 생성한다. 질문 생성 시 인간의 개입을 전혀 두지 않아 모델 자체가 질문 분포를 정의한다는 점에서 기존 벤치마크와 근본적으로 차별된다.
두 번째 단계에서는 모든 모델이 동일한 외부 검색 엔진(Tavily 혹은 SerpAPI)으로부터 실시간 웹 스니펫을 받아 답변을 만든다. 현재 사건 카테고리만 웹 근거를 삽입하고, 나머지 카테고리는 순수 LLM 내부 지식에 의존하도록 설계해 불필요한 검색 비용을 최소화한다. 웹 근거는 “숨은 컨텍스트” 형태로 모델에 전달되며, 이는 모델이 검색 결과를 직접 인용하도록 유도하면서도 답변 형식에는 영향을 주지 않는다.
평가 단계에서는 각 모델이 다른 모델의 답변을 1~10점 척도로 채점한다. 여기서 중요한 설계는 편향 제어 프로토콜이다. 평가 시(1) 순서 섞기(Shuffle‑only), (2) 신원 은폐(Blind‑only), (3) 순서 섞기+신원 은폐(Shuffle+Blind) 세 가지 조건을 모두 적용해 위치 편향, 이름(정체성) 편향, 자기 편향을 정량화한다. 특히 Shuffle+Blind 조건을 “최소 편향” 기준점으로 삼아 다른 두 조건에서의 점수 차이를 편향 지표(Δself, Δname, Δpos)로 계산한다.
점수 집계는 두 가지 방식으로 이루어진다. 첫째, 자기 평가를 제외한 평균 점수(Peer Score)를 직접 사용한다. 둘째, 점수를 0‑1 이진 승패로 변환해 Elo 레이팅을 추정한다. 두 집계 결과는 Pearson r=0.844, Spearman ρ=0.755로 높은 일치도를 보이며, 이는 PeerRank가 단순 평균보다 노이즈에 덜 민감한 견고한 순위 추정 방법임을 시사한다.
편향 분석 결과, 대부분의 모델이 자기 편향(자신이 만든 질문에 대한 점수 상승)과 위치 편향(답변 순서에 따른 점수 변동)을 보였으며, 일부 모델은 이름 편향(모델 명시 여부에 따른 점수 차이)도 뚜렷했다. 이러한 편향을 정량화함으로써 기존 LLM‑as‑Judge 방식에서 간과되던 평가 신뢰성을 크게 향상시킨다.
외부 검증으로는 TruthfulQA와 GSM8K를 사용했다. TruthfulQA에서는 264개의 객관식 질문에 대해 PeerScore와 정답률 간 Pearson r≈0.71의 양의 상관을 기록했으며, GSM8K에서는 0‑10 점수 변환 후 평균 PeerScore와 정확도 간 r≈0.68의 상관을 보였다. 이는 PeerRank가 실제 정답과도 일관된 상대적 성능을 포착한다는 강력한 증거다.
전체적으로 PeerRank는 (1) 완전 자동화, (2) 웹‑그라운드 답변, (3) 다중 모델 간 상호 평가, (4) 체계적 편향 제어라는 네 가지 핵심 요소를 결합해 기존 정적 벤치마크의 한계를 극복한다. 특히 “모델 자체가 평가 파이프라인을 완전 주도한다”는 설계는 지속 가능한 LLM 평가 인프라 구축에 중요한 전환점이 될 것으로 기대된다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기