전략적 모델 제출과 복제 방지: AI 아레나 순위 메커니즘의 새로운 설계

본 논문은 현재 AI 아레나에서 발생하는 ‘클론’ 전략(동일 모델 다중 제출) 문제를 이론적으로 규명하고, 생산자가 자신의 모델을 순위별로 자체 평가하도록 요구하는 ‘You‑Rank‑We‑Rank (YRWR)’ 메커니즘을 제안한다. YRWR은 클론 제출에 의한 순위 상승을 거의 차단하면서, 생산자가 제공한 자체 순위가 정확할 경우 전체 순위 정확도도 향상시킨다. 실험 결과는 제안 메커니즘이 기존 브래들리‑터리 기반 순위에 비해 복제에 대한 강인…

저자: Chris Hays, Rachel Li, Bailey Flanigan

AI 아레나는 사용자들이 두 모델의 출력을 비교해 선호도를 표시하는 쌍별 투표 방식을 통해 모델들의 상대적 성능을 순위화한다. 이러한 시스템은 실제 사용 상황을 반영한다는 장점이 있지만, 투표 수가 제한적이고 승률 차이가 미미한 경우 통계적 노이즈가 크게 작용한다. 저자들은 이러한 노이즈를 악용해 동일 모델을 여러 번 제출(‘클론’)함으로써 순위를 인위적으로 끌어올릴 수 있는 위험성을 이론적으로 분석한다. 먼저, 논문은 현재 대부분의 AI 아레나가 채택하고 있는 브래들리‑터리(BT) 모델을 기반으로 한 최대우도 추정 방식을 수학적으로 정형화한다. 각 모델 j는 잠재 품질 R_j ≥ 0를 가지고, 사용자 투표는 독립적인 베르누이 시행으로 모델 j가 모델 j′보다 우위에 있을 확률을 exp(R_j)/

전략적 모델 제출과 복제 방지: AI 아레나 순위 메커니즘의 새로운 설계

원본 논문

댓글 및 학술 토론

의견 남기기

원본 논문

관련 논문

댓글 및 학술 토론

의견 남기기