언어모델 추론을 겨루는 토큰 게임: 퍼즐 듀얼로 평가하기
초록
**
본 논문은 16세기 수학 듀얼에서 영감을 받아, LLM이 서로 퍼즐을 만들고 풀며 경쟁하는 “Token Games (TTG)” 프레임워크를 제안한다. 퍼즐은 Python Boolean 함수 형태로 표현되어 자동 검증이 가능하고, 듀얼 결과를 Elo‑style 점수로 변환해 모델 간 상대적 추론 능력을 측정한다. 10개 최첨단 모델을 실험한 결과, 기존 인간‑주도 벤치마크(HLE, GPQA)와 높은 상관관계를 보이며, 특히 모델이 “문제 생성” 능력을 평가할 수 있다는 점이 새롭다.
**
상세 분석
**
TTG는 기존 추론 벤치마크가 안고 있는 두 가지 근본적 한계를 극복한다. 첫째, 인간이 직접 난이도 높은 문제를 설계하는 비용이 급증하고, 모델이 훈련 데이터에 포함된 문제를 재현하는 위험이 있다. 둘째, 현재 벤치마크는 주로 “문제 해결”만을 측정해 모델의 창의성이나 자기‑평가 능력을 드러내지 못한다. TTG는 이러한 문제를 “프로그래밍 퍼즐”이라는 형식으로 해결한다. 퍼즐은 def f(x): return <boolean> 형태의 함수이며, 정답은 함수가 True를 반환하는 입력값이다. 이 형식은 NP‑complete 문제부터 수학적 정리 검증까지 폭넓게 인코딩할 수 있어, 난이도 제한이 사실상 존재하지 않는다.
듀얼 과정은 알고리즘 1에 명시된 바와 같이 진행된다. 각 라운드에서 제안자(proposer)는 퍼즐과 자신의 솔루션을 사전 스크래치패드에 기록한 뒤 제출한다. 솔루션이 검증에 실패하면 즉시 패배하고, 성공하면 상대(soliver)가 퍼즐을 풀도록 한다. 솔버가 올바른 입력을 찾지 못하면 제안자가 점수를 얻고, 찾으면 무승부가 된다. 라운드 결과는 히스토리 H에 축적돼 이후 라운드에서 전략적 학습에 활용된다.
점수 체계는 전통적인 Elo 모델을 차용했으며, BT(Bradley‑Terry) 로그우도 함수를 최소화해 각 모델의 상대적 능력을 추정한다. Elo 차이 400점은 승률 91%에 해당하고, 100점 차이는 약 64% 승률을 의미한다. 이 방식은 모델 간 직접적인 승패 기록을 집계해 순위를 산출하므로, 절대적인 정답률이 아닌 “추론 경쟁력”을 측정한다는 점에서 의미가 크다.
실험에서는 10개의 최신 모델(예: GPT‑4o, Claude‑3.5, Gemini‑1.5 등)을 서로 5라운드씩 매칭시켰다. 결과는 HLE와 GPQA Diamond와 각각 ρ=0.58, 0.63의 양의 상관관계를 보였으며, 특히 솔버 역할 승률은 HLE(ρ=0.75)와 GPQA(ρ=0.74)와 더욱 강한 연관성을 보였다. 이는 TTG가 기존 벤치마크와 일관된 추론 성능 지표를 제공함을 의미한다.
흥미로운 부수 결과로는 “문제 생성 능력”이 기존 벤치마크와 낮은 상관을 보였다는 점이다. 일부 최첨단 모델은 자신이 만든 퍼즐을 풀지 못하는 과잉 자신감(overconfidence) 현상을 보였으며, 이는 모델이 자신의 한계를 정확히 평가하지 못함을 시사한다. 또한, 퍼즐 코드가 런타임 오류를 일으키면 자동으로 패배 처리되는 메커니즘 덕분에, 모델이 부정확하거나 모호한 문제를 제시하는 경우도 명확히 드러난다.
TTG의 한계도 논의된다. 퍼즐 설계 단계에서 모델이 무의미하게 복잡한 코드를 생성하거나, 실행 시간 제한을 초과하는 경우가 발생할 수 있다. 현재는 sandbox 환경에서 타임아웃을 5초로 제한했지만, 더 복잡한 NP‑complete 문제를 다루려면 이 한계를 완화하거나 별도 검증 절차가 필요하다. 또한, 현재는 두 모델 간 1대1 듀얼만 고려했으며, 다중 모델 토너먼트 형태로 확장하면 보다 정교한 순위 체계가 가능할 것으로 보인다.
전반적으로 TTG는 “문제 생성 + 문제 해결”이라는 이중 과제를 통해 LLM의 추론, 창의성, 자기‑평가 능력을 동시에 측정한다는 점에서 기존 벤치마크를 보완한다. 자동 검증 가능한 코드 기반 퍼즐이라는 설계는 인간 비용을 최소화하면서도 지속적인 난이도 상승을 보장한다는 장점이 있다. 향후 연구에서는 퍼즐 다양성 메트릭, 다중 모델 경기 방식, 그리고 인간‑모델 협업 듀얼 등으로 확장 가능성이 기대된다.
**
댓글 및 학술 토론
Loading comments...
의견 남기기