마스터 혼합 플레이어 라우팅 기반 희소 체스 언어 모델
초록
본 논문은 체스 기보를 학습한 대형 트랜스포머가 스타일을 평균화하는 문제를 해결하기 위해, 각기 다른 그랜드마스터의 플레이 스타일을 모방한 소형 GPT 전문가들을 별도로 미세조정하고, 게임 상황에 따라 적절한 전문가를 선택하는 라우팅 네트워크를 결합한 Mixture‑of‑Masters(MoM) 모델을 제안한다. SSL과 강화학습을 병행한 두 단계 학습, 가중치 병합과 동적 라우팅을 통한 희소화, 그리고 비디오 기반 행동 스타일리메트리를 활용한 전문가 구분 평가를 수행한다. 실험 결과 MoM은 Stockfish와의 대결 및 기존 GPT 베이스라인 대비 전반적인 강점과 스타일 다양성을 동시에 확보한다.
상세 분석
본 연구는 체스 언어 모델링 분야에서 ‘스타일 동질화’라는 근본적인 한계를 인식하고, 이를 구조적·학습적 차원에서 동시에 해소하려는 시도를 보인다. 첫 번째 핵심은 전문가(Expert) 모델을 개별 그랜드마스터(GM)의 기보만을 사용해 독립적으로 미세조정한다는 점이다. 여기서는 두 단계 학습이 적용된다. ① Self‑Supervised Learning(SSL) 단계에서는 해당 GM의 움직임만을 대상으로 교차 엔트로피 손실을 최소화함으로써, 해당 플레이어 고유의 확률 분포를 학습한다. ② Reinforcement Learning(RL) 단계에서는 Group Relative Policy Optimization(GRPO) 알고리즘을 도입해, 합법성(syntactic correctness, legality)과 체스 전술적 가치를 보상으로 설계한다. 이중 손실 구조는 단순히 데이터 통계에 머무르지 않고, 실제 규칙 위반을 방지하면서도 창의적 움직임을 장려한다는 점에서 의미가 크다.
두 번째 핵심은 ‘Stitching’ 단계에서의 희소 모델 구성이다. 각 전문가의 Q‑K‑V 및 출력 프로젝션 레이어를 별도 파라미터 집합으로 분리하고, 라우팅 네트워크 Gϕ가 현재 보드 상태 s를 입력받아 전문가별 선택 확률 P(p|s)를 softmax로 출력한다. 학습 시에는 Gumbel‑Softmax와 온도 감소 스케줄을 이용해 탐색‑활용 균형을 조절하고, top‑k 라우팅을 통해 선택된 전문가들의 출력을 가중합한다. 나머지 토큰 임베딩, 어텐션 헤드 등은 모든 전문가에 대해 uniform averaging을 수행해 공유 백본(Φ_shared)을 만든다. 이러한 하이브리드 파라미터 구성은 모델 용량을 크게 늘리지 않으면서도, 각 전문가의 특성을 보존하고 상황에 맞는 스타일 전환을 가능하게 한다.
세 번째 기여는 행동 스타일리메트리(Behavioral Stylometry)이다. 기존 연구는 기보 기반의 심볼릭 피처나 대규모 아마추어 데이터에 의존했지만, 본 논문은 비디오 프레임을 Vision Transformer(Eψ)로 인코딩하고, LSTM 기반 시계열 집합을 통해 게임 임베딩 z를 생성한다. 이후 contrastive learning을 활용해 같은 GM의 임베딩은 서로 가깝게, 다른 GM과는 멀게 배치하도록 학습한다. 이는 전문가 모델이 실제 인간 플레이어의 스타일을 얼마나 잘 재현하는지를 정량적으로 평가할 수 있는 새로운 도구를 제공한다.
실험에서는 10명의 유명 GM(예: Tal, Petrosian 등)을 대상으로 각각 1,000게임씩 수집·전처리하고, 80/20 비율로 학습·테스트를 나누었다. 라우팅 네트워크는 초기 50%는 사전학습된 시드 모델의 기보, 나머지 50%는 각 GM의 기보를 혼합해 학습하였다. 평가 지표는 Stockfish와의 승률, 평균 손실, 그리고 스타일 다양성 지표(예: 엔트로피 기반)이다. 결과는 MoM이 단일 전문가 모델보다 평균 승률이 3.2%p 상승하고, 기존 GPT‑3.5‑style 베이스라인 대비 1.8%p 향상되었으며, 스타일 엔트로피가 27% 증가하는 등 전반적인 성능과 다양성 모두에서 우위를 보였다. 또한 라우팅 선택 로그를 분석하면, 공격적인 포지션에서는 Tal‑style 전문가가, 방어적인 포지션에서는 Petrosian‑style 전문가가 높은 선택 확률을 보이는 등, 라우팅이 실제 체스 전략과 일치함을 확인할 수 있었다.
한계점으로는 전문가 수가 제한적이며(10명), 각 전문가당 학습 데이터가 상대적으로 적어(≈100k 수순) 과적합 위험이 존재한다는 점, 그리고 라우팅 네트워크가 보드 상태를 텍스트 토큰만으로 인코딩하기 때문에 시각적·전술적 nuance를 완전히 포착하지 못할 가능성이 있다. 향후 연구에서는 전문가 풀을 확대하고, 라우팅 입력에 보드 이미지 혹은 엔진 평가값을 추가하는 멀티모달 라우팅을 탐색할 수 있다.
요약하면, 본 논문은 전문가 기반 MoE 구조와 SSL+RL 이중 학습, 그리고 비디오 기반 스타일리메트리를 결합해, 체스 언어 모델의 스타일 다양성, 해석 가능성, 그리고 실전 강점을 동시에 향상시키는 새로운 패러다임을 제시한다.
댓글 및 학술 토론
Loading comments...
의견 남기기