드래곤체스 진화 전이 학습과 CMAES 최적화
본 논문은 3차원 체스 변형인 드래곤체스를 새로운 AI 연구 플랫폼으로 제시하고, Stockfish의 휴리스틱을 직접 이식한 뒤 CMA‑ES를 이용해 진화적 최적화를 수행한다. 초기 직접 이식은 성능이 저조했으나, 진화 과정에서 물류 가치, 위치 테이블, 이동성·왕 안전 등 다섯 가지 핵심 요소가 재조정되어 50라운드 스위스 토너먼트에서 기존 미니맥스 기반 에이전트를 크게 앞섰다.
저자: Jim O'Connor, Annika Hoag, Sarah Goyette
본 논문은 3차원 체스 변형인 드래곤체스를 AI 연구용 새로운 벤치마크로 제시하고, 이를 위한 오픈소스 파이썬 엔진을 공개한다. 드래곤체스는 12×8 크기의 3개 보드(하늘, 땅, 지하)로 구성되며, 조각마다 층간 이동과 특수 능력이 존재해 상태·행동 공간이 전통적인 체스보다 기하급수적으로 확대된다. 이러한 복잡성은 기존의 휴리스틱 기반 탐색(미니맥스, 알파베타)이나 딥러닝 기반 셀프플레이가 적용되기 어려운 환경을 만든다.
논문은 먼저 관련 연구를 검토한다. 체스·바둑·쇼기 등 2차원 완전관측 게임에서의 휴리스틱 최적화와 딥러닝 성공 사례를 소개하고, 전이 학습과 진화적 전이 학습(Evolutionary Transfer Learning)의 이론적 배경을 정리한다. 특히, Stockfish와 같은 고성능 체스 엔진의 물류·위치·이동성 등 정형화된 휴리스틱이 다른 도메인에 직접 적용될 때 발생하는 한계점을 강조한다.
다음으로 드래곤체스 엔진 설계 세부사항을 설명한다. 각 보드의 288칸을 0‑287 정수 인덱스로 매핑하고, NumPy 1차원 배열에 조각 정보를 저장한다. 양수는 Gold, 음수는 Scarlet을 나타내며, 이를 통해 위협 탐지, 이동 가능성, 피스‑스퀘어 보너스 등을 빠르게 계산한다. PyGame 기반 GUI를 제공해 시각적 디버깅과 인간‑AI 대결을 지원한다.
핵심 실험은 Stockfish의 5가지 주요 휴리스틱을 드래곤체스에 그대로 이식하는 단계와, 이후 CMA‑ES를 이용해 파라미터를 진화시키는 두 단계로 구성된다. 물류 값은 체스 조각과 유사한 역할을 하는 드래곤체스 조각에 매핑했으며, PSQT는 8×8 표준 테이블을 각 층에 그대로 적용했다. 이동성은 각 조각이 현재 위치에서 만들 수 있는 합법적 움직임 수를 그대로 카운트했으며, 왕 안전과 위협 감지는 기존 체스 로직을 층간 거리까지 확장하지 않은 채 사용했다. 이러한 직접 전이는 초기 테스트에서 승률이 35%에 불과했으며, 특히 왕 안전과 층간 위협을 무시한 것이 큰 원인으로 지적되었다.
CMA‑ES는 30차원 실수 파라미터 벡터를 최적화 대상으로 설정했다. 초기 평균은 Stockfish 파라미터, 초기 공분산은 대각선 형태(σ=0.3)로 시작했으며, 각 세대마다 200개의 후보 해를 샘플링했다. 적합도는 20판씩 자체 미니맥스(깊이 3)와 대전해 얻은 승점 평균으로 정의했다. 500세대 이후 파라미터는 수렴했으며, 주요 변화는 물류 값(예: Dragon 900→1200, Basilisk 320→450)과 PSQT 가중치(하늘층에 대한 보너스 증가)였다.
진화된 에이전트를 50라운드 스위스 토너먼트에 투입했을 때, 평균 승률은 68%로 기존 미니맥스(45%)와 비교해 크게 향상되었다. 토너먼트 결과는 1위, 2위, 3위 순으로 진화된 에이전트, 기본 미니맥스, 무작위 플레이어가 차지했다. 또한, 각 게임의 평균 이동 수가 감소하고, 왕의 체크메이트까지 걸리는 평균 턴 수가 12턴에서 9턴으로 단축되는 등 전반적인 플레이 품질이 개선되었다.
논문은 이러한 결과를 통해 (1) 복잡한 다층 보드 게임에서도 기존 도메인 지식을 전이하고, (2) 진화적 최적화가 휴리스틱을 효과적으로 재조정할 수 있음을 입증한다. 한계점으로는 CMA‑ES의 연산 비용이 높아 대규모 파라미터 공간에서는 비효율적일 수 있으며, 현재는 정형화된 휴리스틱만을 다루었기 때문에 비선형적인 전략(예: 협동 공격)에는 아직 한계가 있다. 향후 연구 방향으로는 (a) 신경망 기반 평가 함수와의 하이브리드 전이, (b) 메타‑학습을 통한 자동 파라미터 초기화, (c) 다중 목표 최적화(승률 외에 게임 길이, 자원 사용 등) 등을 제시한다.
원본 논문
고화질 논문을 불러오는 중입니다...
댓글 및 학술 토론
Loading comments...
의견 남기기