자동 몬테카를로 탐색 알고리즘 발견과 최적화

초록

본 논문은 MCS 알고리즘을 자동으로 설계하기 위한 문법 기반 탐색 프레임워크를 제안한다. 후보 알고리즘 공간을 문법으로 정의하고, 다중 팔 밴딧을 이용해 주어진 문제 분포에 대해 평균 성능이 가장 높은 알고리즘을 탐색한다. 세 가지 도메인 실험에서 기존 대표 알고리즘들을 능가하는 새로운 MCS 알고리즘을 발견했으며, 발견된 알고리즘은 훈련 분포 변화에도 비교적 강인함을 보였다.

상세 분석

이 연구는 기존 MCS 연구가 “하나의 보편적 알고리즘”을 찾는 데 집중하는 반면, 실제 적용 현장에서는 문제 특성을 반영한 맞춤형 알고리즘이 필요하다는 점을 강조한다. 이를 위해 저자들은 먼저 MCS 알고리즘을 구성하는 기본 연산(예: 시뮬레이션, 선택, 백업, 재시작 등)을 토큰화하고, 이 토큰들을 조합해 문법 규칙을 정의함으로써 무한에 가까운 후보 알고리즘 공간을 체계적으로 표현한다. 문법은 컨텍스트 자유 문법(CFG) 형태로 설계되어, 재귀적 구조와 조건부 연산을 자연스럽게 포함한다.

후보 공간 탐색은 전통적인 그리드 서치나 무작위 샘플링이 비효율적일 수 있기에, 다중 팔 밴딧(MAB) 알고리즘인 Upper Confidence Bound (UCB)를 채택한다. 각 후보 알고리즘을 하나의 팔로 간주하고, 훈련 문제 집합에 대해 실행한 결과(승률 혹은 점수)를 보상으로 사용한다. UCB는 탐색과 활용 사이의 균형을 자동으로 조정해, 초기에는 다양한 후보를 시도하고, 성능이 입증된 후보에 더 많은 평가 자원을 할당한다. 이 과정은 제한된 계산 예산 내에서 최적에 근접한 알고리즘을 찾는 근사 해법을 제공한다.

실험은 (1) 퍼즐형 1인용 게임인 “Sokoban”, (2) 전술 보드 게임 “Hex”, (3) 연속적 상태 공간을 갖는 “Sliding Tile” 등 세 가지 도메인에서 수행되었다. 각 도메인마다 1000여 개의 훈련 인스턴스를 무작위로 생성하고, 발견된 알고리즘을 기존 UCT, NMC, RAVE 등과 비교했다. 결과는 대부분의 경우 발견된 알고리즘이 평균 승률·점수에서 5~12% 정도 우위를 차지했으며, 특히 탐색 깊이가 얕은 초기 단계에서 빠른 수렴을 보였다. 또한, 훈련 분포를 바꾸어 재평가했을 때 성능 저하가 미미해, 발견된 알고리즘이 과적합에 취약하지 않음을 확인했다.

핵심 기여는 (①) MCS 알고리즘을 형식화한 문법 설계, (②) MAB 기반 효율적 후보 탐색 메커니즘, (③) 다양한 도메인에서의 실증적 검증이다. 이 접근법은 연구자가 직접 알고리즘을 설계·튜닝하는 비용을 크게 절감하고, 새로운 게임이나 최적화 문제에 빠르게 맞춤형 MCS 전략을 제공할 수 있게 한다. 다만, 후보 공간이 여전히 지수적으로 커질 수 있어 문법 설계 시 연산 복잡도와 표현력 사이의 트레이드오프를 신중히 고려해야 한다는 점이 향후 과제로 남는다.