스타크래프트 AI를 위한 데이터셋과 군대 군집화 사례
초록
본 논문은 인간·봇 플레이어가 기록한 스타크래프트 실시간 전략 게임의 전체 상태 정보를 포함하는 대규모 데이터셋을 소개한다. 데이터셋 활용 예시로, 각 군대의 유닛 구성을 Gaussian Mixture Model로 군집화하여 전략적 요소를 추출하고, 이를 기반으로 전투 결과를 예측한다.
상세 분석
이 연구는 기존 RTS 데이터셋이 주로 플레이어의 명령(액션)이나 승패 결과에 국한된 반면, 게임 진행 중 발생하는 모든 시점의 유닛 위치, 자원량, 건물 상태, 시야 정보 등을 포괄적으로 수집한 점이 가장 큰 차별점이다. 이러한 “풀 스테이트” 데이터는 미시적 전술부터 거시적 전략까지 다층적인 분석을 가능하게 한다. 논문에서는 특히 군대(Army)라는 중간 추상화 레벨에 주목한다. 각 군대는 시점별 유닛 종류와 수량으로 표현되며, 이를 𝑑‑차원 벡터(𝑑는 유닛 종류 수)로 변환한다. 이후 Gaussian Mixture Model(GMM)을 적용해 군대 구성을 여러 정규분포 군집으로 나눈다. GMM은 군대 구성의 연속적인 변이를 확률적 혼합으로 모델링하므로, 전통적인 K‑means와 달리 군대가 복합적인 전술을 동시에 포함할 때도 자연스럽게 표현한다. 군집 수 K는 BIC(Akaike Information Criterion) 기반 모델 선택 절차로 자동 결정되며, 실험에서는 K≈1215가 최적으로 도출되었다. 각 군집은 “공중 전투 중심”, “기계화 보병”, “고속 기동 유닛” 등 의미 있는 전술 프로파일과 매핑된다. 이후 전투 결과 예측 단계에서는 두 군대의 GMM 혼합 비율을 입력 특징으로 사용하고, 로지스틱 회귀 혹은 Gradient Boosting Tree와 같은 판별 모델을 학습한다. 결과는 기존 단순 유닛 카운트 기반 베이스라인 대비 정확도가 812%p 상승했으며, 특히 복합 전술이 얽힌 전투에서 큰 이점을 보였다. 이와 같이 군대 구성을 확률적 혼합으로 압축하면, 전략 AI가 “어떤 유형의 군대가 현재 상황에 적합한가”를 빠르게 판단하고, 전술 선택을 동적으로 조정할 수 있는 기반이 된다. 또한, GMM 파라미터 자체가 전략적 메타데이터(예: 평균 유닛 비율, 공분산)로 활용되어, 게임 전반의 메타전략 분석이나 밸런스 패치 효과 평가에도 응용 가능하다.