대규모 바둑 게임 코퍼스에서의 수패턴 추세 분석
초록
본 논문은 방대한 바둑 기보 데이터를 정량화하여 각 수의 요약 정보를 추출하고, 데이터 마이닝 기법으로 특징을 선별한다. 선별된 특징이 선수의 실력, 영토지향·공격성 같은 스타일과 통계적으로 유의미하게 연결됨을 보이며, 이를 기반으로 실력 예측 및 스타일 분류 모델을 제시한다.
상세 분석
이 연구는 먼저 1백만 판 이상의 온라인·오프라인 바둑 기보를 수집하고, 각 수를 “지역(코너·에지·센터)”, “시점(초·중·후반)”, “전술(접합·확장·공격·방어)” 등 12개의 카테고리로 정규화하는 파이프라인을 구축하였다. 요약 정보는 각 판마다 12차원 벡터로 표현되며, 이는 기존의 수읽기 엔진이 제공하는 “착점 점수”와는 달리 인간이 직관적으로 이해할 수 있는 형태다.
다음 단계에서는 전통적인 통계 분석과 함께, 주성분 분석(PCA), t‑SNE 시각화, 그리고 랜덤 포레스트와 서포트 벡터 머신(SVM) 기반의 분류기를 적용하였다. PCA 결과는 상위 3개의 주성분이 전체 변동성의 68%를 설명함을 보여주며, 특히 “초반 중앙 확장 빈도”와 “후반 코너 침투 비율”이 실력 차이를 구분하는 핵심 변수임을 확인했다. t‑SNE 시각화는 강자와 약자, 그리고 “공격형”·“영토형” 스타일이 서로 다른 클러스터를 형성한다는 점을 시각적으로 입증한다.
분류 실험에서는 5단계(초급·중급·고급·프로·대회 우승자) 실력 라벨과 “공격성(aggressivity)”·“영토성(territoriality)”이라는 두 가지 스타일 라벨을 사용하였다. 랜덤 포레스트는 실력 예측에서 정확도 87%, 스타일 구분에서 정확도 81%를 달성했으며, 변수 중요도 분석을 통해 “후반 코너 침투 비율”과 “초반 중앙 확장 빈도”가 각각 스타일·실력 판단에 가장 크게 기여한다는 결과를 얻었다.
또한, 저자들은 이 모델을 실제 온라인 플랫폼에 적용해 신규 플레이어의 초기 레이팅을 자동으로 추정하는 시드링(seed) 시스템을 시뮬레이션하였다. 시드링 후 30일간의 실제 레이팅 변동과 비교했을 때 평균 오차가 기존 Elo 기반 초기값보다 23% 감소하였다. 이는 요약 정보 기반의 데이터 마이닝이 전통적인 승패 기반 레이팅 시스템을 보완할 수 있음을 시사한다.
마지막으로, 연구 결과를 바둑 이론에 연결시켰다. 예를 들어, “초반 중앙 확장 빈도”가 높은 플레이어는 전통적인 ‘세력 확장’ 전략을 선호하며, 이는 고전 문헌에서 “초반 전투형”이라 불리는 스타일과 일치한다. 반면 “후반 코너 침투 비율”이 높은 경우는 ‘끝내기 영토 확보’ 전략과 연관되어, 현대 프로 기사들의 ‘끝내기 영토형’과 유사한 패턴을 보인다. 이러한 정량적 매핑은 기존의 질적 논의를 데이터 기반으로 검증하는 첫 사례라 할 수 있다.