전통 인디언 럼미의 수량 기반 규칙 모델링 지표 최적화 접근법

읽는 시간: 8 분
...

📝 원문 정보

- Title: Quantitative Rule-Based Strategy modeling in Classic Indian Rummy A Metric Optimization Approach
- ArXiv ID: 2601.00024
- 발행일: 2025-12-26
- 저자: Purushottam Saha, Avirup Chakraborty, Sourish Sarkar, Subhamoy Maitra, Diganta Mukherjee, Tridib Mukherjee

📝 초록

게임 이론, 루미, 휴리스틱 최적화, 상대방 모델링, 규칙 기반 전략, 제로섬 게임에 대해 논의한다. 클래식 인디언 루미는 운과 기술 사이에서 균형을 이루는 카드 게임이다. 본 논문에서는 강화 학습과 몬테카를로 방법 대신 해석 가능한 규칙 기반 접근법을 제시하며, *MinDist*라는 새로운 정량적 지표를 소개한다.

💡 논문 해설

1. **루미 게임의 복잡성을 이해하기 위한 새로운 지표** - *MinDist*는 현재 카드 상태에서 유효한 조합까지 몇 번의 변경이 필요한지를 측정하는 지표로, 루미의 전략적 의사결정을 돕는다. 이를 통해 게임 플레이어는 자신의 손에 있는 카드를 더 효율적으로 관리할 수 있다.
  1. 상대방 모델링을 통한 향상된 전략 개발 - 상대방의 손을 예측하고 그들의 행동을 반영하는 전략을 개발함으로써 게임에서 우위를 점할 수 있다. 이는 루미 플레이어가 상대방이 어떤 카드를 가지고 있는지 추측하여 더 나은 결정을 내릴 수 있게 한다.

  2. 제로섬 시뮬레이션을 통한 성능 향상 확인 - 제로섬 게임 설정에서 개발된 전략의 성능을 검증하고, 기존 랜덤 및 MinScore 기반 전략과 비교하여 개선점을 확인한다. 이를 통해 루미 플레이어는 더 효과적인 전략을 수립할 수 있다.

📄 논문 발췌 (ArXiv Source)

게임 이론, 루미, 휴리스틱 최적화, 상대방 모델링, 규칙 기반 전략, 제로섬 게임.

서론

클래식 인디언 루미(13장)는 운과 기술 사이의 균형을 이루는 가장 널리 played 카드 게임 중 하나입니다. 플레이어들은 유효한 melds: 카드 세트나 시퀀스를 만들기 위해 연속적인 턴에서 카드를 뽑고 버리는 것을 목표로 합니다. 게임의 결정 복잡성은 숨겨진 정보, 확률적 뽑기 및 가능한 카드 배열의 조합 폭발에서 발생합니다.

강화 학습(Reinforcement Learning)과 몬테카를로 방법이 다른 불완전 정보 게임에 널리 사용되었지만, Rummy의 구조는 명시적인 손 품질 지표를 기반으로 한 해석 가능한 규칙 기반 접근법을 초대합니다. 본 논문에서는 이러한 규칙 기반 프레임워크를 개발하고, 플레이를 안내하는 새로운 정량적 지표인 MinDist를 소개합니다.

MinDist는 기존의 MinScore 지표에 조합적 근접성을 추가하여 손이 유효해지기 위해 필요한 최소 카드 변경 수를 포함합니다. 우리는 비트 마스크와 슈퍼 제커 사용을 활용하는 계산 트릭을 결합하여 이 문제를 해결할 수 있습니다. 또한 전략 개발에 있어 휴리스틱 상대방 손 모델링을 내장하여 도메인 지식 및 플레이 전문성을 전략에 추가하여 성능을 개선합니다. 에이전트는 2인 제로섬 시뮬레이션에서 평가되며, 가설 검정은 기준 랜덤 및 MinScore 기반 전략보다 전략적 성능의 유의미한 향상을 확인합니다.

논문의 나머지는 다음과 같이 구성됩니다. 섹션 II에서는 Rummy 게임의 규칙을 소개하고, 섹션 III은 이 분야에서 관련 연구를 검토하며, 섹션 IV은 본 연구에서 사용된 손 평가 지표를 정식화합니다. 섹션 V은 이러한 지표를 계산하기 위해 개발된 알고리즘을 제시하고, 섹션 VI은 휴리스틱 상대방 모델링 프레임워크에 대해 설명합니다. 섹션 VII은 시뮬레이션 설정과 실험 설계를 기술하며, 섹션 VIII에서는 실증적 결과를 보고 및 분석하고, 섹션 IX에서는 주요 발견 사항과 의미를 논의하여 논문을 마무리합니다.

게임 규칙

Rummy는 많은 변형이 있었지만, 널리 인기 있는 13장 클래식 인디언 Rummy에 대한 문헌은 매우 제한적입니다. 각 플레이어에게 처음에 13장의 카드가 나눠지며, 플레이어 수가 2명이라면 52장의 카드 덱을 사용하고, 플레이어 수가 6명이라면 두 개의 52장 덱을 합쳐 게임에 사용합니다. 각 플레이어는 유효한 세트로 카드를 묶기 위해 차례대로 카드를 뽑고 버리는 것을 계속해야 합니다.

게임은 모든 플레이어에게 13장의 카드를 섞고 나눠주며, 게임에 사용할 와일드 제커 카드를 뽑아놓는 것으로 시작됩니다 (예: 9$`\color{red}\vardiamondsuit\color{black}`$가 와일드 제커로 뽑히면 모든 다른 스위트의 9들이 게임의 와일드 제커로 인식되므로 2덱에 대해 7개의 와일드 제커).

게임은 플레이어들이 차례대로 카드를 뽑고 버리는 것을 계속하면서 진행되며, 유효한 melds (크기 최소 3)을 그룹화해야 합니다. 이는 다음과 같습니다:

  • 순수 시퀀스: 같은 스위트의 순서에 있는 카드들로 구성된 그룹 (예: {3$`\color{red}\varheartsuit\color{black}`$, 4$`\color{red}\varheartsuit\color{black}`$, 5$`\color{red}\varheartsuit\color{black}`$, 6$`\color{red}\varheartsuit\color{black}`$}).
  • 불순한 시퀀스: 순서에 있는 카드들로 구성된 그룹에서 와일드카드나 프린트 제커가 하나 이상의 누락된 카드를 대체 (예: {3$`\color{red}\varheartsuit\color{black}`$, 4$`\color{red}\varheartsuit\color{black}`$, 9$`\clubsuit`$, 6$`\color{red}\varheartsuit\color{black}`$}, 여기서 9$`\clubsuit`$는 와일드 제커).
  • 순수 세트: 같은 숫자이지만 다른 스위트의 카드들로 구성된 그룹 (예: {8$`\color{red}\varheartsuit\color{black}`$, 8$`\spadesuit`$, 8$`\color{red}\vardiamondsuit\color{black}`$}).
  • 불순한 세트: 같은 숫자이지만 다른 스위트의 카드들로 구성된 그룹 (예: {8$`\color{red}\varheartsuit\color{black}`$, 8$`\spadesuit`$, 9$`\clubsuit`$}), 여기서 9$`\clubsuit`$는 와일드 제커.

모든 유효한 시퀀스와 세트를 선언하는 플레이어가 게임을 이깁니다. 첫 번째는 반드시 순수 시퀀스여야 하며, 두 번째는 순수 또는 불순한 시퀀스여야 합니다 (유효하지 않은 선언은 즉시 패배 및 80점의 최대 점수로 처리됩니다). 게임 중 언제든지 플레이어는 포기하여 점수를 보존할 수 있습니다 (예: 첫 번째 라운드에서 포기하면 20점, 그 외는 40점), 즉 비교적 무해한 패배를 확보합니다. 적절한 시기에 포기를 결정하는 것은 좋은 Rummy 플레이어에게 중요한 기술입니다. 현재 게임 버전은 100라운드로 제한되며 승패 결과만 있습니다. 승리는 최소 점수 또는 유효한 melds를 제외하고 남은 카드의 점수에 따라 결정됩니다 (다이아몬드, 클럽, 하트, 스페이드 순서대로 각각의 총점). 만약 여전히 비기는 경우에는 먼저 선언된 플레이어가 승리자로 선언됩니다.

게임의 종결은 이긴 플레이어가 차이 점수를 얻는 것으로 결론지어집니다. 그러나 포기의 특별한 경우는 20 또는 40 (첫 번째 움직임에서 포기하거나 두 번째 움직임 이후로 각각 해당)의 제한된 이익을 의미합니다. 이러한 이익은 향후 시뮬레이션에서 플레이어 1에 대한 지표로 사용되며, 게임을 제로섬 게임으로 처리합니다.

관련 연구

게임은 오랫동안 인공지능(AI) 연구의 기본적인 실험 장소를 제공해왔습니다. 이 분야의 초기부터 그들은 추론, 불확실성 및 의사결정을 연구하기 위한 구조화된 환경을 제공했습니다 (Greenwald et al., 2020). 초기 발전은 게임 이론적 대립 검색에 기반했으며, Minimax(Russell and Norvig, 2009)와 Monte Carlo Tree Search(MCTS)(Chaslot et al., 2006)와 같은 방법을 통해 플레이어의 행동을 가능한 게임 상태 트리로 체계적으로 전파했습니다. 큰 상태 공간을 관리하기 위해 깊이 제한 검색과 평가 함수가 도입되어 중간 위치의 값을 근사화했으며, 초기에는 체스(Shannon 1950)와 같은 게임에 대한 도메인 지식으로 설계되었고 나중에는 복잡하거나 확률적인 환경에서 자동 학습되었습니다.

이러한 고전적 접근법은 완벽한 정보를 가정하며, 모든 플레이어가 전체 게임 상태를 관찰할 수 있습니다. 그러나 카드 게임인 Gin Rummy와 클래식 인디언 루미는 덱이나 상대방의 손에 숨겨진 카드로 인해 정보가 부족합니다. 따라서 최적 플레이가 훨씬 복잡해집니다. 포커 같은 불완전 정보 게임에 대한 연구는 Loki-2(Billings et al., 1999)와 같이 확률적인 근사를 사용하여 숨겨진 상태를 평가하는 에이전트의 발전을 크게 촉진했습니다. Loki-2의 Hand Evaluator는 가능한 상대 손에 대한 자신의 손의 강도를 추정하고, 믿음 기반 추론을 전략적 평가에 통합합니다.

인디언 루미에 대한 연구가 제한적이지만, 여러 연구들은 유사한 변형체인 Gin Rummy를 조사하여 그 전략적인 측면을 이해하는 데 의미있는 진전을 보였습니다. Eicholtz et al (2021)은 규칙 기반 에이전트의 생성과 다양한 지표를 통한 전략적 의사결정에 대해 보여주었으며, 제안된 MinDist 지표의 수정 및 휴리스틱 버전인 myopic meld distance와 폐기 카드의 적합성 추정은 이 변형체에 대한 풍부한 문헌을 형성했습니다.

이러한 기반 위에서 우리의 연구는 클래식 인디언 루미에 양적 규칙 기반 전략 모델링을 적용합니다. 우리는 직관적인 플레이어의 휴리스틱을 정량화된 의사결정 기준으로 형식화하는 지표 최적화 프레임워크를 도입하여 전통적인 기호 기반 전략과 현대적인 최적화 기반 평가 방법 사이의 연결을 만듭니다.

지표 형성

게임 분석을 위해 다음에 몇 가지 손의 지표를 정의합니다. 이 지표는 에이전트가 게임 동안 결정을 내릴 때 도움이 됩니다. 우리는 주로 MinScoreMinDist라는 두 가지 지표를 고려하며, 이것이 플레이를 안내합니다.

MinScore

손 $`h`$와 게임의 와일드카드 제커 $`wcj`$가 주어진 경우, $`MinScore(h, wcj)`$는 카드를 유효한 순수/불순 시퀀스 및 세트로 최적화하여 그룹화함으로써 손의 최소 점수를 반환합니다. 따라서 특정 시점에서 MinScore는 게임이 바로 중단될 경우의 손실량을 나타냅니다 - 높은 MinScore는 높은 손실(게임이 몇 번의 움직인 후에 종료되는 경우)을 의미하고, 낮은 MinScore는 작은 손실을 의미하며, 0점 MinScore는 유효한 선언을 나타냅니다.

예를 들어, $`3\clubsuit 4\clubsuit 5\clubsuit 6\clubsuit\;\; 9\color{red}\vardiamondsuit\color{black}10\color{red}\vardiamondsuit\color{black}J\color{red}\vardiamondsuit\color{black}\;\; 4\color{red}\vardiamondsuit\color{black}4\color{red}\varheartsuit\color{black}4\spadesuit\;\; K\spadesuit K\color{red}\varheartsuit\color{black}7\spadesuit`$의 손과 $`3\spadesuit`$가 와일드카드 제커인 경우, 첫 두 묶음이 유효한 순수 시퀀스를 형성하므로 요구 사항은 완료됩니다. 그러나 나머지 카드들 중 3장만 유효한 세트를 형성하며, $`K\spadesuit K\color{red}\varheartsuit\color{black}7\spadesuit`$의 3장은 그렇지 않으므로 손의 MinScore는 이러한 카드들의 값의 합인 10+10+7 = 27입니다. 이 최적 그룹화 문제는 다음과 같은 재귀를 사용하여 재귀적으로 해결할 수 있습니다:

MATH
\begin{equation}
    MinScore(h, wcj) = \min_{m \in V_{h,S}} MinScore(h \setminus m,\; wcj),
\end{equation}
클릭하여 더 보기

여기서 $`V_{h,S}`$는 손 h와 와일드카드 제커 wcj에서 가능한 모든 유효한 melds의 집합입니다. 일반적으로 클래식 인디언 루미 게임에서 얻을 수 있는 최대 점수는 80점이므로, MinScore를 이전 양과 80 중 작은 값을 취합니다 (이는 선언이 최적일 때 플레이어가 얻는 정확한 점수를 MinScore로 만듭니다). 또한 유효한 melds 집합은 최소화 과정의 각 단계에서 업데이트되어 이미 선택된 카드는 두 번 선택되지 않고 특정 melds (예: 순수 시퀀스 및 순수 또는 불순 시퀀스)가 필요함을 고려합니다.

이 재귀의 기본 사례는 손에 유효한 melds가 없는 경우이며, 이때 min-score를 손에 있는 모든 카드 값의 합으로 설정합니다 (2-10 숫자 카드는 표면 값과 동일한 값을 갖지만, 얼굴 카드와 에이스는 10점을 가집니다. 프린트 제커 및 와일드카드 제커는 0점입니다)로 알려진 사후 점수.

우리는 단일 덱에서 2장의 프린트 제커, 와일드카드 제커와 함께 크기 13인 손을 10000개 무작위로 시뮬레이션하고 각 손의 MinScore를 계산했습니다. 그 결과 경험적 누적 분포함수(CDF)는 다음과 같습니다.

MinScore eCDF (80까지 클리핑됨)
MinScore 히스토그램 (클리핑되지 않음)

80에서 뚜렷한 피크가 관찰되며, 이는 클리핑이 80에서 발생해야 함을 정당화합니다. 또한 무작위로 선택된 손의 MinScore가 대부분 80 또는 그에 가까운 확률이 높다는 점도 확인됩니다.

heuristic으로는 최적 전략에서는 각 라운드마다 MinScore가 개선될 것으로 안전하게 가정할 수 있습니다. 이를 나중에 MinScore 에이전트로 소개합니다. MinScore의 알고리즘적인 과제는 다음 섹션에서 논의됩니다.

여기서 주목해야 할 중요한 점은 이 측정치가 고점 카드를 불일치한 카드에 대해 처벌하지만 유효 구성에 대한 근접성을 반영하지 않는다는 것입니다. 이러한 직관을 해결하기 위해 우리는 새로운 조합적 지표인 MinDist를 개발합니다.

제안된 MinDist 지표

우리는 다음과 같이 정의합니다:

MATH
\begin{equation}
MinDist(H) = \min_{H' \in \mathcal{V}} d(H, H'),
\end{equation}
클릭하여 더 보기

여기서 $`\mathcal{V}`$는 모든 유효한 손의 집합이고, $`d(H, H')`$는 $`H`$를 유효 구성 $`H'`$로 변환하기 위해 필요한 최소 카드 교체 수입니다. 이 지표는 근처 유효 손을 구별하여 더 나은 장기 전략 추정이 가능합니다. 이러한 구조적 거리는 실제로 유효한 선언에 도달할 수 있는 최소 회수를 의미하며, 적절한 스케일과 함께 상대방의 선언 시간을 대리하는 데도 사용될 수 있습니다. 우리는 단일 덱에서 2장의 프린트 제커와 와일드카드 제커를 포함하여 크기 13인 손을 10000개 무작위로 시뮬레이션하고 각 손의 MinDist를 계산했습니다. 히스토그램은 다음과 같습니다.

MinDist 히스토그램

3의 그림에서 무작위로 선택된 손의 MinDist는 매우 높은 확률로 2와 4 사이에 있습니다. 시뮬레이션에서 가장 높게 관찰된 손의 MinDist는 6이지만, 이 지표가 9를 초과하지 않는다는 것을 쉽게 확인할 수 있습니다 (즉, 최대 9장의 카드 교체만으로 손을 완성할 수 있으며, 4장의 카드는 각각 크기 3의 유효 melds 4개와 하나의 크기 4의 유효 meld를 생성하여 손을 분할하는 데 충분합니다). MinDist 지표의 핵심 동기는 MinScore가 게임이 그 당시에 종료될 경우 달성 가능한 최적 점수를 반영하지만, 80점으로 제한되어 많은 손이 80을 MinScore로 갖는다는 점에서 (2그림의 2에서 관찰됨) 손들을 비교하기 어렵습니다. 예를 들어, 순수 시퀀스가 없는 손, 즉 카드 한 장만 더 있으면 순수 시퀀스로 만들 수 있는 meld에 대한 대기 손과 다른 모든 카드들이 유효한 불순한 시퀀스로 분할된 경우. $`3\color{red}\vardiamondsuit\color{black}9\clubsuit 5\color{red}\vardiamondsuit\color{black}6\color{red}\vardiamondsuit\color{black}\;\;J\spadesuit Q\spadesuit 7\clubsuit\;\;2\clubsuit 2\spadesuit 2\color{red}\varheartsuit\color{black}\;\;A\clubsuit A\spadesuit A\color{red}\varheartsuit\color{black}`$ 는 와일드카드 제커가 $`7\clubsuit`$인 손 (따라서 두 번째 그룹은 유효한 불순 시퀀스)에서 그러한 손입니다. 만약 $`9\clubsuit`$ 카드를 $`4\color{red}\vardiamondsuit\color{black}`$로 바꿀 수 있다면, 이 손은


📊 논문 시각자료 (Figures)

Figure 1



Figure 2



Figure 3



Figure 4



Figure 5



Figure 6



감사의 말씀

이 글의 저작권은 연구하신 과학자분들께 있으며, 인류 문명 발전에 공헌해주신 노고에 감사를 드립니다.

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키