보드 게임에서의 사회 학습 방법

** 본 논문은 강화학습 기반 에이전트를 자기대전이 아닌 사회적 환경에서 훈련시켜, 체스·스크래블 등 보드 게임 클럽에서 이루어지는 멘토링과 유사한 학습 효과를 검증한다. 라운드 로빈·수정 스위스 토너먼트 방식을 활용해 에이전트들을 상호 대전시키고, 동일 파라미터를 가진 자기대전 에이전트와 성능을 비교한다. 실험 결과, 사회적 학습을 거친 에이전트가 더 다양한 전략을 습득하고, 최종 승률·안정성 모두에서 자기대전 에이전트를 능가함을 확인하였…

저자: Vukosi N. Marivate, Tshilidzi Marwala

보드 게임에서의 사회 학습 방법
** 본 논문은 보드 게임 분야에서 강화학습 에이전트의 학습 효율성을 높이기 위해 ‘사회적 학습(Social Learning)’이라는 새로운 훈련 패러다임을 제안한다. 전통적인 자기대전(self‑play) 방식은 에이전트가 스스로 생성한 게임 데이터를 통해 정책을 최적화하지만, 상대가 제한적이어서 전략 다양성이 부족하고, 특정 상황에 과적합될 위험이 있다. 이를 해결하고자 저자들은 인간 플레이어가 클럽에서 서로 멘토링하고 관찰하며 배우는 과정을 모방해, 여러 에이전트가 동시에 서로 대전하도록 설계하였다. 논문은 크게 여섯 부분으로 구성된다. Ⅰ 배경에서는 인공지능이 보드 게임을 마스터한 사례(체스, 바둑 등)를 소개하고, 강화학습과 특히 TD‑λ 기반의 모델프리 방법이 어떻게 게임 정책을 학습하는지를 설명한다. 또한 사회적 학습의 심리학적 근거와 기존 사회적 최적화 기법(Particle Swarm, Memetic Algorithms)과의 차별점을 명확히 한다. Ⅱ 방법론에서는 두 가지 토너먼트 메커니즘을 상세히 제시한다. 라운드 로빈(Round Robin) 방식은 모든 에이전트가 한 번씩 서로 대전하도록 하여, 각 에이전트가 가능한 모든 상대와 상호작용한다. 수정 스위스(Modified Swiss) 방식은 승자와 패자를 각각 별도의 풀에 배치하고, 매 라운드마다 승자와 패자를 다시 매칭시켜 강한 에이전트가 더 강한 상대와 대전하도록 유도한다. 이 과정은 멘토‑멘티 관계를 모델링한 것으로, 승자 풀에 있는 에이전트는 멘토 역할을, 패자 풀에 있는 에이전트는 학습자 역할을 수행한다. 학습 알고리즘은 TD‑λ를 채택했으며, 행동 가치 함수 Q(s,a)를 테이블 형태로 유지한다. 탐색 정책은 ε‑greedy이며, ε는 학습 초기에 0.2~0.3 사이에서 시작해 에피소드가 진행될수록 점차 감소한다. 파라미터(학습률, 할인율, λ)는 각 에이전트마다 무작위로 초기화해 초기 다양성을 확보한다(표 1). Ⅲ 게임 모델링에서는 실험 대상 게임으로 틱택토(Tic‑Tac‑Toe)를 선택한다. 상태는 9개의 보드 셀과 현재 차례를 포함한 10개의 변수로 정의했으며, 각 셀은 빈칸, O, X 중 하나의 값을 가진다. 보상 구조는 승리 +1, 패배 –1, 무승부 0, 비종료 상태 0으로 단순화하였다. 게임 진행은 중앙 게임 컨트롤러가 관리하며, 각 에이전트의 승패와 학습 파라미터를 기록한다. Ⅳ 실험 설계는 두 단계로 나뉜다. 첫 번째 단계는 사전 정의된 10개의 테스트 보드에서 정답 수를 맞추는 정확도 평가이며, 두 번째 단계는 실제 대전에서 승률을 측정하는 종합 평가이다. 사회적 학습 에이전트는 라운드 로빈과 수정 스위스 두 환경에서 각각 훈련되었고, 동일 파라미터를 가진 자기대전 에이전트와 직접 비교하였다. Ⅴ 결과 분석에서는 사회적 학습 에이전트가 테스트 보드 정확도에서 평균 9.2/10을 기록, 자기대전 에이전트는 7.4/10에 머물렀음을 보고한다. 승률 측면에서도 수정 스위스 방식으로 훈련된 에이전트는 68% 이상의 승률을 달성했으며, 라운드 로빈 방식은 62% 수준이었다. 반면 자기대전 에이전트는 52%에 불과했다. 특히 인구 규모를 늘렸을 때 수정 스위스 방식은 고성능 에이전트 비율이 비선형적으로 증가하는 현상을 보였으며, 이는 멘토‑멘티 구조가 학습 효율을 크게 증대시킨다는 것을 시사한다. Ⅵ 논의에서는 사회적 학습이 강화학습의 데이터 다양성을 자연스럽게 확보함으로써 정책의 일반화와 안정성을 향상시킨다는 점을 강조한다. 또한 함수 근사 없이 테이블 기반 Q‑학습을 사용했음에도 불구하고 충분히 경쟁력 있는 성능을 얻었으며, 이는 상태 공간이 제한적인 보드 게임에서 비용 효율적인 접근법임을 의미한다. 향후 연구에서는 더 복잡한 게임(예: 바둑, 체스)으로 확장하고, 신경망 기반 정책 근사를 결합해 대규모 상태 공간에서도 사회적 학습의 효과를 검증할 필요가 있다. 결론적으로, 본 연구는 보드 게임 에이전트 훈련에 사회적 학습 메커니즘을 도입함으로써 자기대전만으로는 얻기 어려운 전략 다양성과 강인성을 확보했으며, 수정 스위스 토너먼트와 같은 구조화된 매칭 방식이 에이전트 집단 전체의 성능을 효율적으로 끌어올릴 수 있음을 입증하였다. **

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기