전략 네트워크 게임에서 인간 행동 모델링: hCAB의 우수성
초록
본 논문은 전략적 네트워크 게임인 Junior High Game(JHG)에서 인간 플레이어의 행동을 모사하기 위해 네 가지 파라미터 기반 모델을 비교한다. 행동 매칭(TFT)과 커뮤니티 인식 행동(CAB) 두 가지 가정과, 평균 행동을 학습하는 PSO와 행동 분포를 학습하는 EPDM 두 가지 학습 방법을 조합해 총 네 모델을 만든다. 실험 결과, 분포를 모델링하고 커뮤니티 인식을 반영하는 hCAB(EPDM‑CAB) 모델이 인구 동역학과 개인 수준 모두에서 인간과 가장 유사한 행동을 재현한다.
상세 분석
이 연구는 인간 네트워크가 사회적 불평등, 정보 흐름, 집단 괴롭힘 등 중요한 현상에 미치는 영향을 이해하기 위한 실험 플랫폼으로 Junior High Game을 선택했다. JHG는 각 라운드마다 플레이어가 토큰을 ‘보관’, ‘기부’, ‘공격’ 중 하나로 할당하고, 이 할당이 플레이어의 인기도(popularity)에 가중치가 부여된 형태로 반영되는 동적, 방향성, 가중치, 부호가 있는 네트워크를 생성한다. 이러한 복합적인 상호작용은 단순 협력‑배신 딜레마를 넘어, ‘누구와 협력하고, 언제 새로운 관계를 형성·해체하며, 방어와 공격을 어떻게 조절할지’라는 다차원 전략 선택을 요구한다.
모델링 접근은 크게 두 축으로 나뉜다. 첫 번째 축은 인간이 행동을 선택할 때 따르는 인지적 가정이다. ‘행동 매칭(TFT)’은 상대방이 이전 라운드에 자신에게 한 행동을 그대로 모방한다는 단순 복제 메커니즘을 전제로 한다. 반면 ‘커뮤니티 인식 행동(CAB)’은 플레이어가 소속된 집단을 기반으로 협력·공격을 조정하고, 집단 내 결속과 외부 위협에 대한 방어를 전략적으로 수행한다는 가정을 둔다. 두 번째 축은 학습 목표이다. PSO는 전체 데이터셋에서 평균 토큰 할당 패턴을 최소화하는 파라미터 집합을 찾으며, 이는 ‘평균 인간 행동’을 모델링한다. 그러나 평균만을 따를 경우 개별 플레이어 간 변이와 그에 따른 인구 수준의 동역학을 재현하기 어렵다. 이를 보완하기 위해 제안된 EPDM은 유전 알고리즘 기반의 세대 진화를 통해 100개의 파라미터화된 전략을 동시에 학습한다. 각 전략은 인간 플레이어 집단 내 전략 분포를 근사하도록 설계되며, 적합도 평가에 사용되는 맞춤형 토큰 할당 유사도 함수는 양·음·보관 토큰의 수와 대상 플레이어 일치를 정밀히 측정한다.
실험에서는 네 모델을 소규모 인공 사회에 적용해 인기도 변동, 토큰 흐름, 그룹 형성·해체 패턴을 비교했다. EPDM‑CAB(hCAB) 모델은 인간 데이터와 가장 높은 상관관계를 보였으며, 특히 집단 내 협력과 외부 공격에 대한 방어 메커니즘이 인간 집단의 ‘동맹 형성·해체’와 유사하게 나타났다. 반면 TFT 기반 모델은 과도하게 보복적인 행동을 보이며 인구 동역학이 급격히 왜곡되었다. 추가 사용자 연구에서는 인간 참가자들이 hCAB 에이전트를 인간 플레이어와 구분하기 어려웠으며, 이는 hCAB가 개인 수준에서도 설득력 있는 행동을 생성한다는 증거다.
이 논문의 주요 공헌은 (1) 인간 행동을 파라미터화된 두 가지 인지 가정으로 명확히 구분하고, (2) 평균 중심 학습과 분포 중심 학습을 비교함으로써 전략적 네트워크 게임에서 행동 분포 모델링의 중요성을 입증했으며, (3) EPDM이라는 새로운 진화 기반 방법을 제시해 제한된 데이터 환경에서도 다변량 전략 분포를 효과적으로 추정할 수 있음을 보였다. 결과는 인간 네트워크의 복합적 집단 역학을 시뮬레이션하고, 정책 설계나 교육용 시뮬레이터 등에 활용할 수 있는 실용적인 인간 행동 모델을 제공한다.
댓글 및 학술 토론
Loading comments...
의견 남기기